JP2021105987A

JP2021105987A - インタラクティブなオブジェクト選択

Info

Publication number: JP2021105987A
Application number: JP2020204396A
Authority: JP
Inventors: レジャブ・スファールアズマ; Rejeb Sfar Asma; デュラントム; Durand Tom; ブルケナフェドマリカ; Boulkenafed Malika
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2019-12-16
Filing date: 2020-12-09
Publication date: 2021-07-26
Also published as: US20210192254A1; CN112991546A; EP3839793A1; US11893313B2

Abstract

【課題】３Ｄ点群のデータセットを提供することを含むコンピュータによって実施される機械学習の方法を提供する。【解決手段】機械学習の方法において、少なくとも１つのオブジェクトを含む各３Ｄ点群は、それぞれが３Ｄ点群内の同じオブジェクトの各選択操作を表す１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備える。さらに、データセットに基づいて、オブジェクトを含む、入力された３Ｄ点群をセグメント化するように構成されたニューラルネットワークを学習することを含む。セグメント化は、入力された３Ｄ点群およびそれぞれが３Ｄ点群におけるオブジェクトの各選択操作を表す１つまたは複数の入力グラフィカル・ユーザ・インタラクションの仕様に基づく。【選択図】図１

Description

本発明は、コンピュータプログラムおよびシステムの分野、より具体的には、機械学習の方法、システム、およびプログラムに関する。

オブジェクトの設計、エンジニアリング、製造のため、多数のシステムおよびプログラムが市場に提供されている。ＣＡＤは、コンピュータ支援設計（Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＤｅｓｉｇｎ）の略語であり、例えば、オブジェクトを設計するためのソフトウェア・ソリューションに関する。ＣＡＥは、コンピュータ支援エンジニアリング（Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＥｎｇｉｎｅｅｒｉｎｇ）の略語であり、例えば、将来の製品の物理的挙動をシミュレーションするためのソフトウェア・ソリューションに関する。ＣＡＭは、コンピュータ支援製造（Ｃｏｍｐｕｔｅｒ−ＡｉｄｅｄＭａｎｕｆａｃｔｕｒｉｎｇ）の略語であり、例えば、製造工程および動作を定義するためのソフトウェア・ソリューションに関する。このようなコンピュータ支援設計システムにおいて、グラフィカル・ユーザ・インターフェースは、技術の効率に関して、重要な役割を果たす。これらの技術は、製品ライフサイクル管理（ＰｒｏｄｕｃｔＬｉｆｅｃｙｃｌｅＭａｎａｇｅｍｅｎｔ：ＰＬＭ）システムに組み込むことができる。ＰＬＭとは、企業が、拡張エンタープライズの概念全体にわたって、製品データを共有し、共通の工程を適用し、構想に始まり製品寿命の終わりに至る製品開発のための企業知識を活用するのを支援するビジネス戦略を指す。ダッソー・システムズが提供するＰＬＭソリューション（製品名ＣＡＴＩＡ、ＥＮＯＶＩＡ、ＤＥＬＭＩＡ）は、製品エンジニアリング知識をオーガナイズするエンジニアリング・ハブ、製品エンジニアリング知識を管理する製造ハブ、およびエンジニアリング・ハブと製造ハブの両方に対するエンタープライズ統合と接続を可能にするエンタープライズ・ハブを提供する。全てのシステムは、製品、工程、リソースを結ぶオープンなオブジェクトモデルを提供し、最適化された製品定義、製造準備、生産およびサービスを推進する、動的な知識ベースの製品作成および意思決定支援を可能にする。

このような背景、およびその他の背景において、点群のセグメント化が非常に重要になってきている。以下の論文は、点群のセグメント化に関連しており、以降で参照する。
［１］ＡｌｅｋｓｅｙＧｏｌｏｖｉｎｓｋｙ，ＴｈｏｍａｓＦｕｎｋｈｏｕｓｅｒ．“Ｍｉｎ−ＣｕｔＢａｓｅｄＳｅｇｍｅｎｔａｔｉｏｎｏｆＰｏｉｎｔＣｌｏｕｄｓ”−ＩＣＣＶＷｏｒｋｓｈｏｐｓ，２００９，
［２］ＫｕｎＬｉｕ，ＪａｎＢｏｅｈｍ．“ＡＮｅｗＦｒａｍｅｗｏｒｋｏｒＩｎｔｅｒａｃｔｉｖｅＳｅｇｍｅｎｔａｔｉｏｎｏｆＰｏｉｎｔＣｌｏｕｄｓ”−Ｉｎｔ．Ａｒｃｈ．Ｐｈｏｔｏｇｒａｍｍ．ＲｅｍｏｔｅＳｅｎｓ．ＳｐａｔｉａｌＩｎｆ．Ｓｃｉ．２０１４，および
［３］ＳｅｄｌａｃｅｋＤ．，ＺａｒａＪ．“ＧｒａｐｈＣｕｔＢａｓｅｄＰｏｉｎｔ−ＣｌｏｕｄＳｅｇｍｅｎｔａｔｉｏｎｆｏｒＰｏｌｙｇｏｎａｌＲｅｃｏｎｓｔｒｕｃｔｉｏｎ”−ＩＳＶＣ２００９．

これらの方法には、効率、堅牢性、および一般化能力の欠如の問題がある。

こうした背景において、点群セグメント化のための改善された機械学習方法が必要とされる。

よって、コンピュータによって実施される機械学習の方法が提供される。本方法は、３Ｄ点群のデータセットを提供することを含む。各３Ｄ点群は、少なくとも１つのオブジェクトを含む。各３Ｄ点群は、１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備える。グラフィカル・ユーザ・インタラクションのそれぞれは、３Ｄ点群における同じオブジェクトの各選択操作を表す。本方法は、さらに、データセットに基づいて、オブジェクトを含む、入力された３Ｄ点群をセグメント化するように構成されたニューラルネットワークを学習することを含む。セグメント化は、前記入力された３Ｄ点群と、１つまたは複数の入力されたグラフィカル・ユーザ・インタラクションの仕様とに基づく。入力されたグラフィカル・ユーザ・インタラクションのそれぞれは、当該３Ｄ点群における前記オブジェクトの各選択操作を表す。

本方法は、以下のうち１つまたは複数を含んでいてもよい。

３Ｄ点群のデータセットの提供は、
３Ｄ点群、および各３Ｄ点群について、当該３Ｄ点群における前記同じオブジェクトの位置に関する情報を提供することと、
各３Ｄ点群について、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれをシミュレーションすることによって仕様を決定し、
前記３Ｄ点群に、前記１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備えさせることと、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれは、それぞれが３Ｄ点群上で定義される１つまたは複数のシード位置に対応し、前記グラフィカル・ユーザ・インタラクションのシミュレーションは、前記１つまたは複数のシード位置を決定することを含み、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションは、前記同じオブジェクトを選択するためのものであって、かつ、それぞれが前記同じオブジェクト上に定義された１つまたは複数の第１のシード位置に対応する、第１のグラフィカル・ユーザ・インタラクションを含み、
前記１つまたは複数のシード位置の決定は、前記１つまたは複数の第１のシード位置を前記同じオブジェクト上に拡散させることを含み、
少なくとも１つの３Ｄ点群について、１つまたは複数のグラフィカル・ユーザ・インタラクションは、前記同じオブジェクトの外側の領域を破棄するためのものであって、かつ、それぞれが前記同じオブジェクトの外側に定義された１つまたは複数の第２のシード位置に対応する、第２のグラフィカル・ユーザ・インタラクションをさらに含み、
前記３Ｄ点群に仕様を備えさせることは、グラフィカル・ユーザ・インタラクションのそれぞれのシミュレーションに基づいて、３Ｄ点群の各点に、当該点における選択操作の強度を定量化する座標を追加することを含み、かつ／あるいは、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれは、前記同じオブジェクトを選択するためのもの、または前記同じオブジェクトの外側の領域を破棄するためのものであり、前記３Ｄ点群の各点について、前記座標の追加は、
座標を初期値に設定することと、
前記同じオブジェクトを選択するためのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションと当該点との間の近さに応じて当該座標を増加させることと、
前記同じオブジェクトの外側の領域を破棄するためのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションと当該点との間の近さに応じて当該座標を減少させることと、を含む。

さらには、本方法に従って学習可能なニューラルネットワーク、例えば、本方法に従って学習されたニューラルネットワークが提供される。

さらには、コンピュータによって実施される、当該ニューラルネットワークの利用方法が提供される。本利用方法は、３Ｄ点群を提供することを含み、当該３Ｄ点群は、オブジェクトを含む。本利用方法は、以下の１回または複数回の繰り返しをさらに含む。１つまたは複数のグラフィカル・ユーザ・インタラクションを実行することによって前記オブジェクトの選択操作を実行し、前記ニューラルネットワークを適用することによって、前記３Ｄ点群と前記１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様とに基づいて、前記３Ｄ点群をセグメント化する。

本利用方法は、以下のうち１つまたは複数を含んでいてもよい。

本方法は、前記選択操作の実行後、かつ前記ニューラルネットワークの適用前に、さらに、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションよって定義される１つまたは複数のシード位置を決定することにより、前記仕様を決定することと、
前記３Ｄ点群に前記仕様を備えさせることであって、前記３Ｄ点群の各点に、当該点における選択操作の強度を定量化する座標を追加することを含む、備えさせることとを含み、かつ／あるいは、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションは、以下のうちの１つまたは複数を含む。

前記オブジェクト上で１回または複数回のクリックを実行することと、
オブジェクト上でストロークを実行することと、
オブジェクト上、および／または、オブジェクトの周囲に、境界ボックスを定義することと、
前記オブジェクトの外側で１回または複数回のクリックを実行することと、および／または、
オブジェクトの外側でストロークを実行すること。

さらには、前記方法、および／または、前記利用方法を実行するための命令を含むコンピュータプログラムが提供される。

さらには、前記コンピュータプログラム、および／または、前記ニューラルネットワークを記録したデータ記憶媒体を備える装置が提供される。

前記装置は、例えば、ＳａａＳ（サービスとしてのソフトウェア）または他のサーバー上で、あるいはクラウドベースのプラットフォームで、非一時的なコンピュータ読み取り可能媒体を形成するか、またはそれらとして機能してもよい。あるいは、前記装置は、前記データ記憶媒体に接続されたプロセッサを備えていてもよい。したがって、前記装置は、全体として、または部分的に、コンピュータシステムを形成してもよい（例えば、前記装置は、システム全体のサブシステムである）。本システムは、さらに、前記プロセッサに接続されたグラフィカル・ユーザ・インターフェースを備えていてもよい。
ここで、本発明の実施形態を、非限定的な例として、添付の図面を参照して説明する

本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本方法を例示した図。本システムの例。

コンピュータによって実施される機械学習の方法が提案される。本方法は、３Ｄ点群のデータセットを提供することを含む。各３Ｄ点群は、少なくとも１つのオブジェクトを含む。各３Ｄ点群は、それぞれが当該３Ｄ点群における同じオブジェクトの各選択操作を表す１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備える。本方法は、さらに、データセットに基づいて、オブジェクトを含む、入力された３Ｄ点群をセグメント化するように構成されたニューラルネットワークを学習することを含む。前記セグメント化は、前記入力された３Ｄ点群と、それぞれが当該３Ｄ点群における当該オブジェクトの各選択操作を表す１つまたは複数の入力されたグラフィカル・ユーザ・インタラクションの仕様とに基づく。本方法は、学習方法とも呼ばれる。

これが、点群セグメント化のための改善された機械学習方法を構成する。

特に、本学習方法は、オブジェクトを含む、入力された３Ｄ点群をセグメント化するように構成されたニューラルネットワークを学習する。これは、本学習方法が機械学習、例えば、従来のアプローチではない点群セグメント化の背景におけるディープラーニングを用いることを意味する。特に、これにより、機械学習、例えば、新しい技術的背景における深層学習の、よく知られた利点の恩恵が得られる。実際、本開示で説明されているように、このアプローチのテストに成功している。

当該ニューラルネットワークは、提供された３Ｄ点群のデータセットに基づいて学習され、当該データセットの各３Ｄ点群は、それぞれが当該３Ｄ点群における同じオブジェクトの各選択操作を表す１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備える。言い換えると、各３Ｄ点群について、３Ｄ点群は、「同じオブジェクト」または「前記同じオブジェクト」と呼ばれる少なくとも１つのオブジェクトを含み、１つまたは複数のグラフィカル・ユーザ・インタラクションのそれぞれは、この同じオブジェクトの各選択操作を表す。当該提供されたデータセットは、訓練データセットとも呼ぶ。したがって、この訓練データセットは、それぞれが仕様を備えた３Ｄ点群で構成され、後者は１つまたは複数のグラフィカル・ユーザ・インタラクションを通じて前記同じオブジェクトの選択操作を指定する。これは、訓練データセットが、３Ｄ点群と、各３Ｄ点群におけるグラフィカル・ユーザ・インタラクションによるオブジェクト選択を指定するデータとの複数の対を含むことを意味する。このような訓練データセットでニューラルネットワークを学習すると、ニューラルネットワークは入力された３Ｄ点群、および当該３Ｄ点群におけるグラフィカル・ユーザ・インタラクションによる入力されたオブジェクト選択の仕様のみに基づいて、当該入力された３Ｄ点群のセグメント化を実行できる。言い換えると、この訓練データセットにより、３Ｄ点群上のオブジェクトの位置と、オブジェクトをセグメント化するためのグラフィカル・ユーザ・インタラクションによるこのオブジェクトの選択に関する情報のみが必要となるような手法で、ニューラルネットワークを学習できる。このように、訓練データセットにより、効率的かつ簡単に３Ｄ点群のセグメント化を実行するように、ニューラルネットワークを学習できる。さらに、セグメント化は、３Ｄ点群上のオブジェクトの位置と、グラフィカル・ユーザ・インタラクションによるこのオブジェクトの選択とに関する情報のみに依存する。例えば、オブジェクトのカテゴリ／タイプ／クラスの仕様など、さらなる仕様には依存しない。実際、以下でさらに説明するように、訓練データセットの各３Ｄ点群の各点は、「オブジェクト」（すなわち、点は、オブジェクト例えば、同じオブジェクトに属する）または「背景」（すなわち、点は背景に属する）として単一の注釈を含んでもよく、すなわち、さらなる注釈を含んでいなくてもよく、例えば、当該点についての、オブジェクトのカテゴリ（例えば椅子）を示してもよい。このように、ニューラルネットワークは、セグメント化するときに、入力された３Ｄ点群におけるオブジェクトのタイプに依存しない。さらに言い換えると、ニューラルネットワークは、特定のタイプのオブジェクト（例えば、椅子）だけでなく、入力された３Ｄ点群から任意のタイプのオブジェクトを抽出できる。これにより、ニューラルネットワークが堅牢になる。

以下でさらに説明するように、本明細書の任意の３Ｄ点群は、合成的に（例えば、仮想スキャンシミュレーションまたはＣＡＤ／メッシュ変換を介して）取得されてもよく、あるいは、実世界で実行される物理的測定（例えば、３Ｄスキャン）から生じてもよい。言い換えると、ニューラルネットワークは、セグメント化する必要のある３Ｄ点群のタイプに依存しないため、これによりニューラルネットワークが堅牢になる。

さらには、３Ｄ点群をセグメント化するように構成されていることに加えて、ニューラルネットワークは実際には３Ｄ点群をインタラクティブにセグメント化するように構成されている。実際、ニューラルネットワークは、特にグラフィカル・ユーザ・インタラクションによるオブジェクト選択の仕様に基づいて学習され、これにより、ニューラルネットワークは入力された３Ｄ点群におけるグラフィカル・ユーザ・インタラクションによるオブジェクト選択を検出することによって、入力された３Ｄ点群をセグメント化できる。言い換えると、利用方法について以下でさらに詳細に説明するように、ニューラルネットワークでは、ユーザが入力された３Ｄ点群上のオブジェクトをグラフィカルに選択し、次いで、ニューラルネットワークを適用することにより、その選択に基づいて、当該入力された３Ｄ点群をセグメント化したものを自動的に取得することができる。これにより、ユーザは多数の、かつ／あるいは、複雑な物理的アクションを実行する必要がないため、ユーザの負担を軽減したセグメント化が可能になる。すなわち、単純で、通常の、かつ／あるいは、身体的な疲労をもたらさない、機械とのグラフィカルな対話操作で十分である。このように、本学習方法は、３Ｄ点群をインタラクティブにセグメント化するための人間工学的に改善されたソリューションを提供する。

さらには、本方法に従って学習可能なニューラルネットワーク、例えば、本方法に従って学習されたニューラルネットワークが提供される。よってニューラルネットワークは、オブジェクトを含む、入力された３Ｄ点群を、セグメント化するように構成されている。セグメント化は、入力された３Ｄ点群と、１つまたは複数の入力グラフィカル・ユーザ・インタラクションの仕様とに基づく。グラフィカル・ユーザ・インタラクションのそれぞれは、３Ｄ点群におけるオブジェクトの各選択操作を表す。ニューラルネットワークは、本方法により学習可能であるため、そのセグメント化は特に効率的であり、特定の一般化力を有する。例えば、前述のように、セグメント化は３Ｄ点群のタイプおよびそれに含まれるオブジェクトのタイプに依存しない。

さらには、コンピュータによって実施される、当該ニューラルネットワークの利用方法が提供される。本利用方法は、オブジェクトを含む３Ｄ点群を提供することを含む。本利用方法は、さらに、以下の１回または複数回の繰り返しを含む。１つまたは複数のグラフィカル・ユーザ・インタラクションを実行することによって前記オブジェクトの選択操作を実行し、前記ニューラルネットワークを適用することによって、前記３Ｄ点群と前記１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様に基づいて、前記３Ｄ点群を（例えば自動的に）セグメント化する。本利用方法は、「セグメント化方法」とも呼ばれる。

本セグメント化方法は、人間工学的に改善された手法でインタラクティブなセグメント化を可能にする。実際、前述のように、ニューラルネットワークは、ユーザが３Ｄ点群上でグラフィカルな対話操作によってオブジェクト選択を実行するだけでセグメント化できるように学習される。ユーザがオブジェクトの選択を実行すると、ニューラルネットワークを適用することによって、３Ｄ点群が（例えば、自動的に）セグメント化される。ユーザがさらにセグメント化を実行したり、すでに実行されたセグメント化の詳細なレベルを改善したりする場合、ユーザはグラフィカル・ユーザ・インタラクションによって別のオブジェクト選択を実行するだけでよく、例えば、ニューラルネットワークの適用により、別のセグメント化が（例えば自動的に）実行される。言い換えると、本セグメント化方法により、入力された３Ｄ点群のインタラクティブな（場合によっては反復的な）セグメント化が可能になる。さらに、このセグメント化は、ユーザに大きな負担をかけないため、人間工学的である。実際、ユーザは、例えば、クリックすることや、ストロークを描くこと、および／または、境界ボックスを描画／定義することなど、シンプルで、一般的で、かつ／あるいは、疲れないような、グラフィカルな対話操作を実行するだけでよい。例えば、これらのグラフィカルな対話操作は、以下でさらに説明するように、例えば、マウス、および／または、タッチベースの触覚デバイス（タッチスクリーンやタッチパッドなど）のような、触覚デバイスを用いて実行されてもよい。さらに、ニューラルネットワークは３Ｄ点群のタイプおよびオブジェクトのカテゴリ／クラス／タイプに依存しないため、セグメント化は、任意のタイプのオブジェクトを含む任意のタイプの３Ｄ点群に対して実行してもよい。

本学習方法と本セグメント化方法は、独立して、例えば別のユーザにより、かつ／あるいは、別のコンピュータ上で、実行することができる。あるいは、それらは、コンピュータにより実施される同じプロセスに統合されてもよい。ここで、図１を参照して本プロセスを説明する。この図は、プロセスの一例のフローチャートを示す。

本プロセスはオフライン段階を含み、これは本学習方法を統合する。オフライン段階は、本学習方法に従って３Ｄ点群のデータセットを提供すること（Ｓ１０）を含む。オフライン段階は、さらに、本学習方法に従い、オブジェクトを含む入力された３Ｄ点群をセグメント化するように構成されたニューラルネットワークを学習すること（Ｓ２０）を含む。オフライン段階は、さらに、学習したニューラルネットワークを、例えばメモリに、例えば本プロセスのオンライン段階で用いるために、格納することを含んでいてもよい。

本プロセスは、さらにオンライン段階を含み、これは本セグメント化方法を統合する。オンライン段階は、学習したニューラルネットワークを、例えばオフライン段階でそれが保存されたメモリから取得することによって、提供することを含んでもよい。オンラインステージは、本セグメント化方法に従い、オブジェクトを含む３Ｄ点群を提供すること（Ｓ３０）を含む。オンライン段階は、さらに、本セグメント化方法に従ってオブジェクトの選択操作を実行すること（Ｓ４０）、および、本セグメント化方法に従ってニューラルネットワークを適用すること（Ｓ５０）により３Ｄ点群のセグメント化を実行することを、１回または複数回、反復することを含む。

ここで、本学習方法についてさらに説明する。

本学習方法は、点群セグメント化の機械学習のためのものである。

それ自体が知られているように、点群は、強度や色など、追加の特性（例えば、追加の座標にカプセル化される）を伴うことができる座標（通常は３Ｄ）を有する、順序付けられていない点の集合である。このデータの順序付けられていない側面のため、特に画像などの構造化されたグリッドと比較すると、分析が困難である。点群には様々な形式があるが、前述のように、学習したニューラルネットワークは、これら様々な形式に依存しない。

点群のセグメント化は、オブジェクトセグメンテーションとも呼ばれ、点群の背景の点から、点群におけるオブジェクトに属するすべての点を抽出するタスクに対応する。前述のように、本学習方法によって学習されたニューラルネットワークは、すべてのタイプのオブジェクトを処理できる。すなわち、オブジェクトのカテゴリに依存しない。さらには、前述のように、ニューラルネットワークにより、インタラクティブなセグメント化を実行できる。インタラクティブなセグメント化とは、ユーザが点群に対して対話操作を行うことによりオブジェクトに対する関心を示すようなセグメント化を意味する。

本学習方法は、機械学習方法である。

機械学習の分野から知られているように、ニューラルネットワークによる入力の処理には、入力に演算を適用することが含まれ、当該演算は、重み値を含むデータによって定義される。このように、ニューラルネットワークの学習は、そのような学習のために構成されたデータセットに基づいて重みの値を決定することを含み、そのようなデータセットは、学習データセットまたは訓練データセットと呼ばれることがある。そのために、データセットには、それぞれが訓練サンプルを形成するデータが含まれている。訓練サンプルは、学習後にニューラルネットワークが用いられる状況の多様性を表す。ここで参照されるデータセットは、１０００個、１００００個、１０００００個、あるいは１００００００個を超える数の訓練サンプルが含まれていてもよい。本開示の背景においては、「データセットに対してニューラルネットワークを学習する」とは、データセットがニューラルネットワークの学習／訓練データセットであることを意味する。

本学習方法の背景において、ニューラルネットワークの訓練データセットは、提供された３Ｄ点群のデータセットであり、ここで、これについて説明する。

訓練データセットは３Ｄ点群を含み、各３Ｄ点群は、少なくとも１つのオブジェクトを含み、各オブジェクトには、それぞれが当該３Ｄ点群における同じオブジェクトの各選択操作を表す１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様が装備されている。言い換えると、各３Ｄ点群、および３Ｄ点群に備えられている仕様は、訓練データセットの訓練サンプルを形成する。この仕様は、グラフィカル・ユーザ・インタラクションに関連するため、「対話操作チャネル」または「ユーザ・インジケータ」とも呼ばれる。この仕様については、以下でさらに説明する。このような訓練サンプルは、簡略化のため、単に「３Ｄ点群およびその対話操作チャネル」とも呼ぶ。いずれの場合も、各訓練サンプルは、３Ｄ点群とその対話操作チャネルからなる対を含む。各訓練サンプルは、さらに、３Ｄ点群の各点について、その点が、前記同じオブジェクトに属するもの、または前記同じオブジェクトに属さないものとする注釈からなるセグメント化マスクを含んでいてもよい。これにより、以下でさらに説明するように、完全教師ありの方法でニューラルネットワークを学習すること（Ｓ２０）ができる。訓練データセットは、一例において、約２０００個の訓練サンプルを含んでいてもよい。

それ自体が知られているように、３Ｄ点群は、例えばそれぞれが３Ｄ空間内の３つのデカルト座標によって記述される、３Ｄ点の集合からなる。これは、各点群が、それぞれが３Ｄ点群の点の３Ｄ座標を表す、３つ組の集合に関連付けられ得ることを意味する。本明細書におけるあらゆる３Ｄ点群は３Ｄの現実のシーンを表してもよく、実シーンは実世界の一部（例えば、植物のシーンまたはオフィスのシーン）であり、３Ｄ点群の各点は、当該シーンの点を表す。「現実のシーンを表す」とは、必ずしも３Ｄ点群が現実の世界で実行された物理的測定に由来することを意味するわけではない。例えば、本明細書におけるあらゆる３Ｄ点群は、以下でさらに議論するように、現実のシーンの合成表現であってもよい。あらゆる３Ｄ点群は、少なくとも１つのオブジェクトを含む。３Ｄ点群の各オブジェクトは、本明細書では、それぞれが、（例えば、現実のシーンの）同じオブジェクトの点を表す３Ｄ点群の点の集合であり、点の集合は、全体としてオブジェクト表現を形成している。

本明細書におけるあらゆる３Ｄ点群は、合成点群、すなわち、合成点群生成プロセスに由来する点群であってもよい。言い換えると、現実のシーンを表す合成点群は、現実のシーンの表現を捉えるために現実のシーンに対して実行される物理的な測定に由来するのではなく、現実のシーンの、仮想的な、数値により生成された表現を形成する。合成点群生成プロセスは、合成３Ｄ点群を出力する、コンピュータにより実施される任意のプロセスを指す。そのようなプロセスは、出力３Ｄ点群の各点について、その点がオブジェクトに属するかどうかを特定する点レベルの注釈をそれぞれが有する３Ｄ点群を出力してもよい（後者の場合、点は背景に属していると言える）。あるいは、そのようなプロセスは、注釈が付けられていない３Ｄ点群を出力してもよく、各点群は、後の段階で注釈が付けられる。あるいは、本明細書におけるあらゆる３Ｄ点群は、現実のシーンに対する物理的測定から決定されてもよい。３Ｄ点群の決定は、１つまたは複数の物理センサ（例えばＬＩＤＡＲＳなどの３Ｄスキャン）を提供することを含んでもよく、各物理センサは、それぞれの物理信号を取得し、現実のシーンに対して当該１つまたは複数の物理センサを操作する（すなわち、各センサで現実のシーンをスキャンする）ことにより、それぞれの当該１つまたは複数の物理信号を取得するように構成されている。次いで、決定は、任意の既知の手法に従って、測定に基づいて、３Ｄ点群を自動的に決定する。なお、今日では、最先端のセンサが数百万の点からなる点群を提供して、非常に高品質で非常に高密度の３Ｄスキャンを提供できる。

一例においては、訓練データセットまたはその少なくとも一部の３Ｄ点群は、合成３Ｄ点群であってもよい。そのような場合、訓練データセットの提供（Ｓ１０）は、任意の既知の適切な合成点群生成プロセスによって、これらの３Ｄ点群を合成的に生成することを含んでいてもよい。当該提供（Ｓ１０）は、さらに、オブジェクトに属する点群の各点に「オブジェクト」として注釈をつけ、背景に属する各点に「背景」として注釈をつけることによって、各点群に注釈をつけることを含んでいてもよい。あるいは、これらの３Ｄ点群の提供（Ｓ１０）は、これらの３Ｄ点群および例えばその注釈を、それら３Ｄ点群が生成された後に保存された（例えば、離れた）メモリから取得することを含んでいてもよい。

これらの例の一例においては、３Ｄ点群の生成は、３ＤオブジェクトのＣＡＤ（ｃｏｍｐｕｔｅｒ−ａｉｄｅｄ−ｄｅｓｉｇｎ：コンピュータ支援設計）モデルを提供することを含んでいてもよい。３Ｄ点群の生成は、さらに、３Ｄオブジェクトの、提供された各ＣＡＤモデルを、それぞれが３Ｄオブジェクトを表す３Ｄ点群に変換することを含んでいてもよく、当該３Ｄ点群は、簡略化のため、「オブジェクト点群」と呼ばれる。当該生成は、さらに、それぞれが背景を表す３Ｄ点群を提供することを含んでいてもよく、簡略化のため、これらはそれぞれ「背景点群」と呼ばれる。当該生成はさらに、各オブジェクト点群を背景点群に挿入することを含んでいてもよい。この結果が、生成された３Ｄ点群であり、これらはそれぞれ、背景点群に挿入された１つまたは複数のオブジェクト点群によって形成される。当該生成は、追加として、各オブジェクト点群の各点に「オブジェクト」として注釈をつけ、各背景点群の各点に「背景」として注釈をつけることを含んでいてもよい。図２および図３は、これらの例を示す。図２は、オブジェクト点群２０に変換されるＣＡＤオブジェクト２０の例を示す。図３は、背景点群に挿入されたオブジェクト点群の例３０を示す。

なお、オブジェクトの挿入中において、本方法は、現実的な合成点群表現のために、点密度の正規化とともに、起こりうるオクルージョン（オブジェクト／オブジェクトオクルージョン、またはオブジェクト／背景オクルージョン）を考慮に入れてもよい。具体的には、本方法は、ＣＡＤモデルから得られた点群を、背景を表す散布図に挿入するために、これらの側面を考慮してもよい。これらは、（３Ｄスキャナからの）現実の点群において観察できる効果を再現するための適合ステップに対応する。例えば、テーブルのＣＡＤモデルに対応する点群が背景に挿入される場合、本方法は、挿入される背景の密度に対応するように、その密度を適合させてもよい。同様に、現実の点群に対応するため、本方法では、オクルージョンを考慮してもよい。例えば、テーブルの場合、本方法は、テーブルの足の下にある背景に属する点を削除して、実際のスキャナで取得できた可能性のある点のみを保持してもよい。なお、３Ｄスキャナは、取得において、可視表面の点のみを捉えることにも留意されたい。これを回避するために、本方法では、一例において、合成的に生成されたデータセットにオクルージョンを追加できる。

これらの例の代替例では、３Ｄ点群の生成は、自動で正確な点レベルの注釈をさらに提供する自動点群生成方法を適用することを含んでいてもよい。本生成方法は、ＸｉａｎｇｙｕＹｕｅ，ＢｉｃｈｅｎＷｕ，ＳａｎｊｉｔＡ．Ｓｅｓｈｉａ，ＫｕｒｔＫｅｕｔｚｅｒおよびＡｌｂｅｒｔｏＬ．Ｓａｎｇｉｏｖａｎｎｉ−Ｖｉｎｃｅｎｔｅｌｌｉの「ＡＬｉＤＡＲＰｏｉｎｔＣｌｏｕｄＧｅｎｅｒａｔｏｒ：ｆｒｏｍａＶｉｒｔｕａｌＷｏｒｌｄｔｏＡｕｔｏｎｏｍｏｕｓＤｒｉｖｉｎｇ」（２０１８）に記載されているものなど、任意の既知の生成方法であってもよく、この文献は参照により本明細書に組み込まれる。本方法は、３ＤのＣＡＤシーン（例えばビデオゲーム環境）から点群を抽出するために仮想スキャナ・シミュレーションを提案する。

さらに他の例では、訓練データセットまたはその少なくとも一部の３Ｄ点群は、前述のように、現実のシーンに対して実行された物理的測定に由来してもよい。そのような場合、訓練データセットの提供（Ｓ１０）は、前述のように、物理的測定を実行することと、当該物理的測定に基づいて３Ｄ点群を決定することとを含んでいてもよい。当該提供（Ｓ１０）は、さらに、オブジェクトに属する点群の各点に「オブジェクト」として注釈をつけ、背景に属する各点に「背景」として注釈をつけることによって、各点群に注釈をつけることを含んでいてもよい。あるいは、これらの３Ｄ点群の提供（Ｓ１０）は、これらの３Ｄ点群および例えばその注釈を、それら３Ｄ点群が生成された後に保存された（例えば、離れた）メモリから取得することを含んでいてもよい。例えば、訓練データセットの３Ｄ点群は、公開されている点群データセット（例えば、ＴｉｍｏＨａｃｋｅｌ、
Ｎ．Ｓａｖｉｎｏｖ、Ｌ．Ｌａｄｉｃｋｙ、ＪａｎＤ．Ｗｅｇｎｅｒ、Ｋ．Ｓｃｈｉ
ｎｄｌｅｒ、およびＭ．Ｐｏｌｌｅｆｅｙｓの「ＳＥＭＡＮＴＩＣ３Ｄ．ＮＥＴ：Ａｎ
ｅｗｌａｒｇｅ−ｓｃａｌｅｐｏｉｎｔｃｌｏｕｄｃｌａｓｓｉｆｉｃａｔｉｏ
ｎｂｅｎｃｈｍａｒｋ”．−ＩＳＰＲＳ２０１７、やＡｎｄｒｅａｓＧｅｉｇｅ、Ｐ
ｈｉｌｉｐＬｅｎｚ、ＲａｑｕｅｌＵｒｔａｓｕｎの“ＡｒｅｗｅｒｅａｄｙｆｏｒＡｕｔｏｎｏｍｏｕｓＤｒｉｖｉｎｇ？ＴｈｅＫＩＴＴＩＶｉｓｉｏｎＢｅ
ｎｃｈｍａｒｋＳｕｉｔｅ”−ＣＶＰＲ２０１２やＩｒｏＡｒｍｅｎｉ、Ｏｚａｎ
Ｓｅｎｅｒ、ＡｍｉｒＲ．Ｚａｍｉｒ、ＨｅｌｅｎＪｉａｎｇ、Ｉｏａｎｎｉｓ
Ｂｒｉｌａｋｉｓ、ＭａｒｔｉｎＦｉｓｃｈｅｒ、ＳｉｌｖｉｏＳａｖａｒｅｓｅの
３ＤＳｅｍａｎｔｉｃＰａｒｓｉｎｇｏｆＬａｒｇｅ−ＳｃａｌｅＩｎｄｏ
ｏｒＳｐａｃｅｓ」−ＣＶＰＲ２０１６に提供されているデータセット（これらはす
べて参照により本明細書に組み込まれる））から取得してもよい。」前記提供（Ｓ１０）
は、そのような公開データセットから取得された点群のバイナリの注釈「オブジェクト対
背景」を含んでいてもよい。

いずれの場合も、３Ｄ点群の訓練データセットの提供（Ｓ１０）は、当該３Ｄ点群を提供することを含んでいてもよい。前述のように、各３Ｄ点群にはその仕様が備えられている。当該仕様は、それぞれが３Ｄ点群内の同じオブジェクトの各選択操作を表す１つまたは複数のグラフィカル・ユーザ・インタラクションについてのデータを形成する。これは、仕様が、１つまたは複数のグラフィカル・ユーザ・インタラクションによって前記同じオブジェクトがどのように選択されるかを、例えば、オブジェクトの相対的な位置と当該１つまたは複数のグラフィカル・ユーザ・インタラクションとに関するデータに基づいて記載していることを意味する。これにより、ニューラルネットワークを、グラフィカル・ユーザ・インタラクションによるオブジェクト選択の検出のみに基づいて３Ｄ点群をセグメント化できるように学習できるようになる。訓練データセットの提供（Ｓ１０）は、各点群について仕様を決定することと、点群にそれを備えさせることとを含んでもよい。仕様の決定は、すなわち、データセットの各３Ｄ点群について、仕様を算出／シミュレーションすることを含んでもよい。あるいは、仕様の決定は、すなわちデータセットの各３Ｄ点群について、手で、例えば、ユーザが手動で１つまたは複数のグラフィカル・ユーザ・インタラクションを実行することによって、仕様を提供することを含んでいてもよい。

前述のように、この仕様は、「対話操作チャネル」または「ユーザ・インジケータ」とも呼ばれる。具体的には、３Ｄ点群の各点は、３Ｄ空間内の３つのデカルト座標によって表されてもよい。点は、さらに、当該点が１つまたは複数のグラフィカル・ユーザ・インタラクションによってどのように影響を受けるかを表す第４の座標を含んでいてもよい。言い換えると、第４の座標は、グラフィカル・ユーザ・インタラクションを介した前記同じオブジェクトの選択による点の影響の程度をカプセル化するデータを形成する。データは、例えば、１つまたは複数のグラフィカル・ユーザ・インタラクションのうちの少なくとも１つに対する点の近さを表してもよい。

ここで、訓練データセットの提供（Ｓ１０）の例について説明する。

一例において、３Ｄ点群の訓練データセットの提供（Ｓ１０）は、当該３Ｄ点群を提供することを含む。訓練データセットの提供（Ｓ１０）は、さらに、各３Ｄ点群について、当該３Ｄ点群における前記同じオブジェクトの位置に関する情報を提供することを含む。訓練データセットの提供（Ｓ１０）は、さらに、各３Ｄ点群について：１つまたは複数のグラフィカル・ユーザ・インタラクションのそれぞれをシミュレーションすることにより仕様を決定することと、３Ｄ点群に１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備えさせることとを含む。

前記同じオブジェクトの位置に関する情報は、前記同じオブジェクトを３Ｄ点群の他の部分（例えば、もしあれば他のオブジェクト、または背景）から区別することを可能にする任意の情報からなっていてもよい。一例においては、当該情報は、オブジェクトの各点について、当該点を「オブジェクト」とする注釈を含む。当該情報は、点の座標も含んでいてもよい。情報の提供は、例えば前述のように、前記同じオブジェクトの各点に「オブジェクト」として注釈を付けることを含んでいてもよい。情報の提供は、さらに、例えば前述のように、背景の各点に「背景」として注釈を付けることを含んでいてもよい。情報の提供は、もしあれば、他のオブジェクトの各点に、「他のオブジェクト」として注釈を付けることを含んでいてもよい。これは、本方法により、例えば、以下でさらに説明するように、対象オブジェクトに隣接するオブジェクトに負のシードを追加するのに用いられてもよい。しかし、これは必須ではない。実際、対象オブジェクトの周囲の領域にシードを追加するだけで、隣接するオブジェクトにもシードが見つかるようになる（隣接するオブジェクトがある場合）。

グラフィカル・ユーザ・インタラクションのそれぞれをシミュレーションすると、グラフィカル・ユーザ・インタラクションの位置に関するデータが得られる。なお、「シミュレーションする」とは、グラフィカル・ユーザ・インタラクションが仮想的である、すなわち数値的に作成されることを意味する。言い換えると、本学習方法は、シミュレーションされたユーザの行動によるオブジェクト選択の仕様を３Ｄ点群に備えさせる。さらに言い換えると、位置に関する前記データは、例えば、比較的ランダムに、かつ／あるいは、所定のプログラム／戦略に従って、数値的に作成される。仕様の決定は、これらのデータと、前記同じオブジェクトの位置に関する情報とに基づく。例えば、仕様の決定では、これらのデータとこの情報を考慮して仕様を作成してもよい。１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれをシミュレーションすることにより、時間がかかり、かつ／あるいは、過剰適合になりがちな、ユーザの手作業なしに、仕様を取得することができる。さらには、これにより、グラフィカル・ユーザ・インタラクションが仮想化され、その結果、例えば、比較的ランダムに、かつ／あるいは、十分に多様化できるため、十分に多様化された訓練データセットが生成される。これにより、機械学習の分野でそれ自体知られているように、学習の質が向上する。

一例において、１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれは、それぞれが３Ｄ点群上で定義される１つまたは複数のシード位置に対応する。これらの一例において、グラフィカル・ユーザ・インタラクションのシミュレーションは、前記１つまたは複数のシード位置を決定することを含む。

各シード位置は、グラフィカル・ユーザ・インタラクションの少なくとも一部の位置を表すデータである。前記１つまたは複数のシード位置は、全体として３Ｄ点群上でのグラフィカル・ユーザ・インタラクションの位置を表すデータを形成する。各シード位置は、例えば、３Ｄ空間内の３つのデカルト座標の集合からなり、グラフィカル・ユーザ・インタラクションの点の位置を示してもよい。言い換えると、シード位置は３Ｄ空間内の点からなり、これは、３Ｄ点群の点と一致する場合と一致しない場合がある。例えば、シード位置は、グラフィカル・ユーザ・インタラクションの少なくとも一部の、シードによって表される位置に最も近い３Ｄ点群の点であってもよい。これにより、シミュレーションされたグラフィカル・ユーザ・インタラクションを、オブジェクト選択のための、さまざまな種類の、異なる、および、通常のグラフィカル・ユーザ・インタラクションの仮想表現とすることができる。実際、多くの種類のよく知られた通常のグラフィカル・ユーザ・インタラクションは、１つまたは複数のシード位置の集合で表すことができる。例えば、１つまたは複数のシード位置は、３Ｄ点群上におけるユーザの１つまたは複数回のクリックを表してもよく、各シード位置は、クリックうちの１つの位置に対応する３Ｄ空間内の点を表す（例えば、その点である）。シード位置は、例えば、クリックの位置に最も近い３Ｄ点群の点であってもよい。あるいは、１つまたは複数のシード位置は、３Ｄ点群上におけるユーザのストロークを表してもよく、各シード位置は、ストロークのラインにおけるサンプリングされた位置に対応する３Ｄ空間内の点を表す（例えば、その点である）。あるいは、１つまたは複数のシード位置は、３Ｄ点群上においてユーザによって描画／定義された境界ボックスを表してもよく、各シード位置は、境界ボックスの内側または外側のサンプリングされた位置に対応する３Ｄ空間内の点を表す（例えば、その点である）。これはすべて、グラフィカル・ユーザ・インタラクションごとに当てはまるため、これは、１つまたは複数のグラフィカル・ユーザ・インタラクションが、以下のうち１つまたは複数の仮想表現である可能性があることを意味する：３Ｄ点群上での１回または複数回のクリック、３Ｄ点群上でのストローク、および／または３Ｄ点群上で描画／定義された境界ボックス。以下では、簡潔にするために、各シード位置を単に「シード」とも呼ぶ。

１つまたは複数のシードの決定は、１つまたは複数のシードを、例えば、比較的ランダムに、かつ／あるいは、所定のプログラム／戦略に従って、例えば、所定数のシード、および／または、それらの間の妥当な距離を確保するために算出することを含んでいてもよい。１つまたは複数のシードが３Ｄ空間内の１つまたは複数の点である場合、１つまたは複数のシードの決定は、１つまたは複数の点の座標を決定することを含んでいてもよい。

一例において、１つまたは複数のグラフィカル・ユーザ・インタラクションは、前記同じオブジェクトを選択するための第１のグラフィカル・ユーザ・インタラクションを含む。第１のグラフィカル・ユーザ・インタラクションは、それぞれが当該同じオブジェクト上で定義される１つまたは複数の第１のシード位置に対応する。

第１のグラフィカル・ユーザ・インタラクションは、前記同じオブジェクトの選択に関係するため、「ポジティブ・インタラクション」とも呼ばれる。別の言い方をすれば、ポジティブ・インタラクションは、例えば、３Ｄ点群の他の部分を破棄するのではなく、実際にそれを選択することによる、前記同じオブジェクトのグラフィカルなユーザ選択を表す。訓練データセットにポジティブ・インタラクションに関するデータを提供することにより、セグメント化を実行するためのそのような対話操作を検出できるようにニューラルネットワークを学習することが可能になる。ポジティブ・インタラクションの例、例えば、第１のグラフィカル・ユーザ・インタラクションは、前記同じオブジェクトに対して１回または複数回のクリックを実行すること、前記同じオブジェクトに対してストロークを実行する、または、同じオブジェクト上、および／または、その周囲に、境界ボックスを描画／定義することを表してもよい。

第１のグラフィカル・ユーザ・インタラクションは肯定的ユーザ対話操作であるので、これは、前記同じオブジェクトに対して、すなわち前記同じオブジェクトの点上で実行される、グラフィカル・ユーザ・インタラクションの仮想表現である。これにより、１つまたは複数の第１のシード位置が、それぞれが前記同じオブジェクト上で定義される。例えば、１つまたは複数の第１のシード位置が１つまたは複数の点である場合、１つまたは複数の点は、実質的に、前記同じオブジェクトの点の中に配置される。第１のグラフィカル・ユーザ・インタラクションのシミュレーションは、１つまたは複数の第１のシードを決定することを含む。１つまたは複数の第１のシードの決定は、例えば、同じオブジェクトの１つまたは複数の点を、ランダムに、または部分的にランダムに、１つまたは複数の第１のシードとして選択することにより、ランダムに実行してもよい。これにより、訓練データセットを簡単に作成できる。

一例において、１つまたは複数のシード位置の決定は、１つまたは複数の第１のシード位置を同じオブジェクト上に拡散させることを含む。１つまたは複数の第１のシードの拡散は、点群のうちの限定された点の集合から、点群の点を、例えばランダムに、シードとして選択することによって各シードを決定することを含んでいてもよい。１つまたは複数の第１のシードの拡散は、第１のシードの数を決定し、それらの間に所定の距離をおいて、その数の第１のシードを選択することを含んでいてもよい。数、および／または、所定の距離は、例えば、オブジェクトのサイズに依存してもよい。これにより、第１のシードが、前記同じオブジェクトを十分カバーできるようになる。

次に、当該拡散の実装について説明する。

この実装により、ポジティブ・インタラクションのためのユーザの行動をシミュレーションできる。完全にランダムなアプローチと比較して、ここでのシミュレーションされた第１のグラフィカル・ユーザ・インタラクションは、ユーザの可能性が高いポジティブ・インタラクションに対応し、ここで、ユーザの対話操作は、前記同じオブジェクトのサイズに関して、その間に妥当な距離を有する、特定の数のシードを生成する。これによりオブジェクトを十分に覆うことができるようになる。例えば、オブジェクトをクリックして選択する場合、ユーザは通常、クリックによりオブジェクトを覆う。オブジェクトに対しストロークを実行してオブジェクトを選択する場合、ユーザは通常、オブジェクトを覆うストロークを描画する。境界ボックスでオブジェクトを選択する場合、ユーザは通常、例えば境界ボックス内においてオブジェクトをフレームで囲むことにより、境界ボックスの内側がオブジェクトを覆うように境界ボックスを描画してもよい。この実装は、タイプの正規確率分布に従って１つまたは複数の第１のシードの数を決定することを含む。

ここでＸは第１のシードの数であり、μはＭ＊ｐ／Ｋに対応し（すなわち等しく）、Ｍは前記同じオブジェクトの点の数であり、ｐは第１のグラフィカルな対話操作によって影響を受けるオブジェクトの割合（例えば、２０％）であり、Ｋは隣接するオブジェクトの数である。数Ｋについて、以下でさらに説明する。σは、１に等しくてもよい。これにより、考慮されるグラフィカルな対話操作のサイズに対して一貫性を保ちつつ、第１のシードの数に関する柔軟性が得られる。この実装は、シード間の最小距離を固定することをさらに含んでもよく、これにより、前記同じオブジェクトをより一層カバーすることができる。固定は、第１のシードを繰り返し選択することを含んでもよく、繰り返しの各回において、前回選択された第１のシードの周りの境界ボックス領域に含まれるすべての点を選択から除外してもよい。この境界ボックスのサイズは、オブジェクトのサイズ（例えば、オブジェクトの長さ、幅、高さの比率）との関係において固定できる。第１のシードの数Ｘは、式（１）に従って選択してもよいが、１より大きいか、または１に等しい最も近い整数部分に丸めてもよい。

ここで、現在説明している拡散の実装における特定の実装について説明する。特定の実装において、前記オブジェクトは「対象オブジェクト」と呼ばれ、各シードは「肯定的シード」と呼ばれる。特定の実装は、次の仕様を有するアルゴリズムに従って実行される。

入力変数は以下の通りである。

ｏｂｊＰｏｉｎｔｓ：対象オブジェクトの全ての点を含む変数。

Ｋ：この点群で考慮される隣接するオブジェクトの数である変数。数Ｋについては、以下でさらに説明する。

ｐｒｏｐｏｒｔｉｏｎ：第１のグラフィカルな対話操作によって影響を受けるオブジェクトの割合を制御するパラメータ。

ｓｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ：いくつかの肯定的シードについて記載するのに用いられる分布の分散を制御するパラメータ。

出力変数は以下の通りである。

ｓｅｅｄｓ：対象オブジェクトに対するすべての肯定的クリック（座標）のリストを含む変数。

現れる中間変数は以下の通りである。

ｎｕｍｂｅｒＯｆＯｂｊＰｏｉｎｔｓ：対象オブジェクトに属する点の数に対応する変数。

ｎｕｍｂｅｒＯｆＳｅｅｄｓ：この対象オブジェクトに対して実行される肯定的クリックの数に対応する変数。

ｓｅｅｄ：１回の肯定的クリックの座標に対応する変数。

明示的な宣言なしに現れる関数は次の通りである。

ＲａｎｄＰｏｉｎｔ（）：点の集合のうちのランダムな点を返す関数。

ＲｅｇｉｏｎＡｒｏｕｎｄ（）：点の座標の周囲の領域を返す関数。ここでは、以前のクリックの周囲の領域にあるオブジェクトのすべての点を抑制し、クリック間の距離を最小限に抑えるために用いられる。

ＮｏｒｍａｌＤｉｓｔｒｉｂｕｔｉｏｎ（ｍｅａｎ，ｓｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ）：入力パラメータによって定義された正規分布に従って浮動小数点値を返す関数。

アルゴリズムは以下の疑似コードで記述される。

一例において、１つまたは複数のグラフィカル・ユーザ・インタラクションは、少なくとも１つの３Ｄ点群（すなわち訓練データセットのもの）について、第１のグラフィカル・ユーザ・インタラクションを含み、１つまたは複数のグラフィカル・ユーザ・インタラクションは、さらに、前記同じオブジェクトの外側の領域を破棄するためのものであって、かつ、それぞれが前記同じオブジェクトの外側に定義された１つまたは複数の第２のシード位置に対応する、第２のグラフィカル・ユーザ・インタラクションを含む。

第２のグラフィカル・ユーザ・インタラクションは、オブジェクトの外側の領域を破棄することによる前記同じオブジェクトの選択に関係するため、「ネガティブ・インタラクション」とも呼ばれる。別の言い方をすれば、ネガティブ・インタラクションは、前記同じオブジェクトではない点群の部分を破棄することによる前記同じオブジェクトのグラフィカルなユーザ選択を表す。訓練データセットに、ポジティブ・インタラクションに加えてネガティブ・インタラクションに関するデータを提供することにより、セグメント化を実行するための肯定的およびネガティブ・インタラクションをともに検出できるようにニューラルネットワークを学習することが可能になる。これにより、ニューラルネットワークがセグメント化を実行する能力が向上する。なぜなら、ユーザによる点群内のオブジェクトのグラフィカルな選択には、ポジティブ・インタラクション（例えば、オブジェクトの大まかな選択を行うための操作）とネガティブ・インタラクション（例えば、その後、背景や他のオブジェクトなど、領域の外側を破棄することにより選択を絞り込むための操作）が混在することが多いためである。そのようなネガティブ・インタラクションの例、例えば、第２のグラフィカル・ユーザ・インタラクションが表し得るのは、前記同じオブジェクトの外側（例えば、背景または別のオブジェクト上）で１回または複数回のクリックを実行すること、または、前記同じオブジェクトの外側（例えば、背景または別のオブジェクト上）でストロークを実行することである。さらには、肯定的およびネガティブ・インタラクションを混在させる学習方法の機能により、ニューラルネットワークが、ユーザがオブジェクトの周囲の境界ボックスを描画／定義することからなるオブジェクトのグラフィカルな選択を検出できるように、ニューラルネットワークを学習することができる：すなわち、境界ボックスの外側の点（または少なくともそれらのサンプル）はニューラルネットワークによって第２のシードとして検出され、内側の点（または少なくともそれらのサンプル）は第１のシードとして検出される。

肯定的および否定的シードの混在により、グラフィカル・ユーザ・インタラクションのそれぞれが、クリック、ストローク、境界ボックスなど、典型的な対話操作を表すことができ、これらすべてのグラフィカルな対話操作は、前述のように、シードによって表されるという特性を有する。具体的には、クリックはシードに直接対応するため、クリックは利用可能な最小限の対話操作を表す。ストロークは、ストロークの線からシードの位置をサンプリングすることにより、シードの集合（例えば、個々の点の集合）へとサンプリングでき、クリックの生成として、必要な生成に非常に近くなる。境界ボックスを用いて対象オブジェクトを大まかに示すと仮定すると、境界ボックスは、ボックスの内側と外側の個々の点インジケータをそれぞれ肯定的および否定的クリックでサンプリングすることにより、シードの集合に変換することもできる。しかしながら、一例において、特定のタイプのユーザ対話操作に最適に対応するシードを決定するために、すなわち、入力されるグラフィカル・ユーザ・インタラクションが常に同じタイプ、例えば境界ボックスであるアプリケーションの場合に、本学習方法がこれらのパラダイムから逸脱する場合がある。例えば、本学習方法は、前記同じオブジェクト上での各対話操作について、異なる高さ、長さ、および幅を有する訓練ボックスの内側および外側からシードをサンプリングすることによって、境界ボックスからシードを生成するための最適化を実行してもよい。さらには、一部の訓練境界ボックスは、部分的に前記同じオブジェクトを部分的に含み得る。このように、ニューラルネットワークは、ユーザがオブジェクトを部分的にのみ囲む境界ボックスを提供する場合でも、点群内のオブジェクトを識別できる。

第２のグラフィカル・ユーザ・インタラクションは否定的ユーザ対話操作であるので、これは、前記同じオブジェクトの外側で、すなわち前記同じオブジェクトの外側の点上で実行される、グラフィカル・ユーザ・インタラクションの仮想表現である。これにより、１つまたは複数の第２のシード位置が、それぞれが前記同じオブジェクトの外側で定義される。例えば、１つまたは複数の第２のシード位置が１つまたは複数の点である場合、１つまたは複数の点は、実質的に、前記同じオブジェクトの外側の点の中に配置される。第２のグラフィカル・ユーザ・インタラクションのシミュレーションは、１つまたは複数の第２のシードを決定することを含む。１つまたは複数の第２のシードの決定は、例えば、同じオブジェクトの外側の１つまたは複数の点を、ランダムに、または部分的にランダムに、１つまたは複数の第２のシードとして選択することにより（すなわち、背景または別のオブジェクトの１つまたは複数の点）、ランダムに実行してもよい。

ここで、１つまたは複数の第２のシードの決定の実装について説明する。

この実装では、１つまたは複数の第２のシードの決定は、異なる戦略に従って実行してもよい。各戦略により、典型的なユーザの行動をシミュレーションし、現実の対話操作のタイプに一致させることができる。

第１の戦略によれば、１つまたは複数の第２のシードの決定では、前記同じオブジェクトの周り（例えば、所定の距離内）の１つまたは複数の第２のシードを決定する。この戦略は、ユーザがオブジェクトの境界を特定するのに用いる可能性が最も高い方法をシミュレーションする。この戦略による１つまたは複数の第２のシードの決定は、対象オブジェクトの周りの背景の点の近接領域（例えば、３０センチメートル未満の領域、すなわち、オブジェクトの周囲にあり、幅が３０センチメートルの細長い領域）を抽出し、１つまたは複数の第２のシードとして、領域内の１つまたは複数のランダムな点を選択することを含んでいてもよい。

第２の戦略によれば、前記同じオブジェクトの周り（例えば、所定の距離内）の１つまたは複数の第２のシードの決定では、前記同じオブジェクトに隣接するオブジェクト（例えば、前記同じオブジェクトから所定の距離内のオブジェクト）上の１つまたは複数の第２のシードを決定する。この戦略は、オブジェクトの背景オブジェクトとしての分類をシミュレーションし、現実のユーザの行動にも一致する。第２の戦略に従って１つまたは複数のシードを決定するには、点群シーン内のすべてのオブジェクトに注釈を付ける必要がある。この戦略による１つまたは複数の第２のシードの決定は、前記同じオブジェクトに最も近いものの中から各背景オブジェクト上の点をランダムに選択することを含んでいてもよく、選択された点は１つまたは複数の第２のシードである。

第３の戦略によれば、１つまたは複数の第２のシードの決定では、１つまたは複数の第２のシードをランダムに（例えば、対象オブジェクトから遠く離れていても）決定して、ランダムな偽の第１のシードを抑制し、他のユーザの行動と一致させる。この戦略による決定は、１つまたは複数の第２のシードとして、１つまたは複数の背景の点（すなわち、３Ｄ点群のすべての点から前記同じオブジェクトの点を差し引いたもの）をランダムに選択することを含んでいてもよい。

なお、訓練データセット内の各３Ｄ点群について、１つまたは複数のグラフィカル・ユーザ・インタラクション中に少なくとも１つのポジティブ・インタラクション（すなわち、第１のグラフィカル・ユーザ・インタラクション）があるが、必ずしもネガティブ・インタラクション（すなわち、第２のグラフィカル・ユーザ・インタラクション）があるとは限らない。一例においては、データセット内に１つまたは複数の３Ｄ点群があり、１つまたは複数のグラフィカル・ユーザ・インタラクションが、前述の第２のグラフィカル・ユーザ・インタラクションを含む。本学習方法は、例えば、前述の第１、第２、および第３の戦略の中から比較的ランダムに選択される、所与の戦略をそれぞれ有するこれらの第２のグラフィカル・ユーザ・インタラクションのそれぞれについて、１つまたは複数の第２のシードを決定してもよい。「比較的ランダムに」とは、ここでは、いくつかの戦略が他の戦略よりも選択される可能性が高くてもよいことを意味する。例えば、第１の戦略は、現実の世界で発生する可能性のあるユーザの行動をシミュレーションするため、選択される可能性が最も高くてもよい。第２の戦略はオプションであってもよい。すなわち、本学習方法の例では、たとえば背景オブジェクトにそのように注釈が付けられていない場合などには、選択されることがない。

第１のグラフィカル・ユーザ・インタラクションに関しては、戦略に関係なく、決定された第２のシードの数は、第２のシードのターゲット数を中心とする確率分布から導き出してもよい。この目標とする第２のシードの数は、典型的には、シミュレーションされる対話操作の量を制御するパラメータであるだけでなく、ニューラルネットワークが学習するタスク（すなわち、セグメント化）の容易さであってもよい。例えば、ターゲット数０は、ポジティブ・インタラクションがオブジェクトを抽出するのに十分な情報を提供することだけを目標とするが、否定的クリックを不安定にし、抽出の品質を制限する可能性がある。一方、大きいターゲット数（１５など）は正確なセグメント化マスクを保証するが、ニューラルネットワークの使用中に多くのユーザ対話操作が必要になる。これに対応する実装は、タイプの正規確率分布に従って１つまたは複数の第２のシードの数を決定することを含む。

ここでＸは第２のシードの数である。正規確率分布のパラメータの集合の例は、μ＝１およびσ＝１である。第２のシードの数Ｘは、Ｘが決定されるときの下限として０であってもよい。

ここで、現在説明している１つまたは複数の第２のシードの決定の実装のうち特定の実装について説明する。特定の実装において、前記オブジェクトは「対象オブジェクト」と呼ばれ、各シードは「否定的シード」と呼ばれる。特定の実装は、次の仕様を有するアルゴリズムに従って実行される。

入力変数は以下の通りである。

ｓｃｅｎｅＰｏｉｎｔｓ：シーン（対象オブジェクトを含む）の全ての点を含む変数。

ｍｅａｎ：いくつかの否定的シードについて記載するのに用いられる分布の平均を制御するパラメータ。

ｓｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ：いくつかの否定的シードについて記載するのに用いられる分布の分散を制御するパラメータ。

ｐＳｔｒａｔｅｇｙ：ある戦略を他の戦略に対して選択する確率を制御するパラメータ。

出力変数は以下の通りである。

ｓｅｅｄｓ：対象オブジェクトに対するすべての否定的クリック（座標）のリストを含む変数。

現れる中間変数は以下の通りである。

ｂａｃｋｇｒｏｕｎｄＰｏｉｎｔｓ：点群シーンから対象オブジェクトに属する点を差し引いたすべての点を含む変数。

ｓｔｒａｔｅｇｙ：選択した戦略に対応する変数。これは以下のものであり得る。

ｒａｎｄｏｍ（背景の点からのランダムな点）。

ｎｅｉｇｈｂｏｒＯｂｊｓ（対象オブジェクトから最も近いオブジェクトをクリックする）。

ｓｕｒｒｏｕｎｄｉｎｇｓ（対象オブジェクトの周りの小さな領域をクリックする）。

ｎｕｍｂｅｒＯｆＳｅｅｄｓ：この対象オブジェクトに対して実行される否定的クリックの数に対応する変数。

ｓｅｅｄ：１回の否定的クリックの座標に対応する変数。

ｎｅａｒｅｓｔＯｂｊｓ：すべての隣接するオブジェクトの点群のリストである変数。長さはｎｕｍｂｅｒＯｆＳｅｅｄｓである。

明示的な宣言なしに現れる関数は次の通りである。

ＲｅｇｉｏｎＡｒｏｕｎｄ（）：点の座標の周囲の領域を返す関数。我々のケースでは、これは、以前のクリックの周囲の領域にある背景のすべての点を抑制し、クリック間の距離を最小限に抑えるために用いられる。

ＮｅａｒｅｓｔＯｂｊｓ（）：すべての隣接するオブジェクトの点群のリストを返す関数。長さはｎｕｍｂｅｒＯｆＳｅｅｄｓである。

ＳｍａｌｌｅｒＲｅｇｉｏｎＡｒｏｕｎｄＯｂｊ（）：対象オブジェクトの周囲の背景の点の近接領域を返す関数。

アルゴリズムは以下の疑似コードで記述される。

いずれの場合も、シミュレーションの後、グラフィカル・ユーザ・インタラクションのそれぞれの位置に関するデータがグラフィカル・ユーザ・インタラクションのシミュレーションにより決定されている。一例においては、この時点で、３Ｄ点群のそれぞれ、および３Ｄ点群に対する１つまたは複数のグラフィカル・ユーザ・インタラクションのそれぞれについて、グラフィカル・ユーザ・インタラクションをシミュレーションすると、次のようになる。

グラフィカル・ユーザ・インタラクションがポジティブ・インタラクションである場合（１つまたは複数のグラフィカル・ユーザ・インタラクションの少なくとも１つがポジティブ・インタラクションである場合）、１つまたは複数の第１のシードが上記のように決定されており、
グラフィカル・ユーザ・インタラクションがネガティブ・インタラクションである場合、１つまたは複数の第２のシードが上記のように決定されている。

仕様の決定は、次いで、シミュレーションされたすべてのグラフィカル・ユーザ・インタラクションの位置に関するデータを処理し、それらを仕様を形成する１つのデータに変換することを含んでいてもよい。３Ｄ点群に仕様を備えさせることは、次いで、仕様を３Ｄ点群と関連付けて対を形成することを含んでもよく、当該対は、訓練サンプルを形成する。

ここで、本学習方法について、当該備えさせることの例について説明する。

一例において、前記３Ｄ点群に仕様を備えさせることは、グラフィカル・ユーザ・インタラクションのそれぞれのシミュレーションに基づいて、３Ｄ点群の各点に座標を追加することを含む。座標は当該点における選択操作の強度を定量化する。

「グラフィカル・ユーザ・インタラクションのそれぞれのシミュレーションに基づいて」とは、３Ｄ点群に仕様を備えさせることが、シミュレーションされたグラフィカル・ユーザ・インタラクションそれぞれの位置に関するデータを考慮に入れることを意味する。実際、３Ｄ点群に仕様を備えさせることは、ここでこれらのデータを処理し、それらを座標の集合に変換することを含み、３Ｄ点群の各点を１つの座標へと変換する。３Ｄ点群に仕様を備えさせることは、次いで、この座標を各点に追加することを含み、これにより仕様が得られる。別の言い方をすれば、仕様は３Ｄ点群の各点に追加されたすべての座標の集合である。

変換は、各点について、座標が当該点における選択操作の強度を定量化するように行われる。具体的には、座標は、グラフィカル・ユーザ・インタラクションのそれぞれに対する点の近さを定量化する。これにより、選択するオブジェクト（すなわち、前記同じオブジェクト）に点が属しているかどうかを定量化する。これにより、最終的に、学習（Ｓ２０）において、ニューラルネットワークがセグメント化を実行するときに、ニューラルネットワークが、オブジェクトの一部として点を選択するかどうかを学習することができる。例えば、ニューラルネットワークは、座標が大きいほど、点が選択するオブジェクトに属する確率が高くなることを検出するように訓練される。

一例において、１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションはそれぞれ、前記同じオブジェクトを選択するためのもの（例えば前述の第１のグラフィカル・ユーザ・インタラクション）か、前記同じオブジェクトの外側の領域を破棄するためのもの（例えば前述の第２のグラフィカル・ユーザ・インタラクション）である。これらの一例において、３Ｄ点群の各点について、座標の追加は、
座標を初期値に設定することと、
前記同じオブジェクトを選択するためのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションと当該点との間の近さに応じて当該座標を増加させることと、
前記同じオブジェクトの外側の領域を破棄するためのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションと当該点との間の近さに応じて当該座標を減少させることと、を含む。

グラフィカル・ユーザ・インタラクションと点との間の近さに応じて座標を増加させることは、点の位置とグラフィカル・ユーザ・インタラクションの位置との間の距離を定量化することを含んでいてもよい。例えば、グラフィカル・ユーザ・インタラクションは、１つまたは複数の第１のシードによって定義された上述の第１のグラフィカル・ユーザ・インタラクションであってもよい。距離の定量化は、点と各第１のシードとの間の各距離を定量化することを含んでいてもよい。座標を増加させることは、次いで、各定量化された距離を表す値を座標に追加することを含んでいてもよい。

グラフィカル・ユーザ・インタラクションと点との間の近さに応じて座標を減少させることは、点の位置とグラフィカル・ユーザ・インタラクションの位置との間の距離を定量化することを含んでいてもよい。例えば、グラフィカル・ユーザ・インタラクションは、１つまたは複数の第２のシードによって定義された上述の第２のグラフィカル・ユーザ・インタラクションであってもよい。距離の定量化は、点と各第２のシードとの間の各距離を定量化することを含んでいてもよい。座標を増加させることは、次いで、各定量化された距離を表す値を座標に追加することを含んでいてもよい。

なお、３Ｄ点群の任意の点について、当該点がグラフィカル・ユーザ・インタラクションから遠すぎる場合、それが同じオブジェクトを選択するためのグラフィカル・ユーザ・インタラクションの場合も、その外側の領域を破棄するためのものの場合も、点の座標は増加も減少もしない。言い換えると、各点および１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションそれぞれについて、座標の増加または減少は、当該点がグラフィカル・ユーザ・インタラクションに比較的近い場合にのみ発生する（例えば、当該グラフィカル・ユーザ・インタラクションを定義しているシードからの距離が所定の範囲内）。したがって、点の座標が、仕様を備えさせた後も初期値と等しい場合がある。

このような方法で座標を追加すると、次のような効果がある。すなわち、点が、前記同じオブジェクトを選択するための１つまたは複数のグラフィカル・ユーザ・インタラクションに近いほど、当該点が前記同じオブジェクトに属する可能性が高くなり、その追加された座標がより大きな値を有することになる。逆に、点が、前記同じオブジェクトの外側の領域を破棄するための１つまたは複数のグラフィカル・ユーザ・インタラクションに近いほど、当該点がその領域に属する可能性が高くなり、その追加された座標がより小さな値を有することになる。最終的に、これは、グラフィカル・ユーザ・インタラクションがオブジェクトを選択するためのものである場合、およびオブジェクトの外側の領域を破棄するためのものである場合を検出するようにニューラルネットワークを学習するのに役立つ。

ここで、本学習方法について、３Ｄ点群に仕様を備えさせることの実装について説明する。

この実装では、各３Ｄ点群について、１つまたは複数のグラフィカル・ユーザ・インタラクションは、前述の１つまたは複数の第１のグラフィカル・ユーザ・インタラクション含み、それらの１つ１つに、１つまたは複数のシード位置の決定は、前述の拡散の実装に応じた１つまたは複数の第１のシードの拡散を含む。現在説明している実装では、１つまたは複数のグラフィカル・ユーザ・インタラクションは、１つまたは複数の前述の第２のグラフィカル・ユーザ・インタラクションを含んでいてもよく、その場合、それらの１つ１つについて、前述の１つまたは複数の第２のシードの決定の実装に従って、１つまたは複数の第２のシードの決定が実行される。したがって、現在説明している実装では、１つまたは複数のグラフィカル・ユーザ・インタラクションをシミュレーションすると、以下が得られる。

第１のグラフィカル・ユーザ・インタラクション（すなわち、ポジティブ・インタラクション）ごとに、１つまたは複数の第１のシードの位置。

第２のグラフィカル・ユーザ・インタラクション（すなわち、ネガティブ・インタラクション）ごとに、１つまたは複数の第２のシードの位置。

さらに、この実装では、前述のように、各シードが点である。この実装には、シードを仕様に変換することを含み、これは、ここでは、インタラクション・チャネルと呼ばれる。変換では、Ｋ近傍検索を用いて、各シードに最も近いＫ個の点を取得し、各シードからの距離に基づいて、それらに特定の強度を割り当てる。

具体的には、座標の追加は、３Ｄ点群のすべての点について、同じ値で座標を初期化することを含み、当該同じ値は１２８に等しい。座標の追加は、次いで、シードごとに、たとえば最近傍探索アルゴリズムに従って、シードに最も近いＫ個の点を取得することを含む。ここで、数Ｋは、式（１）に関連して前述した数Ｋである。取得は、３Ｄ点群の点の数に従って、Ｋ近傍探索で用いられた近傍の数を調整することを含んでいてもよい。これにより、検索を点群密度に対して不変にすることができる。調整は、次の式に従って実行できる。

ここで、Ｄは考慮される点のデフォルトの数、ｍは選択された調整の程度、ｋは考慮される近傍のデフォルトの数である。

実験によると、Ｋについてのこの式は、さまざまな点群サイズに対して非常に安定していることが示された（３＊３＊５メートルの領域について、Ｄ＝１０００００、ｋ＝１０２４、ｍ＝１２８で、約１０ｋ〜５００ｋの点の範囲をテストした）。これらの数値は、大きなオブジェクトに対する対話操作の数を減らすのに十分な大きさでありながら、最小のオブジェクトのサイズにもグローバルに対応するグラフィカル・インタラクションのサイズに対応するように、実験で選択した。次いで、わかりやすくするために、訓練データセット内のオブジェクトごとに観測されたオブジェクト点の数と点群の密度について選択した。これにより、実験では、すべてのオブジェクトと点群密度に適合する最適なＫを決定する方法を見つけることができた。

座標の追加は、次いで、各シードについて、およびシードのＫ近傍に属する３Ｄ点群の各点について、以下により座標を修正することを含む。

シードが第１のシードである場合、シードからのガウス強度を座標に追加する。または、
シードが第２のシードである場合、シードからのガウス強度を座標から差し引く。

実際、修正は、シードごとに、ガウス強度を算出し、シードに最も近いＫ個の点のＫ個の距離の中央値距離に基づいてガウス強度を動的に調整することを含む。肯定的シードとも呼ばれる第１のシードのガウス強度の算出は、次の式に従って実行してもよい。

ここで、

であり、

は、各近傍についての肯定的シードからの距離を含み、サイズは（Ｋ，１）であり、Ｋは最近傍の数である。

否定的シードとも呼ばれる第２のシードのガウス強度の算出は、次の式に従って実行してもよい。

ここで

であり、

は、各近傍についての否定的シードからの距離を含み、サイズは（Ｋ，１）であり、Ｋは最近傍の数である。

なお、追加された座標は、すべての点について、１２８で初期化される。ガウス強度に１２７を掛けると、肯定的シードに一致する点について最大値２５５を得ることができる。否定的シードに一致する点については、対応する最終的な点の強度は１である。したがって、強度は色のチャネルと同じ振幅をカバーし、点群にそれぞれカラーチャネルが備えられている場合には、さらに単純な正規化ステップ（各チャネルの０〜１を２５５で除算することによる正規化）が可能になる。近傍の距離の配列の中央値としての動的なｓパラメータは、さまざまな点群密度を処理するための柔軟性を提供する。シードに一致するすべての点からの寄与が追加され、上記備えさせることは、［０，２５５］に属する座標のクリッピング、点の他の座標への連結、および各点についてこれを含む。インタラクション・チャネル／仕様は、連結されたすべての座標の集合である。たとえば、座標ｘｙｚを唯一の特徴とするＮ個の点からなる３Ｄ点群の場合、上記備えさせることの結果、（Ｎ，３＋１）の最終的な点群の次元が得られる。色が存在する場合、上記備えさせることの結果、例えば（Ｎ，６＋１）次元が得られる。実施された実験では、点座標のみを用い、すなわち色は用いなかったが、素晴らしい結果が示された。

その結果、この実装では、訓練データセットは、それぞれが点群とそれらのインタラクション・チャネルの対からなる訓練サンプルからなる。各訓練サンプルは、点群セグメント化の分野からそれ自体が知られているように、３Ｄ点群の各点について、その点が前記同じオブジェクトに属するかどうかを示すセグメント化マスクもさらに含んでいてもよい。セグメント化マスクは、前述のように、３Ｄ点群の注釈付けのステップにおいて作成してもよい。

図４は、点群４０およびそのインタラクション・チャネルを示す。図４は、特に、肯定的シード４２および２つの否定的シード４４および４６を示している。図５は、対応するセグメント化マスク５０を示し、前記同じオブジェクト５２に対応する点群４０の部分、および前記同じオブジェクト５４に対応しない部分を示す。

ここで、ニューラルネットワークの学習（Ｓ２０）について説明する。

前述のように、ニューラルネットワークは、ニューラルネットワークが入力を処理するために適用する操作を定義する重み形成データを有する。ニューラルネットワークの学習（Ｓ２０）は、訓練データセットに基づいて重みの値を決定することを含む。ニューラルネットワークの学習（Ｓ２０）は、任意の既知の技術に従って実行できる。例では、ニューラルネットワークの学習（Ｓ２０）は、任意の既知のディープニューラルネットワーク（ＤＮＮ）学習方法に従って実行される。

機械学習の分野でそれ自体が知られているように、ＤＮＮは、コンピュータが観測データから学習するのを可能にする、生物学に着想を得たプログラミングパラダイムであるニューラルネットワークで学習するための技術の集合である。例えば、Ｅ．Ｒｕｍｅｌｈａｒｔ，Ｇ．Ｅ．Ｈｉｎｔｏｎ，Ｒ．Ｊ．Ｗｉｌｌｉａｍｓ，Ｌｅａｒｎｉｎｇｉｎｔｅｒｎａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙｅｒｒｏｒｐｒｏｐａｇａｔｉｏｎ，Ｐａｒａｌｌｅｌｄｉｓｔｒｉｂｕｔｅｄｐｒｏｃｅｓｓｉｎｇ：ｅｘｐｌｏｒａｔｉｏｎｓｉｎｔｈｅｍｉｃｒｏｓｔｒｕｃｔｕｒｅｏｆｃｏｇｎｉｔｉｏｎ，ｖｏｌ．１：ｆｏｕｎｄａｔｉｏｎｓ，ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，１９８６を参照のこと。これは参照により本明細書に組み込まれる。オブジェクト認識において、ＤＮＮの成功は、他の方法（最小カット、ＳＶＭ、Ｂｏｏｓｔｉｎｇ、ＲａｎｄｏｍＦｏｒｅｓｔなど）で用いられる手作業による低レベルの特徴（ゼルニケモーメント、ＨＯＧ、Ｂａｇ−ｏｆ−Ｗｏｒｄｓ、ＳＩＦＴなど）とは対照的に、豊かな中間レベルのメディア表現を学習する能力を有するおかげである。より具体的には、ＤＮＮは、未処理のデータに基づくエンドツーエンドの学習に焦点を当てている。言い換えると、未処理の特徴から始まりラベルで終わるエンドツーエンドの最適化を達成することによって、特徴量エンジニアリングから可能な限り遠く離れる。

本明細書のニューラルネットワークは、点群セグメント化を実行できる任意の既知の深層学習モデルであってもよい。例えば、ニューラルネットワークは、ＰｏｉｎｔＣＮＮであってもよい（［４］Ｌｉ，Ｙａｎｇｙａｎ，ＲｕｉＢｕ，ＭｉｎｇｃｈａｏＳｕｎ，ＷｅｉＷｕ，ＸｉｎｈａｎＤｉ，ａｎｄＢａｏｑｕａｎＣｈｅｎ．“ＰｏｉｎｔＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎＯｎＸ−ＴｒａｎｓｆｏｒｍｅｄＰｏｉｎｔｓ．”−ＮｅｕｒＩＰＳ２０１８参照。これは引用により本明細書に組み込まれる）。ニューラルネットワークは、手動では値を設定できない数百万のパラメータを含んでいてもよい。学習（Ｓ２０）は、これらのパラメータの値を設定／更新することを含む。学習アルゴリズムがモデルパラメータを更新しているとき、モデルは「訓練モード」にあると言われる。これは、各入力に関連付けられた注釈により、各入力に対するモデルの出力に応じてモデルを連続的に「修正」することからなる。注釈は、モデルの出力が真か偽かを評価することを可能にする特定の入力と関連付けられたデータの集合である。注釈付きデータセットによりモデルの訓練を監督する方法を「教師あり学習」と呼ぶ。モデルが訓練されると、そのパラメータの更新を停止する。次いで、モデルは、新しい入力（すなわち、訓練モード中には見えない入力）を処理して検出結果を返すためにのみ用いられ、このようなモデルは「テストモード」にあると言われる。ニューラルネットワークの学習（Ｓ２０）は、機械学習の分野でよく知られているこれらすべての深層学習の概念を統合してもよい。

ニューラルネットワークは、入力された３Ｄ点群、および、それぞれが各選択操作を表す１つまたは複数の入力グラフィカル・ユーザ・インタラクションの仕様に基づき、オブジェクトを含む入力された３Ｄ点群をセグメント化するように構成されている。言い換えると、ニューラルネットワークは、仕様を備えた入力された３Ｄ点群を入力とする。さらに言い換えると、ニューラルネットワークは、訓練データセットのどのサンプルとも同じタイプのデータを入力とする。ニューラルネットワークは、入力された３Ｄ点群を、セグメント化するように構成されている。言い換えると、ニューラルネットワークは、その入力に基づいて、入力された３Ｄ点群に含まれるオブジェクトの抽出を実行する。ニューラルネットワークがこれを行うことができるのは、入力された３Ｄ点群には仕様が備えられており、ニューラルネットワークはそのような仕様を検出するように学習（Ｓ２０）されているからである。言い換えると、仕様は、オブジェクトを選択するための１つまたは複数の入力グラフィカル・ユーザ・インタラクションの位置を示し、ニューラルネットワークはこの仕様から、オブジェクトが選択されることを検出する。なお、前述のように、ニューラルネットワークは、点群カテゴリとオブジェクトカテゴリに依存しない。ニューラルネットワークは、オブジェクトと背景の残りの部分との違いを示すデータ、例えばセグメント化マスクを出力する。

例えば、ニューラルネットワークは、入力された点群の各点の分類結果を、対応する信頼スコアとともに出力してもよい。具体的には、このような例では、各点について、ニューラルネットワークは点のオブジェクトの一部であるかどうかの分類を、信頼スコアとともに出力する。信頼スコアは、０と１との間の実数である。スコアが１に近ければ近いほど、ニューラルネットワークは、その点に関連付けられたラベルについて、より信頼性が高い。言い換えると、ニューラルネットワークは、オブジェクトについてセグメント化マスクを出力する。これらの例では、各訓練サンプルはセグメント化マスクも含み、前述のように、点群の各点を「オブジェクト」または「背景」として分類する。これらの一例において、学習（Ｓ２０）は完全教師ありの学習である。

セグメント化方法について、ここで説明する。

本セグメント化方法は、インタラクティブな点群セグメント化のための方法である。

よって、本セグメント化方法は、オブジェクトを含む３Ｄ点群を提供すること（Ｓ３０）を含む。訓練データセットの他の３Ｄ点群と同様に、ここでの３Ｄ点群は現実のシーンを表してもよく、物理的な測定または合成点群生成プロセスから生じてもよい。提供（Ｓ３０）は、本セグメント化方法を実行するコンピュータシステムのディスプレイ（例えば、グラフィカル・ユーザ・インターフェース）上に３Ｄ点群を表示することを含み得る。３Ｄ点群は、ユーザに表示されてもよく、それにより、ユーザは、３Ｄ点群に対し、例えばオブジェクトについての関心を示すなど、グラフィカルに対話操作を行うことができる。

本セグメント化方法は、提供された３Ｄ点群のインタラクティブなセグメント化に対応する１回または複数回の繰り返しも含む。具体的には、繰り返しの各回は、１つまたは複数のグラフィカル・ユーザ・インタラクションを実行することによって、オブジェクトの選択操作を実行する（Ｓ４０）ことを含む。言い換えると、ユーザは、（例えば表示された）提供された３Ｄ点群に対し１回または複数回グラフィカルに対話操作を行うことにより、オブジェクトについての関心を示すことができる。各グラフィカル・ユーザ・インタラクションは、オブジェクトの選択に関係し、１つまたは複数のグラフィカル・ユーザ・インタラクションは、全体としてオブジェクトの選択操作を形成する。

オブジェクトの選択に関して、「グラフィカル・ユーザ・インタラクション」とは、これは、ユーザが、触覚システム（例えば、マウス、またはセンシティブ／タッチスクリーンやセンシティブ／タッチパッドなどのタッチデバイス）を用いて、例えばディスプレイ・ユニットの１つまたは複数の位置を選択することにより、オブジェクトへの関心を示すユーザ・インタラクションを意味する。１つまたは複数の位置は、１つまたは複数のクリックなど、異なる位置を形成してもよい。あるいは、それらは、全体として、ストロークや境界ボックスなどの連続した形状を形成してもよい。１つまたは複数の位置がオブジェクト上にあってもよく、その場合、グラフィカル・ユーザ・インタラクションはオブジェクトを選択するためのものである。あるいは、１つまたは複数の位置は、オブジェクトの外側の領域（例えば、別のオブジェクトまたは背景）上にあってもよく、その場合、グラフィカル・ユーザ・インタラクションは、前記領域を破棄するためのものである。アクティベーション後、実質的にリアルタイムで、選択が視覚的に表示されてもよい。

一例において、１つまたは複数のグラフィカル・ユーザ・インタラクションは、オブジェクト上での１回または複数回のクリックを行うことからなるグラフィカル・ユーザ・インタラクションを含んでいてもよい。１回または複数回のクリックの実行は、触覚デバイスを用いて実行してもよく、例えば、ユーザは、オブジェクト上の１つまたは複数の位置において、表示されている３Ｄ点群を１回または複数回クリックまたはタッチする。このグラフィカル・ユーザ・インタラクションは、オブジェクト上の１つまたは複数の位置（すなわち、１回または複数回のクリックの位置）の選択に関係するため、オブジェクトを選択するためのものである。

追加的にあるいは代替的に、１つまたは複数のグラフィカル・ユーザ・インタラクションは、オブジェクト上でストロークを行うことからなるグラフィカル・ユーザ・インタラクションを含んでいてもよい。ストロークの実行は、ユーザが、例えば触覚デバイスを用いて、オブジェクト上で線に沿ってカーソルを連続的に移動させるか、あるいは、オブジェクト上でタッチを連続的に実行することにより、表示された３Ｄ点群上でストロークを描画することからなっていてもよい。このグラフィカル・ユーザ・インタラクションは、オブジェクト上の位置（すなわち、ストロークにより定義される位置）の選択に関係するため、オブジェクトを選択するためのものである。

追加的にあるいは代替的に、１つまたは複数のグラフィカル・ユーザ・インタラクションは、オブジェクト上またはオブジェクトの周りに境界ボックスを定義することからなるグラフィカル・ユーザ・インタラクションを含んでいてもよい。境界ボックスの定義は、ユーザが、例えば触覚デバイスのタッチまたはカーソルを連続的に動かして境界ボックスを形成することによって、表示された３Ｄ点群上に境界ボックスを描くことからなっていてもよい。このグラフィカル・ユーザ・インタラクションは、オブジェクト上の位置（すなわち、境界ボックスの内側の位置）の選択に関係するため、オブジェクトを選択するためのものである。

追加的にあるいは代替的に、１つまたは複数のグラフィカル・ユーザ・インタラクションは、オブジェクトの外側で１回または複数回のクリックを行うことからなるグラフィカル・ユーザ・インタラクションを含んでいてもよい。１回または複数回のクリックの実行は、触覚デバイスを用いて実行してもよく、例えば、ユーザは、オブジェクトの外側の１つまたは複数の位置において、表示されている３Ｄ点群を１回または複数回クリックまたはタッチする。このグラフィカル・ユーザ・インタラクションは、オブジェクトの外側の領域上の１つまたは複数の位置（すなわち、１回または複数回のクリックの位置）の選択に関係するため、オブジェクトの外側の領域を破棄するためのものである。１つまたは複数の位置は、例えば、オブジェクトの外側の隣接する領域上にあって、オブジェクトの境界を特定してもよい。あるいは、隣接するオブジェクト上にあって、背景オブジェクトとして特定してもよい。

追加的にあるいは代替的に、１つまたは複数のグラフィカル・ユーザ・インタラクションは、オブジェクトの外側でストロークを行うことからなるグラフィカル・ユーザ・インタラクションを含んでいてもよい。ストロークの実行は、ユーザが、例えば触覚デバイスを用いて、３Ｄ点群上で線に沿ってカーソルを連続的に移動させるか、あるいは、３Ｄ点群上でタッチを連続的に実行することにより、表示された３Ｄ点群上でストロークを描画することからなっていてもよい。このグラフィカル・ユーザ・インタラクションは、オブジェクトの外側の領域上の位置（すなわち、ストロークにより定義される位置）の選択に関係するため、オブジェクトの外側の領域を破棄するためのものである。位置は、例えば、オブジェクトの外側の隣接する領域上にあって、オブジェクトの境界を特定してもよい。あるいは、隣接するオブジェクト上にあって、背景オブジェクトとして特定してもよい。

１つまたは複数のグラフィカル・ユーザ・インタラクションは互いを補完する：例えば、１つはオブジェクトを大まかに選択するためのものであり（例えば、オブジェクト上での１回のクリック）、もう１つは隣接する領域を破棄してオブジェクトの選択を絞り込むためのものである（例えば、オブジェクトの隣接領域上でのクリック）。１つまたは複数のグラフィカル・ユーザ・インタラクションが全体としてオブジェクトの選択操作を形成する。選択操作は、１つまたは複数のグラフィカル・ユーザ・インタラクションによって定義される位置をカプセル化するデータによって指定される。別の言い方をすれば、これらのデータは、１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を形成する。仕様は、前述の、訓練データセットで提供された仕様と同じタイプのデータである。主な違いは、本セグメント化方法の背景における仕様は、現実のグラフィカル・ユーザ・インタラクションに由来するのに対し、本学習方法の背景においては、仕様は、前述のように、シミュレーションされた仮想グラフィカル・ユーザ・インタラクションに由来するものであってもよいということである。

本セグメント化方法は、この仕様と入力された３Ｄ点群に基づいて、次いで、ニューラルネットワークを適用（Ｓ５０）することによって３Ｄ点群をセグメント化することを含む。前述のように、ニューラルネットワークは、仕様と３Ｄ点群を入力として、これらの入力に対して操作を実行し、その結果、ニューラルネットワークは３Ｄ点群からオブジェクトを抽出する。例えば、ニューラルネットワークは、前述のように、信頼スコアとともに、３Ｄ点群の点の分類を「オブジェクト」または「非オブジェクト」として出力してもよい。

繰り返しの各回において、本セグメント化方法は、選択操作の実行後、ニューラルネットワークの適用前に、選択操作をインタラクション・チャネルに変換することを含んでいてもよく、これは、ここでは、本学習方法の例のように、３Ｄ点群の各点にそれぞれ追加された座標の集合である。選択操作をインタラクション・チャネルに変換することは、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションよって定義される１つまたは複数のシード位置を決定することにより、前記仕様を決定することと、
前記３Ｄ点群に前記仕様を備えさせることであって、前記３Ｄ点群の各点に、当該点における選択操作の強度を定量化する座標を追加することを含む、備えさせることと、を含む。

各グラフィカル・ユーザ・インタラクションは、３Ｄ点群上のジオメトリ（例えば、１回または複数回のクリック、ストローク、または境界ボックス）を定義し、このジオメトリの位置に関するデータを生成する。これらのデータは、グラフィカル・ユーザ・インタラクションの位置を検出するための任意の既知の方法によって検出してもよい。セグメント化は、これらのデータから、全体としてジオメトリを表す１つまたは複数のシード位置を決定する。簡略化のため、ここでは、各シード位置を「シード」と呼ぶ。１つまたは複数のシードを決定することは、１つまたは複数のシードとして、ジオメトリに特徴的な１つまたは複数の点を算出することを含んでいてもよく、これは、各シードが、この場合、点であることを意味する。オブジェクト上のシードは肯定的シードと呼ばれ、オブジェクトの外側の領域上のシードは否定的シードと呼ばれる。グラフィカル・ユーザ・インタラクションは、肯定的シードおよび否定的シードの両方を定義してもよい。

一例において、グラフィカル・ユーザ・インタラクションが１つまたは複数のクリックを実行することからなる場合、１つまたは複数のシードの決定は、各クリックをシードとして決定することを含んでいてもよい。オブジェクトでのクリックは肯定的シードとして決定され、一方、オブジェクトの外側の領域上のクリックは否定的シードとして決定される。

追加的に、または代替的に、グラフィカル・ユーザ・インタラクションがストロークの実行からなる場合、１つまたは複数のシードの決定は、ストロークの線の下の点をとることによってストロークをいくつかの点へとサンプリングすることを含んでいてもよい。このときシードはサンプリングされた点となる。サンプリングされた点は、オブジェクト上にある場合は肯定的シードであり、オブジェクトの外側の領域上にある場合は否定的シードである。サンプリングされた点の数は、ストロークの長さに比例してもよい。なお、これは、訓練データセットの提供（Ｓ１０）の例でシミュレーションしたグラフィカル・ユーザ・インタラクションと一致し、肯定的シードの場合、オブジェクトが大きいほど、オブジェクトに対して実行されるストロークが大きくなり、より多くのシードが決定される。

追加的に、または代替的に、グラフィカル・ユーザ・インタラクションが境界ボックスを定義することからなる場合、１つまたは複数のシードの決定は、境界ボックスを境界ボックスの内側のいくつかの点と境界ボックスの外側のいくつかの点へとサンプリングすることを含んでいてもよい。内側の点は肯定的シードとして決定され、外側の点は否定的シードとして決定される。肯定的シードの数は、境界ボックス内の点の数に比例し、それらの間でランダムに選択されてもよい。否定的シードは、境界ボックスの周りの小さな領域（例えば３０ｃｍ未満）に含まれる点からランダムに選択可能である。なお、これは本学習方法について説明した第１の戦略に従ってシミュレーションしたグラフィカル・ユーザ・インタラクションと一致する。

本セグメント化方法についての説明を続けると、前記３Ｄ点群に前記仕様を備えさせることは、３Ｄ点群の各点に、当該点における選択操作の強度を定量化する座標を追加することを含む。

ここでは、本セグメント化方法について、上記仕様を備えさせることについて説明する。

３Ｄ点群に仕様を備えさせることは、決定されたシードが考慮され、それらを、座標の集合に変換する。３Ｄ点群の各点を１つの座標へと変換する。３Ｄ点群に備えさせることは、次いで、この座標を各点に追加することを含み、これにより仕様が得られる。別の言い方をすれば、仕様は３Ｄ点群の各点に追加されたすべての座標の集合である。

変換は、各点について、座標が当該点における選択操作の強度を定量化するように行われる。具体的には、座標は、グラフィカル・ユーザ・インタラクションのそれぞれに対する点の近さを定量化する。これにより、選択するオブジェクト（すなわち、前記同じオブジェクト）に点が属しているかどうかを定量化する。これにより、適用（Ｓ５０）において、ニューラルネットワークがセグメント化を実行するときに、ニューラルネットワークが、オブジェクトの一部として点を抽出／選択するかどうかを可能にする。例えば、ニューラルネットワークは、座標が大きいほど、点が選択するオブジェクトに属する確率が高くなることを検出する。

一例においては、当該追加は、すべての点について座標を同じ初期値に設定することを含む。当該追加は、次いで、決定された肯定的シードごとに、点群の各点について、シードと点との間の近さに応じて座標を増加させることを含んでいてもよい。当該追加は、また、決定された否定的シードごとに、点群の各点について、シードと点との間の近さに応じて座標を減少させることを含んでいてもよい。

肯定的（あるいは否定的）シードと点との間の近さに応じて座標を増加（あるいは減少）させることは、点の位置とシードの位置との間の距離を定量化することを含んでいてもよい。座標を増加（あるいは減少）させることは、次いで、定量化された距離を表す値を座標に追加する（あるいは差し引く）ことを含んでいてもよい。

なお、３Ｄ点群の任意の点について、当該点がシードから遠すぎる場合、それが肯定的シードの場合否定的シードの場合も、点の座標は増加も減少もしない。言い換えると、各点および決定されたシードについて、座標の増加または減少は、当該点がグラフィカル・ユーザ・インタラクションに比較的近い場合にのみ発生する（例えば、当該シードからの距離が所定の範囲内）。したがって、点の座標が、仕様を備えさせた後も初期値と等しい場合がある。

このような方法で座標を追加すると、次のような効果がある。すなわち、点が、肯定的シードに近いほど、当該点が前記同じオブジェクトに属する可能性が高くなり、その追加された座標がより大きな値を有することになる。逆に、点が、否定的シードに近いほど、当該点が前記同じオブジェクトに属さない可能性が高くなり、その追加された座標がより小さな値を有することになる。最終的に、これにより、グラフィカル・ユーザ・インタラクションがオブジェクトを選択するためのものである場合、およびオブジェクトの外側の領域を破棄するためのものである場合、ニューラルネットワークが検出できるようになる。

ここで、３Ｄ点群に仕様を備えさせることの実装について説明する。

この実装では、仕様を決定すると、１つまたは複数の肯定的シードと１つまたは複数の否定的シードが得られる。さらに、この実装では、前述のように、各シードが点である。この実装には、シードを仕様に変換することを含み、これは、ここでは、インタラクション・チャネルと呼ばれる。変換では、Ｋ近傍検索を用いて、各シードに最も近いＫ個の点を取得し、各シードからの距離に基づいて、それらに特定の強度を割り当てる。

具体的には、座標の追加は、３Ｄ点群のすべての点について、同じ値で座標を初期化することを含み、当該同じ値は１２８に等しい。座標の追加は、次いで、シードごとに、たとえば最近傍探索アルゴリズムに従って、シードに最も近いＫ個の点を取得することを含む。ここで、数Ｋは、式（１）に関連して前述した数Ｋである。取得は、３Ｄ点群の点の数に従って、Ｋ最近傍探索で用いられた近傍の数を調節することを含んでいてもよい。これにより、検索を点群密度に対して不変にすることができる。調整は、次の式に従って実行できる。

実験によると、Ｋについてのこの式は、さまざまな点群サイズに対して非常に安定していることが示された（３＊３＊５メートルの領域について、Ｄ＝１０００００、ｋ＝１０２４、ｍ＝１２８で、約１０ｋ〜５００ｋの点の範囲をテストした）。

ここで

であり、

ここで

であり、

なお、座標は、すべての点について、１２８で初期化される。ガウス強度に１２７を掛けると、肯定的シードに一致する点について最大値２５５を得ることができる。否定的シードに一致する点については、対応する最終的な点の強度は１である。したがって、強度はカラーチャネルと同じ振幅をカバーし、点群にそれぞれカラーチャネルが備えられている場合には、さらに単純な正規化ステップ（各チャネルの０〜１を２５５で除算することによる正規化）が可能になる。近傍の距離の配列の中央値としての動的なｓパラメータは、さまざまな点群密度を処理するための柔軟性を提供する。シードに一致するすべての点からの寄与が追加され、上記備えさせることは、［０，２５５］に属する座標のクリッピング、点の他の座標への連結、および各点についてこれを含む。インタラクション・チャネル／仕様は、連結されたすべての座標の集合である。たとえば、座標ｘｙｚを唯一の特徴とするＮ個の点からなる３Ｄ点群の場合、上記備えさせることの結果、（Ｎ，３＋１）の最終的な点群の次元が得られる。色が存在する場合、上記備えさせることの結果、例えば（Ｎ，６＋１）次元が得られる。実施された実験では、点座標のみを用い、すなわち色は用いなかったが、素晴らしい結果が示された。

その結果、この実装において、３Ｄ点群は、インタラクション・チャネルを備える。３Ｄ点群とそのインタラクション・チャネルで構成される対が、次いで、セグメント化を実行するための入力としてニューラルネットワークに供給される。

その前に、この実装は、この実装の特定の実装において、肯定的シードの重心の周りの点群をクロッピングすることを含んでいてもよい。点群全体の代わりにこの領域を用いることにより、実行時間が短縮される。この特定の実装はまた、点群の低密度領域内の点を複製するための均一なサンプリングを含んでいてもよい。この特定の実装はまた、この特定の実装におけるニューラルネットワークであるＰｏｉｎｔＣＮＮの入力サイズに一致するように、３Ｄ点群の点を２０４８点の集合に分割することを含んでいてもよい。この特定の実装では、ニューラルネットワークは、次いで、前述のように、これらの点の予測を出力する。本セグメント化方法は、ネットワークの信頼スコアに基づいて予測をマージすることを含んでいてもよい。本セグメント化方法はまた、オプションとして、比較的まばらに見える可能性がある予測を平滑化するための後処理を含んでいてもよい。平滑化には、ニューラルネットワークによって出力された信頼スコアに依存するボクセルベースのアプローチを用いてもよい。各ボクセルにおいて、平滑化により、含まれるすべての点にわたるオブジェクトカテゴリの平均信頼度が固定閾値と比較される。それにより、ボクセルカテゴリについて記述し、それに応じて、含まれるすべての点にラベルを付けることができる。このような後処理方法の利点の１つは、時間効率である。

ここで、セグメント化方法の実験の例について説明する。

この実験においては、本学習方法の例に従ってニューラルネットワークを学習する。学習に用いれる訓練データセットは、前述のように、合成点群からなる。ニューラルネットワークが学習される本学習方法の例では、本学習方法は、前述の、本学習方法のための３Ｄ点群に仕様を備えさせることの実装を含む。本実験には、セグメント化方法のいくつかの実装が含まれる。

第１の実装が図６および図７に示されている。図６に示すように、オブジェクト６２を含む３Ｄ点群６０がユーザに表示される。ユーザは、オブジェクト６２上で数回のクリック６２０、６２２、６２４、および６２６を実行し、各クリックは、肯定的シードをもたらす。図７に示すように、ニューラルネットワークを適用（Ｓ５０）することにより、オブジェクト６２が抽出される。

第２の実装が図８および図９に示されている。図８に示すように、オブジェクト８２を含む３Ｄ点群８０がユーザに表示される。ユーザは、点群８０上で数回のクリック８２４および８２２を実行する。クリック８２２は否定的シードをもたらし、クリック８２４は肯定的シードをもたらす。図９に示すように、ニューラルネットワークを適用（Ｓ５０）することにより、オブジェクト８２が抽出される。

第３の実装が図１０および図１１に示されている。図１０に示すように、オブジェクト１０２を含む３Ｄ点群１００がユーザに表示される。ユーザは、オブジェクト１０２上で数回のクリック１０２２および１０２４を実行し、各クリックは、肯定的シードをもたらす。図１１に示すように、ニューラルネットワークを適用（Ｓ５０）することにより、オブジェクト１０２が抽出される。

第４の実装が図１２および図１３に示されている。図１２に示すように、オブジェクト１２２を含む３Ｄ点群１２０がユーザに表示される。ユーザは、オブジェクト１２２上で数回のクリック１２２２および１２２４を実行し、各クリックは、肯定的シードをもたらす。図１３に示すように、ニューラルネットワークを適用（Ｓ５０）することにより、オブジェクト１２２が抽出される。

図１４は、本学習方法と本セグメント化方法を統合するプロセスの一例のフローチャートを示している。図１４に示すように、プロセスの例は以下のステップを実行する。

オフライン段階：この段階は、現実世界のデータとユーザの行動に近いと思われるユーザのインジケータ／セグメント化マスクの対を有する点群を用いてモデルを訓練することを目的としている。これには２つの主要なステップが含まれている。なお、この段階はユーザからはトランスペアレントである。

訓練データセットの生成。

点群を与え、現実のユーザから一貫性のあるインジケータを収集することは、非常に困難で時間がかかる可能性があり、さまざまなユーザの行動をカバーする保証がない。この例では、訓練インジケータは、ユーザのような動作を定義することによって自動的に生成される。訓練ユーザ・インジケータは、以下を含む。

同じ点群内の識別された対象オブジェクトの一部である訓練点群の少なくとも１つの点からなる肯定的訓練インジケータ。

同じ点群内の識別された対象オブジェクトの一部ではない訓練点群の少なくとも１つの背景の点からなる否定的訓練インジケータ。

なお、対象オブジェクトごとに少なくとも１つの肯定的インジケータを生成する必要がある。

生成されたインジケータは、ニューラルネットワークへの入力として元の点群に追加される追加のチャネル（すなわち、インタラクション・チャネル）に変換され、ニューラルネットワークに入力できる形式に変換される。そして、結果として得られる訓練データセットには、訓練インジケータを有する強化された点群と対象オブジェクトのセグメント化マスクの両方が含まれる。

ニューラルネットワークモデルは、訓練データセットに基づいて学習される。これは、点群ＤＮＮベースのモデル上に構成されている。

オンライン段階：点群とユーザ・インジケータが与えられると、データはまずインジケータを変換するために前処理される。次いで、訓練されたモデルが適用され、最終的にセグメント化マスクが取得される。

図１５は、プロセスの実施についてのフローチャートを示す。

本学習方法と本セグメント化方法はコンピュータによって実施される方法である。

これは、ステップ（または実質的に全てのステップ）が少なくとも１つのコンピュータまたは任意の類似のシステムによって実行されることを意味する。よって本方法のステップは、コンピュータにより、完全に自動的に、あるいは半自動的に実行される可能性がある。一例において、本方法のステップの少なくともいくつかは、ユーザとコンピュータの対話操作を介してトリガされてもよい。求められるユーザとコンピュータの対話操作のレベルは、想定される自動性のレベルに応じたものであって、ユーザの要望を実装する必要性との間でバランスをとるものとしてもよい。一例において、このレベルは、ユーザが定義し、かつ／あるいは、予め定義されていてもよい。

方法のコンピュータによる実施の典型的な例は、この目的に適したシステムを用いて本方法を実行することである。当該システムは、本方法を実行するための命令を含むコンピュータプログラムを記録したメモリに接続されたプロセッサ、および、グラフィカル・ユーザ・インターフェイス（ＧＵＩ）を備えていてもよい。メモリはデータベースを記憶していてもよい。メモリは、そのような記憶に適した任意のハードウェアであり、場合により、物理的に区別可能ないくつかの部分（例えば、プログラム用に１つ、場合によりデータベース用に１つ）を含む。

図１６は、本システムの一例を示すものであって、当該システムは、クライアントコンピュータシステム、例えばユーザのワークステーションである。

本例のクライアントコンピュータは、内部通信バス１０００に接続された中央演算処理装置（ＣＰＵ）１０１０、および同じくバスに接続されたランダムアクセスメモリ（ＲＡＭ）１０７０とを備える。クライアントコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ１１００と関連付けられたグラフィックス処理装置（ＧＰＵ）１１１０を備える。ビデオＲＡＭ１１００は、当該技術分野において、フレームバッファとしても知られる。大容量記憶装置コントローラ１０２０は、ハードドライブ１０３０などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびＣＤ−ＲＯＭディスク１０４０を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ１０５０は、ネットワーク１０６０へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御装置、キーボードなどの触覚装置１０９０を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ１０８０上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、クライアントコンピュータ内で使用される。さらに、カーソル制御装置は、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。代替的に、あるいは追加的に、クライアントコンピュータシステムは、感知パッドおよび／または感知スクリーンを備えていてもよい。

本明細書におけるコンピュータプログラムは、コンピュータによって実行可能な命令を含んでいてもよく、命令は、上記システムに本方法のうちの１つまたは複数を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、例えば、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。プログラムは、例えばプログラマブルプロセッサによる実行のための機械読み取り可能な記憶装置に具体的に実現された製品のような装置として実装されてもよい。方法のステップは、プログラム可能なプロセッサが命令のプログラムを実行し、入力データを操作して出力を生成することによってプロセスの機能を実行することによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、また、それらにデータおよび命令を送信するようにプログラム可能であってもよく、またそのように接続されていてもよい。アプリケーションプログラムは、高水準の手続き型またはオブジェクト指向のプログラミング言語で、または必要に応じてアセンブリ言語または機械語で実装されていてもよい。いずれの場合も、言語はコンパイラ型言語またはインタープリタ型言語であってもよい。プログラムは、フルインストールプログラムまたは更新プログラムであってもよい。いずれの場合も、プログラムをシステムに適用する本方法のうち１つまたは複数を実行するための指示が得られる。

Claims

コンピュータによって実施される機械学習の方法であって、
３Ｄ点群のデータセットを提供すること（Ｓ１０）であって、各３Ｄ点群は、少なくとも１つのオブジェクトを含み、各３Ｄ点群は、それぞれが当該３Ｄ点群における同じオブジェクトの各選択操作を表す１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備え、
前記データセットに基づいて、オブジェクトを含む、入力された３Ｄ点群をセグメント化するように構成されたニューラルネットワークを学習すること（Ｓ２０）であって、前記セグメント化は、前記入力された３Ｄ点群と、前記３Ｄ点群における前記オブジェクトの各選択操作を表す、１つまたは複数の入力されたグラフィカル・ユーザ・インタラクションの仕様とに基づく、
を含むことを特徴とする方法。
前記３Ｄ点群のデータセットの提供（Ｓ１０）は、
前記３Ｄ点群、および各３Ｄ点群について、当該３Ｄ点群における前記同じオブジェクトの位置に関する情報を提供することと、
各３Ｄ点群について、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのそれぞれをシミュレーションすることによって仕様を決定することと、
前記３Ｄ点群に、前記１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様を備えさせることと、
を含むことを特徴とする請求項１に記載の方法。
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのそれぞれは、それぞれが３Ｄ点群上で定義される１つまたは複数のシード位置に対応し、前記グラフィカル・ユーザ・インタラクションのシミュレーションは、前記１つまたは複数のシード位置を決定することを含む、
ことを特徴とする請求項２に記載の方法。
前記１つまたは複数のグラフィカル・ユーザ・インタラクションは、前記同じオブジェクトを選択するためのものであって、かつ、それぞれが前記同じオブジェクト上に定義された１つまたは複数の第１のシード位置に対応する、第１のグラフィカル・ユーザ・インタラクションを含む
ことを特徴とする請求項３に記載の方法。
前記１つまたは複数のシード位置の決定は、前記１つまたは複数の第１のシード位置を前記同じオブジェクト上に拡散させることを含む
ことを特徴とする請求項４に記載の方法。
少なくとも１つの３Ｄ点群について、１つまたは複数のグラフィカル・ユーザ・インタラクションは、前記同一のオブジェクトの外側の領域を破棄するためのものであって、かつ、それぞれが前記同一のオブジェクトの外側に定義された１つまたは複数の第２のシード位置に対応する、第２のグラフィカル・ユーザ・インタラクションをさらに含む
ことを特徴とする請求項４または請求項５に記載の方法。
前記３Ｄ点群に備えさせることは、各グラフィカル・ユーザ・インタラクションのシミュレーションに基づいて、前記３Ｄ点群の各点に、当該点における選択操作の強度を定量化する座標を追加することを含む
ことを特徴とする請求項２〜６のいずれか１つに記載の方法。
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちの各々は、前記同じオブジェクトを選択するためのもの、または前記同じオブジェクトの外側の領域を破棄するためのものであり、前記３Ｄ点群の各点について、前記座標の追加は、
前記座標を初期値に設定することと、
前記同じオブジェクトを選択するためのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションと当該点との間の近さに応じて当該座標を増加させることと、
前記同じオブジェクトの外側の領域を破棄するためのグラフィカル・ユーザ・インタラクションのそれぞれについて、当該グラフィカル・ユーザ・インタラクションと当該点との間の近さに応じて当該座標を減少させることと、を含む
ことを特徴とする請求項７に記載の方法。
請求項１〜８のいずれか１つに記載の方法で学習可能なニューラルネットワーク。
コンピュータによって実施される、請求項９に記載のニューラルネットワークの利用方法であって、
オブジェクトを含む３Ｄ点群を提供すること（Ｓ３０）と、
繰り返すことであって、
１つまたは複数のグラフィカル・ユーザ・インタラクションを実行することによって、前記オブジェクトの選択操作を実行する（Ｓ４０）ことと、
前記ニューラルネットワークを適用（Ｓ５０）することによって、前記３Ｄ点群と前記１つまたは複数のグラフィカル・ユーザ・インタラクションの仕様に基づいて、前記３Ｄ点群をセグメント化することと
を１回または複数回、繰り返すこととを含む
ことを特徴とする方法。
前記選択操作の実行（Ｓ４０）後、かつ前記ニューラルネットワークの適用（Ｓ５０）前に、さらに、
前記１つまたは複数のグラフィカル・ユーザ・インタラクションのうちのそれぞれについて、当該グラフィカル・ユーザ・インタラクションよって定義される１つまたは複数のシード位置の位置を決定することにより、前記仕様を決定することと、
前記３Ｄ点群に前記仕様を備えさせることであって、前記３Ｄ点群の各点に、当該点における選択操作の強度を定量化する座標を追加することを含む、備えさせることと、を含む、
ことを特徴とする請求項１０に記載の利用方法。
前記１つまたは複数のグラフィカル・ユーザ・インタラクションは、
前記オブジェクト上で１回または複数回のクリックを実行することと、
前記オブジェクト上でストロークを実行することと、
前記オブジェクト上、および／または、前記オブジェクトの周りに、境界ボックスを定義することと、
前記オブジェクトの外側で１回または複数回のクリックを実行することと、および／または、
前記オブジェクトの外側でストロークを実行すること
のうちの１つまたは複数を含むことを特徴とする請求項１０または１１に記載の利用方法。
請求項１〜８のいずれか１つに記載の方法、および／または、請求項１０〜１２に記載の利用方法を実行するための指示を含むコンピュータプログラム。
請求項１３に記載のコンピュータプログラム、および／または、請求項９に記載のニューラルネットワークを記録したデータ記憶媒体を備える装置。
前記データ記憶媒体に接続されたプロセッサをさらに備える
ことを特徴とする請求項１４に記載の装置。