JP2022542858A

JP2022542858A - ディープネットワークの訓練方法

Info

Publication number: JP2022542858A
Application number: JP2022503981A
Authority: JP
Inventors: ストーンケビン; シャンカークリシュナ; ラスキーマイケル
Original assignee: トヨタリサーチインスティテュート，インコーポレイティド
Priority date: 2019-07-23
Filing date: 2020-06-05
Publication date: 2022-10-07
Also published as: EP4004670A4; EP4004828A4; EP4003666A4; EP4004670A1; EP4003668A1; EP4003666A1; JP2022542239A; WO2021015868A1; JP2022544007A; CN114080583A; EP4003668A4; US11741701B2; CN114080583B; US11580724B2; WO2021015883A1; CN114127806A; WO2021015869A1; CN114097004A; US11288883B2; US20220165057A1

Abstract

ロボット装置のディープニューラルネットワークを訓練する方法が説明される。本方法は訓練環境においてロボット装置の３Ｄカメラを使用して撮影した画像を使用して３Ｄモデルを構成することを含む。本方法はまた、ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して３Ｄモデルから３Ｄ画像のペアを生成することを含む。本方法は更に３Ｄ画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために３Ｄ画像のペアを処理することを更に含む。本方法はまた、未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練中からの参照画像を使用することを含む。
【選択図】図６

Description

本出願は、２０１９年７月２３日に出願され「キーフレームマッチャー」と題された米国特許仮出願第６２／８７７、７９２、２０１９年７月２３日に出願され「操作のための視覚的教示及び繰り返し―教示ＶＲ」と題された米国特許仮出願第６２／８７７、７９１、及び２０１９年７月２３日に出願され「視覚化」と題された米国特許仮出願第６２／８７７、７９３の利益を主張する、２０１９年９月１３日に出願され「ディープネットワークの訓練方法」と題された米国特許出願第１６／５７０、８１３の利益を主張し、当該出願の全内容はここに参照により組み込まれるものとする。

本開示の特定の態様は、概して物体検出訓練、及びより具体的にはディープネットワークを訓練するシステム及び方法に関する。

ロボット装置は実世界画像を使用したロボット装置の訓練に基づいて環境中の物体を識別するために１つ以上のセンサ（例えばカメラとして）を使用し得る。実生活の状況では、しかしながら、遭遇した画像は、ロボット装置を訓練するために使用した実画像と異なり得る。すなわち、訓練に使用された画像データにおける変形、物体アーティキュレーション(object articulation)、視角、及び照明の多様性により、実世界での動作における物体検出が妨げられ得る。

従来のシステムは実世界における訓練画像を、観測が期待される実際の状況にて収集する。例えば、ロボット装置の訓練は、訓練画像が収集された実際の照明レベル及び特定の視角を含む、訓練画像を収集する際に使用される実際の状況に限られる。これらの従来のシステムは環境の多様性を考慮しない。訓練データと実世界物体とのこれらの違いはロボット装置が物体検出を行うようディープニューラルネットワークを訓練する場合に特に問題になる。

ロボット装置のディープニューラルネットワークを訓練する方法が説明される。方法は訓練環境においてロボット装置の３Ｄカメラを使用して撮影した画像(images captured via a 3D camera)を使用して３Ｄモデルを構成することを含む。方法はまた、ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して３Ｄモデルから３Ｄ画像のペアを生成することを含む。方法は更に３Ｄ画像のペアに共通する物体の埋め込みディスクリプタを含む参照画像を形成するために３Ｄ画像のペアを処理することを含む。方法は更に未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの参照画像を使用することを含む。

未知の環境における検出物体の識別に基づいてロボット装置を制御する方法が説明される。方法は未知の環境中の物体を検出することを含む。方法はまた、画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することを含む。方法は更に、対応する参照画像の埋め込みディスクリプタに基づいて検出物体を識別することを含む。

未知の環境における検出物体の識別に基づいてロボット装置を制御するシステムが説明される。システムは予め訓練された物体識別モジュールを含む。物体識別モジュールは撮影画像中の検出物体を識別するために対応する参照画像を選択する。画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に基づく埋め込みディスクリプタを含む対応する参照画像。システムはまた検出物体のアイデンティティに基づいてロボット装置の自律動作を選択するコントローラを備える。

以上、この後の詳細な説明がより良く理解されるために本開示の特徴及び技術的利点を広く大まかに説明した。本開示の追加の機能及び利点を以下に説明する。本開示は、本開示と同じ目的を実行するためのその他の構造を変更又は設計するための基礎として容易に使用され得るものであることが、当業者により理解されるはずである。そのような同等の構成は添付する特許請求の範囲により規定される本開示の教示から逸脱しないことも、当業者により認識されるはずである。本開示の特徴であると考えられる新しい機能は、その構成及び操作方法に関して、更なる目的及び利点と共に、添付する図と併せて考慮されたときに以下の説明からよりよく理解されるであろう。しかしながら、各図面は例示及び説明のみを目的として提供され、本開示の限界を定義することは意図しないことは、明白に理解されるべきである。

本開示の機能、性質、及び利点は、類似の参照文字が全体に渡って対応する図面と組み合わせて考慮した場合に、以下に行う詳細な説明からより明らかになる。

本開示の態様によるロボットの訓練に使用される環境のオリジナル画像を示す。本開示の態様による、訓練環境におけるロボットの訓練に使用される、３Ｄモデルを使用して作成された操作画像の例を示す。本開示の態様による、ロボットの訓練のために生成された訓練環境の画像のペアを示す。本開示の態様による、ロボットの訓練のために生成された訓練環境の画像のペアを示す。本開示の態様による、ロボットにより撮影された実世界環境の撮影画像を示す。本開示の態様による、ロボットにより撮影された実世界環境の撮影画像を示す。本開示の態様による物体識別システムのハードウエア実装の例を示す図である。本開示の態様によるロボット装置のディープニューラルネットワークを訓練する方法を示すフローチャートである。

以下に行う添付図面に関連した詳細な説明は、様々な構成の説明を意図し、本明細書内で説明する概念を実施する単一の構成を提示することを意図しない。詳細な説明は、様々な概念の完全な理解を提供する目的により、特定の詳細を含む。しかしながら、これらの概念がこれらの特定の詳細なしに実施され得ることが当業者には明らかであろう。幾つかの事例では、そのような概念を不明瞭にすることを避けるために、周知の構造及び構成要素がブロック図にて示される。

ロボット装置は環境中の物体を識別するために１つ以上のセンサを使用し得る。センサはｒｅｄ-ｇｒｅｅｎ-ｂｌｕｅ（ＲＧＢ）カメラ、電波探知測距（ＲＡＤＡＲ）センサ、光検出と測距（ＬｉＤＡＲ）センサ、又はその他の型のセンサを含んでもよい。センサに撮影された画像では、物体識別を実行するためにロボット装置のディープニューラルネットワークの訓練に基づいて１つ以上の物体がロボット装置により識別される。実生活の状況では、しかしながら、遭遇した画像は、ロボット装置を訓練するために使用した実画像と異なり得る。すなわち、訓練に使用された画像データにおける変形、物体アーティキュレーション、視角、及び照明の変化により、実世界での動作における物体検出が妨げられ得る。

従来のシステムは実世界における訓練画像を、観測が期待される実際の状況にて収集する。例えば、訓練画像を収集する実際の状況は、訓練画像が収集された実際の照明レベル及び特定の視角を含む。これらの従来のシステムは環境の変化を考慮しない。訓練データ及び実世界物体におけるこれらの変化はロボット装置が物体検出を行うようディープニューラルネットワークを訓練する場合に特に問題になる。

本開示は環境の変化を考慮することによりディープネットワークを訓練するデータを提供することに関する。変化は、物体の変形、物体アーティキュレーション、視角の変化、及び／又は照明の変化を含む。

本開示では、簡素化のために、ロボット装置はロボットと称され得る。加えて、物体は環境中の静的及び動的物体を含み得る。物体は人工物体（例えば椅子、机、車、本等）、自然物体（例えば岩、木、動物等）、及び人間を含み得る。

図１は本開示の態様によるロボット１００の訓練に使用される訓練環境１０２のオリジナル画像１０１を示す。図１の例では、ロボット１００はヒューマノイドロボットであり、訓練環境１０２はキッチンである。本開示の態様はヒューマノイドロボットに限定されない。ロボット１００はドローンや車両のような任意の型の自律又は半自律装置であってもよい。加えて、ロボット１００は任意の環境にあってもよい。

ある構成では、ロボット１００は、ロボット１００の１つ以上のセンサを使用して訓練環境１０２のオリジナル画像１０１を取得する。ロボット１００はオリジナル画像１０１の１つ以上の物体を検出し位置測定してもよい。位置測定は、オリジナル画像１０１中の検出物体の位置（例えば座標）を決定することである。従来の物体検出システムでは、オリジナル画像１０１内で検出された物体の位置を示すためにバウンディングボックスが使われ得る。検出物体は、テーブル１０４、押し込まれた椅子１０６、閉じた窓１０８、瓶１１０、器具１２０及び１２２、カウンター１４０、シンク１４２、ハンドル１３２を有するキャビネット１３０、又はオリジナル画像１０１中の全ての物体のような１つ以上の特定のクラスの物体であってもよい。物体は予め訓練された物体検出ニューラルネットワークのような物体検出システムを使用して検出され識別されてもよい。

ある構成では、ロボット１００上の３Ｄカメラが訓練環境１０２の画像を異なる視界/視角から撮影する。訓練環境１０２の３Ｄモデルは撮影画像から生成される。３Ｄモデルは３Ｄカメラによって撮影されたオリジナル画像１０１の視点とは異なる視点から画像を作成することに使用される。３Ｄモデルはまた、作成画像にて照明条件を変化させる（例えば照明レベルを調整する）ために使用される。加えて、３Ｄモデルは操作される物体を含む画像を作成してもよい。例えば、３Ｄモデルは引き出し／窓が、開いた又は閉じた風景を作成してもよい。加えて、システムは画像と、共通した特徴とを結びつける。撮影画像及び３Ｄモデルにより作成された画像（例えば訓練データ）はディープネットワーク物体検出システムを訓練するために使用される。

図２は本開示の態様による、訓練環境２０２におけるロボット１００の訓練に使用される、３Ｄモデルにより作成された操作画像２００の例を示す。図２の例において、訓練環境２０２は図１のキッチンであり、異なる視角を提供するために要素が水平方向に反転されている。ロボット１００は図１のオリジナル画像１０１及び操作画像２００を使用した予め訓練された物体識別ニューラルネットワークのような物体検出システムを介して各画像中に物体を検出し識別してもよい。

この構成では、システムは操作画像２００を生成し、操作画像２００を図１に示される訓練環境１０２のオリジナル画像１０１とペアリングする。本開示の態様によると、リンクされた要素はオリジナル画像１０１と操作画像２００の間で識別される。すなわち、訓練環境２０２のそのような要素はピクセル座標を与えられてもよい。オーバーラップするピクセル座標はオーパーラップする部分を示す（例えばリンクされた要素）。例えば、引き出された椅子２０６は、操作画像２００と、オリジナル画像１０１の押し込まれた椅子１０６との間でのリンクされた要素である。リンクは同じ要素が異なるアーティキュレーションで描かれることを示す。リンクされた部分はオリジナル画像１０１と操作画像２００の点の対応関係により定義されてもよい（例えばオリジナル画像１０１と同じ視点）。

この例では、オリジナル画像１０１の閉じた窓１０８は操作画像２００の開いた窓２０８とペアリングされる。例えば、開いた窓２０８のガラスはオリジナル画像１０１と操作画像２００の間でリンクされる。加えて、操作画像２００のテーブル２０４もまたオリジナル画像１０１のテーブル１０４にリンクされる。同様に、操作画像２００の瓶２１０もまたオリジナル画像１０１の瓶１１０にリンクされる。瓶１１０はオリジナル画像１０１中のカウンター１４０とリンクされたカウンター２４０に置いてある。シンク２４２もまた操作画像２００とオリジナル画像１０１との間でリンクされる。加えて、操作画像２００のキャビネット２３０及びハンドル２３２もまたオリジナル画像１０１のキャビネット１３０及びハンドル１３２とリンクされる。

ロボット１００は、図１に示された押し込まれた椅子１０６から、水平に反転されている、引き出された椅子２０６を検出するように訓練される。同様に、ロボット１００は、カウンター２４０から移動され、テーブル２０４に置かれた瓶２１０を追従するように訓練される。加えて、ロボット１００はテーブル２０４からカウンター２４０に移動された器具２２０及び２２２の領域を追従するように訓練される。オリジナル画像１０１及び操作画像２００が示されるが、様々な照明条件、視角、変形等にて追加の操作画像の生成を含む本開示の態様が可能であることが認識されるべきである。

本開示の態様によれば、３Ｄ環境のペアリングされた画像は、画像から画像への(ｉｍａｇｅ－ｔｏ－ｉｍａｇｅ)ニューラルネットワークにより処理される。ネットワークは入力としてＲＧＢ画像を受信し、各ピクセルに割り当てられた値を含むエンベディング又はディスクリプタ画像を出力する。エンベディング／ディスクリプタ画像は情報を一連の数字へとエンコードすることにより、ある特徴を別の特徴から区別するための、数字で表された「フィンガープリント」を提供してもよい。この情報は画像変換を行っても不変であることが理想的である。不運にも従来のシステムは概ね環境の変化を考慮せず訓練されるため従来の特徴ディスクリプタは画像変換を行っても不変ではない。

本開示の本態様では、エンベディング／ディスクリプタ画像は、環境中の物体及び点を定義する、未来の画像への相関性を判断する（例えばロボット１００が動作するときにリアルタイムで撮影した画像）。すなわち、訓練後は、新たな環境に置かれたとき、ロボットは椅子、窓、瓶、器具（例えばスプーン）、キャビネット等の、操作され得る新たな環境における位置を識別する。ロボット１００はまた、変形、物体アーティキュレーション、視角、及び照明に関わらず様々な要素を識別してもよい。例えば、オリジナル画像１０１とは異なる姿勢にて検出された物体は、ペアリングされた画像（例えばオリジナル画像１０１及び操作画像２００）から作成されたディスクリプタ画像にリンクされた要素に基づいて容易に識別される。

図３Ａ及び図３Ｂは本開示の態様による、ロボット１００の訓練のために生成された訓練環境３０２の画像のペアを示す。図３Ａ及び図３Ｂに示されるように、訓練システムは、異なる画像中の同様の要素がリンクされた画像のペアを自動的に生成する。
例えば、図３Ａは訓練環境３０２のオリジナル画像３００を示す。オリジナル画像３００は更にカウンター３４０、シンク３４２、ハンドル３３２を含むキャビネット３３０を示す。この例では、キャビネット３３０は閉まっている。

図３Ｂは本開示の態様による訓練環境３０２の操作画像３５０を示す。この例では、キャビネット３３０が閉じている風景（例えば図３Ａ）におけるキャビネット３３０のハンドル３３２は、キャビネット３３０が開いている風景とリンクされる。加えて、器具３２０及び３２２はオリジナル画像３００（例えばキャビネット３３０内）と操作画像３５０（例えば開いている状態のキャビネット３３０を示す）との間でペアリングされる。オリジナル画像３００と操作画像３５０とのペアリングにより、同様の要素でありながら異なるアーティキュレーションで描かれた物体同士がリンクされる。リンクされた部分は操作画像３５０とオリジナル画像３００との点の対応関係により定義される。ペアリングされた画像間で対応する要素は各画像（すなわち風景）で撮影された訓練環境３０２の重複する部分の識別を通して判断されてもよい。

そして画像のペアはｉｍａｇｅ－ｔｏ－ｉｍａｇｅニューラルネットワークにより処理され、入力としてＲＧＢ画像を受信し、画像の各ピクセルに値が割り当てられることで生成されたエンベディング又はディスクリプタ画像を出力する。本開示の態様によれば、エンベディングは未来の画像（例えばロボットの動作時にリアルタイムで撮影される画像）への相関性を判断するために使用される。例えば、エンベディングは、相関のある物体を識別するために環境中の物体及び点を定義してもよい。言い換えれば、システムは、例えば図４Ａ及び図４Ｂに示すように、エンベディングのリアルタイム画像への相関性を通して迅速に環境中の位置を判断し物体を識別できる。

図４Ａ及び図４Ｂは本開示の態様による、ロボット１００により撮影された未知の環境４０２の撮影画像を示す。図４Ａ及び４Ｂの例では、未知の環境４０２はテーブル４０４、引き出された椅子４０６、及び開いた窓４０８、瓶４１０、器具４２０及び４２２、及びキャビネット４３０を含むレストランである。ある構成では、ロボット１００は、図１、図２、図３Ａ及び図３Ｂに示すキッチンの訓練環境のような、訓練環境のオリジナル画像と操作画像のペアに基づく参照画像を使用する。参照画像を使用して、ロボット１００は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子４０６を検出する。加えて、参照画像によりロボット１００が開いた窓４０８を検出することが可能になる。

図４Ａは本開示の態様による、ロボット１００の３Ｄカメラにより撮影された未知の環境４０２の撮影画像４００を示す。図４Ａの例では、未知の環境４０２はテーブル４０４、引き出された椅子４０６、及び開いた窓４０８を含むレストランである。ある構成では、ロボット１００は、図１、図２、図３Ａ及び図３Ｂに示すキッチンの訓練環境のような、訓練環境の画像のペアリングに基づく参照画像を使用する。参照画像を使用して、ロボット１００は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子４０６を位置特定する。加えて、参照画像によりロボット１００が開いた窓４０８を識別することが可能になる。

図４Ａに更に示されるように、参照画像によりロボット１００がテーブル４０４上の器具４２０及び４２２を検出可能になる。加えて、参照画像によりロボット１００がキャビネット４３０上の瓶４１０を検出することが可能になる。検出は環境中の位置及び／又は物体の姿勢に限定されない。本開示の態様によれば、ロボット１００は時間の経過に伴う物体の動きを追跡するように訓練される。簡素化のために、検出物体の例としてキッチンアイテムを使用する。それでもなお、本開示の態様はキッチンアイテムの検出に限定されず、その他の物体も考慮される。

図４Ｂは本開示の態様による、ロボット１００の３Ｄカメラにより撮影された未知の環境４０２の画像４５０を示す。図４Ｂの例では、未知の環境４０２もまたテーブル４０４、引き出された椅子４０６、開いた窓４０８、及びキャビネット４３０を含むレストランである。ある構成では、ロボット１００は瓶４１０に加えて器具４２０及び４２２を追跡するために参照画像を使用する。予め訓練された物体検出ニューラルネットワークを使用し、ロボット１００は器具４２０及び４２２並びに瓶４１０の移動を追跡することが可能である。すなわち、図４Ａと図４Ｂの間で、瓶４１０はキャビネット４３０からテーブル４０４へと移動する。同様に、図４Ａと図４Ｂの間で、器具４２０及び４２２は、テーブル４３０からキャビネット４０４へと移動する。

本開示の態様によれば、予め訓練された物体検出ニューラルネットワークはエンベディング（例えば物体のディスクリプタ）を使用して、環境中の物体及び点を定義する、未来の画像への相関性を判断する（例えばロボット１００が動作するときにリアルタイムで撮影した画像）。言い換えれば、システムは、エンベディングのリアルタイム画像への相関性を通して迅速に未知の環境中の位置を判断できる。本開示は３Ｄカメラを使用して訓練画像を収集し、照明レベルを人工的に調整し、共通の特徴がリンクされた画像のペアを自動的に作成することでディープネットワークを生成し訓練する方法を提供する。結果的に、未知の環境における物体検出は未知の環境中の物体の姿勢や位置に限定されない。

図５は本開示の態様による物体識別システム５００のハードウエア実装の例を示す図である。物体識別システム５００は車両、ロボット装置、又はその他の装置の構成要素であってもよい。例えば、図５に示すように、物体識別システム５００はロボット１００（例えばロボット装置）の構成要素である。

本開示の態様はロボット１００の構成要素である物体識別システム５００に限定されない。物体識別システム５００を使用するものとしてバス、ボート、ドローン、又は車両のようなその他の装置もまた考慮される。ロボット１００は少なくとも自律動作モード及びマニュアル動作モードで動作してもよい。

物体識別システム５００はバス５５０として概ね表されるバスアーキテクチャにより実装されてもよい。バス５５０は物体識別システム５００の特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バス５５０は、プロセッサ５２０として表される１つ以上のプロセッサ及び／又はハードウエアモジュール、通信モジュール５２２、位置モジュール５２４、センサモジュール５０２、移動モジュール５２６、ナビゲーションモジュール５２８、及びコンピュータ可読媒体５３０のような様々な回路を接続する。バス５５０はタイミングソース、周辺機器、電圧制御器、電源管理回路のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。

物体識別システム５００は、プロセッサ５２０に接続された送受信機５４０、センサモジュール５０２、物体識別モジュール５１０、通信モジュール５２２、位置モジュール５２４、移動モジュール５２６、ナビゲーションモジュール５２８、及びコンピュータ可読媒体５３０を含む。送受信機５４０はアンテナ５４２に接続されている。送受信機５４０は様々な装置と伝送媒体を介して通信する。例えば、送受信機５４０は通信を介してユーザー又は遠隔装置からの命令を受信してもよい。別の例として、送受信機５４０は物体識別モジュール５１０からサーバー（図示せず）へ統計及びその他の情報を送信してもよい。

物体識別システム５００はコンピュータ可読媒体５３０に接続されたプロセッサ５２０を含む。プロセッサ５２０は、コンピュータ可読媒体５３０に記憶され、本開示による機能を提供するソフトウエアの実行を含む処理を行う。ソフトウエアは、プロセッサ５２０により実行された時、物体識別システム５００により、ロボット１００又はモジュール５０２、５１０、５１２、５１４、５１６、５２２、５２４、５２６、及び５２８のような特定の装置に対して説明された様々な機能を実行させる。コンピュータ可読媒体５３０は、ソフトウエアを実行した時にプロセッサ５２０により操作されるデータを記憶するためにも使用されてもよい。

センサモジュール５０２は、第１のセンサ５０４及び第２のセンサ５０６のような異なるセンサを介して測定値を得るために使用されてもよい。第１のセンサ５０４は、３Ｄ画像を撮影するためのステレオカメラ又はｒｅｄ-ｇｒｅｅｎ-ｂｌｕｅ(ＲＧＢ)カメラのような視覚センサであってもよい。第２のセンサ５０６は光検出と測距（ＬｉＤＡＲ）センサ又は電波探知測距（ＲＡＤＡＲ）センサのような測距センサであってもよい。当然、本開示の態様は上記のセンサに限られず、例えば、温度、音波、及び／又はレーザー等のその他の型のセンサもまた第１のセンサ５０４及び第２のセンサ５０６のどちらかとして考えられる。

第１のセンサ５０４及び第２のセンサ５０６による測定値は、本明細書中に説明した機能を実装するために、コンピュータ可読媒体５３０と併せて、プロセッサ５２０、センサモジュール５０２、物体識別モジュール５１０、通信モジュール５２２、位置モジュール５２４、移動モジュール５２６、ナビゲーションモジュール５２８、のうち１つ以上により処理されてもよい。ある構成では、第１のセンサ５０４及び第２のセンサ５０６により撮影されたデータは送受信機５４０を介して外部装置へ送信されてもよい。第１のセンサ５０４及び第２のセンサ５０６はロボット１００へ接続されていてもよく、又はロボット１００と通信状態にあってもよい。

位置モジュール５２４はロボット１００の位置を判断するために使用されてもよい。例えば、位置モジュール５２４は、ロボット１００の位置を判断するために、全地球測位システム（ＧＰＳ）を使用してもよい。通信モジュール５２２は送受信機５４０を介した通信を促進するために使用されてもよい。例えば、通信モジュール５２２は、Ｗｉ-Ｆｉ、ｌｏｎｇｔｅｒｍｅｖｏｌｕｔｉｏｎ（ＬＴＥ）、５Ｇ等のような異なる無線プロトコルを介した通信能力を提供してもよい。通信モジュール５２２はまた、物体識別システム５００のモジュールではない、ロボット１００のその他の構成要素と通信するために使用されてもよい。

移動モジュール５２６はロボット１００の移動を促進するために使用されてもよい。別の例として、移動モジュール５２６はモーター及び／又はバッテリーのような、ロボット１００の１つ以上の電力源と通信中であってもよい。移動力は車輪、可動肢、プロペラ、トレッド、ひれ、ジェットエンジン、及び／又はその他の移動力源により証明されてもよい。

物体識別システム５００は移動モジュール５２６を経由して、経路を計画したり又はロボット１００の移動を制御するためのナビゲーションモジュール５２８を含む。経路は物体識別モジュール５１０を介して提供されたデータに基づいて計画されてもよい。モジュールはプロセッサ５２０内で実行されるソフトウエアモジュール、コンピュータ可読媒体５３０上に常駐／記憶されるもの、プロセッサ５２０に接続された１つ以上のハードウエアモジュール、又はそれらの組み合わせであってもよい。

物体識別モジュール５１０はセンサモジュール５０２、送受信機５４０、プロセッサ５２０、通信モジュール５２２、位置モジュール５２４、移動モジュール５２６、ナビゲーションモジュール５２８、及びコンピュータ可読媒体５３０と通信可能であってもよい。ある構成では、物体識別モジュール５１０はセンサモジュール５０２からセンサデータを受信する。センサモジュール５０２は第１のセンサ５０４及び第２のセンサ５０６からセンサデータを受信してもよい。本開示の態様によれば、センサモジュール５０２はノイズを除去し、データをエンコードし、データをデコードし、データをマージし、フレームを抽出し、又はその他の機能を実行するために、データをフィルタしてもよい。代替の構成では、物体識別モジュール５１０は第１のセンサ５０４及び第２のセンサ５０６から直接センサデータを受信してもよい。

ある構成では、物体識別モジュール５１０はプロセッサ５２０、位置モジュール５２４、コンピュータ可読媒体５３０、第１のセンサ５０４、及び／又は第２のセンサ５０６からの情報に基づいて検出物体を識別する。物体検出モジュール５１２からの検出物体の識別はエンベディング相関性モジュール５１４を使用して行われてもよい。識別物体に基づいて、物体識別モジュール５１０はアクションモジュール５１６を通してロボット１００の１つ以上のアクションを制御してもよい。

例えば、アクションはロボット１００が撮影した風景の様々な画像間における動いている物体を追従し、セキュリティーサービスに連絡するといったセキュリティアクションを実行することであってもよい。物体識別モジュール５１０はプロセッサ５２０、位置モジュール５２４、通信モジュール５２２、コンピュータ可読媒体５３０、移動モジュール５２６、及び／又はナビゲーションモジュール５２８を介してアクションを実行してもよい。

本開示の本態様では、エンベディング／ディスクリプタ画像を訓練から物体及び未知の環境中の点を定義する未来の画像への相関性を判断するまで使用するエンベディング相関性モジュール５１４。すなわち、訓練後は、新たな環境に置かれたとき、ロボット１００は椅子、窓、瓶、器具（例えばスプーン）、キャビネット等の、操作され得る新たな環境における位置を識別する。ロボット１００は変形、物体アーティキュレーション、視角、及び照明に関わらず様々な要素を識別してもよい。

図６は本開示の態様によるロボット装置のディープニューラルネットワークを訓練する方法を示すフローチャートである。簡略化のために、ロボット装置はロボットと称される。

図６に示すように、方法６００はブロック６０２から開始し、ロボット装置の３Ｄカメラを介して訓練環境にて撮影した画像を使用して３Ｄモデルが構成される。例えば、図１に示されるように、ロボット１００は訓練環境１０２のオリジナル画像１０１を撮影する。物体はロボット１００のＬｉＤＡＲ、ＲＡＤＡＲ及び／又はＲＧＢカメラなどの、１つ以上のセンサにより撮影されてもよい。物体は、数時間、数日等の一定期間に渡って観察されてもよい。

ブロック６０４にて、ニューラルネットワークを使用して操作画像を作成するために訓練環境のパラメーターを人工的に調整して３Ｄモデルから３Ｄ画像のペアが形成される。例えば、図３Ｂは、風景中にキャビネット３３０のハンドル３３２があり、キャビネット３３０が開いていて、キャビネット３３０が閉じている風景（例えば図３Ａ）とリンクされている、操作画像３５０を示す。オリジナル画像３００と操作画像３５０とのペアリングにより、同様の要素でありながら異なる（例えば人工的な）アーティキュレーションで描かれた物体同士がリンクされる。

ブロック６０６にて、３Ｄ画像のペアに共通する物体の埋め込みディスクリプタを含む参照画像を生成するために３Ｄ画像のペアが処理される。例えば、図４Ａ及び図４Ｂは未知の環境４０２の撮影画像を示す。ある構成では、ロボット１００は、図１、図２、図３Ａ及び図３Ｂに示すキッチンの訓練環境のような、訓練環境のオリジナル画像と操作画像のペアに基づく参照画像を使用する。ブロック６０８では、ニューラルネットワークの訓練から得られた参照画像は未来の画像への相関性を判断するために使用される。例えば、図４Ａ及び４Ｂに示すように、参照画像を使用して、ロボット１００は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子４０６を検出する。加えて、参照画像によりロボット１００が開いた窓４０８を検出することが可能になる。

本開示の態様により、未知の環境における検出物体の識別に基づいてロボット装置を制御する方法が説明される。方法は未知の環境中の物体を検出することを含む。例えば、図４Ａに示されるように、ロボット１００がテーブル４０４上の器具４２０及び４２２を検出する。本検出は、画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することにより行われてもよい。

本方法は更に、対応する参照画像の埋め込みディスクリプタに基づいて検出物体を識別することを含む。例えば、予め訓練された物体検出ニューラルネットワークを使用し、ロボット１００は器具４２０及び４２２並びに瓶４１０を追従することが可能である。すなわち、図４Ａと図４Ｂの間で、瓶４１０はキャビネット４３０からテーブル４０４へと移動する。同様に、図４Ａと図４Ｂの間で、器具４２０及び４２２は、テーブル４０４からキャビネット４３０へと移動する。

教示に基づき、本開示の範囲は、独立して実装されるか本開示のその他の態様と組み合わせるかに関わらず、本開示の任意の態様を含めることを意図することが、当業者により理解されるべきである。例えば、明らかにされる任意の数の態様を使用して装置を実装してもよく、又は方法を実施してもよい。加えて、本開示の範囲は、本開示で明らかにする様々な態様に加えて、又はその他の構造及び機能、又は構造及び機能を使用して実施されるそのような装置又は方法を含むことを意図する。本開示の任意の態様は特許請求の範囲の１つ以上の要素により具現化され得ることが理解されるべきである。

本明細書において「例示的な」という語は「例、実例、又は例証の役割を果たす」という意味で使用される。「例示的」として説明される本明細書の任意の態様は必ずしも他の態様に比べて好ましい又は有利であるとして理解されるべきものではない。

本明細書にて特定の態様を説明するが、本開示の範囲にはこれらの態様に対する多数の変形及び置換が含まれる。好ましい態様の幾つかの利益及び利点が記載されるが、本開示の範囲は特定の利益、使用又は目的に限定されることを意図しない。寧ろ、本開示の態様は、一部を図及び好ましい態様の説明に例示を目的として示す異なる技術、システム構成、ネットワーク、及びプロトコルへ広く適用可能であることが意図される。詳細な説明及び図面は限定することよりも寧ろ本開示の説明のみを目的とし、本開示の範囲は添付する特許請求の範囲及び同等物によって定義される。

本明細書中に使用されるように、「判断」は多岐にわたるアクションを含む。例えば、「判断」は算出、計算、処理、導出、調査、検索（例えば表、データベース又はその他の構造の中を検索）、究明等を含み得る。加えて、「判断」は受信（例えば情報を受信すること）、アクセス（例えばメモリ中のデータにアクセスすること）等を含み得る。更に、「判断」は、解決、選出、選択、確立等を含み得る。

本明細書中に使用するように、「のうち少なくとも１つ」のフレーズは、項目のリストから、単一の項目を含む、項目の任意の組み合わせを指す。例えば、「ａ、ｂ、又はｃのうち少なくとも１つ」はａ、ｂ、ｃ、ａ-ｂ、ａ-ｃ、ｂ-ｃ、ａ-ｂ-ｃを含むことが意図される。

本開示と関連して説明された様々な例示的な論理ブロック、モジュール及び回路は本開示で議論された機能を実行するために特別に構成されたプロセッサにより実装又は実行されてもよい。プロセッサはニューラルネットワークプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ信号（ＦＰＧＡ）又は他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲート又はトランジスタ論理、個別ハードウェアコンポーネント、又は本明細書中に説明した機能を実行するよう設計された上記の任意の組み合わせであってもよい。代わりに、処理システムは、本明細書にて説明したニューロンモデル及びニューラルシステムのモデルを実装するために、１つ以上のニューロモーフィックプロセッサを備えていてもよい。プロセッサは、本明細書中の説明のように構成されるマイクロプロセッサ、コントローラ、マイクロコントローラ、又は状態マシンであってもよい。プロセッサはまた、例えばＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと組み合わせた１つ以上のマイクロプロセッサ、又は本明細書で説明するその他の特別な構成といった、計算装置の組み合わせとして実装されてもよい。

本開示と関連して説明される方法のステップ又はアルゴリズムはハードウエア、プロセッサにより実行されるソフトウエアモジュール、又はこの２つの組み合わせ内にて直接具現化されてもよい。ソフトウエアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＥＰＲＯＭ）、ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ-ＯｎｌｙＭｅｍｏｒｙ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、取り外し可能ディスク、ＣＤ-ＲＯＭ又は他の光ディスク記憶装置、磁気ディスク記憶装置又はその他の磁気記憶装置、命令又はデータ構造の形態で所望のプログラムコードを搬送又は記憶することに使用可能でコンピュータによってアクセス可能なその他の任意の媒体を含む、記憶装置、又は機可読械媒体に存在してもよい。ソフトウエアモジュールは、単一の命令、又は多数の命令を備えることもあり、複数の異なるコードセグメント、異なるプログラム間、及び複数の記憶媒体に分散されていてもよい。プロセッサが記憶媒体へ情報を書き込んだり記憶媒体から情報を読み出したりできるようにプロセッサに記憶媒体が接続されていてもよい。代わりに、記憶媒体はプロセッサと一体となっていてもよい。

本明細書にて開示する方法は、開示された方法を実現するための１つ以上のステップ又はアクションを含む。方法のステップ及び／又はアクションは特許請求の範囲から逸脱することなく互いに入れ替えてもよい。言い換えれば、ステップ又はアクションの特定の順序が特定されていない限り、特定のステップ及び／又はアクションの順序及び／又は用途は特許請求の範囲から逸脱することなく変更されてもよい。

説明された機能はハードウエア、ソフトウエア、ファームウエア、又はこれらの任意の組み合わせにより実装されてもよい。ハードウエアで実装する場合、ハードウエア構成の例は装置中に処理システムを備えてもよい。処理システムはバスアーキテクチャを用いて実装してもよい。バスは処理システムの特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バスはプロセッサ、機械可読媒体、及びバスインターフェースを含む様々な回路を接続してもよい。バスインターフェースは、その他の物の中でも、ネットワークアダプタを処理システムにバスを介して接続することに使用されてもよい。ネットワークアダプタは信号処理機能を実装するために使用されてもよい。特定の態様では、ユーザーインターフェース（例えばキーパッド、ディスプレイ、マウス、ジョイスティック等）もまたバスに接続されてもよい。バスはタイミングソース、周辺機器、電圧制御、電源管理回路等のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。

プロセッサはバスの管理、及び機械可読媒体に記憶されたソフトウエアの実行を含む処理を担当してもよい。ソフトウエアは、ソフトウエア、ファームウエア、ミドルウエア、マイクロコード、ハードウエア記述言語、又はその他の呼び方に関わらず、命令、データ、又はそれらの任意の組み合わせを意味すると解釈するものとする。

ハードウエア実装にて、機械可読媒体はプロセッサとは別個の処理システムの一部であってもよい。しかしながら、当業者が容易に理解するように、機械可読媒体、又はその任意の一部は、処理システムの外部にあってもよい。例えば、機械可読媒体は通信線、データによって変調された搬送波、及び／又は装置から切り離されたコンピュータ製品を含んでも良く、これらは全てバスインターフェースを介してプロセッサによりアクセスされてもよい。代わりに、又は加えて、機械可読媒体、又はその一部は、キャッシュ及び／又は特別なレジスタファイルが存在し得る場合のようにプロセッサに統合されていてもよい。議論した様々な構成要素は、ローカルな構成要素のように特別な位置を有するように説明されたが、それらは分散コンピューティングシステムの一部として構成される特定の構成要素のように様々な方法により構成されてもよい。

機械可読媒体は数々のソフトウエアモジュールを備えていてもよい。ソフトウエアモジュールは送信モジュール及び受信モジュールを含んでいてもよい。各ソフトウエアモジュールは単一の記憶装置内に存在してもよく、又は複数の記憶装置に渡って分散されていてもよい。例えば、トリガとなるイベントが起こったときにソフトウエアモジュールがハードドライブからＲＡＭにロードされてもよい。ソフトウエアモジュールの実行中、プロセッサは、アクセス速度を上げるために、幾つかの命令をキャッシュへロードしてもよい。プロセッサにより実行するため、１つ以上のキャッシュラインがその後特殊用途レジスタファイルにロードされてもよい。ソフトウエアモジュールの以下の機能を参照すれば、ソフトウエアモジュールによる命令の実行時にプロセッサにより機能が実施されることが理解されよう。更に、本開示の態様によりプロセッサ、コンピュータ、マシン、又はこのような態様を実装するその他のシステムの機能が改善することが理解されるべきである。

ソフトウエアに実装されれば、機能は１つ以上の命令又はコードとしてコンピュータ可読媒体上に記憶又は転送されてもよい。コンピュータ可読媒体には、コンピュータの記憶装置と、コンピュータプログラムをある場所から別の場所へ転送することを促進する任意の記憶装置を含む通信メディアとの両方が含まれる。

更に、モジュール並びに／又は本明細書中に説明した方法及び技術を実行するその他の適切な手段は、必要に応じてダウンロード並びに／又はユーザー端末及び／又はベースステーションにより取得可能であることが理解されるべきである。例えば、本明細書中で説明された方法を実行するための手段の転送を促進するために、そのような装置をサーバーに接続することができる。代わりに、本明細書中で説明した様々な方法は、記憶手段を装置に接続するか、又は記憶手段を装置に提供することによりユーザー端末及び／又はベースステーションが様々な方法を取得することが可能になる形で、記憶手段を介して提供することができる。更に、本明細書中で説明した方法及び技術を装置に提供するその他の任意の技術を使用することができる。

特許請求の範囲は上記に示された正確な構成及び構成要素に限定されないことが理解されるべきである。上に説明した方法及び装置の配置、操作、並びに詳細に対して、特許請求の範囲から逸脱せずに、様々な修正、変更及び変形がなされ得る。

Claims

訓練環境においてロボット装置の３Ｄカメラを使用して撮影した画像を使用して３Ｄモデルを構成することと、
前記訓練環境のパラメーターを人工的に調整し、前記３Ｄモデルから３Ｄ画像のペアを生成することにより、ディープニューラルネットワークを使用して操作画像を形成することと、
前記３Ｄ画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記３Ｄ画像のペアを処理すること、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの前記参照画像を使用することと、
を含む、ロボット装置のディープニューラルネットワークを訓練する方法。
前記３Ｄ画像のペアの生成は、
リンクされた要素にて３Ｄ画像をペアリングすることと、
前記３Ｄ画像のペア間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成することと、
を含む、請求項１に記載の方法。
パラメーターの人工的な調整は、
オリジナル３Ｄ画像と操作済３Ｄ画像との間の物体アーティキュレーションを変更することを含む、
請求項１に記載の方法。
前記物体アーティキュレーションの変更は、
前記オリジナル３Ｄ画像と前記操作済３Ｄ画像との間の照明を変更することを含む、
請求項３に記載の方法。
前記物体アーティキュレーションの変更は、
前記オリジナル３Ｄ画像と前記操作済３Ｄ画像との間の視角を変更することを含む、
請求項３に記載の方法。
未知の環境における変形、物体アーティキュレーション、視角、照明に関わらず操作され得る未知の環境中の物体を識別することと、
識別物体を操作することと、
を更に含む、請求項１に記載の方法。
未知の環境中の物体を検出することと、
画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することと、
前記対応する参照画像の前記埋め込みディスクリプタに基づいて検出物体を識別することと、
を含む、未知の環境における検出物体の識別に基づいたロボット装置の制御方法。
一定期間識別物体を追従することを更に含む、請求項７に記載の方法。
識別物体が操作され得ることを判断することと、
前記識別物体を操作することと、
を更に含む、請求項７に記載の方法。
前記対応する参照画像を風景の撮影画像に重ねることと、
前記対応する参照画像と前記撮影画像との間の点の対応関係に基づいて前記検出物体の識別を決定することと、
を更に含む、請求項７に記載の方法。
ロボット装置のディープニューラルネットワークを訓練するためのプログラムコードを記録した非一時的なコンピュータ可読媒体であって、
前記プログラムコードはプロセッサにより実行され、
前記ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して３Ｄモデルから３Ｄ画像のペアを生成するプログラムコードと、
前記３Ｄ画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記３Ｄ画像のペアを処理するプログラムコードと、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練中からの前記参照画像を使用するプログラムコードと、
を含む、非一時的なコンピュータ可読媒体。
前記３Ｄ画像のペアを生成するための前記プログラムコードは,
リンクされた要素にて３Ｄ画像をペアリングするプログラムコードと、
前記ペアの３Ｄ画像間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成するプログラムコードと、
を含む、請求項１１に記載の非一時的なコンピュータ可読媒体。
前記３Ｄ画像のペアを生成するための前記プログラムコードは,
オリジナル３Ｄ画像と操作済３Ｄ画像との間の物体アーティキュレーションを変更するプログラムコードを含む、
請求項１１に記載の非一時的なコンピュータ可読媒体。
物体アーティキュレーションを変更するための前記プログラムコードは、
前記オリジナル３Ｄ画像と前記操作済３Ｄ画像との間の照明を変更するプログラムコードを含む、
請求項１３に記載の非一時的なコンピュータ可読媒体。
前記物体アーティキュレーションを変更するための前記プログラムコードは、
前記オリジナル３Ｄ画像と前記操作済３Ｄ画像との間の視角を変更するプログラムコードを含む、
請求項１３に記載の非一時的なコンピュータ可読媒体。
撮影画像中の検出物体を識別するために対応する参照画像を選択するように構成された予め訓練された物体識別モジュールを備え、前記対応する参照画像は画像撮影環境の人工的に調整されたパラメーターにより操作される訓練された物体に基づいた埋め込みディスクリプタを含み、
前記検出物体のアイデンティティに基づいてロボット装置の自律動作を選択するように構成されたコントローラを備える、
未知の環境における検出物体の識別に基づいてロボット装置を制御するためのシステム。
前記予め訓練された物体識別モジュールは識別物体を一定期間に渡って追跡するように構成されている、請求項１６に記載のシステム。
前記コントローラは更に識別物体を操作するように構成されている、請求項１６に記載のシステム。
前記予め訓練された物体識別モジュールは、前記対応する参照画像を風景の撮影画像に重ね合わせ、前記対応する参照画像と前記撮影画像との間の点の対応関係に基づいて前記検出物体の識別を決定するように構成されている、請求項１６に記載のシステム。
前記予め訓練された物体識別モジュールは未来の画像中の前記検出物体を識別する相関性に基づいて前記対応する参照画像と撮影画像との間で共通する物体を検出するように構成されている、請求項１６に記載のシステム。