JP2022542858A - ディープネットワークの訓練方法 - Google Patents

ディープネットワークの訓練方法 Download PDF

Info

Publication number
JP2022542858A
JP2022542858A JP2022503981A JP2022503981A JP2022542858A JP 2022542858 A JP2022542858 A JP 2022542858A JP 2022503981 A JP2022503981 A JP 2022503981A JP 2022503981 A JP2022503981 A JP 2022503981A JP 2022542858 A JP2022542858 A JP 2022542858A
Authority
JP
Japan
Prior art keywords
image
images
manipulated
training
program code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022503981A
Other languages
English (en)
Other versions
JPWO2021015869A5 (ja
Inventor
ストーン ケビン
シャンカー クリシュナ
ラスキー マイケル
Original Assignee
トヨタ リサーチ インスティテュート,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ リサーチ インスティテュート,インコーポレイティド filed Critical トヨタ リサーチ インスティテュート,インコーポレイティド
Publication of JP2022542858A publication Critical patent/JP2022542858A/ja
Publication of JPWO2021015869A5 publication Critical patent/JPWO2021015869A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/37Measurements
    • G05B2219/375673-D vision, stereo vision, with two cameras
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40136Stereo audio and vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40543Identification and location, position of components, objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40564Recognize shape, contour of object, extract position and orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Architecture (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Figure 2022542858000001
ロボット装置のディープニューラルネットワークを訓練する方法が説明される。本方法は訓練環境においてロボット装置の3Dカメラを使用して撮影した画像を使用して3Dモデルを構成することを含む。本方法はまた、ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアを生成することを含む。本方法は更に3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために3D画像のペアを処理することを更に含む。本方法はまた、未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練中からの参照画像を使用することを含む。
【選択図】図6

Description

本出願は、2019年7月23日に出願され「キーフレームマッチャー」と題された米国特許仮出願第62/877、792、2019年7月23日に出願され「操作のための視覚的教示及び繰り返し―教示VR」と題された米国特許仮出願第62/877、791、及び2019年7月23日に出願され「視覚化」と題された米国特許仮出願第62/877、793の利益を主張する、2019年9月13日に出願され「ディープネットワークの訓練方法」と題された米国特許出願第16/570、813の利益を主張し、当該出願の全内容はここに参照により組み込まれるものとする。
本開示の特定の態様は、概して物体検出訓練、及びより具体的にはディープネットワークを訓練するシステム及び方法に関する。
ロボット装置は実世界画像を使用したロボット装置の訓練に基づいて環境中の物体を識別するために1つ以上のセンサ(例えばカメラとして)を使用し得る。実生活の状況では、しかしながら、遭遇した画像は、ロボット装置を訓練するために使用した実画像と異なり得る。すなわち、訓練に使用された画像データにおける変形、物体アーティキュレーション(object articulation)、視角、及び照明の多様性により、実世界での動作における物体検出が妨げられ得る。
従来のシステムは実世界における訓練画像を、観測が期待される実際の状況にて収集する。例えば、ロボット装置の訓練は、訓練画像が収集された実際の照明レベル及び特定の視角を含む、訓練画像を収集する際に使用される実際の状況に限られる。これらの従来のシステムは環境の多様性を考慮しない。訓練データと実世界物体とのこれらの違いはロボット装置が物体検出を行うようディープニューラルネットワークを訓練する場合に特に問題になる。
ロボット装置のディープニューラルネットワークを訓練する方法が説明される。方法は訓練環境においてロボット装置の3Dカメラを使用して撮影した画像(images captured via a 3D camera)を使用して3Dモデルを構成することを含む。方法はまた、ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアを生成することを含む。方法は更に3D画像のペアに共通する物体の埋め込みディスクリプタを含む参照画像を形成するために3D画像のペアを処理することを含む。方法は更に未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの参照画像を使用することを含む。
未知の環境における検出物体の識別に基づいてロボット装置を制御する方法が説明される。方法は未知の環境中の物体を検出することを含む。方法はまた、画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することを含む。方法は更に、対応する参照画像の埋め込みディスクリプタに基づいて検出物体を識別することを含む。
未知の環境における検出物体の識別に基づいてロボット装置を制御するシステムが説明される。システムは予め訓練された物体識別モジュールを含む。物体識別モジュールは撮影画像中の検出物体を識別するために対応する参照画像を選択する。画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に基づく埋め込みディスクリプタを含む対応する参照画像。システムはまた検出物体のアイデンティティに基づいてロボット装置の自律動作を選択するコントローラを備える。
以上、この後の詳細な説明がより良く理解されるために本開示の特徴及び技術的利点を広く大まかに説明した。本開示の追加の機能及び利点を以下に説明する。本開示は、本開示と同じ目的を実行するためのその他の構造を変更又は設計するための基礎として容易に使用され得るものであることが、当業者により理解されるはずである。そのような同等の構成は添付する特許請求の範囲により規定される本開示の教示から逸脱しないことも、当業者により認識されるはずである。本開示の特徴であると考えられる新しい機能は、その構成及び操作方法に関して、更なる目的及び利点と共に、添付する図と併せて考慮されたときに以下の説明からよりよく理解されるであろう。しかしながら、各図面は例示及び説明のみを目的として提供され、本開示の限界を定義することは意図しないことは、明白に理解されるべきである。
本開示の機能、性質、及び利点は、類似の参照文字が全体に渡って対応する図面と組み合わせて考慮した場合に、以下に行う詳細な説明からより明らかになる。
本開示の態様によるロボットの訓練に使用される環境のオリジナル画像を示す。 本開示の態様による、訓練環境におけるロボットの訓練に使用される、3Dモデルを使用して作成された操作画像の例を示す。 本開示の態様による、ロボットの訓練のために生成された訓練環境の画像のペアを示す。 本開示の態様による、ロボットの訓練のために生成された訓練環境の画像のペアを示す。 本開示の態様による、ロボットにより撮影された実世界環境の撮影画像を示す。 本開示の態様による、ロボットにより撮影された実世界環境の撮影画像を示す。 本開示の態様による物体識別システムのハードウエア実装の例を示す図である。 本開示の態様によるロボット装置のディープニューラルネットワークを訓練する方法を示すフローチャートである。
以下に行う添付図面に関連した詳細な説明は、様々な構成の説明を意図し、本明細書内で説明する概念を実施する単一の構成を提示することを意図しない。詳細な説明は、様々な概念の完全な理解を提供する目的により、特定の詳細を含む。しかしながら、これらの概念がこれらの特定の詳細なしに実施され得ることが当業者には明らかであろう。幾つかの事例では、そのような概念を不明瞭にすることを避けるために、周知の構造及び構成要素がブロック図にて示される。
ロボット装置は環境中の物体を識別するために1つ以上のセンサを使用し得る。センサはred-green-blue(RGB)カメラ、電波探知測距(RADAR)センサ、光検出と測距(LiDAR)センサ、又はその他の型のセンサを含んでもよい。センサに撮影された画像では、物体識別を実行するためにロボット装置のディープニューラルネットワークの訓練に基づいて1つ以上の物体がロボット装置により識別される。実生活の状況では、しかしながら、遭遇した画像は、ロボット装置を訓練するために使用した実画像と異なり得る。すなわち、訓練に使用された画像データにおける変形、物体アーティキュレーション、視角、及び照明の変化により、実世界での動作における物体検出が妨げられ得る。
従来のシステムは実世界における訓練画像を、観測が期待される実際の状況にて収集する。例えば、訓練画像を収集する実際の状況は、訓練画像が収集された実際の照明レベル及び特定の視角を含む。これらの従来のシステムは環境の変化を考慮しない。訓練データ及び実世界物体におけるこれらの変化はロボット装置が物体検出を行うようディープニューラルネットワークを訓練する場合に特に問題になる。
本開示は環境の変化を考慮することによりディープネットワークを訓練するデータを提供することに関する。変化は、物体の変形、物体アーティキュレーション、視角の変化、及び/又は照明の変化を含む。
本開示では、簡素化のために、ロボット装置はロボットと称され得る。加えて、物体は環境中の静的及び動的物体を含み得る。物体は人工物体(例えば椅子、机、車、本等)、自然物体(例えば岩、木、動物等)、及び人間を含み得る。
図1は本開示の態様によるロボット100の訓練に使用される訓練環境102のオリジナル画像101を示す。図1の例では、ロボット100はヒューマノイドロボットであり、訓練環境102はキッチンである。本開示の態様はヒューマノイドロボットに限定されない。ロボット100はドローンや車両のような任意の型の自律又は半自律装置であってもよい。加えて、ロボット100は任意の環境にあってもよい。
ある構成では、ロボット100は、ロボット100の1つ以上のセンサを使用して訓練環境102のオリジナル画像101を取得する。ロボット100はオリジナル画像101の1つ以上の物体を検出し位置測定してもよい。位置測定は、オリジナル画像101中の検出物体の位置(例えば座標)を決定することである。従来の物体検出システムでは、オリジナル画像101内で検出された物体の位置を示すためにバウンディングボックスが使われ得る。検出物体は、テーブル104、押し込まれた椅子106、閉じた窓108、瓶110、器具120及び122、カウンター140、シンク142、ハンドル132を有するキャビネット130、又はオリジナル画像101中の全ての物体のような1つ以上の特定のクラスの物体であってもよい。物体は予め訓練された物体検出ニューラルネットワークのような物体検出システムを使用して検出され識別されてもよい。
ある構成では、ロボット100上の3Dカメラが訓練環境102の画像を異なる視界/視角から撮影する。訓練環境102の3Dモデルは撮影画像から生成される。3Dモデルは3Dカメラによって撮影されたオリジナル画像101の視点とは異なる視点から画像を作成することに使用される。3Dモデルはまた、作成画像にて照明条件を変化させる(例えば照明レベルを調整する)ために使用される。加えて、3Dモデルは操作される物体を含む画像を作成してもよい。例えば、3Dモデルは引き出し/窓が、開いた又は閉じた風景を作成してもよい。加えて、システムは画像と、共通した特徴とを結びつける。撮影画像及び3Dモデルにより作成された画像(例えば訓練データ)はディープネットワーク物体検出システムを訓練するために使用される。
図2は本開示の態様による、訓練環境202におけるロボット100の訓練に使用される、3Dモデルにより作成された操作画像200の例を示す。図2の例において、訓練環境202は図1のキッチンであり、異なる視角を提供するために要素が水平方向に反転されている。ロボット100は図1のオリジナル画像101及び操作画像200を使用した予め訓練された物体識別ニューラルネットワークのような物体検出システムを介して各画像中に物体を検出し識別してもよい。
この構成では、システムは操作画像200を生成し、操作画像200を図1に示される訓練環境102のオリジナル画像101とペアリングする。本開示の態様によると、リンクされた要素はオリジナル画像101と操作画像200の間で識別される。すなわち、訓練環境202のそのような要素はピクセル座標を与えられてもよい。オーバーラップするピクセル座標はオーパーラップする部分を示す(例えばリンクされた要素)。例えば、引き出された椅子206は、操作画像200と、オリジナル画像101の押し込まれた椅子106との間でのリンクされた要素である。リンクは同じ要素が異なるアーティキュレーションで描かれることを示す。リンクされた部分はオリジナル画像101と操作画像200の点の対応関係により定義されてもよい(例えばオリジナル画像101と同じ視点)。
この例では、オリジナル画像101の閉じた窓108は操作画像200の開いた窓208とペアリングされる。例えば、開いた窓208のガラスはオリジナル画像101と操作画像200の間でリンクされる。加えて、操作画像200のテーブル204もまたオリジナル画像101のテーブル104にリンクされる。同様に、操作画像200の瓶210もまたオリジナル画像101の瓶110にリンクされる。瓶110はオリジナル画像101中のカウンター140とリンクされたカウンター240に置いてある。シンク242もまた操作画像200とオリジナル画像101との間でリンクされる。加えて、操作画像200のキャビネット230及びハンドル232もまたオリジナル画像101のキャビネット130及びハンドル132とリンクされる。
ロボット100は、図1に示された押し込まれた椅子106から、水平に反転されている、引き出された椅子206を検出するように訓練される。同様に、ロボット100は、カウンター240から移動され、テーブル204に置かれた瓶210を追従するように訓練される。加えて、ロボット100はテーブル204からカウンター240に移動された器具220及び222の領域を追従するように訓練される。オリジナル画像101及び操作画像200が示されるが、様々な照明条件、視角、変形等にて追加の操作画像の生成を含む本開示の態様が可能であることが認識されるべきである。
本開示の態様によれば、3D環境のペアリングされた画像は、画像から画像への(image-to-image)ニューラルネットワークにより処理される。ネットワークは入力としてRGB画像を受信し、各ピクセルに割り当てられた値を含むエンベディング又はディスクリプタ画像を出力する。エンベディング/ディスクリプタ画像は情報を一連の数字へとエンコードすることにより、ある特徴を別の特徴から区別するための、数字で表された「フィンガープリント」を提供してもよい。この情報は画像変換を行っても不変であることが理想的である。不運にも従来のシステムは概ね環境の変化を考慮せず訓練されるため従来の特徴ディスクリプタは画像変換を行っても不変ではない。
本開示の本態様では、エンベディング/ディスクリプタ画像は、環境中の物体及び点を定義する、未来の画像への相関性を判断する(例えばロボット100が動作するときにリアルタイムで撮影した画像)。すなわち、訓練後は、新たな環境に置かれたとき、ロボットは椅子、窓、瓶、器具(例えばスプーン)、キャビネット等の、操作され得る新たな環境における位置を識別する。ロボット100はまた、変形、物体アーティキュレーション、視角、及び照明に関わらず様々な要素を識別してもよい。例えば、オリジナル画像101とは異なる姿勢にて検出された物体は、ペアリングされた画像(例えばオリジナル画像101及び操作画像200)から作成されたディスクリプタ画像にリンクされた要素に基づいて容易に識別される。
図3A及び図3Bは本開示の態様による、ロボット100の訓練のために生成された訓練環境302の画像のペアを示す。図3A及び図3Bに示されるように、訓練システムは、異なる画像中の同様の要素がリンクされた画像のペアを自動的に生成する。
例えば、図3Aは訓練環境302のオリジナル画像300を示す。オリジナル画像300は更にカウンター340、シンク342、ハンドル332を含むキャビネット330を示す。この例では、キャビネット330は閉まっている。
図3Bは本開示の態様による訓練環境302の操作画像350を示す。この例では、キャビネット330が閉じている風景(例えば図3A)におけるキャビネット330のハンドル332は、キャビネット330が開いている風景とリンクされる。加えて、器具320及び322はオリジナル画像300(例えばキャビネット330内)と操作画像350(例えば開いている状態のキャビネット330を示す)との間でペアリングされる。オリジナル画像300と操作画像350とのペアリングにより、同様の要素でありながら異なるアーティキュレーションで描かれた物体同士がリンクされる。リンクされた部分は操作画像350とオリジナル画像300との点の対応関係により定義される。ペアリングされた画像間で対応する要素は各画像(すなわち風景)で撮影された訓練環境302の重複する部分の識別を通して判断されてもよい。
そして画像のペアはimage-to-imageニューラルネットワークにより処理され、入力としてRGB画像を受信し、画像の各ピクセルに値が割り当てられることで生成されたエンベディング又はディスクリプタ画像を出力する。本開示の態様によれば、エンベディングは未来の画像(例えばロボットの動作時にリアルタイムで撮影される画像)への相関性を判断するために使用される。例えば、エンベディングは、相関のある物体を識別するために環境中の物体及び点を定義してもよい。言い換えれば、システムは、例えば図4A及び図4Bに示すように、エンベディングのリアルタイム画像への相関性を通して迅速に環境中の位置を判断し物体を識別できる。
図4A及び図4Bは本開示の態様による、ロボット100により撮影された未知の環境402の撮影画像を示す。図4A及び4Bの例では、未知の環境402はテーブル404、引き出された椅子406、及び開いた窓408、瓶410、器具420及び422、及びキャビネット430を含むレストランである。ある構成では、ロボット100は、図1、図2、図3A及び図3Bに示すキッチンの訓練環境のような、訓練環境のオリジナル画像と操作画像のペアに基づく参照画像を使用する。参照画像を使用して、ロボット100は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子406を検出する。加えて、参照画像によりロボット100が開いた窓408を検出することが可能になる。
図4Aは本開示の態様による、ロボット100の3Dカメラにより撮影された未知の環境402の撮影画像400を示す。図4Aの例では、未知の環境402はテーブル404、引き出された椅子406、及び開いた窓408を含むレストランである。ある構成では、ロボット100は、図1、図2、図3A及び図3Bに示すキッチンの訓練環境のような、訓練環境の画像のペアリングに基づく参照画像を使用する。参照画像を使用して、ロボット100は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子406を位置特定する。加えて、参照画像によりロボット100が開いた窓408を識別することが可能になる。
図4Aに更に示されるように、参照画像によりロボット100がテーブル404上の器具420及び422を検出可能になる。加えて、参照画像によりロボット100がキャビネット430上の瓶410を検出することが可能になる。検出は環境中の位置及び/又は物体の姿勢に限定されない。本開示の態様によれば、ロボット100は時間の経過に伴う物体の動きを追跡するように訓練される。簡素化のために、検出物体の例としてキッチンアイテムを使用する。それでもなお、本開示の態様はキッチンアイテムの検出に限定されず、その他の物体も考慮される。
図4Bは本開示の態様による、ロボット100の3Dカメラにより撮影された未知の環境402の画像450を示す。図4Bの例では、未知の環境402もまたテーブル404、引き出された椅子406、開いた窓408、及びキャビネット430を含むレストランである。ある構成では、ロボット100は瓶410に加えて器具420及び422を追跡するために参照画像を使用する。予め訓練された物体検出ニューラルネットワークを使用し、ロボット100は器具420及び422並びに瓶410の移動を追跡することが可能である。すなわち、図4Aと図4Bの間で、瓶410はキャビネット430からテーブル404へと移動する。同様に、図4Aと図4Bの間で、器具420及び422は、テーブル430からキャビネット404へと移動する。
本開示の態様によれば、予め訓練された物体検出ニューラルネットワークはエンベディング(例えば物体のディスクリプタ)を使用して、環境中の物体及び点を定義する、未来の画像への相関性を判断する(例えばロボット100が動作するときにリアルタイムで撮影した画像)。言い換えれば、システムは、エンベディングのリアルタイム画像への相関性を通して迅速に未知の環境中の位置を判断できる。本開示は3Dカメラを使用して訓練画像を収集し、照明レベルを人工的に調整し、共通の特徴がリンクされた画像のペアを自動的に作成することでディープネットワークを生成し訓練する方法を提供する。結果的に、未知の環境における物体検出は未知の環境中の物体の姿勢や位置に限定されない。
図5は本開示の態様による物体識別システム500のハードウエア実装の例を示す図である。物体識別システム500は車両、ロボット装置、又はその他の装置の構成要素であってもよい。例えば、図5に示すように、物体識別システム500はロボット100(例えばロボット装置)の構成要素である。
本開示の態様はロボット100の構成要素である物体識別システム500に限定されない。物体識別システム500を使用するものとしてバス、ボート、ドローン、又は車両のようなその他の装置もまた考慮される。ロボット100は少なくとも自律動作モード及びマニュアル動作モードで動作してもよい。
物体識別システム500はバス550として概ね表されるバスアーキテクチャにより実装されてもよい。バス550は物体識別システム500の特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バス550は、プロセッサ520として表される1つ以上のプロセッサ及び/又はハードウエアモジュール、通信モジュール522、位置モジュール524、センサモジュール502、移動モジュール526、ナビゲーションモジュール528、及びコンピュータ可読媒体530のような様々な回路を接続する。バス550はタイミングソース、周辺機器、電圧制御器、電源管理回路のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。
物体識別システム500は、プロセッサ520に接続された送受信機540、センサモジュール502、物体識別モジュール510、通信モジュール522、位置モジュール524、移動モジュール526、ナビゲーションモジュール528、及びコンピュータ可読媒体530を含む。送受信機540はアンテナ542に接続されている。送受信機540は様々な装置と伝送媒体を介して通信する。例えば、送受信機540は通信を介してユーザー又は遠隔装置からの命令を受信してもよい。別の例として、送受信機540は物体識別モジュール510からサーバー(図示せず)へ統計及びその他の情報を送信してもよい。
物体識別システム500はコンピュータ可読媒体530に接続されたプロセッサ520を含む。プロセッサ520は、コンピュータ可読媒体530に記憶され、本開示による機能を提供するソフトウエアの実行を含む処理を行う。ソフトウエアは、プロセッサ520により実行された時、物体識別システム500により、ロボット100又はモジュール502、510、512、514、516、522、524、526、及び528のような特定の装置に対して説明された様々な機能を実行させる。コンピュータ可読媒体530は、ソフトウエアを実行した時にプロセッサ520により操作されるデータを記憶するためにも使用されてもよい。
センサモジュール502は、第1のセンサ504及び第2のセンサ506のような異なるセンサを介して測定値を得るために使用されてもよい。第1のセンサ504は、3D画像を撮影するためのステレオカメラ又はred-green-blue(RGB)カメラのような視覚センサであってもよい。第2のセンサ506は光検出と測距(LiDAR)センサ又は電波探知測距(RADAR)センサのような測距センサであってもよい。当然、本開示の態様は上記のセンサに限られず、例えば、温度、音波、及び/又はレーザー等のその他の型のセンサもまた第1のセンサ504及び第2のセンサ506のどちらかとして考えられる。
第1のセンサ504及び第2のセンサ506による測定値は、本明細書中に説明した機能を実装するために、コンピュータ可読媒体530と併せて、プロセッサ520、センサモジュール502、物体識別モジュール510、通信モジュール522、位置モジュール524、移動モジュール526、ナビゲーションモジュール528、のうち1つ以上により処理されてもよい。ある構成では、第1のセンサ504及び第2のセンサ506により撮影されたデータは送受信機540を介して外部装置へ送信されてもよい。第1のセンサ504及び第2のセンサ506はロボット100へ接続されていてもよく、又はロボット100と通信状態にあってもよい。
位置モジュール524はロボット100の位置を判断するために使用されてもよい。例えば、位置モジュール524は、ロボット100の位置を判断するために、全地球測位システム(GPS)を使用してもよい。通信モジュール522は送受信機540を介した通信を促進するために使用されてもよい。例えば、通信モジュール522は、Wi-Fi、long term evolution(LTE)、5G等のような異なる無線プロトコルを介した通信能力を提供してもよい。通信モジュール522はまた、物体識別システム500のモジュールではない、ロボット100のその他の構成要素と通信するために使用されてもよい。
移動モジュール526はロボット100の移動を促進するために使用されてもよい。別の例として、移動モジュール526はモーター及び/又はバッテリーのような、ロボット100の1つ以上の電力源と通信中であってもよい。移動力は車輪、可動肢、プロペラ、トレッド、ひれ、ジェットエンジン、及び/又はその他の移動力源により証明されてもよい。
物体識別システム500は移動モジュール526を経由して、経路を計画したり又はロボット100の移動を制御するためのナビゲーションモジュール528を含む。経路は物体識別モジュール510を介して提供されたデータに基づいて計画されてもよい。モジュールはプロセッサ520内で実行されるソフトウエアモジュール、コンピュータ可読媒体530上に常駐/記憶されるもの、プロセッサ520に接続された1つ以上のハードウエアモジュール、又はそれらの組み合わせであってもよい。
物体識別モジュール510はセンサモジュール502、送受信機540、プロセッサ520、通信モジュール522、位置モジュール524、移動モジュール526、ナビゲーションモジュール528、及びコンピュータ可読媒体530と通信可能であってもよい。ある構成では、物体識別モジュール510はセンサモジュール502からセンサデータを受信する。センサモジュール502は第1のセンサ504及び第2のセンサ506からセンサデータを受信してもよい。本開示の態様によれば、センサモジュール502はノイズを除去し、データをエンコードし、データをデコードし、データをマージし、フレームを抽出し、又はその他の機能を実行するために、データをフィルタしてもよい。代替の構成では、物体識別モジュール510は第1のセンサ504及び第2のセンサ506から直接センサデータを受信してもよい。
ある構成では、物体識別モジュール510はプロセッサ520、位置モジュール524、コンピュータ可読媒体530、第1のセンサ504、及び/又は第2のセンサ506からの情報に基づいて検出物体を識別する。物体検出モジュール512からの検出物体の識別はエンベディング相関性モジュール514を使用して行われてもよい。識別物体に基づいて、物体識別モジュール510はアクションモジュール516を通してロボット100の1つ以上のアクションを制御してもよい。
例えば、アクションはロボット100が撮影した風景の様々な画像間における動いている物体を追従し、セキュリティーサービスに連絡するといったセキュリティアクションを実行することであってもよい。物体識別モジュール510はプロセッサ520、位置モジュール524、通信モジュール522、コンピュータ可読媒体530、移動モジュール526、及び/又はナビゲーションモジュール528を介してアクションを実行してもよい。
本開示の本態様では、エンベディング/ディスクリプタ画像を訓練から物体及び未知の環境中の点を定義する未来の画像への相関性を判断するまで使用するエンベディング相関性モジュール514。すなわち、訓練後は、新たな環境に置かれたとき、ロボット100は椅子、窓、瓶、器具(例えばスプーン)、キャビネット等の、操作され得る新たな環境における位置を識別する。ロボット100は変形、物体アーティキュレーション、視角、及び照明に関わらず様々な要素を識別してもよい。
図6は本開示の態様によるロボット装置のディープニューラルネットワークを訓練する方法を示すフローチャートである。簡略化のために、ロボット装置はロボットと称される。
図6に示すように、方法600はブロック602から開始し、ロボット装置の3Dカメラを介して訓練環境にて撮影した画像を使用して3Dモデルが構成される。例えば、図1に示されるように、ロボット100は訓練環境102のオリジナル画像101を撮影する。物体はロボット100のLiDAR、RADAR及び/又はRGBカメラなどの、1つ以上のセンサにより撮影されてもよい。物体は、数時間、数日等の一定期間に渡って観察されてもよい。
ブロック604にて、ニューラルネットワークを使用して操作画像を作成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアが形成される。例えば、図3Bは、風景中にキャビネット330のハンドル332があり、キャビネット330が開いていて、キャビネット330が閉じている風景(例えば図3A)とリンクされている、操作画像350を示す。オリジナル画像300と操作画像350とのペアリングにより、同様の要素でありながら異なる(例えば人工的な)アーティキュレーションで描かれた物体同士がリンクされる。
ブロック606にて、3D画像のペアに共通する物体の埋め込みディスクリプタを含む参照画像を生成するために3D画像のペアが処理される。例えば、図4A及び図4Bは未知の環境402の撮影画像を示す。ある構成では、ロボット100は、図1、図2、図3A及び図3Bに示すキッチンの訓練環境のような、訓練環境のオリジナル画像と操作画像のペアに基づく参照画像を使用する。ブロック608では、ニューラルネットワークの訓練から得られた参照画像は未来の画像への相関性を判断するために使用される。例えば、図4A及び4Bに示すように、参照画像を使用して、ロボット100は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子406を検出する。加えて、参照画像によりロボット100が開いた窓408を検出することが可能になる。
本開示の態様により、未知の環境における検出物体の識別に基づいてロボット装置を制御する方法が説明される。方法は未知の環境中の物体を検出することを含む。例えば、図4Aに示されるように、ロボット100がテーブル404上の器具420及び422を検出する。本検出は、画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することにより行われてもよい。
本方法は更に、対応する参照画像の埋め込みディスクリプタに基づいて検出物体を識別することを含む。例えば、予め訓練された物体検出ニューラルネットワークを使用し、ロボット100は器具420及び422並びに瓶410を追従することが可能である。すなわち、図4Aと図4Bの間で、瓶410はキャビネット430からテーブル404へと移動する。同様に、図4Aと図4Bの間で、器具420及び422は、テーブル404からキャビネット430へと移動する。
教示に基づき、本開示の範囲は、独立して実装されるか本開示のその他の態様と組み合わせるかに関わらず、本開示の任意の態様を含めることを意図することが、当業者により理解されるべきである。例えば、明らかにされる任意の数の態様を使用して装置を実装してもよく、又は方法を実施してもよい。加えて、本開示の範囲は、本開示で明らかにする様々な態様に加えて、又はその他の構造及び機能、又は構造及び機能を使用して実施されるそのような装置又は方法を含むことを意図する。本開示の任意の態様は特許請求の範囲の1つ以上の要素により具現化され得ることが理解されるべきである。
本明細書において「例示的な」という語は「例、実例、又は例証の役割を果たす」という意味で使用される。「例示的」として説明される本明細書の任意の態様は必ずしも他の態様に比べて好ましい又は有利であるとして理解されるべきものではない。
本明細書にて特定の態様を説明するが、本開示の範囲にはこれらの態様に対する多数の変形及び置換が含まれる。好ましい態様の幾つかの利益及び利点が記載されるが、本開示の範囲は特定の利益、使用又は目的に限定されることを意図しない。寧ろ、本開示の態様は、一部を図及び好ましい態様の説明に例示を目的として示す異なる技術、システム構成、ネットワーク、及びプロトコルへ広く適用可能であることが意図される。詳細な説明及び図面は限定することよりも寧ろ本開示の説明のみを目的とし、本開示の範囲は添付する特許請求の範囲及び同等物によって定義される。
本明細書中に使用されるように、「判断」は多岐にわたるアクションを含む。例えば、「判断」は算出、計算、処理、導出、調査、検索(例えば表、データベース又はその他の構造の中を検索)、究明等を含み得る。加えて、「判断」は受信(例えば情報を受信すること)、アクセス(例えばメモリ中のデータにアクセスすること)等を含み得る。更に、「判断」は、解決、選出、選択、確立等を含み得る。
本明細書中に使用するように、「のうち少なくとも1つ」のフレーズは、項目のリストから、単一の項目を含む、項目の任意の組み合わせを指す。例えば、「a、b、又はcのうち少なくとも1つ」はa、b、c、a-b、a-c、b-c、a-b-cを含むことが意図される。
本開示と関連して説明された様々な例示的な論理ブロック、モジュール及び回路は本開示で議論された機能を実行するために特別に構成されたプロセッサにより実装又は実行されてもよい。プロセッサはニューラルネットワークプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、Field Programmable Gate Array信号(FPGA)又は他のプログラマブル論理デバイス(PLD)、個別ゲート又はトランジスタ論理、個別ハードウェアコンポーネント、又は本明細書中に説明した機能を実行するよう設計された上記の任意の組み合わせであってもよい。代わりに、処理システムは、本明細書にて説明したニューロンモデル及びニューラルシステムのモデルを実装するために、1つ以上のニューロモーフィックプロセッサを備えていてもよい。プロセッサは、本明細書中の説明のように構成されるマイクロプロセッサ、コントローラ、マイクロコントローラ、又は状態マシンであってもよい。プロセッサはまた、例えばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと組み合わせた1つ以上のマイクロプロセッサ、又は本明細書で説明するその他の特別な構成といった、計算装置の組み合わせとして実装されてもよい。
本開示と関連して説明される方法のステップ又はアルゴリズムはハードウエア、プロセッサにより実行されるソフトウエアモジュール、又はこの2つの組み合わせ内にて直接具現化されてもよい。ソフトウエアモジュールは、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、Erasable Programmable Read Only Memory(EPROM)、Electrically Erasable Programmable Read-Only Memory(EEPROM)、レジスタ、ハードディスク、取り外し可能ディスク、CD-ROM又は他の光ディスク記憶装置、磁気ディスク記憶装置又はその他の磁気記憶装置、命令又はデータ構造の形態で所望のプログラムコードを搬送又は記憶することに使用可能でコンピュータによってアクセス可能なその他の任意の媒体を含む、記憶装置、又は機可読械媒体に存在してもよい。ソフトウエアモジュールは、単一の命令、又は多数の命令を備えることもあり、複数の異なるコードセグメント、異なるプログラム間、及び複数の記憶媒体に分散されていてもよい。プロセッサが記憶媒体へ情報を書き込んだり記憶媒体から情報を読み出したりできるようにプロセッサに記憶媒体が接続されていてもよい。代わりに、記憶媒体はプロセッサと一体となっていてもよい。
本明細書にて開示する方法は、開示された方法を実現するための1つ以上のステップ又はアクションを含む。方法のステップ及び/又はアクションは特許請求の範囲から逸脱することなく互いに入れ替えてもよい。言い換えれば、ステップ又はアクションの特定の順序が特定されていない限り、特定のステップ及び/又はアクションの順序及び/又は用途は特許請求の範囲から逸脱することなく変更されてもよい。
説明された機能はハードウエア、ソフトウエア、ファームウエア、又はこれらの任意の組み合わせにより実装されてもよい。ハードウエアで実装する場合、ハードウエア構成の例は装置中に処理システムを備えてもよい。処理システムはバスアーキテクチャを用いて実装してもよい。バスは処理システムの特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バスはプロセッサ、機械可読媒体、及びバスインターフェースを含む様々な回路を接続してもよい。バスインターフェースは、その他の物の中でも、ネットワークアダプタを処理システムにバスを介して接続することに使用されてもよい。ネットワークアダプタは信号処理機能を実装するために使用されてもよい。特定の態様では、ユーザーインターフェース(例えばキーパッド、ディスプレイ、マウス、ジョイスティック等)もまたバスに接続されてもよい。バスはタイミングソース、周辺機器、電圧制御、電源管理回路等のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。
プロセッサはバスの管理、及び機械可読媒体に記憶されたソフトウエアの実行を含む処理を担当してもよい。ソフトウエアは、ソフトウエア、ファームウエア、ミドルウエア、マイクロコード、ハードウエア記述言語、又はその他の呼び方に関わらず、命令、データ、又はそれらの任意の組み合わせを意味すると解釈するものとする。
ハードウエア実装にて、機械可読媒体はプロセッサとは別個の処理システムの一部であってもよい。しかしながら、当業者が容易に理解するように、機械可読媒体、又はその任意の一部は、処理システムの外部にあってもよい。例えば、機械可読媒体は通信線、データによって変調された搬送波、及び/又は装置から切り離されたコンピュータ製品を含んでも良く、これらは全てバスインターフェースを介してプロセッサによりアクセスされてもよい。代わりに、又は加えて、機械可読媒体、又はその一部は、キャッシュ及び/又は特別なレジスタファイルが存在し得る場合のようにプロセッサに統合されていてもよい。議論した様々な構成要素は、ローカルな構成要素のように特別な位置を有するように説明されたが、それらは分散コンピューティングシステムの一部として構成される特定の構成要素のように様々な方法により構成されてもよい。
機械可読媒体は数々のソフトウエアモジュールを備えていてもよい。ソフトウエアモジュールは送信モジュール及び受信モジュールを含んでいてもよい。各ソフトウエアモジュールは単一の記憶装置内に存在してもよく、又は複数の記憶装置に渡って分散されていてもよい。例えば、トリガとなるイベントが起こったときにソフトウエアモジュールがハードドライブからRAMにロードされてもよい。ソフトウエアモジュールの実行中、プロセッサは、アクセス速度を上げるために、幾つかの命令をキャッシュへロードしてもよい。プロセッサにより実行するため、1つ以上のキャッシュラインがその後特殊用途レジスタファイルにロードされてもよい。ソフトウエアモジュールの以下の機能を参照すれば、ソフトウエアモジュールによる命令の実行時にプロセッサにより機能が実施されることが理解されよう。更に、本開示の態様によりプロセッサ、コンピュータ、マシン、又はこのような態様を実装するその他のシステムの機能が改善することが理解されるべきである。
ソフトウエアに実装されれば、機能は1つ以上の命令又はコードとしてコンピュータ可読媒体上に記憶又は転送されてもよい。コンピュータ可読媒体には、コンピュータの記憶装置と、コンピュータプログラムをある場所から別の場所へ転送することを促進する任意の記憶装置を含む通信メディアとの両方が含まれる。
更に、モジュール並びに/又は本明細書中に説明した方法及び技術を実行するその他の適切な手段は、必要に応じてダウンロード並びに/又はユーザー端末及び/又はベースステーションにより取得可能であることが理解されるべきである。例えば、本明細書中で説明された方法を実行するための手段の転送を促進するために、そのような装置をサーバーに接続することができる。代わりに、本明細書中で説明した様々な方法は、記憶手段を装置に接続するか、又は記憶手段を装置に提供することによりユーザー端末及び/又はベースステーションが様々な方法を取得することが可能になる形で、記憶手段を介して提供することができる。更に、本明細書中で説明した方法及び技術を装置に提供するその他の任意の技術を使用することができる。
特許請求の範囲は上記に示された正確な構成及び構成要素に限定されないことが理解されるべきである。上に説明した方法及び装置の配置、操作、並びに詳細に対して、特許請求の範囲から逸脱せずに、様々な修正、変更及び変形がなされ得る。

Claims (20)

  1. 訓練環境においてロボット装置の3Dカメラを使用して撮影した画像を使用して3Dモデルを構成することと、
    前記訓練環境のパラメーターを人工的に調整し、前記3Dモデルから3D画像のペアを生成することにより、ディープニューラルネットワークを使用して操作画像を形成することと、
    前記3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記3D画像のペアを処理すること、
    未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの前記参照画像を使用することと、
    を含む、ロボット装置のディープニューラルネットワークを訓練する方法。
  2. 前記3D画像のペアの生成は、
    リンクされた要素にて3D画像をペアリングすることと、
    前記3D画像のペア間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成することと、
    を含む、請求項1に記載の方法。
  3. パラメーターの人工的な調整は、
    オリジナル3D画像と操作済3D画像との間の物体アーティキュレーションを変更することを含む、
    請求項1に記載の方法。
  4. 前記物体アーティキュレーションの変更は、
    前記オリジナル3D画像と前記操作済3D画像との間の照明を変更することを含む、
    請求項3に記載の方法。
  5. 前記物体アーティキュレーションの変更は、
    前記オリジナル3D画像と前記操作済3D画像との間の視角を変更することを含む、
    請求項3に記載の方法。
  6. 未知の環境における変形、物体アーティキュレーション、視角、照明に関わらず操作され得る未知の環境中の物体を識別することと、
    識別物体を操作することと、
    を更に含む、請求項1に記載の方法。
  7. 未知の環境中の物体を検出することと、
    画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することと、
    前記対応する参照画像の前記埋め込みディスクリプタに基づいて検出物体を識別することと、
    を含む、未知の環境における検出物体の識別に基づいたロボット装置の制御方法。
  8. 一定期間識別物体を追従することを更に含む、請求項7に記載の方法。
  9. 識別物体が操作され得ることを判断することと、
    前記識別物体を操作することと、
    を更に含む、請求項7に記載の方法。
  10. 前記対応する参照画像を風景の撮影画像に重ねることと、
    前記対応する参照画像と前記撮影画像との間の点の対応関係に基づいて前記検出物体の識別を決定することと、
    を更に含む、請求項7に記載の方法。
  11. ロボット装置のディープニューラルネットワークを訓練するためのプログラムコードを記録した非一時的なコンピュータ可読媒体であって、
    前記プログラムコードはプロセッサにより実行され、
    前記ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアを生成するプログラムコードと、
    前記3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記3D画像のペアを処理するプログラムコードと、
    未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練中からの前記参照画像を使用するプログラムコードと、
    を含む、非一時的なコンピュータ可読媒体。
  12. 前記3D画像のペアを生成するための前記プログラムコードは,
    リンクされた要素にて3D画像をペアリングするプログラムコードと、
    前記ペアの3D画像間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成するプログラムコードと、
    を含む、請求項11に記載の非一時的なコンピュータ可読媒体。
  13. 前記3D画像のペアを生成するための前記プログラムコードは,
    オリジナル3D画像と操作済3D画像との間の物体アーティキュレーションを変更するプログラムコードを含む、
    請求項11に記載の非一時的なコンピュータ可読媒体。
  14. 物体アーティキュレーションを変更するための前記プログラムコードは、
    前記オリジナル3D画像と前記操作済3D画像との間の照明を変更するプログラムコードを含む、
    請求項13に記載の非一時的なコンピュータ可読媒体。
  15. 前記物体アーティキュレーションを変更するための前記プログラムコードは、
    前記オリジナル3D画像と前記操作済3D画像との間の視角を変更するプログラムコードを含む、
    請求項13に記載の非一時的なコンピュータ可読媒体。
  16. 撮影画像中の検出物体を識別するために対応する参照画像を選択するように構成された予め訓練された物体識別モジュールを備え、前記対応する参照画像は画像撮影環境の人工的に調整されたパラメーターにより操作される訓練された物体に基づいた埋め込みディスクリプタを含み、
    前記検出物体のアイデンティティに基づいてロボット装置の自律動作を選択するように構成されたコントローラを備える、
    未知の環境における検出物体の識別に基づいてロボット装置を制御するためのシステム。
  17. 前記予め訓練された物体識別モジュールは識別物体を一定期間に渡って追跡するように構成されている、請求項16に記載のシステム。
  18. 前記コントローラは更に識別物体を操作するように構成されている、請求項16に記載のシステム。
  19. 前記予め訓練された物体識別モジュールは、前記対応する参照画像を風景の撮影画像に重ね合わせ、前記対応する参照画像と前記撮影画像との間の点の対応関係に基づいて前記検出物体の識別を決定するように構成されている、請求項16に記載のシステム。
  20. 前記予め訓練された物体識別モジュールは未来の画像中の前記検出物体を識別する相関性に基づいて前記対応する参照画像と撮影画像との間で共通する物体を検出するように構成されている、請求項16に記載のシステム。
JP2022503981A 2019-07-23 2020-06-05 ディープネットワークの訓練方法 Pending JP2022542858A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201962877792P 2019-07-23 2019-07-23
US201962877793P 2019-07-23 2019-07-23
US201962877791P 2019-07-23 2019-07-23
US62/877,793 2019-07-23
US62/877,792 2019-07-23
US62/877,791 2019-07-23
US16/570,813 US11113526B2 (en) 2019-07-23 2019-09-13 Training methods for deep networks
US16/570,813 2019-09-13
PCT/US2020/036450 WO2021015869A1 (en) 2019-07-23 2020-06-05 Training methods for deep networks

Publications (2)

Publication Number Publication Date
JP2022542858A true JP2022542858A (ja) 2022-10-07
JPWO2021015869A5 JPWO2021015869A5 (ja) 2023-06-12

Family

ID=74189690

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2022503981A Pending JP2022542858A (ja) 2019-07-23 2020-06-05 ディープネットワークの訓練方法
JP2022503979A Pending JP2022542241A (ja) 2019-07-23 2020-06-05 ロボット装置からの視覚的出力を補強するシステム及び方法
JP2022503936A Pending JP2022542239A (ja) 2019-07-23 2020-06-10 視角エンベディングに基づいた自律タスク実行
JP2022503980A Pending JP2022544007A (ja) 2019-07-23 2020-07-22 移動操作システムの視覚的教示と繰り返し

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2022503979A Pending JP2022542241A (ja) 2019-07-23 2020-06-05 ロボット装置からの視覚的出力を補強するシステム及び方法
JP2022503936A Pending JP2022542239A (ja) 2019-07-23 2020-06-10 視角エンベディングに基づいた自律タスク実行
JP2022503980A Pending JP2022544007A (ja) 2019-07-23 2020-07-22 移動操作システムの視覚的教示と繰り返し

Country Status (5)

Country Link
US (6) US11288883B2 (ja)
EP (4) EP4004828A4 (ja)
JP (4) JP2022542858A (ja)
CN (4) CN114127805A (ja)
WO (4) WO2021015869A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288883B2 (en) 2019-07-23 2022-03-29 Toyota Research Institute, Inc. Autonomous task performance based on visual embeddings
US11685045B1 (en) * 2019-09-09 2023-06-27 X Development Llc Asynchronous robotic control using most recently selected robotic action data
US20210101280A1 (en) * 2019-10-02 2021-04-08 Baker Hughes Oilfield Operations, Llc Telemetry harvesting and analysis from extended reality streaming
US11328170B2 (en) * 2020-02-19 2022-05-10 Toyota Research Institute, Inc. Unknown object identification for robotic device
US11813748B2 (en) * 2020-10-13 2023-11-14 Google Llc Simulating multiple robots in virtual environments
US20220197277A1 (en) * 2020-12-23 2022-06-23 Qatar Foundation For Education, Science And Community Development Telepresence control schemes for hazardous environments
IT202100003821A1 (it) * 2021-02-19 2022-08-19 Univ Pisa Procedimento di interazione con oggetti
US20220355692A1 (en) * 2021-05-05 2022-11-10 Abb Schweiz Ag Systems and Methods for Electric Vehicle Charging Using Machine Learning
GB2616001A (en) * 2022-02-17 2023-08-30 Roke Manor Res Limited Remote visual inspection guidance
US20230286161A1 (en) * 2022-03-11 2023-09-14 Boston Dynamics, Inc. Systems and Methods for Robotic Manipulation Using Extended Reality
CN116823838B (zh) * 2023-08-31 2023-11-14 武汉理工大学三亚科教创新园 高斯先验标签分配与特征解耦的海洋船舶检测方法与系统

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082497B2 (en) * 2001-12-28 2006-07-25 Hewlett-Packard Development Company, L.P. System and method for managing a moveable media library with library partitions
JP3834297B2 (ja) * 2003-05-12 2006-10-18 ファナック株式会社 画像処理装置
WO2005098729A2 (en) * 2004-03-27 2005-10-20 Harvey Koselka Autonomous personal service robot
JP2005308993A (ja) * 2004-04-20 2005-11-04 Matsushita Electric Ind Co Ltd 学習支援システム
DE102005009437A1 (de) * 2005-03-02 2006-09-07 Kuka Roboter Gmbh Verfahren und Vorrichtung zum Einblenden von AR-Objekten
JP2007026309A (ja) * 2005-07-20 2007-02-01 Fuji Xerox Co Ltd 画像形成装置及びその制御方法
US7836437B2 (en) * 2006-02-10 2010-11-16 Microsoft Corporation Semantic annotations for virtual objects
JP4320363B2 (ja) * 2006-05-25 2009-08-26 豪洋 石崎 作業ロボット
US8121347B2 (en) 2006-12-12 2012-02-21 Rutgers, The State University Of New Jersey System and method for detecting and tracking features in images
JP5037248B2 (ja) * 2007-07-17 2012-09-26 株式会社日立製作所 情報収集システムおよび情報収集ロボット
WO2009024349A1 (en) * 2007-08-22 2009-02-26 Honda Research Institute Europe Gmbh Estimating objects proper motion using optical flow, kinematics and depth information
FR2946160B1 (fr) 2009-05-26 2014-05-09 Aldebaran Robotics Systeme et procede pour editer et commander des comportements d'un robot mobile.
JP2013022705A (ja) 2011-07-25 2013-02-04 Sony Corp ロボット装置及びロボット装置の制御方法、コンピューター・プログラム、並びにロボット・システム
US8965580B2 (en) * 2012-06-21 2015-02-24 Rethink Robotics, Inc. Training and operating industrial robots
US9186793B1 (en) * 2012-08-31 2015-11-17 Brain Corporation Apparatus and methods for controlling attention of a robot
US9940553B2 (en) * 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
US9542626B2 (en) 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
WO2015051815A1 (en) * 2013-10-07 2015-04-16 Abb Technology Ltd A method and a device for verifying one or more safety volumes for a movable mechanical unit
US9259844B2 (en) * 2014-02-12 2016-02-16 General Electric Company Vision-guided electromagnetic robotic system
EP3159121A4 (en) 2014-06-17 2018-05-16 Yujin Robot Co., Ltd. Device for updating map of mobile robot and method therefor
US10518409B2 (en) 2014-09-02 2019-12-31 Mark Oleynik Robotic manipulation methods and systems for executing a domain-specific application in an instrumented environment with electronic minimanipulation libraries
US9579790B2 (en) * 2014-09-17 2017-02-28 Brain Corporation Apparatus and methods for removal of learned behaviors in robots
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
JP2016107379A (ja) * 2014-12-08 2016-06-20 ファナック株式会社 拡張現実対応ディスプレイを備えたロボットシステム
WO2016103065A1 (en) * 2014-12-23 2016-06-30 Husqvarna Ab Robotic vehicle with adjustable operating area
CN104732518B (zh) 2015-01-19 2017-09-01 北京工业大学 一种基于智能机器人地面特征的ptam改进方法
CN104808590B (zh) 2015-02-14 2017-01-25 浙江大学 一种基于关键帧策略的移动机器人视觉伺服控制方法
US9643314B2 (en) * 2015-03-04 2017-05-09 The Johns Hopkins University Robot control, training and collaboration in an immersive virtual reality environment
US9922271B2 (en) 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
US9868211B2 (en) * 2015-04-09 2018-01-16 Irobot Corporation Restricting movement of a mobile robot
US9646655B2 (en) 2015-08-31 2017-05-09 Fuji Xerox Co., Ltd. Systems and methods for interaction-based analysis and visualization of remote collaboration sessions
EP3408848A4 (en) * 2016-01-29 2019-08-28 Pointivo Inc. SYSTEMS AND METHOD FOR EXTRACTING INFORMATION ON OBJECTS FROM SCENE INFORMATION
JP7009389B2 (ja) * 2016-05-09 2022-01-25 グラバンゴ コーポレイション 環境内のコンピュータビジョン駆動型アプリケーションのためのシステムおよび方法
CN114967433B (zh) * 2016-05-20 2023-08-18 谷歌有限责任公司 基于捕获物体的图像的机器学习方法和装置
CN106023211B (zh) 2016-05-24 2019-02-26 深圳前海勇艺达机器人有限公司 基于深度学习的机器人图像定位方法及系统
US10105847B1 (en) * 2016-06-08 2018-10-23 X Development Llc Detecting and responding to geometric changes to robots
US10055667B2 (en) * 2016-08-03 2018-08-21 X Development Llc Generating a model for an object encountered by a robot
US9964955B2 (en) 2016-08-04 2018-05-08 Canvas Technology, Inc. System and methods of determining a geometric pose of a camera based on spatial and visual mapping
JP2018055429A (ja) * 2016-09-29 2018-04-05 ファナック株式会社 物体認識装置および物体認識方法
US10162360B2 (en) * 2016-12-01 2018-12-25 GM Global Technology Operations LLC Vehicle environment imaging systems and methods
KR101850410B1 (ko) * 2016-12-26 2018-04-20 한국생산기술연구원 가상 현실 기반 로봇 교시를 위한 시뮬레이션 장치 및 방법
JP2018122376A (ja) * 2017-01-31 2018-08-09 セイコーエプソン株式会社 画像処理装置、ロボット制御装置、及びロボット
EP3585569B1 (en) * 2017-02-25 2023-06-07 Diligent Robotics, Inc. Systems, apparatus, and methods for robotic learning and execution of skills
EP3974934A1 (de) * 2017-03-02 2022-03-30 Robart GmbH Verfahren zur steuerung eines autonomen, mobilen roboters
CN109213306B (zh) * 2017-06-30 2022-02-01 沈阳新松机器人自动化股份有限公司 一种机器人远程控制平台及其设计方法
KR102024092B1 (ko) * 2017-07-12 2019-09-23 엘지전자 주식회사 이동 로봇 시스템 및 그 제어방법
US11345040B2 (en) * 2017-07-25 2022-05-31 Mbl Limited Systems and methods for operating a robotic system and executing robotic interactions
CN107610579A (zh) * 2017-09-05 2018-01-19 芜湖瑞思机器人有限公司 基于vr系统控制的工业机器人示教系统及其示教方法
US10354139B1 (en) * 2017-09-07 2019-07-16 X Development Llc Generating and utilizing spatial affordances for an object in robotics applications
WO2019060787A1 (en) * 2017-09-21 2019-03-28 Lexset.Ai Llc DETECTION OF AT LEAST ONE OBJECT IN AN IMAGE, OR A SEQUENCE OF IMAGES, AND DETERMINATION OF A CATEGORY AND AT LEAST ONE DESCRIPTOR FOR EACH OF THESE OBJECTS, GENERATION OF SYNTHETIC LEARNING DATA, AND FORMATION OF A NEURONAL NETWORK USING SYNTHETIC LEARNING DATA
US10607079B2 (en) * 2017-09-26 2020-03-31 Toyota Research Institute, Inc. Systems and methods for generating three dimensional skeleton representations
CN111448581B (zh) 2017-10-24 2023-12-05 巴黎欧莱雅公司 使用深层神经网络进行图像处理的系统和方法
WO2019089018A1 (en) * 2017-10-31 2019-05-09 Hewlett-Packard Development Company, L.P. Mobile robots to generate reference maps for localization
US10346721B2 (en) * 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
JP6972962B2 (ja) * 2017-11-22 2021-11-24 コニカミノルタ株式会社 物体追跡装置、物体追跡方法、および、物体追跡プログラム
US11771283B2 (en) * 2017-12-06 2023-10-03 BISSELL , Inc. Method and system for manual control of autonomous floor cleaner
US10380751B1 (en) * 2017-12-12 2019-08-13 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Robot vision in autonomous underwater vehicles using the color shift in underwater imaging
US10810427B1 (en) * 2017-12-15 2020-10-20 AI Incorporated Methods for an autonomous robotic device to identify locations captured in an image
US10981272B1 (en) * 2017-12-18 2021-04-20 X Development Llc Robot grasp learning
JP6641447B2 (ja) * 2017-12-26 2020-02-05 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
US10913154B2 (en) * 2018-01-02 2021-02-09 General Electric Company Systems and method for robotic learning of industrial tasks based on human demonstration
US11097418B2 (en) * 2018-01-04 2021-08-24 X Development Llc Grasping of an object by a robot based on grasp strategy determined using machine learning model(s)
CN108333941A (zh) * 2018-02-13 2018-07-27 华南理工大学 一种基于混合增强智能的云机器人协作学习方法
US11340630B2 (en) * 2018-03-30 2022-05-24 Brain Corporation Systems and methods for robust robotic mapping
CN108619723A (zh) * 2018-04-18 2018-10-09 咪咕互动娱乐有限公司 一种应用操作的处理方法、装置以及存储介质
US10332261B1 (en) * 2018-04-26 2019-06-25 Capital One Services, Llc Generating synthetic images as training dataset for a machine learning network
US11189078B2 (en) * 2018-06-20 2021-11-30 Google Llc Automated understanding of three dimensional (3D) scenes for augmented reality applications
US10636114B2 (en) * 2018-08-04 2020-04-28 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for scan-matching oriented visual slam
US11030458B2 (en) * 2018-09-14 2021-06-08 Microsoft Technology Licensing, Llc Generating synthetic digital assets for a virtual scene including a model of a real-world object
US10824923B1 (en) * 2019-01-23 2020-11-03 Facebook Technologies, Llc System and method for improving localization and object tracking
US10870204B2 (en) * 2019-01-25 2020-12-22 Mujin, Inc. Robotic system control method and controller
JP7203474B2 (ja) * 2019-02-20 2023-01-13 富士フイルム株式会社 マンモグラフィ装置及びプログラム
US11288883B2 (en) 2019-07-23 2022-03-29 Toyota Research Institute, Inc. Autonomous task performance based on visual embeddings
US11529737B2 (en) * 2020-01-30 2022-12-20 Raytheon Company System and method for using virtual/augmented reality for interaction with collaborative robots in manufacturing or industrial environment

Also Published As

Publication number Publication date
EP4004670A4 (en) 2023-09-06
EP4004828A4 (en) 2023-10-18
EP4003666A4 (en) 2023-09-06
EP4004670A1 (en) 2022-06-01
EP4003668A1 (en) 2022-06-01
EP4003666A1 (en) 2022-06-01
JP2022542239A (ja) 2022-09-30
WO2021015868A1 (en) 2021-01-28
JP2022544007A (ja) 2022-10-17
CN114080583A (zh) 2022-02-22
EP4003668A4 (en) 2023-09-06
US11741701B2 (en) 2023-08-29
CN114080583B (zh) 2023-12-08
US11580724B2 (en) 2023-02-14
WO2021015883A1 (en) 2021-01-28
CN114127806A (zh) 2022-03-01
WO2021015869A1 (en) 2021-01-28
CN114097004A (zh) 2022-02-25
US11288883B2 (en) 2022-03-29
US20220165057A1 (en) 2022-05-26
US20210023703A1 (en) 2021-01-28
US20210027097A1 (en) 2021-01-28
EP4004828A1 (en) 2022-06-01
JP2022542241A (ja) 2022-09-30
US20210023707A1 (en) 2021-01-28
CN114127805A (zh) 2022-03-01
US20210027058A1 (en) 2021-01-28
US11113526B2 (en) 2021-09-07
US20230154015A1 (en) 2023-05-18
WO2021016394A1 (en) 2021-01-28
US11694432B2 (en) 2023-07-04

Similar Documents

Publication Publication Date Title
JP2022542858A (ja) ディープネットワークの訓練方法
Zou et al. Collaborative visual SLAM for multiple agents: A brief survey
JP6976350B2 (ja) 静的物体及び動的物体を含むシーンの位置特定及びマッピングに関するイメージングシステム
CN109410316B (zh) 物体的三维重建的方法、跟踪方法、相关装置及存储介质
US11111785B2 (en) Method and device for acquiring three-dimensional coordinates of ore based on mining process
KR20120048370A (ko) 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법
US11971709B2 (en) Learning device, control device, learning method, and recording medium
CN112419233B (zh) 一种数据标注方法、装置、设备以及计算机可读存储介质
CN115330946A (zh) 元宇宙构建方法、装置、存储介质及电子设备
US11328170B2 (en) Unknown object identification for robotic device
CN110514140B (zh) 一种三维成像方法、装置、设备以及存储介质
JP2022551885A (ja) 物体の把持点の三次元位置、ローカル参照フレーム及び把持パターンを求める方法及びシステム
Miranto et al. Realization of point cloud maps using ROS & visual sensor on Raspberry Pi 3 based mobile robot
CN108229380B (zh) 一种目标图像的检测方法、装置及存储介质、机器人
Qian et al. An improved ORB-SLAM2 in dynamic scene with instance segmentation
CN110647888B (zh) 基于单目图像的三维信息的提取方法及电子装置
Liu Comprehensive Analysis of Mobile Robot Target Tracking Technology Based on Computer Vision
WO2023150885A1 (en) System and method for object comprehension
Wu et al. A Robust SLAM towards Dynamic Scenes Involving Non-rigid Objects
Walter et al. Vision-based reacquisition for task-level control
CN114762001A (zh) 基于采样的自监督深度估计和位姿估计
CN117798911A (zh) 一种物体抓取方法、装置、计算机可读存储介质及机器人
CN117542108A (zh) 基于神经网络的跌倒检测方法、装置、设备及存储介质
CN114359375A (zh) 目标定位方法、装置、计算机设备、存储介质
Suhm Vision and SLAM on a highly dynamic mobile two-wheeled robot

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230602