JP2020140641A5 - 情報処理装置、方法、制御装置及び装置 - Google Patents

情報処理装置、方法、制御装置及び装置 Download PDF

Info

Publication number
JP2020140641A5
JP2020140641A5 JP2019037752A JP2019037752A JP2020140641A5 JP 2020140641 A5 JP2020140641 A5 JP 2020140641A5 JP 2019037752 A JP2019037752 A JP 2019037752A JP 2019037752 A JP2019037752 A JP 2019037752A JP 2020140641 A5 JP2020140641 A5 JP 2020140641A5
Authority
JP
Japan
Prior art keywords
information processing
simulation
processing apparatus
information
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019037752A
Other languages
English (en)
Other versions
JP2020140641A (ja
JP7336856B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2019037752A priority Critical patent/JP7336856B2/ja
Priority claimed from JP2019037752A external-priority patent/JP7336856B2/ja
Priority to PCT/JP2020/003419 priority patent/WO2020179299A1/ja
Publication of JP2020140641A publication Critical patent/JP2020140641A/ja
Priority to US17/446,347 priority patent/US20210387343A1/en
Publication of JP2020140641A5 publication Critical patent/JP2020140641A5/ja
Application granted granted Critical
Publication of JP7336856B2 publication Critical patent/JP7336856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、情報処理装置、方法、制御装置及び装置に関する。
本開示の一態様による情報処理装置は、例えば、以下のような構成を有する。即ち、
少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
現実世界の観測結果に基づく情報と、環境変数と、に基づいて、仮想世界の状態についてシミュレーションを実行することと
前記シミュレーション結果が、前記現実世界が変化した後の観測結果に基づく変化後の前記仮想世界の状態に近づくように、前記環境変数を更新することと、
を実行する

Claims (28)

  1. 少なくとも1つのメモリと、
    少なくとも1つのプロセッサと、を備え、
    前記少なくとも1つのプロセッサは、
    現実世界の観測結果に基づく情報と、環境変数と、に基づいて、仮想世界の状態についてシミュレーションを実行することと
    前記シミュレーション結果が、前記現実世界が変化した後の観測結果に基づく変化後の前記仮想世界の状態に近づくように、前記環境変数を更新することと、
    を実行する、
    情報処理装置。
  2. 前記少なくとも1つのプロセッサは、前記シミュレーション結果が、前記変化後の前記仮想世界の状態に近づくように、誤差逆伝播を行うことで、前記環境変数を更新する、
    請求項1に記載の情報処理装置。
  3. 前記少なくとも1つのプロセッサは、更に、
    前記シミュレーションの出力を第1のニューラルネットワークに入力し、前記シミュレーションの結果を生成することと、
    前記シミュレーションの結果が、前記変化後の前記仮想世界の状態に近づくように、前記第1のニューラルネットワークを訓練することと、
    を実行する、
    請求項1または2に記載の情報処理装置。
  4. 前記少なくとも1つのプロセッサは、
    前記現実世界の観測結果に基づく情報と、前記環境変数と、前記現実世界における制御方法に関する情報と、に基づいて、前記シミュレーションを実行し、
    前記シミュレーションの結果が、前記制御方法に基づく制御によって前記現実世界が変化した後の前記観測結果に基づく前記変化後の前記仮想世界の状態に近づくように、前記環境変数を更新する
    請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記少なくとも1つのプロセッサは、更に、
    前記現実世界の観測結果に基づく情報と、前記環境変数とを第2のニューラルネットワークに入力して、前記現実世界における制御方法に関する情報を出力することと、
    を実行する、
    請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記少なくとも1つのプロセッサは、更に、前記シミュレーションの結果に基づいて、前記第2のニューラルネットワークを訓練すること、を実行する、
    請求項5に記載の情報処理装置。
  7. 前記環境変数は、物体に関する情報を含む、
    請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記現実世界の観測結果に基づく情報は、前記仮想世界の状態を含む、
    請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記シミュレーションは微分可能なシミュレーションである、
    請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 請求項3に記載の情報処理装置を用いて、前記第1のニューラルネットワークを生成する方法。
  11. 請求項6に記載の情報処理装置を用いて、前記第2のニューラルネットワークを生成する方法。
  12. 少なくとも1つのメモリと、
    少なくとも1つのプロセッサと、を備え、
    前記少なくとも1つのプロセッサは、
    仮想世界の状態と、環境変数とを第1のニューラルネットワークに入力して、制御方法に関する情報を出力することと、
    前記仮想世界の状態と、前記環境変数と、前記制御方法に関する情報とに基づいて、前記制御方法に基づいて対象を制御した後の前記仮想世界の状態をシミュレーションすることと、
    前記シミュレーションの結果に基づいて、前記第1のニューラルネットワークを訓練することと、
    を実行する、
    情報処理装置。
  13. 前記少なくとも1つのプロセッサは、前記シミュレーションの結果に基づいて報酬を算出し、前記報酬に基づいて前記第1のニューラルネットワークを訓練する、
    請求項12に記載の情報処理装置。
  14. 前記シミュレーションは、微分可能なシミュレーションである、
    請求項12または13に記載の情報処理装置。
  15. 前記少なくとも1つのプロセッサは、前記微分可能なシミュレーションの出力を第2のニューラルネットワークに入力し、前記シミュレーションの結果を生成する、
    請求項14に記載の情報処理装置。
  16. 前記環境変数は、前記対象に関する情報を含む、
    請求項12乃至15のいずれか1項に記載の情報処理装置。
  17. 請求項12乃至16のいずれか1項に記載の情報処理装置を用いて、前記第1のニューラルネットワークを生成する方法。
  18. 少なくとも1つのメモリと、
    少なくとも1つのプロセッサと、を備え、
    前記少なくとも1つのプロセッサは、
    仮想世界の状態と、環境変数と、に基づいて、前記仮想世界の状態についてシミュレーションを実行すること、
    を実行し、
    前記環境変数は、シミュレーションの結果が、現実世界の観測結果に基づく変化後の前記仮想世界の状態に近づくように更新されたものである、
    情報処理装置。
  19. 前記少なくとも1つのプロセッサは、更に、
    前記シミュレーションの出力を第1のニューラルネットワークに入力すること、
    を実行し、
    前記第1のニューラルネットワークは、前記シミュレーションの結果が、前記変化後の前記仮想世界の状態に近づくように訓練されたものである、
    請求項18に記載の情報処理装置。
  20. 前記少なくとも1つのプロセッサは、
    前記仮想世界の状態と、前記環境変数と、制御方法に関する情報とに基づいて、前記シミュレーションを実行する、
    請求項18または19に記載の情報処理装置。
  21. 前記環境変数は、物体に関する情報を含む、
    請求項18乃至20のいずれか1項に記載の情報処理装置。
  22. 前記シミュレーションは微分可能なシミュレーションである、
    請求項18乃至21のいずれか1項に記載の情報処理装置。
  23. 少なくとも1つのメモリと、
    少なくとも1つのプロセッサと、を備え、
    前記少なくとも1つのプロセッサは、
    仮想世界の状態と、環境変数とを第1のニューラルネットワークに入力して、制御方法に関する情報を出力することと、
    前記仮想世界の状態と、前記環境変数と、前記制御方法に関する情報とに基づいて、前記制御方法に基づいて対象を制御した後の前記仮想世界の状態をシミュレーションすることと、
    を実行し、
    前記第1のニューラルネットワークは、前記仮想世界の状態のシミュレーションの結果に基づいて訓練されたものである、
    情報処理装置。
  24. 前記第1のニューラルネットワークは、前記シミュレーションの結果に基づいて算出された報酬に基づいて訓練されたものである、
    請求項23に記載の情報処理装置。
  25. 前記シミュレーションは、微分可能なシミュレーションである、
    請求項23または24に記載の情報処理装置。
  26. 前記環境変数は、前記対象に関する情報を含む、
    請求項23乃至25のいずれか1項に記載の情報処理装置。
  27. 少なくとも1つのメモリと、
    少なくとも1つのプロセッサと、を備え、
    前記少なくとも1つのプロセッサは、現実世界の観測結果に関する情報を請求項23乃至26のいずれか1項に記載の情報処理装置に送信することと、
    前記情報処理装置から前記現実世界における制御方法に関する情報を受信することと、
    前記制御方法に関する情報に基づいて、前記現実世界において対象を制御することと、
    を実行する、
    制御装置。
  28. 現実世界の観測結果を取得するセンサ装置と、
    前記現実世界で駆動する駆動装置と、
    請求項27に記載の制御装置と、を備え、
    前記駆動装置は、前記制御装置が取得した前記制御方法に関する情報に基づいて動作する、
    装置。
JP2019037752A 2019-03-01 2019-03-01 情報処理装置、方法及びプログラム Active JP7336856B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019037752A JP7336856B2 (ja) 2019-03-01 2019-03-01 情報処理装置、方法及びプログラム
PCT/JP2020/003419 WO2020179299A1 (ja) 2019-03-01 2020-01-30 情報処理装置及び情報処理方法
US17/446,347 US20210387343A1 (en) 2019-03-01 2021-08-30 Information processing device and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019037752A JP7336856B2 (ja) 2019-03-01 2019-03-01 情報処理装置、方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2020140641A JP2020140641A (ja) 2020-09-03
JP2020140641A5 true JP2020140641A5 (ja) 2022-03-03
JP7336856B2 JP7336856B2 (ja) 2023-09-01

Family

ID=72265025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019037752A Active JP7336856B2 (ja) 2019-03-01 2019-03-01 情報処理装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20210387343A1 (ja)
JP (1) JP7336856B2 (ja)
WO (1) WO2020179299A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3587046A1 (de) * 2018-06-28 2020-01-01 Siemens Aktiengesellschaft Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems
US11645498B2 (en) * 2019-09-25 2023-05-09 International Business Machines Corporation Semi-supervised reinforcement learning
US11921492B2 (en) 2021-03-30 2024-03-05 Mitsubishi Electric Research Laboratories, Inc. Transfer between tasks in different domains

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
US10303825B2 (en) * 2015-12-28 2019-05-28 Dassault Systemes Simulia Corp. Convergence estimation of non-linear PDE and linear solvers
WO2017201220A1 (en) * 2016-05-20 2017-11-23 Google Llc Reinforcement learning using pseudo-counts
JP6457472B2 (ja) * 2016-12-14 2019-01-23 ファナック株式会社 制御システム及び機械学習装置
JP2018126796A (ja) * 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
JP2018144155A (ja) * 2017-03-03 2018-09-20 株式会社キーエンス ロボットシミュレーション装置、ロボットシミュレーション方法、ロボットシミュレーションプログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法

Similar Documents

Publication Publication Date Title
US11429854B2 (en) Method and device for a computerized mechanical device
CN109726813A (zh) 任务的强化和模仿学习
JP2020140641A5 (ja) 情報処理装置、方法、制御装置及び装置
WO2020227383A8 (en) Combining machine learning with domain knowledge and first principles for modeling in the process industries
US11669056B2 (en) Generation of a control system for a target system
JP2016012191A5 (ja)
JP2015011722A5 (ja)
JP2016530630A (ja) ニューラルデバイスのトレーニングを調節するための方法および装置
RU2017123529A (ru) Способ моделирования движения манипулятора
US11250726B2 (en) System for simulation of soft bodies
JP2020201677A5 (ja)
JP2019139295A5 (ja) 情報処理方法、情報処理装置およびプログラム
CN110328668A (zh) 基于速度平滑确定性策略梯度的机械臂路径规划方法
JP2019185127A5 (ja) ニューラルネットワークの学習装置およびその制御方法
JP2018081350A5 (ja)
JPWO2019225011A1 (ja) 学習装置、情報処理システム、学習方法、および学習プログラム
CN110188039A (zh) 软件测试、软件优化的方法与系统
Chen et al. Modeling Sensorimotor Adaptation in Speech Through Alterations to Forward and Inverse Models.
JPWO2021090518A5 (ja) 学習装置、学習方法、及び、プログラム
WO2023021208A4 (en) Support tools for av testing
JP7084520B2 (ja) シミュレーション装置、シミュレーション方法およびシミュレーションプログラム
Wu et al. Infer and adapt: Bipedal locomotion reward learning from demonstrations via inverse reinforcement learning
JP2017513110A (ja) ニューロモーフィックモデル開発のためのコンテキストリアルタイムフィードバック
CN107991878A (zh) 一种基于深度信念网络的混沌追踪控制方法
Hussein et al. Deep imitation learning with memory for robocup soccer simulation