JP2020095471A - 推定装置、訓練装置、推定方法及び訓練方法 - Google Patents

推定装置、訓練装置、推定方法及び訓練方法 Download PDF

Info

Publication number
JP2020095471A
JP2020095471A JP2018232760A JP2018232760A JP2020095471A JP 2020095471 A JP2020095471 A JP 2020095471A JP 2018232760 A JP2018232760 A JP 2018232760A JP 2018232760 A JP2018232760 A JP 2018232760A JP 2020095471 A JP2020095471 A JP 2020095471A
Authority
JP
Japan
Prior art keywords
network
state
data
control information
outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018232760A
Other languages
English (en)
Other versions
JP7246175B2 (ja
Inventor
健人 河原塚
Kento KAWAHARAZUKA
健人 河原塚
小川 徹
Toru Ogawa
徹 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Priority to JP2018232760A priority Critical patent/JP7246175B2/ja
Priority to PCT/JP2019/045331 priority patent/WO2020121755A1/ja
Publication of JP2020095471A publication Critical patent/JP2020095471A/ja
Priority to US17/345,913 priority patent/US20210302926A1/en
Application granted granted Critical
Publication of JP7246175B2 publication Critical patent/JP7246175B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/047Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators the criterion being a time optimal performance criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32343Derive control behaviour, decisions from simulation, behaviour modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Manufacturing & Machinery (AREA)
  • Fuzzy Systems (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

【課題】多自由度を有する物体に対する動的な制御情報を推定する。【解決手段】推定装置は、物体の状態に関するデータと、前記物体に与えられる制御情報候補に基づいたデータを出力する、第2ネットワークと、前記第2ネットワークにより出力されたデータから、前記制御情報候補に基づいた制御が与えられた将来の前記物体の状態を示すデータを出力する、第3ネットワークと、前記第3ネットワークの出力に基づいて、前記第3ネットワークを逆伝播させてターゲット状態となるような制御情報を出力させる、逆伝播部と、を備える。【選択図】図2

Description

本発明は、推定装置、訓練装置、推定方法及び訓練方法に関する。
従来、物体操作について盛んに研究が行われている。その中でも柔軟物体操作は、ロボットマニピュレーションの難しい問題の1つである。これまでの研究では、物体状態、幾何関係を推定し、現状の幾何関係から所望の幾何関係となるように次の動作を決定していく。これらの動作に機械学習を用いてモデリングを構築する手法も多く研究されている。しかしながら、特に柔軟物の操作に関して、従来手法でモデルを訓練及び推定するのが困難であった。
"Survey on model-based manipulation planning of deformable objects," P. Jimenez, Robotics and computer-integrated manufacturing, vol. 28, no. 2, p.154-p.163, 2012
そこで、物体、特に多自由度を有する物体に対する制御情報を推定する推定装置、当該推定装置を訓練する訓練装置、推定方法及び訓練方法を提供する。
一実施形態によれば、推定装置は、物体の状態に関するデータと、前記物体に与えられる制御情報候補に基づいたデータを出力する、第2ネットワークと、前記第2ネットワークにより出力されたデータから、前記制御情報候補に基づいた制御が与えられた将来の前記物体の状態を示すデータを出力する、第3ネットワークと、前記第3ネットワークの出力に基づいて、前記第3ネットワークを逆伝播させてターゲット状態となるような制御情報を出力させる、逆伝播部と、を備える。
一実施形態に係る装置の状態を示す図。 一実施形態に係る推定装置の機能を示すブロック図。 一実施形態に係る推定装置の実装例を示す図。 一実施形態に係る推定装置の処理の流れを示すフローチャート。 一実施形態に係る訓練装置の機能を示すブロック図。 一実施形態に係る訓練装置の処理の流れを示すフローチャート。 一実施形態に係る推定装置の実験結果を示す図。 一実施形態に係る推定装置の実験結果を示す図。 一実施形態に係るハードウェア実装例を示す図。
以下、図面を参照して本実施形態について詳しく説明する。
図1は、一実施形態に係る全体像を概念的に示す図である。本実地形態に係る推定装置は、物体、特に、多自由度の物体(柔軟性を有する物体)を所望の形状にするには、物体の任意の所定の位置においてどのようなトルクを与えればよいかを予測する。図1の例では、一端がトルクを与える制御装置に固定されている柔軟物体にどのようなトルクを与えるとターゲットに近い状態になるかを示す図である。過去のある時点での状態において、当該過去の物体の状態及びターゲットの状態と、トルクの情報を推定装置に入力することにより、現在の状態でターゲットに近い物体の形状となる。
なお、トルクを与える物体として本実施形態では多自由度の物体としているが、これは、複数の関節を有する物体と言うことである。この関節の数は、1以上の数であればよい。なお、紐や布等の柔軟物は多関節の物体(すなわち多自由度の物体)とみなすことができる。また、関節を有しない物体(剛体)に対しても同様に与えるトルクの推定をすることができる。すなわち、1又は複数の関節を有する物体に対して本実施形態に係る推定装置によるトルクの推定を行うことが可能である。
図2は、ターゲットとなる形状となるために物体に与えるトルクを推定する推定装置1の機能を示すブロック図である。推定装置1は、入力部100と、第1ネットワーク102と、第2ネットワーク104と、時系列データ生成部106と、第3ネットワーク108と、損失算出部110と、逆伝播部112と、出力部114と、を備える。
入力部100は、現在の物体の状態を示すデータの入力を受け付ける。物体は、1又は複数の自由度(関節)を有する物体であり、これらの各関節で接続された物体の状態を示すデータが入力される。例えば、入力部100は、物体の状態を示すデータとして、物体を撮影した画像データが入力される。さらに、画像データに併せて、物体の速度情報を示すオプティカルフローのデータが入力されてもよい。以下の説明においては、物体の状態を示すデータとして、物体の画像及びオプティカルフローが入力される。また、多自由度の物体の場合、各関節の接続状態、より詳しくは、各関節により関節間の枝がどのように接続されるかを示す値が入力されてもよい。各関節の接続状態は、例えば、ジョイントステート(Joint state)である。
第1ネットワーク102は、多自由度の物体の状態を示すデータが入力されると、入力されたデータの特徴を示すデータを出力するネットワークであり、機械学習による訓練によって最適化されるネットワークである。第1ネットワーク102は、例えば、入力層の次元よりも出力層の次元の方が小さく形成され、入力されたデータの集約された特徴量を抽出するのに適したネットワークであり、CNN(Convolutional neural network)の畳み込み層を備えて形成される。この場合、第1ネットワーク102は、所謂エンコーダである。第1ネットワーク102に備えられるネットワークは、CNNによるものには限られず、MLP(Multilayer perceptron)等の他のネットワークにより形成されていてもよい。
第2ネットワーク104は、第1ネットワーク102が出力した特徴量と、物体を制御する所定時間内における時系列の情報とが入力されると、これらのデータを混合したデータを出力するネットワークであり、機械学習による訓練によって最適化されるネットワークである。例えば、エンコーダとデコーダとの間にある中間層により形成される。第2ネットワーク104は、例えば、物体を制御する時系列の情報として各関節に与えられるトルク及び各関節間の接続状況を示すジョイントステートとが入力され、第1ネットワーク102の出力とこれらのデータとを混合されたデータを出力する。
時系列データ生成部106は、第2ネットワーク104に入力される物体を制御する時系列のデータである、制御情報候補を生成する。例えば、初期状態においては、時系列データは、乱数又は所定値により初期化される。既に推定装置1において推定が開始されている場合には、1単位時間前に推定された値に基づいて時系列データを生成する。生成されたデータは、第2ネットワーク104へと入力され、第1ネットワーク102が出力したデータと混合されて第3ネットワーク108へと入力される。
第3ネットワーク108は、第2ネットワーク104が出力したデータが入力されると、推定された所定時間後の物体の状態を示すデータを出力する。すなわち、第3ネットワーク108は、制御情報候補に基づいた制御を行った場合に、将来の物体の状態がどのようになるかを推定する。本実施形態においては、この制御情報候補をもとに実際に物体を制御するための制御情報が選択される。ここでいう物体の状態を示すデータは、例えば、物体がどのような位置、形状となっているかを示す画像である。以下の説明において、この制御情報候補を、単に制御情報、又は、時系列データ、等と記載することがある。
損失算出部110は、第3ネットワーク108が出力した物体の状態を示すデータと、ターゲットのデータとに基づいて、損失を算出する。この損失は、例えば、一般的な機械学習で行われている手法により求められてもよい。
逆伝播部112は、損失算出部110が算出した損失を第3ネットワーク108に逆伝播させ、どのようなデータが第3ネットワーク108に入力されると、損失が小さくなるか、すなわち、どのような入力をすれば、よりターゲットに近い状態になるかを算出する。逆伝播部112は、算出された損失の時系列データによる勾配を求め、当該勾配に基づいて時系列データを更新する。出力されたデータは、例えば、トルクの発生器に入力される。
このように、エンコーダに対応する第1ネットワーク102と、中間層に対応する第2ネットワーク104と、デコーダに対応する第3ネットワーク108と、を備えるネットワークにより、本実施形態に係るネットワークは形成される。
ここで、データの流れについて整理する。図2において、点線で示した経路は、推定装置1における第2ネットワーク104以降のデータの流れを示す。以下、単位時間を1フレームとし、時系列を生成する所定の時間をTフレームの間とし、tは、現時点での時刻を示すものとする。また、自由度の数、すなわち、関節(アクチュエータ)の数をMとする。一例として、物体は、3次元空間中、平面(2次元)内で動くものとする。3次元空間を動く物体の場合には、例えば、以下に述べる画像、ジョイントステート等の入力の次元を適切に増減してもよい。また、ネットワークの状態についても一例として記載しているものであり、本発明の技術的範囲を限定するものではない。
入力部100には、時刻tにおける物体の画像(2次元)と、オプティカルフロー(2次元)が入力され、これとは別に、時刻t(現時刻におけるフレーム)におけるジョイントステート(M次元)の情報が入力される。
第1ネットワーク102には、画像とオプティカルフローが入力され、特徴量マップを出力する。第2ネットワーク104は、この特徴量マップと、ジョイントステート、及び、時系列データ生成部106により生成された時刻t〜t+T−1の間に物体に与えられるトルクデータとを結合して新たな特徴量として出力する。第2ネットワーク104は、この結合前に、あらかじめ第1ネットワーク102が出力した特徴量マップの次元を、全結合層を介して削減してもよい。
結合したデータは、第3ネットワーク108に入力され、第2ネットワーク104に入力された時系列データで示されるトルクを物体に与えた場合に、時刻t+Tにおいて物体がどのような状態になっているかを示す推定画像を出力する。損失算出部110は、ターゲットとなる物体の形状を表す画像と、第3ネットワーク108が出力した画像とを比較することにより損失を算出する。逆伝播部112は、損失の時系列データに対する勾配を算出して時系列データを更新する。これらの処理は、N個のバッチにより並列に処理される。トルクの時系列データがバッチごとに異なるので、それぞれ異なるトルクの時系列データとして更新される。
第2ネットワーク104は、更新された時系列データが入力され、混合データを出力し、第3ネットワーク108は、混合データが入力され、損失算出部110により損失が算出される。ここで、バッチごとの損失を比較し、一番損失の低いバッチにおけるトルクの時系列データを出力部114から出力する。求められた時系列データは、時系列データ生成部106へと入力され、時刻t+1における時系列データが生成される。
すなわち、各バッチにおいて求められた時系列データのうち、損失が一番低い時系列データが時系列データ生成部106へと入力される。これにより、時刻tの単位時間後の時刻t+1においては、各バッチには時刻tにおいて損失の低かった時系列データに基づいて生成された時系列データが入力される。このように、単位時間ごとにバッチごとに算出された時系列データ(時刻tにおける損失の低い時系列データ)を用いて、第2ネットワーク104に入力する時系列データ(時刻t+1における時系列データ)が生成される。
時刻t+1においては、時刻tで推定されたトルクにより制御された物体の画像、オプティカルフロー、そして、時刻tで推定されたトルクの時系列データにより時系列データ生成部106が生成した時系列データに基づいて、同様の処理を行う。
図3は、推定装置1の設置された状態の一例を示す図である。推定装置1は、例えば、カメラ等の情報取得装置3と接続される。情報取得装置3は、物体Objの可動空間内での状態を取得する。情報取得装置3は、例えば、RGBカメラ、RGBDカメラであるがこれら光学的なセンサには限られず、超音波センサ等、物体Objの特性に基づき適切に状態が取得可能なセンサ、キャプチャであればよい。
物体制御装置40は、推定装置1により制御された信号が伝えられ、当該信号に基づいて物体に力(トルクを含む)を加える装置である。物体制御装置40は、例えば、モータであり、推定装置1が推定した時系列のトルクを与えるように回転軸を回転させる。図中の矢印は、物体制御装置40の回転軸を示す。トルク付加部42は、物体制御装置40に接続され、物体Objにトルクを付加する。例えば、図に示すように、物体Objの一端についてトルクを付加して物体を制御する。なお、物体Objの一端に接続される場合には限られず、例えば、物体Objの中央付近にトルクを与えるものであってもよいし、物体の一点ではなく、さらに多くの点、面についてトルク又は力を加えるものであってもよい。また、トルク付加部42は、必ずしも必須ではなく、物体制御装置40が直接的にトルクを与えるものであってもよい。
推定装置1は、情報取得装置3からフレームごとに物体Objの位置情報等を示す画像を取得し、フレームごとに物体制御装置40から物体Objに与えられるトルクについての信号をリアルタイムに推定する。推定されたトルクに関する信号に基づいて物体制御装置40は、物体Objを制御するためのトルクを与えるようにトルク付加部42を制御する。このように、ターゲットの状態、形状となるように、推定装置1は、現在の状態に基づいて制御信号を出力する。
ここで、リアルタイム(実時間)とは、情報科学、情報工学等における一般的な意味で使用されている。例えば、1フレームごとにデータの入出力処理が実行される場合には、当該フレームに掛かる所定の時間(1/30秒、1/60秒と言った時間)のことを示す。さらには、1/30秒といった時間に対応するためのマージンを持たせた30ミリ秒といった時間を示す。これらの数値は一例として示したものであり、コンピュータ及びその周辺機器の少なくとも1つに対応する時間として示されるものであればよい。また、この所定の時間よりも遅くてもよく、この場合、次の制御に間に合う時間、又は、次の制御において予測された制動と大きく異ならないような遅れを持つ時間を意味してもよい。例えば、現フレームにおける処理が、現フレーム、又は、1〜3フレーム後等に制御を実行できる状態を意味してもよい。
物体の姿勢をθとすると、物体の運動方程式は、M(θ)dθ/dt+c(θ,dθ/dt)+g(θ)=τとして表すことができる。ここで、dθ/dtは、物体の速度、dθ/dtは、物体の加速度、τは、関節トルク、Mは、慣性行列、cは、遠心力、コリオリ力、粘性摩擦等、Gは、重力負荷トルクを表す。本実施形態では、ネットワークは、この運動方程式の解を近似的に求めるものである。
図4は、推定装置1の推定の処理の流れを示すフローチャートである。この図4を用いて、上述した処理をステップごとに詳しく説明する。このフローチャートは、特に、1フレーム内における処理を示したものであり、上述したように、次のフレームでは現フレームにおいて推定された時系列データに基づいて時系列データが生成される。
以下の処理は、特に記載しない限り、N個のバッチ内で各々実行される。バッチには、それぞれ、例えば、0,1,・・・,n,・・・,Nといった整数値によるIDが与えられる。また、物体に与えることのできるトルクの最小値をτminとし、最大値をτmaxとする。例えば、モータが右回りのトルクと左回りのトルクを同じ大きさ程度に与えられる場合には、トルクを与えていない状態を0として、τmin=−τmaxとして表される。説明中における、「以下」「以上」等の表現は、適宜「より小さい」「より大きい」と言い換えることが可能であり、逆も同様である。
まず、推定装置1に入力部100を介して状態データが入力される(S100)。状態データは、例えば、多関節を有する多自由度の物体の現在の状態をカメラ等で撮影した画像と、当該画像と1フレーム前の画像から算出されたオプティカルフローのデータである。物体の運動が2次元である場合には、通常のカメラで撮像されたデータが入力される。また、各関節の接続状態を示すジョイントステートもまた入力される。
これには限られず、例えば、3次元空間内を自由に動くことが可能である物体の場合には、RGBDカメラを用いて、デプスマップを取得し、当該デプスマップをも入力してもよい。また、入力画像は、RGBで示された3チャネル、RGBDで示された4チャネル等の画像であってもよいし、RGBデータからグレースケール化した1チャネル、RGBDデータからデプスマップの影響をも加味した1チャネル又は2チャネルの画像であってもよい。さらに、これらの画像を2値化した画像であってもよい。また、これらの画像は、適切にクロップ処理、リサイズ処理が事前に施されていてもよいし、入力部100において、適切にこれらの処理を行うものであってもよい。以下において、入力画像は2値化されたものとして説明するが、これは本発明を限定するものではない。
次に、時系列データ生成部106は、トルクの時系列情報τts={τts ,τts t+1,・・・,τts t+T−1}を生成する(S102)。初期状態においては、例えば、Rを[τmin,τmax]の乱数値として、τts={R,・・・,RT−1}=Random(N)とする。別の例としては、c=[(N−1−n)τmin+n・τmax]/(N−1)なる所定値により、τts={c,・・・,c}=Constant(N)となるような、一定値からなる時系列を生成する。
すでに前のフレームにおいてトルクの時系列情報が得られている場合には、例えば、現在の時刻をt、得られている時系列情報がt’における情報である場合には、得られている時系列情報{τt’,τt’+1,・・・,τt’+T−1}をシフトして、τts={τt’+1,τt’+2,・・・,τt’+T−1,τt’+T−1}として時系列情報を生成する。さらに、より柔軟性を持たせるためにこのシフトした値に、乱数値を加えてもよい。例えば、αを定数として、上記のシフトした値に[(τmin+τmax)/2+α・τmin]のランダムノイズrを付加した時系列をトルクの時系列、すなわち、τts={τt’+1+r,τt’+2+r,・・・,τt’+T−1+rt−2,τt’+T−1+rt−1}=Shift(N,α)としてもよい。例えば、α=0.25であるがこれには限られない。
別の例として、上記で得られたConstantとShiftを混合したものであってもよい。すなわち、Nconstantを所定値として、τts=Constant(Nconstant)+Shift(N−Nconstant,α)=Mixed(N,Nconstant,α)としてもよい。この場合、τtsの各成分について、[τmin,τmax]の範囲に無い場合にはクリッピング処理を行ってもよい。
次に、S100で入力された画像とオプティカルフローを第1ネットワーク102に入力して、現時刻tにおける物体の状態を示す特徴量マップを取得する(S104)。なお、S102のステップは、S100の前であってもよいし、このS104の後であってもよい。S106の前に実行され、適切に第2ネットワーク104へと時系列データが入力できるものであれば、生成のタイミングは特に問わない。
次に、S104で出力された特徴量マップと、S100で入力されたジョイントステートと、S102で生成された時系列データを第2ネットワーク104に入力して、時系列データと特徴量マップとを混合したデータを取得する(S106)。一例として、第2ネットワーク104には、まず、第1ネットワーク102が出力した特徴量マップが入力され、この特徴量マップを全結合により変換する。この全結合されたデータと、時系列データと、ジョイントステートと、の入力を受け付ける層が第2ネットワーク104に設けられ、この層に、これらのデータを入力することにより、出力層から混合されたデータが出力される。
次に、S106で出力された混合データを第3ネットワーク108に入力して、Tフレーム後(時刻t+T)における予測された物体の状態を示す画像を出力する(S108)。この一連の流れのように、第1ネットワーク102は、入力データを特徴量マップに変換するエンコーダ、第2ネットワーク104は、特徴量マップに処理を加える中間層、第3ネットワーク108は、中間層において処理されたデータを復号するデコーダとして機能してもよい。
次に、取得された予測画像と、ターゲット画像とが損失算出部110に入力され、予測画像の損失が算出される(S110)。一例として、損失Lossは、望ましい物体の状態を示すターゲット画像をS、予測された物体の状態を示す予測画像をS、βを所定値として、以下のように示される。S’=1.0−tanh(β×DT(1−S))、Loss=MSE(S−S’)。ここで、tanhは、ハイパボリックタンジェント、MSEは、平均二乗誤差、DTは、距離変換である。例えば、β=0.5であるがこれには限られない。
tanhは、シグモイド関数、ReLU等の他の活性化関数として用いられる関数で変換することも可能である。この場合、上記式中で具体的に示されている数値は、用いる関数に基づいて変更してもよい。
距離変換画像は、各画素値に対して直近の物体以外である画素までの距離を表す画像であり、例えば、1ピクセル(隣接する画素間のピッチ)の距離を単位距離として与えられる。すなわち、物体が存在していない画素の値として0が、物体が存在する画素の値として、当該画素から一番近い0の値を有する画素までの距離を示す画像である。
βは、小さい程ターゲット画像により類似していないと許容せず、大きいほどターゲット画像に類似していない場合も許容するように機能する。例えば、βが0であれば、ターゲット画像そのものと、推定画像との画素ごとの平均2乗誤差を取ることとなる。このように、βを設定することにより、画像をぼかし、位置ズレに対する感度を抑制し、推定の結果が鋭くなりすぎないようにする。
次に、逆伝播部112は、損失算出部110が算出した損失Lossのτtsに対する勾配を算出し、第3ネットワーク108を逆伝播させる(S112)。勾配は、g=dLoss/dτtsとして求めることが可能である。
次に、逆伝播部112は、求めた勾配gに基づいて、時系列データを推定する(S114)。推定された時系列データτts optは、τts opt=τts−γg/|g|として算出することができる。γは、最適化の係数を示す所定の値である。例えば、γ=0.125(τmax−τmin)であるが、これには限られない。
次に、逆伝播部112が逆伝播により推定した時系列データτts optを再度第2ネットワーク及び第3ネットワークに入力し、推定データについての損失を算出する(S116)。損失の算出方法は、S110と同様の式を用いる。
次に、出力部114は、求められた推定された時系列データτts optについての損失が、生成された時系列データτtsについての損失よりも小さい場合には、τts optを推定結果として出力し、そうでは無い場合には、τtsを推定結果として出力する(S118)。
ここで複数のバッチを使用している場合には、S112以降の処理は、S110で求められた損失が一番小さいバッチにおいて生成された時系列データだけに適用してもよい。すなわち、各バッチにおいてS110の処理の後、損失が一番小さくなるバッチの結果を抽出し、当該バッチの生成したτtsに基づいてS112からS118の処理を行ってもよい。
別の例として、各バッチにおいて、S116までの処理をした後に、各バッチにおける生成した時系列データ及び推定した時系列データのうち、最も損失が小さくなる結果を抽出して、出力部114が出力するようにしてもよい。
出力部114が出力したトルクの情報を、物体制御装置40へと送信することにより、物体Objの制御が行われる。
以上のように、本実施形態によれば、物体、特に多自由度、すなわち、多関節を有する物体について、ターゲット状態になるように動的な制御を行うことが可能となる。このように、時系列データを取得するための逆伝播を第1ネットワーク102については行わず、第3ネットワーク108について行うことにより、より高いフレームレートにおいても実時間で推定を行うことできる。また、本実施形態によれば、動的に動作させなければ実現できないタスクである、動的動作のモデリングすることが可能となる。動的に動作を生成することは、動的動作が静的動作に対して圧倒的にモデリングすること、かつ、機械学習によるモデリングを実機の実時間ベース制御に適用することが困難であるため、余り行われていなかった。本実施形態によれば、このような連続的、動的に動作させなければ実現できないタスクについても訓練を適用することが可能となる。
なお、物体がターゲット状態になるとは、理想的には物体がターゲット画像で示される状態、より詳細には物体を撮影した画像とターゲット画像とが同じ状態となることをいうが、許容できる程度に物体又は物体を撮影した画像がターゲット画像と類似した状態となることも含む。
次に、本実施形態に係る推定装置1を訓練するための訓練装置2について説明する。
図5は、訓練装置2の機能を示すブロック図である。訓練装置2は、例えば、推定装置1に備えられている第1ネットワーク102と、第2ネットワーク104と、第3ネットワーク108と、のパラメータを訓練する訓練装置であり、さらに、勾配算出部200と、ネットワーク更新部202と、記憶部204と、を備える。
勾配算出部200は、損失算出部110が算出した損失の勾配を算出する。なお、損失算出部110として、上述した推定装置1と同様のものが記載されているが、これには限られず、ネットワーク訓練用の損失算出部を備えていてもよい。すなわち、訓練装置2と推定装置1の損失算出部は、異なるものであってもよい。
ネットワーク更新部202は、勾配算出部200により求められた勾配に基づいて、逆伝播を行い各ネットワークの更新を行う。例えば、第3ネットワーク108の出力層から順に第3ネットワーク108の入力層までのネットワークの更新を行い、続いて、好ましくは第2ネットワーク104、第1ネットワーク102、と逆伝播を行って、ネットワークの更新を行う。このように、推定とは異なり、リアルタイム性の要求が低い訓練の段階については、第3ネットワークにとどまらず、第2ネットワーク又は/及び第1ネットワークに逆伝播が行われ、ネットワークの更新が行われることが好ましい。
逆伝播により更新されたネットワークを用いて、再度順伝播を行い、損失を算出し、算出された損失に基づいて、逆伝播が行われ、ネットワーク更新部202がネットワークの更新を行う。この訓練には、一般的な機械学習手法が用いられる。訓練が終了した段階で、各ネットワークのパラメータは、記憶部204に記憶される。なお、記憶部204は、他のモジュールと同じハードウェア内に備えられていてもよいし、ネットワーク等を介した他のデータベース等であってもよい。
図6は、本実施形態に係る訓練装置2の処理の流れを示すフローチャートである。
まず、入力部100を介して訓練装置2に訓練データが入力される(S200)。訓練データは、例えば、ある時刻で撮影された物体の状態を示す画像と、当該画像が取得されたタイミングにおいて物体制御装置40から物体に対して与えられたトルクの所定時間内の時系列情報と、関節間の接続情報を示すジョイントステートと、この制御が行われた所定の時刻(フレーム)が経過した後の物体の状態を示す画像である。物体の状態を示す画像は、動画であってもよいし、一連の静止画であってもよい。動画である場合には、入力された後に静止画に変換されてもよい。また、開始時刻におけるオプティカルフローを求めるため、開始時刻の1フレーム前の画像を入力してもよいし、あらかじめ計算されたオプティカルフローが入力されてもよい。
動画である場合には、訓練装置2内で適切に所定時間分のフレームを、この開始フレームから所定時間分の制御情報と併せて抽出してもよい。このように、一連の動きを示す動画と当該動画に対応する制御の時系列情報とを紐付けておけば、動画内の任意の時刻からの情報を取得することが可能である。動画と制御の時系列情報とを訓練装置2内で処理する場合には、動画処理部を備えていてもよく、この場合、入力されるデータは、データベース等のメモリから転送されるものであってもよい。この動画処理部は、訓練装置2の外がわにあってもよく、この場合、開始時刻の画像、Tフレーム後の画像、そして、開始時刻からTフレーム分の時系列の制御情報が入力部100から入力されてもよい。もちろん元となるデータは動画である必要は無く、開始時刻とそのTフレーム後において撮影された静止画と、開始時刻からの時系列情報であってもよい。
すなわち、訓練データとしては、制御がTフレーム分行われた場合に、開始時刻とTフレーム後の時刻においてどのような物体の状態に遷移しているかを示すデータがあれば十分である。このために、上記のように、動画からデータを抽出することもできる。動画からデータを抽出することにより、例えば、所定時刻よりも十分に長い時間において撮影された動画から、任意の箇所を抽出して、多数の訓練データを取得することも可能である。
入力部100に入力された開始時刻の画像と、開始時刻と1フレーム前の画像とから算出されたオプティカルフローとを第1ネットワーク102へと、ジョイントステートと時系列データを第2ネットワーク104へと、Tフレーム後の状態を示す画像を正解データとして損失算出部110へと送信する。
次に、各モジュールへと入力されたデータに基づいて、上述した推定装置1と同様にS104からS110の処理が行われる。ただし、S106においては、生成された時系列ではなく、入力部100から入力された時系列データが入力され、S110においては、比較対象となるデータは、訓練データとして入力された開始時刻からTフレーム目の画像である。このように、訓練装置2においては、入力された物体の状態に対して入力された時系列データの制御を与えた場合に、どのような画像になるかをネットワークに予測させ、当該予測された物体の状態と、正解の状態とを比較して損失を算出する。
次に、勾配算出部200は、正解データと、予測データとの損失の勾配を算出し、第3ネットワークから逆順に逆伝播させる(S202)。
逆伝播の実行とともに、ネットワーク更新部202が各ネットワークのパラメータを更新する(S204)。この逆伝播及びパラメータの更新は、一般的な訓練手法を用いてもよいし、本実施形態に特化した訓練手法を用いてもよい。
次に、ネットワーク更新部202は、更新したネットワークについて訓練が終了したか否かを判断する(S206)。終了の判断についても、一般的な訓練手法に基づいていてもよい。終了条件は、例えば、計算された損失が所定の値より小さくなった、所定のエポック数の訓練が終了した、バリデーションの評価が所定の値より大きくなった、等である。
訓練が終了したと判断された場合(S206:YES)、訓練を終了し、記憶部204にネットワークのパラメータを出力して処理を終了する。
訓練が終了していないと判断された場合(S206:NO)、更新された各ネットワークを用いてS104からの処理を繰り返す。
以上のように、訓練装置2により入力された物体の状態と物体を制御する時系列データから、実際に制御された後の物体の状態を予測するネットワークを形成することにより、上述した推定装置1のように、現在の物体の状態からどのような時系列の制御を行えばよりターゲットに近い状態になるかを予測することが可能となる。
次に、本実施形態に係る推定装置1を用いた結果を記載する。ターゲット状態と推定されたトルクにより制御された状態との類似度を示す指標として、SCD(Symmetric Chamfer Distance)を用いた。SCDは、S、Sを比較する場合に、SCD(S,S)=Sum(S×DT(1−S)+S×DT(1−S))として表される。
図7及び図8は、図3の系で行った実験結果を示す図である。各図において上段の一番左がターゲット画像である。図中の1で示される状態から、トルクを制御することにより、2の状態を介して、3の状態へと遷移する。3における物体の状態は、ターゲットの状態と近くなっている。
下段の図は、時系列の制御をした場合におけるSCDを示すグラフである。縦軸は、Chamfer Distanceを示し、横軸は、時間を示す。矢印で示されている箇所がターゲットと近い状態になっている時間であり、この時間が長いほどよい推測ができている。図7及び図8から分かるように、本実施形態においては、ターゲットに近い状態が長く続いている。図7のように、ターゲットとして、柔軟な物体が直線的な状態においても、図8のように、湾曲している状態においても、制御ができている。
本実験においては、2次元空間内についての動作について述べているが、3次元空間についても実装することが可能である。これにより、例えば、ロボットが動的に洋服等をたたんだりするような制御を行うことが可能となる。
前述した実施形態における推定装置1及び訓練装置2において、各機能は、アナログ回路、デジタル回路又はアナログ・デジタル混合回路で構成された回路であってもよい。また、各機能の制御を行う制御回路を備えていてもよい。各回路の実装は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等によるものであってもよい。
上記の全ての記載において、推定装置1及び訓練装置2の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU(Central Processing Unit)等が実施をしてもよい。ソフトウェアで構成される場合には、推定装置1、訓練装置2及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、GPU(Graphics Processing Unit)等のアクセラレータを使用して行ってもよい。
例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。
図9は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。推定装置1及び訓練装置2は、プロセッサ71と、主記憶装置72と、補助記憶装置73と、ネットワークインタフェース74と、デバイスインタフェース75と、を備え、これらがバス76を介して接続されたコンピュータ装置7として実現できる。
なお、図9のコンピュータ装置7は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、1台のコンピュータ装置7が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。
プロセッサ71は、コンピュータの制御装置および演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ71は、コンピュータ装置7の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ71は、コンピュータ装置7のOS(Operating System)や、アプリケーションなどを実行することにより、コンピュータ装置7を構成する各構成要素を制御する。プロセッサ71は、上記の処理を行うことができれば特に限られるものではない。推定装置1、訓練装置2及びそれらの各構成要素は、プロセッサ71により実現される。ここで、処理回路とは、1チップ上に配置された1又は複数の電気回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電気回路を指してもよい。
主記憶装置72は、プロセッサ71が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置72に記憶された情報がプロセッサ71により直接読み出される。補助記憶装置73は、主記憶装置72以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。推定装置1及び訓練装置2内において各種データを保存するためのメモリ、例えば、記憶部204は、主記憶装置72または補助記憶装置73により実現されてもよい。例えば、前述した各記憶部の少なくとも一部は、この主記憶装置72又は補助記憶装置73に実装されていてもよい。別の例として、アクセラレータが備えられている場合には、前述した各記憶部の少なくとも一部は、当該アクセラレータに備えられているメモリ内に実装されていてもよい。
ネットワークインタフェース74は、無線または有線により、通信ネットワーク8に接続するためのインタフェースである。ネットワークインタフェース74は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース74により、通信ネットワーク8を介して通信接続された外部装置9Aと情報のやり取りが行われてもよい。
外部装置9Aは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、入力元デバイスなどが含まれる。また、外部装置9Aは、推定装置1及び訓練装置2の構成要素の一部の機能を有する装置でもよい。そして、コンピュータ装置7は、推定装置1及び訓練装置2の処理結果の一部を、クラウドサービスのように通信ネットワーク8を介して受け取ってもよい。
デバイスインタフェース75は、外部装置9Bと直接接続するUSB(Universal Serial Bus)などのインタフェースである。外部装置9Bは、外部記憶媒体でもよいし、ストレージ装置でもよい。各記憶部は、外部装置9Bにより実現されてもよい。
外部装置9Bは出力装置でもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声などを出力する装置などでもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、スピーカなどがあるが、これらに限られるものではない。
なお、外部装置9Bは入力装置でもよい。入力装置は、キーボード、マウス、タッチパネルなどのデバイスを備え、これらのデバイスにより入力された情報をコンピュータ装置7に与える。入力装置からの信号はプロセッサ71に出力される。
本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。
1:推定装置、100:入力部、102:第1ネットワーク、104:第2ネットワーク、106:時系列データ生成部、108:第3ネットワーク、110:損失算出部、112:逆伝播部、114:出力部、2:訓練装置、200:勾配算出部、202:ネットワーク更新部、204:記憶部、3:情報取得装置、40:物体制御装置、42:トルク付加部

Claims (16)

  1. 物体の状態に関するデータと、前記物体に与えられる制御情報候補と、に基づいたデータを出力する、第2ネットワークと、
    前記第2ネットワークにより出力されたデータから、前記制御情報候補に基づいた制御が与えられた将来の前記物体の状態を示すデータを出力する、第3ネットワークと、
    前記第3ネットワークの出力に基づいて、前記第3ネットワークを逆伝播させてターゲット状態となるような制御情報を出力させる、逆伝播部と、
    を備える推定装置。
  2. 前記第3ネットワークが出力したデータと、前記ターゲット状態との間の損失を算出する、損失算出部と、
    前記損失の勾配を算出する、勾配算出部と、
    をさらに備え、
    前記逆伝播部は、前記勾配を前記第3ネットワークについて逆伝播して、前記制御情報を出力させる、
    請求項1に記載の推定装置。
  3. 前記物体は、複数の自由度を有する、請求項1又は請求項2に記載の推定装置。
  4. 前記物体の状態から前記物体の特徴量を抽出する、第1ネットワークをさらに備え、
    前記第2ネットワークは、前記物体の特徴量と、前記制御情報候補と、に基づいたデータを出力する、請求項1乃至請求項3のいずれかに記載の推定装置。
  5. 前記第2ネットワークは、前記物体の情報に関するデータと、前記物体の状態から所定時間内に前記物体に与えられた制御情報と、を混合したデータを出力し、
    前記第3ネットワークは、前記所定時間内に前記物体に前記制御情報を与えた場合における前記物体の状態に関するデータを出力する、
    請求項1乃至請求項4のいずれかに記載の推定装置。
  6. 前記制御情報候補は、複数であり、前記第3ネットワークは複数の前記制御情報候補それぞれについて前記将来の物体の状態を示すデータを出力する、請求項1乃至請求項5のいずれかに記載の推定装置。
  7. 前記逆伝播部は、前記第3ネットワークに前記複数の制御情報候補を入力した結果と、前記ターゲット状態と、に基づいて選択された前記制御情報候補に対して逆伝播を実行し、前記選択された制御情報候補を更新する、請求項6に記載の推定装置。
  8. 前記物体の状態を示すデータは、前記物体の画像情報及び前記物体の速度情報である、請求項1乃至請求項7のいずれかに記載の推定装置。
  9. 前記第3ネットワークは、前記第2ネットワークに入力された前記制御情報候補を前記物体に与えた場合に推定される、前記物体の画像情報を出力し、
    前記損失算出部は、前記物体のターゲット状態を示す画像情報と、前記第3ネットワークが出力した前記物体の画像情報と、に基づいて前記損失を算出する、
    請求項2に記載の推定装置。
  10. 前記制御情報は、前記物体の所定点に与えられるトルクの情報である、請求項1乃至請求項9のいずれかに記載の推定装置。
  11. 前記第2ネットワークは、前記物体の状態に関するデータと、定数又は乱数に基づいた情報と、とに基づいて出力する、請求項1乃至請求項10のいずれかに記載の推定装置。
  12. リアルタイムに前記物体に与える時系列の制御情報を出力する、請求項1乃至請求項11のいずれかに記載の推定装置。
  13. 前記第2ネットワークは、単位時間前に出力された前記物体に与える時系列の制御情報候補に基づいて生成された前記制御情報候補を、前記物体の特徴量と混合して出力する、請求項6に記載の推定装置。
  14. 物体の状態を示すデータと、前記物体の状態から所定時間内に前記物体に与えられる時系列の制御情報候補と、に基づいたデータを出力する、第2ネットワークと、
    前記第2ネットワークが出力したデータから、前記所定時間後における前記物体の状態を示すデータを出力する、第3ネットワークと、
    前記物体のターゲット状態を示すデータと、前記第3ネットワークが出力したデータとの間の損失を算出する、損失算出部と、
    前記損失の勾配を算出する、勾配算出部と、
    前記損失及び前記勾配に基づいて、前記第3ネットワーク及び前記第2ネットワークについて逆伝播して、前記第3ネットワーク及び前記第2ネットワークを更新する、ネットワーク更新部と、
    を備える物体を制御する情報を出力するモデルを訓練する、訓練装置。
  15. 物体の状態に関するデータと、前記物体に与えられる制御情報候補と、に基づいたデータを出力し、
    出力されたデータから、前記制御情報候補に基づいた制御が与えられた将来の前記物体の状態を示すデータを出力し、
    前記物体の状態を示すデータに基づいて、逆伝播させてターゲット状態となるような制御情報を出力させる、
    推定方法。
  16. 第2ネットワークが、物体の状態を示すデータと、前記物体の状態から所定時間内に前記物体に与えられる時系列の制御情報と、に基づいたデータを出力し、
    第3ネットワークが、前記第2ネットワークが出力したデータから、前記所定時間後における前記物体の状態を示すデータを出力し、
    損失算出部が、前記物体のターゲット状態を示すデータと、前記第3ネットワークが出力したデータとの間の損失を算出し、
    勾配算出部が、前記損失の勾配を算出し、
    ネットワーク更新部が、前記損失及び前記勾配に基づいて、前記第3ネットワーク及び前記第2ネットワークについて逆伝播して、前記第3ネットワーク及び前記第2ネットワークを更新する、
    物体を制御する情報を出力するモデルを訓練する、訓練方法。
JP2018232760A 2018-12-12 2018-12-12 推定装置、訓練装置、推定方法及び訓練方法 Active JP7246175B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018232760A JP7246175B2 (ja) 2018-12-12 2018-12-12 推定装置、訓練装置、推定方法及び訓練方法
PCT/JP2019/045331 WO2020121755A1 (ja) 2018-12-12 2019-11-19 推定装置、訓練装置、推定方法及び訓練方法
US17/345,913 US20210302926A1 (en) 2018-12-12 2021-06-11 Inferring device, training device, inferring method, and training method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018232760A JP7246175B2 (ja) 2018-12-12 2018-12-12 推定装置、訓練装置、推定方法及び訓練方法

Publications (2)

Publication Number Publication Date
JP2020095471A true JP2020095471A (ja) 2020-06-18
JP7246175B2 JP7246175B2 (ja) 2023-03-27

Family

ID=71075489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018232760A Active JP7246175B2 (ja) 2018-12-12 2018-12-12 推定装置、訓練装置、推定方法及び訓練方法

Country Status (3)

Country Link
US (1) US20210302926A1 (ja)
JP (1) JP7246175B2 (ja)
WO (1) WO2020121755A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814396A (zh) * 2020-07-02 2020-10-23 重庆大学 一种基于迁移学习的离心风机故障预警方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114918912B (zh) * 2022-03-07 2024-08-30 网易灵动(杭州)科技有限公司 一种机械臂的控制方法、装置、电子设备以及存储介质
CN117724632B (zh) * 2023-06-26 2024-10-18 荣耀终端有限公司 一种数据处理方法、外接设备和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018030185A (ja) * 2016-08-23 2018-03-01 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習する機械学習器、ロボットシステムおよび機械学習方法
WO2018096902A1 (ja) * 2016-11-22 2018-05-31 パナソニックIpマネジメント株式会社 ピッキングシステム及びその制御方法
JP2018118353A (ja) * 2017-01-26 2018-08-02 ファナック株式会社 学習制御機能を備えた制御システム及び制御方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140309836A1 (en) * 2013-04-16 2014-10-16 Neya Systems, Llc Position Estimation and Vehicle Control in Autonomous Multi-Vehicle Convoys
US9330228B2 (en) * 2013-11-18 2016-05-03 Mentor Graphics Corporation Generating guiding patterns for directed self-assembly
JP6577522B2 (ja) * 2017-06-07 2019-09-18 ファナック株式会社 制御装置及び機械学習装置
GB201719594D0 (en) * 2017-11-24 2018-01-10 Saipem Spa Methods and apparatus relating to pipe welding
US10467820B2 (en) * 2018-01-24 2019-11-05 Google Llc Image style transfer for three-dimensional models
GB201801825D0 (en) * 2018-02-05 2018-03-21 Univ Of Sussex Control methods for optical systems
US20210107142A1 (en) * 2018-02-27 2021-04-15 Siemens Aktiengesellschaft Reinforcement learning for contact-rich tasks in automation systems
US11914350B2 (en) * 2018-08-09 2024-02-27 Siemens Aktiengesellschaft Manufacturing process control using constrained reinforcement machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018030185A (ja) * 2016-08-23 2018-03-01 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習する機械学習器、ロボットシステムおよび機械学習方法
WO2018096902A1 (ja) * 2016-11-22 2018-05-31 パナソニックIpマネジメント株式会社 ピッキングシステム及びその制御方法
JP2018118353A (ja) * 2017-01-26 2018-08-02 ファナック株式会社 学習制御機能を備えた制御システム及び制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814396A (zh) * 2020-07-02 2020-10-23 重庆大学 一种基于迁移学习的离心风机故障预警方法
CN111814396B (zh) * 2020-07-02 2024-02-20 重庆大学 一种基于迁移学习的离心风机故障预警方法

Also Published As

Publication number Publication date
WO2020121755A1 (ja) 2020-06-18
US20210302926A1 (en) 2021-09-30
JP7246175B2 (ja) 2023-03-27

Similar Documents

Publication Publication Date Title
JP7326911B2 (ja) 制御システムおよび制御方法
EP3549102B1 (en) Determining structure and motion in images using neural networks
JP6812538B2 (ja) イメージ深度予測ニューラルネットワーク
WO2020121755A1 (ja) 推定装置、訓練装置、推定方法及び訓練方法
US20210158162A1 (en) Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
US10037624B2 (en) Calibrating object shape
JP5750657B2 (ja) 強化学習装置、制御装置、および強化学習方法
EP3847619B1 (en) Unsupervised depth prediction neural networks
EP3899797A1 (en) Multi-agent reinforcement learning with matchmaking policies
CN112733820B (zh) 障碍物信息生成方法、装置、电子设备和计算机可读介质
JP7052788B2 (ja) カメラパラメータ推定装置、カメラパラメータ推定方法、及びプログラム
JP2022543926A (ja) ロボットシステムのためのデリバティブフリーモデル学習のシステムおよび設計
WO2020017266A1 (ja) シミュレーション装置、シミュレーションプログラムおよびシミュレーション方法
RU2308764C2 (ru) Перемещение виртуального сочлененного объекта в виртуальном пространстве с предотвращением столкновений сочлененного объекта с элементами окружающего пространства
CN112381868A (zh) 图像深度估计方法和装置、可读存储介质、电子设备
CN114041828B (zh) 超声扫查控制方法、机器人及存储介质
JP2020052032A (ja) 撮像装置及び撮像システム
JP6385380B2 (ja) 演算装置、制御装置およびプログラム
CN110751672A (zh) 利用稀释卷积实现多尺度光流像素变换的方法和装置
Sarkar et al. Action-conditioned deep visual prediction with roam, a new indoor human motion dataset for autonomous robots
JP2017163386A (ja) カメラパラメータ推定装置、カメラパラメータ推定方法、及びプログラム
WO2021095680A1 (ja) 推定システム、推定装置および推定方法
US11472036B2 (en) Reducing motion blur for robot-mounted cameras
WO2022264333A1 (ja) 遠隔作業装置の制御装置、制御方法及び制御プログラム
WO2024013895A1 (ja) 遠隔制御システム、遠隔制御方法、および遠隔制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230314

R150 Certificate of patent or registration of utility model

Ref document number: 7246175

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150