JP4577353B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP4577353B2
JP4577353B2 JP2007317199A JP2007317199A JP4577353B2 JP 4577353 B2 JP4577353 B2 JP 4577353B2 JP 2007317199 A JP2007317199 A JP 2007317199A JP 2007317199 A JP2007317199 A JP 2007317199A JP 4577353 B2 JP4577353 B2 JP 4577353B2
Authority
JP
Japan
Prior art keywords
time series
motor
state
control
target value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007317199A
Other languages
English (en)
Other versions
JP2009140325A (ja
Inventor
活樹 南野
秀樹 下村
順 横野
献太 河本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007317199A priority Critical patent/JP4577353B2/ja
Priority to US12/315,100 priority patent/US20090150317A1/en
Publication of JP2009140325A publication Critical patent/JP2009140325A/ja
Application granted granted Critical
Publication of JP4577353B2 publication Critical patent/JP4577353B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33051BBC behavior based control, stand alone module, cognitive, independent agent

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、機器の故障から効率的に回復することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
自律エージェントやロボットの行動は、さまざまなセンサ信号に基づいて、どのように振る舞うべきかを決定し、それをモータ信号として出力することで生成される。自律エージェントは、コンピュータ上に想定した物理環境の中で、自律的な判断に基づいて行動をとるソフトウエア的な処理を行うものである。一方、ロボットは、現実の環境の中で自律的な判断に基づいて行動をとる機器である。
ここで、センサ信号に基づいて状況を判断することを認知と呼ぶ。また、あるモータ信号を生成し、運動することを行動と呼ぶ。ある認知の結果に基づき、適切に行動することを認知行動と呼び、それを実現した計算モデルのことを認知行動モデルと呼ぶ。
一般に、認知行動モデルは、あらかじめ設計されることが多い。認知行動モデルは、例えば、ある音声が入力されると、それに応じて手を振るなどの所定の行動をロボットがとるといったように、入力と出力の対応関係がモデル化されることによって設計される。この場合、音声を認識するための音声認識装置と、ロボットが手を振るためのモータ信号が事前に設計され、音声認識の結果に基づいて所定のモータ信号を生成するような対応関係を与えることで、認知行動モデルによる行動が実現されることになる。
一般に、ある目的を達成するために対象に操作を加えることを制御と呼ぶ。特に、空調システムのように、室温に応じて自動的に温度調整が行われる場合を自動制御と呼ぶ。現在では、家庭用の電気製品、自動車、産業用ロボットなど、さまざまな機器に対して、自動制御の技術が応用されている。自動制御は、センサ信号に応じてどのようにモータ信号を生成するかをあらかじめ決定しておくことで実現される。これは、事前に設計された認知行動モデルとみることもできる。
図1は、自動制御の基本的な構成を示す図である。
制御器1−1に対して、システム1−2の目標となる状態を表す目標値Gが入力される。制御器1−1は、センサ信号Sにより表されるシステム1−2の状態が、目標値Gにより表される状態に近づくようにモータ信号Mを決定し、これをシステム1−2に出力する。
モータ信号Mは、システム1−2に実際に入力され、その結果、システム1−2からはセンサ信号Sが観測される。このセンサ信号Sは、制御器1−1にふたたび戻され、このセンサ信号Sにより表されるシステム1−2の状態が目標値Gにより表される状態にさらに近づくように、モータ信号Mが決定される。
ここで、システムとは、制御すべき機器、およびその機器が置かれた環境を合わせたものに対応する。例えば、空調システムの場合、制御すべき機器は、空気を暖めるためのヒータや、その空気を循環させるためのファンなどに対応し、その機器が置かれた環境は、12畳のリビングルームなどに対応する。
従って、制御すべき機器と環境の両方が決まると、システムの挙動が決まり、その挙動に応じて、制御器によるシステムの制御方法を決めることが可能となる。通常、制御器は、システムの挙動を事前に想定し、それに対応して設計されることが多い。ただし、同じ空調システムを利用する場合でも、例えば、部屋の大きさなどに応じて室温の上昇の特性は変わることから、機器だけでなく機器の置かれた環境の違いによってシステムの挙動は変化する。
以下、制御すべき機器だけでなく、環境も含めたシステムのことを、広い意味での制御すべきシステム(対象)と考えるものとする。これは、自律エージェントやロボットの場合、自律エージェントやロボットの身体とその身体が置かれた環境を合わせて、制御すべきシステムと考えることに相当する。
図1に示されるような自動制御は、システムの挙動があらかじめ把握できる場合には非常に有効な方法であり、そのための制御器の構成方法について、さまざまな方法が提案されている。また、そのための理論も数多く提案されている(非特許文献1参照)。
しかしながら、システムの挙動をあらかじめ把握することが困難な場合、対応する制御器を事前に設計しておくことは難しい。特に、システム内の機器が故障した場合などは、想定されるシステムの挙動が変化するために、事前に設計した制御器を利用するだけでは、所望の結果を得ることができないという問題が発生する。
システムの挙動をあらかじめ把握できない状況は、システム内の機器が故障した場合だけでなく、機器の置かれた環境が変わった場合などにも発生するが、ここでは、システム内の機器が故障した場合を例に説明する。
このような問題に対して、特許文献1には、要素ごとに異常を検知する検知手段と、その検知結果に基づいて対応する要素を修復するための制御手段を備える自己修復システムが提案されている。
この技術においては、装置(システム内の機器)全体を複数の要素によって構成し、要素ごとに異常を検知する仕組みを備えることで、装置の中のある要素に異常が発生した場合でも、自動的にその要素の機能が修復されることになる。
ただし、各要素の異常の検知結果に基づいて修復を行うための制御器はあらかじめ設計しておく必要があり、これは、故障の仕方や、それに対する対処方法をあらかじめ設計しておくことに対応する。言い換えれば、故障の仕方も含めて、システムの挙動をあらかじめ把握しておく必要がある。
いつも決まった壊れ方をする機器を含むシステムを除いて、故障の仕方をあらかじめ想定しておくことは困難であり、そのようなシステムに対して、自動的に故障を修復させることは引用文献1に記載されているような技術によっては難しい。
ところで、動物が餌をとる場合を例にとると、右手が怪我などによって使えなくなると、左手を使って目的を達成し、さらに左手も怪我によって使えなくなると、口を使って目的を達成するといったように、所望の目的を達成するために、自分自身の他の身体機能をうまく応用するような行動が見られる。
このような認知行動は、事前に設計されたものではなく、状況の変化に応じて、目的を達成するために必要な他のやり方を探し出し、それを獲得していくものと考えることができる。このような考え方に基づいて、自動制御に用いられる制御器が構成されることはない。
特許文献2には、システムの挙動を事前に想定することなく、制御器を発達させる技術が記載されている。
この技術においては、制御器をあらかじめ設計しておくのではなく、自律行動制御モデルと呼ばれる、予測部、評価部、制御部、計画部の4つのモジュールによって構成された学習モデルを利用して制御器の発達が実現される。
予測部は、時刻tに制御器から出力されたモータ信号mtと、同じ時刻tにシステムにおいて観測されるセンサ信号Stから、時刻t+1に観測されるセンサ信号St+1がどのような値になるかを、常に予測学習する。
評価部は、予測部の予測エラー、計画部の計画エラー、制御部の制御エラーを観測し、それを元にシステムの目標の状態を決定し、計画部に与える。
計画部は、システムの現在の状態から、評価部によって与えられた目標の状態に至るまでのモータ信号系列を計画する。ここで、計画部は、モータ信号系列を計画するために予測部を利用する。すなわち、どのようにモータ信号を出力すると、システムの状態がどのように遷移するかに関して予測部に予測させ、その予測結果に基づき、所望の状態に遷移するためのモータ信号系列を決定する。
制御部は、計画部による計画に基づき、モータ信号系列を実際に出力することで、システムに対して実際に働きかけを行う。制御部は、システムの状態が所望の目標の状態に到達することができた場合に、モータ信号系列と、それに応じて出力された各時刻のセンサ信号を学習する。すなわち、学習が進むと、計画を行うことなく、所望の目標状態に到達するためのモータ信号系列を制御器は出力することができるようになる。
ただし、この技術は制御器を自律的に発達させることを目指したものであり、タスクに関する事前知識が与えられることなく、タスクを自ら設定し、自ら目標を設定することで制御器の学習が進められる。
自ら設定する目標に応じて、さまざまなタスクを柔軟にこなすことができるように制御器が発達する可能性がある反面、必ずしも、所望のタスクをこなすことができるように制御器が発達するとは限らず、また、発達したとしても相当な時間を要するという問題点をこの技術は持っている。つまり、あらかじめ決められたタスクをこなすような問題に対しては、あまり効率が良い方法とは言えない。
片山 徹、「フィードバック制御の基礎」、2002年2月10日、朝倉書店 特開平7−44201号公報 特開2006−268812号公報
以上のように、従来の技術では、機器が故障するなどしてシステムの挙動が変化した場合に、あらかじめ設計した制御器を利用するだけでは所望の目的を達成することができなくなるという問題があった。
また、制御器を発達させる従来の技術では、タスクそのものを自ら設定するため、所望の目的を達成することができるように必ずしも制御器が発達するわけではなく、発達するとしても相当な時間を要するという問題があった。
本発明はこのような状況に鑑みてなされたものであり、機器の故障から効率的に回復することができるようにするものである。
本発明の一側面の情報処理装置は、制御対象となるシステムの目標の状態を表す目標値を記憶する目標記憶手段と、前記制御対象となるシステムに備えられた1または複数のモータを制御するモータ信号を出力することに応じて観測されるシステムの状態を表すセンサ信号の時系列を入力とし、センサ信号により表されるシステムの状態が、前記目標記憶手段により記憶されている前記目標値により表される状態に近づくようなモータ信号の時系列を出力とする前記入力と前記出力の関係を表すパラメータを用いて、システムを制御する制御手段と、前記センサ信号と、前記目標記憶手段により記憶されている前記目標値に基づいて、前記制御手段によるシステムの制御が正常に行われているか否かを判定する判定手段と、前記判定手段により前記制御手段によるシステムの制御が正常に行われていないと判定された場合、全てのモータ信号の時系列のうち、着目すべきモータ信号の時系列の範囲を選択し、選択した時系列の範囲のモータ信号に所定の値を設定して出力するモータ信号選択手段と、前記判定手段により前記制御手段によるシステムの制御が正常に行われていないと判定された場合、前記モータ信号選択手段により選択された時系列の範囲のモータ信号に処理の値を設定して出力することに応じて観測されるセンサ信号に基づいてシステムの挙動を学習し、学習結果に基づいてシステムの挙動を予測する予測手段と、前記判定手段により前記制御手段によるシステムの制御が正常に行われていないと判定された場合、前記予測手段により予測される挙動をとるシステムの状態を、前記目標値により表される状態となるように遷移させるモータ信号の時系列を生成し、生成したモータ信号の時系列により、前記システムが、前記目標記憶手段により記憶されている前記目標値により表される状態に遷移するか否かを判定する生成手段とを備え、前記生成手段により生成されたモータ信号の時系列が出力されることによって、前記システムの状態が前記目標値により表される状態に遷移していると判定された場合、前記制御手段は、前記生成手段により生成されたモータ信号の時系列と、前記モータ信号の時系列が出力されることに応じて観測されるセンサ信号の時系列に基づいて、前記システムを制御するのに用いられる、前記入力と前記出力の関係を表すパラメータを更新する。
前記判定手段には、システム内の機器の故障を検出した場合、前記制御手段によるシステムの制御が正常に行われていないと判定させることができる。
本発明の一側面の情報処理方法またはプログラムは、制御対象となるシステムに備えられた1または複数のモータを制御するモータ信号を出力することに応じて観測されるシステムの状態を表すセンサ信号の時系列を入力とし、センサ信号により表されるシステムの状態が、前記目標記憶手段により記憶されている前記目標値により表される状態に近づくようなモータ信号の時系列を出力とする前記入力と前記出力の関係を表すパラメータを用いて、システムを制御し、前記センサ信号と、前記目標記憶手段により記憶されている前記目標値に基づいて、前記制御手段によるシステムの制御が正常に行われているか否かを判定し、前記システムの制御が正常に行われていないと判定された場合、全てのモータ信号の時系列のうち、着目すべきモータ信号の時系列の範囲を選択し、選択した時系列の範囲のモータ信号に所定の値を設定して出力し、前記システムの制御が正常に行われていないと判定された場合、選択された時系列の範囲のモータ信号に処理の値を設定して出力することに応じて観測されるセンサ信号に基づいてシステムの挙動を学習し、学習結果に基づいてシステムの挙動を予測し、前記システムの制御が正常に行われていないと判定された場合、予測される挙動をとるシステムの状態を、前記目標値により表される状態となるように遷移させるモータ信号の時系列を生成し、生成したモータ信号の時系列により、前記システムが、前記目標記憶手段により記憶されている前記目標値により表される状態に遷移するか否かを判定し、生成されたモータ信号の時系列が出力されることによって、前記システムの状態が前記目標値により表される状態に遷移していると判定された場合、生成されたモータ信号の時系列と、前記モータ信号の時系列が出力されることに応じて観測されるセンサ信号の時系列に基づいて、前記システムを制御するのに用いられる、前記入力と前記出力の関係を表すパラメータを更新するステップを含む。
本発明の一側面においては、制御対象となるシステムに備えられた1または複数のモータを制御するモータ信号を出力することに応じて観測されるシステムの状態を表すセンサ信号の時系列を入力とし、センサ信号により表されるシステムの状態が、前記目標記憶手段により記憶されている前記目標値により表される状態に近づくようなモータ信号の時系列を出力とする前記入力と前記出力の関係を表すパラメータを用いて、システムが制御される。前記センサ信号と、前記目標記憶手段により記憶されている前記目標値に基づいて、前記制御手段によるシステムの制御が正常に行われているか否かが判定される。前記システムの制御が正常に行われていないと判定された場合、全てのモータ信号の時系列のうち、着目すべきモータ信号の時系列の範囲を選択し、選択した時系列の範囲のモータ信号に所定の値が設定されて出力される。前記システムの制御が正常に行われていないと判定された場合、選択された時系列の範囲のモータ信号に処理の値が設定されて出力されることに応じて観測されるセンサ信号に基づいてシステムの挙動が学習され、学習結果に基づいてシステムの挙動が予測される。前記システムの制御が正常に行われていないと判定された場合、予測される挙動をとるシステムの状態が、前記目標値により表される状態となるように遷移させるモータ信号の時系列が生成され、生成されたモータ信号の時系列により、前記システムが、前記目標値により表される状態に遷移するか否かが判定される。生成されたモータ信号の時系列が出力されることによって、前記システムの状態が前記目標値により表される状態に遷移していると判定された場合、生成されたモータ信号の時系列と、前記モータ信号の時系列が出力されることに応じて観測されるセンサ信号の時系列に基づいて、前記システムを制御するのに用いられる、前記入力と前記出力の関係を表すパラメータが更新される。
本発明の一側面によれば、機器の故障から効率的に回復することができる。
図2は、本発明の一実施形態に係る情報処理装置の構成例を示す図である。
情報処理装置は、目標記憶部2−1、システム状態判定部2−2、制御部2−3、および探索部2−5を有する。探索部2−5は、計画部2−6と予測部2−7から構成され、このうちの予測部2−7は、モータ信号選択部2−8とシステム予測部2−9から構成される。
上述したように、制御すべき機器だけでなく、環境も含めたシステムのことを、広い意味での制御すべきシステム(対象)と考えるものとする。このことは、自律エージェントやロボットの身体と、それらの置かれた環境を合わせて、制御すべきシステムと考えることに相当する。
システム2−4は、この制御すべきシステムである。システム2−4に対してモータ信号mtを入力することでシステム2−4の状態が変化し、その結果がセンサ信号Stとして観測される。
図3A,Bは、犬型ロボットの頭部を上から見た図である。
図3A,Bにおいて台形で示す犬型ロボットの頭部3−1には、その左右の耳の位置にマイクロフォン(左マイクLと右マイクR)が取り付けられている。台形の上底方向が犬型ロボットの前方であり、下底方向が犬型ロボットの後方である。犬型ロボットの首の部分には、頭部3−1を水平に回転させるアクチュエータが取り付けられている。
ここで、首に取り付けられたアクチュエータに所定のモータ信号を入力すると、頭部3−1が右方向に回転するものとする。図3Aに示されるように、前方を基準として頭部3−1の右方向に一定の音を出力する音源3−2が配置されている場合、音源3−2から出力される音の大きさは、マイクロフォンを通してセンサ信号として観測されることになる。
頭部3−1が回転するに従って、左右のマイクロフォンに入力される音が徐々に変化し、それに応じて、観測されるセンサ信号の大きさ(振幅)も変化する。頭部3−1の前方にマイクロフォンの指向性が与えられているものとすると、このセンサ信号の大きさに基づき、音源3−2の位置を推定することが可能となる。
図3Aの状態から右方向に90度回転した場合、頭部3−1の向きは図3Bに示される向きに変化し、音源3−2の位置は頭部3−1の前方にくることになる。
このように、頭部3−1の向きを変化させるモータ信号と、マイクロフォンに音が入力されることに応じて観測されるセンサ信号の関係、すなわち、図2のシステム2−4の挙動は、犬型ロボットの身体などの制御すべき機器と、その機器が置かれた環境の特性に応じて決まる。従って、機器が故障した場合や、機器の置かれた環境が変化した場合などにおいては、システム2−4の挙動は変化することになる。
図2の説明に戻り、目標記憶部2−1は、実現すべき目標値を記憶する。目標値は、目標となるシステム2−4の状態を表す。前述の犬型ロボットの例の場合、音源3−2に対する頭部3−1の向きによって、観測されるセンサ信号が変化するが、この場合、例えば、頭部3−1の前方中心に音源3−2の位置がくるようにするとの目標値が目標記憶部2−1に記憶される。
目標記憶部2−1は、記憶している目標値Gを出力する。目標記憶部2−1から出力された目標値Gは、通常時、システム状態判定部2−2、制御部2−3に入力される。
制御部2−3は、目標値Gに応じて、システム2−4の状態が目標値Gにより表される状態に近づくように、システム2−4に入力する時刻tのモータ信号mtを決定し、出力する。例えば、首に取り付けられたアクチュエータを右方向に回転させるモータ信号mtなどが制御部2−3から出力される。モータ信号mtが出力されること応じて、システム2−4の状態は変化し、その状態を表す時刻tのセンサ信号Stが観測される。
センサ信号Stは、システム状態判定部2−2と制御部2−3に入力される。制御部2−3は、入力されたセンサ信号Stと、目標記憶部2−1から与えられる目標値Gに基づき、1時刻分ずつ、モータ信号mtを出力する。
ここで、制御部2−3が正しく動作している場合、目標値Gとセンサ信号Stに応じて、適切な次の時刻のモータ信号mt+1が制御部2−3から出力されることになり、システム2−4は所望の状態に遷移していくことになる。
例えば、図3において、頭部3−1の前方中心に音源位置がくるように目標値Gが与えられた場合、モータ信号mtとして適切な信号が制御部2−3から出力されれば、頭部3−1が右方向に徐々に回転し、やがて、音源位置は頭部3−1の前方中心にくることになる。
ここで、頭部3−1を回転させるための首のアクチュエータが故障して動かなくなった場合を考える。
この場合、制御部2−3がどのようなモータ信号mtを出力したとしても、所望の状態、すなわち、図3Aに示されるような方向に向いている頭部3−1を右方向に回転させて、図3Bに示されるような音源方向を向いた状態にすることはできない。これは、首のアクチュエータが故障する前と故障した後とで、システム2−4の挙動が大きく変化したことに対応する。
システム状態判定部2−2は、目標記憶部2−1から供給された目標値Gと、システム2−4において観測されるセンサ信号Stから、システム2−4の状態が目標の状態に遷移しているかどうか、すなわち、制御部2−3による制御が正常に行われているかどうかを判定する。
上述した例の場合、首のアクチュエータが故障する前は、システム2−4から観測されるセンサ信号Stは目標値Gに向かって遷移することになり、この場合、システム状態判定部2−2は、システム2−4の制御が正常に行われていると判定する。これに対して、故障した後は、センサ信号Stが目標値Gに向かって遷移することはないため、システム状態判定部2−2は、システム2−4の制御が正常に行われていないと判定する。
システム状態判定部2−2は、システム2−4の制御が正常に行われていないと判定した場合、システム2−4の挙動が変化したことなどにより、制御部2−3はもはや機能しないと判断し、その判断結果を探索部2−5に送る。
探索部2−5は、目標値Gを実現するためのモータ信号mtの時系列であるモータ信号系列m1,m2,…,mTを探索する。Tはモータ信号系列の長さを示す。この探索結果に基づき、システム2−4に対してモータ信号mtが1時刻分ずつ実際に入力されると、システム2−4からは、対応するセンサ信号Stが観測される。
システム2−4の前段に設けられるスイッチは、通常動作時には、制御部2−3からのモータ信号mtがシステム2−4に対して入力され、システム2−4を正常に制御できていないと判定された後の探索時には、探索部2−5からのモータ信号系列m1,m2,…,mTが1時刻分ずつシステム2−4に対して入力されることを表す。
モータ信号系列m1,m2,…,mTは図示せぬ経路を介してシステム状態判定部2−2にも与えられる。システム状態判定部2−2は、モータ信号系列m1,m2,…,mTが1時刻分ずつ探索部2−5からシステム2−4に入力されることに応じて観測されるセンサ信号系列S1,S2,…,STに基づいて、目標値Gを実現することができたと判定した場合、そのモータ信号系列m1,m2,…,mTとセンサ信号系列S1,S2,…,STを制御部2−3に与える。
制御部2−3においては、システム状態判定部2−2から与えられたモータ信号系列m1,m2,…,mTとセンサ信号系列S1,S2,…,STに基づいて学習が行われ、システム2−4の制御にそれまで用いられていたパラメータが更新される。
ある目標値Gが与えられている場合において、あるセンサ信号Stが入力されたときにはこのモータ信号mtを出力する、といったように、入力と出力の関係を表し、モータ信号mtを決定するのに用いられる認知行動モデルのパラメータが制御部2−3には与えられている。このパラメータが、システム状態判定部2−2から与えられたモータ信号系列m1,m2,…,mTとセンサ信号系列S1,S2,…,STに基づいて更新される。
図4A,Bは、探索部2−5が、目標値Gを実現することのできるモータ信号系列m1,m2,…,mTを探索することができた場合の例を示す図である。
図4A,Bの例においては、犬型ロボットの構成として、頭部4−2の他に胴体4−1が示されている。頭部4−2には左右の耳の位置にマイクロフォンが取り付けられており、胴体4−1には前後左右に足が取り付けられている。前後左右の足をアクチュエータによって駆動させることにより、前後に移動したり、その場で水平方向に回転し、胴体4−1ごと向きを変えたりすることができるようになされている。図4Aの例においては、音源4−3は頭部4−2の前方に対して右方向に配置されている。
ここで、目標値Gとして、図3A,Bを参照して説明したものと同様に、音源4−3の位置が頭部4−2の前方中心にくるようすることが与えられているものとする。上述した通り、頭部4−2を回転させるための首のアクチュエータが故障した後は、首のアクチュエータを駆動させるためのモータ信号を与えても頭部4−2は回転しないため、頭部4−2に対する音源位置は変化しない。
この状況において、左右の前足と後足を適切に動かすようなモータ信号系列m1,m2,…,mTを与えることができれば、犬型ロボットの胴体4−1は、図4Bに示されるように音源4−3に対して向きを変え、その結果、頭部4−2の前方の中心に音源4−3がくる状態を実現することが可能となる。
そして、このようなモータ信号系列m1,m2,…,mTと、対応するセンサ信号系列S1,S2,…,STに基づいてパラメータを適切に更新することができれば、制御部2−3は、首のアクチュエータが故障したとしても、左右の前足と後足を動かすようなモータ信号mtを出力することで目標値Gを実現することができるようになる。
すなわち、故障などによってシステム2−4の挙動が変化した場合でも、目標記憶部2−1から出力される目標値Gに基づき、制御部2−3は新たなモータ信号mtを出力することができるようになる。
つづいて、探索部2−5による探索について、犬型ロボットを例として説明する。
ここでは、システム2−4に対して、首のアクチュエータを駆動するためのモータ信号と、左右の前足と後足を駆動するためのモータ信号を入力することができるものとする。この場合、合計5種類のモータ信号を入力することができることになる。また、この犬型ロボットは、頭部の左右に取り付けられたマクロフォンに入力される音をセンサ信号として観測することができるものとする。
この犬型ロボットに対して、近くに置かれたある一定の音を出す音源の方向を向く、音源に近づくという2通りの認知行動を行わせるものとする。目標記憶部2−1には、音源が頭部の前方の中心にくるようにするという目標値と、音源からの音の大きさがある所定の値になるようにするという目標値が記憶される。
この犬型ロボットに対して、モータ信号として適当な値の信号を与えると、システム2−4の状態が変化し、その結果はセンサ信号として観測されることになる。
モータ信号選択部2−8は、5種類のモータ信号の中のどのモータ信号に着目するかを選び出し、選び出した適当なモータ信号に所定の値を設定して、図2の太線矢印A1に示されるようにシステム2−4に対して与える。
システム予測部2−9は、システム2−4に対して与えられたモータ信号mtを取得する。また、システム予測部2−9は、モータ信号mtが与えられることに応じてシステム2−4において観測されるセンサ信号Stを太線矢印A2に示されるように取得する。
システム予測部2−9は、取得したモータ信号mtとセンサ信号Stの関係を学習することで、そのモータ信号mtによってシステム2−4の状態がどのように変化し、その結果、どのようなセンサ信号Stが観測されるかを予測することができるようになる。
予測部2−7は、このような処理を行うモータ信号選択部2−8とシステム予測部2−9から構成される。
予測部2−7は、システム2−4に対する働きかけ(モータ信号mtを与えること)に基づき、常に、モータ信号mtとセンサ信号Stの関係を予測学習する。このような予測学習を続けることで、システム2−4の最新の挙動を予測することが可能になる。
例えば、首のアクチュエータが故障する前は、首のアクチュエータにモータ信号mtを与え、その結果観測されるセンサ信号Stを取得して学習することによって、首のアクチュエータにモータ信号mtを与えたときに音源の位置がどのように変化するかを予測することができるようになる。
また、右の前足だけを動かしたり、左右の後足を動かしたりするモータ信号mtを与え、その結果観測されるセンサ信号Stを取得して学習することによって、右の前足だけを動かした場合や、左右の後足を動かした場合に、音源の位置がどのように変化するかを予測することができるようになる。
さらに、左右の前足と後足を動かすモータ信号mtを与え、その結果観測されるセンサ信号Stを取得して学習することによって、左右の前足と後足を動かし、部屋の中を移動したり、向きを変えたりした場合に、音源の位置がどのように変化するかを予測することができるようになる。
すなわち、さまざまなモータ信号mtを与え、その結果観測されるセンサ信号Stを取得して学習することによって、さまざまな行動をとった場合に、音源の位置がどのように変化するかを予測することができるようになる。
また、モータ信号mtを与え、その結果、左右のマイクロフォンに入力される音の大きさがどのように変化するかについても学習を行うことによって、音源からの音の大きさがどのように変化するかについても予測することができるようになる。
ここで、首のアクチュエータが故障した場合を考える。
この場合、首のアクチュエータにモータ信号mtを与えても、頭部に対する音源の位置は変化しないということが学習により予測することができるようになる。つまり、故障などによってシステム2−4の挙動が変化した場合でも、予測部2−7による学習によって、システム2−4の最新の挙動を予測することができるようになる。
一方、計画部2−6は、予測部2−7を利用して、目標記憶部2−1に記憶された目標値Gを実現するためのモータ信号系列m1,m2,…,mTを計画する。
具体的には、計画部2−6は、どのモータ信号mtに着目し、着目したモータ信号mtにどのような値を与えるかを決定する。また、計画部2−6は、値を決定したモータ信号mtをシステム2−4に入力したときに、どのようなセンサ信号Stが観測されるかを予測部2−7に予測させ、その予測結果に基づき、次の時刻にどのようなモータ信号mt+1を与えるかを決定する。
計画部2−6は、この処理を繰り返すことで、目標値Gを実現するためのモータ信号系列m1,m2,…,mTを探索する。すなわち、計画部2−6は、予測部2−7により予測される挙動をとるシステム2−4の状態を、目標値Gにより表される状態にするように遷移させるモータ信号系列m1,m2,…,mTを生成する。
予測部2−7がシステム2−4の挙動を正しく予測できるようになっている場合、想定可能なモータ信号系列すべてについて、目標値Gを実現することができそうかどうかを調べれば、最良のモータ信号系列m1,m2,…,mTを決定することが可能となる。
このような最良のモータ信号系列m1,m2,…,mTを効率的に探索する方法には、あるヒューリスティック関数を仮定したA*探索と呼ばれる方法などのさまざまな方法がある。モータ信号系列m1,m2,…,mTの探索には、どのような方法であっても適用することが可能であり、ある1つの方法に限定されるものではない。
計画部2−6により計画されたモータ信号系列m1,m2,…,mTは、探索部2−5の探索結果として出力され、1時刻分ずつ、モータ信号mtがシステム2−4に与えられる。モータ信号系列m1,m2,…,mTは、システム状態判定部2−2にも与えられる。
目標値Gを実現することができたとシステム状態判定部2−2により判定された場合、モータ信号系列m1,m2,…,mTと、対応するセンサ信号系列S1,S2,…,STが制御部2−3に与えられ、制御部2−3のパラメータが更新される。
もし、探索部2−5の探索結果としてのモータ信号系列m1,m2,…,mTを1時刻分ずつシステム2−4に入力しても目標値Gを実現することができなかった場合、そのことは、計画部2−6の計画が失敗したことを意味する。
この場合、予測部2−7の予測学習がさらに進められ、その後、計画部2−6による計画がやり直される。予測部2−7の予測学習が繰り返されることによって、予測部2−7の予測精度が向上し、それにより、計画部2−6の計画の精度も向上することになる。
このような探索部2−5における処理は、目標値Gを実現することができるようなモータ信号系列m1,m2,…,mTが得られるまで繰り返される。
なお、システム2−4の機器の故障によっては、どのようなモータ信号mtをシステム2−4に入力しても、もはや目標値Gを実現することができないような状況になるケースも考えられる。
そこで、目標値Gを実現することができるようになるまで探索を繰り返すのではなく、予測部2−7が予測できる範囲において、目標値Gにできるだけ近づけることができるようなモータ信号系列を探索し、その探索結果のモータ信号系列m1,m2,…,mTに基づいて制御部2−3のパラメータを更新するようにすることも可能である。
この場合、目標値Gを実現することができなかった場合でも制御部2−3のパラメータが更新されることになる。
このようにしてパラメータが更新されると、目標値Gを実現することまではできないかもしれないが、システム2−4の状態を目標値Gにできるだけ近づけることができるようなモータ信号mtが制御部2−3から出力されることになる。
例えば、左右の前足と後足が故障してしまい、もはや移動することができなくなったような状態において音源に近づくという目標値Gが与えられた場合、首のアクチュエータを動かすことで頭部の向きを変えて、音源の方向にできるだけマイクロフォンを近づけようとする認知行動が出力されることになる。
次に、以上のような構成を有する情報処理装置の処理について説明する。
はじめに、図5のフローチャートを参照して、制御処理の全体の流れについて説明する。
ステップS1において、目標記憶部2−1は、自身が記憶しておいたものの中から目標値Gを決定し、決定した目標値Gをシステム状態判定部2−2と制御部2−3に出力する。
ステップS2において、制御部2−3は、目標記憶部2−1から供給された目標値Gと、システム2−4において観測されるセンサ信号Stに基づいてモータ信号mtを決定し、決定したモータ信号mtをシステム2−4に出力する。
システム2−4においては、モータ信号mtが入力されることに応じてそのときの状態に応じた挙動がとられ、センサ信号Stが出力される。センサ信号Stは制御部2−3に供給され、制御部2−3により、次の時刻のモータ信号であるモータ信号mt+1が決定される。センサ信号Stはシステム状態判定部2−2にも供給される。
制御部2−3においては、このようして次々と決定されるモータ信号mtがシステム2−4に対して出力され、目標値Gを実現するためのシステム2−4の制御が行われる。
ステップS3において、システム状態判定部2−2は、目標記憶部2−1から供給された目標値Gと、システム2−4において観測されるセンサ信号Stに基づいて上記の制御過程を調べ、所望の目標値Gを実現するように状態が遷移しており、システム2−4の制御を正常に行うことができているかどうかを判定する。
ステップS3において、システム2−4の制御を正常に行うことができていると判定された場合、すなわち、所望の目標値Gを実現するようにシステム2−4の状態が遷移していると判定された場合、制御部2−3が正しく機能しているとみなせるので、制御の処理は終了される。
一方、ステップS3において、システム2−4の制御が異常であると判定された場合、すなわち、所望の目標値Gを実現するようにシステム2−4の状態が遷移していないと判定された場合、制御部2−3が正しく機能していないとみなせるので、システム状態判定部2−2から探索部2−5に対して、システム2−4の挙動が変化したことが通知される。
なお、システム2−4の挙動が変化する原因の1つとして、システム2−4内の機器の故障が考えられることから、ステップS3において行われるシステム2−4の状態判定において、システム2−4内の機器の故障を検出する処理が利用されることもある。例えば、システム状態判定部2−2は、機器の故障を検出した場合、システム2−4の制御が異常であると判定し、システム2−4の挙動が変化したことを探索部2−5に通知する。
ステップS4において、モータ信号系列m1,m2,…,mTの探索処理が探索部2−5により行われる。上述したように、この探索処理は、目標記憶部2−1において決定された目標値Gを実現すると予測されるモータ信号系列m1,m2,…,mTを決定する処理である。探索処理の詳細については図6のフローチャートを参照して後述する。
ステップS5において、探索部2−5により決定されたモータ信号系列m1,m2,…,mTに従い、探索部2−5からシステム2−4に対して、モータ信号mtが1時刻分ずつ入力され、モータ信号系列m1,m2,…,mTの試行が行われる。このとき、システム2−4の状態の変化を表すセンサ信号Stがシステム状態判定部2−2において観測される。モータ信号系列m1,m2,…,mTは、システム状態判定部2−2に対しても供給される。
ステップS6において、システム状態判定部2−2は、ステップS5において行われたモータ信号系列m1,m2,…,mTの試行によって、目標値Gを実現することができたかどうかを判定する。
ステップS6において、目標値Gを実現することができなかったと判定された場合、探索部2−5による探索処理が失敗したとみなされ、ステップS4に戻り、同様の処理が繰り返される。すなわち、新たなモータ信号系列m1,m2,…,mTを探索する処理が探索部2−5において行われ、ステップS6において目標値Gを実現することができたと判定されるまで、ステップS4からステップS6の処理が繰り返される。
一方、ステップS6において、目標値Gを実現することができたと判定した場合、システム状態判定部2−2は、探索部2−5による探索処理が成功したとみなし、探索処理により決定され、目標値Gを実現するために用いられたモータ信号系列m1,m2,…,mTと、モータ信号系列m1,m2,…,mTが1時刻分ずつ入力されることに応じて観測されたセンサ信号系列S1,S2,…,STを制御部2−3に出力する。
ステップS7において、制御部2−3は、システム状態判定部2−2から供給されたモータ信号系列m1,m2,…,mTとセンサ信号系列S1,S2,…,STを用いて、システム2−4の制御に用いるパラメータを更新し、処理を終了させる。
次に、図6のフローチャートを参照して、図5のステップS4において行われる探索処理について説明する。
ステップS11において、目標記憶部2−1は、図5のステップS1で決定したものと同じ目標値Gを探索部2−5の計画部2−6に出力する。
ステップS12において、モータ信号mtを入力することに応じてシステム2−4の状態がどのように変化し、その結果、どのようなセンサ信号Stを観測することができるかを予測できるようにするための予測学習処理が予測部2−7により行われる。ステップS12において行われる予測学習処理の詳細については、図7のフローチャートを参照して後述する。
予測学習が進むと、あるモータ信号mtをシステム2−4に入力した場合に、どのようなセンサ信号Stが観測されるのかを予測部2−7において予測できるようになる。ステップS13において、計画部2−6は、この予測部2−7による予測に基づいて、目標値Gを実現するためのモータ信号系列m1,m2,…,mTを計画する。
計画部2−6により計画されたモータ信号系列m1,m2,…,mTは、予測部2−7による予測学習が十分に行われ、その精度が高い場合には目標値Gを実現することができるものとなり、予測部2−7による予測学習が十分に行われておらず、精度が低い場合には目標値Gを実現することができないものとなる。
ステップS14において、計画部2−6は、計画によって得られたモータ信号系列m1,m2,…,mTを1時刻分ずつシステム2−4に入力することで目標値Gを実現することができそうかどうかを判定する。
ここでの判定も、予測部2−7による予測を用いて行われる。例えば、計画によって得られたモータ信号系列m1,m2,…,mTを1時刻分ずつ入力したときのセンサ信号Stが予測部2−7により予測され、予測されたセンサ信号Stが計画部2−6に供給される。計画部2−6においては、予測されたセンサ信号Stが目標値Gに近づくように遷移している場合には、目標値Gを実現することができそうと判定され、目標値Gに近づくように遷移していない場合には、目標値Gを実現することができそうにないと判定される。
ステップS14における判定の結果、目標値Gを実現できそうにないと判定された場合、モータ信号系列m1,m2,…,mTの計画が失敗したものとみなされ、ステップS12に戻り、それ以降の処理が繰り返される。すなわち、予測部2−7の予測学習が再度行われ、予測能力が更新された後の予測部2−7による予測に基づいて、新たなモータ信号系列m1,m2,…,mTがステップS13において計画される。このようにして、目標値Gを実現できそうなモータ信号系列m1,m2,…,mTが見つかるまで、ステップS12からステップS14の処理が繰り返される。
ステップS14における判定の結果、目標値Gを実現できそうであると判定された場合、モータ信号系列m1,m2,…,mTの計画が成功したものとみなされ、探索処理は終了される。その後、図5のステップS4に戻り、それ以降の処理が行われる。
次に、図7のフローチャートを参照して、図6のステップS12において行われる予測学習処理について説明する。
ステップS21において、モータ信号選択部2−8は、すべてのモータ信号mtの中から、着目すべきモータ信号mtを選択する。
ステップS22において、モータ信号選択部2−8は、着目すべきモータ信号mtに対して適当な値を設定する。
ステップS23において、モータ信号選択部2−8は、ステップS22で値を設定したモータ信号mtをシステム2−4に実際に入力することによって、モータ信号mtを試行する。試行に用いられたモータ信号mtはシステム予測部2−9にも供給される。
ステップS24において、システム予測部2−9は、モータ信号mtがモータ信号選択部2−8から入力されることに応じて生じたシステム2−4の状態の変化をセンサ信号Stとして観測する。システム予測部2−9においては、モータ信号選択部2−8から入力されたモータ信号mtと、システム2−4において観測されたセンサ信号Stを用いて、システム2−4の挙動の予測学習が行われる。ステップS21からステップS24の処理が、システム2−4の最新の挙動を予測できるようになるまで繰り返し実行される。
なお、以上の予測学習処理は、システム2−4の制御の状態が異常であると判定された場合だけでなく、正常であると判定されている場合においても、図5の処理と並行して所定のタイミングで行われるようにしてもよい。
以上の処理により、故障などによってシステム2−4の挙動が変化した場合でも、故障後のシステム2−4の状態に応じて、新たなモータ信号系列の探索と、その探索結果に基づく制御部2−3のパラメータの更新が行われ、故障前と同等に、あるいは達成可能な範囲で、所望の目的を達することが可能となる。
また、目標記憶部2−1に目標値が記憶されており、それを実現するようなモータ信号系列の探索が行われるため、自ら目標を設定して制御部2−3を発達させる場合に比べて、最終的な目標があらかじめ用意されている分、機器の故障から効率的に回復することが可能となる。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされ
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続されている。
バス54には、さらに、入出力インタフェース55が接続されている。入出力インタフェース55には、キーボード、マウス、マイクロフォンなどよりなる入力部56、ディスプレイ、スピーカなどよりなる出力部57、ハードディスクや不揮発性のメモリなどよりなる記憶部58、ネットワークインタフェースなどよりなる通信部59、光ディスクや半導体メモリなどのリムーバブルメディア61を駆動するドライブ60が接続されている。
以上のように構成されるコンピュータでは、CPU51が、例えば、記憶部58に記憶されているプログラムを入出力インタフェース55及びバス54を介してRAM53にロードして実行することにより、上述した一連の処理が行われる。
CPU51が実行するプログラムは、例えばリムーバブルメディア61に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部58にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
自動制御の基本的な構成を示す図である。 本発明の一実施形態に係る情報処理装置の構成例を示す図である。 犬型ロボットの頭部を上から見た状態を示す図である。 犬型ロボットの頭部と胴体を上から見た状態を示す図である。 情報処理装置による制御処理の全体の流れについて説明するフローチャートである。 図5のステップS4において行われる探索処理について説明するフローチャートである。 図6のステップS12において行われる予測学習処理について説明するフローチャートである。 コンピュータのハードウエア構成例を示すブロック図である。
符号の説明
2−1 目標記憶部, 2−2 システム状態判定部, 2−3 制御部, 2−4 システム, 2−5 探索部, 2−6 計画部, 2−7 予測部, 2−8 モータ信号選択部, 2−9 システム予測部

Claims (4)

  1. 制御対象となるシステムの目標の状態を表す目標値を記憶する目標記憶手段と、
    前記制御対象となるシステムに備えられた1または複数のモータを制御するモータ信号を出力することに応じて観測されるシステムの状態を表すセンサ信号の時系列を入力とし、センサ信号により表されるシステムの状態が、前記目標記憶手段により記憶されている前記目標値により表される状態に近づくようなモータ信号の時系列を出力とする前記入力と前記出力の関係を表すパラメータを用いて、システムを制御する制御手段と、
    前記センサ信号と、前記目標記憶手段により記憶されている前記目標値に基づいて、前記制御手段によるシステムの制御が正常に行われているか否かを判定する判定手段と、
    前記判定手段により前記制御手段によるシステムの制御が正常に行われていないと判定された場合、全てのモータ信号の時系列のうち、着目すべきモータ信号の時系列の範囲を選択し、選択した時系列の範囲のモータ信号に所定の値を設定して出力するモータ信号選択手段と、
    前記判定手段により前記制御手段によるシステムの制御が正常に行われていないと判定された場合、前記モータ信号選択手段により選択された時系列の範囲のモータ信号に処理の値を設定して出力することに応じて観測されるセンサ信号に基づいてシステムの挙動を学習し、学習結果に基づいてシステムの挙動を予測する予測手段と、
    前記判定手段により前記制御手段によるシステムの制御が正常に行われていないと判定された場合、前記予測手段により予測される挙動をとるシステムの状態を、前記目標値により表される状態となるように遷移させるモータ信号の時系列を生成し、生成したモータ信号の時系列により、前記システムが、前記目標記憶手段により記憶されている前記目標値により表される状態に遷移するか否かを判定する生成手段と
    を備え、
    前記生成手段により生成されたモータ信号の時系列が出力されることによって、前記システムの状態が前記目標値により表される状態に遷移していると判定された場合、前記制御手段は、前記生成手段により生成されたモータ信号の時系列と、前記モータ信号の時系列が出力されることに応じて観測されるセンサ信号の時系列に基づいて、前記システムを制御するのに用いられる、前記入力と前記出力の関係を表すパラメータを更新する
    情報処理装置。
  2. 前記判定手段は、システム内の機器の故障を検出した場合、前記制御手段によるシステムの制御が正常に行われていないと判定する
    請求項1に記載の情報処理装置。
  3. 制御対象となるシステムの目標の状態を表す目標値を記憶する目標記憶手段を備える情報処理装置の情報処理方法において、
    前記制御対象となるシステムに備えられた1または複数のモータを制御するモータ信号を出力することに応じて観測されるシステムの状態を表すセンサ信号の時系列を入力とし、センサ信号により表されるシステムの状態が、前記目標記憶手段により記憶されている前記目標値により表される状態に近づくようなモータ信号の時系列を出力とする前記入力と前記出力の関係を表すパラメータを用いて、システムを制御し、
    前記センサ信号と、前記目標記憶手段により記憶されている前記目標値に基づいて、前記制御手段によるシステムの制御が正常に行われているか否かを判定し、
    前記システムの制御が正常に行われていないと判定された場合、全てのモータ信号の時系列のうち、着目すべきモータ信号の時系列の範囲を選択し、選択した時系列の範囲のモータ信号に所定の値を設定して出力し、
    前記システムの制御が正常に行われていないと判定された場合、選択された時系列の範囲のモータ信号に処理の値を設定して出力することに応じて観測されるセンサ信号に基づいてシステムの挙動を学習し、学習結果に基づいてシステムの挙動を予測し、
    前記システムの制御が正常に行われていないと判定された場合、予測される挙動をとるシステムの状態を、前記目標値により表される状態となるように遷移させるモータ信号の時系列を生成し、生成したモータ信号の時系列により、前記システムが、前記目標記憶手段により記憶されている前記目標値により表される状態に遷移するか否かを判定し、
    生成されたモータ信号の時系列が出力されることによって、前記システムの状態が前記目標値により表される状態に遷移していると判定された場合、生成されたモータ信号の時系列と、前記モータ信号の時系列が出力されることに応じて観測されるセンサ信号の時系列に基づいて、前記システムを制御するのに用いられる、前記入力と前記出力の関係を表すパラメータを更新する
    ステップを含む情報処理方法。
  4. 制御対象となるシステムの目標の状態を表す目標値を記憶する目標記憶手段を備える情報処理装置の処理をコンピュータに実行させるプログラムにおいて、
    前記制御対象となるシステムに備えられた1または複数のモータを制御するモータ信号を出力することに応じて観測されるシステムの状態を表すセンサ信号の時系列を入力とし、センサ信号により表されるシステムの状態が、前記目標記憶手段により記憶されている前記目標値により表される状態に近づくようなモータ信号の時系列を出力とする前記入力と前記出力の関係を表すパラメータを用いて、システムを制御し、
    前記センサ信号と、前記目標記憶手段により記憶されている前記目標値に基づいて、前記制御手段によるシステムの制御が正常に行われているか否かを判定し、
    前記システムの制御が正常に行われていないと判定された場合、全てのモータ信号の時系列のうち、着目すべきモータ信号の時系列の範囲を選択し、選択した時系列の範囲のモータ信号に所定の値を設定して出力し、
    前記システムの制御が正常に行われていないと判定された場合、選択された時系列の範囲のモータ信号に処理の値を設定して出力することに応じて観測されるセンサ信号に基づいてシステムの挙動を学習し、学習結果に基づいてシステムの挙動を予測し、
    前記システムの制御が正常に行われていないと判定された場合、予測される挙動をとるシステムの状態を、前記目標値により表される状態となるように遷移させるモータ信号の時系列を生成し、生成したモータ信号の時系列により、前記システムが、前記目標記憶手段により記憶されている前記目標値により表される状態に遷移するか否かを判定し、
    生成されたモータ信号の時系列が出力されることによって、前記システムの状態が前記目標値により表される状態に遷移していると判定された場合、生成されたモータ信号の時系列と、前記モータ信号の時系列が出力されることに応じて観測されるセンサ信号の時系列に基づいて、前記システムを制御するのに用いられる、前記入力と前記出力の関係を表すパラメータを更新する
    ステップを含むプログラム。
JP2007317199A 2007-12-07 2007-12-07 情報処理装置、情報処理方法、およびプログラム Expired - Fee Related JP4577353B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007317199A JP4577353B2 (ja) 2007-12-07 2007-12-07 情報処理装置、情報処理方法、およびプログラム
US12/315,100 US20090150317A1 (en) 2007-12-07 2008-11-26 Information processing apparatus, information processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007317199A JP4577353B2 (ja) 2007-12-07 2007-12-07 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2009140325A JP2009140325A (ja) 2009-06-25
JP4577353B2 true JP4577353B2 (ja) 2010-11-10

Family

ID=40722653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007317199A Expired - Fee Related JP4577353B2 (ja) 2007-12-07 2007-12-07 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US20090150317A1 (ja)
JP (1) JP4577353B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380467B1 (en) 2010-07-16 2013-02-19 The Mathworks, Inc. Representing geometry of a system in a modeling environment
US9201986B1 (en) 2010-07-16 2015-12-01 The Mathworks, Inc. Managing dynamic state of a physical system
US8738784B1 (en) * 2010-07-16 2014-05-27 The Mathworks, Inc. Managing dynamic state of a physical system
US8768652B1 (en) 2010-07-16 2014-07-01 The Mathworks, Inc. Managing dynamic state of a physical system
US8543611B1 (en) 2010-07-16 2013-09-24 Brian Mirtich Managing dynamic state of a physical system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2535765B2 (ja) * 1993-12-16 1996-09-18 郵政省通信総合研究所長 マニピュレ―タ―の制御方法
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6224305A (ja) * 1985-07-24 1987-02-02 Hitachi Ltd 産業用ロボツトのサ−ボ異常検出方法
US5212765A (en) * 1990-08-03 1993-05-18 E. I. Du Pont De Nemours & Co., Inc. On-line training neural network system for process control
JP3668821B2 (ja) * 1996-07-05 2005-07-06 セイコーエプソン株式会社 ロボットコントローラおよびロボット制御方法
JPH10249763A (ja) * 1997-03-18 1998-09-22 Kobe Steel Ltd ロボットマニピュレータの制御パラメータ調整方法
CA2344125C (en) * 1999-03-10 2005-01-18 Mitsubishi Heavy Industries, Ltd. Working robot
US8484146B2 (en) * 2006-01-18 2013-07-09 Sony Corporation Interaction device implementing a bayesian's estimation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2535765B2 (ja) * 1993-12-16 1996-09-18 郵政省通信総合研究所長 マニピュレ―タ―の制御方法
JP2006268812A (ja) * 2005-02-23 2006-10-05 Sony Corp 学習制御装置および学習制御方法、並びに、プログラム

Also Published As

Publication number Publication date
JP2009140325A (ja) 2009-06-25
US20090150317A1 (en) 2009-06-11

Similar Documents

Publication Publication Date Title
JP4577353B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6760317B2 (ja) 学習支援装置
US10409291B2 (en) Teaming in swarm intelligent robot sets
US20110153080A1 (en) Method and apparatus for industrial robotic pathscycle time optimization using fly by
JP2007018490A (ja) 行動制御装置および行動制御方法、並びに、プログラム
JP5231935B2 (ja) ロボット制御装置
JP6775720B1 (ja) 数値制御装置
US10795327B2 (en) System and method for context-driven predictive simulation selection and use
JP2019010701A (ja) 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置
EP3718702A1 (en) Programming assistance device, robot system, and programming assistance method
EP2339416B1 (en) System and method for controlling a machine
WO2022139939A1 (en) Robot planning
JP2008059573A (ja) 多重バイナリ入力を使用したロボットプログラミング制御
JP2009125920A (ja) ロボットの作業動作最適化装置
WO2022132558A1 (en) Evolutionary imitation learning
JP6896196B1 (ja) 数値制御装置および学習装置
JP6962964B2 (ja) 機械学習装置、画面予測装置、及び制御装置
WO2022139938A1 (en) Robot planning
WO2021044583A1 (ja) ロボット行動計画システム、ロボットシステム、ロボット作業検証システム及びロボット行動計画方法
US20240037393A1 (en) Method for training a control policy for controlling a technical system
JP2023137880A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6742040B1 (ja) ロボット制御装置
JP2018537734A (ja) ファクトリーオートメーションシステムおよびリモートサーバ
JP7378674B1 (ja) プログラマブルロジックコントローラ、推論実行システム、推論実行方法、および、プログラム
US20230050174A1 (en) Template robotic control plans

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100408

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100727

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100809

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees