JP2015028783A

JP2015028783A - 自律学習型制御器

Info

Publication number: JP2015028783A
Application number: JP2014155494A
Authority: JP
Inventors: 洋彰宮崎; Hiroaki Miyazaki
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-07-13
Filing date: 2014-07-13
Publication date: 2015-02-12

Abstract

【課題】学習により蓄積された状態量と制御信号の関係から、センサ情報により検出される状態量に対応する制御信号を推定する手段を提供する。
【解決手段】センサ情報から検出した状態量Ｘと対応する制御信号Ｙを記録する。自律学習型制御器の学習フェーズにおいてはセンサ情報から検出した状態量と対応する制御信号の組を逐次記録していく。実行フェーズにおいてはセンサ情報から状態量が検出されると、センサ情報から検出された状態量に近い状態量の組が選択され、同時に状態量に対応する制御信号の組も選択される。センサ情報から検出された状態量と選択された状態量との近さ（距離Ｒ）が計算され、この近さ（距離）の情報および選択された状態量に対応する制御信号から、検出された状態量に対応する制御信号を推定する。
【選択図】図２

Description

この発明は自律学習型制御器に関するものである。

従来の制御器はセンサ入力により制御信号を生成し、アクチュエータに出力し制御対象の状態変数を所定の目標値に制御する。制御信号の生成のためには事前に制御対象のモデル化を実施し、制御則を設定する必要がある。
従来の制御器は周期的な誤差の影響を低減するために制御系全体のゲインを大きく設定することにより対応している。

従来の制御器はセンサ入力により制御信号を生成し、アクチュエータに出力し制御対象の状態変数を所定の目標値に制御する。制御信号の生成のためには事前に制御対象のモデル化を実施し、制御則を設定する必要がある。入力および出力が多次元となる場合は制御則も複雑になり、また制御対象が複雑な系の場合、制御則の計算も複雑になり、実時間の制御への適用が困難となる等の課題があった。
従来の制御器は周期的な誤差の影響を低減するために制御系全体のゲインを大きく設定することにより対応しているが、制御系全体のゲインを大きくすると安定性を損なう等の課題があった。

（請求項１に対応）

従来の制御器はセンサ情報から検出した状態量に制御則を適用し制御信号を生成する。制御則はあらかじめ定義しプログラム等としてインストールしておく必要がある。

（請求項２に対応）

従来の制御器は運動プロファイルに逆動力学を利用して生成した制御信号とセンサ情報から検出した状態量に制御則を適用して生成した制御信号を合成して制御信号を生成する。適用する制御則はあらかじめ定義し、プログラム等としてインストールしておく必要がある。

（請求項３に対応）

従来の制御器はセンサ情報から人間が制御信号を生成し、制御対象を制御している。

（請求項４に対応）

従来の制御器は目標とする状態量と、現在の状態量の差に対し、制御則を適用し、現在の状態を目標とする状態に近づけるよう制御を行っている。

（請求項５に対応）

従来の制御器は制御系のゲインを上げることにより周期的な誤差の影響を低減している。

（請求項６に対応）

（請求項７に対応）

従来の制御器は制御系のゲインを上げることにより複数の周期的な誤差の影響を低減している。

（請求項８に対応）

従来の制御器は運動プロファイルに逆動力学を利用して生成した制御信号とセンサ情報から検出した状態量に制御則を適用して生成した制御信号を合成して制御信号を生成し、周期的な誤差に対しては制御系のゲインを上げることにより誤差の影響を低減している。

発明が解決しようとする課題

（請求項１に対応）

従来の制御器はセンサ情報から検出した状態量に制御則を適用し制御信号を生成する。制御則はあらかじめ定義しプログラム等としてインストールしておく必要がある。制御則の作成には制御対象のモデル化、制御則の設計等が必要であり、開発に多大な労力を要する等のデメリットがあった。

発明が解決しようとする課題

（請求項２に対応）

従来の制御器は運動プロファイルに逆動力学を利用して生成した制御信号とセンサ情報から検出した状態量に制御則を適用して生成した制御信号を合成して制御信号を生成する。適用する制御則はあらかじめ定義し、プログラム等としてインストールしておく必要がある。制御則の作成には制御対象のモデル化、制御則の設計等が必要であり、開発に多大な労力を要する等のデメリットがあった。

発明が解決しようとする課題

（請求項３に対応）

従来の制御器はセンサ情報から人間が制御信号を生成し、制御対象を制御している。制御の実施には人間が必要であり、多大な労力を要する等のデメリットがあった。

発明が解決しようとする課題

（請求項４に対応）

従来の制御器は目標とする状態量と、現在の状態量の差に対し、制御則を適用し、現在の状態を目標とする状態に近づけるよう制御を行っている。制御則の作成には制御対象のモデル化、制御則の設計等が必要であり、開発に多大な労力を要する等のデメリットがあった。また、人間が実施可能である試行的に制御を実施し、その結果として徐々に目標とする状態量に近づける等の動作は実施困難であった。

発明が解決しようとする課題

（請求項５に対応）

従来の制御器は周期的な誤差の影響を低減するために、制御系のゲインを上げることにより対応している。一般的に制御系のゲインを上げると、制御系の安定性が劣化する等のデメリットがあった。

発明が解決しようとする課題

（請求項６に対応）

発明が解決しようとする課題

（請求項７に対応）

発明が解決しようとする課題

（請求項８に対応）

従来の制御器は運動プロファイルに逆動力学を利用して生成した制御信号とセンサ情報から検出した状態量に制御則を適用して生成した制御信号を合成して制御信号を生成し、周期的な誤差に対しては制御系のゲインを上げることにより誤差の影響を低減している。
一般的に制御系のゲインを上げると、制御系の安定性が劣化する等のデメリットがあった。

課題を解決するための手段

（請求項１に対応）

この発明における自律学習型制御器はセンサ情報から検出した状態量と対応する制御信号を記録する。自律学習型制御器の学習フェーズにおいてはセンサ情報から検出した状態量と対応する制御信号の組を逐次記録していく。実行フェーズにおいてはセンサ情報から状態量が検出されると、センサ情報から検出された状態量に近い状態量の組が選択され、同時に状態量に対応する制御信号の組も選択される。センサ情報から検出された状態量と選択された状態量との近さ（距離）が計算され、この近さ（距離）の情報および選択された状態量に対応する制御信号から、検出された状態量に対応する制御信号が推定される。この手法により学習により蓄積された状態量と制御信号の関係から、センサ情報により検出される状態量に対応する制御信号が推定されることになる。

課題を解決するための手段

（請求項２に対応）

この発明における自律学習型制御器はセンサ情報と、運動プロファイルおよび逆動力学を利用して生成した制御信号を記録する。自律学習型制御器の学習フェーズにおいてはセンサ情報から検出した状態量と対応する制御信号の組を逐次記録していく。実行フェーズにおいてはセンサ情報から状態量が検出されると、センサ情報から検出された状態量に近い状態量の組が選択され、同時に状態量に対応する制御信号の組も選択される。センサ情報から検出された状態量と選択された状態量との近さ（距離）が計算され、この近さ（距離）の情報および選択された状態量に対応する制御信号から、検出された状態量に対応する制御信号が推定される。この手法により学習により蓄積された状態量と制御信号の関係から、センサ情報により検出される状態量に対応する制御信号が推定されることになる。

課題を解決するための手段

（請求項３に対応）

この発明における自律学習型制御器はセンサ情報から検出した状態量と、その状態量に対し人間系により生成された制御信号を記録する。自律学習型制御器の学習フェーズにおいてはセンサ情報から検出した状態量と対応する制御信号の組を逐次記録していく。実行フェーズにおいてはセンサ情報から状態量が検出されると、センサ情報から検出された状態量に近い状態量の組が選択され、同時に状態量に対応する制御信号の組も選択される。センサ情報から検出された状態量と選択された状態量との近さ（距離）が計算され、この近さ（距離）の情報および選択された状態量に対応する制御信号から、検出された状態量に対応する制御信号が推定される。この手法により学習により蓄積された状態量と制御信号の関係から、センサ情報により検出される状態量に対応する制御信号が推定されることになる。

課題を解決するための手段

（請求項４に対応）

この発明における自律学習型制御器は試行的に実施した制御信号または制御プロファイルおよび制御信号および制御プロファイルに起因する状態量を記録する。自律学習型制御器の学習フェーズにおいては試行的に実施した制御信号または制御プロファイルおよび制御信号および制御プロファイルに起因する状態量の組を逐次記録していく。実行フェーズにおいては目標とする状態量を設定すると、目標とする状態量に近い状態量の組が選択され、同時に状態量に対応する制御信号の組も選択される。目標とする状態量と選択された状態量との近さ（距離）が計算され、この近さ（距離）の情報および選択された状態量に対応する制御信号から、目標とする状態量に対応する制御信号が推定される。この手法により試行的に実施した制御信号と起因する状態量の関係から、目標とする状態量に近づける制御信号が逐次推定されることになる。

課題を解決するための手段

（請求項５に対応）

この発明における自律学習型制御器は、周期的な誤差の周波数を検出する。検出した周波数におけるゲインを増加させることにより周期的な誤差を低減する。ゲインの増加は特定の周波数に対応する範囲に限るため、制御系全体のゲインを増加させた場合において発生する制御系安定性の劣化を回避することができる。

課題を解決するための手段

（請求項６に対応）

この発明における制御器は、設定した周波数におけるゲインを増加させることにより周期的な誤差を低減する。ゲインの増加は設定した周波数に対応する範囲に限るため、制御系全体のゲインを増加させた場合において発生する制御系安定性の劣化を回避することができる。

課題を解決するための手段

（請求項７に対応）

この発明における制御器は、設定した複数の周波数におけるゲインを増加させることにより周期的な誤差を低減する。ゲインの増加は設定した複数の周波数に対応する範囲に限るため、制御系全体のゲインを増加させた場合において発生する制御系安定性の劣化を回避することができる。

課題を解決するための手段

（請求項８に対応）

この発明における制御器は運動プロファイルに対応した周波数におけるゲインを増加させることにより、運動プロファイルに起因する周期的な誤差を低減する。ゲインの増加は設定した周波数に対応する範囲に限るため、制御系全体のゲインを増加させた場合において発生する制御系安定性の劣化を回避することができる。

発明の実施の形態１

（請求項１に対応）

図１は従来型制御器の構成を示したものである。
図１において１は制御対象の状態を検出するセンサである。２はセンサで検出した状態量から制御信号を生成する制御器である。制御器にはあらかじめ制御則が設定されている。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。
図２はこの発明の一実施例における自律学習型制御器の構成を示した図である。
図２において１は制御対象の状態を検出するセンサである。２はセンサで検出した状態量から制御信号を生成する制御器である。制御器にはあらかじめ制御則が設定されている。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。５は１のセンサで検出した状態量および２の制御器で生成された制御信号の組を記録する記録器である。６はセンサで検出した状態量の近傍のデータを記録器に記録した状態量の中から複数選択する近傍データ選択器である。近傍データ選択器においては、検出した状態量と複数選択された状態量との近さ（距離）が計算される。７は選択された複数の状態量に対応する複数の制御信号と、上記で計算された検出した情報との近さ（距離）の情報を使用して、検出した情報に対応する制御信号を生成する制御信号推定器である。

次に動作について説明する。
自律学習型制御器の学習フェーズの動作は次のようになる。２の制御器により計算された制御信号は３のアクチュエータに入力され、３のアクチュエータは４の制御対象を制御する。制御により変化した状態量は１のセンサにより検出される。
この時、自律学習型制御器における５の記録器は１のセンサで検出した状態量と、それに対応し２の制御器で生成された制御信号を組として記録する。学習フェーズにおいては数々の状態量からの制御を実施し、多くの状態量と制御信号の組を記録（学習）する。
次に自律学習型制御器の実行フェーズの動作について説明する。実行フェーズにおいては学習した状態量と対応する制御信号から、センサで検出した状態に対応する制御信号を推定する。推定はセンサで検出した状態量に対応する制御信号は近傍の状態量に対応する制御信号に近いという考えに基づいている。センサで検出した状態量に近い複数の状態量を６の近傍データ選択器により、選択する。センサで検出した状態量と、複数の近傍の状態量との距離が計算される。センサで検出した状態量に対応する制御信号は、センサで検出した状態量と複数の近傍の状態量の距離の関係により、複数の近傍の状態量に対応する複数の制御信号への重みづけを実施することにより推定する。
図５に制御信号推定器の動作例を示している。
Ｘはセンサで検出した状態量を示している。Ｘ１，Ｘ２，Ｘ３は近傍データ選択器により選択されたＸの近傍の状態量である。センサで検出された状態量と近傍データＸ１，Ｘ２，Ｘ３との距離が計算され、それぞれＲ１，Ｒ２，Ｒ３であるとする。状態量Ｘ１，Ｘ２，Ｘ３に対応する制御信号がそれぞれＹ１，Ｙ２，Ｙ３とすると、Ｘに対応する制御信号Ｙは状態量間の関係を考慮すると、一例として下記の式を使用することが妥当と考えられる。
仮にＸがＸ１に一致している場合、Ｒ１＝０となる。この時のＹはＹ１となり理に適っている。ＸがＸ２またはＸ３に一致する場合は、ＹはそれぞれＹ２またはＹ３となり妥当である。
次にＸがＸ１，Ｘ２，Ｘ３から等距離にあると仮定する。この場合のＹは（Ｙ１＋Ｙ２＋Ｙ３）／３となり妥当である。
上記では近傍のデータの数が３である場合について説明したが、この考えをデータの数をＮに拡張することが可能である。（図５（２／２）参照）
拡張した式は下記で表現することができる。

発明の実施の形態２

（請求項２に対応）

図３はこの発明の一実施例における自律学習型制御器の構成を示した図である。
図３において１は制御対象の状態を検出するセンサである。８は運動プロファイルを生成する運動プロファイル生成器である。９は８で生成した運動プロファイルから逆動力学を利用して制御信号を生成する制御信号生成器である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。５は１のセンサで検出した状態量および８の運動プロファイル生成器で生成された運動プロファイルを示す状態量と９の制御信号生成器で生成された制御信号の組を記録する記録器である。６はセンサで検出した状態量および運動プロファイルを示す状態量の近傍のデータを記録器に記録した状態量の中から複数選択する近傍データ選択器である。近傍データ選択器においては、検出した状態量と複数選択された状態量との近さ（距離）が計算される。７は選択された複数の状態量に対応する複数の制御信号と、上記で計算された検出した情報との近さ（距離）の情報を使用して、検出した情報および運動プロファイルを示す状態量に対応する制御信号を生成する制御信号推定器である。

次に動作について説明する。
自律学習型制御器の学習フェーズの動作は次のようになる。９の制御信号生成器により計算された制御信号は３のアクチュエータに入力され、３のアクチュエータは４の制御対象を制御する。制御により変化した状態量は１のセンサにより検出される。９の制御信号生成器は１のセンサで検出した状態量および８の運動プロファイル生成器で生成された運動プロファイルから逆動力学を利用して制御信号を生成する。
この時、自律学習型制御器における５の記録器は１のセンサで検出した状態量および運動プロファイルを示す状態量と、それに対応し９の制御信号生成器で生成された制御信号を組として記録する。学習フェーズにおいては数々の状態量および運動プロファイルからの制御を実施し、多くの状態量および運動プロファイルを示す状態量と制御信号の組を記録（学習）する。
次に自律学習型制御器の実行フェーズの動作について説明する。実行フェーズにおいては学習した状態量および運動プロファイルを示す状態量と対応する制御信号から、センサで検出した状態および運動プロファイルを示す状態量に対応する制御信号を推定する。推定はセンサで検出した状態量および運動プロファイルを示す状態量に対応する制御信号は近傍の状態量および運動プロファイルを示す状態量に対応する制御信号に近いという考えに基づいている。センサで検出した状態量および運動プロファイルを示す状態量に近い複数の状態量を６の近傍データ選択器により、選択する。センサで検出した状態量および運動プロファイルを示す状態量と、複数の近傍の状態量との距離が計算される。センサで検出した状態量および運動プロファイルを示す状態量に対応する制御信号は、センサで検出した状態量および運動プロファイルを示す状態量と複数の近傍の状態量の距離の関係により、複数の近傍の状態量に対応する複数の制御信号への重みづけを実施することにより推定する。
図５に制御信号推定器の動作例を示している。
Ｘはセンサで検出した状態量および運動プロファイを示す状態量を示している。
Ｘ１，Ｘ２，Ｘ３は近傍データ選択器により選択されたＸの近傍の状態量である。センサで検出された状態量と近傍データＸ１，Ｘ２，Ｘ３との距離が計算され、それぞれＲ１，Ｒ２，Ｒ３であるとする。状態量Ｘ１，Ｘ２，Ｘ３に対応する制御信号がそれぞれＹ１，Ｙ２，Ｙ３とすると、Ｘに対応する制御信号Ｙは状態量間の関係を考慮すると、一例として下記の式を使用することが妥当と考えられる。
仮にＸがＸ１に一致している場合、Ｒ１＝０となる。この時のＹはＹ１となり理に適っている。ＸがＸ２またはＸ３に一致する場合は、ＹはそれぞれＹ２またはＹ３となり妥当である。
次にＸがＸ１，Ｘ２，Ｘ３から等距離にあると仮定する。この場合のＹは（Ｙ１＋Ｙ２＋Ｙ３）／３となり妥当である。
上記では近傍のデータの数が３である場合について説明したが、この考えをデータの数をＮに拡張することが可能である。（図５（２／２）参照）
拡張した式は下記で表現することができる。

発明の実施の形態３

（請求項３に対応）

図４はこの発明の一実施例における自律学習型制御器の構成を示した図である。
図４において１は制御対象の状態を検出するセンサである。１０はセンサで検出した状態量から人間系による制御信号生成である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。５は１のセンサで検出した状態量および１０の人間系で生成された制御信号の組を記録する記録器である。６はセンサで検出した状態量の近傍のデータを記録器に記録した状態量の中から複数選択する近傍データ選択器である。近傍データ選択器においては、検出した状態量と複数選択された状態量との近さ（距離）が計算される。７は選択された複数の状態量に対応する複数の制御信号と、上記で計算された検出した情報との近さ（距離）の情報を使用して、検出した情報に対応する制御信号を生成する制御信号推定器である。

次に動作について説明する。
自律学習型制御器の学習フェーズの動作は次のようになる。１０の人間系により生成された制御信号は３のアクチュエータに入力され、３のアクチュエータは４の制御対象を制御する。制御により変化した状態量は１のセンサにより検出される。
この時、自律学習型制御器における５の記録器は１のセンサで検出した状態量と、それに対応し１０の人間系で生成された制御信号を組として記録する。学習フェーズにおいては数々の状態量からの制御を実施し、多くの状態量と制御信号の組を記録（学習）する。
次に自律学習型制御器の実行フェーズの動作について説明する。実行フェーズにおいては学習した状態量と対応する制御信号から、センサで検出した状態に対応する制御信号を推定する。推定はセンサで検出した状態量に対応する制御信号は近傍の状態量に対応する制御信号に近いという考えに基づいている。センサで検出した状態量に近い複数の状態量を６の近傍データ選択器により、選択する。センサで検出した状態量と、複数の近傍の状態量との距離が計算される。センサで検出した状態量に対応する制御信号は、センサで検出した状態量と複数の近傍の状態量の距離の関係により、複数の近傍の状態量に対応する複数の制御信号への重みづけを実施することにより推定する。
図５に制御信号推定器の動作例を示している。
Ｘはセンサで検出した状態量を示している。Ｘ１，Ｘ２，Ｘ３は近傍データ選択器により選択されたＸの近傍の状態量である。センサで検出された状態量と近傍データＸ１，Ｘ２，Ｘ３との距離が計算され、それぞれＲ１，Ｒ２，Ｒ３であるとする。状態量Ｘ１，Ｘ２，Ｘ３に対応する制御信号がそれぞれＹ１，Ｙ２，Ｙ３とすると、Ｘに対応する制御信号Ｙは状態量間の関係を考慮すると、一例として下記の式を使用することが妥当と考えられる。
仮にＸがＸ１に一致している場合、Ｒ１＝０となる。この時のＹはＹ１となり理に適っている。ＸがＸ２またはＸ３に一致する場合は、ＹはそれぞれＹ２またはＹ３となり妥当である。
次にＸがＸ１，Ｘ２，Ｘ３から等距離にあると仮定する。この場合のＹは（Ｙ１＋Ｙ２＋Ｙ３）／３となり妥当である。
上記では近傍のデータの数が３である場合について説明したが、この考えをデータの数をＮに拡張することが可能である。（図５（２／２）参照）
拡張した式は下記で表現することができる。

発明の実施の形態４

（請求項４に対応）

図６はこの発明の一実施例における自律学習型制御器の構成を示した図である。
図６において１は制御対象の状態を検出するセンサである。１１は試行的な制御信号生成器である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。５は１のセンサで検出した状態量および１１の試行的な制御信号の組を記録する記録器である。１２は制御の目標となる状態量を設定する目標設定器である。６は目標とした状態量の近傍のデータを記録器に記録した状態量の中から複数選択する近傍データ選択器である。近傍データ選択器においては、目標とした状態量と複数選択された状態量との近さ（距離）が計算される。７は選択された複数の状態量に対応する複数の制御信号と、上記で計算された目標とした状態量との近さ（距離）の情報を使用して、目標とした状態量に対応する制御信号を生成する制御信号推定器である。

次に動作について説明する。
自律学習型制御器の学習フェーズの動作は次のようになる。１１の試行的な制御信号生成器により生成された制御信号は３のアクチュエータに入力され、３のアクチュエータは４の制御対象を制御する。制御により変化した状態量は１のセンサにより検出される。
この時、自律学習型制御器における５の記録器は１のセンサで検出した状態量と、それに対応し１１の試行的な制御信号生成器で生成された制御信号を組として記録する。学習フェーズにおいては数々の試行的な制御信号を使用した制御を実施し、多くの状態量と制御信号の組を記録（学習）する。
次に自律学習型制御器の実行フェーズの動作について説明する。実行フェーズにおいては学習した状態量と対応する制御信号から、１２の目標設定器で生成された目標の状態に近づける制御信号を推定する。推定は目標とした状態量に近づける制御信号は目標とした状態量の近傍の状態量に対応する制御信号に近いという考えに基づいている。目標とした状態量に近い複数の状態量を６の近傍データ選択器により、選択する。目標とした状態量と、複数の近傍の状態量との距離が計算される。目標とした状態量に対応する制御信号は、目標とした状態量と複数の近傍の状態量の距離の関係により、複数の近傍の状態量に対応する複数の制御信号への重みづけを実施することにより推定する。
図７に目標値に対応する制御信号推定器の動作例を示している。
試行的な制御Ｙ１，Ｙ２，Ｙ３，Ｙ４，Ｙ５・・・ＹＮを実施することにより、制御の結果の状態量がＸ１，Ｘ２，Ｘ３，Ｘ４，Ｘ５・・・ＸＮになったとする。Ｘは目標とした状態量を示している。
Ｘ１，Ｘ２，Ｘ３は近傍データ選択器により選択されたＸの近傍の状態量である。目標とした状態量と近傍データＸ１，Ｘ２，Ｘ３との距離が計算され、それぞれＲ１，Ｒ２，Ｒ３であるとする。状態量Ｘ１，Ｘ２，Ｘ３に対応する制御信号がそれぞれＹ１，Ｙ２，Ｙ３とすると、Ｘに対応する制御信号Ｙは状態量間の関係を考慮すると、一例として下記の式を使用することが妥当と考えられる。
仮にＸがＸ１に一致している場合、Ｒ１＝０となる。この時のＹはＹ１となり理に適っている。ＸがＸ２またはＸ３に一致する場合は、ＹはそれぞれＹ２またはＹ３となり妥当である。
次にＸがＸ１，Ｘ２，Ｘ３から等距離にあると仮定する。この場合のＹは（Ｙ１＋Ｙ２＋Ｙ３）／３となり妥当である。
上記では近傍のデータの数が３である場合について説明したが、この考えをデータの数をＮに拡張することが可能である。（図５（２／２）参照）
拡張した式は下記で表現することができる。

発明の実施の形態５

（請求項５に対応）

図８はこの発明の一実施例における周期誤差を低減する制御器の構成例を示した図である。図８において１は制御対象の状態を検出するセンサである。２は制御信号を生成する制御器である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。１２は１のセンサで検出された状態量から周期誤差の周波数を検出する周期誤差検出器である。１３は１２の周期誤差検出器において検出した周期誤差の周波数の近傍のゲインを大幅に増加させる特定周波数ゲイン増加器である。

次に動作について説明する。
図１０は特定周波数ゲイン増加器の構成例について示したものである。特定周波数ゲイン増加器の具体的実現例としては図１０の上段に示す分母が２次の伝達特性、分子が２次の伝達特性を有したものがある。分母の周波数ω２が低減したい周期誤差の周波数となるように設定する。分子の周波数ω１はω２よりも小さな値に設定する。また分母のダンピング係数ξ２は小さな値に設定する。特定周波数ゲイン増加器の周波数特性を図１０の下段に示す。ゲインは周波数がω２の近傍で大きな値を示す。
てゲインを求めると次の値となる。
ξ２は小さな値に設定すると分母の値が小さくなるため、ゲインを大きく設定できることになる。周波数ω２から離れた周波数領域では大きなゲインの変化および位相の変化は無いため、制御系の安定性を劣化させることは無い。このような特定周波数ゲイン増加器を制御系の中に組み入れると、周波数ω２近傍の制御系のゲインが大きくなるため、周波数ω２近傍の周期誤差を大幅に低減することができる。

発明の実施の形態６

（請求項６に対応）

図９はこの発明の一実施例における周期誤差を低減する制御器の構成例を示した図である。図９において１は制御対象の状態を検出するセンサである。２は制御信号を生成する制御器である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。１３は設定した特定の周波数近傍のゲインを大幅に増加させる特定周波数ゲイン増加器である。

発明の実施の形態７

（請求項７に対応）

図９はこの発明の一実施例における周期誤差を低減する制御器の構成例を示した図である。図９において１は制御対象の状態を検出するセンサである。２は制御信号を生成する制御器である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。１３は設定した複数の特定周波数近傍のゲインを大幅に増加させる特定周波数ゲイン増加器である。

次に動作について説明する。
図１１は複数の特定周波数ゲイン増加器の構成例について示したものである。特定周波数ゲイン増加器の具体的実現例としては図１１の上段に示す分母が２次の伝達特性、分子が２次の伝達特性を有したものがある。まず、一段目の伝達特性について注目すると、分母の周波数ω２が低減したい周期誤差の周波数となるように設定する。分子の周波数ω１はω２よりも小さな値に設定する。また分母のダンピング係数ξ２は小さな値に設定する。特定周波数ゲイン増加器の周波数特性を図１１の下段に示す。ゲインは周波数がω２の近傍で大きな値を示す。より高次の伝達特性であるＮ次についても同様にωＮ＋１近傍のゲインを増加させることができる。
てゲインを求めると次の値となる。
ξ２は小さな値に設定すると分母の値が小さくなるため、ゲインを大きく設定できることになる。周波数ω２から離れた周波数領域では大きなゲインの変化および位相の変化は無いため、制御系の安定性を劣化させることは無い。このような特定周波数ゲイン増加器を制御系の中に組み入れると、周波数ω２近傍の制御系のゲインが大きくなるため、周波数ω２近傍の周期誤差を大幅に低減することができる。より高次の伝達特性であるＮ次についても同様にωＮ＋１近傍のゲインを増加させることができる。

発明の実施の形態８

（請求項８に対応）

図１２はこの発明の一実施例における自律学習型制御器の構成を示した図である。
図１２において１は制御対象の状態を検出するセンサである。８は運動プロファイルを生成する運動プロファイル生成器である。９は８で生成した運動プロファイルから逆動力学を利用して制御信号を生成する制御信号生成器である。３は制御信号から駆動信号を生成するアクチュエータである。４は制御の対象となる制御対象である。５は１のセンサで検出した状態量および８の運動プロファイル生成器で生成された運動プロファイルを示す状態量と９の制御信号生成器で生成された制御信号の組を記録する記録器である。６はセンサで検出した状態量および運動プロファイルを示す状態量の近傍のデータを記録器に記録した状態量の中から複数選択する近傍データ選択器である。近傍データ選択器においては、検出した状態量と複数選択された状態量との近さ（距離）が計算される。７は選択された複数の状態量に対応する複数の制御信号と、上記で計算された検出した情報との近さ（距離）の情報を使用して、検出した情報および運動プロファイルを示す状態量に対応する制御信号を生成する制御信号推定器である。１３は運動プロファイルの周期的な誤差を低減する特定周波数ゲイン増加器である。

次に動作について説明する。
自律学習型制御器の学習フェーズの動作は次のようになる。９の制御信号生成器により計算された制御信号は３のアクチュエータに入力され、３のアクチュエータは４の制御対象を制御する。制御により変化した状態量は１のセンサにより検出される。９の制御信号生成器は１のセンサで検出した状態量および８の運動プロファイル生成器で生成された運動プロファイルから逆動力学を利用して制御信号を生成する。
この時、自律学習型制御器における５の記録器は１のセンサで検出した状態量および運動プロファイルを示す状態量と、それに対応し９の制御信号生成器で生成された制御信号を組として記録する。学習フェーズにおいては数々の状態量および運動プロファイルからの制御を実施し、多くの状態量および運動プロファイルを示す状態量と制御信号の組を記録（学習）する。
次に自律学習型制御器の実行フェーズの動作について説明する。実行フェーズにおいては学習した状態量および運動プロファイルを示す状態量と対応する制御信号から、センサで検出した状態および運動プロファイルを示す状態量に対応する制御信号を推定する。推定はセンサで検出した状態量および運動プロファイルを示す状態量に対応する制御信号は近傍の状態量および運動プロファイルを示す状態量に対応する制御信号に近いという考えに基づいている。センサで検出した状態量および運動プロファイルを示す状態量に近い複数の状態量を６の近傍データ選択器により、選択する。センサで検出した状態量および運動プロファイルを示す状態量と、複数の近傍の状態量との距離が計算される。センサで検出した状態量および運動プロファイルを示す状態量に対応する制御信号は、センサで検出した状態量および運動プロファイルを示す状態量と複数の近傍の状態量の距離の関係により、複数の近傍の状態量に対応する複数の制御信号への重みづけを実施することにより推定する。
図５に制御信号推定器の動作例を示している。
Ｘはセンサで検出した状態量および運動プロファイを示す状態量を示している。
Ｘ１，Ｘ２，Ｘ３は近傍データ選択器により選択されたＸの近傍の状態量である。センサで検出された状態量と近傍データＸ１，Ｘ２，Ｘ３との距離が計算され、それぞれＲ１，Ｒ２，Ｒ３であるとする。状態量Ｘ１，Ｘ２，Ｘ３に対応する制御信号がそれぞれＹ１，Ｙ２，Ｙ３とすると、Ｘに対応する制御信号Ｙは状態量間の関係を考慮すると、一例として下記の式を使用することが妥当と考えられる。
仮にＸがＸ１に一致している場合、Ｒ１＝０となる。この時のＹはＹ１となり理に適っている。ＸがＸ２またはＸ３に一致する場合は、ＹはそれぞれＹ２またはＹ３となり妥当である。
次にＸがＸ１，Ｘ２，Ｘ３から等距離にあると仮定する。この場合のＹは（Ｙ１＋Ｙ２＋Ｙ３）／３となり妥当である。
上記では近傍のデータの数が３である場合について説明したが、この考えをデータの数をＮに拡張することが可能である。（図５（２／２）参照）
拡張した式は下記で表現することができる。
制御信号推定器により生成された制御信号は１３の特定周波数ゲイン増加器に入力される。特定周波数ゲイン増加器では設定された周波数のゲインを制御系の安定性を損なうことなく大幅に増加させることができる。このため、運動プロファイルにより励起された特定周波数の制御誤差は大幅に低減される。

発明の効果１

（請求項１に対応）

第１の発明によれば制御器の詳細内容がブラックボックスでも、センサ情報から検出した状態量と対応する制御信号を記録（学習）することにより、入力された状態量に対応する制御信号を生成することができる。制御対象のモデル化、制御則の設計等が不要であり、開発に要する労力を大幅に低減できる。

発明の効果２

（請求項２に対応）

第２の発明によれば制御器および運動プロファイルに対応する逆動力学の詳細内容がブラックボックスでも、センサ情報から検出した状態量と運動プロファイルから対応する制御信号を生成することができる。制御対象のモデル化、制御則、逆動力学の設計等が不要であり、開発に要する労力を大幅に低減できる。

発明の効果３

（請求項３に対応）

第３の発明によれば、学習フェーズにおいてセンサ情報から検出した状態量と、それに対応して人間系により生成された制御信号を記録（学習）する。実行フェーズにおいては人間系が不要であるため、労力を大幅に低減できる。

発明の効果４

（請求項４に対応）

第４の発明によれば、人間が実施可能である試行的に制御を実施し、その結果として徐々に目標とする状態量に近づける等の動作の実施が可能である。制御対象のモデル化、制御則の設計等が不要であり、開発に要する労力を大幅に低減できる。

発明の効果５

（請求項５に対応）

第５の発明によれば、制御系の安定性を損なうことなく周期的な誤差の影響を低減できる。

発明の効果６

（請求項６に対応）

第６の発明によれば、制御系の安定性を損なうことなく周期的な誤差の影響を低減できる。

発明の効果７

（請求項７に対応）

第７の発明によれば、制御系の安定性を損なうことなく複数の周期的な誤差の影響を低減できる。

発明の効果８

（請求項８に対応）

第８の発明によれば制御器および運動プロファイルに対応する逆動力学の詳細内容がブラックボックスでも、センサ情報から検出した状態量と運動プロファイルから対応する制御信号を生成することができる。制御対象のモデル化、制御則、逆動力学の設計等が不要であり、開発に要する労力を大幅に低減できる。また、運動プロファイルに起因する周期的な誤差の影響を大幅に低減できる。

従来型制御器の構成自律学習型制御器の構成（請求項１）自律学習型制御器の構成（請求項２）自律学習型制御器の構成（請求項３）制御信号推定器の動作例自律学習型制御器の構成（請求項４）目標値に対応する制御信号推定器の動作例周期誤差を低減する制御器の構成例（その１）（請求項５）周期誤差を低減する制御器の構成例（その１）（請求項６）特定周波数ゲイン増加器の構成例特定周波数ゲイン増加器（多段）の構成例（請求項７）自律学習型制御器の構成（請求項８）

１センサ
２制御器
３アクチュエータ
４制御対象
５記録器
６近傍データ選択器
７制御信号推定器
８運動プロファイル生成器
９制御信号生成器
１０人間系による制御信号生成
１１試行的な制御信号生成器
１２目標設定器
１３特定周波数ゲイン増加器

従来型制御器の構成自律学習型制御器の構成（請求項１）自律学習型制御器の構成（請求項２）自律学習型制御器の構成（請求項３）制御信号推定器の動作例制御信号推定器の動作例（状態量に応じた対応関係）自律学習型制御器の構成（請求項４）目標値に対応する制御信号推定器の動作例周期誤差を低減する制御器の構成例（その１）（請求項５）周期誤差を低減する制御器の構成例（その１）（請求項６）特定周波数ゲイン増加器の構成例特定周波数ゲイン増加器（多段）の構成例（請求項７）自律学習型制御器の構成（請求項８）

Claims

センサ情報から検出した状態量と対応する制御信号を記録する記録器と、センサ情報に対し、記録したセンサ情報の中から近いデータを選択する近傍データ選択器と、センサ情報および近傍データの相対関係から記録した制御信号からセンサ情報に対応する制御信号を生成する制御信号推定器を備え、学習したセンサ情報と制御信号の集合からセンサ情報に対応する制御信号を生成する自律学習型制御器。
運動プロファイルを生成する運動プロファイル生成器と、逆動力学を利用して制御信号を生成する制御信号生成器と、センサ情報から検出した状態量と対応する制御信号を記録する記録器と、センサ情報に対し、記録したセンサ情報の中から近いデータを選択する近傍データ選択器と、センサ情報および近傍データの相対関係から記録した制御信号からセンサ情報に対応する制御信号を生成する制御信号推定器を備え、学習したセンサ情報と制御信号の集合からセンサ情報に対応する制御信号を生成する自律学習型制御器。
センサ情報から検出した状態量と、その状態量に対し、人間系により生成された制御信号を記録する記録器と、センサ情報に対し、記録したセンサ情報の中から近いデータを選択する近傍データ選択器と、センサ情報および近傍データの相対関係から記録した制御信号からセンサ情報に対応する制御信号を生成する制御信号推定器を備え、学習したセンサ情報と制御信号の集合からセンサ情報に対応する制御信号を生成する自律学習型制御器。
試行的な制御信号を生成する制御信号生成器と、制御信号および制御の結果、起因する状態量を記録する記録器と、試行的に実施した制御の結果、生じた各状態量の中から目標とする状態量に近いデータを選択する近傍データ選択器と、目標とする状態量と近傍データとの相対関係と近傍データに対応する制御信号から目標とする状態量に対応する制御信号を生成する制御信号推定器を備え、試行的な制御を繰り返すことにより、生じた状態量の候補の中から、さらに目標とする状態量に近づける制御信号推定値を生成する自律学習型制御器。
周期的な誤差を検出する周期誤差検出器と、周期誤差検出器により検出された周期的な誤差の周波数におけるゲインを増加させる特定周波数ゲイン増加器を備え、周期的な誤差を低減する自律学習型制御器。
設定した周波数におけるゲインを増加させる特定周波数ゲイン増加器を備え、周期的な誤差を低減する制御器。
設定した複数の周波数におけるゲインを増加させる特定周波数ゲイン増加器を備え、複数の周期的な誤差を低減する制御器。
運動プロファイルを生成する運動プロファイル生成器と、逆動力学を利用して制御信号を生成する制御信号生成器と、運動プロファイルに対応する周波数におけるゲインを増加させる特定周波数ゲイン増加器を備え、運動プロファイルで示された状態量と実際の状態量との誤差を低減する制御器。