JP4543179B2

JP4543179B2 - 移動体等の制御装置及び方法

Info

Publication number: JP4543179B2
Application number: JP2006219025A
Authority: JP
Inventors: 烈山川; 仁前野
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2006-08-10
Filing date: 2006-08-10
Publication date: 2010-09-15
Anticipated expiration: 2026-08-10
Also published as: JP2008046693A

Description

本発明は制御装置及び方法に関し、特に試行錯誤により制御パラメータを最適化する制御装置及び方法に関する。

下記特許文献１には、船舶のヨーイング（船首揺）の時間範囲を判定するとともに、時間範囲毎にＰＩＤ制御の制御パラメータＫＰ，ＫＩ，ＫＤに一時的変更を加えて使用し、船舶を設定方位に進行させるよう舵機を制御する制御方法が開示されている。この方法では、時間範囲毎に制御の良し悪しを評価し、直前の時間範囲よりも制御が改善しているか否かによって、制御パラメータを更新している。すなわち、下記特許文献１では、試行錯誤により制御パラメータを最適化する方法が開示されている。
特許第３６８３８９０号公報（図９及び図１０参照）

上記特許文献１に記載の方法では、前後する時間範囲における制御の良し悪しを比較して、それにより制御パラメータを更新している。しかしながら、前後する時間範囲における外乱状況が大きく異なると、制御の良し悪しを比較することが無意味となり、結果として適切な制御パラメータの更新ができなくなるという問題がある。

本発明は上記背景のもとでなされたものであって、その目的は、外乱状況によらず制御内容の評価を適正に行い、以って適切に制御パラメータを最適化することができる移動体等の制御装置及び方法を提供することにある。

上記課題を解決するために、本発明に係る制御装置は、制御対象に関する制御量を制御する制御装置であって、制御量を順次取得する制御量取得手段と、前記制御量取得手段により取得される制御量に基づいて、該制御量が所定条件を満たすタイミングを始期及び終期とする時間範囲を順次判断する時間範囲判断手段と、基準制御パラメータを記憶する基準制御パラメータ記憶手段と、前記時間範囲判断手段により判断される時間範囲毎に、前記基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定の変更を加え、変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御する制御手段と、前記時間範囲判断手段により順次判断される時間範囲において前記制御量取得手段により取得される制御量に基づいて、該時間範囲における制御の特徴を示す特徴ベクトルを算出する現在特徴ベクトル算出手段と、複数の特徴ベクトルを記憶する特徴ベクトル記憶手段と、前記現在特徴ベクトル算出手段により算出される特徴ベクトルに基づいて、前記特徴ベクトル記憶手段の記憶内容を更新する特徴ベクトル更新手段と、前記現在特徴ベクトル算出手段により算出される特徴ベクトルとの類似度に基づいて、前記特徴ベクトル記憶手段に記憶される特徴ベクトルのうち１以上を選出するとともに、該選出される特徴ベクトルに応じた特徴ベクトルを取得する過去特徴ベクトル取得手段と、前記過去特徴ベクトル取得手段により取得される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する過去制御評価値算出手段と、前記現在特徴ベクトル算出手段により算出される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する現在評価値算出手段と、前記過去評価値算出手段及び現在評価値算出手段により算出される評価値に基づいて、評価値の改善量を算出する評価値改善量算出手段と、前記評価値改善量算出手段により算出される改善量に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して前記所定の変更に応じた変更を加えることによって、該基準制御パラメータを更新する基準制御パラメータ更新手段と、を含むことを特徴とする。

また、本発明に係る制御方法は、制御対象に関する制御量を制御する制御方法であって、制御量を順次取得する制御量取得ステップと、前記制御量取得ステップで取得される制御量に基づいて、該制御量が所定条件を満たすタイミングを始期及び終期とする時間範囲を順次判断する時間範囲判断ステップと、前記時間範囲判断手段により判断される時間範囲毎に、基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定の変更を加え、変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御する制御ステップと、前記時間範囲判断ステップで順次判断される時間範囲において前記制御量取得ステップで取得される制御量に基づいて、該時間範囲における制御の特徴を示す特徴ベクトルを算出する現在特徴ベクトル算出ステップと、前記現在特徴ベクトル算出手段により算出される特徴ベクトルに基づいて、複数の特徴ベクトルを記憶する特徴ベクトル記憶手段の記憶内容を更新する更新ステップと、前記現在特徴ベクトル算出ステップで算出される特徴ベクトルとの類似度に基づいて、前記特徴ベクトル記憶手段に記憶される特徴ベクトルのうち１以上を選出するとともに、該選出される特徴ベクトルに応じて特徴ベクトルを取得する過去特徴ベクトル取得ステップと、前記過去特徴ベクトル取得ステップで取得される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する過去制御評価値算出ステップと、前記現在特徴ベクトル算出ステップで算出される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する現在評価値算出ステップと、前記過去評価値算出ステップ及び現在評価値算出ステップで算出される評価値に基づいて、評価値の改善量を算出する評価値改善量算出ステップと、前記評価値改善量算出ステップで算出される改善量に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して前記所定の変更に応じた変更を加えることによって、該基準制御パラメータを更新する基準制御パラメータ更新ステップと、を含むことを特徴とする。

本発明によると、基準制御パラメータに試行的に変更が加えられ、その変更が加わった基準制御パラメータにより制御が実行される。そして、その制御の評価に応じて、基準制御パラメータが更新される。すなわち、本発明によると、試行錯誤により基準制御パラメータが最適化される。このとき、特徴ベクトル記憶手段には過去に算出された特徴ベクトル自体、又はそこから算出された特徴ベクトルが記憶されており、新たに特徴ベクトルが算出されると、該特徴ベクトルとの類似度に基づいて特徴ベクトル記憶手段に記憶される特徴ベクトルから１以上が選出される。そして、選出される特徴ベクトルに応じた特徴ベクトル、すなわち選出される特徴ベクトル自体又はそこから算出される特徴ベクトルにより特徴が示される制御の評価値から見た、現在算出されている特徴ベクトルにより特徴が示される制御の評価値の改善量（例えば両評価値の差）が算出され、これに応じて基準制御パラメータが更新される。本発明によると、類似した特徴を有する制御から見た評価の改善量を指標とするので、外乱状況によらず制御内容の評価を適正に行うことができ、この結果、適切に制御パラメータを最適化することができる。

また、本発明の一態様によれば、前記制御手段は、前記基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定値を加える変更及び該所定値を減じる変更を加え、それら変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御し、前記基準制御パラメータ更新手段は、前記所定値を加える変更及び該所定値を減じる変更を加えた場合における前記評価値改善量算出手段により算出される改善量の差に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して、前記所定値に応じた値を加える変更又は該値を減じる変更を加えることにより、該基準制御パラメータを更新する。こうすれば、基準制御パラメータを増加させるのが良いか、減少させるのが良いか、を判断して、適切に制御パラメータを最適化できる。

また、本発明の一態様によれば、前記時間範囲判断手段は、前記制御量取得手段により取得される制御量に基づいて、該制御量が極値をとるタイミング、変曲するタイミング、所定値に一致するタイミングのうちいずれかを始期及び終期とする時間範囲を順次判断する。こうすれば、制御量の変化の区切りを簡易に判断できる。

また、本発明の一態様によると、前記制御対象は移動体であり、前記制御量はその進行方向であり、前記制御手段は前記移動体に備えられた操舵装置を制御する。こうすれば、船舶等の制御を好適に行うことができる。

以下、本発明の実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る自動操舵制御装置の構成を示す図である。同図に示すように、この自動操舵制御装置１０は、船舶（制御対象）に備えられるものであり、針路設定部１２、方位センサ１４、舵角センサ１５、舵機１６、加算器１８，２４、制御パラメータ決定部２０、ＰＩＤ制御部２２及びデッドバンド処理部２６を含んで構成されており、舵機１６を自動操作して、船舶の船首方位を制御するようになっている。

針路設定部１２は、本船舶の進むべき方位θ_０（目標値）を出力する。この方位θ_０は、方位設定つまみにより手動設定されてもよいし、例えば衛星測位システムを含んで構成される公知の船舶機器により演算生成されてもよい。この方位θ_０は、真北を基準とし、そこからのずれ角を右（東）回りに０°〜３６０°の範囲で表したものである。針路設定部１２の出力は負符号を与えられて加算器１８に供給されている。

方位センサ１４は、本船舶の舳先が現在向いている方位θ（制御量）を所定時間毎に出力する。この船首方位θも、真北を基準とし、そこからのずれ角を右（東）回りに０°〜３６０°の範囲で表したものであり、加算器１８に供給されている。なお、船首方位θは、例えばローパスフィルタを施してから出力してもよい（加算器１８の出力に対してローパスフィルタを施してもよい）。

舵機１６は、本船舶に備えられた舵を例えば油圧ポンプやシリンダ等により駆動する舵機駆動部と、実舵角を指令舵角に一致させる舵機制御部と、を含んで構成された公知の船舶機器である。舵機１６には、舵角センサ１５が接続されており、該舵角センサ１５から現在の舵角、すなわち実舵角δｒが出力されるようになっている。実舵角δｒは加算器２４及びデッドバンド処理部２６に供給されている。また、舵機１６は、デッドバンド処理部２６から指令舵角δｒ＋δＤを入力することにより、実舵角をδｒからδｒ＋δＤに変化させるようになっている。

加算器１８は、方位センサ１４から出力される船首方位θと針路設定部１２から出力される基準方位θ_０との偏差を生成し、それをＰＩＤ制御部２２に供給している。なお、加算器１８から出力される偏差θ−θ_０は、±１８０°の範囲に正規化される。

ＰＩＤ制御部２２はＰＩＤ制御（比例制御＋積分制御＋微分制御）を行う公知の制御手段であって、加算器１８及び制御パラメータ決定部２０の出力が供給されており、制御パラメータ決定部２０から供給される制御パラメータ（比例係数ＫＰ、積分係数ＫＩ及び微分係数ＫＤ）に基づいて、加算器１８から供給される方位偏差θ−θ_０（±１８０°の範囲に正規化したもの）から操舵量δＰＩＤを算出する。このＰＩＤ制御部２２はハードウェアのみによって構成されてもよいし、コンピュータと該コンピュータが実行するプログラムによって構成されてもよく、具体的には、図２に示すように、ＰＩＤ制御部２２は、積分器３０、微分器３６、係数乗算器３２，３４，３８、加算器４０を含んで構成されている。そして、加算器１８から出力される偏差θ−θ_０に対して、積分器３０により積分するとともに、積分結果に対して係数乗算器３２により積分係数ＫＩを乗算してδＩを生成する。また、並行して係数乗算器３４により比例係数ＫＰを乗算してδＰを生成する。さらに、並行して微分器３６により微分するとともに、微分結果に対して係数乗算器３８により微分係数ＫＤを乗算してδＤを生成する。加算器４０には、それらの演算結果が入力されており、総和を操舵量δＰＩＤ（＝δＰ＋δＩ＋δＤ）として出力するようになっている。

この操舵量δＰＩＤは加算器２４に供給されている。加算器２４には舵角センサ１５から出力される実舵角δｒも負符号を与えられて供給されており、操舵量δＰＩＤと実舵角δｒとの差分が演算されるようになっている。演算結果はデッドバンド処理部２６に供給されている。

デッドバンド処理部２６は、入力値である操舵量δＰＩＤと実舵角δｒとの差分の絶対値が所定値ＤＢ未満である場合には内部値δＤを零とし、それ以上の場合には入力値をそのまま内部値δＤとする処理を行う。デッドバンド処理部２６には舵角センサ１５から実舵角δｒも入力されている。そして、デッドバンド処理部２６は、この実舵角δｒと内部値δＤとの和を出力し、舵機１６に供給している。こうして、ＰＩＤ制御部２２の出力舵角に不感帯を設けている。このデッドバンド処理部２６も、ハードウェアのみによって構成されてもよいし、コンピュータと該コンピュータが実行するプログラムによって構成されてもよい。デッドバンド処理部２６における入力値と内部値との関係は、図３に示される通りである。

制御パラメータ決定部２０は、ＰＩＤ制御部２２において操舵量δＰＩＤを決定するために用いる制御パラメータ（比例係数ＫＰ、積分係数ＫＩ及び微分係数ＫＤ）を決定する処理を行うものであり、加算器１８から出力される偏差θ−θ_０、ＰＩＤ制御部２２の係数乗算器３２からの出力値δＩ、係数乗算器３４の出力値δＰ、係数乗算器３８の出力値δＤが入力されている。制御パラメータ決定部２０は、これらのデータに基づいて制御パラメータＫＰ，ＫＩ，ＫＤを決定する。この制御パラメータ決定部２０も、ハードウェアのみによって構成されてもよいし、コンピュータと該コンピュータが実行するプログラムによって構成されてもよい。

具体的には、制御パラメータ決定部２０は、図４に示されるように、挙動検出部５０、特徴ベクトル算出部５２、データベース更新部５４、特徴ベクトル抽出部５６、特徴ベクトルデータベース５８、評価値算出部６０、評価値改善量算出部６２、一時記憶部６４、差分算出部６６、基準制御パラメータ更新部６８、基準制御パラメータ記憶部７０、制御パラメータ供給部７２を含んで構成されている。挙動検出部５０には、加算器１８から出力される偏差θ−θ_０が入力されており、船舶の所定挙動（偏差θ−θ_０が極大値をとるタイミングから再び極大値をとるタイミングまでの挙動（水平方向の船首揺，ヨーイング））の時間範囲を順次判断する。

例えば、挙動検出部５０に順次入力される偏差θ−θ_０に基づいて、最新の偏差θ−θ_０から直前の偏差θ−θ_０の差分を順次計算し、その値が正から負に変化するタイミングを制御量である船首方位θが極大値をとるタイミングであると判断する。そして、このタイミングを直前の挙動の終了タイミング、且つ次の挙動の開始タイミングと判断する。すなわち、図５に示されるように、加算器１８から出力される偏差θ−θ_０は一般には増減を繰り返しており、図中波線で示される、偏差θ−θ_０が極大値をとるタイミング、すなわち船首方位θが極大値をとるタイミングを検知し、それをある挙動の開始タイミング、且つ次の挙動の終了タイミングとして特徴ベクトル算出部５２に供給するようになっている。なお、挙動検出部５０は、その他、船首方位θが極小値をとるタイミングや、船首方位θの二階微分が符号反転するタイミング（変曲タイミング）、選手方位θが所定値（例えばθ_０）に一致するタイミング、あるいはそれらに対応するタイミングを、挙動の時間範囲の開始タイミングや終了タイミングとしてもよい。

特徴ベクトル算出部５２には、挙動検出部５０から各挙動の開始タイミング及び終了タイミングが順次供給されるとともに、加算器１８から偏差θ−θ_０が順次供給されている。また、ＰＩＤ制御部２２からδＰ，δＩ，δＤが供給されている。特徴ベクトル算出部５２は記憶手段を備えており、少なくとも１挙動分の偏差θ−θ_０，δＰ，δＩ，δＤが記憶されるようになっている。そして、各挙動の時間範囲において加算器１８から供給された偏差θ−θ_０に基づいて、該挙動の特徴ベクトルの一部要素を算出するようになっている。また、各挙動の時間範囲においてＰＩＤ制御部２２から供給されるδＰ，δＩ，δＤに基づいて、該挙動に関する特徴ベクトルの残りの要素を算出するようになっている。なお、特徴ベクトル算出部５２に記憶手段を設けることなく、逐次特徴ベクトルを算出するようにしてもよい。

ここでは、特徴ベクトル算出部５２は、各挙動の特徴ベクトルの一部要素として、１つの挙動中に取得される偏差θ−θ_０の平均値θｃ、１つの挙動中に取得される偏差θ−θ_０の一階微分値ωの平均値ωｃ、１つの挙動中に取得される偏差θ−θ_０の最大値と最小値との差Δθ（偏差θ−θ_０の振幅）、１つの挙動中に取得される偏差θ−θ_０の一階微分ωの最大値と最小値との差Δω（ωの振幅）を算出するようにしている。図６は、ある挙動に対応する偏差θ−θ_０を、横軸が偏差θ−θ_０であり、縦軸がその一階微分であるωである位相面に表したものであり、特徴ベクトル算出部５２は、同図に示されるθｃ、ωｃ、Δθ及びΔωを特徴量として算出するようにしている。

また、特徴ベクトル算出部５２は、各挙動の特徴ベクトルの残りの要素として、１つの挙動中に取得される偏差θ−θ_０の二階微分値αの平均値αｃ、１つの挙動中に取得される偏差θ−θ_０の二階微分値αの最大値と最小値との差Δα、１つの挙動中に取得されるδＰ，δＩ，δＤのそれぞれの最大値と最小値との差ΔδＰ，ΔδＩ，ΔδＤ（δＰ，δＩ，δＤの各振幅）を算出するようにしている。すなわち、ｎ回目の挙動の特徴ベクトルＰ_ｎは、次式（１）に示すように９つの成分を有する。なお、特徴ベクトルＰ_ｎの成分は、上記の９つの成分のうち一部であってもよい。また、他の数量を成分としてもよい。
Ｐ_ｎ＝（θｃ，ωｃ，Δθ，Δω，αｃ，Δα，ΔδＰ，ΔδＩ，ΔδＤ） …（１）

こうして算出される特徴ベクトルＰ_ｎは、データベース更新部５４、特徴ベクトル抽出部５６及び評価値算出部６０に供給されている。特徴ベクトルデータベース５８は、過去の挙動に関連する複数の特徴ベクトルを記憶しており、データベース更新部５４は、特徴ベクトル算出部５２により算出される特徴ベクトルに基づいて、その記憶内容を更新する。また、特徴ベクトル抽出部５６は、特徴ベクトル算出部５２により算出される特徴ベクトルとの類似度に基づいて、特徴ベクトルデータベース５８に記憶される特徴ベクトルのうち、特徴ベクトル算出部５２により算出される特徴ベクトルと最も類似する１つ（Ｐ_ｗｉｎ）を選び、それを評価値算出部６０に供給する。

具体的には、データベース更新部５４、特徴ベクトル抽出部５６及び特徴ベクトルデータベース５８は、自己組織化マップ（ＳＯＭ；Self-Organizing Map）を構成しており、特徴ベクトルデータベース５８は、ニューラルネットワークの競合層に配置された各ユニットの重みベクトルとして特徴ベクトルを記憶している。そして、データベース更新部５４は、特徴ベクトル算出部５２により特徴ベクトルＰ_ｎが算出されると、該特徴ベクトルＰ_ｎと各重みベクトル（特徴ベクトル）との類似度（例えばユークリッド距離等）を算出し、最も小さな値の類似度（最も類似する）に対応する重みベクトル、及び競合層においてその重みベクトルに係るユニットの周辺に配置されたユニットの重みベクトルを、特徴ベクトル算出部５２により算出される特徴ベクトルＰ_ｎに近づける処理を実行する。また、特徴ベクトル抽出部５６は、特徴ベクトル算出部５２により特徴ベクトルＰ_ｎが算出されると、該特徴ベクトルＰ_ｎと各重みベクトル（特徴ベクトル）との類似度（例えばユークリッド距離等）を算出し、最も小さな値の類似度に対応する重みベクトルを選出し、それを特徴ベクトルＰ_ｗｉｎとして評価値算出部６０に供給する。なお、特徴ベクトル抽出部５６は、特徴ベクトルＰ_ｎとの類似度に基づいて複数の重みベクトルを選出して、それら重みベクトルから特徴ベクトルＰ_ｗｉｎを合成してもよい。なお、データベース更新部５４は、特徴ベクトル算出部５２により算出される特徴ベクトルＰ_ｎをそのまま一定時間だけ特徴ベクトルデータベース５８に記憶させておくものであってもよい。

評価値算出部６０は、特徴ベクトル算出部５２により算出される特徴ベクトルＰ_ｎを次式（２）に代入して、その評価値Ｅ_ｎを算出するとともに、特徴ベクトル抽出部５６により算出される特徴ベクトルＰ_ｗｉｎを同式（２）に代入して、その評価値Ｅ_ｗｉｎを算出する。なお、評価値は、特徴ベクトルの各成分の絶対値についての増加関数であれば、次式（２）に示されるものに限らない。
Ｅ_n＝ｃ１×(θｃ)^２＋ｃ２×(ωｃ)^２＋ｃ３×Δθ^２＋ｃ４×Δω^２＋ｃ５×(αｃ)^２
＋ｃ６×Δα^２＋ｃ７×ΔδＰ^２＋ｃ８×ΔδＩ^２＋ｃ９×ΔδＤ^２ …（２）

評価値改善量算出部６２は、特徴ベクトル算出部５２により算出される特徴ベクトルＰ_ｎに関する評価値Ｅ_ｎと、特徴ベクトル抽出部５６により抽出される特徴ベクトルＰ_ｗｉｎに関する評価値Ｅ_ｗｉｎと、に基づいて、特徴ベクトルＰ_ｗｉｎにより特徴が示される制御から見た特徴ベクトルＰ_ｎにより特徴が示される制御の改善量ΔＥ_ｎを算出する。具体的には、次式（３）により改善量ΔＥ_ｎを算出する。こうして算出される改善量ΔＥ_ｎは一時記憶部６４及び差分演算部６６に供給される。
ΔＥ_ｎ＝Ｅ_ｎ−Ｅ_ｗｉｎ …（３）

基準制御パラメータ記憶部７０は、ＰＩＤ制御部２２に供給する制御パラメータＫ＝（ＫＰ，ＫＩ，ＫＤ）を生成する際の基準となる基準制御パラメータＫ_０＝（ＫＰ_０，ＫＩ_０，ＫＤ_０）を記憶するものである。制御パラメータ供給部７２は、挙動検出部５０により挙動が検出されると、基準制御パラメータ記憶部７０に記憶される基準制御パラメータＫ_０を読み出し、この基準制御パラメータＫ０からΔＫ＝（ΔＫＰ，ΔＫＩ，ΔＫＤ）を減算して制御パラメータＫ_０−ΔＫ＝（ＫＰ_０−ΔＫＰ，ＫＩ_０−ΔＫＩ，ＫＤ_０−ΔＫＤ）を生成し、これをＰＩＤ制御部２２に供給する。また、次に挙動が検出されると、基準制御パラメータ記憶部７０に記憶される基準制御パラメータＫ_０を再び読み出し、この基準制御パラメータＫ_０にΔＫ＝（ΔＫＰ，ΔＫＩ，ΔＫＤ）を加算して制御パラメータＫ_０＋ΔＫ＝（ＫＰ_０＋ΔＫＰ，ＫＩ_０＋ΔＫＩ，ＫＤ_０＋ΔＫＤ）を生成し、これをＰＩＤ制御部２２に供給し、これを繰り返す。すなわち、２回分の挙動を単位に、１回目の挙動では、基準制御パラメータＫ_０からΔＫを減算したものをＰＩＤ制御部２２に供給し、２回目の挙動では、基準制御パラメータＫ_０にΔＫを加算したものをＰＩＤ制御２２に供給している。

一時記憶部６４は一挙動分の時間だけ改善量ΔＥ_ｎを記憶するものである。差分算出部６６には、一つ前の挙動における制御の特徴ベクトルＰ_ｎ−１に関する改善量ΔＥ_ｎ−１と、現在の挙動における制御の特徴ベクトルＰ_ｎに関する改善量ΔＥ_ｎと、が入力されており、次式（４）に示すように、後者から前者を差し引いた値ΔＥを算出する。すなわち、ΔＥは、基準制御パラメータＫ_０にΔＫを加算したものを制御に用いた場合の改善量ΔＥ_ｎと、基準制御パラメータＫ_０からΔＫを減算したものを制御に用いた場合の改善量ΔＥ_ｎ−１と、の差であり、この値は基準制御パラメータ更新部６８に供給される。
ΔＥ＝ΔＥ_ｎ−ΔＥ_ｎ−１ …（４）

基準制御パラメータ更新部６８は、次式（５）に従って基準制御パラメータ記憶部７０に記憶された基準制御パラメータＫ０を更新するものである。ここで、Ｋ_０ ^ｎｅｗは更新後の基準制御パラメータＫ_０、Ｋ_０ ^ｏｌｄは更新前の基準制御パラメータＫ_０、αは係数である。
Ｋ_０ ^ｎｅｗ＝Ｋ_０ ^ｏｌｄ＋α×ΔＥ×ΔＫ …（５）

以上の自動操舵制御装置１０では、方位θを順次取得して、この方位θが所定条件を満たすタイミングを始期及び終期とする時間範囲、すなわち挙動が順次判断される。そして各挙動の時間範囲毎に、基準制御パラメータ記憶部７０から読み出される基準制御パラメータＫ_０に所定の変更（−ΔＫ又は＋ΔＫ）を加え、変更が加わった基準制御パラメータＫ_０±ΔＫに従って方位θが制御される。

このとき、各挙動の時間範囲において取得される方位θに基づいて、該時間範囲における制御の特徴を示す特徴ベクトルＰ_ｎが算出される。そして、この特徴ベクトルＰ_ｎに基づいて、特徴ベクトルデータベース５８の記憶内容が更新される。また、特徴ベクトルＰ_ｎとの類似度に基づいて、特徴ベクトルデータベース５８に記憶される特徴ベクトル（重みベクトル）のうち１以上を選出するとともに、該選出される特徴ベクトルに応じた特徴ベクトルＰ_ｗｉｎが取得される。

そして、特徴ベクトルＰ_ｗｉｎにより特徴が示される制御の評価値Ｅ_ｗｉｎ、及び特徴ベクトルＰ_ｎにより特徴が示される制御の評価値Ｅ_ｎが算出され、その改善量ΔＥが算出される。そして、この改善量ΔＥに応じて、基準制御パラメータ記憶部７０に記憶される基準制御パラメータＫ_０に対して、上記ΔＫに応じた変更を加えること、すなわちα×ΔＥ×ΔＫを加算することによって、基準制御パラメータＫ０が更新される。

本実施形態によると、基準制御パラメータＫ_０に試行的に変更（±ΔＫ）が加えられ、その変更が加わった基準制御パラメータ（Ｋ_０±ΔＫ）により制御が実行される。そして、その制御の評価Ｅｎに応じて、基準制御パラメータＫ_０が更新される。このとき、特徴ベクトルデータベース５８には過去に算出された特徴ベクトル自体、又はそこから算出された特徴ベクトルが重みベクトルとして記憶されており、新たに特徴ベクトルＰ_ｎが算出されると、該特徴ベクトルＰ_ｎとの類似度に基づいて特徴ベクトルデータベース５８に記憶される特徴ベクトルから１つが特徴ベクトルＰ_ｗｉｎとして取得される。特徴ベクトルＰ_ｗｉｎにより特徴が示される制御の評価値Ｅ_ｗｉｎから見た、現在算出されている特徴ベクトルＰ_ｎにより特徴が示される制御の評価値Ｅ_ｎの改善量ΔＥが算出され、これに応じて基準制御パラメータＫ_０が更新される。本実施形態よると、類似した特徴を有する制御から見た評価の改善量ΔＥを指標とするので、外乱状況によらず制御内容の評価を適正に行うことができ、この結果、適切に制御パラメータを最適化することができる。

本発明の実施形態に係る自動操舵制御装置の構成を示す図である。操舵量決定部の構成を示す図である。デッドバンド処理部の処理内容を説明する図である。制御パラメータ決定部の構成を示す図である。方位差（実方位と目標方位との差）の経時変化を示す図である。挙動あたりの方位差とその一階微分の推移を位相面で示す図である。

符号の説明

１０自動操舵制御装置、１２針路設定部、１４方位センサ、１５舵角センサ、１６舵機、１８，２４，４０加算器、２０制御パラメータ決定部、２２ＰＩＤ制御部、２６デッドバンド処理部、３０積分器、３２積分パラメータ乗算部、３４比例パラメータ乗算部、３６微分器、３８微分パラメータ乗算部、５０挙動検出部、５２特徴ベクトル算出部、５４データベース更新部、５６特徴ベクトル抽出部、５８特徴ベクトルデータベース、６０評価値算出部、６２評価値改善量算出部、６４一時記憶部、６６差分算出部、６８基準制御パラメータ更新部、７０基準制御パラメータ記憶部、７２制御パラメータ供給部。

Claims

制御対象に関する制御量を制御する制御装置であって、
制御量を順次取得する制御量取得手段と、
前記制御量取得手段により取得される制御量に基づいて、該制御量が所定条件を満たすタイミングを始期及び終期とする時間範囲を順次判断する時間範囲判断手段と、
基準制御パラメータを記憶する基準制御パラメータ記憶手段と、
前記時間範囲判断手段により判断される時間範囲毎に、前記基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定の変更を加え、変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御する制御手段と、
前記時間範囲判断手段により順次判断される時間範囲において前記制御量取得手段により取得される制御量に基づいて、該時間範囲における制御の特徴を示す特徴ベクトルを順次算出する現在特徴ベクトル算出手段と、
複数の特徴ベクトルを記憶する特徴ベクトル記憶手段と、
前記特徴ベクトル記憶手段に記憶される複数の特徴ベクトルのうち、前記現在特徴ベクトル算出手段により順次算出される特徴ベクトルと最も類似する特徴ベクトルを、該算出される特徴ベクトルに近づけるように順次更新する特徴ベクトル更新手段と、
前記現在特徴ベクトル算出手段により算出される特徴ベクトルとの類似度に基づいて、前記特徴ベクトル記憶手段に記憶される特徴ベクトルのうち１以上を選出するとともに、該選出される特徴ベクトルに応じた特徴ベクトルを取得する過去特徴ベクトル取得手段と、
前記過去特徴ベクトル取得手段により取得される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する過去制御評価値算出手段と、
前記現在特徴ベクトル算出手段により算出される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する現在評価値算出手段と、
前記過去評価値算出手段及び現在評価値算出手段により算出される評価値の差に基づいて、評価値の改善量を算出する評価値改善量算出手段と、
前記評価値改善量算出手段により算出される改善量に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して前記所定の変更に応じた変更を加えることによって、該基準制御パラメータを更新する基準制御パラメータ更新手段と、を含み、
前記制御手段は、前記基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定値を加える変更及び該所定値を減じる変更を加え、それら変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御し、
前記基準制御パラメータ更新手段は、前記所定値を加える変更及び該所定値を減じる変更を加えた場合における前記評価値改善量算出手段により算出される改善量の差に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して、前記所定値に応じた値を加える変更又は該値を減じる変更を加えることにより、該基準制御パラメータを更新する、
ことを特徴とする制御装置。
請求項１に記載の制御装置において、
前記時間範囲判断手段は、前記制御量取得手段により取得される制御量に基づいて、該制御量が極値をとるタイミング、変曲するタイミング、所定値に一致するタイミングのうちいずれかを始期及び終期とする時間範囲を順次判断する、
ことを特徴とする制御装置。
請求項１又は２に記載の制御装置において、
前記制御対象は移動体であり、
前記制御量はその進行方向であり、
前記制御手段は前記移動体に備えられた操舵装置を制御する、
ことを特徴とする制御装置。
制御対象に関する制御量を制御する制御方法であって、
制御量を順次取得する制御量取得ステップと、
前記制御量取得ステップで取得される制御量に基づいて、該制御量が所定条件を満たすタイミングを始期及び終期とする時間範囲を順次判断する時間範囲判断ステップと、
前記時間範囲判断手段により判断される時間範囲毎に、基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定の変更を加え、変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御する制御ステップと、
前記時間範囲判断ステップで順次判断される時間範囲において前記制御量取得ステップで取得される制御量に基づいて、該時間範囲における制御の特徴を示す特徴ベクトルを順次算出する現在特徴ベクトル算出ステップと、
特徴ベクトル記憶手段に記憶される複数の特徴ベクトルのうち、前記現在特徴ベクトル算出手段により順次算出される特徴ベクトルと最も類似する特徴ベクトルを、該算出される特徴ベクトルに近づけるように順次更新する更新ステップと、
前記現在特徴ベクトル算出ステップで算出される特徴ベクトルに基づいて、前記特徴ベクトル記憶手段に記憶される特徴ベクトルのうち１以上を選出するとともに、該選出される特徴ベクトルに応じて特徴ベクトルを取得する過去特徴ベクトル取得ステップと、
前記過去特徴ベクトル取得ステップで取得される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する過去制御評価値算出ステップと、
前記現在特徴ベクトル算出ステップで算出される特徴ベクトルに基づいて、該特徴ベクトルにより特徴が示される制御の評価値を算出する現在評価値算出ステップと、
前記過去評価値算出ステップ及び現在評価値算出ステップで算出される評価値の差に基づいて、評価値の改善量を算出する評価値改善量算出ステップと、
前記評価値改善量算出ステップで算出される改善量に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して前記所定の変更に応じた変更を加えることによって、該基準制御パラメータを更新する基準制御パラメータ更新ステップと、を含み、
前記制御ステップでは、前記基準制御パラメータ記憶手段から読み出される基準制御パラメータに所定値を加える変更及び該所定値を減じる変更を加え、それら変更が加わった基準制御パラメータに従って前記制御対象に関する制御量を制御し、
前記基準制御パラメータ更新ステップでは、前記所定値を加える変更及び該所定値を減じる変更を加えた場合における前記評価値改善量算出ステップで算出される改善量の差に応じて、前記基準制御パラメータ記憶手段に記憶される基準制御パラメータに対して、前記所定値に応じた値を加える変更又は該値を減じる変更を加えることにより、該基準制御パラメータを更新する、
ことを特徴とする制御方法。