JPS608902A

JPS608902A - 学習制御方式

Info

Publication number: JPS608902A
Application number: JP58115849A
Authority: JP
Inventors: Toshinori Watanabe; 俊典渡辺; Koji Sasaki; 浩二佐々木
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1983-06-29
Filing date: 1983-06-29
Publication date: 1985-01-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、制御対象の特性が未知な場合、時間的に変化
する場合、制御対象から検出できる信号が、故障などの
原因で時間的に変化する場合などに、制御効果の高い制
御法を自律的に形成できる学習制御方式に関する。

〔発明の背景〕

従来の学習制御方式の多くは、制御対象に関するモデル
を事前に作成しておき、制御系の運用過程で得られる情
報を用すてモデルを修正し、この修正したモデルを用い
て適切な制御信号を分析し、これを制御対象に印加する
という方式を取っている。このため、制御対象の特性が
不明な場合や、時間的に変化する場合や、制御対象から
検出できる信号が時間的に変化するような場合には、事
前のモデル作シが困難になる。また、たとえモデルを作
シ得るにしても、モデルを用いて適切な制御信号を生成
するための複雑な手続きが必要であるるために、制御手
続きの設計に多くの労力が要求される。多くの労力をか
けて作成した制御手続きも、例えば検出器の故障等が生
ずると前提条件がくずれて用をなさなくなることもある
など柔軟性に乏しい。さらに、制御効果を高めるために
、検出器の改良や制御信号の種類の変更をおこなおうと
すると、最初から再度、制御対象のモデルや制御手続き
を作シなおす必要が生じるなどの問題があ、つた。

〔発明の目的〕

本発明の目的は、以上のような、従来の学習制御方式の
問題点を克服し、制御対象の特性が不明な場合、時間的
に変化する場合、検出信号や制御信号の特性が時間的に
変化する場合などに対しても、適切な制御方式を生成で
きる学習制御方式を提供することにある。

〔発明の概要〕

上記目的を達成するために、本発明においては′ある検
出信号に対して、ある制御信号を発生したら、制御効果
指標はある値を取った”という事実を、制御過程を通じ
て経験的に蓄積して知識ベースとするものである。これ
によって現在の状況に対して有効であると思われる過去
の経験を知識ベースから引き出して利用すると共に、新
たに経験した事実を知識ベース内の過去の経験事実の内
であまり有用でないものと交替させるという進化論的な
、別の言葉で言えば、イノベイティプな手段を利用する
ものである。

〔発明の実施例〕

以下、本発明の実施例を、図面にょシ詳細に説明する。

第１図は、トンネル内の換気システムである。

図で、１００はトンネル、１１０は換気口、１２０は山
、１３０は送風器、１４０は換気制御システム、１５０
，１６０，１７０，１８０はトンネル内状態検出器（各
々は例えば、可視距離やＣＯ２濃度を検出する）である
。１９０は検出信号回線、１９５は送風器制御信号回線
である。

制御システム１４０の使命は、できるだけ効率良く（運
転コストは低くおさえて、空気汚染度は減少するように
）トンネル内の空気を換気することである。

トンネル内空気の汚染度は、走行車の量、トンネルの長
さや広さ、送風器の運転状態、その他機様の要因によっ
て定まる。そこで、これらの要因の間の関係を物理モデ
ル、たとえば拡散方程式と流体の運転方程式とを用いて
パラメタ化された形で記述しておき、事後的に検出でき
る情報たとえば空気汚染度の計測値を用いることによシ
、モデルの未知パラメタを推定し、得られたモデルによ
って送風器の最適化制御をおこなうという従来のアプロ
ーチが考えられる。

しかしながら、既に述べたように、これらの物理モデル
が不正確である場合、夏と冬とで季節風の向きが変わる
ためにトンネル内の空気力学特性が変わる場合、検出器
が故障して今まで観測可能であった信号が観測不可能に
なる場合、送風器の機能の１部が故障して、今まで３レ
ベルの送風強度を選択できたのにもかかわらず、故障後
は２レベルのみ選択できるようになった場合、等々にお
いては、充分に効率良い制御をおこなうことのできる制
御方式をあらかじめ作成することは困難であるし、たと
え作成できるとしても、多くの労力を要することは明ら
かである。

第２図は、本発明のシステム構成例を示したものであ、
？、２００は制御用計算機、２１０はデータファイルで
あシ、内容は前述した知識ベースである。２２０は制御
プログラムである。２３０はトンネル内の状態検出器１
５０〜１８０からのアナログ信号をディジタル信号に変
換するＡ／Ｄ変換器や状態検出器のオン、オフ操作用ス
イッチを含むインクフェイス機能である。２４０は送風
器１３０の運転レベルを切シ換えるスイッチ機能である
。

制御用計算機２００内のプログラム２２０は、状態検出
器１５０〜１８０からの信号を受け取シ、知識ベース２
１０内に蓄積されている制御ルールの内から適当なもの
を呼び出し、ルール上に記述されている制御信号に従っ
てスイッチ機能２４０を操作し、送風器１３０を動作さ
せる。ルールに従った制御を終了した後に、制御特性を
評価して評価指標を作成し、これをルール上に記入した
後に、知識ベース２１０に収納する。

第３図は、送風器動作の一例を示すものである。

図の例では、送風器運転レベルは３レベルとなっておシ
、図中３００は、レベル３の運転を時間長すにわたって
実施することを示している。運転レベルの切シ換えは、
スイッチ機能２４０によって実施される。

第４図は、第２図２１０の知識ベースの内容を示す。

知識ベース内には、条件部４１０と行動部４２０とから
成るコード（４５０〜４７０等。図の例では４８０〜５
００は余白であり、未だコードが格納されていないこと
を示している）が蓄積されている。コードの条件部と行
動部の定義について以下に説明する。

検出信号１，２，３．４・・・・・・図中４３０〜４３
３：検出器１５０〜１８０のアナログ信号をインクフェ
イス機能２３０によってディジタル化したものが記入さ
れる。

汚染度（事前）・・・・・・図中４３４二制御ルールに
従った制御を開始した時点（第３図の例では、時刻ｔ）
での、検出信号１〜４をもとにして計算したトンネル内
空気汚染度が記入される（汚染度定義の１例として、例
えば可視距離と００２濃度の重みつき合計値を使用する
）。

汚染度（事後）・・・・・・図中４３５：制御ルールに
従った制御を完了した時点（第３図の例では、時刻ｔ＋
ｂ）での空気汚染度が記入される。

送風器運用コスト・・・・・・図中４３６：制御ルール
に従った制御開始から、完了までの間の運転動力コスト
が記入される。

評点Ｊｌ　（呼出し用）・・・・・・図中４３７：知識
ベースからルールを呼び出す際に使用される評点が記入
される。評点の定義法は後述する。

評点Ｊ２　（追い出し用）川・・・図中４３８：知識ペ
ースからルールを追い出す際に使用する評点が記入され
る。

年令・・・・・・図中４３９：制御ルールが作成されて以降の経過時間を示す。作成
された時点でルールの年齢は０才であるが、以降、知識
ペースへのルールの収納操作が実施される度に、知識ベ
ース内の全てのルールの年令に１が加えられる。

呼び出し関数用パラメタｒ１・・・１図中４４０追い出
し関数用パラメタ「２・・・・・・図中４４１年令関連
パラメタα・・・・・・図中４４２：知識ベースからの
ルールの呼び出し及び実行後のルールの知識ペースへの
格納に際しては各ルールに対して定義される２つの関数
Ｐ’＋　（Ｖ、　ｙ。

Ｊｌ　＋　’＋　’１　＋　”）およびＰ２　（Ｖ、　
Ｖ、　Ｊ２　。

ｔ、ｒ２．α）を使用する。パラメタｒｌ　、ｒ２゜α
はこれらの関数で使用するパラメタであシｒ１≧０．ｒ
２≧０．α≧０である。第５図は、これらの関数を視覚
化したものである。図でたて軸Ｐは関数値、横軸Ｙは検
出信号数だけの次元を持つベクトル空間である（図の例
では１次元空間）。

図には２つのルールに対応した合計４個の関数が表示し
である。点ｙｘ　、Ｙ２は、２つのルールの条件部（第
４図４１０）の検出信号ベクトル（第（９）４図の例では４３０〜４３３）を図示したものである。

ルール１の関数はｐＨとＰＩ３、ルール２の関数はＰ２
１とＰ２２である。上記のパラメタｒｌ。

ｒ２＋αを変化させると、これらの関数の形を変えるこ
とができる。関数ｐＨ＋　Ｐ２１は知識ベースからルー
ルを呼び出す時に使用する。たとえば今仮に知識ベース
内にはこれら２つのルールしか存在しないと仮定し、検
出信号ベクトルがｙであったとする。点ｙにおいて関数
Ｐ１の値が最小となるのは、ルール２である。よって、
ルール２を呼び出して制御に使用する。この際、実際に
は、Ｐｌ値の小さいルールを複数選び、その中から乱数
によってひとつを選択するという確率的方法を用いる方
式をとる。この理由は、実際には大して有効でないルー
ルであるのにもかかわらず、たまたま良好な特性を示し
たルールが知識ベース内に増殖することを防止するため
である。次に、信号ベクトルｙのもとで呼び出したルー
ル２を制御に使用した後に再度知識ベースに格納する場
合の説明をおこなう。知識ベース内にルール収納スペー
ス（１０）（第４図では４８０〜５００）が存在すれば、特に問題
は無い。収納スペースが無い場合には、点ｙにおいて関
数Ｐ２の値が最大となるルール（図ではルール１）を追
い出し、そこに格納する。図示したようにＰｌとしては
単１の最小値をもつ関数を、Ｐｌとしては単１の最大値
を持つ関数を選ぶことによシ、検出信号ｙに類似のｙを
持ち、かつ特性の良いルールを呼び出すこと、及びｙに
類似のｙを持ち、かつ特性の悪いルールを追い出すこと
ができ、知識ベースは使用される都度、洗練されてゆく
。

関数ＰＩ、Ｐ２の数式的定義法は種々考えられるがここ
ではその１例を下記に示す。

Ｐｌ（Ｖ＋　Ｌ　Ｊｓ　＋　’＋　’！＋　”）Ｐｌ　
（Ｖ＋　ｙｌ　Ｊ２　＋　１＋　’２　＊　”）（１１
）式中Ａ　（’　ｌ　×）は、ベクトルＸの距離（ノルム
）をめる関数であ、９Ａ（ｒ、０）＝０である。

ｒ＝（ｒ＋　Ｉ　ｒ、）＋　Ｘ＝（ＸＩ　Ｘ２　）の場
合の１例としてＡ（ｒ、Ｘ）”ｒｌｌＸｌｌ＋ｒ２１Ｘ
２１が可能である。ここで、ＩＸｔｌはＸｌの絶対値で
ある。

式においてＰｌとＰｌの頂点（ｙ＝ｙの点）は、年令１
＝００時、Ｐ１＝Ｊｌ、Ｐ２＝Ｊ２となる。

ｙがｙから離れるに従ってＰＩは増加、Ｐｌは減少する
。年令ｔが増大するとＰｌ、Ｐｌともに増加して１００
に漸近する。ここで定数１００は、第５図のたて軸の定
義域の最大値として便宜的に定めたものである。

以上知識ベースの条件部について詳述したが、つぎに行
動部について説明する。

送風器運転レベル・・・・・・図中４４３：送風器をど
のレベルで運転するかを示す信号が記入される（第３図
の例では、１，２．３のいずれかの値）。

送風器運転時間・・・・・・図中４４４（１２）：送風器を、上述したレベルで、伺時間運転するかが記
入される。

デフォルト・ルール・・・・・・図中４５０：検出信号
ベクトル部に全て米が記入されている。米は任意の実数
との距離が０である仮想数値であると定めておく。前述
の関数Ａ（ｒ＋、Ｖ−ｙ）において、例えばＹ＝（Ｙｓ
、米）、ｙ＝（米、ｙ２）ならば、Ａ＝０となる。すな
わち、デフォルト・ルールの検出信号ベクトルと任意の
検出信号ベクトルとの距離はＯとなる。次に、Ｊ！＝９
０．Ｊ２　＝０．年令関連パラメタα＝０である。関数
Ｐ＋　、Ｐｌの定義にこれらのパラメタを与えると、本
ルールに付随する関数Ｐ１゜Ｐｌは任意の信号ベクトル
ｙにおいて、年令ｔに依存せずＰｔ　＝９０．Ｐｌ　＝
０となることがわかる。すなわち、本ルールはきわめて
呼び出されにくいし、また追い出されにくいが、いかな
る信号ベクトルによってでも呼び出すことができる。す
なわち、他に良好なルールが存在しない時に代用ルール
としての機能を果たすという性質をもって（１３）いる。

その他のルール・・・・・・図中４６０，４７０：検出
信号ベクトルをはじめ、棟々の情報が記入されている。

これらは、制御経験が蓄積されたものである。図中４６
０の意味は次の通シである。

検出信号ベクトル（０，２，０，７，０，９，０，１）
、事前の汚染度２．０のもとで、送風器をレベル３゜０
．４時間の条件で運転制御した結果、事後汚染度は０．
５となったが、送風器運用コストは２．０単位必要であ
った。そこで、Ｊｔ　＝　Ｊ２　”　３０という評点を
与えた（評点の与え方については後述する）。このルー
ルが形成されてから５単位の時間が経過している。この
ルールに付随する関数ＰＩ　。

Ｐｌのパラメタは’１′、’２′、α′である。

第６図は、第２図２２０のプログラムの動作を示したも
のである。

制御用計算機２００の電源投入と共に、プログラムは動
作開始（６００）Ｌ、制御対象からの信号検出（６１０
）をおこなう。この検出信号ｙにもとづいて、知識ペー
ス内の各ルールに関する関（１４）数値Ｐ＋（シ゛＋　Ｙｒ　Ｊ１＋　ｔ、　’！　＋α）
を計算するなど、前述の方法を用いて呼び出すルールを
決める（６２０）。呼び出されたルールを仮にＲと記す
。

次に、呼び出したルール凡の行動部のパラメタを乱数に
よって変動させる（６３０）。これは、過去の経験の単
純な繰り返しを防止するために実施するものである。第
４図のルール４７０を呼び出したと仮定して、具体的−
例を説明する。運転レベル２に対して（０，１）範囲の
一様乱数を発生させ、乱数値が０．９以上だったらレベ
ルをひとつ増加させるとする。もし増加不可ならばその
ままとする。乱数値が０．１以下だったら、レベルをひ
とつ下げる。同じように、運転時間に対しても適当な方
法で変更操作を加える。

次に、事前汚染度を計測してＲ上の条件部の該当部に記
入し、タイマーを０セツトしく６４０）、変更後のルー
ルの行動部の情報に従って第２図２４０のスイッチ機能
を操作する。

時間計測を繰り返しく６５０）、上記で設定した運転時
間を超えたら、制御効果の評価（６６０）（１５）をおこなう。その具体的方法の１例は第７図で説明する
。次いで、評価値などを実行筒のルールＲ上に記入する
（６７０）。具体的には、検出信号ｙ（ルール凡の呼び
出しに使用したもの）の凡の検出信号部への記入、事後
汚染度の計測とＲへの記入、送風器運用コストの計算と
Ｒへの記入、評点Ｊ＋　、Ｊ２の作成とＲへの記入、Ｒ
上の年令項の０セツト、パラメタ’１　＋　’２　＋α
の設定（これは、呼び出した段階でＲ上に記入されてい
たものをそのまま使用しても良い。特性の悪いルールを
早く知識ペースから追い出そうと思えば、評点Ｊ１に比
例した年令関連パラメタαを設定すれば良い）をおこな
う。これらの情報記入によって、呼び出されたルールＲ
は変化する。変化後のものをＲ′と記す。

以上の評点Ｊｌ、Ｊ２の作成は実際に制御を作動した結
果にもとづいているが、実際に装置を作動するまでもな
くコンピュータシミュレーションで装置を作動した場合
相当のデータを得て作成することも可能である。

（１６）次に、Ｒ′を知識ペースに収納する（６８０）。

この際、Ｒ′上の検出信号ベクトルｙにおける知識ペー
ス内の各ルールの関数Ｐ２の値を用いて、前述した方法
で追い出すべきルールを決める（知識ペースにスペース
余裕があれば、追い出しをおこなわず、スペース上に収
納する）。次に、知識ペース内の全てのルールの年令に
１を加えて加令する。

第７図は、運用コストと、汚染度変化とを与えた時、評
点Ｊ＋　、Ｊ２を算出する方法の１例を示すものであム
第２図２２０のプログラムの１部として、あらかじめ組
み込んでおく。運用コストは、送風器運転レベルと、運
転時間と、単位時間あたりの電力費用などから計算する
。計算に必要な基本データは、あらかじめプログラム２
２０に組み込んでおく。汚染度変化は、事後汚染度から
事前汚染度を引くことによって計算する。図の例では、
運用コストと汚染度変化を両軸とする平面が、ゾーンＡ
からゾーンＧまでの計６個のゾーンに分割されておシ、
各ゾーンに対して、制御効果（１７）評点Ｊｒ　、Ｊ２があらかじめ与えである。１例として
、多くの運転コストをかけたのにもかかわらず、汚染度
が増大するような場合はゾーンＡに対応し、Ｊｔ　＝Ｊ
２　＝　１２０という評点が与えられる。よって、この
ようなルールは知識ペースにたとえ収納されたとしても
、再度呼び出される確率は低く、年令の増加と共に知識
ペースから早急に追い出されてゆく。逆に、ゾーンＦに
対応するルールが知識ベース内に収納されると、度々呼
び出され、従って自己の変異形を知識ベース内に増加さ
せる。よって、制御システム全体としてみると、次第に
効果的な制御方式を学習する機能が実現されることにな
る。つぎに送風器の特性が変化した場合の１例として送
風器を新型のものと取り換えたため、運転レベルが追加
された場合に対処できる一方式について説明する。例え
ば、レベル４が追加されたとする。これに対処する１つ
の方式として第８図を示した。第８図は計算でめた制御
タイプ（上記実施例では、レベル１，２．３の３タイプ
があった）を実際の指示に変換するテープ（１８）ルであってプログラム２２０内に保有されている。

図に示したように、この例ではあらかじめ５個の制御タ
イプを用意しておき、その内３個については実際の指示
をおこなうが、２個については制御タイプを再計算させ
るようにするものである（８１０，８２０による）。制
御タイプ４が追加されると図中の８１０部のビットを０
にして、８３０部にビット１を新たに立てる。

（１９）（２０）以上、トンネルにおける換気制御を実施例として詳細な
説明をおこなったが、本発明はこの倒板外にも種々の対
象に適用可能である。第１表に、本発明の適用可能と考
えられる対象の例と適用に際しての概要および検出信号
、制御信号、制御効果指標を示した。

〔発明の効果〕

トンネル内、換気制御システムを中心に説明した実施例
の説明内容かられかるように、本発明を用いた学習制御
方式においては、制御対象に関するモデルは必要でない
。第４図４５０に示したデフォルト・ルールを１本だけ
知識ベース内に収納しておけば、これが使用されるたび
に新しいルールが作成され、知識ベースに追加されてゆ
き、しかも特性の良いルールが特性の悪いルールを次第
に放逐するので知識ベース全体としての特性は高まって
ゆく。このため、従来の学習制御システムの設計でおこ
なわれていたように、制御対象のモデリングや学習制御
方式の設計及びプログラミングに多くの労力をかける必
要はなくなる。

（２１）次に、制御対象の性質が時間的に変化する場合を考える
。従来の方式では、対象の特性が大幅に変化すると、学
習制御方式の設計前提がくるってしまうので、学習が不
可能になることが多い。これに対して本発明では、対象
の性質を学習制御の前提として利用しておらず、対象か
ら検出した信号とそのもとで実行した制御、及びその時
の効果のみを利用して学習制御をおこなう。このため、
従来方式よシも学習に時間がかかる場合はあるが、対象
の特性が変化する場合にも学習を続行することが可能で
ある。

次に、検出器や送風器の特性が故障などによって変化す
る場合について考える。従来の学習制御方式では、これ
らの変化に対して対処することは大変むつかしい。たと
え可能であったとしても、あらかじめ、種々の場合を想
定しておき、学習過程がそれらの変化に対処できるよう
にしておく必要がある。ところが本方式では、それはき
わめて簡単に実現できる。例えば、第２図において、検
出器１５０が故障し、固定した（例えば０の）値（２２
）のみを出力するようになったとする。この時、第４図４
３０部の値がＯとなったルールしか生成されなくなる。

しかしながら、知識ペース内の古い（検出器１５０が正
常であった時に蓄積した）ルールは年令の増加と共に次
第に追い出されてゆくので、しばらく時間が経過した後
には、知識ペースは検出信号２，３．４のみを前提とし
た学習を完了する。新しい状態に対する学習が充分に進
展するまでの遷移の時間帯においても、特に問題は発生
しない。その理由は、検出器１５０が正常であった時期
に学習した知識ペース内のルールの内、特性の良いもの
を呼び出すということは常に実施されるからである。逆
に、制御系を設計した当初の段階では利用できなかった
検出器を、制御系設置後に取りつける必要が生じた場合
を考える。この場合に対処するには、あらかじめ第４図
４３３の部分の右側に余白を設けておき、新たに検出可
能となった信号をここに記入するだけで良い。追加した
信号は、その時点から即座に利用されるようになる。

（２３）次に、送風器の特性が変化した場合について考える。第
３図で、運転レベル２が故障して動作不能となったと仮
定する。この結果、今までレベル２の制御を指令してい
たルールを使用した時の制御効果は悪くな）、従って評
点Ｊ１＋Ｊ２は大きな値を取るようになる。このため、
運転レベル２を指令するルールは知識ペースから次第に
追放されてゆく。逆に、送風器を新型のものと取シ換え
たために、運転レベルが追加され、例えば、レベル４が
追加された場合の１対処の仕方については第８図を中心
に説明したがこのほか第６図の６３０の処理を若干変更
して、レベル４の制御信号を発生できるようにする方式
も可能である。

【図面の簡単な説明】

第１図は、本発明実施例のトンネル空気換気系の概念図
、第２図は、本発明実施例における制御系の構成図、第
３図は、本発明実施例における送風器運転状況の説明図
、第４図は、本発明実施例の構成要素のひとつである知
識ペースと、その内部の説明図、第５図は、本発明実施
例における知（２４）識ペースからのルールの呼び出し及び追い出しに使用す
る関数の概念図、第６図は、本発明実施例におけるプロ
グラムのフローチャート、第７図は、第６図６６０にお
ける制御効果評価方式の１例を示すグラフ、第８図は、
本発明実施例における制御タイプの変更に対処するだめ
のタイプ変換表の１例を示す説明図。１３０・・・送風器、１５０〜１８０・・・状態検出器
、２００・・・制御用計算機、２１０・・・知識ペース
用データファイル、２２０・・・制御プログラム、２３
０・・・インタフェイス機能（Ａ／Ｄ変換、オンオフ操
（２５）第　２　図Ｙ　３　図ｔ　兄十ｂ第　５図ＰＹ　乙　図 χ　γ　口第　８　図

Claims

【特許請求の範囲】１、少なくも制御対象からの検出信号、制御効果の指標
、を制御ルールに記述するステップと、該制御ルールを
ファイルに蓄積するステップと上記制御対象からの検出
信号によって上記ファイルから適切なルールを呼び出す
ステップと、呼び出したルール上の制御信号部の情報を
改変するステップと該改変後の情報によって制御対象を
制御した際の制御特性を評価して評価指標をルール上に
記入するステップと、該ルールの評価指標にもとすいて
該ルールを上記ファイルに書き込むステップを有するこ
とを特徴とする学習制御方式。２、該ルールの評価指標と上記ファイル内のルールの評
価指標を比較し、上記ファイル内のルールの抹消の可否
を判断する特許請求の範囲第１項記載の学習制御方式。