JPH10254505A - 自動制御装置 - Google Patents

自動制御装置

Info

Publication number
JPH10254505A
JPH10254505A JP9061321A JP6132197A JPH10254505A JP H10254505 A JPH10254505 A JP H10254505A JP 9061321 A JP9061321 A JP 9061321A JP 6132197 A JP6132197 A JP 6132197A JP H10254505 A JPH10254505 A JP H10254505A
Authority
JP
Japan
Prior art keywords
state
moving body
reward
error
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9061321A
Other languages
English (en)
Inventor
Yasuharu Koike
康晴 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP9061321A priority Critical patent/JPH10254505A/ja
Publication of JPH10254505A publication Critical patent/JPH10254505A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 任意の軌道に精度よく沿って移動体を自動運
転や自律走行させることができる。 【解決手段】 自動制御装置の内部に構築可能なフィー
ドバック系として、目標出力部30、誤差演算部32、
コントローラ部34、予測部36から構成され、目標出
力部30から出力される車両が走行すべき道路の形状を
表す形状情報がコントローラ部34に入力され、操作量
が求められて予測部36へ出力される。予測部36は車
両の所定時間後の状態を予測して出力しその出力がコン
トローラ34へフィードバックされる。また、コントロ
ーラ34へのフィードバックを評価するため、予測部3
6の出力は誤差演算部32にも出力される。誤差演算部
32では、目標出力部30から出力される形状情報と予
測部36の出力情報との誤差を求めることによりコント
ローラ部34の振る舞いを監視すると共に、誤差が小さ
い程大きくなる報酬を求める。この報酬が大きくなるよ
うにコントローラ部34が学習される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自動制御装置にか
かり、特に、車両等の移動体について自動運転や自律走
行を可能にする自動制御装置に関する。
【0002】
【従来の技術】近年の省力化に伴って、無人でかつ自動
的に走行させる無人搬送車等の移動体が実用化されてい
る。一例としては、移動体の位置を検出して移動させる
べき軌道からのズレを求めて所定の利得でフィードバッ
クしながらズレを補正し移動体を移動させるものがあ
る。
【0003】しかしながら、移動体の移動における直線
移動部と旋回移動部とでは、同一の利得でフィードバッ
ク制御すると、移動体にハッチング動作が生じたり、ズ
レ量が増加したりすることがあった。
【0004】このため、複数の利得を予め定め、移動体
の位置に応じて1つの利得を選択し、選択した利得で所
定の軌道からのズレを補正するようにした技術が開示さ
れている(特開平3−54601号公報参照)。
【0005】
【発明が解決しようとする課題】しかしながら、複数の
利得を予め定めているので、任意の軌道について全てを
網羅するものではなく、予め定めた利得でフィードバッ
ク制御しきれない軌道についてはフィードバック制御の
精度が低下するので、移動体が軌道から大幅にずれたり
ハッチング動作が生じたりする場合がある。
【0006】本発明は、上記事実を考慮して、任意の軌
道に精度よく沿って移動体を自動運転や自律走行させる
ことができる自動制御装置を得ることが目的である。
【0007】
【課題を解決するための手段】上記目的を達成するため
に請求項1に記載の発明の自動制御装置は、移動体の目
標状態を入力するための入力手段と、前記移動体の状態
を変更させるための操作量による前記移動体の所定時間
後の予測状態を予測する予測手段と、目標状態及び予測
状態と、前記移動体の操作量との対応関係を定めるため
の係数が変更可能でかつ、該係数による対応関係を用い
て前記目標状態及び予測状態から前記移動体の状態を変
更させるための操作量を決定する決定手段と、前記移動
体の目標状態と前記予測状態との誤差を演算すると共
に、該誤差に基づいて前記係数を調整する誤差調整手段
と、を備えている。
【0008】請求項2に記載の発明は、請求項1に記載
の自動制御装置において、前記移動体の状態は、前記移
動体の位置、または前記移動体の位置と前記移動体の姿
勢及び移動方向の何れか一方とで表される前記移動体の
挙動を表すことを特徴とする。
【0009】請求項3に記載の発明は、請求項1または
2に記載の自動制御装置において、前記誤差調整手段
は、前記移動体の予測状態に対して前記目標状態に前記
移動体の状態が変更されるに従って大きくなる報酬を演
算する報酬演算手段と、前記報酬が大きくなるように前
記係数を調整する調整手段と、から構成されることを特
徴とする。
【0010】請求項4に記載の発明は、請求項3に記載
の自動制御装置前記報酬演算手段は、前記移動体の予測
状態に対して予め定めた所定条件により報酬を演算する
報酬手段と、前記移動体の予測状態を評価する評価手段
と、から構成され、前記調整手段は前記報酬及び評価の
差が所定値になるように前記係数を調整することを特徴
とする。
【0011】請求項5に記載の発明は、請求項1乃至請
求項4の何れか1項に記載の自動制御装置において、前
記決定された操作量だけ前記移動体の状態を変更させる
ための駆動手段をさらに備えたことを特徴とする。
【0012】請求項1の発明では、入力手段によって、
移動体の目標状態が入力される。この移動体の状態に
は、請求項2にも記載したように、移動体の位置、また
は移動体の位置と移動体の姿勢及び移動方向の何れか一
方とで表される移動体の挙動がある。従って、移動体の
目標状態としては、移動体の目標位置、または移動体の
目標位置と移動体の目標姿勢及び移動する目標方向の何
れか一方とで表される移動体の目標挙動があり、例え
ば、車両では道路形状として表される移動体の目標挙動
がある。予測手段は、移動体の状態を変更させるための
操作量による移動体の所定時間後の予測状態を予測する
ものである。この操作量には、例えば、車両では、操舵
角、アクセル踏み込み度、ブレーキ踏み込み度等の車両
操作量がある。また、電気により移動する移動体では、
負荷電圧や負荷電流等を変更する変更度を用いることが
できる。
【0013】決定手段は、目標状態及び予測状態と、移
動体の操作量との対応関係を定めるための係数が変更可
能でかつ、該係数による対応関係を用いて目標状態及び
予測状態から移動体の状態を変更させるための操作量を
決定する。この決定手段には、入力と出力とを重みによ
る係数で関係づけることが可能なニューラルネットワー
ク等の神経回路モデルで構成することができる。
【0014】誤差調整手段は、移動体の目標状態と予測
状態との誤差を演算すると共に、この誤差に基づいて決
定手段の変更可能な係数を調整する。予測状態が目標状
態に略一致するときは操作量を変更する必要がないの
で、係数はそのまま維持させればよい。一方、予測状態
が目標状態より異なるときには決定手段から出力される
操作量が将来目標状態に至るように決定手段の係数を調
整する。この調整を繰り返し行うことによって、移動体
の任意の目標状態、例えば任意の目標軌道であっても、
その目標状態に沿った操作量を出力することができ、目
標状態に合致した自動制御が可能となる。すなわち、多
様な経路であっても、移動体を自動的かつ精度よく移動
させることができる。
【0015】前記誤差調整手段は、請求項3にも記載し
たように、移動体の予測状態に対して目標状態に移動体
の状態が変更されるに従って大きくなる報酬を演算する
報酬演算手段と、報酬が大きくなるように係数を調整す
る調整手段と、から構成することができる。この報酬
は、目標状態に移動体の状態が変更されるに従って大き
くなる。すなわち、移動体の予測状態が目標状態に近く
なるほど大きくなる。これにより、報酬が大きくなるよ
うに係数を調整することで、目標状態に合致した自動制
御が可能となる。
【0016】この報酬演算手段は、請求項4にも記載し
たように、移動体の予測状態に対して予め定めた所定条
件により報酬を演算する報酬手段と、移動体の予測状態
を評価する評価手段と、から構成することができる。そ
して、調整手段は報酬及び評価の差が所定値になるよう
に係数を調整する。報酬手段では、予め定めた所定条件
により報酬を演算するので、例えば、操舵がうまくいっ
たとき報酬有りでうまくいかなかったとき報酬なし、と
いうように、質的に異なる情報から求めることができ、
これにより質的に異なる情報から操作量を定めることが
できる。また、評価手段は、移動体の予測状態を評価す
るもので、前記決定手段と同様に、入力と出力とを重み
による係数で関係づけることが可能なニューラルネット
ワーク等の神経回路モデルで構成することができる。従
って、評価手段で、移動体の予測状態が目標状態に近く
なるに従って評価が大きくなるように定めることで、調
整手段により報酬及び評価の差が所定値になるように決
定手段の係数を調整すれば、決定手段が目標状態に沿う
ように操作量を決定して、報酬手段と評価手段との報酬
及び評価が一致される。
【0017】なお、調整手段において、所定時間後の将
来にわたるまでの報酬の総和を求め、その総和が大きく
なるように決定手段の係数を調整することもできる。こ
のように所定時間後の将来にわたるまでの報酬を求める
ことで、現在の操作量に対する将来の報酬を考慮するこ
とができ、即時的な調整に比べて時間幅を有する冗長的
な調整が可能となる。
【0018】前記自動制御装置には、請求項5に記載し
たように、前記決定された操作量だけ前記移動体の状態
を変更させるための駆動手段をさらに備えることによっ
て、容易に移動体の状態を変更させることができる。
【0019】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態の一例を詳細に説明する。本実施の形態は、車
両が道路に沿って走行し続けるための車両のステアリン
グの操舵角δである操作量を制御入力としてその制御入
力を学習により獲得する自動制御装置に本発明を適用し
たものである。
【0020】なお、本実施の形態の自動制御装置は、道
路に沿って走るための直接の制御入力を与えなくても、
現在の状況がどのくらい良いかを示す報酬を最大にする
ように自動的に学習することで、実際の操舵角等の制御
入力の量を決定することができるものであり、(1)
「質的に異なる情報を用いて制御入力(操作量)を学習
する」と、(2)「判断を行なう部分も学習によって獲
得する」とを主要な特徴とする。
【0021】図1に示すように、本実施の形態の自動制
御装置10は、制御装置本体12、制御入力装置24、
駆動手段としての制御出力装置26、及び形状出力装置
28から構成されている。制御入力装置24には、車両
11に備えられたステアリングの回転による操舵角や角
速度の操舵状態信号が入力されると共に、ブレーキペダ
ルやアクセルペダルの踏み込みまたは踏み戻し量や速度
の車両状態量信号が入力される。なお、本実施の形態で
は操作角を操作量(制御入力)として用いている。これ
らの操舵状態信号及び車両状態量信号から車両11のス
リップ角やヨーレイトを求めることができる。また、制
御入力装置24には、車両11の重量が予め記憶されて
いる。制御出力装置26は、操舵角や角速度の操舵状態
を変更すると共に、ブレーキペダルやアクセルペダルの
踏み込みまたは踏み戻し量や速度の車両状態を変更する
駆動装置である。形状出力装置28は、車両11が走行
すべき道路の形状を表す形状情報を出力するためのもの
である。なお、形状出力装置28は、形状情報を記憶し
その形状情報を出力するものであってもよい。
【0022】制御装置本体12は、CPU14、RAM
16、ROM18、入出力装置(I/O装置)20を備
えたマイクロコンピュータで構成されており、これらは
バス22によってコマンドやデータを授受できるように
接続されている。なお、ROM18には、後述する処理
ルーチンが予め記憶されている。I/O装置20には制
御入力装置24、制御出力装置26、及び形状出力装置
28が接続されている。
【0023】本発明者は、種々検討を加えた結果、異分
野に利用されているTemporal Difference 学習(TD学
習)を運動学及び動力学的にモデル化された移動体の自
動制御と言う特殊分野に応用することに着目し、検討を
試み、具体的に自動制御装置として確立したものであ
る。具体的には、連続時間版のTD学習を用いて、道路
情報と自車情報から自動車の制御入力である操舵角を計
算するモデルを学習し、そのモデルを用いて、未学習の
道路形状に沿って移動体を走行させるものである。
【0024】すなわち、移動体である車両を最初に運転
するとき、操作者は、道路を右折や左折したり、レーン
チェンジしたりするときのステアリングの回転量を教わ
ることなく、走行結果で道路から逸れたか否かによりそ
の操作が適正か否かを判断し、繰り返し訓練することに
よって適正に操作できるようになる。そこで、本発明者
は、車両の運転に関する訓練は、直接の制御入力の操舵
角の入力に関連しない、道路から逸れたか否かの判断に
よっての学習であることに着目した。
【0025】また、本発明者は、「高等動物の神経回路
網を工学的にモデル化された非線形予測技術、例えばニ
ューラル・ネットワーク」を、運動学及び動力学的にモ
デル化された移動体をフィードバック制御するもの等に
応用することに着目し、検討を試み、具体的に適用し
た。
【0026】次に、本実施の形態の自動制御装置10の
学習概念を説明する。図2には、自動制御装置10の内
部に構築可能なフィードバック系をブロック図として示
した。このフィードバック系は、入力手段としての目標
出力部(Context )30、誤差調整手段としての誤差演
算部(Critic)32、決定手段としてのコントローラ部
(Actor )34、予測手段としての予測部(Environmen
t )36から構成される。上記形状出力装置28に相当
する目標出力部30から出力される車両11が走行すべ
き道路の形状を表す形状情報は、コントローラ部34に
入力され、このコントローラ部34で操作量が求められ
て予測部36へ出力される。予測部36は車両11の所
定時間後の状態を予測して出力する。この出力がコント
ローラ34へフィードバックされる。また、コントロー
ラ34へのフィードバックを評価するため、予測部36
の出力は誤差演算部32にも出力される。誤差演算部3
2では、目標出力部30から出力される形状情報と予測
部36の出力情報との誤差を求めることによりコントロ
ーラ部34の振る舞いを監視すると共に、報酬(reinfo
rrcement)を求める。この報酬が大きくなるようにコン
トローラ部34が学習される。
【0027】離散的な時間ではコントローラ部34は、
各々の時間毎に、係数αi で重み付けされた報酬が最大
になるように学習される。時刻tの操作量により得られ
た報酬をrt とすると、全報酬は次の(1)式で表せ
る。
【0028】 α1 t+1 +α2 t+2 +α3 t+3 +・・・ −−−(1) ここで、α1 >α2 >α3 >・・・、とすると共に、変
数γ(discount factor )を0≦γ<1として、αi
γi-1 とすると、全報酬は次の(2)式で表せる。
【0029】
【数1】
【0030】上記変数γは、現在の操作量に対する将来
の報酬の影響度を表すものである。つまり、γが0のと
きは現在の報酬のみとなり、γが1に近づく程過去の報
酬が長期に渡り操作量に影響を与えることになる。
【0031】上記(2)式の報酬をVt と定義して、そ
の報酬Vt を求める誤差演算部32を作成すると、コン
トローラ部34の学習が十分になされていれば、誤差演
算部32の出力Pt は報酬Vt と等価となり、次のよう
にして(3)式を導くことができる。
【0032】 Pt-1 =rt +γ・rt+1 +γ2 ・rt+2 +・・・ Pt =rt+1 +γ・rt+2 +γ2 ・rt+3 +・・・ Pt-1 =rt +γ・(rt+1 +γ・rt+2 +γ2 ・rt+3 +・・・) Pt-1 =rt +γ・Pt −−−(3)
【0033】従って、学習は、次の(4)式に示すよう
に誤差TDR(TD error)が最小になるように行う。
【0034】 TDR=rt +γ・Pt −Pt-1 −−−(4)
【0035】車両の自動制御では、時空間の表現につい
て、連続系がよいため、本実施の形態では、連続時間で
学習する場合に適用した。自動制御装置の状態方程式
は、次の(5)式で表せる。
【0036】 dx(t)/dt=f(x(t),u(t)) −−−(5) 但し、x∈X⊂A(A:実空間で取りうる値)は状態で
あり、u∈U⊂B(B:実空間で取りうる値)は制御入
力、すなわち操作量である。
【0037】報酬は、状態と、制御入力の関数として次
の(6)式で表せる。 r(t)=r(x(t),u(t)) −−−(6) ここで、次の(7)式で表される任意の制御則μによ
り、状態x(t)の値関数V(value function)は、
(8)式で表すことができる。
【0038】 u(t)=μ(x(t)) −−−(7)
【0039】
【数2】
【0040】ここで、状態x(s)と制御入力u(s)
(t<s<∞)は、(5)式による装置の状態方程式
と、(7)式による制御則に従うものとする。従って、
任意の状態x∈Xに対して、値関数Vを最大にする制御
則μを見つければ、車両が道路に沿って走行し続けるた
めの操舵角等の制御入力を学習により獲得したことにな
る。なお、τは変数γ(discount factor )に関係する
時定数(γ=1−△t/τ)である。
【0041】上記(8)式の時間tによる微分は次の
(9)式で表せる。
【0042】
【数3】
【0043】P(t)を値関数Vの予測とする。次の誤
差を最小にすることで、誤差演算部32の出力Pt が値
関数と等価になる。
【0044】
【数4】
【0045】(10)式の値を連続系の誤差TDR(TD
error)とする。また、dP/dtは、次の(11)式
で表せる。
【0046】
【数5】
【0047】但し、τc はいかに過去の報酬までを計算
するかを定める時定数である。これは、制御の時間区切
り△tとは独立して設定することができる。
【0048】次に、本実施の形態の自動制御装置10に
おける、学習動作及び運転動作の詳細を機能構成と共に
説明する。図3には、学習動作及び運転動作のときに自
動制御装置10の内部に構築される機能別ブロック図を
示した。
【0049】操作者が車両を運転する時は、操作者は前
方を注視しながら道路に沿って走行する。従って、操作
者の目標軌道は、道路形状から推定される情報を用いて
いると考えられる。本実施の形態では、学習時には、コ
ントローラ44から出力される移動体を移動させるため
の現在の制御入力uから将来の状態である位置xreal
動力学モデル(Vehicle')を用いて第2予測部42で推定
し、その場所での目標軌道xd との誤差を計測する。こ
の誤差計測は、カメラを用いて画像から解析すること
や、道路上に設置した通信装置との通信等により行うこ
とができる。この計測誤差を元に予め定めた規則(reinf
orcement) によって報酬部46で報酬を計算する。ま
た、評価関数(critic)を有する評価部50でも計測誤差
を元に評価値を出力する。これらの報酬と、評価関数(c
ritic)の出力の誤差(error) が最小になるように、調整
部48では制御入力の計算(actor) を行うコントローラ
部44及び評価部50の評価関数(critic)の係数を調整
することによって学習させる。
【0050】自動運転時には、上記のようにして学習さ
れた制御入力の計算(actor) を行うコントローラ部44
を用いて現在の制御入力を求め、その現在の制御入力か
ら将来の位置を動力学モデル(Vehicle)を用いて第1予
測部40で求めて、コントローラ部44へフィードバッ
クさせながら移動体を運転する。
【0051】なお、移動体の運動を模擬してその結果を
フィードバックに用いたり将来の位置を推定したりする
ための移動体モデル(Vehicle, Vehicle') は、移動体を
運動学及び動力学的に扱うことが可能なように解析し
て、予め獲得しておく(詳細は後述)。
【0052】次に、制御入力を与えてから移動体がどの
ように動いたかを表す外部座標(将来の位置xreal)を
求めるまでの過程を説明する。
【0053】一般には、移動体モデルは、次の(12)
式として与えられる。式中、xは現在の状態を表し、u
は制御入力を表している。
【0054】 dx=f(u,x) ・・・(12) 上記(12)式から理解されるように、移動体を制御す
るためには、制御入力だけでなく、現在の移動体の状態
を知る必要がある。外部座標系では、制御入力uが与え
られると、動力学により内部座標θが定まり、その内部
座標θによって運動学により外部座標Xが定まる(図4
参照)。そして、以下のようにして移動体モデルを作成
する。
【0055】まず、移動体に対して、任意の制御入力u
を与えたときに、その移動体がどのように動作したかを
外部座標Xを測定して求める。これによって、制御入力
uと外部座標Xとの間の写像関係を獲得することができ
る。この写像関係である写像fのパラメータは、神経回
路モデルや、任意の最適アルゴリズムによって決定する
ことができる。
【0056】次に、n秒後の移動体の位置は、以下のよ
うに求めることができる。まず、任意の時刻tにおいて
制御入力uを与え続けた時の、所定時間を経過した時刻
(t+Δt)における移動体の位置は次の(13)式で
表すことができ、さらに所定時間を経過した時刻(t+
2・Δt)の位置は、次の(14)式で表すことができ
る。
【0057】 x(t+Δt)=x(t)+dx(t)・Δt −(13) x(t+2・Δt)=x(t+Δt)+dx(t+Δt)・Δt −(14) 従って、制御入力uを固定し、位置だけを変化させて順
次計算することによって、(t+n)秒後の位置x(t
+n)は次の(15)式で表すことができる。
【0058】 x(t+n)=x(t+n−Δt)+dx(t+n−Δt)・Δt (15)
【0059】本実施の形態では、移動体の一例として、
図5に示す前輪操舵車両モデルを用いて、その前輪操舵
車両の運動方程式である次の(16)式で移動体モデル
を表すことにする。
【0060】
【数6】
【0061】但し、図5及び上記式において、βは車体
のスリップ角、γはヨーレイト、Mは車両重量、Vは車
速、Iz は車両ヨーイング慣性モーメント、l
f (lr )は前(後)輪−重心間距離、cf (cr )は
前(後)輪コーナリングパワー、δは前輸実舵角を表し
ている。
【0062】また、上記、評価関数(critic)を有する評
価部50及び制御入力の計算(actor) を行うコントロー
ラ部44は、次の(17)式に示す神経回路モデル(Ga
ussiansoft-max network)による構成を適用した。
【0063】
【数7】
【0064】また、cki,ski(i=1,2,・・・)
は、k番目の基底関数の中心と大きさを表している。な
お、一般的には双方を調整できるが、本実施の形態で
は、計算を簡略化するため、格子上に配列することで、
双方の値を固定し、係数(重み)であるwk のみを調整
するものとした。
【0065】上記評価部50における係数(重み)の更
新は、次の(17A)式で表され、コントローラ部44
における係数(重み)の更新は、次の(17B)式で表
される。
【0066】
【数8】
【0067】但し、nk (t)はガウシアンノイズを表
しており、TDR(t)に比例して小さくなるものであ
る。
【0068】上記報酬部46で計測誤差を元に計算する
報酬は、次の(18)式を用いている。なお、図6に示
すように、式中のdθは進行方向と道路とのなす角度で
あり、distは道路の中央からの距離を表している。
【0069】 rx ={cos(dθ)+2・exp(−dist/σ)2 −1}/2 −−−(18)
【0070】上記(18)式の{ }内の最左項である
cos(dθ)は進行方向からのズレ量を表し、それよ
り右項は道路中心からのズレ量を表している。また、道
路中心からのズレ量の許容範囲を規定する分散σは、本
実施の形態では、道路幅の1/4に設定した。このよう
に、報酬は、現在状況がどの程度良いのか(適正か)を
示すことになり、ステアリングそのものを回転させる量
とは質的に異なる良否程度の情報で最終的には制御入力
を決定できる。
【0071】次に、本実施の形態の作用を説明する。ま
ず、上記学習処理について説明する。本自動制御装置1
0の学習処理が実行されると、図8の学習処理ルーチン
が実行され、ステップ100において、初期データとし
て係数の初期値が読み取られる。次のステップ102で
は学習のために用いられる道路形状、すなわち軌道が読
み取られる。本実施の形態では、図7に示すように、直
線と一定曲率のカーブが組み合わされた道路形状が読み
取られる。なお、図7に示されるように、異なる曲率
(20R,50R)のカーブは右旋回と左旋回するよう
に設定している。次のステップ104では、制御入力を
検出すると共に、記憶し、次のステップ106において
初期値の係数でコントローラの出力を求める。
【0072】次のステップ108では、動力学モデルに
よって予測位置を演算し誤差を求め、その予測位置にお
ける誤差に対する報酬を次のステップ110で求める。
次のステップ114では報酬に対する誤差を求めて次の
ステップ116においてその誤差によって係数を調整す
る。次のステップ118では、所定回数(本実施の形態
では、500回)の学習が終了したか否かを判断し、所
定回数未満のときは否定されステップ102へ戻り上記
処理を繰り返す。一方、所定回数の処理を繰り返した後
には、ステップ118で肯定されて、学習が終了したと
して本ルーチンを終了する。
【0073】次に、運転処理について説明する。本自動
制御装置10の上記学習処理が終了した後に、運転処理
が実行されると、図9の運転処理ルーチンが実行され、
ステップ120において、上記学習処理で学習された係
数が読み取られる。次のステップ122では、自動で運
転するべき道路の形状、すなわち軌道が読み取られる。
本実施の形態では、図10に示すように、未学習の道路
として、学習時に含まれていない曲率(30R)のカー
ブを含む道路形状が読み取られる。次のステップ124
では、制御入力を検出すると共に、記憶し、次のステッ
プ126において学習された係数でコントローラの出力
を求め、次のステップ128で動力学モデルによって予
測位置を演算し誤差を求める。この誤差は、計測で求め
てもよく、演算で求めても良い。次のステップ130で
は、求めた予測位置に移動させるための制御入力にする
ための駆動値を求め、出力する。これによって、移動体
は、所定時間の後には予測位置に移動される。次のステ
ップ132では、自動運転の終了指示がなされたか否か
を判断し、指示されていないときは否定されステップ1
22へ戻り上記処理を繰り返す。一方、終了指示がなさ
れると、ステップ132で肯定されて、自動運転を終了
するべく本ルーチンを終了する。
【0074】図11には、自動運転時における走行精度
の測定結果を示した。図11(1)には移動体の進行方
向と軌道の接線方向との角度のズレ量及び移動体の位置
についてセンターラインからのズレ量の時々刻々の値を
示した。図11(2)には報酬の時々刻々と変化する値
を示した。図11(3)には移動体の操舵角の変動の時
々刻々と変化する値を示した。図11(4)には移動体
の移動軌跡についてX,Y座標の座標値で示した。この
ように、未学習な道路形状でも、適切に操舵角を決定で
き、滑らかに走行できている様子が分かる。
【0075】本実施の形態の移動体は等速度運転である
ため、操舵角の変動は、もちろん直線では一定であると
共に曲率が一定のカーブでは一定値を維持すればよい。
図から理解されるように、略一定の操舵角を維持してお
り、十分なステアリング操作を学習により獲得したこと
が理解される。
【0076】
【発明の効果】以上説明したように請求項1に記載した
発明によれば、予測手段で予測した移動体の状態を変更
させるための操作量による移動体の所定時間後の予測状
態と、目標状態とに対応される操作量を定めるための係
数を、移動体の目標状態と予測状態との誤差から誤差調
整手段により調整するので、移動体の任意の目標状態で
あっても、その目標状態に沿った操作量を出力すること
ができ、目標状態に合致した自動制御が可能となる、と
いう効果がある。
【0077】請求項2に記載した発明によれば、移動体
の状態を位置、または位置と姿勢及び移動方向の何れか
一方とで表される挙動で表すことができるので、移動体
の状態を空間的に把握することが可能となる、という効
果がある。
【0078】請求項3に記載した発明によれば、誤差調
整手段を、移動体の予測状態に対して目標状態に移動体
の状態が変更されるに従って大きくなる報酬を演算する
報酬演算手段と、報酬が大きくなるように係数を調整す
る調整手段と、から構成するので、報酬が大きくなるよ
うに係数を調整することで、目標状態に合致した自動制
御が可能となる、という効果がある。
【0079】請求項4に記載した発明によれば、報酬演
算手段を、所定条件により報酬を演算する報酬手段と、
予測状態を評価する評価手段とから構成し、調整手段が
報酬及び評価の差が所定値になるように係数を調整する
ようにしたので、報酬を質的に異なる情報から求めるす
なわち操作量を定めることができ、現在の状態がどの程
度であるかの大まかな情報で、最適な操作量を定めるこ
とができる、という効果がある。
【0080】請求項5に記載した発明によれば、決定さ
れた操作量だけ前記移動体の状態を変更させるための駆
動手段をさらに備えるので、容易に移動体の状態を変更
させることができる、という効果がある。
【図面の簡単な説明】
【図1】本実施の形態の自動制御装置の概略構成を示す
ブロック図である。
【図2】本発明の実施の形態にかかる自動制御装置の内
部に構築可能なフィードバック系を示すブロック図であ
る。
【図3】学習動作及び運転動作のときに自動制御装置の
内部に構築される機能を表すブロック図である。
【図4】制御入力を与えてから移動体が至る位置を表す
外部座標を求めるまでの過程を示す概念図である。
【図5】移動体である前輪操舵車両モデルの構成を示す
線図である。
【図6】道路形状におけるズレ量を説明するための説明
図である。
【図7】学習処理に用いた道路形状を示すイメージ図で
ある。
【図8】学習処理の流れを示すフローチャートである。
【図9】自動運転の流れを示すフローチャートである。
【図10】学習後に自動制御装置により移動体を運転さ
せるための道路形状を示すイメージ図である。
【図11】学習後に自動制御装置により移動体を運転さ
せたときの入出力関係を示す線図である。
【符号の説明】
10 自動制御装置 30 目標出力部 32 誤差演算部 34 コントローラ部 36 予測部 40 第1予測部 42 第2予測部 44 コントローラ部 46 報酬部 48 調整部 50 評価部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 移動体の目標状態を入力するための入力
    手段と、 前記移動体の状態を変更させるための操作量による前記
    移動体の所定時間後の予測状態を予測する予測手段と、 目標状態及び予測状態と、前記移動体の操作量との対応
    関係を定めるための係数が変更可能でかつ、該係数によ
    る対応関係を用いて前記目標状態及び予測状態から前記
    移動体の状態を変更させるための操作量を決定する決定
    手段と、 前記移動体の目標状態と前記予測状態との誤差を演算す
    ると共に、該誤差に基づいて前記係数を調整する誤差調
    整手段と、 を備えた自動制御装置。
  2. 【請求項2】 前記移動体の状態は、前記移動体の位
    置、または前記移動体の位置と前記移動体の姿勢及び移
    動方向の何れか一方とで表される前記移動体の挙動を表
    すことを特徴とする請求項1に記載の自動制御装置。
  3. 【請求項3】 前記誤差調整手段は、前記移動体の予測
    状態に対して前記目標状態に前記移動体の状態が変更さ
    れるに従って大きくなる報酬を演算する報酬演算手段
    と、前記報酬が大きくなるように前記係数を調整する調
    整手段と、から構成されることを特徴とする請求項1ま
    たは2に記載の自動制御装置。
  4. 【請求項4】 前記報酬演算手段は、前記移動体の予測
    状態に対して予め定めた所定条件により報酬を演算する
    報酬手段と、前記移動体の予測状態を評価する評価手段
    と、から構成され、前記調整手段は前記報酬及び評価の
    差が所定値になるように前記係数を調整することを特徴
    とする請求項3に記載の自動制御装置。
  5. 【請求項5】 前記決定された操作量だけ前記移動体の
    状態を変更させるための駆動手段をさらに備えたことを
    特徴とする請求項1乃至請求項4の何れか1項に記載の
    自動制御装置。
JP9061321A 1997-03-14 1997-03-14 自動制御装置 Pending JPH10254505A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9061321A JPH10254505A (ja) 1997-03-14 1997-03-14 自動制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9061321A JPH10254505A (ja) 1997-03-14 1997-03-14 自動制御装置

Publications (1)

Publication Number Publication Date
JPH10254505A true JPH10254505A (ja) 1998-09-25

Family

ID=13167769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9061321A Pending JPH10254505A (ja) 1997-03-14 1997-03-14 自動制御装置

Country Status (1)

Country Link
JP (1) JPH10254505A (ja)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007018188A1 (ja) * 2005-08-05 2007-02-15 Honda Motor Co., Ltd. 車両の制御装置
JP2018037064A (ja) * 2016-07-08 2018-03-08 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 能動的探索なしの強化学習に基づくオンライン学習法及び車両制御方法
JP2019096012A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 移動体制御方法及び移動体制御装置
JP2020035221A (ja) * 2018-08-30 2020-03-05 本田技研工業株式会社 学習装置、シミュレーションシステム、学習方法、およびプログラム
JP2020035222A (ja) * 2018-08-30 2020-03-05 本田技研工業株式会社 学習装置、学習方法、およびプログラム
WO2020136770A1 (ja) * 2018-12-26 2020-07-02 三菱電機株式会社 移動体制御装置、移動体制御学習装置、及び移動体制御方法
JP2021032114A (ja) * 2019-08-22 2021-03-01 トヨタ自動車株式会社 車両用学習制御システム、車両用制御装置、および車両用学習装置
CN112682181A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆控制方法
CN112682202A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制系统、车辆用控制装置、车辆用学习装置、车辆用控制方法以及存储介质
CN112682204A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、控制系统、学习装置和方法及存储介质
CN112682197A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制数据的生成方法、车辆用控制装置和控制系统
CN112682196A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
CN112682200A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制系统
CN112682198A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制系统、车辆用控制装置及车辆用控制方法
CN112682184A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆控制方法
JP2021099059A (ja) * 2019-12-23 2021-07-01 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
CN113090404A (zh) * 2019-12-23 2021-07-09 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113187613A (zh) * 2020-01-29 2021-07-30 丰田自动车株式会社 控制车辆的方法、用于车辆的控制装置、以及服务器
JP2021116781A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 車両制御方法、車両用制御装置及びサーバ
JP2021116783A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 車両用制御装置および車両用制御システム
JP2021124055A (ja) * 2020-02-05 2021-08-30 トヨタ自動車株式会社 内燃機関の制御装置
JP2022007027A (ja) * 2020-06-25 2022-01-13 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
US11679784B2 (en) 2020-01-09 2023-06-20 Toyota Jidosha Kabushiki Kaisha Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
US11745746B2 (en) 2020-01-09 2023-09-05 Toyota Jidosha Kabushiki Kaisha Method for generating vehicle controlling data, vehicle controller, vehicle control system, and learning device for vehicle
US11840245B2 (en) 2020-01-09 2023-12-12 Toyota Jidosha Kabushiki Kaisha Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
US11959545B2 (en) 2020-06-25 2024-04-16 Toyota Jidosha Kabushiki Kaisha Vehicle control device, vehicle control system, vehicle learning device, and vehicle learning method

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007018188A1 (ja) * 2005-08-05 2007-02-15 Honda Motor Co., Ltd. 車両の制御装置
JPWO2007018188A1 (ja) * 2005-08-05 2009-02-19 本田技研工業株式会社 車両の制御装置
JP4699465B2 (ja) * 2005-08-05 2011-06-08 本田技研工業株式会社 車両の制御装置
US8271175B2 (en) 2005-08-05 2012-09-18 Honda Motor Co., Ltd. Vehicle control device
JP2018037064A (ja) * 2016-07-08 2018-03-08 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド 能動的探索なしの強化学習に基づくオンライン学習法及び車両制御方法
JP2019096012A (ja) * 2017-11-22 2019-06-20 日本電信電話株式会社 移動体制御方法及び移動体制御装置
JP2020035221A (ja) * 2018-08-30 2020-03-05 本田技研工業株式会社 学習装置、シミュレーションシステム、学習方法、およびプログラム
JP2020035222A (ja) * 2018-08-30 2020-03-05 本田技研工業株式会社 学習装置、学習方法、およびプログラム
US11544556B2 (en) 2018-08-30 2023-01-03 Honda Motor Co., Ltd. Learning device, simulation system, learning method, and storage medium
US11498574B2 (en) 2018-08-30 2022-11-15 Honda Motor Co., Ltd. Learning device, learning method, and storage medium
WO2020136770A1 (ja) * 2018-12-26 2020-07-02 三菱電機株式会社 移動体制御装置、移動体制御学習装置、及び移動体制御方法
JPWO2020136770A1 (ja) * 2018-12-26 2021-05-20 三菱電機株式会社 移動体制御装置、移動体制御学習装置、及び移動体制御方法
CN113260936A (zh) * 2018-12-26 2021-08-13 三菱电机株式会社 移动体控制装置、移动体控制学习装置及移动体控制方法
JP2021032114A (ja) * 2019-08-22 2021-03-01 トヨタ自動車株式会社 車両用学習制御システム、車両用制御装置、および車両用学習装置
US11377084B2 (en) 2019-10-18 2022-07-05 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, vehicle learning device, vehicle learning method, and memory medium
US11691639B2 (en) 2019-10-18 2023-07-04 Toyota Jidosha Kabushiki Kaisha Vehicle control system, vehicle control device, and control method for a vehicle
CN112682198A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制系统、车辆用控制装置及车辆用控制方法
CN112682184A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆控制方法
JP2021067192A (ja) * 2019-10-18 2021-04-30 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067194A (ja) * 2019-10-18 2021-04-30 トヨタ自動車株式会社 車両用制御システム、車両用制御装置、および車両用学習装置
JP2021067195A (ja) * 2019-10-18 2021-04-30 トヨタ自動車株式会社 車両用制御システム、車両用制御装置、および車両用学習装置
JP2021067193A (ja) * 2019-10-18 2021-04-30 トヨタ自動車株式会社 車両用制御装置
CN112682196A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
CN112682200A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制系统
CN112682196B (zh) * 2019-10-18 2023-09-01 丰田自动车株式会社 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
CN112682202A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制系统、车辆用控制装置、车辆用学习装置、车辆用控制方法以及存储介质
US11654915B2 (en) 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11603111B2 (en) 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
CN112682197A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制数据的生成方法、车辆用控制装置和控制系统
CN112682204B (zh) * 2019-10-18 2023-03-10 丰田自动车株式会社 车辆用控制装置、控制系统、学习装置和方法及存储介质
CN112682181A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆控制方法
CN112682198B (zh) * 2019-10-18 2023-01-03 丰田自动车株式会社 车辆用控制系统、车辆用控制装置及车辆用控制方法
US11248553B2 (en) 2019-10-18 2022-02-15 Toyota Jidosha Kabushiki Kaisha Vehicle control device, vehicle control system, and vehicle control method
US11530662B2 (en) 2019-10-18 2022-12-20 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11313309B2 (en) 2019-10-18 2022-04-26 Toyota Jidosha Kabushiki Kaisha Vehicle control device, vehicle control system, and method for controlling vehicle
CN112682204A (zh) * 2019-10-18 2021-04-20 丰田自动车株式会社 车辆用控制装置、控制系统、学习装置和方法及存储介质
JP2021099059A (ja) * 2019-12-23 2021-07-01 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
CN113090404B (zh) * 2019-12-23 2023-08-18 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113090404A (zh) * 2019-12-23 2021-07-09 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆用学习装置
US11679784B2 (en) 2020-01-09 2023-06-20 Toyota Jidosha Kabushiki Kaisha Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
US11745746B2 (en) 2020-01-09 2023-09-05 Toyota Jidosha Kabushiki Kaisha Method for generating vehicle controlling data, vehicle controller, vehicle control system, and learning device for vehicle
US11840245B2 (en) 2020-01-09 2023-12-12 Toyota Jidosha Kabushiki Kaisha Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
CN113266481A (zh) * 2020-01-29 2021-08-17 丰田自动车株式会社 车辆控制方法、车辆用控制装置以及服务器
JP2021116783A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 車両用制御装置および車両用制御システム
JP2021116781A (ja) * 2020-01-29 2021-08-10 トヨタ自動車株式会社 車両制御方法、車両用制御装置及びサーバ
CN113187613A (zh) * 2020-01-29 2021-07-30 丰田自动车株式会社 控制车辆的方法、用于车辆的控制装置、以及服务器
JP2021124055A (ja) * 2020-02-05 2021-08-30 トヨタ自動車株式会社 内燃機関の制御装置
CN114103916A (zh) * 2020-06-25 2022-03-01 丰田自动车株式会社 车辆用控制装置、车辆用控制系统以及车辆用学习装置
JP2022007027A (ja) * 2020-06-25 2022-01-13 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
US11959545B2 (en) 2020-06-25 2024-04-16 Toyota Jidosha Kabushiki Kaisha Vehicle control device, vehicle control system, vehicle learning device, and vehicle learning method

Similar Documents

Publication Publication Date Title
JPH10254505A (ja) 自動制御装置
Alcalá et al. Autonomous racing using linear parameter varying-model predictive control (LPV-MPC)
CN111098852B (zh) 一种基于强化学习的泊车路径规划方法
JP6514166B2 (ja) ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
US7418372B2 (en) Model predictive control apparatus
CN111624992B (zh) 一种基于神经网络的搬运机器人的路径跟踪控制方法
US20200278686A1 (en) Iterative Feedback Motion Planning
MacAdam et al. Application of elementary neural networks and preview sensors for representing driver steering control behaviour
JP7469850B2 (ja) 経路決定装置、ロボット及び経路決定方法
Awad et al. Model predictive control with fuzzy logic switching for path tracking of autonomous vehicles
CN111158377A (zh) 一种用于车辆的横向控制方法、系统及车辆
CN111752274A (zh) 一种基于强化学习的激光agv的路径跟踪控制方法
Lauffenburger et al. Driver-aid system using path-planning for lateral vehicle control
CN112651456A (zh) 基于rbf神经网络的无人车控制方法
CN110103960B (zh) 车辆自适应巡航控制方法、系统及车辆
Alcala et al. TS-MPC for autonomous vehicle using a learning approach
Wang et al. Deep koopman data-driven optimal control framework for autonomous racing
CN114739391A (zh) 跟踪目标的定位优化方法
Piccinini et al. A predictive neural hierarchical framework for on-line time-optimal motion planning and control of black-box vehicle models
JPH07110712A (ja) 操舵角制御装置
CN115525054B (zh) 大型工业园区无人清扫车沿边路径跟踪控制方法及系统
Halaly et al. Autonomous driving controllers with neuromorphic spiking neural networks
Daryina et al. Parametric optimization of unmanned vehicle controller by PSO algorithm
CN114667852A (zh) 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法
Grigorescu Vision dynamics-based learning control