JPH11353295A - 内部モデル学習方法及び装置 - Google Patents

内部モデル学習方法及び装置

Info

Publication number
JPH11353295A
JPH11353295A JP10160220A JP16022098A JPH11353295A JP H11353295 A JPH11353295 A JP H11353295A JP 10160220 A JP10160220 A JP 10160220A JP 16022098 A JP16022098 A JP 16022098A JP H11353295 A JPH11353295 A JP H11353295A
Authority
JP
Japan
Prior art keywords
internal model
learning
parameters
learned
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10160220A
Other languages
English (en)
Inventor
Masahiko Sugimura
昌彦 杉村
Daiki Masumoto
大器 増本
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10160220A priority Critical patent/JPH11353295A/ja
Publication of JPH11353295A publication Critical patent/JPH11353295A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 一般的ないわゆる「教師あり学習」の場合だ
けでなく、いわゆる「教師なし学習」の場合の機械学習
においても、実環境に即した内部モデルを迅速に精度良
く学習できる方法及び装置を提供する。 【解決手段】 外部環境の状態を観測する観測手順と、
観測した状態に基づいて内部モデルを形成し、かつ評価
に基づいて内部モデルを随時更新する内部モデル形成・
更新手順と、観測された状態と更新された内部モデルに
基づいて行動・認識選択判断を行う判断手順と、内部モ
デルの学習到達度を計る収束判定手順と、収束判定部に
おいて学習が十分でないと判断された場合にパラメータ
数を更新するパラメータ数変更手順を含み、少ないパラ
メータ数の状態から内部モデルを学習し、学習した内部
モデルを引き継ぎながら、パラメータ数を漸次増加させ
繰り返し新たな内部モデルを学習する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、機械学習等におい
て外部環境を観測して内部モデルを学習する方法及び装
置に関する。
【0002】
【従来の技術】近年、人間の生活における便利な道具と
して、コンピュータを伴う道具が一般化している。コン
ピュータで扱う世界を実世界に適用するためには、人間
の手によってコンピュータに何らかの学習をさせる必要
がある。最も広義に学習を解釈すると、人間が機械をプ
ログラミングした場合や何らかのインタフェースでデー
タを入力した場合についても、機械が学習したものと定
義できる。一般には、これらを「暗記学習」もしくは
「教示による学習」と呼ぶ。
【0003】しかし、一般的に成立するルールやプログ
ラムを作って入力することは多大な労力を要することが
多く、設計時点でそのすべてを考慮することは実際上不
可能である。そこで、考え出されたのが、「例」という
限られた情報に基づいて一般的なルールを学習する手法
である。この手法において、ルールの精度を高めようと
すると、多数の「例」に基づく必要があり、また多くの
計算をする必要もあるため、実用性に欠ける。
【0004】かかる弊害を解消すべく、様々な方法が考
え出されている。例えば、領域理論の導入、情報量に基
づく発見的な知識の導入、コンピュータ側からユーザに
質問を許す手法、遺伝的アルゴリズムの導入等が挙げら
れる。
【0005】一例として、学習の対象領域で成立する理
論が参照できれば学習効率を飛躍的に向上させることが
できる。かかる領域理論を採用した場合の学習を「説明
に基づく学習」と呼び、「演繹学習」とも呼ばれる。
「演繹学習」は、事前に対象領域を確定し、限定された
条件下で最適のモデルを構築するのに便利である。
【0006】それに対して、条件付けと呼ばれる一連の
適応現象を実現する学習を行う「強化学習」において
は、「報酬」と「罰」から特定の学習パターンを形成
し、設定されていない条件が与えられた場合において
も、当該学習パターンに基づいて行動等を決定すること
ができる。すなわち、一定の時間内の報酬の重み付けの
和を最大化することで、行動等を決定するものである。
一般には、状況に対して評価を決める学習要素と、状態
から次の行動を決定する実行要素とから構成され、学習
者の行動選択が経験の内容を決定する。
【0007】「強化学習」の特徴としては、以下の二つ
が挙げられる。一つは、出力すべきデータが教示され
ず、実際に行った出力に対する評価という形で与えられ
る、いわゆる「教師なし学習」である点である。今一つ
は、評価が即座に与えられず、行為の系列に対する評価
が遅れて与えられる点である。したがって、実環境に適
応させるには、相当数の条件パラメータが要求される。
【0008】また、ニューラルネットワークやファジー
理論を応用して、機械学習を効率的に行おうとする工夫
も見られる。例えば特開平6−35707号公報におい
ては、自己増殖を行うことが可能なニューロファジー知
識獲得方法が開示されている。また特開平7−5023
57号公報においては、ニューラル・ネットワークにお
ける射影を用いた内部モデルの更新方法が開示されてい
る。
【0009】
【発明が解決しようとする課題】しかし、自己増殖型の
ニューロファジー知識獲得方法については、入出力デー
タを記憶しておく部分が構成の必須要件となっており、
いわゆる「教師あり学習」においては、その効果を十分
に発揮することができる反面、「教師なし学習」におい
ては自己増殖することができないという問題点があっ
た。
【0010】また、ニューラル・ネットワークにおける
射影を用いた内部モデルの更新方法においても、入出力
ベクトルは構成の必須要件であり、いわゆる「教師あり
学習」においては、その効果を十分に発揮することがで
きるが、「教師なし学習」においては自己増殖すること
ができないという同様の問題点があった。
【0011】一方、一般にモデルの学習手段に関わら
ず、内部モデル更新のためのパラメータ数が少ない場合
には、モデル学習は短時間で可能である反面、内部モデ
ルと実環境の乖離が大きくなる。また、パラメータ数が
多い場合には、実環境に即した内部モデルを学習するこ
とができる反面、内部モデルの学習に相当の時間を要す
るという問題点がある。
【0012】本発明は、一般的ないわゆる「教師あり学
習」の場合だけでなく、いわゆる「教師なし学習」の場
合の機械学習においても、実環境に即した内部モデルを
迅速に精度良く学習できる方法及び装置を提供すること
を目的とする。
【0013】
【課題を解決するための手段】上記課題を解決するため
に本発明にかかる内部モデル学習方法は、外部環境の状
態を観測する観測手順と、観測した状態に基づいて内部
モデルを形成し、かつ評価に基づいて内部モデルを随時
更新する内部モデル形成・更新手順と、観測された状態
と更新された内部モデルに基づいて行動・認識選択判断
を行う判断手順と、内部モデルの学習到達度を計る収束
判定手順と、収束判定部において学習が十分でないと判
断された場合にパラメータ数を更新するパラメータ数変
更手順を含み、少ないパラメータ数の状態から内部モデ
ルを学習し、学習した内部モデルを引き継ぎながら、パ
ラメータ数を漸次増加させ繰り返し新たな中間内部モデ
ルを学習することにより、パラメータ数の多い最終内部
モデルを学習することを特徴とする。かかる構成によ
り、初めから多くのパラメータを用いて内部モデルを学
習するよりも短い時間で精度の高い内部モデルを学習す
ることが可能となる。
【0014】また、本発明にかかる内部モデル学習方法
は、学習すべき内部モデルが教示されず、実際に学習さ
れた内部モデルに対する評価が与えられることが望まし
い。かかる構成により、いわゆる「教師あり学習」だけ
でなく、「教師なし学習」である強化学習においても、
短時間で精度の高い内部モデルを学習することが可能と
なる。
【0015】また、本発明にかかる内部モデル学習方法
は、パラメータ数を増加させる手順が、パラメータ数が
内部モデル全体を均等に細密化するパラメータを選択す
るようにパラメータを増加させる手順であることが好ま
しい。かかる手順により、パラメータ数を次第に増加さ
せながら内部モデルを学習することにより、初めから多
くのパラメータを用いて内部モデルを学習するよりも短
い時間で精度の高い内部モデルを学習することが可能と
なる。
【0016】また、本発明にかかる内部モデル学習方法
は、パラメータ数を増加させる手順が、少ないパラメー
タ数の状態で学習した内部モデルを参考にして、内部モ
デル学習に効果的な部分を見出し、効果的な部分を細密
化するパラメータを選択するようにパラメータ数を増加
させる手順であることが好ましい。かかる手順により、
単純にパラメータ数を増加させる手順よりも、より効果
的に学習する内部モデルの精度を高めることが可能とな
る。
【0017】次に、上記課題を解決するために本発明に
かかる内部モデル学習装置は、外部環境の状態を観測す
る観測部と、観測した状態に基づいて形成され、かつ評
価に基づいて随時更新された内部モデルと、観測された
状態と更新された内部モデルに基づいて行動・認識選択
判断を行う判断部と、内部モデルの学習到達度を計る収
束判定部と、収束判定部において学習が十分でないと判
断された場合にパラメータ数を更新するパラメータ数変
更部を備え、少ないパラメータ数の状態から内部モデル
を学習し、学習した内部モデルを引き継ぎながら、パラ
メータ数を漸次増加させ繰り返し新たな中間内部モデル
を学習することにより、パラメータ数の多い最終内部モ
デルを学習することを特徴とする。かかる構成により、
初めから多くのパラメータを用いて内部モデルを学習す
るよりも短い時間で精度の高い内部モデルを学習するこ
とが可能となる。
【0018】また、本発明にかかる内部モデル学習装置
は、学習すべき内部モデルが教示されず、実際に学習さ
れた内部モデルに対する評価が与えられることが望まし
い。かかる構成により、いわゆる「教師あり学習」だけ
でなく、「教師なし学習」である強化学習においても、
短時間で精度の高い内部モデルを学習することが可能と
なる。
【0019】また、本発明にかかる内部モデル学習装置
は、パラメータ数を増加させる手順が、パラメータ数が
内部モデル全体を均等に細密化するパラメータを選択す
るようにパラメータを増加させる手順であることが好ま
しい。かかる手順により、パラメータ数を次第に増加さ
せながら内部モデルを学習することにより、初めから多
くのパラメータを用いて内部モデルを学習するよりも短
い時間で精度の高い内部モデルを学習することが可能と
なる。
【0020】また、本発明にかかる内部モデル学習装置
は、パラメータ数を増加させる手順が、少ないパラメー
タ数の状態で学習した内部モデルを参考にして、内部モ
デル学習に効果的な部分を見出し、効果的な部分を細密
化するパラメータを選択するようにパラメータ数を増加
させる手順であることが好ましい。かかる手順により、
単純にパラメータ数を増加させる手順よりも、より効果
的に学習する内部モデルの精度を高めることが可能とな
る。
【0021】次に、上記課題を解決するために本発明に
かかるコンピュータに実行させるプログラムを記録した
コンピュータ読み取り可能な記録媒体は、外部環境の状
態を観測する観測手順と、観測した状態に基づいて内部
モデルを形成し、かつ評価に基づいて内部モデルを随時
更新する内部モデル形成・更新手順と、観測された状態
と更新された前記内部モデルに基づいて行動・認識選択
判断を行う判断手順と、内部モデルの学習到達度を計る
収束判定手順と、収束判定部において学習が十分でない
と判断された場合にパラメータ数を更新するパラメータ
数変更手順を含み、少ないパラメータ数の状態から内部
モデルを学習し、学習した内部モデルを引き継ぎなが
ら、パラメータ数を漸次増加させ繰り返し新たな中間内
部モデルを学習することにより、パラメータ数の多い最
終内部モデルを学習することを特徴とする。
【0022】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、初めから多く
のパラメータを用いて内部モデルを学習するよりも、短
い時間で精度の高い内部モデルを学習することができる
内部モデル学習装置が実現できる。
【0023】
【発明の実施の形態】以下、本発明の実施形態にかかる
内部モデル学習方法および装置について、図面を参照し
ながら説明する。図1は、従来の環境を観測し内部モデ
ルを学習する方法及び装置の一般的な概念図を示す。図
2は、当該方法及び装置の処理の流れ図を示す。従来か
らのモデル学習方法及び装置においては、大きく3つの
部分から構成されている。
【0024】図1において、11は観測の対象となる環
境を示す。12は観測部を示し、観測対象環境11にお
ける現在の環境の状態を観測する役割を果たす。13は
内部モデルを示し、環境11に対する何らかの内部モデ
ルを意味する。14は判断部を示し、学習された内部モ
デル13を使用する部分を示す。
【0025】観測部11で観測された環境の状態から、
内部モデル13が形成される。内部モデル13に対して
は、適当なタイミングで評価が与えられ、当該評価を反
映して内部モデル13は順次更新される。判断部14
は、観測部11の観測状態と内部モデル13を用いて認
識や行動選択等の判断を行う。
【0026】図2に観測ごとに内部モデルの評価と更新
を行う方法の処理の流れ図を示すが、一連の観測の組に
対して内部モデルの評価と更新を行っても良い。図2で
は、ステップ21において対象となる環境を観測し、ス
テップ22において観測した状態に基づいて学習した内
部モデルを評価し、ステップ23において評価に基づい
て内部モデルを更新する。そして、ステップ24におい
て観測系列が終了しているか否かを判断し、まだ観測し
ていない観測系列が残っていれば再度ステップ21から
ステップ23の処理を繰り返し行う。最後に、ステップ
25において学習した内部モデルが収束しているか否か
を判断して、収束していなければステップ21からステ
ップ24の処理を繰り返し行うことになる。
【0027】一般に、内部モデルは、n次元の空間ベク
トルSからm次元の空間ベクトルVへの関数として定義
される。この時、内部モデルに実環境を完全に写し取っ
たものとすると、空間ベクトルSに含まれるすべての要
素sに対する空間ベクトルVに含まれる要素vの値をデ
ータとして持つことになり、無限大の記憶容量が必要に
なる。そこで、内部モデルの関数は有限個のパラメータ
で近似されることが望ましい。かかるパラメータを、θ
(1)、θ(2)、…θ(p)とすると、内部モデルの
関数は、空間ベクトルSに含まれるすべての要素に対し
て、空間ベクトルV(s)=APPROX(θ(1)、
θ(2)、…、θ(p)、s)となる。
【0028】この関数APPROXはp個のパラメータ
で実際の要素sと要素vの関係を近似するものなら、ニ
ューラルネットワークのような非線型の関数でも、CM
AC(Cerebellar Model Articulation Controller)、
RBF(Radial Basis Function)、等間隔の代表点に
よる線形補間等のパラメータの線形結合による関数でも
よい。この内部モデルの(t+1)回目の更新は以下の
更新則によって行われる。ここで、UpdateValuet はモ
デル全体での更新量であって、Weightt(i)(i=0,
1,……,p)は各々のパラメータに対するUpdateValue
t の影響の大きさを示す。これらの値の決め方は学習手
法とモデルを近似する関数に依存する。
【0029】 θt+1(1)=θt(1)+UpdateValuet × Weightt(1) θt+1(2)=θt(2)+UpdateValuet × Weightt(2) ・ ・ θt+1(p)=θt(p)+UpdateValuet × Weightt(p) 次に、図3は本発明の実施形態にかかる内部モデル学習
方法および装置の構成図を示す。図3において、31は
観測の対象となる環境を示す。32は観測部を示し、観
測対象環境31における現在の環境の状態を観測する役
割を果たす。33は内部モデルを示し、環境31に対す
る何らかの内部モデルを意味する。34は判断部を示
し、学習された内部モデル33を使用する部分を示す。
【0030】観測部31で観測された環境の状態から、
内部モデル33が形成される。内部モデル33に対して
は、適当なタイミングで評価が与えられ、当該評価を反
映して内部モデル33は順次更新される。判断部34
は、観測部31の観測状態と内部モデル33を用いて認
識や行動選択等の判断を行う。
【0031】従来の内部モデル学習装置と根本的に相違
する点は、内部モデルのパラメータ自動更新部35を有
する点にある。パラメータ自動更新部35は収束判定部
36とパラメータ数変更部37で構成される。収束判定
部36は、内部モデルの学習が充分か否かを判断する。
パラメータ数変更部37は、収束判定部36により学習
が十分でないと判断された場合に、パラメータ数を更新
して、さらに学習を繰り返し行うことを可能とする。
【0032】一般に、パラメータの少ない場合の内部モ
デルの学習は比較的短時間で可能である。本発明の実施
形態にかかる内部モデル学習方法および装置において
は、内部モデルのパラメータ自動更新部35を有するこ
とにより、少ないパラメータの状態から内部モデルの学
習をし、徐々にパラメータを増加させることにより、は
じめから多くのパラメータを用いて内部モデルを学習す
るよりも短時間で精度の高い内部モデルを学習すること
を可能とする。
【0033】また、図3の構成においては、出力すべき
データが教示されているわけではなく、実際に学習され
た内部モデルに対する評価という形で与えられている学
習方法及び装置を示しており、いわゆる「教師なし学
習」装置の典型的構成となっている。したがって、いわ
ゆる「教師なし学習」においても、比較的短時間で精度
の高い内部モデルを学習することが可能となる。もちろ
ん、出力すべきデータが教示されているようないわゆる
「教師あり学習」においても同様の効果が期待できる。
【0034】図4は、本発明の実施形態にかかる内部モ
デル学習方法および装置における処理の具体的な流れ図
を示す。まず、カウンタi を初期値ゼロにしておいてか
ら、ステップ41においてパラメータ数L(i)のモデ
ルM(i)のパラメータを適当に初期化する。例えば、
図4においては、パラメータ数5のモデルM(i)を直
線状モデルとして初期化した。
【0035】次に、ステップ42において適当な学習ア
ルゴリズムを用いて、収束条件を満たすまでモデルM
(i)の学習を行う。学習したモデルM(i)はパラメ
ータも少なくメッシュも粗いので、実環境に即したモデ
ルとは言い難いが、比較的短時間でモデルを学習するこ
とができる。ここで、収束条件とは、モデル学習の終了
を決定する条件を意味し、モデルの更新量がある基準を
満たした時点をモデル学習の終了時点とする。モデルM
(i)の学習には、パラメータも少なくメッシュも粗い
ので比較的短時間しか要しない。
【0036】次に、ステップ43においてパラメータ数
をL(i+1)に増やしたモデルM(i+1)のパラメ
ータを、新たに学習するモデルM(i+1)が既に学習
されたM(i)に近似するように初期化する。L(i+
1)はL(i)よりも大きければ良く、また均等にパラ
メータを増やさずに、ある部分のみメッシュを細かくす
るようにパラメータを増やしても良い。
【0037】例えば、前述のCMAC、RBF、等間隔
の代表点による線形補間等は、パラメータの重みの計算
方法は異なっているが、モデルがベクトル空間S上に配
置されたパラメータの重み付きの和で表わされていると
いう点では一致する。かかる形態のモデルの場合、ベク
トル空間S上に一様に新しいパラメータを配置すること
も可能であるが、ベクトル空間S上の必要な部分にのみ
パラメータを配置すればより効果的である。その際の基
準としては、実環境と学習されるモデルとの乖離が大き
いと予測できる部分や使用頻度の高い部分等が挙げられ
る。この場合には、パラメータ数を増やさずに、配置を
変更することによってもモデルを精密化することが可能
となる。
【0038】図4においては、パラメータ数を倍の10
にしてモデルM(i+1)を学習することを示してい
る。かかる手段により、一から多くのパラメータを用い
てモデルを学習するよりも計算頻度が少なく、短時間で
モデルを学習することが可能となる。
【0039】そして、ステップ44において、カウンタ
iを1増やした後、ステップ45において、ステップ4
2と同様に適当なアルゴリズムを用いて、収束条件を満
たすまでモデルM(i)の学習を行う。学習したモデル
M(i)は前回学習したモデルよりもパラメータが多
く、メッシュも細かくなっていることから、より実環境
に即したモデルを学習することができる。また、前回学
習したモデルを前提としているので一から内部モデルを
学習するよりも短時間で当該モデルを学習することがで
きる。
【0040】最後に、ステップ46において、事前に設
定した適当な終了条件を具備するモデルが学習できたか
否かを判断し、終了条件を具備していなければ、終了条
件を具備するまで上記プロセスを繰り返し行うことで、
より実環境に即したモデルを学習することが可能とな
る。
【0041】以上のように本実施形態によれば、まずパ
ラメータ数が少なくメッシュの粗い内部モデルを比較的
短時間で学習し、その学習結果を引き継ぎながらさらに
精密な内部モデルを学習することにより、精度の高い内
部モデルを比較的短時間で学習することができる。ま
た、メッシュの粗い内部モデルを参考にして、内部モデ
ルの中からモデルの精度向上に効果的な部分を見出し、
当該部分を細密化するようなパラメータを選択すること
により、さらに短時間で精度の高い内部モデルを学習す
ることが可能となる。
【0042】次に、本発明にかかる内部モデル学習方法
および装置の一実施例に基づいて本発明の効果を確認す
る。実施例としては、強化学習等に適用するものであれ
ばどのようなものでも良い。例えば、ロボットのナビゲ
ーションを行うシステムでも良いし、プラントの制御シ
ステムであっても良い。あるいは、画像処理における画
像認識システムであっても良い。
【0043】図5では、実施例としていわゆるヒルカー
タスク(Hillcar-Task)を用いて確認検証する。図5は
ヒルカータスク(Hillcar-Task)の概念図を示す。ヒル
カータスク(Hillcar-Task)とは、機械学習におけるテ
ストベッドの一つであり、図5に示すように、谷に配置
された車が山をそのまま登るのに十分な力を持たない場
合に、前進と後進を繰り返しながら頂上のゴールに到達
する戦略を学習するという課題である。したがって、ブ
ランコのように徐々に加速しながら山を登っていく戦略
を学習することになる。また、スタートからゴールまで
の行動数の少ない方が高く評価される。本実施例におけ
る状態空間は、位置と速度の2次元であり、行動は、前
進、静止、後退の3つに限定する。また、スタートの位
置と速度は試行時ごとにランダムに決定するものとす
る。
【0044】次に、学習方法として、Q学習(Q-learni
ng)を採用する。Q学習(Q-learning)では、状態(本
実施例では位置と速度)と行動の組に対して価値のモデ
ルを学習する。本実施例では、価値はゴールへの近さで
ある。観測された状態の中で、最も価値の大きい行動を
とることによって、ゴールに到達する行動系列を生成す
ることができる。したがって、モデルとしては、2次元
の状態ベクトルSから1次元の価値ベクトルVへの関数
を3つの行動に対してそれぞれ持つことができる。
【0045】学習方法としては、Q学習(Q-learning)
に限定されることはなく、観測された状態に対する有用
さのモデルを学習する Temporal difference法等様々な
手法を用いることができる。
【0046】また、モデルの近似方法として、等間隔の
代表点による線形近似を適用する。モデルの近似方法に
ついても等間隔の代表点による線形近似に限定されるわ
けではなく、他にCMAC、RBF等様々な近似方法を
適用することができる。
【0047】具体的な近似方法について、図6を用いて
説明する。図6において、2次元の状態ベクトルS上
に、等間隔に代表点を配置し、その位置での価値の値を
パラメータとして持つ。状態ベクトルS上の任意の点で
の価値の値は、それを囲む4つの代表点の値で補間する
ことにより計算する。図6において任意の点での価値の
値Vtargetを求める場合、任意の点を囲む4つの代表点
の値をV11、V12、V21、V22とすると、それぞれの次
元方向での距離の比率をn1:n2、m1:m2として、V
target =(n2m2V11+n1m2V12+n2m1V21+n1
m1V22)/(n1+n2)(m1+m2)で求められる。
【0048】次に、モデル学習の収束判定については、
以下の方法を採用した。すなわち、行動系列を通しての
更新量の和の推定値を求め、その絶対値があるしきい値
を下回った時点をモデル学習の終了とした。
【0049】また、本実施例においては、モデルのパラ
メータ数を順次増加させることでモデルの精度を向上し
ているが、図7に示すように、代表点と代表点の中間に
新たに代表点を加えたものを新しいモデルとした。最初
は、それぞれの次元方向に5個の代表点を配置した状態
から、最大33個まで増加させることとする。したがっ
て、パラメータ数は、5×5=25、9×9=81、1
7×17=289、33×33=1089と増加する。
【0050】まず、4種類のパラメータ数それぞれの場
合に、パラメータ数を固定した状態でQ学習(Q-learni
ng)を適用し、次に、パラメータ数を順次増加させなが
ら、同様にQ学習(Q-learning)を適用した。それぞれ
10000回の試行を異なる乱数で10組行った。図8
から図12までは、スタートからゴールまでに要した行
動数の試行回数に対する変化を示したものである。それ
ぞれのグラフは、10組の平均値の100試行ごとの平
均値である。また、それぞれの最初と最後の1000回
の平均値を(表1)に示す。
【0051】
【表1】
【0052】図8は、パラメータ数が(5×5)の場合
の結果を示す。図8では、他の場合と比べて高速に行動
数60以下になるが、その後不安定になり、最終的な行
動数は80前後になる。図9は、パラメータ数が(9×
9)の場合の結果を示すが、最初行動数は100を超え
てしまうが、一度行動数が60以下に減じるとほぼ安定
しており、最終的な行動数は55前後である。図10
は、パラメータ数が(17×17)の場合の結果を示す
が、最終的な行動数は51前後と好成績であるが、学習
の進度は遅く、収束までに1000試行程度を要してい
る。図11は、パラメータ数が(33×33)の場合の
結果を示すが、収束には4000試行程度を要している
反面、最終的な行動数は51前後とパラメータ数が(1
7×17)の場合とあまり変わらない。したがって、行
動数51前後が、この方法での限界値であることが予想
される。
【0053】次に、パラメータを順次増加させる方法の
場合は、図12に示すように、パラメータ数が(5×
5)の場合と同様に高速に行動数55以下になり、その
後も成績を上げて、最終的に行動数51前後に収束して
いる。
【0054】以上の結果から、パラメータが少ないと、
収束は速いが最終的な行動数は多く、パラメータが多い
と、収束は遅いが最終的な行動数は少ない、ということ
が明白である。一方、パラメータ数を順次増加させてい
くという本発明の実施形態にかかる内部モデル学習方法
を用いると、収束が速く、行動数も少ないことが明確に
なった。
【0055】また、本発明の実施形態にかかる内部モデ
ル学習装置を実現するプログラムを記憶した記録媒体
は、図13に示す記録媒体の例に示すように、CD−R
OMやフロッピーディスク等の可搬型記録媒体だけでな
く、通信回線の先に備えられた他の記憶装置や、コンピ
ュータのハードディスクやRAM等の記録媒体のいずれ
でも良く、プログラム実行時には、プログラムはローデ
ィングされ、主メモリ上で実行される。
【0056】また、本発明の実施形態にかかる内部モデ
ル学習装置により生成された内部モデル等を記録した記
録媒体も、図13に示す記録媒体の例に示すように、C
D−ROMやフロッピーディスク等の可搬型記録媒体だ
けでなく、通信回線の先に備えられた他の記憶装置や、
コンピュータのハードディスクやRAM等の記録媒体の
いずれでも良く、例えば本発明にかかる内部モデル学習
装置を利用する際にコンピュータにより読み取られる。
【0057】
【発明の効果】以上のように本発明にかかる内部モデル
学習方法および装置によれば、まずパラメータ数が少な
くメッシュの粗い内部モデルを比較的短時間で学習し、
その学習結果を引き継ぎながらさらに精密な内部モデル
を学習することにより、精度の高い内部モデルを比較的
短時間で学習することができる。
【0058】また、メッシュの粗い内部モデルを参考に
して、内部モデルの中からモデルの精度向上に効果的な
部分を見出し、当該部分を細密化するようなパラメータ
を選択することにより、さらに短時間で精度の高い内部
モデルを学習することが可能となる。
【0059】さらに、いわゆる「教師なし学習」の場合
においても、実環境に即した精度の高い内部モデルを短
時間で構築することが可能となる。
【図面の簡単な説明】
【図1】 従来の内部モデル学習装置の構成図
【図2】 従来の内部モデル学習方法の流れ図
【図3】 本発明の実施形態にかかる内部モデル学習装
置の構成図
【図4】 本発明の実施形態にかかる内部モデル学習方
法の処理の流れ図
【図5】 ヒルカータスク(Hillcar-task)の概念図
【図6】 本発明の一実施例にかかるモデル近似方法の
説明図
【図7】 本発明の一実施例にかかるモデルのパラメー
タ変更方法の説明図
【図8】 ヒルカータスク(Hillcar-Task)におけるス
タートからゴールまでに要した行動数の試行回数に対す
る変化を示す図
【図9】 ヒルカータスク(Hillcar-Task)におけるス
タートからゴールまでに要した行動数の試行回数に対す
る変化を示す図
【図10】 ヒルカータスク(Hillcar-Task)における
スタートからゴールまでに要した行動数の試行回数に対
する変化を示す図
【図11】 ヒルカータスク(Hillcar-Task)における
スタートからゴールまでに要した行動数の試行回数に対
する変化を示す図
【図12】 ヒルカータスク(Hillcar-Task)における
スタートからゴールまでに要した行動数の試行回数に対
する変化を示す図
【図13】 記録媒体の例示図
【符号の説明】
11,31 観測対象環境 12,32 観測部 13,33 内部モデル 14,34 判断部 35 自動更新部 36 収束判定部 37 パラメータ数変更部 131 回線先の記憶装置 132 CD−ROMやフロッピーディスク等の可搬型
記録媒体 132−1 CD−ROM 132−2 フロッピーディスク 133 コンピュータ 134 コンピュータ上のRAM/ハードディスク等の
記録媒体

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 外部環境の状態を観測する観測手順と、 観測した状態に基づいて内部モデルを形成し、かつ評価
    に基づいて前記内部モデルを随時更新する内部モデル形
    成・更新手順と、 観測された状態と更新された前記内部モデルに基づいて
    行動・認識選択判断を行う判断手順と、 前記内部モデルの学習到達度を計る収束判定手順と、 前記収束判定部において学習が十分でないと判断された
    場合にパラメータ数を更新するパラメータ数変更手順を
    含み、 少ないパラメータ数の状態から前記内部モデルを学習
    し、学習した前記内部モデルを引き継ぎながら、パラメ
    ータ数を漸次増加させ繰り返し新たな中間内部モデルを
    学習することにより、パラメータ数の多い最終内部モデ
    ルを学習することを特徴とする内部モデル学習方法。
  2. 【請求項2】 学習すべき前記内部モデルが教示され
    ず、実際に学習された前記内部モデルに対する評価が与
    えられる請求項1記載の内部モデル学習方法。
  3. 【請求項3】 パラメータ数を増加させる手順が、パラ
    メータ数が内部モデル全体を均等に細密化するパラメー
    タを選択するようにパラメータを増加させる手順である
    請求項1または2に記載の内部モデル学習方法。
  4. 【請求項4】 パラメータ数を増加させる手順が、少な
    いパラメータ数の状態で学習した前記内部モデルを参考
    にして、内部モデル学習に効果的な部分を見出し、前記
    効果的な部分を細密化するパラメータを選択するように
    パラメータ数を増加させる手順である請求項1または2
    に記載の内部モデル学習方法。
  5. 【請求項5】 外部環境の状態を観測する観測部と、 観測した状態に基づいて形成され、かつ評価に基づいて
    随時更新される前記内部モデルと、 観測された状態と更新された前記内部モデルに基づいて
    行動・認識選択判断を行う判断部と、 前記内部モデルの学習到達度を計る収束判定部と、 前記収束判定部において学習が十分でないと判断された
    場合にパラメータ数を更新するパラメータ数変更部を備
    え、 少ないパラメータ数の状態から前記内部モデルを学習
    し、学習した前記内部モデルを引き継ぎながら、パラメ
    ータ数を漸次増加させ繰り返し新たな中間内部モデルを
    学習することにより、パラメータ数の多い最終内部モデ
    ルを学習することを特徴とした内部モデル学習装置。
  6. 【請求項6】 学習すべき前記内部モデルが教示され
    ず、実際に学習された前記内部モデルに対する評価が与
    えられる請求項5記載の内部モデル学習装置。
  7. 【請求項7】 パラメータ数を増加させる手順が、パラ
    メータ数が内部モデル全体を均等に細密化するパラメー
    タを選択するようにパラメータを増加させる手順である
    請求項5または6に記載の内部モデル学習装置。
  8. 【請求項8】 パラメータ数を増加させる手順が、少な
    いパラメータ数の状態で学習した前記内部モデルを参考
    にして、内部モデル学習に効果的な部分を見出し、前記
    効果的な部分を細密化するパラメータを選択するように
    パラメータ数を増加させる手順である請求項5または6
    に記載の内部モデル学習方法。
  9. 【請求項9】 外部環境の状態を観測する観測手順と、 観測した状態に基づいて内部モデルを形成し、かつ評価
    に基づいて前記内部モデルを随時更新する内部モデル形
    成・更新手順と、 観測された状態と更新された前記内部モデルに基づいて
    行動・認識選択判断を行う判断手順と、 前記内部モデルの学習到達度を計る収束判定手順と、 前記収束判定部において学習が十分でないと判断された
    場合にパラメータ数を更新するパラメータ数変更手順を
    含み、 少ないパラメータ数の状態から前記内部モデルを学習
    し、学習した前記内部モデルを引き継ぎながら、パラメ
    ータ数を漸次増加させ繰り返し新たな中間内部モデルを
    学習することにより、パラメータ数の多い最終内部モデ
    ルを学習することを特徴とするコンピュータに実行させ
    るプログラムを記録したコンピュータ読み取り可能な記
    録媒体。
JP10160220A 1998-06-09 1998-06-09 内部モデル学習方法及び装置 Withdrawn JPH11353295A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10160220A JPH11353295A (ja) 1998-06-09 1998-06-09 内部モデル学習方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10160220A JPH11353295A (ja) 1998-06-09 1998-06-09 内部モデル学習方法及び装置

Publications (1)

Publication Number Publication Date
JPH11353295A true JPH11353295A (ja) 1999-12-24

Family

ID=15710329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10160220A Withdrawn JPH11353295A (ja) 1998-06-09 1998-06-09 内部モデル学習方法及び装置

Country Status (1)

Country Link
JP (1) JPH11353295A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method
JP2010514986A (ja) * 2007-01-02 2010-05-06 シーメンス アクチエンゲゼルシヤフト 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
JP2020015821A (ja) * 2018-07-25 2020-01-30 積水化学工業株式会社 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法
JP2020063429A (ja) * 2019-09-10 2020-04-23 積水化学工業株式会社 制御装置、サーバ、管理サーバ、コンピュータプログラム、学習モデル及び制御方法
JP2020068473A (ja) * 2018-10-25 2020-04-30 沖電気工業株式会社 センサデータ圧縮システム、センサ端末、モデル構築装置、およびプログラム
JP2022109443A (ja) * 2021-01-15 2022-07-28 沖電気工業株式会社 データ圧縮システム、送信端末、学習モデル構築装置及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133855B2 (en) 2002-04-08 2006-11-07 Honda Giken Kogyo Kabushiki Kaisha Behavior control apparatus and method
JP2010514986A (ja) * 2007-01-02 2010-05-06 シーメンス アクチエンゲゼルシヤフト 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
US8099181B2 (en) 2007-01-02 2012-01-17 Siemens Aktiengesellschaft Method for the computer-aided regulation and/or control of a technical system, especially a gas turbine
JP2020015821A (ja) * 2018-07-25 2020-01-30 積水化学工業株式会社 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法
WO2020021930A1 (ja) * 2018-07-25 2020-01-30 積水化学工業株式会社 制御装置、運転制御装置、サーバ、管理サーバ、コンピュータプログラム、学習モデル、制御方法及び運転制御方法
JP2020068473A (ja) * 2018-10-25 2020-04-30 沖電気工業株式会社 センサデータ圧縮システム、センサ端末、モデル構築装置、およびプログラム
WO2020084839A1 (ja) * 2018-10-25 2020-04-30 沖電気工業株式会社 センサデータ圧縮システム、センサ端末、モデル構築装置、およびプログラム
JP2020063429A (ja) * 2019-09-10 2020-04-23 積水化学工業株式会社 制御装置、サーバ、管理サーバ、コンピュータプログラム、学習モデル及び制御方法
JP2022109443A (ja) * 2021-01-15 2022-07-28 沖電気工業株式会社 データ圧縮システム、送信端末、学習モデル構築装置及びプログラム

Similar Documents

Publication Publication Date Title
JP2007018490A (ja) 行動制御装置および行動制御方法、並びに、プログラム
JP4028384B2 (ja) エージェント学習装置、方法、プログラム
CN111260027A (zh) 一种基于强化学习的智能体自动决策方法
CN113614743A (zh) 用于操控机器人的方法和设备
Lovas Fixed point iteration-based adaptive controller tuning using a genetic algorithm
JP7201958B2 (ja) 方策作成装置、制御装置、方策作成方法、及び、方策作成プログラム
JPH11353295A (ja) 内部モデル学習方法及び装置
CN112613608A (zh) 一种强化学习方法及相关装置
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
Hurst et al. A neural learning classifier system with self-adaptive constructivism for mobile robot control
Pugh et al. Parallel learning in heterogeneous multi-robot swarms
JP3703821B2 (ja) 並列学習装置、並列学習方法及び並列学習プログラム
CN116834037B (zh) 基于动态多目标优化的采摘机械臂轨迹规划方法及装置
US11628562B2 (en) Method, device and computer program for producing a strategy for a robot
JP5220542B2 (ja) 制御器、制御方法及び制御プログラム
CN117540203A (zh) 一种集群机器人合作导航的多向课程学习训练方法及装置
Filipic et al. A combined machine learning and genetic algorithm approach to controller design
US11651282B2 (en) Learning method for learning action of agent using model-based reinforcement learning
Caironi et al. Training and delayed reinforcements in Q‐learning agents
Gu et al. Learning fuzzy logic controller for reactive robot behaviours
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
CN114518751A (zh) 基于最小二乘截断时域差分学习的路径规划决策优化方法
JP7179672B2 (ja) 計算機システム及び機械学習方法
JP2000339005A (ja) 制御対象の最適化制御方法及び制御装置
Sarıgül et al. Q learning regression neural network

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050906