JPH11353295A

JPH11353295A - 内部モデル学習方法及び装置

Info

Publication number: JPH11353295A
Application number: JP10160220A
Authority: JP
Inventors: Masahiko Sugimura; 昌彦杉村; Daiki Masumoto; 大器増本; Shigemi Osada; 茂美長田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-06-09
Filing date: 1998-06-09
Publication date: 1999-12-24

Abstract

(57)【要約】【課題】一般的ないわゆる「教師あり学習」の場合だ
けでなく、いわゆる「教師なし学習」の場合の機械学習
においても、実環境に即した内部モデルを迅速に精度良
く学習できる方法及び装置を提供する。【解決手段】外部環境の状態を観測する観測手順と、
観測した状態に基づいて内部モデルを形成し、かつ評価
に基づいて内部モデルを随時更新する内部モデル形成・
更新手順と、観測された状態と更新された内部モデルに
基づいて行動・認識選択判断を行う判断手順と、内部モ
デルの学習到達度を計る収束判定手順と、収束判定部に
おいて学習が十分でないと判断された場合にパラメータ
数を更新するパラメータ数変更手順を含み、少ないパラ
メータ数の状態から内部モデルを学習し、学習した内部
モデルを引き継ぎながら、パラメータ数を漸次増加させ
繰り返し新たな内部モデルを学習する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、機械学習等におい
て外部環境を観測して内部モデルを学習する方法及び装
置に関する。

【０００２】

【従来の技術】近年、人間の生活における便利な道具と
して、コンピュータを伴う道具が一般化している。コン
ピュータで扱う世界を実世界に適用するためには、人間
の手によってコンピュータに何らかの学習をさせる必要
がある。最も広義に学習を解釈すると、人間が機械をプ
ログラミングした場合や何らかのインタフェースでデー
タを入力した場合についても、機械が学習したものと定
義できる。一般には、これらを「暗記学習」もしくは
「教示による学習」と呼ぶ。

【０００３】しかし、一般的に成立するルールやプログ
ラムを作って入力することは多大な労力を要することが
多く、設計時点でそのすべてを考慮することは実際上不
可能である。そこで、考え出されたのが、「例」という
限られた情報に基づいて一般的なルールを学習する手法
である。この手法において、ルールの精度を高めようと
すると、多数の「例」に基づく必要があり、また多くの
計算をする必要もあるため、実用性に欠ける。

【０００４】かかる弊害を解消すべく、様々な方法が考
え出されている。例えば、領域理論の導入、情報量に基
づく発見的な知識の導入、コンピュータ側からユーザに
質問を許す手法、遺伝的アルゴリズムの導入等が挙げら
れる。

【０００５】一例として、学習の対象領域で成立する理
論が参照できれば学習効率を飛躍的に向上させることが
できる。かかる領域理論を採用した場合の学習を「説明
に基づく学習」と呼び、「演繹学習」とも呼ばれる。
「演繹学習」は、事前に対象領域を確定し、限定された
条件下で最適のモデルを構築するのに便利である。

【０００６】それに対して、条件付けと呼ばれる一連の
適応現象を実現する学習を行う「強化学習」において
は、「報酬」と「罰」から特定の学習パターンを形成
し、設定されていない条件が与えられた場合において
も、当該学習パターンに基づいて行動等を決定すること
ができる。すなわち、一定の時間内の報酬の重み付けの
和を最大化することで、行動等を決定するものである。
一般には、状況に対して評価を決める学習要素と、状態
から次の行動を決定する実行要素とから構成され、学習
者の行動選択が経験の内容を決定する。

【０００７】「強化学習」の特徴としては、以下の二つ
が挙げられる。一つは、出力すべきデータが教示され
ず、実際に行った出力に対する評価という形で与えられ
る、いわゆる「教師なし学習」である点である。今一つ
は、評価が即座に与えられず、行為の系列に対する評価
が遅れて与えられる点である。したがって、実環境に適
応させるには、相当数の条件パラメータが要求される。

【０００８】また、ニューラルネットワークやファジー
理論を応用して、機械学習を効率的に行おうとする工夫
も見られる。例えば特開平６−３５７０７号公報におい
ては、自己増殖を行うことが可能なニューロファジー知
識獲得方法が開示されている。また特開平７−５０２３
５７号公報においては、ニューラル・ネットワークにお
ける射影を用いた内部モデルの更新方法が開示されてい
る。

【０００９】

【発明が解決しようとする課題】しかし、自己増殖型の
ニューロファジー知識獲得方法については、入出力デー
タを記憶しておく部分が構成の必須要件となっており、
いわゆる「教師あり学習」においては、その効果を十分
に発揮することができる反面、「教師なし学習」におい
ては自己増殖することができないという問題点があっ
た。

【００１０】また、ニューラル・ネットワークにおける
射影を用いた内部モデルの更新方法においても、入出力
ベクトルは構成の必須要件であり、いわゆる「教師あり
学習」においては、その効果を十分に発揮することがで
きるが、「教師なし学習」においては自己増殖すること
ができないという同様の問題点があった。

【００１１】一方、一般にモデルの学習手段に関わら
ず、内部モデル更新のためのパラメータ数が少ない場合
には、モデル学習は短時間で可能である反面、内部モデ
ルと実環境の乖離が大きくなる。また、パラメータ数が
多い場合には、実環境に即した内部モデルを学習するこ
とができる反面、内部モデルの学習に相当の時間を要す
るという問題点がある。

【００１２】本発明は、一般的ないわゆる「教師あり学
習」の場合だけでなく、いわゆる「教師なし学習」の場
合の機械学習においても、実環境に即した内部モデルを
迅速に精度良く学習できる方法及び装置を提供すること
を目的とする。

【００１３】

【課題を解決するための手段】上記課題を解決するため
に本発明にかかる内部モデル学習方法は、外部環境の状
態を観測する観測手順と、観測した状態に基づいて内部
モデルを形成し、かつ評価に基づいて内部モデルを随時
更新する内部モデル形成・更新手順と、観測された状態
と更新された内部モデルに基づいて行動・認識選択判断
を行う判断手順と、内部モデルの学習到達度を計る収束
判定手順と、収束判定部において学習が十分でないと判
断された場合にパラメータ数を更新するパラメータ数変
更手順を含み、少ないパラメータ数の状態から内部モデ
ルを学習し、学習した内部モデルを引き継ぎながら、パ
ラメータ数を漸次増加させ繰り返し新たな中間内部モデ
ルを学習することにより、パラメータ数の多い最終内部
モデルを学習することを特徴とする。かかる構成によ
り、初めから多くのパラメータを用いて内部モデルを学
習するよりも短い時間で精度の高い内部モデルを学習す
ることが可能となる。

【００１４】また、本発明にかかる内部モデル学習方法
は、学習すべき内部モデルが教示されず、実際に学習さ
れた内部モデルに対する評価が与えられることが望まし
い。かかる構成により、いわゆる「教師あり学習」だけ
でなく、「教師なし学習」である強化学習においても、
短時間で精度の高い内部モデルを学習することが可能と
なる。

【００１５】また、本発明にかかる内部モデル学習方法
は、パラメータ数を増加させる手順が、パラメータ数が
内部モデル全体を均等に細密化するパラメータを選択す
るようにパラメータを増加させる手順であることが好ま
しい。かかる手順により、パラメータ数を次第に増加さ
せながら内部モデルを学習することにより、初めから多
くのパラメータを用いて内部モデルを学習するよりも短
い時間で精度の高い内部モデルを学習することが可能と
なる。

【００１６】また、本発明にかかる内部モデル学習方法
は、パラメータ数を増加させる手順が、少ないパラメー
タ数の状態で学習した内部モデルを参考にして、内部モ
デル学習に効果的な部分を見出し、効果的な部分を細密
化するパラメータを選択するようにパラメータ数を増加
させる手順であることが好ましい。かかる手順により、
単純にパラメータ数を増加させる手順よりも、より効果
的に学習する内部モデルの精度を高めることが可能とな
る。

【００１７】次に、上記課題を解決するために本発明に
かかる内部モデル学習装置は、外部環境の状態を観測す
る観測部と、観測した状態に基づいて形成され、かつ評
価に基づいて随時更新された内部モデルと、観測された
状態と更新された内部モデルに基づいて行動・認識選択
判断を行う判断部と、内部モデルの学習到達度を計る収
束判定部と、収束判定部において学習が十分でないと判
断された場合にパラメータ数を更新するパラメータ数変
更部を備え、少ないパラメータ数の状態から内部モデル
を学習し、学習した内部モデルを引き継ぎながら、パラ
メータ数を漸次増加させ繰り返し新たな中間内部モデル
を学習することにより、パラメータ数の多い最終内部モ
デルを学習することを特徴とする。かかる構成により、
初めから多くのパラメータを用いて内部モデルを学習す
るよりも短い時間で精度の高い内部モデルを学習するこ
とが可能となる。

【００１８】また、本発明にかかる内部モデル学習装置
は、学習すべき内部モデルが教示されず、実際に学習さ
れた内部モデルに対する評価が与えられることが望まし
い。かかる構成により、いわゆる「教師あり学習」だけ
でなく、「教師なし学習」である強化学習においても、
短時間で精度の高い内部モデルを学習することが可能と
なる。

【００１９】また、本発明にかかる内部モデル学習装置
は、パラメータ数を増加させる手順が、パラメータ数が
内部モデル全体を均等に細密化するパラメータを選択す
るようにパラメータを増加させる手順であることが好ま
しい。かかる手順により、パラメータ数を次第に増加さ
せながら内部モデルを学習することにより、初めから多
くのパラメータを用いて内部モデルを学習するよりも短
い時間で精度の高い内部モデルを学習することが可能と
なる。

【００２０】また、本発明にかかる内部モデル学習装置
は、パラメータ数を増加させる手順が、少ないパラメー
タ数の状態で学習した内部モデルを参考にして、内部モ
デル学習に効果的な部分を見出し、効果的な部分を細密
化するパラメータを選択するようにパラメータ数を増加
させる手順であることが好ましい。かかる手順により、
単純にパラメータ数を増加させる手順よりも、より効果
的に学習する内部モデルの精度を高めることが可能とな
る。

【００２１】次に、上記課題を解決するために本発明に
かかるコンピュータに実行させるプログラムを記録した
コンピュータ読み取り可能な記録媒体は、外部環境の状
態を観測する観測手順と、観測した状態に基づいて内部
モデルを形成し、かつ評価に基づいて内部モデルを随時
更新する内部モデル形成・更新手順と、観測された状態
と更新された前記内部モデルに基づいて行動・認識選択
判断を行う判断手順と、内部モデルの学習到達度を計る
収束判定手順と、収束判定部において学習が十分でない
と判断された場合にパラメータ数を更新するパラメータ
数変更手順を含み、少ないパラメータ数の状態から内部
モデルを学習し、学習した内部モデルを引き継ぎなが
ら、パラメータ数を漸次増加させ繰り返し新たな中間内
部モデルを学習することにより、パラメータ数の多い最
終内部モデルを学習することを特徴とする。

【００２２】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、初めから多く
のパラメータを用いて内部モデルを学習するよりも、短
い時間で精度の高い内部モデルを学習することができる
内部モデル学習装置が実現できる。

【００２３】

【発明の実施の形態】以下、本発明の実施形態にかかる
内部モデル学習方法および装置について、図面を参照し
ながら説明する。図１は、従来の環境を観測し内部モデ
ルを学習する方法及び装置の一般的な概念図を示す。図
２は、当該方法及び装置の処理の流れ図を示す。従来か
らのモデル学習方法及び装置においては、大きく３つの
部分から構成されている。

【００２４】図１において、１１は観測の対象となる環
境を示す。１２は観測部を示し、観測対象環境１１にお
ける現在の環境の状態を観測する役割を果たす。１３は
内部モデルを示し、環境１１に対する何らかの内部モデ
ルを意味する。１４は判断部を示し、学習された内部モ
デル１３を使用する部分を示す。

【００２５】観測部１１で観測された環境の状態から、
内部モデル１３が形成される。内部モデル１３に対して
は、適当なタイミングで評価が与えられ、当該評価を反
映して内部モデル１３は順次更新される。判断部１４
は、観測部１１の観測状態と内部モデル１３を用いて認
識や行動選択等の判断を行う。

【００２６】図２に観測ごとに内部モデルの評価と更新
を行う方法の処理の流れ図を示すが、一連の観測の組に
対して内部モデルの評価と更新を行っても良い。図２で
は、ステップ２１において対象となる環境を観測し、ス
テップ２２において観測した状態に基づいて学習した内
部モデルを評価し、ステップ２３において評価に基づい
て内部モデルを更新する。そして、ステップ２４におい
て観測系列が終了しているか否かを判断し、まだ観測し
ていない観測系列が残っていれば再度ステップ２１から
ステップ２３の処理を繰り返し行う。最後に、ステップ
２５において学習した内部モデルが収束しているか否か
を判断して、収束していなければステップ２１からステ
ップ２４の処理を繰り返し行うことになる。

【００２７】一般に、内部モデルは、ｎ次元の空間ベク
トルＳからｍ次元の空間ベクトルＶへの関数として定義
される。この時、内部モデルに実環境を完全に写し取っ
たものとすると、空間ベクトルＳに含まれるすべての要
素ｓに対する空間ベクトルＶに含まれる要素ｖの値をデ
ータとして持つことになり、無限大の記憶容量が必要に
なる。そこで、内部モデルの関数は有限個のパラメータ
で近似されることが望ましい。かかるパラメータを、θ
（１）、θ（２）、…θ（ｐ）とすると、内部モデルの
関数は、空間ベクトルＳに含まれるすべての要素に対し
て、空間ベクトルＶ（ｓ）＝ＡＰＰＲＯＸ（θ（１）、
θ（２）、…、θ（ｐ）、ｓ）となる。

【００２８】この関数ＡＰＰＲＯＸはｐ個のパラメータ
で実際の要素ｓと要素ｖの関係を近似するものなら、ニ
ューラルネットワークのような非線型の関数でも、ＣＭ
ＡＣ（Cerebellar Model Articulation Controller）、
ＲＢＦ（Radial Basis Function）、等間隔の代表点に
よる線形補間等のパラメータの線形結合による関数でも
よい。この内部モデルの（ｔ＋１）回目の更新は以下の
更新則によって行われる。ここで、UpdateValue_t はモ
デル全体での更新量であって、Weight_t（i）(ｉ＝０，
１，……，ｐ)は各々のパラメータに対するUpdateValue
_t の影響の大きさを示す。これらの値の決め方は学習手
法とモデルを近似する関数に依存する。

【００２９】 θ_t+1（１）＝θ_t（１）＋UpdateValue_t × Weight_t（１） θ_t+1（２）＝θ_t（２）＋UpdateValue_t × Weight_t（２）・・ θ_t+1（ｐ）＝θ_t（ｐ）＋UpdateValue_t × Weight_t（ｐ）次に、図３は本発明の実施形態にかかる内部モデル学習
方法および装置の構成図を示す。図３において、３１は
観測の対象となる環境を示す。３２は観測部を示し、観
測対象環境３１における現在の環境の状態を観測する役
割を果たす。３３は内部モデルを示し、環境３１に対す
る何らかの内部モデルを意味する。３４は判断部を示
し、学習された内部モデル３３を使用する部分を示す。

【００３０】観測部３１で観測された環境の状態から、
内部モデル３３が形成される。内部モデル３３に対して
は、適当なタイミングで評価が与えられ、当該評価を反
映して内部モデル３３は順次更新される。判断部３４
は、観測部３１の観測状態と内部モデル３３を用いて認
識や行動選択等の判断を行う。

【００３１】従来の内部モデル学習装置と根本的に相違
する点は、内部モデルのパラメータ自動更新部３５を有
する点にある。パラメータ自動更新部３５は収束判定部
３６とパラメータ数変更部３７で構成される。収束判定
部３６は、内部モデルの学習が充分か否かを判断する。
パラメータ数変更部３７は、収束判定部３６により学習
が十分でないと判断された場合に、パラメータ数を更新
して、さらに学習を繰り返し行うことを可能とする。

【００３２】一般に、パラメータの少ない場合の内部モ
デルの学習は比較的短時間で可能である。本発明の実施
形態にかかる内部モデル学習方法および装置において
は、内部モデルのパラメータ自動更新部３５を有するこ
とにより、少ないパラメータの状態から内部モデルの学
習をし、徐々にパラメータを増加させることにより、は
じめから多くのパラメータを用いて内部モデルを学習す
るよりも短時間で精度の高い内部モデルを学習すること
を可能とする。

【００３３】また、図３の構成においては、出力すべき
データが教示されているわけではなく、実際に学習され
た内部モデルに対する評価という形で与えられている学
習方法及び装置を示しており、いわゆる「教師なし学
習」装置の典型的構成となっている。したがって、いわ
ゆる「教師なし学習」においても、比較的短時間で精度
の高い内部モデルを学習することが可能となる。もちろ
ん、出力すべきデータが教示されているようないわゆる
「教師あり学習」においても同様の効果が期待できる。

【００３４】図４は、本発明の実施形態にかかる内部モ
デル学習方法および装置における処理の具体的な流れ図
を示す。まず、カウンタi を初期値ゼロにしておいてか
ら、ステップ４１においてパラメータ数Ｌ（ｉ）のモデ
ルＭ（ｉ）のパラメータを適当に初期化する。例えば、
図４においては、パラメータ数５のモデルＭ（ｉ）を直
線状モデルとして初期化した。

【００３５】次に、ステップ４２において適当な学習ア
ルゴリズムを用いて、収束条件を満たすまでモデルＭ
（ｉ）の学習を行う。学習したモデルＭ（ｉ）はパラメ
ータも少なくメッシュも粗いので、実環境に即したモデ
ルとは言い難いが、比較的短時間でモデルを学習するこ
とができる。ここで、収束条件とは、モデル学習の終了
を決定する条件を意味し、モデルの更新量がある基準を
満たした時点をモデル学習の終了時点とする。モデルＭ
（ｉ）の学習には、パラメータも少なくメッシュも粗い
ので比較的短時間しか要しない。

【００３６】次に、ステップ４３においてパラメータ数
をＬ（ｉ＋１）に増やしたモデルＭ（ｉ＋１）のパラメ
ータを、新たに学習するモデルＭ（ｉ＋１）が既に学習
されたＭ（ｉ）に近似するように初期化する。Ｌ（ｉ＋
１）はＬ（ｉ）よりも大きければ良く、また均等にパラ
メータを増やさずに、ある部分のみメッシュを細かくす
るようにパラメータを増やしても良い。

【００３７】例えば、前述のＣＭＡＣ、ＲＢＦ、等間隔
の代表点による線形補間等は、パラメータの重みの計算
方法は異なっているが、モデルがベクトル空間Ｓ上に配
置されたパラメータの重み付きの和で表わされていると
いう点では一致する。かかる形態のモデルの場合、ベク
トル空間Ｓ上に一様に新しいパラメータを配置すること
も可能であるが、ベクトル空間Ｓ上の必要な部分にのみ
パラメータを配置すればより効果的である。その際の基
準としては、実環境と学習されるモデルとの乖離が大き
いと予測できる部分や使用頻度の高い部分等が挙げられ
る。この場合には、パラメータ数を増やさずに、配置を
変更することによってもモデルを精密化することが可能
となる。

【００３８】図４においては、パラメータ数を倍の１０
にしてモデルＭ（ｉ＋１）を学習することを示してい
る。かかる手段により、一から多くのパラメータを用い
てモデルを学習するよりも計算頻度が少なく、短時間で
モデルを学習することが可能となる。

【００３９】そして、ステップ４４において、カウンタ
iを１増やした後、ステップ４５において、ステップ４
２と同様に適当なアルゴリズムを用いて、収束条件を満
たすまでモデルＭ（ｉ）の学習を行う。学習したモデル
Ｍ（ｉ）は前回学習したモデルよりもパラメータが多
く、メッシュも細かくなっていることから、より実環境
に即したモデルを学習することができる。また、前回学
習したモデルを前提としているので一から内部モデルを
学習するよりも短時間で当該モデルを学習することがで
きる。

【００４０】最後に、ステップ４６において、事前に設
定した適当な終了条件を具備するモデルが学習できたか
否かを判断し、終了条件を具備していなければ、終了条
件を具備するまで上記プロセスを繰り返し行うことで、
より実環境に即したモデルを学習することが可能とな
る。

【００４１】以上のように本実施形態によれば、まずパ
ラメータ数が少なくメッシュの粗い内部モデルを比較的
短時間で学習し、その学習結果を引き継ぎながらさらに
精密な内部モデルを学習することにより、精度の高い内
部モデルを比較的短時間で学習することができる。ま
た、メッシュの粗い内部モデルを参考にして、内部モデ
ルの中からモデルの精度向上に効果的な部分を見出し、
当該部分を細密化するようなパラメータを選択すること
により、さらに短時間で精度の高い内部モデルを学習す
ることが可能となる。

【００４２】次に、本発明にかかる内部モデル学習方法
および装置の一実施例に基づいて本発明の効果を確認す
る。実施例としては、強化学習等に適用するものであれ
ばどのようなものでも良い。例えば、ロボットのナビゲ
ーションを行うシステムでも良いし、プラントの制御シ
ステムであっても良い。あるいは、画像処理における画
像認識システムであっても良い。

【００４３】図５では、実施例としていわゆるヒルカー
タスク（Hillcar-Task）を用いて確認検証する。図５は
ヒルカータスク（Hillcar-Task）の概念図を示す。ヒル
カータスク（Hillcar-Task）とは、機械学習におけるテ
ストベッドの一つであり、図５に示すように、谷に配置
された車が山をそのまま登るのに十分な力を持たない場
合に、前進と後進を繰り返しながら頂上のゴールに到達
する戦略を学習するという課題である。したがって、ブ
ランコのように徐々に加速しながら山を登っていく戦略
を学習することになる。また、スタートからゴールまで
の行動数の少ない方が高く評価される。本実施例におけ
る状態空間は、位置と速度の２次元であり、行動は、前
進、静止、後退の３つに限定する。また、スタートの位
置と速度は試行時ごとにランダムに決定するものとす
る。

【００４４】次に、学習方法として、Ｑ学習（Q-learni
ng）を採用する。Ｑ学習（Q-learning）では、状態（本
実施例では位置と速度）と行動の組に対して価値のモデ
ルを学習する。本実施例では、価値はゴールへの近さで
ある。観測された状態の中で、最も価値の大きい行動を
とることによって、ゴールに到達する行動系列を生成す
ることができる。したがって、モデルとしては、２次元
の状態ベクトルＳから１次元の価値ベクトルＶへの関数
を３つの行動に対してそれぞれ持つことができる。

【００４５】学習方法としては、Ｑ学習（Q-learning）
に限定されることはなく、観測された状態に対する有用
さのモデルを学習する Temporal difference法等様々な
手法を用いることができる。

【００４６】また、モデルの近似方法として、等間隔の
代表点による線形近似を適用する。モデルの近似方法に
ついても等間隔の代表点による線形近似に限定されるわ
けではなく、他にＣＭＡＣ、ＲＢＦ等様々な近似方法を
適用することができる。

【００４７】具体的な近似方法について、図６を用いて
説明する。図６において、２次元の状態ベクトルＳ上
に、等間隔に代表点を配置し、その位置での価値の値を
パラメータとして持つ。状態ベクトルＳ上の任意の点で
の価値の値は、それを囲む４つの代表点の値で補間する
ことにより計算する。図６において任意の点での価値の
値Ｖ_targetを求める場合、任意の点を囲む４つの代表点
の値をＶ11、Ｖ12、Ｖ21、Ｖ22とすると、それぞれの次
元方向での距離の比率をｎ1:ｎ2、ｍ1:ｍ2として、Ｖ
_target ＝（ｎ2ｍ2Ｖ11＋ｎ1ｍ2Ｖ12＋ｎ2ｍ1Ｖ21＋ｎ1
ｍ1Ｖ22）／（ｎ1＋ｎ2）（ｍ1＋ｍ2）で求められる。

【００４８】次に、モデル学習の収束判定については、
以下の方法を採用した。すなわち、行動系列を通しての
更新量の和の推定値を求め、その絶対値があるしきい値
を下回った時点をモデル学習の終了とした。

【００４９】また、本実施例においては、モデルのパラ
メータ数を順次増加させることでモデルの精度を向上し
ているが、図７に示すように、代表点と代表点の中間に
新たに代表点を加えたものを新しいモデルとした。最初
は、それぞれの次元方向に５個の代表点を配置した状態
から、最大３３個まで増加させることとする。したがっ
て、パラメータ数は、５×５＝２５、９×９＝８１、１
７×１７＝２８９、３３×３３＝１０８９と増加する。

【００５０】まず、４種類のパラメータ数それぞれの場
合に、パラメータ数を固定した状態でＱ学習（Q-learni
ng）を適用し、次に、パラメータ数を順次増加させなが
ら、同様にＱ学習（Q-learning）を適用した。それぞれ
１００００回の試行を異なる乱数で１０組行った。図８
から図１２までは、スタートからゴールまでに要した行
動数の試行回数に対する変化を示したものである。それ
ぞれのグラフは、１０組の平均値の１００試行ごとの平
均値である。また、それぞれの最初と最後の１０００回
の平均値を（表１）に示す。

【００５１】

【表１】

【００５２】図８は、パラメータ数が（５×５）の場合
の結果を示す。図８では、他の場合と比べて高速に行動
数６０以下になるが、その後不安定になり、最終的な行
動数は８０前後になる。図９は、パラメータ数が（９×
９）の場合の結果を示すが、最初行動数は１００を超え
てしまうが、一度行動数が６０以下に減じるとほぼ安定
しており、最終的な行動数は５５前後である。図１０
は、パラメータ数が（１７×１７）の場合の結果を示す
が、最終的な行動数は５１前後と好成績であるが、学習
の進度は遅く、収束までに１０００試行程度を要してい
る。図１１は、パラメータ数が（３３×３３）の場合の
結果を示すが、収束には４０００試行程度を要している
反面、最終的な行動数は５１前後とパラメータ数が（１
７×１７）の場合とあまり変わらない。したがって、行
動数５１前後が、この方法での限界値であることが予想
される。

【００５３】次に、パラメータを順次増加させる方法の
場合は、図１２に示すように、パラメータ数が（５×
５）の場合と同様に高速に行動数５５以下になり、その
後も成績を上げて、最終的に行動数５１前後に収束して
いる。

【００５４】以上の結果から、パラメータが少ないと、
収束は速いが最終的な行動数は多く、パラメータが多い
と、収束は遅いが最終的な行動数は少ない、ということ
が明白である。一方、パラメータ数を順次増加させてい
くという本発明の実施形態にかかる内部モデル学習方法
を用いると、収束が速く、行動数も少ないことが明確に
なった。

【００５５】また、本発明の実施形態にかかる内部モデ
ル学習装置を実現するプログラムを記憶した記録媒体
は、図１３に示す記録媒体の例に示すように、ＣＤ−Ｒ
ＯＭやフロッピーディスク等の可搬型記録媒体だけでな
く、通信回線の先に備えられた他の記憶装置や、コンピ
ュータのハードディスクやＲＡＭ等の記録媒体のいずれ
でも良く、プログラム実行時には、プログラムはローデ
ィングされ、主メモリ上で実行される。

【００５６】また、本発明の実施形態にかかる内部モデ
ル学習装置により生成された内部モデル等を記録した記
録媒体も、図１３に示す記録媒体の例に示すように、Ｃ
Ｄ−ＲＯＭやフロッピーディスク等の可搬型記録媒体だ
けでなく、通信回線の先に備えられた他の記憶装置や、
コンピュータのハードディスクやＲＡＭ等の記録媒体の
いずれでも良く、例えば本発明にかかる内部モデル学習
装置を利用する際にコンピュータにより読み取られる。

【００５７】

【発明の効果】以上のように本発明にかかる内部モデル
学習方法および装置によれば、まずパラメータ数が少な
くメッシュの粗い内部モデルを比較的短時間で学習し、
その学習結果を引き継ぎながらさらに精密な内部モデル
を学習することにより、精度の高い内部モデルを比較的
短時間で学習することができる。

【００５８】また、メッシュの粗い内部モデルを参考に
して、内部モデルの中からモデルの精度向上に効果的な
部分を見出し、当該部分を細密化するようなパラメータ
を選択することにより、さらに短時間で精度の高い内部
モデルを学習することが可能となる。

【００５９】さらに、いわゆる「教師なし学習」の場合
においても、実環境に即した精度の高い内部モデルを短
時間で構築することが可能となる。

【図面の簡単な説明】

【図１】従来の内部モデル学習装置の構成図

【図２】従来の内部モデル学習方法の流れ図

【図３】本発明の実施形態にかかる内部モデル学習装
置の構成図

【図４】本発明の実施形態にかかる内部モデル学習方
法の処理の流れ図

【図５】ヒルカータスク（Hillcar-task）の概念図

【図６】本発明の一実施例にかかるモデル近似方法の
説明図

【図７】本発明の一実施例にかかるモデルのパラメー
タ変更方法の説明図

【図８】ヒルカータスク（Hillcar-Task）におけるス
タートからゴールまでに要した行動数の試行回数に対す
る変化を示す図

【図９】ヒルカータスク（Hillcar-Task）におけるス
タートからゴールまでに要した行動数の試行回数に対す
る変化を示す図

【図１０】ヒルカータスク（Hillcar-Task）における
スタートからゴールまでに要した行動数の試行回数に対
する変化を示す図

【図１１】ヒルカータスク（Hillcar-Task）における
スタートからゴールまでに要した行動数の試行回数に対
する変化を示す図

【図１２】ヒルカータスク（Hillcar-Task）における
スタートからゴールまでに要した行動数の試行回数に対
する変化を示す図

【図１３】記録媒体の例示図

【符号の説明】

１１，３１観測対象環境１２，３２観測部１３，３３内部モデル１４，３４判断部３５自動更新部３６収束判定部３７パラメータ数変更部１３１回線先の記憶装置１３２ＣＤ−ＲＯＭやフロッピーディスク等の可搬型
記録媒体１３２−１ＣＤ−ＲＯＭ１３２−２フロッピーディスク１３３コンピュータ１３４コンピュータ上のＲＡＭ／ハードディスク等の
記録媒体

Claims

【特許請求の範囲】

【請求項１】外部環境の状態を観測する観測手順と、観測した状態に基づいて内部モデルを形成し、かつ評価
に基づいて前記内部モデルを随時更新する内部モデル形
成・更新手順と、観測された状態と更新された前記内部モデルに基づいて
行動・認識選択判断を行う判断手順と、前記内部モデルの学習到達度を計る収束判定手順と、前記収束判定部において学習が十分でないと判断された
場合にパラメータ数を更新するパラメータ数変更手順を
含み、少ないパラメータ数の状態から前記内部モデルを学習
し、学習した前記内部モデルを引き継ぎながら、パラメ
ータ数を漸次増加させ繰り返し新たな中間内部モデルを
学習することにより、パラメータ数の多い最終内部モデ
ルを学習することを特徴とする内部モデル学習方法。
【請求項２】学習すべき前記内部モデルが教示され
ず、実際に学習された前記内部モデルに対する評価が与
えられる請求項１記載の内部モデル学習方法。
【請求項３】パラメータ数を増加させる手順が、パラ
メータ数が内部モデル全体を均等に細密化するパラメー
タを選択するようにパラメータを増加させる手順である
請求項１または２に記載の内部モデル学習方法。
【請求項４】パラメータ数を増加させる手順が、少な
いパラメータ数の状態で学習した前記内部モデルを参考
にして、内部モデル学習に効果的な部分を見出し、前記
効果的な部分を細密化するパラメータを選択するように
パラメータ数を増加させる手順である請求項１または２
に記載の内部モデル学習方法。
【請求項５】外部環境の状態を観測する観測部と、観測した状態に基づいて形成され、かつ評価に基づいて
随時更新される前記内部モデルと、観測された状態と更新された前記内部モデルに基づいて
行動・認識選択判断を行う判断部と、前記内部モデルの学習到達度を計る収束判定部と、前記収束判定部において学習が十分でないと判断された
場合にパラメータ数を更新するパラメータ数変更部を備
え、少ないパラメータ数の状態から前記内部モデルを学習
し、学習した前記内部モデルを引き継ぎながら、パラメ
ータ数を漸次増加させ繰り返し新たな中間内部モデルを
学習することにより、パラメータ数の多い最終内部モデ
ルを学習することを特徴とした内部モデル学習装置。
【請求項６】学習すべき前記内部モデルが教示され
ず、実際に学習された前記内部モデルに対する評価が与
えられる請求項５記載の内部モデル学習装置。
【請求項７】パラメータ数を増加させる手順が、パラ
メータ数が内部モデル全体を均等に細密化するパラメー
タを選択するようにパラメータを増加させる手順である
請求項５または６に記載の内部モデル学習装置。
【請求項８】パラメータ数を増加させる手順が、少な
いパラメータ数の状態で学習した前記内部モデルを参考
にして、内部モデル学習に効果的な部分を見出し、前記
効果的な部分を細密化するパラメータを選択するように
パラメータ数を増加させる手順である請求項５または６
に記載の内部モデル学習方法。
【請求項９】外部環境の状態を観測する観測手順と、観測した状態に基づいて内部モデルを形成し、かつ評価
に基づいて前記内部モデルを随時更新する内部モデル形
成・更新手順と、観測された状態と更新された前記内部モデルに基づいて
行動・認識選択判断を行う判断手順と、前記内部モデルの学習到達度を計る収束判定手順と、前記収束判定部において学習が十分でないと判断された
場合にパラメータ数を更新するパラメータ数変更手順を
含み、少ないパラメータ数の状態から前記内部モデルを学習
し、学習した前記内部モデルを引き継ぎながら、パラメ
ータ数を漸次増加させ繰り返し新たな中間内部モデルを
学習することにより、パラメータ数の多い最終内部モデ
ルを学習することを特徴とするコンピュータに実行させ
るプログラムを記録したコンピュータ読み取り可能な記
録媒体。