JP2010287027A

JP2010287027A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2010287027A
Application number: JP2009140064A
Authority: JP
Inventors: Kuniaki Noda; 邦昭野田; Kotaro Sabe; 浩太郎佐部; Yukiko Yoshiike; 由紀子吉池; Kenta Kawamoto; 献太河本; Kenichi Hidai; 健一日台
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-06-11
Filing date: 2009-06-11
Publication date: 2010-12-24
Anticipated expiration: 2029-06-11
Also published as: JP5440840B2; CN101923663A; CN101923663B; US20100318479A1; US8527434B2

Abstract

【課題】エージェントが行うべきアクションとして、適切なアクションを決定する。
【解決手段】学習部２１は、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、アクションごとの状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される拡張HMMの学習を、エージェントが行うアクションと、エージェントがアクションを行ったときにエージェントにおいて観測される観測値とを用いて行う。本発明は、例えば、自律的にアクションを行うエージェントに適用できる。
【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムに関し、例えば、各種のアクションを自律的に行うことが可能なエージェント（自律エージェント）の適切なアクションの決定を行うことができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

状態予測や行動決定手法としては、例えば、部分観測マルコフ決定過程（Partially Observed Markov Decision Process）を適用し、学習データから静的な部分観測マルコフ決定過程を自動的に構築する方法がある（例えば、特許文献１を参照）。

また、自律移動ロボットや振り子の動作計画法として、マルコフ状態モデルで離散化された行動計画を行い、さらに、計画された目標を制御器に入力し、制御対象に与えるべき出力を導出することで所望の制御を行う方法がある（例えば、特許文献２や３を参照）。

特開2008-186326号公報特開2007-317165号公報特開2006-268812号公報

各種のアクションを自律的に行うことが可能なエージェントの適切なアクションの決定を行う方法としては、種々の方法が提案されているが、さらなる新たな方法の提案が要請されている。

本発明は、このような状況に鑑みてなされたものであり、エージェントの適切なアクションの決定を行うこと、つまり、エージェントが行うべきアクションとして、適切なアクションを決定することができるようにするものである。

本発明の第１の側面の情報処理装置、及び、プログラムは、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う学習手段を備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

本発明の第１の側面の情報処理方法は、情報処理装置が、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行うステップを含む情報処理方法である。

以上のような第１の側面においては、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習が、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行われる。

本発明の第２の側面の情報処理装置、又は、プログラムは、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行うことにより得られる前記状態遷移確率モデルに基づき、前記エージェントが行ったアクションと、そのアクションが行われたときに前記エージェントにおいて観測された観測値とを用いて、前記エージェントの現在の状況を認識し、その現在の状況に対応する前記状態遷移確率モデルの状態である現在状態を求める状態認識手段と、前記状態遷移確率モデルの状態の１つを、目標とする目標状態に決定する目標決定手段と、前記状態遷移確率モデルに基づき、前記現在状態から前記目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを算出し、そのアクションプランに従い、前記エージェントが次に行うべきアクションを決定するアクション決定手段とを備える情報処理装置、又は、情報処理装置として、コンピュータを機能させるためのプログラムである。

本発明の第２の側面の情報処理方法は、情報処理装置が、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行うことにより得られる前記状態遷移確率モデルに基づき、前記エージェントが行ったアクションと、そのアクションが行われたときに前記エージェントにおいて観測された観測値とを用いて、前記エージェントの現在の状況を認識し、その現在の状況に対応する前記状態遷移確率モデルの状態である現在状態を求め、前記状態遷移確率モデルの状態の１つを、目標とする目標状態に決定し、前記状態遷移確率モデルに基づき、前記現在状態から前記目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを算出し、そのアクションプランに従い、前記エージェントが次に行うべきアクションを決定するステップを含む情報処理方法である。

以上のような第２の側面においては、アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行うことにより得られる前記状態遷移確率モデルに基づき、前記エージェントが行ったアクションと、そのアクションが行われたときに前記エージェントにおいて観測された観測値とを用いて、前記エージェントの現在の状況が認識され、その現在の状況に対応する前記状態遷移確率モデルの状態である現在状態が求められる。また、前記状態遷移確率モデルの状態の１つが、目標とする目標状態に決定される。そして、前記状態遷移確率モデルに基づき、前記現在状態から前記目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランが算出され、そのアクションプランに従い、前記エージェントが次に行うべきアクションが決定される。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本発明の第１及び第２の側面によれば、エージェントが行うべきアクションとして、適切なアクションを決定することができる。

アクション環境を示す図である。アクション環境の構造が変化する様子を示す図である。エージェントが行うアクション、及び、エージェントが観測する観測値を示す図である。本発明の情報処理装置を適用したエージェントの一実施の形態の構成例を示すブロック図である。反射アクションモードの処理を説明するフローチャートである。拡張HMMの状態遷移確率を説明する図である。拡張HMMの学習の処理を説明するフローチャートである。認識アクションモードの処理を説明するフローチャートである。目標決定部１６が行う目標状態の決定の処理を説明するフローチャートである。アクション決定部２４によるアクションプランの算出を説明する図である。アクション決定部２４が行う、抑制子を用いての、拡張HMMの状態遷移確率の補正を説明する図である。状態認識部２４が行う抑制子の更新の処理を説明するフローチャートである。オープン端検出部３７が検出するオープン端である拡張HMMの状態を説明する図である。オープン端検出部３７が、観測値O_kが閾値以上の確率で観測される状態S_iをリストアップする処理を説明する図である。観測値O_kに対してリストアップされた状態S_iを用いて、アクションテンプレートCを生成する方法を説明する図である。観測確率に基づくアクション確率Dを算出する方法を説明する図である。状態遷移確率に基づくアクション確率Eを算出する方法を説明する図である。差分アクション確率Fを模式的に示す図である。オープン端の検出の処理を説明するフローチャートである。分岐構造検出部３６による分岐構造の状態の検出の方法を説明する図である。シミュレーションで採用したアクション環境を示す図である。シミュレーションでの学習後の拡張HMMを模式的に示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。シミュレーションの結果を示す図である。エージェントを応用した掃除ロボットの概要を示す図である。１状態１観測値制約を実現するための状態の分割の概要を説明する図である。分割対象状態の検出の方法を説明する図である。分割対象状態を、分割後状態に分割する方法を説明する図である。１状態１観測値制約を実現するための状態のマージの概要を説明する図である。マージ対象状態の検出の方法を説明する図である。複数の分岐先状態を、１つの代表状態にマージする方法を説明する図である。１状態１観測値制約の下で行われる、拡張HMMの学習の処理を説明するフローチャートである。分割対象状態の検出の処理を説明するフローチャートである。状態の分割の処理を説明するフローチャートである。マージ対象状態の検出の処理を説明するフローチャートである。マージ対象状態の検出の処理を説明するフローチャートである。状態のマージの処理を説明するフローチャートである。１状態１観測値制約の下での拡張HMMの学習のシミュレーションを説明する図である。認識アクションモードの処理を説明するフローチャートである。現況状態系列の候補の算出の処理を説明するフローチャートである。現況状態系列の候補の算出の処理を説明するフローチャートである。第１のストラテジに従ったアクションの決定の処理を説明するフローチャートである。第２のストラテジに従ったアクションの決定の概要を説明する図である。第２のストラテジに従ったアクションの決定の処理を説明するフローチャートである。第３のストラテジに従ったアクションの決定の概要を説明する図である。第３のストラテジに従ったアクションの決定の処理を説明するフローチャートである。複数のストラテジの中から、アクションを決定するときに従うストラテジを選択する処理を説明するフローチャートである。複数のストラテジの中から、アクションを決定するときに従うストラテジを選択する処理を説明するフローチャートである。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［エージェントがアクションを行う環境］

図１は、本発明の情報処理装置を適用したエージェントがアクションを行う環境であるアクション環境の例を示す図である。

エージェントは、移動等のアクション（行動）を自律的に行うことが可能（アクション可能）な、例えば、ロボット（実世界で行動するロボットでも良いし、仮想世界で行動する仮想的なロボットでも良い）等の装置である。

エージェントは、アクションを行うことによって、エージェント自身の状況を変化させること、及び、外部から観測可能な情報を観測し、その観測結果である観測値を用いて、状況を認識することができる。

また、エージェントは、状況の認識や、各状況において行うべきアクションの決定（選択）のために、エージェントがアクションを行うアクション環境のモデル（環境モデル）を構築する。

エージェントは、構造が固定のアクション環境は勿論、構造が固定ではなく、確率的に変化するアクション環境についても、効率的なモデル化（環境モデルの構築）を行う。

図１では、アクション環境は、２次元平面の迷路になっており、その構造は、確率的に変化するようになっている。なお、図１のアクション環境において、エージェントは、図中、白抜きの部分を、通路として移動することができる。

図２は、アクション環境の構造が変化する様子を示す図である。

図２のアクション環境では、時刻t=t₁において、位置p1が壁になっており、位置p2が通路になっている。したがって、時刻t=t₁では、アクション環境は、エージェントが位置p1を通ることはできないが、位置p2を通ることはできる構造になっている。

その後、時刻t=t₂（＞t₁）では、位置p1が壁から通路に変化し、その結果、アクション環境は、エージェントが位置p1及びp2のいずれをも通ることができる構造になっている。

さらに、その後の時刻t=t₃では、位置p2が通路から壁に変化し、その結果、アクション環境は、エージェントが位置p1を通ることができ、位置p2を通ることができない構造になっている。

［エージェントが行うアクションと、エージェントが観測する観測値］

図３は、アクション環境において、エージェントが行うアクション、及び、エージェントが観測する観測値の例を示している。

エージェントは、図１に示したようなアクション環境の、図中、点線で正方形状に区切ったエリアを、観測値を観測する単位（観測単位）とし、その観測単位で移動するアクションを行う。

図３Ａは、エージェントが行うアクションの種類を示している。

図３Ａでは、エージェントは、図中、上方向に観測単位だけ移動するアクションU₁、右方向に観測単位だけ移動するアクションU₂、下方向に観測単位だけ移動するアクションU₃、左方向に観測単位だけ移動するアクションU₄、及び、移動しない（何もしない）アクションU₅の、合計で、５つのアクションU₁ないしU₅を行うことが可能になっている。

図３Ｂは、エージェントが観測単位で観測する観測値の種類を、模式的に示している。

本実施の形態では、エージェントは、観測単位において、１５種類の観測値（シンボル）O₁ないしO₁₅のうちのいずれかを観測する。

観測値O₁は、上と、下と、左とが壁で、左が通路になっている観測単位で観測され、観測値O₂は、上と、左と、右とが壁で、下が通路になっている観測単位で観測される。

観測値O₃は、上と、左とが壁で、下と、右とが通路になっている観測単位で観測され、観測値O₄は、上と、下と、右とが壁で、左が通路になっている観測単位で観測される。

観測値O₅は、上と、下とが壁で、左と、右とが通路になっている観測単位で観測され、観測値O₆は、上と、右とが壁で、下と、左とが通路になっている観測単位で観測される。

観測値O₇は、上が壁で、下と、左と、右とが通路になっている観測単位で観測され、観測値O₈は、下と、左と、右とが壁で、上が通路になっている観測単位で観測される。

観測値O₉は、下と、左とが壁で、上と、右とが通路になっている観測単位で観測され、観測値O₁₀は、左と、右とが壁で、上と、下とが通路になっている観測単位で観測される。

観測値O₁₁は、左が壁で、上と、下と、右とが通路になっている観測単位で観測され、観測値O₁₂は、下と、右とが壁で、上と、左とが通路になっている観測単位で観測される。

観測値O₁₃は、下が壁で、上と、左と、右とが通路になっている観測単位で観測され、観測値O₁₄は、右が壁で、上と、下と、左とが通路になっている観測単位で観測される。

観測値O₁₅は、上下左右すべてが通路になっている観測単位で観測される。

なお、アクションU_m（m=1,2,・・・,M（Mはアクションの（種類の）総数））、及び、観測値O_k（m=1,2,・・・,K（Kは観測値の総数））は、いずれも離散値である。

［エージェントの構成例］

図４は、本発明の情報処理装置を適用したエージェントの一実施の形態の構成例を示すブロック図である。

エージェントは、アクション環境をモデル化した環境モデルを、学習により獲得する。

また、エージェントは、観測値の系列（観測値系列）を用いて、エージェント自身の現在の状況の認識を行う。

さらに、エージェントは、現在の状況から、ある目標に向かうのに行うべきアクションのプラン（アクションプラン）をプランニングし、そのアクションプランに従って、次に行うべきアクションを決定する。

なお、エージェントが行う学習、状況の認識、アクションプランのプランニング（アクションの決定）は、エージェントが観測単位で上、下、左、又は右に移動する問題（タスク）の他、一般的に強化学習の課題として取り上げられる、マルコフ決定過程(MDP(Markov decision process))の枠組みで定式化が可能な問題に適用することができる。

図４において、エージェントは、アクション環境において、図３Ａに示したアクションU_mを行うことによって、観測単位で移動し、移動後の観測単位で観測される観測値O_kを取得する。

そして、エージェントは、現在までに行ったアクションU_m（を表すシンボル）の系列であるアクション系列、及び、現在までに観測された観測値（を示すシンボル）O_kの系列である観測値系列を用いて、アクション環境（の構造（をモデル化した環境モデル））の学習や、次に行うべきアクションの決定を行う。

エージェントがアクションを行うモードとしては、反射アクションモード（反射行動モード）と、認識アクションモード（認識行動モード）との２つのモードがある。

反射アクションモードでは、過去に得られた観測値系列とアクション系列とから、次に行うべきアクションを決定するルールを、生得的なルールとして設計しておく。

ここで、生得的なルールとしては、例えば、壁にぶつからないように、アクションを決定する（通路中での往復運動を許す）ルール、又は、壁にぶつからにように、かつ、行き止まるまでは、来た道を戻らないように、アクションを決定するルール等を採用することができる。

エージェントでは、生得的なルールに従い、エージェントにおいて観測される観測値に対して、次に行うべきアクションを決定し、そのアクションを行った後の観測単位で観測値を観測することを繰り返す。

これにより、エージェントは、アクション環境を移動したときのアクション系列と観測値系列とを獲得する。このようにして反射アクションモードで獲得されたアクション系列と観測値系列は、アクション環境の学習に用いられる。すなわち、反射アクションモードは、主として、アクション環境の学習に用いる学習データとなるアクション系列と観測値系列を獲得するために用いられる。

認識アクションモードでは、エージェントは、目標を決定し、現在の状況を認識して、その現在の状況から目標を達成するためのアクションプランを決定する。そして、エージェントは、アクションプランに従って、次に行うべきアクションを決定する。

なお、反射アクションモードと、認識アクションモードとの切り替えは、例えば、ユーザの操作等に応じて行うことができる。

図４において、エージェントは、反射アクション決定部１１、アクチュエータ１２、センサ１３、履歴記憶部１４、アクション制御部１５、及び、目標決定部１６から構成される。

反射アクション決定部１１には、センサ１３が出力する、アクション環境において観測された観測値が供給される。

反射アクション決定部１１は、反射アクションモードにおいて、生得的なルールに従い、センサ１３から供給される観測値に対して、次に行うべきアクションを決定し、アクチュエータ１２を制御する。

アクチュエータ１２は、例えば、エージェントが、実世界を歩行するロボットである場合には、エージェントを歩行させるためのモーター等であり、反射アクション決定部１１や、後述するアクション決定部２４の制御に従って駆動する。アクチュエータが駆動することにより、アクション環境において、エージェントは、反射アクション決定部１１やアクション決定部２４で決定されたアクションを行う。

センサ１３は、外部から観測可能な情報をセンシングし、そのセンシング結果としての観測値を出力する。

すなわち、センサ１３は、アクション環境の、エージェントが存在する観測単位を観測し、その観測単位を表すシンボルを、観測値として出力する。

なお、図４では、センサ１３は、アクチュエータ１２をも観測し、これにより、エージェントが行ったアクション（を表すシンボル）も出力する。

センサ１３が出力する観測値は、反射アクション決定部１１と、履歴記憶部１４とに供給される。また、センサ１３が出力するアクションは、履歴記憶部１４に供給される

履歴記憶部１４は、センサ１３が出力する観測値とアクションを順次記憶する。これにより、履歴記憶部１４には、観測値の系列（観測値系列）とアクションの系列（アクション系列）とが記憶される。

なお、ここでは、外部から観測可能な観測値として、エージェントが存在する観測単位を表すシンボルを採用するが、観測値としては、エージェントが存在する観測単位を表すシンボルと、エージェントが行ったアクションを表すシンボルとのセットを採用することが可能である。

アクション制御部１５は、履歴記憶部１４に記憶された観測値系列、及び、アクション系列を用いて、アクション環境の構造を記憶（獲得）させる環境モデルとしての状態遷移確率モデルの学習を行う。

また、アクション制御部１５は、学習後の状態遷移確率モデルに基づき、アクションプランを算出する。さらに、アクション制御部１５は、アクションプランに従って、エージェントが次に行うべきアクションを決定し、そのアクションに従って、アクチュエータ１２を制御することで、エージェントにアクションを行わせる。

すなわち、アクション制御部１５は、学習部２１、モデル記憶部２２、状態認識部２３、及び、アクション決定部２４から構成される。

学習部２１は、履歴記憶部１４に記憶されたアクション系列、及び、観測値系列を用いて、モデル記憶部２２に記憶された状態遷移確率モデルの学習を行う。

ここで、学習部２１が学習の対象とする状態遷移確率モデルは、エージェントが行うアクションによって、状態が状態遷移する、アクションごとの状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルである。

状態遷移確率モデルとしては、例えば、HMM(Hidden Marcov Model)があるが、一般のHMMの状態遷移確率は、アクションごとに存在しない。そこで、本実施の形態では、HMM(Hidden Marcov Model)の状態遷移確率を、エージェントが行うアクションごとの状態遷移確率に拡張し、そのように状態遷移確率が拡張されたHMM（以下、拡張HMMともいう）を、学習部２１による学習の対象として採用する。

モデル記憶部２２は、拡張HMM（を規定するモデルパラメータである状態遷移確率や、観測確率等）を記憶する。また、モデル記憶部２２は、後述する抑制子を記憶する。

状態認識部２３は、認識アクションモードにおいて、モデル記憶部２２に記憶された拡張HMMに基づき、履歴記憶部１４に記憶されたアクション系列、及び、観測値系列を用いて、エージェントの現在の状況を認識し、その現在の状況に対応する、拡張HMMの状態である現在状態を求める（認識する）。

そして、状態認識部２３は、現在状態を、アクション決定部２４に供給する。

また、状態認識部２３は、現在状態等に応じて、モデル記憶部２２に記憶された抑制子の更新と、後述する経過時間管理テーブル記憶部３２に記憶された経過時間管理テーブルの更新とを行う。

アクション決定部２４は、認識アクションモードにおいて、エージェントが行うべきアクションをプランニングするプランナとして機能する。

すなわち、アクション決定部２４には、状態認識部２３から現在状態が供給される他、目標決定部１６から、モデル記憶部２２に記憶された拡張HMMの状態のうちの１つの状態が、目標とする目標状態として供給される。

アクション決定部２４は、モデル記憶部２２に記憶された拡張HMMに基づき、状態認識部２３からの現在状態から、目標決定部１６からの目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを算出（決定）する。

さらに、アクション決定部２４は、アクションプランに従い、エージェントが次に行うべきアクションを決定し、その決定したアクションに従って、アクチュエータ１２を制御する。

目標決定部１６は、認識アクションモードにおいて、目標状態を決定し、アクション決定部２４に供給する。

すなわち、目標決定部１６は、目標選択部３１、経過時間管理テーブル記憶部３２、外部目標入力部３３、及び、内部目標生成部３４から構成される。

目標選択部３１には、外部目標入力部３３からの、目標状態としての外部目標と、内部目標生成部３４からの、目標状態としての内部目標とが供給される。

目標選択部３１は、外部目標入力部３３からの外部目標としての状態、又は、内部目標生成部３４からの内部目標としての状態を選択し、その選択した状態を、目標状態に決定して、アクション決定部２４に供給する。

経過時間管理テーブル記憶部３２は、経過時間管理テーブルを記憶する。経過時間管理テーブルには、モデル記憶部２２に記憶された拡張HMMの各状態について、その状態が現在状態になってから経過した経過時間等が登録される。

外部目標入力部３３は、（エージェントの）外部から与えられる状態を、目標状態としての外部目標として、目標選択部３１に供給する。

すなわち、外部目標入力部３３は、例えば、ユーザが目標状態とする状態を、外部から指定するときに、ユーザによって操作される。外部目標入力部３３は、ユーザの操作によって指定された状態を、目標状態である外部目標として、目標選択部３１に供給する。

内部目標生成部３４は、（エージェントの）内部で、目標状態としての内部目標を生成し、目標選択部３１に供給する。

すなわち、内部目標生成部３４は、ランダム目標生成部３５、分岐構造検出部３６、及び、オープン端検出部３７から構成される。

ランダム目標生成部３５は、モデル記憶部２２に記憶された拡張HMMの状態の中から、ランダムに、１つの状態を、ランダム目標として選択し、そのランダム目標を、目標状態である内部目標として、目標選択部３１に供給する。

分岐構造検出部３６は、モデル記憶部２２に記憶された拡張HMMの状態遷移確率に基づいて、同一のアクションが行われた場合に異なる状態への状態遷移が可能な状態である、分岐構造の状態を検出し、その分岐構造の状態を、目標状態である内部目標として、目標選択部３１に供給する。

なお、分岐構造検出部３６において、拡張HMMから、分岐構造の状態として、複数の状態が検出された場合には、目標選択部３１は、経過時間管理テーブル記憶部３２の経過時間管理テーブルを参照し、複数の分岐構造の状態の中で、経過時間が最大の分岐構造の状態を、目標状態に選択する。

オープン端検出部３７は、モデル記憶部２２に記憶された拡張HMMにおいて、所定の観測値が観測される状態を遷移元として行うことが可能な状態遷移の中で、行われたことがない状態遷移がある、所定の観測値と同一の観測値が観測される他の状態であるオープン端として検出する。そして、オープン端検出部３７は、オープン端を、目標状態である内部目標として、目標選択部３１に供給する。

［反射アクションモードの処理］

図５は、図４のエージェントが行う、反射アクションモードの処理を説明するフローチャートである。

ステップＳ１１において、反射アクション決定部１１は、時刻をカウントする変数tを、初期値としての、例えば、1に設定し、処理は、ステップＳ１２に進む。

ステップＳ１２では、センサ１３が、アクション環境から、現在の観測値（時刻tの観測値）o_tを取得して出力し、処理は、ステップＳ１３に進む。

ここで、時刻tの観測値o_tは、本実施の形態では、図３Ｂに示した１５個の観測値O₁ないしO₁₅のうちのいずれかである。

ステップＳ１３では、エージェントは、センサ１３が出力した観測値o_tを、反射アクション決定部１１に供給し、処理は、ステップＳ１４に進む。

ステップＳ１４では、反射アクション決定部１１が、生得的なルールに従い、センサ１３からの観測値o_tに対して、時刻tに行うべきアクションu_tを決定し、そのアクションu_tに従って、アクチュエータ１２を制御して、処理は、ステップＳ１５に進む。

ここで、時刻tのアクションu_tは、本実施の形態では、図３Ａに示した５個のアクションU₁ないしU₅のうちのいずれかである。

また、以下、ステップＳ１４で決定されたアクションu_tを、決定アクションu_tともいう。

ステップＳ１５では、アクチュエータ１２は、反射アクション決定部１１の制御に従って駆動し、これにより、エージェントは、決定アクションu_tを行う。

このとき、センサ１３は、アクチュエータ１２を観測しており、エージェントが行ったアクションu_t（を表すシンボル）を出力する。

そして、処理は、ステップＳ１５からステップＳ１６に進み、履歴記憶部１４は、センサ１３が出力した観測値o_tとアクションu_tとを、観測値及びアクションの履歴として、既に記憶している観測値及びアクションの系列に追加する形で記憶し、処理は、ステップＳ１７に進む。

ステップＳ１７では、反射アクション決定部１１は、反射アクションモードで行うアクションの回数として、あらかじめ指定（設定）された回数だけ、エージェントがアクションを行ったかどうかを判定する。

ステップＳ１７において、エージェントが、あらかじめ指定された回数だけのアクションを、まだ、行っていないと判定された場合、処理は、ステップＳ１８に進み、反射アクション決定部１１は、時刻tを1だけインクリメントする。そして、処理は、ステップＳ１８からステップＳ１２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１７において、エージェントが、あらかじめ指定された回数だけのアクションを行ったと判定された場合、すなわち、時刻tが、あらかじめ指定された回数に等しい場合、反射アクションモードの処理は、終了する。

反射アクションモードの処理によれば、観測値o_tの系列（観測値系列）と、観測値o_tが観測されるときにエージェントが行ったアクションu_tの系列（アクション系列）とが（アクションu_tの系列と、アクションu_tが行われたときにエージェントにおいて観測される値o_t+1の系列とが）、履歴記憶部１４に記憶されていく。

そして、エージェントでは、学習部２１が、履歴記憶部１４に記憶された観測値系列とアクション系列とを、学習データとして用いて、拡張HMMの学習を行う。

拡張HMMでは、一般（従来）のHMMの状態遷移確率が、エージェントが行うアクションごとの状態遷移確率に拡張されている。

図６は、拡張HMMの状態遷移確率を説明する図である。

すなわち、図６Ａは、一般のHMMの状態遷移確率を示している。

いま、拡張HMMを含むHMMとして、ある状態から任意の状態に状態遷移が可能なエルゴディックなHMMを採用することとする。また、HMMの状態の数がN個であるとする。

この場合、一般のHMMでは、N個の各状態S_iから、N個の状態S_jのそれぞれへの、N×N個の状態遷移の状態遷移確率a_ijを、モデルパラメータとして有する。

一般のHMMのすべての状態遷移確率は、状態S_iから状態S_jへの状態遷移の状態遷移確率a_ijを、上からi番目で、左からj番目に配置した２次元のテーブルで表現することができる。

ここで、HMMの状態遷移確率のテーブルを、状態遷移確率Aとも記載する。

図６Ｂは、拡張HMMの状態遷移確率Aを示している。

拡張HMMでは、状態遷移確率が、エージェントが行うアクションU_mごとに存在する。

ここで、あるアクションU_mについての、状態S_iから状態S_jへの状態遷移の状態遷移確率を、a_ij(U_m)とも記載する。

状態遷移確率a_ij(U_m)は、エージェントがアクションU_mを行ったときに、状態S_iから状態S_jへの状態遷移が生じる確率を表す。

拡張HMMのすべての状態遷移確率は、アクションU_mについての、状態S_iから状態S_jへの状態遷移の状態遷移確率a_ij(U_m)を、上からi番目で、左からj番目の、奥行き方向に手前側からm番目に配置した３次元のテーブルで表現することができる。

ここで、状態遷移確率Aの３次元のテーブルにおいて、垂直方向の軸を、i軸と、水平方向の軸を、j軸と、奥行き方向の軸を、m軸、又は、アクション軸と、それぞれいうこととする。

また、状態遷移確率Aの３次元のテーブルを、アクション軸のある位置mで、アクション軸に垂直な平面で切断して得られる、状態遷移確率a_Ij(U_m)で構成される平面を、アクションU_mについての状態遷移確率平面ともいう。

さらに、状態遷移確率Aの３次元のテーブルを、i軸のある位置Iで、i軸に垂直な平面で切断して得られる、状態遷移確率a_Ij(U_m)で構成される平面を、状態S_Iについてのアクション平面ともいう。

状態S_Iについてのアクション平面を構成する状態遷移確率a_Ij(U_m)は、状態S_Iを遷移元とする状態遷移が生じるときに各アクションU_mが行われる確率を表す。

なお、拡張HMMは、モデルパラメータとして、アクションごとの状態遷移確率a_ij(U_m)の他、一般のHMMと同様に、最初の時刻t=1に、状態S_iにいる初期状態確率π_iと、状態S_iにおいて、観測値O_kを観測する観測確率b_i(O_k)とを有する。

［拡張HMMの学習］

図７は、図４の学習部２１が、履歴記憶部１４に記憶された学習データとしての観測値系列及びアクション系列を用いて行う、拡張HMMの学習の処理を説明するフローチャートである。

ステップＳ２１において、学習部２１は、拡張HMMを初期化する。

すなわち、学習部２１は、モデル記憶部２２に記憶された拡張HMMのモデルパラメータである初期状態確率π_i、（アクションごとの）状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)を初期化する。

なお、拡張HMMの状態の数（総数）がN個であるとすると、初期状態確率π_iは、例えば、1/Nに初期化される。ここで、２次元平面の迷路であるアクション環境が、横×縦がa×b個の観測単位で構成されることとすると、拡張HMMの状態の数Nとしては、マージンとする整数を△として、（a＋△）×（b×△）個を採用することができる。

また、状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)は、例えば、確率の値としてとり得るランダムな値に初期化される。

ここで、状態遷移確率a_ij(U_m)の初期化は、各アクションU_mについての状態遷移確率平面の各行について、その行の状態遷移確率a_ij(U_m)の総和（a_i,1(U_m)+a_i,2(U_m)+・・・+a_i,N(U_m)）が1.0になるように行われる。

同様に、観測確率b_i(O_k)の初期化は、各状態S_iについて、その状態S_iから観測値O₁，O₂，・・・，O_Kが観測される観測確率の総和（b_i(O₁)+b_i(O₂)+・・・+b_i(O_K)）が1.0になるように行われる。

なお、いわゆる追加学習が行われる場合には、モデル記憶部２２に記憶されている拡張HMMの初期状態確率π_i、状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)が、そのまま初期値として用いられる。すなわち、ステップＳ２１の初期化は、行われない。

ステップＳ２１の後、処理は、ステップＳ２２に進み、以下、ステップＳ２２以降において、Baum-Welchの再推定法（をアクションについて拡張した方法）に従い、履歴記憶部１４に記憶された学習データとしてのアクション系列、及び、観測値系列を用いて、初期状態確率π_i、各アクションについての状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)を推定する、拡張HMMの学習が行われる。

すなわち、ステップＳ２２では、学習部２２は、前向き確率(Forward probability)α_t+1(j)と、後ろ向き確率(Backward probability)β_t(i)とを算出する。

ここで、拡張HMMにおいては、時刻tにおいて、アクションu_tが行われると、現在の状態S_iから状態S_jに状態遷移し、次の時刻t+1において、状態遷移後の状態S_jで、観測値o_t+1が観測される。

かかる拡張HMMでは、前向き確率α_t+1(j)は、現在の拡張HMM（モデル記憶部２２に現に記憶されている初期状態確率π_i、状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)で規定される拡張HMM）であるモデルΛにおいて、学習データのアクション系列u₁,u₂,・・・,u_tが観測されるとともに、観測値系列o₁,o₂,・・・,o_t+1が観測され、時刻t+1に、状態S_jにいる確率P(o₁,o₂,・・・,o_t+1,u₁,u₂,・・・,u_t,s_t+1=j|Λ)であり、式（１）で表される。

・・・（１）

なお、状態s_tは、時刻tにいる状態を表し、拡張HMMの状態の数がN個である場合には、状態S₁ないしS_Nのうちのいずれかである。また、式s_t+1=jは、時刻t+1にいる状態s_t+1が、状態S_jであることを表す。

式（１）の前向き確率α_t+1(j)は、学習データのアクション系列u₁,u₂,・・・,u_t-1、及び、観測値系列o₁,o₂,・・・,o_tを観測して、時刻tに、状態s_tにいる場合に、アクションu_tが行われることにより（観測され）、状態遷移が生じ、時刻t+1に、状態S_jにいて、観測値o_t+1を観測する確率を表す。

なお、前向き確率α_t+1(j)の初期値α₁(j)は、式（２）で表される。

・・・（２）

式（２）の初期値α₁(j)は、最初（時刻t=0）に、状態S_jにいて、観測値o₁を観測する確率を表す。

また、拡張HMMでは、後ろ向き確率β_t(i)は、現在の拡張HMMであるモデルΛにおいて、時刻tに、状態S_iにいて、その後、学習データのアクション系列u_t+1,u_t+2,・・・,u_T-1が観測されるとともに、観測値系列o_t+1,o_t+2,・・・,o_Tが観測される確率P(o_t+1,o_t+2,・・・,o_T,u_t+1,u_t+2,・・・,u_T-1,s_t=i|Λ)であり、式（３）で表される。

・・・（３）

なお、Tは、学習データの観測値系列の観測値の個数を表す。

式（３）の後ろ向き確率β_t(i)は、時刻t+1に、状態S_jにいて、その後に、学習データのアクション系列u_t+1,u_t+2,・・・,u_T-1が観測されるとともに、観測値系列o_t+2,o_t+3,・・・,o_Tが観測される場合において、時刻tに、状態S_iにいて、アクションu_tが行われることにより（観測され）、状態遷移が生じ、時刻t+1の状態s_t+1が、状態S_jとなって、観測値o_t+1が観測されるときに、時刻tの状態s_tが、状態S_iである確率を表す。

なお、後ろ向き確率β_t(i)の初期値β_T(i)は、式（４）で表される。

・・・（４）

式（４）の初期値β_T(i)は、最後（時刻t=T）に、状態S_iにいる確率が、1.0であること、つまり、最後に、必ず、状態S_iにいることを表す。

拡張HMMでは、式（１）及び式（３）に示したように、ある状態S_iからある状態S_jへの状態遷移の状態遷移確率として、アクションごとの状態遷移確率a_ij(u_t)を用いる点が、一般のHMMと異なる。

ステップＳ２２において、前向き確率α_t+1(j)と、後ろ向き確率β_t(i)とを算出した後、処理は、ステップＳ２３に進み、学習部２１は、前向き確率α_t+1(j)と、後ろ向き確率β_t(i)とを用いて、拡張HMMのモデルパラメータΛである初期状態確率π_i、アクションU_mごとの状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)を再推定する。

ここで、モデルパラメータの再推定は、状態遷移確率が、アクションU_mごとの状態遷移確率a_ij(U_m)に拡張されていることに伴い、Baum-Welchの再推定法を拡張して、以下のように行われる。

すなわち、現在の拡張HMMであるモデルΛにおいて、アクション系列U=u₁,u₂,・・・,u_T-1と、観測値系列O=o₁,o₂,・・・,o_Tとが観測される場合に、時刻tで、状態S_iにいて、アクションU_mが行われることにより、時刻t+1に、状態S_jに状態遷移している確率ξ_t+1(i,j,U_m)は、前向き確率α_t(i)と、後ろ向き確率β_t+1(j)とを用いて、式（５）で表される。

・・・（５）

さらに、時刻tに、状態S_iにいて、アクションu_t＝U_mが行われる確率γ_t(i,U_m)は、確率ξ_t+1(i,j,U_m)について、時刻t+1にいる状態S_jに関して周辺化した確率として計算することができ、式（６）で表される。

・・・（６）

学習部２１は、式（５）の確率ξ_t+1(i,j,U_m)、及び、式（６）の確率γ_t(i,U_m)を用い、拡張HMMのモデルパラメータΛの再推定を行う。

ここで、モデルパラメータΛの再推定を行って得られる推定値を、ダッシュ(')を用いて、モデルパラメータΛ'と表すこととすると、モデルパラメータΛ'である初期状態確率の推定値π'_iは、式（７）に従って求められる。

・・・（７）

また、モデルパラメータΛ'であるアクションごとの状態遷移確率の推定値a'_ij(U_m)は、式（８）に従って求められる。

・・・（８）

ここで、式（８）の状態遷移確率の推定値a'_ij(U_m)の分子は、状態S_iにいて、アクションu_t=U_mを行って、状態S_jに状態遷移する回数の期待値を表し、分母は、状態S_iにいて、アクションu_t=U_mを行って、状態遷移する回数の期待値を表す。

モデルパラメータΛ'である観測確率の推定値b'_j(O_k)は、式（９）に従って求められる。

・・・（９）

ここで、式（９）の観測確率の推定値b'_j(O_k)の分子は、状態S_jへの状態遷移が行われ、その状態S_jで、観測値O_kが観測される回数の期待値を表し、分母は、状態S_jへの状態遷移が行われる回数の期待値を表す。

ステップＳ２３において、モデルパラメータΛ'である初期状態確率、状態遷移確率、及び、観測確率の推定値π'_i，a'_ij(U_m)、及び、b'_j(O_k)を再推定した後、学習部２１は、推定値π'_iを、新たな初期状態確率π_iとして、推定値a'_ij(U_m)を、新たな状態遷移確率a_ij(U_m)として、推定値b'_j(O_k)を、新たな観測確率b_j(O_k)として、それぞれ、モデル記憶部２２に、上書きの形で記憶させ、処理は、ステップＳ２４に進む。

ステップＳ２４では、拡張HMMのモデルパラメータ、すなわち、モデル記憶部２２に記憶された（新たな）初期状態確率π_i、状態遷移確率a_ij(U_m)、及び、観測確率b_j(O_k)が、収束したかどうかを判定する。

ステップＳ２４において、拡張HMMのモデルパラメータが、まだ収束していないと判定された場合、処理は、ステップＳ２２に戻り、モデル記憶部２２に記憶された新たな初期状態確率π_i、状態遷移確率a_ij(U_m)、及び、観測確率b_j(O_k)を用いて、同様の処理が繰り返される。

また、ステップＳ２４において、拡張HMMのモデルパラメータが収束したと判定された場合、すなわち、例えば、ステップＳ２３の再推定の前と後とで、拡張HMMのモデルパラメータが、ほとんど変化しなくなった場合、拡張HMMの学習の処理は終了する。

以上のように、アクションごとの状態遷移確率a_ij(U_m)で規定される拡張HMMの学習を、エージェントが行うアクションのアクション系列と、エージェントがアクションを行ったときにエージェントにおいて観測される観測値の観測値系列とを用いて行うことにより、拡張HMMにおいて、観測値系列を通して、アクション環境の構造が獲得されるとともに、各観測値と、その観測値が観測されるときに行われたアクションとの関係（エージェントが行うアクションと、そのアクションが行われたときに観測される観測値（アクション後に観測される観測値）との関係）が獲得される。

その結果、かかる学習後の拡張HMMを用いることにより、認識アクションモードにおいて、後述するように、アクション環境内のエージェントが行うべきアクションとして、適切なアクションを決定することができる。

［認識アクションモードの処理］

図８は、図４のエージェントが行う、認識アクションモードの処理を説明するフローチャートである。

認識アクションモードでは、エージェントは、上述したように、目標の決定、及び、現在の状況の認識を行い、現在の状況から目標を達成するためのアクションプランを算出する。さらに、エージェントは、アクションプランに従って、次に行うべきアクションを決定し、そのアクションを行う。そして、エージェントは、以上の処理を繰り返す。

すなわち、ステップＳ３１において、状態認識部２３は、時刻をカウントする変数tを、初期値としての、例えば、1に設定し、処理は、ステップＳ３２に進む。

ステップＳ３２では、センサ１３が、アクション環境から、現在の観測値（時刻tの観測値）o_tを取得して出力し、処理は、ステップＳ３３に進む。

ステップＳ３３では、履歴記憶部１４は、センサ１３が取得した時刻tの観測値o_tと、その観測値o_tが観測されるときに（センサ１３において観測値o_tが取得される直前に）、センサ１３が出力したアクションu_t-1（直前の時刻t-1にエージェントが行ったアクションu_t-1）とを、観測値及びアクションの履歴として、既に記憶している観測値及びアクションの系列に追加する形で記憶し、処理は、ステップＳ３４に進む。

ステップＳ３４では、状態認識部２３は、拡張HMMに基づき、エージェントが行ったアクションと、そのアクションが行われたときにエージェントにおいて観測された観測値とを用いて、エージェントの現在の状況を認識し、その現在の状況に対応する拡張HMMの状態である現在状態を求める。

すなわち、状態認識部２３は、履歴記憶部１４から、最新の０個以上のアクションのアクション系列と、最新の１個以上の観測値の観測値系列とを、エージェントの現在の状況を認識するのに用いる認識用のアクション系列、及び、観測値系列として読み出す。

さらに、状態認識部２３は、モデル記憶部２２に記憶された学習済みの拡張HMMにおいて、認識用のアクション系列、及び、観測値系列を観測して、時刻（現在時刻）tに、状態S_jにいる状態確率の最大値である最適状態確率δ_t(j)と、その最適状態確率δ_t(j)が得られる状態系列である最適経路（パス）ψ_t(j)とを、例えば、Viterbiアルゴリズム（をアクションに拡張したアルゴリズム）に従って求める。

ここで、Viterbiアルゴリズムによれば、一般のHMMにおいて、ある観測値系列が観測されるときに辿る状態の系列（状態系列）のうちの、その観測値系列が観測される尤度を最大にする状態系列（最尤状態系列）を推定することができる。

但し、拡張HMMでは、状態遷移確率が、アクションについて拡張されているため、Viterbiアルゴリズムを拡張HMMに適用するには、Viterbiアルゴリズムを、アクションについて拡張する必要がある。

このため、状態認識部２３では、式（１０）及び式（１１）に従って、それぞれ、最適状態確率δ_t(j)、及び、最適経路ψ_t(j)が求められる。

・・・（１０）

・・・（１１）

ここで、式（１０）のmax［X］は、状態S_iを表すサフィックスiを、1から、状態の数Nまでの範囲の整数に変えて得られるXのうちの最大値を表す。また、式（１１）のargmax{X}は、サフィックスiを、1からNまでの範囲の整数に変えて得られるXを最大にするサフィックスiを表す。

状態認識部２３は、認識用のアクション系列、及び、観測値系列を観測して、時刻tに、式（１０）の最適状態確率δ_t(j)を最大にする状態S_jに辿り着く状態系列である最尤状態系列を、式（１１）の最適経路ψ_t(j)から求める。

さらに、状態認識部２３は、最尤状態系列を、現在の状況の認識結果として、その最尤状態系列の最後の状態を、現在状態s_tとして求める（推定する）。

状態認識部２３は、現在状態s_tを求めると、その現在状態にs_tに基づき、経過時間管理テーブル記憶部３２に記憶された経過時間管理テーブルを更新し、処理は、ステップＳ３４からステップＳ３５に進む。

すなわち、経過時間管理テーブル記憶部３２の経過時間管理テーブルには、拡張HMMの各状態に対応付けて、その状態が現在状態になってからの経過時間が登録されている。状態認識部２３は、経過時間管理テーブルにおいて、現在状態s_tとなった状態の経過時間を、例えば、0にリセットするとともに、他の状態の経過時間を、例えば、1だけインクリメントする。

ここで、経過時間管理テーブルは、上述したように、目標選択部３１において、目標状態を選択するときに、必要に応じて参照される。

ステップＳ３５では、状態認識部２３は、現在状態s_tに基づき、モデル記憶部２２に記憶された抑制子を更新する。抑制子の更新については、後述する。

さらに、ステップＳ３５では、状態認識部２３は、現在状態s_tを、アクション決定部２４に供給して、処理は、ステップＳ３６に進む。

ステップＳ３６では、目標決定部１６が、拡張HMMの状態の中から、目標状態を決定し、アクション決定部２４に供給して、処理は、ステップＳ３７に進む。

ステップＳ３７では、アクション決定部２４は、モデル記憶部２２に記憶された抑制子（直前のステップＳ３５で更新された抑制子）を用いて、同じく、モデル記憶部２２に記憶された拡張HMMの状態遷移確率を補正し、補正後の状態遷移確率である補正遷移確率を算出する。

後述するアクション決定部２４のアクションプランの算出では、補正遷移確率が、拡張HMMの状態遷移確率として用いられる。

ステップＳ３７の後、処理は、ステップＳ３８に進み、アクション決定部２４は、モデル記憶部２２に記憶された拡張HMMに基づき、状態認識部２３からの現在状態から、目標決定部１６からの目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを、例えば、Viterbiアルゴリズム（をアクションに拡張したアルゴリズム）に従って算出する。

ここで、Viterbiアルゴリズムによれば、一般のHMMにおいて、２つの状態のうちの一方から他方に到達する状態系列、すなわち、例えば、現在状態から目標状態に到達する状態系列のうちの、ある観測値系列が観測される尤度を最も高くする最尤状態系列を推定することができる。

但し、上述したように、拡張HMMでは、状態遷移確率が、アクションについて拡張されているため、Viterbiアルゴリズムを拡張HMMに適用するには、Viterbiアルゴリズムを、アクションについて拡張する必要がある。

このため、アクション決定部２４では、式（１２）に従って、状態確率δ'_t(j)が求められる。

・・・（１２）

ここで、式（１２）のmax［X］は、状態S_iを表すサフィックスiを、1から、状態の数Nまでの範囲の整数に変え、かつ、アクションU_mを表すサフィックスmを、1から、アクションの数Mまでの範囲の整数に変えて得られるXのうちの最大値を表す。

式（１２）は、最適状態確率δ_t(j)を求める式（１０）から、観測確率b_j(o_t)を削除した式になっている。また、式（１２）では、アクションU_mを考慮して、状態確率δ'_t(j)が求められるが、その点が、Viterbiアルゴリズムの、アクションについての拡張に相当する。

アクション決定部２４は、式（１２）の計算を、前向き方向に実行し、時刻ごとに、最大の状態確率δ'_t(j)をとるサフィックスiと、そのサフィックスiが表す状態S_iに至る状態遷移が生じるときに行われるアクションU_mを表すサフィックスmを一時保存する。

なお、式（１２）の計算にあたり、状態遷移確率a_ij(U_m)としては、学習済みの拡張HMMの状態遷移確率a_ij(U_m)を、抑制子で補正した補正遷移確率が用いられる。

アクション決定部２４は、現在状態s_tを最初の状態として、式（１２）の状態確率δ'_t(j)を計算していき、目標状態S_goalの状態確率δ'_t(S_goal)が、式（１３）に示すように、所定の閾値δ'_th以上となったときに、式（１２）の状態確率δ'_t(j)の計算を終了する。

・・・（１３）

なお、式（１３）の閾値δ'_thは、例えば、式（１４）に従って設定される。

・・・（１４）

ここで、式（１４）において、T'は、式（１２）の計算回数（式（１２）から求められる最尤状態系列の系列長）を表す。

式（１４）によれば、尤もらしい状態遷移が１回生じた場合の状態確率として、0.9を採用して、閾値δ'_thが設定される。

したがって、式（１３）によれば、尤もらしい状態遷移がT'回だけ連続した場合に、式（１２）の状態確率δ'_t(j)の計算が終了する。

アクション決定部２４は、式（１２）の状態確率δ'_t(j)の計算を終了すると、その終了時にいる状態、つまり、目標状態S_goalから、状態S_i及びアクションU_mについて保存しておいたサフィックスi及びmを、逆方向に、現在状態s_tに至るまで辿ることで、現在状態s_tから目標状態S_goalに到達する最尤状態系列（多くの場合、最短経路）と、その最尤状態系列が得られる状態遷移が生じるときに行われるアクションU_mの系列とを求める。

すなわち、アクション決定部２４は、上述したように、式（１２）の状態確率δ'_t(j)の計算を、前向き方向に実行するときに、最大の状態確率δ'_t(j)をとるサフィックスiと、そのサフィックスiが表す状態S_iに至る状態遷移が生じるときに行われるアクションU_mを表すサフィックスmとを、時刻ごとに保存する。

時刻ごとのサフィックスiは、時間を遡る方向に、状態S_jから、どの状態S_iに戻る場合が、最大の状態確率が得られるかを表し、時刻ごとのサフィックスmは、その最大の状態確率が得られる状態遷移が生じるアクションU_mを表す。

したがって、時刻ごとのサフィックスi及びmを、式（１２）の状態確率δ'_t(j)の計算を終了した時刻から１時刻ずつ遡っていき、式（１２）の状態確率δ'_t(j)の計算を開始した時刻まで到達すると、現在状態s_tから目標状態S_goalに至るまでの状態系列の状態のサフィックスの系列と、その状態系列の状態遷移が生じるときに行われるアクション系列のアクションのサフィックスの系列とのそれぞれを、時間を遡る順に並べた系列を得ることができる。

アクション決定部２４は、この時間を遡る順に並べた系列を、時間順に並べ替えることで、現在状態s_tから目標状態S_goalに至るまでの状態系列（最尤状態系列）と、その状態系列の状態遷移が生じるときに行われるアクション系列とを求める。

以上のようにして、アクション決定部２４で求められる、現在状態s_tから目標状態S_goalに至るまでの最尤状態系列の状態遷移が生じるときに行われるアクション系列が、アクションプランである。

ここで、アクション決定部２４において、アクションプランとともに求められる最尤状態系列は、エージェントが、アクションプラン通りにアクションを行った場合に生じる（はずの）状態遷移の状態系列である。したがって、エージェントが、アクションプラン通りにアクションを行った場合に、最尤状態系列である状態の並びの通りでない状態遷移が生じたときには、エージェントが、アクションプラン通りにアクションを行っても、目標状態に到達しない可能性がある。

ステップＳ３８において、アクション決定部２４が、上述したようにして、アクションプランを求めると、処理は、ステップＳ３９に進み、アクション決定部２４は、アクションプランに従い、エージェントが次に行うべきアクションu_tを決定し、処理は、ステップＳ４０に進む。

すなわち、アクション決定部２４は、アクションプランとしてのアクション系列のうちの最初のアクションを、エージェントが次に行うべき決定アクションu_tとする。

ステップＳ４０では、アクション決定部２４は、直前のステップＳ３９で決定したアクション（決定アクション）u_tに従って、アクチュエータ１２を制御し、これにより、エージェントは、アクションu_tを行う。

その後、処理は、ステップＳ４０からステップＳ４１に進み、状態認識部２３は、時刻tを1だけインクリメントして、処理は、ステップＳ３２に戻り、以下、同様の処理が繰り返される。

なお、図８の認識アクションモードの処理は、例えば、認識アクションモードの処理を終了するように、エージェントが操作された場合や、エージェントの電源がオフにされた場合、エージェントのモードが、認識アクションモードから他のモード（反射アクションモード等）に変更された場合等に、終了する。

以上のように、状態認識部２３において、拡張HMMに基づき、エージェントが行ったアクションと、そのアクションが行われたときにエージェントにおいて観測された観測値とを用いて、エージェントの現在の状況を認識し、その現在の状況に対応する現在状態を求め、目標決定部１６において、目標状態を決定し、アクション決定部２４において、拡張HMMに基づき、現在状態から目標状態までの状態遷移の尤度（状態確率）を最も高くするアクションの系列であるアクションプランを算出し、そのアクションプランに従い、エージェントが次に行うべきアクションを決定するので、エージェントが目標状態に到達するために、エージェントが行うべきアクションとして、適切なアクションを決定することができる。

ここで、従来の行動決定手法では、観測値系列を学習する状態遷移確率モデルと、その状態遷移確率モデルの状態遷移を実現するアクションのモデルであるアクションモデルとを、別個に用意して、学習が行われていた。

したがって、状態遷移確率モデルとアクションモデルとの２つのモデルの学習が行われるために、学習に、多くの計算コストと記憶リソースとが必要であった。

これに対して、図４のエージェントでは、１つのモデルである拡張HMMにおいて、観測値系列とアクション系列とを関連づけて学習するので、少ない計算コストと記憶リソースで、学習を行うことができる。

また、従来の行動決定手法では、状態遷移確率モデルを用いて、目標状態までの状態系列を算出し、その状態系列を得るためのアクションの算出を、アクションモデルを用いて行う必要があった。すなわち、目標状態までの状態系列の算出と、その状態系列を得るためのアクションの算出とを、別個のモデルを用いて行う必要があった。

そのため、従来の行動決定手法では、アクションを算出するまでの計算コストが大であった。

これに対して、図４のエージェントでは、現在状態から目標状態までの最尤状態系列と、その最尤状態系列を得るためのアクション系列とを同時に求めることができるので、少ない計算コストで、エージェントが次に行うべきアクションを決定することができる。

［目標状態の決定］

図９は、図８のステップＳ３６で、図４の目標決定部１６が行う目標状態の決定の処理を説明するフローチャートである。

目標決定部１６では、ステップＳ５１において、目標選択部３１が、外部目標が設定されているかどうかを判定する。

ステップＳ５１において、外部目標が設定されていると判定された場合、すなわち、例えば、ユーザによって、外部目標入力部３３が操作され、モデル記憶部２２に記憶された拡張HMMのいずれかの状態が、目標状態である外部目標として指定され、その目標状態（を表すサフィックス）が、外部目標入力部３３から目標選択部３１に供給されている場合、処理は、ステップＳ５２に進み、目標選択部３１は、外部目標入力部３３からの外部目標を選択し、アクション決定部２４に供給して、処理はリターンする。

なお、ユーザは、外部目標入力部３３を操作する他、例えば、図示せぬPC(Personal Computer)等の端末を操作して、目標状態とする状態（のサフィックス）を指定することができる。この場合、外部目標入力部３３は、ユーザが操作する端末と通信を行うことによって、ユーザが指定した状態を認識し、目標選択部３１に供給する。

一方、ステップＳ５１において、外部目標が設定されていないと判定された場合、処理は、ステップＳ５３に進み、オープン端検出部３７は、モデル記憶部２２に記憶された拡張HMMに基づき、拡張HMMの状態の中から、オープン端を検出して、処理は、ステップＳ５４に進む。

ステップＳ５４では、目標選択部３１は、オープン端が検出されたかどうかを判定する。

ここで、オープン端検出部３７は、拡張HMMの状態の中から、オープン端を検出した場合、そのオープン端である状態（を表すサフィックス）を、目標選択部３１に供給する。目標選択部３１は、オープン端検出部３７からオープン端が供給されたかどうかによって、オープン端が検出されたかどうかを判定する。

ステップＳ５４において、オープン端が検出されたと判定された場合、すなわち、オープン端検出部３７から目標選択部３１に対して、１個以上のオープン端が供給された場合、処理は、ステップＳ５５に進み、目標選択部３１は、オープン端検出部３７からの１個以上のオープン端の中から、例えば、状態を表すサフィックスが最小のオープン端を、目標状態として選択し、アクション決定部２４に供給して、処理はリターンする。

また、ステップＳ５４において、オープン端が検出されなかったと判定された場合、すなわち、オープン端検出部３７から目標選択部３１に対して、オープン端が供給されなかった場合、処理は、ステップＳ５６に進み、分岐構造検出部３６は、モデル記憶部２２に記憶された拡張HMMに基づき、拡張HMMの状態の中から、分岐構造の状態を検出して、処理は、ステップＳ５７に進む。

ステップＳ５７では、目標選択部３１は、分岐構造の状態が検出されたかどうかを判定する。

ここで、分岐構造検出部３６は、拡張HMMの状態の中から、分岐構造の状態を検出した場合、その分岐構造の状態（を表すサフィックス）を、目標選択部３１に供給する。目標選択部３１は、分岐構造検出部３６から分岐構造の状態が供給されたかどうかによって、分岐構造の状態が検出されたかどうかを判定する。

ステップＳ５７において、分岐構造の状態が検出されたと判定された場合、すなわち、分岐構造検出部３６から目標選択部３１に対して、１個以上の分岐構造の状態が供給された場合、処理は、ステップＳ５８に進み、目標選択部３１は、分岐構造検出部３６からの１個以上の分岐構造の状態のうちの１つの状態を、目標状態として選択し、アクション決定部２４に供給して、処理はリターンする。

すなわち、目標選択部３１は、経過時間管理テーブル記憶部３２の経過時間管理テーブルを参照し、分岐構造検出部３６からの１個以上の分岐構造の状態の経過時間を認識する。

さらに、目標選択部３１は、分岐構造検出部３６からの１個以上の分岐構造の状態の中から、経過時間が最も長い状態を検出し、その状態を、目標状態として選択する。

一方、ステップＳ５７において、分岐構造の状態が検出されなかったと判定された場合、すなわち、分岐構造検出部３６から目標選択部３１に対して、分岐構造の状態が供給されなかった場合、処理は、ステップＳ５９に進み、ランダム目標生成部３５が、モデル記憶部２２に記憶された拡張HMMの１つの状態をランダムに選択して、目標選択部３１に供給する。

さらに、ステップＳ５９では、目標選択部３１が、ランダム目標選択部３５からの状態を、目標状態として選択し、アクション決定部２４に供給して、処理はリターンする。

なお、オープン端検出部３７によるオープン端の検出、及び、分岐構造検出部３６による分岐構造の状態の検出の詳細については、後述する。

［アクションプランの算出］

図１０は、図４のアクション決定部２４によるアクションプランの算出を説明する図である。

図１０Ａは、アクションプランの算出に用いられる学習済みの拡張HMMを模式的に示している。

図１０Ａにおいて、丸（○）印は、拡張HMMの状態を表し、丸印の中に記載されている数字は、その丸印が表す状態のサフィックスである。また、丸印で表される状態どうしを表す矢印は、可能な状態遷移（状態遷移確率が0.0（とみなせる値）以外の状態遷移）を表す。

図１０Ａの拡張HMMでは、状態S_iが、その状態S_iに対応する観測単位の位置に配置されている。

そして、状態遷移が可能な２つの状態は、その２つの状態それぞれに対応する２つの観測単位どうしの間で、エージェントが移動することができることを表現する。したがって、拡張HMMの状態遷移を表す矢印は、アクション環境において、エージェントが移動可能な通路を表す。

ここで、図１０Ａにおいて、１つの観測単位の位置に、２つ（複数）の状態S_i及びS_i'が、一部分を重ねて配置されている場合があるが、これは、その１つの観測単位に、２つ（複数）の状態S_i及びS_i'が対応することを表す。

例えば、図１０Ａにおいて、状態S₃及びS₃₀は、１つの観測単位に対応し、状態S₃₄及びS₃₅も、１つの観測単位に対応する。同様に、状態S₂₁及びS₂₃、状態S₂及びS₁₇、状態S₃₇及びS₄₈、状態S₃₁及びS₃₂も、それぞれ、１つの観測単位に対応する。

学習データとして、構造が変化するアクション環境で得られた観測値系列とアクション系列とを用いて、拡張HMMの学習を行った場合、図１０Ａに示したような、１つの観測単位に、複数の状態が対応する拡張HMMが得られる。

すなわち、図１０Ａでは、例えば、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間が、壁又は通路のうちの一方になっている構造のアクション環境で得られた観測値系列及びアクション系列を、学習データとして用いて、拡張HMMの学習が行われている。

さらに、図１０Ａでは、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間が、壁又は通路のうちの他方になっている構造のアクション環境で得られた観測値系列及びアクション系列をも、学習データとして用いて、拡張HMMの学習が行われている。

その結果、図１０Ａの拡張HMMでは、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間が、壁になっている構造のアクション環境が、状態S₂₁と状態S₁₇とによって獲得されている。

すなわち、拡張HMMにおいて、状態S₂₁及びS₂₃に対応する観測単位の状態S₂₁と、状態S₂及びS₁₇に対応する観測単位の状態S₁₇との間では、状態遷移が行われないようになっており、壁があって通ることができないアクション環境の構造が獲得されている。

また、拡張HMMでは、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間が、通路になっている構造のアクション環境が、状態S₂₃と状態S₂とによって獲得されている。

すなわち、拡張HMMにおいて、状態S₂₁及びS₂₃に対応する観測単位の状態S₂₃と、状態S₂及びS₁₇に対応する観測単位の状態S₂との間では、状態遷移が行われるようになっており、通路として通ることができるアクション環境の構造が獲得されている。

以上のように、拡張HMMでは、アクション環境の構造が変化する場合でも、そのような構造が変化するアクション環境の構造を獲得することができる。

図１０Ｂ、及び、図１０Ｃは、アクション決定部２４が算出するアクションプランの例を示している。

図１０Ｂ、及び、図１０Ｃでは、図１０Ａの状態S₃₀（又は、状態S₃）が、目標状態になっており、エージェントがいる観測単位に対応する状態S₂₈を、現在状態として、現在状態から目標状態に至るまでのアクションプランが算出されている。

図１０Ｂは、時刻t=1に、アクション決定部２４が算出するアクションプランPL1を示している。

図１０Ｂでは、図１０Ａの状態S₂₈,S₂₃,S₂,S₁₆,S₂₂,S₂₉,S₃₀の系列を、現在状態から目標状態に到達する最尤状態系列として、その最尤状態系列が得られる状態遷移が生じるときに行われるアクションのアクション系列が、アクションプランPL1として算出されている。

アクション決定部２４は、アクションプランPL1のうちの、最初の状態S₂₈から、次の状態S₂₃に移動するアクションを、決定アクションとし、エージェントは、決定アクションを行う。

その結果、エージェントは、現在状態である状態S₂₈に対応する観測単位から、状態S₂₁及びS₂₃に対応する観測単位に向かって、右方向に移動し（図３ＡのアクションU₂を行い）、時刻tは、時刻t=1から1時刻経過した時刻t=2となる。

ここで、図１０Ｂでは（図１０Ｃでも同様）、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間が、壁になっている、

状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間が、壁になっている構造を獲得している状態は、上述したように、状態S₂₁及びS₂₃に対応する観測単位については、状態S₂₁であり、時刻t=2では、状態認識部２３において、現在状態が、状態S₂₁であると認識される。

状態認識部２３は、現在状態の直前の状態から現在状態への状態遷移のときにエージェントが行ったアクションについての、直前の状態と現在状態以外の状態との間の状態遷移を抑制し、かつ、直前の状態と現在状態との間の状態遷移を抑制しない（以下、有効にする、ともいう）ように、状態遷移の抑制を行う抑制子を更新する。

すなわち、いまの場合、現在状態は、状態S₂₁であり、直前の状態は、状態S₂₈であるから、直前の状態S₂₈と現在状態S₂₁以外の状態との間の状態遷移、すなわち、例えば、時刻t=1に得られたアクションプランPL1の、最初の状態S₂₈と次の状態S₂₃との間の状態遷移等を抑制するように、抑制子が更新される。

さらに、直前の状態S₂₈と現在状態S₂₁との間の状態遷移を有効にするように、抑制子が更新される。

そして、時刻t=2では、アクション決定部２４は、現在状態を、状態S₂₁とするとともに、目標状態を、状態S₃₀として、現在状態から目標状態に到達する最尤状態系列S₂₁,S₂₈,S₂₇,S₂₆,S₂₅,S₂₀,S₁₅,S₁₀,S₁,S₁₇,S₁₆,S₂₂,S₂₉,S₃₀を求め、その最尤状態系列が得られる状態遷移が生じるときに行われるアクションのアクション系列を、アクションプランとして算出する。

さらに、アクション決定部２４は、アクションプランのうちの、最初の状態S₂₁から、次の状態S₂₈に移動するアクションを、決定アクションとし、エージェントは、決定アクションを行う。

その結果、エージェントは、現在状態である状態S₂₁に対応する観測単位から、状態S₂₈に対応する観測単位に向かって、左方向に移動し（図３ＡのアクションU₄を行い）、時刻tは、時刻t=2から1時刻経過した時刻t=3となる。

時刻t=3では、状態認識部２３において、現在状態が、状態S₂₈であると認識される。

そして、時刻t=3では、アクション決定部２４は、現在状態を、状態S₂₈とするとともに、目標状態を、状態S₃₀として、現在状態から目標状態に到達する最尤状態系列を求め、その最尤状態系列が得られる状態遷移が生じるときに行われるアクションのアクション系列を、アクションプランとして算出する。

図１０Ｃは、時刻t=3に、アクション決定部２４が算出するアクションプランPL3を示している。

図１０Ｃでは、状態S₂₈,S₂₇,S₂₆,S₂₅,S₂₀,S₁₅,S₁₀,S₁,S₁₇,S₁₆,S₂₂,S₂₉,S₃₀の系列が、最尤状態系列として求められ、その最尤状態系列が得られる状態遷移が生じるときに行われるアクションのアクション系列が、アクションプランPL3として算出されている。

すなわち、時刻t=3では、現在状態が、時刻t=1の場合と同一の状態S₂₈であり、目標状態も、時刻t=1の場合と同一の状態S₃₀であるのにもかかわらず、時刻t=1の場合のアクションプランPL1と異なるアクションプランPL3が算出される。

これは、時刻t=2において、上述したように、状態S₂₈と状態S₂₃との間の状態遷移を抑制するように、抑制子が更新され、これにより、時刻t=3では、最尤状態系列を求めるにあたって、現在状態である状態S₂₈からの状態遷移の遷移先として、状態S₂₃を選択することが抑制され、状態S₂₃以外の、状態S₂₈からの状態遷移が可能な状態である状態S₂₇が選択されたためである。

アクション決定部２４は、アクションプランPL3の算出後、そのアクションプランPL3のうちの、最初の状態S₂₈から、次の状態S₂₇に移動するアクションを、決定アクションとし、エージェントは、決定アクションを行う。

その結果、エージェントは、現在状態である状態S₂₈に対応する観測単位から、状態S₂₇に対応する観測単位に向かって、下方向に移動し（図３ＡのアクションU₃を行い）、以下、同様に、各時刻に、アクションプランの算出が行われる。

［抑制子を用いた状態遷移確率の補正］

図１１は、図８のステップＳ３７で、アクション決定部２４が行う、抑制子を用いての、拡張HMMの状態遷移確率の補正を説明する図である。

アクション決定部２４は、図１１に示すように、拡張HMMの状態遷移確率A_ltmに、抑制子A_inhibitを乗算することにより、拡張HMMの状態遷移確率A_ltmを補正し、補正後の状態遷移確率A_ltmである補正遷移確率A_stmを求める。

そして、アクション決定部２４は、補正遷移確率A_stmを、拡張HMMの状態遷移確率として用いて、アクションプランを算出する。

ここで、アクションプランの算出にあたり、その算出に用いる状態遷移確率を、抑制子で補正するのは、以下のような理由による。

すなわち、学習後の拡張HMMの状態の中には、１つのアクションが行われた場合に異なる状態への状態遷移が可能な状態である、分岐構造の状態が生じることがある。

例えば、上述の図１０Ａの状態S₂₉では、左方向に移動するアクションU₄（図３Ａ）が行われた場合に、左側の状態S₃への状態遷移が行われることと、同じく左側の状態S₃₀への状態遷移が行われることとがある。

したがって、状態S₂₉では、ある１つのアクションが行われた場合に異なる状態遷移が生じることがあり、状態S₂₉は、分岐構造の状態である。

抑制子は、ある１つのアクションについて、異なる状態遷移が生じることがあるときに、すなわち、例えば、ある１つのアクションが行われた場合に、ある状態への状態遷移が生じることがあり、他の状態への状態遷移も生じることがあるときに、生じうる異なる状態遷移のうちの、１つの状態遷移だけが生じるように、その１つの状態遷移以外の状態遷移が生じることを抑制する。

すなわち、ある１つのアクションについて生じうる異なる状態遷移を、分岐構造と呼ぶこととすると、構造が変化するアクション環境から得られた観測値系列及びアクション系列を、学習データとして、拡張HMMの学習を行った場合、拡張HMMは、アクション環境の構造の変化を、分岐構造として獲得し、その結果、分岐構造の状態が生じる。

このように、拡張HMMでは、分岐構造の状態が生じることによって、アクション環境の構造が様々な構造に変化する場合であっても、そのアクション環境の様々な構造のすべてを獲得する。

ここで、拡張HMMが獲得する、構造が変化するアクション環境の様々な構造は、忘却せずに、長期的に記憶しておくべき情報であることから、そのような情報を獲得した拡張HMM（の、特に、状態遷移確率）を、長期記憶ともいう。

現在状態が、分岐構造の状態である場合、現在状態からの状態遷移として、分岐構造としての異なる状態遷移のうちのいずれの状態遷移が可能であるかは、構造が変化するアクション環境の現在の構造による。

すなわち、長期記憶としての拡張HMMの状態遷移確率からすれば、可能な状態遷移であっても、構造が変化するアクション環境の現在の構造によっては、行うことができないことがある。

そこで、エージェントは、長期記憶とは独立に、エージェントの現在の状況の認識によって得られる現在状態に基づき、抑制子を更新する。そして、エージェントは、抑制子を用いて、長期記憶としての拡張HMMの状態遷移確率を補正することで、アクション環境の現在の構造において行うことができない状態遷移を抑制し、かつ、行うことができた状態遷移を有効にする、補正後の状態遷移確率である補正遷移確率を求め、その補正遷移確率を用いて、アクションプランを算出する。

ここで、補正遷移確率は、長期記憶としての状態遷移確率を、各時刻の現在状態に基づいて更新される抑制子を用いて補正することにより、各時刻ごとに得られる情報であり、短期的に記憶しておけばよい情報であるから、短期記憶ともいう。

アクション決定部２４（図４）では、抑制子を用いて、拡張HMMの状態遷移確率を補正し、補正遷移確率を求める処理が、以下のようにして行われる。

すなわち、拡張HMMのすべての状態遷移確率A_ltmを、図６Ｂに示したように、３次元のテーブルで表現する場合、抑制子A_inhibitも、拡張HMMの状態遷移確率A_ltmの３次元のテーブルと同一サイズの３次元のテーブルで表現される。

ここで、拡張HMMの状態遷移確率A_ltmを表現する３次元のテーブルを、状態遷移確率テーブルともいう。また、抑制子A_inhibitを表現する３次元のテーブルを抑制子テーブルともいう。

拡張HMMの状態の数がN個で、エージェントが可能なアクションの数がM個である場合、状態遷移確率テーブルは、横×縦×奥行きがN×N×M要素の３次元のテーブルとなる。したがって、この場合、抑制子テーブルも、N×N×M要素の３次元のテーブルとなる。

なお、抑制子A_inhibitの他、補正遷移確率A_stmも、N×N×M要素の３次元のテーブルで表現される。補正遷移確率A_stmを表現する３次元のテーブルを、補正遷移確率テーブルともいう。

例えば、いま、状態遷移確率テーブルの、上からi番目の、左からj番目で、奥行き方向に手前側からm番目の位置を(i,j,m)と表すこととすると、アクション決定部２４は、式（１５）に従い、状態遷移確率テーブルの位置(i,j,m)の要素としての状態遷移確率A_ltm(=a_ij(U_m))と、抑制子テーブルの位置(i,j,m)の要素としての抑制子A_inhibitとを乗算することで、補正遷移確率テーブルの位置(i,j,m)の要素としての補正遷移確率A_stmを求める。

・・・（１５）

なお、抑制子は、エージェントの状態認識部２３（図４）において、各時刻に、以下のように更新される。

すなわち、状態認識部２３は、現在状態S_jの直前の状態S_iから現在状態S_jへの状態遷移のときにエージェントが行ったアクションU_mについての、直前の状態S_iと現在状態S_j以外の状態との間の状態遷移を抑制し、かつ、直前の状態S_iと現在状態S_jとの間の状態遷移を抑制しない（有効にする）ように、抑制子を更新する。

具体的には、抑制子テーブルを、アクション軸の位置mで、アクション軸に垂直な平面で切断して得られる平面を、アクションU_mについての抑制子平面ということとすると、状態認識部２３は、アクションU_mについての抑制子平面の、横×縦がN×N個の抑制子のうちの、上からi番目で、左からj番目の位置(i,j)の要素としての抑制子に、1.0を上書きし、上からi番目の1行にあるN個の抑制子のうちの、位置(i,j)以外の位置の要素としての抑制子に、0.0を上書きする。

その結果、抑制子を用いて、状態遷移確率を補正して得られる補正遷移確率によれば、分岐構造の状態からの状態遷移（分岐構造）のうちの、直近の経験、つまり、間近に行われた状態遷移だけを行うことが可能となり、他の状態遷移は、行うことができなくなる。

ここで、拡張HMMは、エージェントが現在までに経験した（学習によって獲得した）アクション環境の構造を表現する。さらに、拡張HMMは、アクション環境の構造が様々な構造に変化する場合には、そのアクション環境の様々な構造を、分岐構造として表現する。

一方、抑制子は、長期記憶である拡張HMMが有する分岐構造である複数の状態遷移のうちのいずれの状態遷移が、アクション環境の現在の構造をモデル化しているのかを表現する。

したがって、長期記憶である拡張HMMの状態遷移確率に、抑制子を乗算することにより、状態遷移確率を補正し、その補正後の状態遷移確率である補正遷移確率（短期記憶）を用いて、アクションプランを算出することにより、アクション環境の構造が変化した場合であっても、その変化後の構造を、拡張HMMで再学習することなく、変化後の構造（現在の構造）を考慮したアクションプランを得ることができる。

すなわち、構造が変化した後のアクション環境の構造が、拡張HMMが既に獲得している構造である場合には、現在状態に基づいて、抑制子を更新し、その更新後の抑制子を用いて、拡張HMMの状態遷移確率を補正することにより、拡張HMMの再学習を行うことなく、アクション環境の変化後の構造を考慮したアクションプランを得ることができる。

つまり、アクション環境の構造の変化に適応したアクションプランを、計算コストを抑えて、高速、かつ効率的に得ることができる。

なお、アクション環境が、拡張HMMが獲得していない構造に変化した場合に、その変化後の構造のアクション環境において、適切なアクションを決定するには、変化後のアクション環境において観測される観測値系列及びアクション系列を用いて、拡張HMMの再学習を行う必要がある。

また、アクション決定部２４において、拡張HMMの状態遷移確率を、そのまま用いて、アクションプランを算出する場合には、アクション環境の現在の構造が、分岐構造としての複数の状態遷移のうちの１つの状態遷移だけを行うことができ、他の状態遷移を行うことができない構造になっていても、Vitarbiアルゴリズムに従い、分岐構造としての複数の状態遷移のすべてを行うことができることとして、現在状態s_tから目標状態S_goalに至るまでの最尤状態系列の状態遷移が生じるときに行われるアクション系列が、アクションプランとして算出される。

一方、アクション決定部２４において、拡張HMMの状態遷移確率を、抑制子により補正し、その補正後の状態遷移確率である補正遷移確率を用いて、アクションプランを算出する場合には、抑制子によって抑制される状態遷移は行うことができないこととして、そのような状態遷移がない、現在状態s_tから目標状態S_goalに至るまでの最尤状態系列の状態遷移が生じるときに行われるアクション系列を、アクションプランとして算出することができる。

すなわち、例えば、上述した図１０Ａでは、状態S₂₈は、右方向に移動するアクションU₂が行われたときに、状態S₂₁にも、状態S₂₃にも、状態遷移が可能な分岐構造の状態になっている。

また、図１０では、上述したように、時刻t=2において、状態認識部２３は、現在状態S₂₁の直前の状態S₂₈から現在状態S₂₁への状態遷移のときにエージェントが行った、右方向に移動するアクションU₂についての、直前の状態S₂₈から現在状態S₂₁以外の状態S₂₃への状態遷移を抑制し、かつ、直前の状態S₂₈から現在状態S₂₁への状態遷移を有効にするように、抑制子を更新する。

その結果、図１０Ｃの時刻t=3では、現在状態が状態S₂₈で、目標状態が、状態S₃₀であり、現在状態及び目標状態が、いずれも、図１０Ｂの時刻t=1の場合と同一であるにもかかわらず、抑制子によって、右方向に移動するアクションU₂が行われたときの、状態S₂₈から状態S₂₁以外の状態S₂₃への状態遷移が抑制されるために、現在状態から目標状態に到達する最尤状態系列として、時刻t=1の場合と異なる状態系列、すなわち、状態S₂₈から状態S₂₃への状態遷移が行われない状態系列S₂₈,S₂₇,S₂₆,S₂₅,・・・,S₃₀が求められ、その状態系列が得られる状態遷移が生じるときに行われるアクションのアクション系列が、アクションプランPL3として算出される。

ところで、抑制子の更新は、分岐構造としての複数の状態遷移のうちの、エージェントが経験した状態遷移を有効にし、かつ、その状態遷移以外の状態遷移を抑制するように行われる。

すなわち、現在状態の直前の状態から現在状態への状態遷移のときにエージェントが行ったアクションについての、直前の状態と現在状態以外の状態との間の状態遷移（直前の状態から現在状態以外の状態への状態遷移）を抑制し、かつ、直前の状態と現在状態との間の状態遷移（直前の状態から現在状態への状態遷移）を有効にするように、抑制子が更新される。

抑制子の更新として、分岐構造としての複数の状態遷移のうちの、エージェントが経験した状態遷移を有効にし、かつ、その状態遷移以外の状態遷移を抑制することしか行わない場合には、抑制子が更新されることによって抑制された状態遷移は、エージェントが、その後に、その状態遷移を経験しない限り、抑制されたままとなる。

エージェントが次に行うべきアクションの決定が、上述したように、アクション決定部２４において、抑制子によって拡張HMMの状態遷移確率を補正して得られる補正遷移確率を用いて算出されるアクションプランに従って行われる場合、抑制子によって抑制されている状態遷移が生じるアクションを含むアクションプランが算出されることはないため、次に行うべきアクションの決定を、アクションプランに従って行う方法以外の方法で行うことによって、又は偶然に、エージェントが、抑制子によって抑制されている状態遷移を経験しないと、抑制子によって抑制されている状態遷移は、抑制されたままとなる。

したがって、アクション環境の構造が、抑制子によって抑制されている状態遷移を行うことができない構造から、その状態遷移を行うことができる構造に変化しても、エージェントが、いれば運良く、抑制子によって抑制されている状態遷移を経験するまでは、その状態遷移が生じるアクションを含むアクションプランを算出することができない。

そこで、状態認識部２３は、抑制子の更新として、分岐構造としての複数の状態遷移のうちの、エージェントが経験した状態遷移を有効にし、かつ、その状態遷移以外の状態遷移を抑制することの他、時間の経過に応じて、状態遷移の抑制を緩和することを行う。

すなわち、状態認識部２３は、分岐構造としての複数の状態遷移のうちの、エージェントが経験した状態遷移を有効にし、かつ、その状態遷移以外の状態遷移を抑制するように、抑制子を更新する他、さらに、時間の経過に応じて、状態遷移の抑制を緩和するように、抑制子を更新する。

具体的には、状態認識部２３は、時間の経過に応じて、抑制子が、1.0に収束するように、例えば、式（１６）に従い、時刻tの抑制子A_inhibit(t)を、時刻t+1の抑制子A_inhibit(t+1)に更新する。

・・・（１６）

ここで、式（１６）において、係数cは、0.0より大で1.0より小さい値であり、係数cが大であるほど、抑制子は、より速く、1.0に収束する。

式（１６）によれば、一度抑制された状態遷移（抑制子が0.0にされた状態遷移）の抑制が、時間の経過に伴って緩和されていき、エージェントが、その状態遷移を経験しなくても、その状態遷移を生じるアクションを含むアクションプランが算出されるようになる。

ここで、時間の経過に応じて、状態遷移の抑制を緩和するように行う抑制子の更新を、以下、自然減衰による忘却に対応する更新ともいう。

［抑制子の更新］

図１２は、図８のステップＳ３５で、図４の状態認識部２３が行う抑制子の更新の処理を説明するフローチャートである。

なお、抑制子は、図８の認識アクションモードの処理のステップＳ３１において、時刻tが1に初期化されるときに、初期値である1.0に初期化される。

抑制子の更新の処理では、ステップＳ７１において、状態認識部２３は、モデル記憶部２２に記憶された抑制子A_inhibitのすべての、自然減衰による忘却に対応する更新、すなわち、式（１６）に従った更新を行い、処理は、ステップＳ７２に進む。

ステップＳ７２では、状態認識部２３は、現在状態S_jの直前の状態S_iが分岐構造の状態であり、かつ、現在状態S_jが、直前の状態S_iである分岐構造の状態から、同一のアクションが行われることによって状態遷移が可能な異なる状態のうちの１つの状態であるかどうかを、モデル記憶部２２に記憶された拡張HMM（の状態遷移確率）に基づいて判定する。

ここで、直前の状態S_iが分岐構造の状態であるかどうかは、分岐構造検出部３６（図４）が、分岐構造の状態を検出する場合と同様にして判定することができる。

ステップＳ７２において、直前の状態S_iが分岐構造の状態でないと判定されるか、又は、直前の状態S_iが分岐構造の状態であるが、現在状態S_jが、直前の状態S_iである分岐構造の状態から、同一のアクションが行われることによって状態遷移が可能な異なる状態のうちの１つの状態でないと判定された場合、処理は、ステップＳ７３及びＳ７４をスキップして、リターンする。

また、ステップＳ７２において、直前の状態S_iが分岐構造の状態であり、かつ、現在状態S_jが、直前の状態S_iである分岐構造の状態から、同一のアクションが行われることによって状態遷移が可能な異なる状態のうちの１つの状態であると判定された場合、処理は、ステップＳ７３に進み、状態認識部２３は、モデル記憶部２２に記憶された抑制子A_inhibitのうちの、直前のアクションU_mについての、直前の状態S_iから、現在状態S_jへの状態遷移の抑制子（抑制子テーブルの位置(i,j,m)の抑制子）h_ij(U_m)を、1.0に更新して、処理は、ステップＳ７４に進む。

ステップＳ７４では、状態認識部２３は、モデル記憶部２２に記憶された抑制子A_inhibitのうちの、直前のアクションU_mについての、直前の状態S_iから、現在状態S_j以外の状態S_j'への状態遷移の抑制子（抑制子テーブルの位置(i,j',m)の抑制子）h_ij'(U_m)を、0.0に更新して、処理はリターンする。

ここで、従来の行動決定手法では、HMM等の状態遷移確率モデルの学習は、静的な構造をモデル化することを前提として行われるため、状態遷移確率モデルの学習後に、学習の対象の構造が変化した場合には、その変化後の構造を対象として、状態遷移確率モデルの再学習を行う必要があり、学習の対象の構造の変化に対処する計算コストが大であった。

これに対して、図４のエージェントでは、拡張HMMが、アクション環境の構造の変化を、分岐構造として獲得し、直前の状態が分岐構造の状態である場合には、直前の状態から現在状態への状態遷移のときにエージェントが行ったアクションについての、直前の状態と現在状態以外の状態との間の状態遷移を抑制するように、抑制子を更新し、その更新後の抑制子を用いて、拡張HMMの状態遷移確率を補正して、補正後の状態遷移確率である補正遷移確率に基づき、アクションプランを算出する。

したがって、アクション環境の構造が変化する場合に、その変化する構造に適応（追従）するアクションプランを、少ない計算コストで（拡張HMMの再学習をすることなしに）算出することができる。

また、抑制子は、時間の経過に応じて、状態遷移の抑制を緩和するように更新されるので、過去に抑制された状態遷移を、エージェントが偶然に経験しなくても、時間の経過とともに、過去に抑制された状態遷移が生じるアクションを含むアクションプランを算出することが可能となり、その結果、アクション環境の構造が、過去に、状態遷移を抑制したときの構造と異なる構造に変化した場合に、その変化後の構造に適切なアクションプランを、迅速に算出することが可能となる。

［オープン端の検出］

図１３は、図４のオープン端検出部３７が検出するオープン端である拡張HMMの状態を説明する図である。

オープン端とは、大雑把には、拡張HMMにおいて、ある状態を遷移元として、エージェントが未経験の状態遷移が起こり得ることがあらかじめ分かっている、その遷移元の状態である。

具体的には、ある状態の状態遷移確率と、その状態と同一の観測値を観測する観測確率が割り当てられた（0.0（とみなされる値）でない値になっている）他の状態の状態遷移確率とを比較した場合に、あるアクションを行ったときに次の状態に状態遷移することが可能なことが分かるにも関わらず、まだ、その状態で、そのアクションを行ったことがないため、状態遷移確率が割り当てられておらず（0.0（とみなされる値）になっており）、状態遷移ができないことになっている状態が、オープン端に該当する。

したがって、拡張HMMにおいて、所定の観測値が観測される状態を遷移元として行うことが可能な状態遷移の中で、行われたことがない状態遷移がある、所定の観測値と同一の観測値が観測される他の状態を検出すれば、その、他の状態が、オープン端である。

オープン端は、概念的には、図１３に示すように、例えば、エージェントが部屋に置かれ、その部屋のある範囲を対象とした学習が行われることによって、拡張HMMが獲得する構造の端部（部屋の中の学習済みの範囲の端部）や、エージェントが置かれた部屋の全範囲を対象とした学習が行われた後、その部屋に隣接して、エージェントが移動可能な新しい部屋を追加することによって現れる、新しい部屋への入り口等に対応する状態である。

オープン端を検出すると、拡張HMMが獲得している構造のどの部分の先に、エージェントが未知の領域が広がっているかを知ることができる。したがって、オープン端を目標状態として、アクションプランを算出することにより、エージェントは、積極的に未知の領域に踏み込むアクションを行うようになる。その結果、エージェントは、より広くアクション環境の構造を学習し（アクション環境の構造の学習のための学習データとなる観測系列及びアクション系列を獲得し）、拡張HMMにおいて、構造を獲得していない曖昧な部分（アクション環境の、オープン端となっている状態に対応する観測単位付近の構造）を補強するために必要な経験を効率的に得ることが可能になる。

オープン端検出部３７は、オープン端を検出するのに、まず、アクションテンプレートを生成する。

オープン端検出部３７は、アクションテンプレートの生成にあたり、拡張HMMの観測確率B={b_i(O_k)}を閾値処理し、各観測値O_kに対して、その観測値O_kが閾値以上の確率で観測される状態S_iをリストアップする。

図１４は、オープン端検出部３７が、観測値O_kが閾値以上の確率で観測される状態S_iをリストアップする処理を説明する図である。

図１４Ａは、拡張HMMの観測確率Bの例を示している。

すなわち、図１４Ａは、状態S_iの数Nが5個で、観測値O_kの数Mが3個の拡張HMMの観測確率Bの例を示している。

オープン端検出部３７は、閾値を、例えば、0.5等として、閾値以上の観測確率Bを検出する閾値処理を行う。

この場合、図１４Ａでは、状態S₁については、観測値O₃が観測される観測確率b₁(O₃)=0.7が、状態S₂については、観測値O₂が観測される観測確率b₂(O₂)=0.8が、状態S₃については、観測値O₃が観測される観測確率b₃(O₃)=0.8が、状態S₄については、観測値O₂が観測される観測確率b₄(O₂)=0.7が、状態S₅については、観測値O₁が観測される観測確率b₅(O₁)=0.9が、それぞれ、閾値処理によって検出される。

その後、オープン端検出部３７は、各観測値O₁,O₂,O₃に対して、その観測値O_kが閾値以上の確率で観測される状態S_iをリストアップ検出する。

図１４Ｂは、観測値O₁,O₂,O₃それぞれに対してリストアップされる状態S_iを示している。

観測値O₁に対しては、その観測値O₁が閾値以上の確率で観測される状態として、状態S₅がリストアップされ、観測値O₂に対しては、その観測値O₂が閾値以上の確率で観測される状態として、状態S₂及びS₄がリストアップされる。また、観測値O₃に対して、その観測値O₃が閾値以上の確率で観測される状態として、状態S₁及びS₃がリストアップされる。

その後、オープン端検出部３７は、拡張HMMの状態遷移確率A={a_ij(U_m)}を用い、各観測値O_kについて、その観測値O_kに対してリストアップされた状態S_iからの状態遷移のうちの、状態遷移確率a_ij(U_m)が最大の状態遷移の状態遷移確率状態遷移確率a_ij(U_m)に対応する値である遷移確率対応値を、アクションU_mごとに算出し、各観測値O_kについて、アクションU_mごとに算出された遷移確率対応値を、観測値O_kが観測されたときにアクションU_mが行われるアクション確率として、アクション確率を要素とする行列であるアクションテンプレートCを生成する。

すなわち、図１５は、観測値O_kに対してリストアップされた状態S_iを用いて、アクションテンプレートCを生成する方法を説明する図である。

オープン端検出部３７は、３次元の状態遷移確率テーブルにおいて、観測値O_kに対してリストアップされた状態S_iからの状態遷移の、列（横）方向（j軸方向）に並ぶ状態遷移確率から、最大の状態遷移確率を検出する。

すなわち、例えば、いま、観測値O₂に注目し、観測値O₂に対して、状態S₂及びS₄がリストアップされていることとする。

この場合、オープン端検出部３７は、３次元の状態遷移確率テーブルを、i軸のi=2の位置で、i軸に垂直な平面で切断して得られる、状態S₂についてのアクション平面に注目し、その状態S₂についてのアクション平面の、アクションU₁を行ったときに生じる状態S₂からの状態遷移の状態遷移確率a_2,j(U₁)の最大値を検出する。

すなわち、オープン端検出部３７は、状態S₂についてのアクション平面の、アクション軸の、m=1の位置に、j軸方向に並ぶ状態遷移確率a_2,1(U₁),a_2,2(U₁),・・・,a_2,N(U₁)の中の最大値を検出する。

同様に、オープン端検出部３７は、状態S₂についてのアクション平面から、他のアクションU_mを行ったときに生じる状態S₂からの状態遷移の状態遷移確率の最大値を検出する。

さらに、オープン端検出部３７は、観測値O₂に対してリストアップされている、他の状態である状態S₄についても、同様に、状態S₄についてのアクション平面から、各アクションU_mを行ったときに生じる状態S₄からの状態遷移の状態遷移確率の最大値を検出する。

以上のように、オープン端検出部３７は、観測値O₂に対してリストアップされた状態S₂及びS₄のそれぞれについて、各アクションU_mが行われたときに生じる状態遷移の状態遷移確率の最大値を検出する。

その後、オープン端検出部３７は、上述したようにして検出された状態遷移確率の最大値を、アクションU_mごとに、観測値O₂に対してリストアップされた状態S₂及びS₄について、平均化し、その平均化によって得られる平均値を、観測値O₂についての、状態遷移確率の最大値に対応する遷移確率対応値とする。

観測値O₂についての、遷移確率対応値は、アクションU_mごとに求められるが、この、観測値O₂について得られる、アクションU_mごとの遷移確率対応値は、観測値O₂が観測されたときに、アクションU_mが行われる確率（アクション確率）を表す。

オープン端検出部３７は、他の観測値O_kについても、同様にして、アクションU_mごとのアクション確率としての遷移確率対応値を求める。

そして、オープン端検出部３７は、観測値O_kが観測されたときに、アクションU_mが行われるアクション確率を、上からk番目で、左からm番目の要素とした行列を、アクションテンプレートCとして生成する。

したがって、アクションテンプレートCは、行数が、観測値O_kの数Kに等しく、列数が、アクションU_mの数Mに等しいK行M列の行列となる。

オープン端検出部３７は、アクションテンプレートCの生成後、そのアクションテンプレートCを用いて、観測確率に基づくアクション確率Dを算出する。

図１６は、観測確率に基づくアクション確率Dを算出する方法を説明する図である。

いま、状態S_iにおいて、観測値O_kを観測する観測確率b_i(O_k)を、第i行第k列の要素とする行列を、観測確率行列Bということとすると、観測確率行列Bは、行数が、状態S_iの数Nに等しく、列数が観測値O_kの数Kに等しいN行K列の行列となる。

オープン端検出部３７は、式（１７）に従い、N行K列の観測確率行列Bに、K行M列の行列であるアクションテンプレートCを乗算することにより、観測値O_kが観測される状態S_iにおいて、アクションU_mが行われる確率を、第i行第m列の要素とする行列である、観測確率に基づくアクション確率Dを算出する。

・・・（１７）

オープン端検出部３７は、以上のようにして、観測確率に基づくアクション確率Dを算出する他、状態遷移確率に基づくアクション確率Eを算出する。

図１７は、状態遷移確率に基づくアクション確率Eを算出する方法を説明する図である。

オープン端検出部３７は、i軸、j軸、及び、アクション軸からなる３次元の状態遷移確率テーブルAの、i軸方向の各状態S_iについて、状態遷移確率a_ij(U_m)を、アクションU_mごとに加算することで、状態S_iにおいて、アクションU_mが行われる確率を、第i行第m列の要素とする行列である、状態遷移確率に基づくアクション確率Eを算出する。

すなわち、オープン端検出部３７は、i軸、j軸、及び、アクション軸からなる状態遷移確率テーブルAの、水平方向（列方向）に並ぶ状態遷移確率a_ij(U_m)の総和、つまり、i軸のある位置iと、アクション軸のある位置mに注目した場合に、点(i,m)を通るj軸に平行な直線上に並ぶ状態遷移確率a_ij(U_m)の総和を求め、その総和を、行列の第i行第m列の要素とすることで、N行M列の行列である、状態遷移確率に基づくアクション確率Eを算出する。

オープン端検出部３７は、以上のようにして、観測確率に基づくアクション確率Dと、状態遷移確率に基づくアクション確率Eとを算出すると、観測確率に基づくアクション確率Dと、状態遷移確率に基づくアクション確率Eとの差分である差分アクション確率Fを、式（１８）に従って算出する。

・・・（１８）

差分アクション確率Fは、観測確率に基づくアクション確率Dや、状態遷移確率に基づくアクション確率Eと同様に、N行M列の行列となる。

図１８は、差分アクション確率Fを模式的に示す図である。

図１８において、小さな正方形は、行列の要素を表している。また、模様を付していない正方形は、0.0（とみなせる値）になっている要素を表し、黒で塗りつぶしてある正方形は、0.0（とみなせる値）でない値になっている要素を表している。

差分アクション確率Fによれば、観測値O_kが観測される状態として、複数の状態が存在する場合に、その複数の状態の一部の状態（エージェントがアクションU_mを行ったことがある状態）からは、アクションU_mを行うことができることが分かっているが、そのアクションU_mが行われたときに生じる状態遷移が、状態遷移確率a_ij(U_m)に反映されていない、残りの状態（エージェントがアクションU_mを行ったことがない状態）、つまり、オープン端を検出することができる。

すなわち、状態S_iの状態遷移確率a_ij(U_m)に、アクションU_mが行われたときに生じる状態遷移が反映されている場合、観測確率に基づくアクション確率Dの第i行第m列の要素と、状態遷移確率に基づくアクション確率Eの第i行第m列の要素とは、同じような値となる。

一方、状態S_iの状態遷移確率a_ij(U_m)に、アクションU_mが行われたときに生じる状態遷移が反映されていない場合、観測確率に基づくアクション確率Dの第i行第m列の要素は、状態S_iと同一の観測値が観測される、アクションU_mが行われたことがある状態の状態遷移確率の影響によって、0.0とはみなせない、ある程度の値となるが、状態遷移確率に基づくアクション確率Eの第i行第m列の要素は、0.0（0.0とみなせる小さい値を含む）となる。

したがって、状態S_iの状態遷移確率a_ij(U_m)に、アクションU_mが行われたときに生じる状態遷移が反映されていない場合、差分アクション確率Fの第i行第m列の要素は、値（絶対値）が、0.0とみなせない値となるので、差分アクション確率Fにおいて、0.0とみなせない値になっている要素を検出することで、オープン端、及び、オープン端で行ったことがないアクションを検出することができる。

すなわち、差分アクション確率Fにおいて、第i行第m列の要素の値が、0.0とみなせない値となっている場合、オープン端検出部３７は、状態S_iを、オープン端として検出するとともに、アクションU_mを、オープン端である状態S_iで行ったことがないアクションとして検出する。

図１９は、図４のオープン端検出部３７が、図９のステップＳ５３で行うオープン端の検出の処理を説明するフローチャートである。

ステップＳ８１において、オープン端検出部３７は、モデル記憶部２２（図４）に記憶された拡張HMMの観測確率B={b_i(O_k)}を閾値処理し、これにより、図１４で説明したように、各観測値O_kに対して、その観測値O_kが閾値以上の確率で観測される状態S_iをリストアップする。

ステップＳ８１の後、処理は、ステップＳ８２に進み、オープン端検出部３７は、図１５で説明したように、モデル記憶部２２に記憶された拡張HMMの状態遷移確率A={a_ij(U_m)}を用い、各観測値O_kについて、その観測値O_kに対してリストアップされた状態S_iからの状態遷移のうちの、状態遷移確率a_ij(U_m)が最大の状態遷移の状態遷移確率a_ij(U_m)に対応する値である遷移確率対応値を、アクションU_mごとに算出し、各観測値O_kについて、アクションU_mごとに算出された遷移確率対応値を、観測値O_kが観測されたときにアクションU_mが行われるアクション確率として、アクション確率を要素とする行列であるアクションテンプレートCを生成する。

その後、処理は、ステップＳ８２からステップＳ８３に進み、オープン端検出部３７は、式（１７）に従い、観測確率行列Bに、アクションテンプレートCを乗算することにより、観測確率に基づくアクション確率Dを算出し、処理は、ステップＳ８４に進む。

ステップＳ８４では、オープン端検出部３７は、図１７で説明したようにして、状態遷移確率テーブルAの、i軸方向の各状態S_iについて、状態遷移確率a_ij(U_m)を、アクションU_mごとに加算することで、状態S_iにおいて、アクションU_mが行われる確率を、第i行第m列の要素とする行列である、状態遷移確率に基づくアクション確率Eを算出する。

そして、処理は、ステップＳ８４からステップＳ８５に進み、オープン端検出部３７は、観測確率に基づくアクション確率Dと、状態遷移確率に基づくアクション確率Eとの差分である差分アクション確率Fを、式（１８）に従って算出し、処理は、ステップＳ８６に進む。

ステップＳ８６では、オープン端検出部３７は、差分アクション確率Fを閾値処理することで、その差分アクション確率Fにおいて、値が所定の閾値以上の要素を、検出の対象の検出対象要素として検出する。

さらに、オープン端検出部３７は、検出対象要素の行iと列mとを検出し、状態S_iをオープン端として検出するとともに、アクションU_mを、オープン端S_iにおいて行ったことがない未経験アクションとして検出して、リターンする。

エージェントは、オープン端において、未経験アクションを行うことにより、オープン端の先に続く未知の領域を開拓することができる。

ここで、従来の行動決定手法では、エージェントの目標は、エージェントの経験を考慮せずに、既知の領域（学習済みの領域）と、未知の領域（未学習の領域）とを対等に（区別なく）扱って決定される。このため、未知の領域の経験を積むのに、多くのアクションを行う必要があり、その結果、アクション環境の構造を広く学習するのに、多くの試行と多大な時間を要していた。

これに対して、図４のエージェントでは、オープン端を検出し、そのオープン端を目標状態として、アクションを決定するので、アクション環境の構造を、効率的に学習することができる。

すなわち、オープン端は、その先に、エージェントが経験していない未知の領域が広がっている状態であるから、オープン端を検出し、そのオープン端を目標状態としてアクションを決定することにより、エージェントは、積極的に未知の領域に踏み込むことができる。これにより、エージェントは、アクション環境の構造を、より広く学習するための経験を効率的に積むことができる。

［分岐構造の状態の検出］

図２０は、図４の分岐構造検出部３６による分岐構造の状態の検出の方法を説明する図である。

拡張HMMは、アクション環境において、構造が変化する部分を、分岐構造の状態として獲得する。エージェントがすでに経験した構造の変化に対応する分岐構造の状態は、長期記憶である拡張HMMの状態遷移確率を参照することで検出することができる。そして、分岐構造の状態が検出されれば、エージェントは、アクション環境において、構造が変化する部分の存在を認識することができる。

アクション環境において、構造が変化する部分が存在する場合、そのような部分については、定期的、又は、不定期に、現在の構造を、積極的に確認し、抑制子、ひいては、短期記憶である補正遷移確率に反映しておくことが望ましい。

そこで、図４のエージェントでは、分岐構造検出部３６において、分岐構造の状態を検出し、目標選択部３１において、分岐構造の状態を、目標状態に選択することが可能となっている。

分岐構造検出部３６は、図２０に示すように、分岐構造の状態を検出する。

すなわち、状態遷移確率テーブルAの各アクションU_mについての状態遷移確率平面は、各行の水平方向（列方向）の総和が1.0になるように正規化されている。

したがって、アクションU_mについての状態遷移確率平面において、ある行iに注目した場合に、状態S_iが分岐構造の状態でないときには、第i行の状態遷移確率a_ij(U_m)の最大値は、1.0、又は、1.0に極めて近い値になる。

一方、状態S_iが分岐構造の状態であるときには、第i行の状態遷移確率a_ij(U_m)の最大値は、図２０に示す0.6や0.5のように、1.0より十分小さく、かつ、総和が1.0の状態遷移確率を状態の数Nで均等に分けた場合の値（平均値）1/Nよりも大きくなる。

そこで、分岐構造検出部３６は、式（１９）に従い、各アクションU_mについての状態遷移確率平面の各行iの状態遷移確率a_ij(U_m)の最大値が、1.0より小さい閾値a_{max_th}より小で、平均値1/Nより大である場合に、状態S_iを、分岐構造の状態として検出する。

・・・（１９）

ここで、式（１９）において、A_ijmは、３次元の状態遷移確率テーブルＡにおいて、i軸方向の位置が上からi番目で、j軸方向の位置が左からj番目で、アクション軸方向の位置が手前からm番目の状態遷移確率a_ij(U_m)を表す。

また、式（１９）において、max(A_ijm)は、状態遷移確率テーブルAにおいて、j軸方向の位置が左からS番目（状態S_iからの状態遷移の遷移先の状態が、状態S）で、アクション軸方向の位置が手前からU番目（状態S_iからの状態遷移が生じるときに行われるアクションが、アクションU）の、N個の状態遷移確率A_1,S,UないしA_N,S,U（a_1,S(U)ないしa_N,S(U)）の中の最大値を表す。

なお、式（１９）において、閾値a_{max_th}は、分岐構造の状態の検出の敏感さを、どの程度にするかに応じて、1/N＜a_{max_th}＜1.0の範囲で調整することができ、閾値a_{max_th}を、1.0に近づけるほど、分岐構造の状態を、敏感に検出することができる。

分岐構造検出部３６は、１以上の分岐構造の状態を検出した場合、図９で説明したように、その１以上の分岐構造の状態を、目標選択部３１に供給する。

さらに、目標選択部３１は、経過時間管理テーブル記憶部３２の経過時間管理テーブルを参照し、分岐構造検出部３６からの１個以上の分岐構造の状態の経過時間を認識する。

そして、目標選択部３１は、分岐構造検出部３６からの１個以上の分岐構造の状態の中から、経過時間が最も長い状態を検出し、その状態を、目標状態として選択する。

以上のように、１個以上の分岐構造の状態の中から、経過時間が最も長い状態を検出し、その状態を、目標状態として選択することで、１個以上の分岐構造の状態のそれぞれを、いわば時間的に均等に目標状態として、分岐構造の状態に対応する構造が、どのようになっているかを確認するアクションを行うことができる。

ここで、従来の行動決定手法では、分岐構造の状態に注目することなく、目標が決定されるため、分岐構造の状態ではない状態が目標とされることが多い。このため、アクション環境の最新の構造を把握しようとする場合に、無駄なアクションが行われることが多かった。

これに対して、図４のエージェントでは、分岐構造の状態を目標状態として、アクションが決定されるので、分岐構造の状態に対応する部分の最新の構造を、早期に把握し、抑制子に反映することができる。

なお、分岐構造の状態が目標状態にされた場合、エージェントは、目標状態となった分岐構造の状態（に対応する観測単位）に到達した後、その分岐構造の状態から、異なる状態に状態遷移が可能なアクションを、拡張HMMに基づいて特定し、そのアクションを行って移動することができ、これにより、分岐構造の状態に対応する部分の構造、すなわち、現在、分岐構造の状態から状態遷移が可能な状態を認識（把握）することができる。

［シミュレーション］

図２１は、本件発明者が行った、図４のエージェントについてのシミュレーションで採用したアクション環境を示す図である。

すなわち、図２１Ａは、第１の構造のアクション環境を示しており、図２１Ｂは、第２の構造のアクション環境を示している。

第１の構造のアクション環境では、位置pos1，pos2、及び、pos3が、通路になっており、通ることができるのに対して、第２の構造のアクション環境では、位置pos1ないしpos3が、壁になって、通ることができないようになっている。

なお、位置pos1ないしpos3のそれぞれは、個別に、通路、又は、壁にすることができる。

シミュレーションでは、第１及び第２の構造のアクション環境それぞれにおいて、反射アクションモード（図５）で、エージェントにアクションを行わせ、4000ステップ（時刻）分の学習データとなる観測系列、及び、アクション系列を得て、拡張HMMの学習を行った。

図２２は、学習後の拡張HMMを模式的に示す図である。

図２２において、丸（○）印は、拡張HMMの状態を表し、丸印の中に記載されている数字は、その丸印が表す状態のサフィックスである。また、丸印で表される状態どうしを表す矢印は、可能な状態遷移（状態遷移確率が0.0（とみなせる値）以外の状態遷移）を表す。

図２２の拡張HMMでは、状態S_iが、その状態S_iに対応する観測単位の位置に配置されている。

ここで、図２２において、１つの観測単位の位置に、２つ（複数）の状態S_i及びS_i'が、一部分を重複して配置されている場合があるが、これは、その１つの観測単位に、２つ（複数）の状態S_i及びS_i'が対応することを表す。

図２２においては、図１０Ａの場合と同様に、状態S₃及びS₃₀が、１つの観測単位に対応し、状態S₃₄及びS₃₅も、１つの観測単位に対応する。同様に、状態S₂₁及びS₂₃、状態S₂及びS₁₇、状態S₃₇及びS₄₈、状態S₃₁及びS₃₂も、それぞれ、１つの観測単位に対応する。

また、図２２では、左方向に移動するアクションU₄（図３Ｂ）が行われた場合に、異なる状態S₃及びS₃₀に状態遷移が可能な状態S₂₉、右方向に移動するアクションU₂が行われた場合に、異なる状態S₃₄及びS₃₅に状態遷移が可能な状態S₃₉、左方向に移動するアクションU₄が行われた場合に、異なる状態S₃₄及びS₃₅に状態遷移が可能な状態S₂₈（状態S₂₈は、右方向に移動するアクションU₂が行われた場合に、異なる状態S₂₁及びS₂₃に状態遷移が可能な状態でもある）、上方向に移動するアクションU₁が行われた場合に、異なる状態S₂及びS₁₇に状態遷移が可能な状態S₁、下方向に移動するアクションU₃が行われた場合に、異なる状態S₂及びS₁₇に状態遷移が可能な状態S₁₆、左方向に移動するアクションU₄が行われた場合に、異なる状態S₂及びS₁₇に状態遷移が可能な状態S₁₂、下方向に移動するアクションU₃が行われた場合に、異なる状態S₃₇及びS₄₈に状態遷移が可能な状態S₄₂、下方向に移動するアクションU₃が行われた場合に、異なる状態S₃₁及びS₃₂に状態遷移が可能な状態S₃₆、並びに、左方向に移動するアクションU₄が行われた場合に、状態S₃₁及びS₃₂に状態遷移が可能な状態S₂₅が、分岐構造の状態になっている。

なお、図２２において、点線の矢印は、第２の構造のアクション環境でのみ可能な状態遷移を表している。したがって、アクション環境の構造が、第１の構造（図２１Ａ）になっている場合、図２２において点線の矢印で表す状態遷移は、行うことができない。

シミュレーションでは、図２２において点線の矢印で表す状態遷移に対応する抑制子を、0.0にするとともに、他の状態遷移に対応する抑制子を1.0にする初期設定を行い、これにより、エージェントが、シミュレーションの開始直後は、第２の構造のアクション環境でのみ可能な状態遷移が生じるアクションを含むアクションプランを算出することができないようにした。

図２３ないし図２９は、学習後の拡張HMMに基づき、目標状態に到達するまでのアクションプランを算出し、そのアクションプランに従って決定されたアクションを行うエージェントを示す図である。

なお、図２３ないし図２９において、上側には、アクション環境内のエージェントと、目標状態（に対応する観測単位）とを示してあり、下側には、拡張HMMを示してある。

図２３は、時刻t=t₀のエージェントを示している。

時刻t=t₀では、アクション環境の構造が、位置pos1ないしpos3が通路の第１の構造（図２１Ａ）になっている。

さらに、時刻t=t₀では、目標状態（に対応する観測単位）が、左下の状態S₃₇になっており、エージェントは、状態S₂₀（に対応する観測単位）に位置している。

そして、エージェントは、目標状態である状態S₃₇に向かうアクションプランを算出し、そのアクションプランに従って決定されたアクションとして、現在状態である状態S₂₀から左方向への移動を行っている。

図２４は、時刻t=t₁（＞t₀）のエージェントを示している。

時刻t=t₁では、アクション環境の構造が、第１の構造から、位置pos1は通路で通れるが、位置pos2及びpos3は壁で通れない構造に変化している。

さらに、時刻t=t₁では、目標状態が、時刻t=t₀の場合と同様に、左下の状態S₃₇になっており、エージェントは、状態S₃₁に位置している。

図２５は、時刻t=t₂（＞t₁）のエージェントを示している。

時刻t=t₂では、アクション環境の構造が、位置pos1は通路で通れるが、位置pos2及びpos3は壁で通れない構造（以下、変化後構造ともいう）になっている。

さらに、時刻t=t₂では、目標状態が、上側の状態₃になっており、エージェントは、状態S₃₁に位置している。

そして、エージェントは、目標状態である状態S₃に向かうアクションプランを算出し、そのアクションプランに従って決定されたアクションとして、現在状態である状態S₃₁から上方向への移動を行おうとしている。

ここで、時刻t=t₂では、状態系列S₃₁,S₃₆,S₃₉,S₃₅,S₃の状態遷移が生じるアクションプランが算出されている。

なお、アクション環境が、第１の構造になっている場合、状態S₃₇及びS₄₈に対応する観測単位と、状態S₃₁及びS₃₂に対応する観測単位との間の位置pos1（図２１）、状態S₃及びS₃₀に対応する観測単位と、状態S₃₄及びS₃₅に対応する観測単位との間の位置pos2、並びに、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間の位置pos3は、いずれも通路であるから、エージェントは、位置pos1ないしpos3を通ることができる。

しかしながら、アクション環境が、変化後構造になった場合には、位置pos2及びpos3は、壁になっているから、エージェントは、位置pos2及びpos3を通ることができない。

上述したように、シミュレーションの初期設定では、第２の構造のアクション環境でのみ可能な状態遷移に対応する抑制子のみが、0.0に設定されており、時刻t=t₂では、第１の構造のアクション環境で可能な状態遷移が抑制されていない。

このため、時刻t=t₂では、状態S₃及びS₃₀に対応する観測単位と、状態S₃₄及びS₃₅に対応する観測単位との間の位置pos2は、壁になっていて通ることができないが、エージェントは、状態S₃及びS₃₀に対応する観測単位と、状態S₃₄及びS₃₅に対応する観測単位との間の位置pos2を通る、状態S₃₅から状態S₃への状態遷移が生じるアクションを含むアクションプランを算出してしまっている。

図２６は、時刻t=t₃（＞t₂）のエージェントを示している。

時刻t=t₃では、アクション環境の構造が、変化後構造のままになっている。

さらに、時刻t=t₃では、目標状態が、上側の状態₃になっており、エージェントは、状態S₂₈に位置している。

そして、エージェントは、目標状態である状態S₃に向かうアクションプランを算出し、そのアクションプランに従って決定されたアクションとして、現在状態である状態S₂₈から右方向への移動を行おうとしている。

ここで、時刻t=t₃では、状態系列S₂₈,S₂₃,S₂,S₁₆,S₂₂,S₂₉,S₃の状態遷移が生じるアクションプランが算出されている。

エージェントは、時刻t=t₂以降にも、時刻t=t₂で算出された状態系列S₃₁,S₃₆,S₃₉,S₃₅,S₃の状態遷移が生じるアクションプラン（図２５）と同様のアクションプランを算出し、そのアクションプランに従って決定されたアクションを行うことで、状態S₃₅に対応する観測単位まで移動するが、そのときに、状態S₃（及びS₃₀）に対応する観測単位と、状態（S₃₄及び）S₃₅に対応する観測単位との間の位置pos2を通ることができないことを認識し、すなわち、アクションプランに従って決定されたアクションを行うことで、アクションプランに対応する状態系列S₃₁,S₃₆,S₃₉,S₃₅,S₃の中の状態S₃₉から到達することができた状態が、状態S₃₉の次の状態S₃₅ではなく、状態S₃₄であることを認識し、行うことができなかった状態S₃₉から状態S₃₅への状態遷移に対応する抑制子を、0.0に更新する。

その結果、時刻t=t₃では、エージェントは、位置pos2を通ることができる、状態S₃₉から状態S₃₅への状態遷移が生じないアクションプランである、状態系列S₂₈,S₂₃,S₂,S₁₆,S₂₂,S₂₉,S₃の状態遷移が生じるアクションプランを算出する。

なお、アクション環境が、変化後構造になっている場合、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間の位置pos3（図２１）は、壁になっており、エージェントは通ることができない。

上述したように、シミュレーションの初期設定では、位置pos1ないしpos3が壁で通ることができない第２の構造のアクション環境でのみ可能な状態遷移に対応する抑制子のみが、0.0に設定されており、時刻t=t₃では、第１の構造のアクション環境で可能な、位置pos3を通ることに対応する状態S₂₃から状態S₂への状態遷移が抑制されていない。

このため、時刻t=t₃では、エージェントは、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間の位置pos3を通る、状態S₂₃から状態S₂への状態遷移が生じるアクションプランを算出する。

図２７は、時刻t=t₄（＝t₃+1）のエージェントを示している。

時刻t=t₄では、アクション環境の構造が、変化後構造になっている。

さらに、時刻t=t₄では、目標状態が、上側の状態₃になっており、エージェントは、状態S₂₁に位置している。

エージェントは、時刻t=t₃で算出された状態系列S₂₈,S₂₃,S₂,S₁₆,S₂₂,S₂₉,S₃の状態遷移が生じるアクションプラン（図２６）に従って決定されたアクションを行うことで、状態S₂₈に対応する観測単位から、状態S₂₁及びS₂₃に対応する観測単位に移動するが、そのときに、アクションプランに従って決定されたアクションを行うことで、アクションプランに対応する状態系列S₂₈,S₂₃,S₂,S₁₆,S₂₂,S₂₉,S₃の中の状態S₂₈から到達することができた状態が、状態S₂₈の次の状態S₂₃ではなく、状態S₂₁であることを認識し、状態S₂₈から状態S₂₃への状態遷移に対応する抑制子を、0.0に更新する。

その結果、時刻t=t₄では、エージェントは、状態S₂₈から状態S₂₃への状態遷移を含まない（さらに、その結果として、状態S₂₁及びS₂₃に対応する観測単位と、状態S₂及びS₁₇に対応する観測単位との間の位置pos3を通らない）アクションプランを算出する。

ここで、時刻t=t₄では、状態S₂₈,S₂₇,S₂₆,S₂₅,S₂₀,S₁₅,S₁₀,S₁,S₂,S₁₆,S₂₂,S₂₉,S₃の状態遷移が生じるアクションプランが算出されている。

図２８は、時刻t=t₅（＝t₅+1）のエージェントを示している。

時刻t=t₅では、アクション環境の構造が、変化後構造になっている。

さらに、時刻t=t₅では、目標状態が、上側の状態₃になっており、エージェントは、状態S₂₈に位置している。

エージェントは、時刻t=t₄で算出された状態系列S₂₈,S₂₇,S₂₆,S₂₅,S₂₀,S₁₅,S₁₀,S₁,S₂,S₁₆,S₂₂,S₂₉,S₃の状態遷移が生じるアクションプラン（図２７）に従って決定されたアクションを行うことで、状態S₂₁に対応する観測単位から、状態S₂₈に対応する観測単位に移動する。

図２９は、時刻t=t₆（＞t₅）のエージェントを示している。

時刻t=t₆では、アクション環境の構造が、変化後構造になっている。

さらに、時刻t=t₆では、目標状態が、上側の状態₃になっており、エージェントは、状態S₁₅に位置している。

そして、エージェントは、目標状態である状態S₃に向かうアクションプランを算出し、そのアクションプランに従って決定されたアクションとして、現在状態である状態S₁₅から右方向への移動を行おうとしている。

ここで、時刻t=t₆では、状態系列S₁₀,S₁,S₂,S₁₆,S₂₂,S₂₉,S₃の状態遷移が生じるアクションプランが算出されている。

以上のように、エージェントは、アクション環境の構造が変化しても、その変化後の構造を観測し（現在状態が、どの状態かを求め（認識し））、抑制子を更新する。そして、エージェントは、更新後の抑制子を用いて、アクションプランを算出し直し、最終的には、目標状態に到達することができる。

［エージェントの応用例］

図３０は、図４のエージェントを応用した掃除ロボットの概要を示す図である。

図３０において、掃除ロボット５１は、掃除機として機能するブロック、図４のエージェントのアクチュエータ１２、及び、センサ１３に相当するブロック、及び、無線通信を行うブロックを内蔵する。

そして、図３０では、掃除ロボットは、リビングルームを、アクション環境として、アクションとしての移動を行い、リビングルーム内の掃除を行う。

ホストコンピュータ５２は、図４の反射行動決定部１１、履歴記憶部１４、アクション制御部１５、及び、目標決定部１６として機能する（反射行動決定部１１、履歴記憶部１４、アクション制御部１５、及び、目標決定部１６に相当するブロックを有する）。

また、ホストコンピュータ５２は、リビングルーム内、又は、他の部屋に設置され、無線LAN(Local Area Network)等による無線通信を制御するアクセスポイント５３と接続されている。

ホストコンピュータ５３は、アクセスポイント５３を介して、掃除ロボット５１との間で無線通信を行うことにより、必要なデータをやりとりし、これにより、掃除ロボット５１は、図４のエージェントと同様なアクションとしての移動を行う。

なお、図３０では、掃除ロボット５１の小型化のために、掃除ロボット５１に、十分な電源と計算性能とを搭載することが困難であることに鑑みて、掃除ロボット５１には、図４のエージェントを構成するブロックのうちの、必要最小限のブロックである、アクチュエータ１２、及び、センサ１３に相当するブロックだけを設け、他のブロックを、掃除ロボット５１とは別個のホストコンピュータ５２に設けてある。

但し、掃除ロボット５１と、ホストコンピュータ５２とのそれぞれに、図４のエージェントを構成するブロックのうちのいずれのブロックを設けるかは、上述したブロックに限定されるものではない。

すなわち、例えば、掃除ロボット５１には、アクチュエータ、及び、センサ１３の他、それほど高度な計算機能が要求されない反射アクション決定部１１に相当するブロックを設け、ホストコンピュータ５３は、高度な計算機能と大きな記憶容量を必要とする履歴記憶部１４、アクション制御部１５、及び、目標決定部１６に相当するブロックを設けることができる。

ここで、拡張HMMによれば、異なる位置の観測単位で、同一の観測値が観測されるアクション環境において、観測値系列、及び、アクション系列を用いて、エージェントの現在の状況を認識し、現在状態、ひいては、エージェントが位置する観測単位（場所）を一意に特定することができる。

そして、図４のエージェントは、現在状態に応じて、抑制子を更新し、更新後の抑制子で、拡張HMMの状態遷移確率を補正しながら、アクションプランを、逐次的に算出することで、構造が確率的に変化するアクション環境でも、目標状態に到達することができる。

かかるエージェントは、例えば、人間の生活行動によって、動的に構造が変化する、例えば、人間が居住する住環境で活動する掃除ロボット等の実用ロボットに応用することができる。

例えば、部屋等の住環境では、部屋のドア（扉）の開閉や、部屋の中の家具の配置の変更等によって、構造が変化することがある。

但し、部屋自体の形状が変化することはないから、住環境は、構造が変化する部分と、変化しない部分とが共存する。

拡張HMMによれば、構造が変化する部分を、分岐構造の状態として記憶することができ、したがって、構造が変化する部分を含む住環境を、効率的に（少ない記憶容量で）表現することができる。

一方、住環境において、人間が操作する掃除機の代替機器として使用される掃除ロボットには、部屋全体を掃除するという目標を達成するために、掃除ロボットが、掃除ロボット自身の位置を特定し、構造が確率的に変化する部屋（構造が変化する可能性がある部屋）の中を、経路を適応的に切り替えながら移動する必要がある。

このように、構造が確率的に変化する住環境において、掃除ロボット自身の位置を特定し、適応的に経路を切り替えながら、目標（部屋全体の掃除）を実現するには、図４のエージェントは、特に有用である。

なお、掃除ロボットの製造コストを下げる観点から、観測値を観測する手段として、掃除ロボットに、高度なセンサとしてのカメラと、カメラが出力する画像の認識等の画像処理を行う画像処理装置とを搭載することは、避けることが望ましい。

すなわち、掃除ロボットの製造コストを下げるには、掃除ロボットが観測値を観測する手段としては、複数方向への超音波やレーザ等の出力を行うことで測距を行う測距装置等の安価な手段を採用することが望ましい。

しかしながら、観測値を観測する手段として、測距装置等の安価な手段を採用する場合には、住環境の異なる位置において、同一の観測値が観測されるケースが多くなり、１時刻の観測値だけでは、掃除ロボットの位置を、一意に特定することが困難となる。

このように、１時刻の観測値だけでは、掃除ロボットの位置を、一意に特定することが困難な住環境であっても、拡張HMMによれば、観測値系列、及び、アクション系列を用いて、位置を、一意に特定することができる。

［１状態１観測値制約］

ところで、図４の学習部２１において、学習データを用いた拡張HMMの学習は、Baum-Welchの再推定法に従い、学習データが観測される尤度を最大化するように行われる。

Baum-Welchの再推定法は、基本的には、勾配法により、モデルパラメータを収束させていく方法であるため、モデルパラメータが、ローカルミニマムに陥ることがある。

モデルパラメータがローカルミニマムに陥るかどうかには、モデルパラメータの初期値に依存する初期値依存性がある。

本実施の形態では、拡張HMMとして、エルゴディックなHMMを採用しているが、エルゴディックなHMMは、初期値依存性が、特に大きい。

学習部２１（図４）では、初期値依存性を低減するために、１状態１観測値制約の下で、拡張HMMの学習を行うことができる。

ここで、１状態１観測値制約とは、拡張HMM（を含むHMM）の１つの状態において、１つの観測値（だけ）が観測されるようにする制約である。

なお、構造が変化するアクション環境において、拡張HMMの学習を、何らの制約もなしに行うと、学習後の拡張HMMにおいて、アクション環境の構造の変化が、観測確率に分布を持つことによって表現される場合と、状態遷移の分岐構造を持つことによって表現される場合とが混在することがある。

ここで、アクション環境の構造の変化が、観測確率に分布を持つことによって表現される場合とは、ある１つの状態において、複数の観測値が観測される場合である。また、アクション環境の構造の変化が、状態遷移の分岐構造を持つことによって表現される場合とは、同一のアクションによって、異なる状態への状態遷移が生じる場合（あるアクションが行われた場合に、現在状態から、ある状態に状態遷移する可能性もあるし、その状態とは異なる状態に状態遷移する可能性もあるとき）である。

１状態１観測値制約によれば、拡張HMMにおいて、アクション環境の構造の変化が、状態遷移の分岐構造を持つことのみによって表現される。

なお、アクション環境の構造が変化しない場合には、１状態１観測値制約を課さずに、拡張HMMの学習を行うことができる。

１状態１観測値制約は、拡張HMMの学習に、状態の分割、さらに、望ましくは、状態のマージ（統合）を導入することで課すことができる。

［状態の分割］

図３１は、１状態１観測値制約を実現するための状態の分割の概要を説明する図である。

状態の分割では、Baum-Welchの再推定法により、モデルパラメータ（初期状態確率π_i、状態遷移確率a_ij(U_m)、及び、観測確率b_i(O_k)）が収束した拡張HMMにおいて、１つの状態で、複数の観測値が観測される場合に、その複数の観測値の１つずつが、１つの状態で観測されるように、状態が、複数の観測値の数と同一の数の複数の状態に分割される。

図３１Ａは、Baum-Welchの再推定法により、モデルパラメータが収束した直後の拡張HMM（の一部）を示している。

図３１Ａでは、拡張HMMは、３つの状態S₁,S₂,S₃を有し、状態S₁とS₂との間、及び、状態S₂とS₃との間のそれぞれで、状態遷移が可能となっている。

さらに、図３１Ａでは、状態S₁において、１つの観測値O₁₅が、状態S₂において、２つの観測値O₇及びO₁₃が、状態S₃において、１つの観測値O₅が、それぞれ観測されるようになっている。

図３１Ａでは、状態S₂において、複数である２つの観測値O₇及びO₁₃が観測されるので、状態S₂が、その２つの観測値O₇及びO₁₃と同一の数の２つの状態に分割される。

図３１Ｂは、状態の分割後の拡張HMM（の一部）を示している。

図３１Ｂでは、図３１Ａの分割前の状態S₂が、分割後の状態S₂と、モデルパラメータが収束した直後の拡張HMMでは有効でない状態（例えば、状態遷移確率、及び、観測確率のすべてが、0.0（とみなせる値）になっている状態）のうちの１つである状態S₄との２つに分割されている。

さらに、図３１Ｂでは、分割後の状態S₂において、分割前の状態S₂で観測される２つの観測値O₇及びO₁₃のうちの１つである観測値O₁₃のみが観測され、分割後の状態S₄において、分割前の状態S₂で観測される２つの観測値O₇及びO₁₃のうちの残りの１つである観測値O₇のみが観測されるようになっている。

また、図３１Ｂでは、分割後の状態S₂については、分割前の状態S₂と同様に、状態S₁及びS₃のそれぞれとの間で、状態遷移が可能になっている。分割後の状態S₄についても、分割前の状態S₂と同様に、状態S₁及びS₃のそれぞれとの間で、状態遷移が可能になっている。

学習部２１（図４）は、状態の分割にあたって、まず、学習後（モデルパラメータが収束した直後）の拡張HMMにおいて、複数の観測値が観測される状態を、分割対象の分割対象状態として検出する。

図３２は、分割対象状態の検出の方法を説明する図である。

すなわち、図３２は、拡張HMMの観測確率行列Bを示している。

観測確率行列Bは、図１６で説明したように、状態S_iにおいて、観測値O_kを観測する観測確率b_i(O_k)を、第i行第k列の要素とする行列である。

拡張HMM（を含むHMM）の学習では、観測確率行列Bにおいて、ある状態S_iにおいて、観測値O₁ないしO_Kを観測する観測確率b_i(O₁)ないしb_i(O_K)それぞれは、その観測確率b_i(O₁)ないしb_i(O_K)の総和が1.0になるように正規化される。

したがって、１つの状態S_iにおいて、１つの観測値（のみ）が観測される場合には、その状態S_iの観測確率b_i(O₁)ないしb_i(O_K)のうちの最大値は、1.0（とみなせる値）になり、最大値以外の観測確率は、0.0（とみなせる値）になる。

一方、１つの状態S_iにおいて、複数の観測値が観測される場合には、その状態S_iの観測確率b_i(O₁)ないしb_i(O_K)のうちの最大値は、図３２に示す0.6や0.5のように、1.0より十分小さく、かつ、総和が1.0の観測確率を観測値O₁ないしO_Kの数Kで均等に分けた場合の値（平均値）1/Kよりも大きくなる。

したがって、分割対象状態は、式（２０）に従い、各状態S_iについて、1.0より小さい閾値b_{max_th}より小さく、かつ、平均値1/Kより大きい観測確率B_ik=b_i(O_k)を検索することで検出することができる。

・・・（２０）

ここで、式（２０）において、B_ikは、観測確率行列Bの第i行第k列の要素を表し、状態S_iにおいて、観測値O_kを観測する観測確率b_i(O_k)に等しい。

また、式（２０）において、argfind(1/K＜B_ik＜b_{max_th})は、状態S_iのサフィックスiがSである場合において、かっこ内の条件式1/K＜B_ik＜b_{max_th}を満たす観測確率B_Skを検索する（見つける）ことができたときの、かっこ内の条件式1/K＜B_ik＜b_{max_th}を満たす観測確率B_Skすべてのサフィックスkを表す。

なお、式（２０）において、閾値b_{max_th}は、分割対象状態の検出の敏感さを、どの程度にするかに応じて、1/K＜b_{max_th}＜1.0の範囲で調整することができ、閾値b_{max_th}を、1.0に近づけるほど、分割対象状態を、敏感に検出することができる。

学習部２１（図４）は、式（２０）のかっこ内の条件式1/K＜B_ik＜b_{max_th}を満たす観測確率B_Skを検索する（見つける）ことができたときの、サフィックスiがSの状態を、分割対象状態として検出する。

さらに、学習部２１は、式（２０）で表されるすべてのサフィックスkの観測値O_kを、分割対象状態（サフィックスiがSの状態）で観測される複数の観測値として検出する。

そして、学習部２１は、分割対象状態を、その分割対象状態で観測される複数の観測値と同一の数の複数の状態に分割する。

ここで、分割対象状態を分割した分割後の状態を、分割後状態ということとすると、分割後状態の１つとしては、分割対象状態を採用し、残りの分割後状態としては、分割時に、拡張HMMにおいて有効でない状態を採用することができる。

すなわち、例えば、分割対象状態を、３つの分割後状態に分割する場合には、その３つの分割後状態のうちの１つとして、分割対象状態を採用し、残りの２つとして、分割時に、拡張HMMにおいて有効でない状態を採用することができる。

また、複数の分割後状態としては、すべて、分割時に、拡張HMMにおいて有効でない状態を採用することができる。但し、この場合、状態の分割後に、分割対象状態を有効でない状態とする必要がある。

図３３は、分割対象状態を、分割後状態に分割する方法を説明する図である。

図３３では、拡張HMMは、7個の状態S₁ないしS₇を有し、そのうちの、2個の状態S₆及びS₇が有効でない状態になっている。

さらに、図３３では、状態S₃を、２つの観測値O₁及びO₂が観測される分割対象状態として、その分割対象状態S₃が、観測値O₁が観測される分割後状態S₃と、観測値O₂が観測される分割後状態S₆とに分割されている。

学習部２１（図４）は、以下のようにして、分割対象状態S₃を、２つの分割後状態S₃及びS₆に分割する

すなわち、学習部２１は、分割対象状態S₃を分割した分割後状態S₃に、複数の観測値O₁及びO₂のうちの１つの観測値である、例えば、観測値O₁を割り当て、分割後状態S₃において、その分割後状態S₃に割り当てられた観測値O₁が観測される観測確率を、1.0に設定するとともに、他の観測値が観測される観測確率を、0.0に設定する。

さらに、学習部２１は、分割後状態S₃を遷移元とする状態遷移の状態遷移確率a_3,j(U_m)を、分割対象状態S₃を遷移元とする状態遷移の状態遷移確率a_3,j(U_m)に設定するとともに、分割後状態S₃を遷移先とする状態遷移の状態遷移確率を、分割後状態S₃に割り当てられた観測値の、分割対象状態S₃における観測確率で、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率を補正した値に設定する。

学習部２１は、他の分割後状態S₆についても、同様に、観測確率、及び、状態遷移確率を設定する。

図３３Ａは、分割後状態S₃及びS₆の観測確率の設定を説明する図である。

図３３では、分割対象状態S₃を分割した２つの分割後状態S₃及びS₆のうちの一方である分割後状態S₃に、分割対象状態S₃で観測される２つの観測値O₁及びO₂のうちの一方である観測値O₁が割り当てられ、他方の分割後状態S₆に、他方の観測値O₂が割り当てられている。

この場合、学習部２１は、図３３Ａに示すように、観測値O₁を割り当てた分割後状態S₃において、その観測値O₁が観測される観測確率を、1.0に設定するとともに、他の観測値が観測される観測確率を、0.0に設定する。

さらに、学習部２１は、図３３Ａに示すように、観測値O₂を割り当てた分割後状態S₆において、その観測値O₂が観測される観測確率を、1.0に設定するとともに、他の観測値が観測される観測確率を、0.0に設定する。

以上のような観測確率の設定は、式（２１）で表される。

・・・（２１）

ここで、式（２１）において、B(,)は、２次元の配列であり、配列の要素Ｂ（S,O)は、状態Sにおいて、観測値Oが観測される観測確率を表す。

また、サフィックスがコロン(:)になっている配列は、そのコロンになっている次元の要素のすべてを表す。したがって、式（２１）において、例えば、式B(S₃,:)=0.0は、状態S₃において、各観測値O₁ないしO_Kが観測される観測確率を、すべて、0.0に設定することを表す。

式（２１）によれば、状態S₃において、各観測値O₁ないしO_Kが観測される観測確率が、すべて、0.0に設定され（B(S₃,:)=0.0）、その後、観測値O₁が観測される観測確率だけが、1.0に設定される（B(S₃,O₁)=1.0）。

さらに、式（２１）によれば、状態S₆において、各観測値O₁ないしO_Kが観測される観測確率が、すべて、0.0に設定され（B(S₆,:)=0.0）、その後、観測値O₂が観測される観測確率だけが、1.0に設定される（B(S₆,O₂)=1.0）。

図３３Ｂは、分割後状態S₃及びS₆の状態遷移確率の設定を説明する図である。

分割後状態S₃及びS₆のそれぞれを遷移元とする状態遷移としては、分割対象状態S₃を遷移元とする状態遷移と同様の状態遷移が行われるべきである。

そこで、学習部２１は、図３３Ｂに示すように、分割後状態S₃を遷移元とする状態遷移の状態遷移確率を、分割対象状態S₃を遷移元とする状態遷移の状態遷移確率に設定する。さらに、学習部２１は、図３３Ｂに示すように、分割後状態S₆を遷移元とする状態遷移の状態遷移確率も、分割対象状態S₃を遷移元とする状態遷移の状態遷移確率に設定する。

一方、観測値O₁が割り当てられた分割後状態S₃、及び、観測値O₂が割り当てられた分割後状態S₆のそれぞれを遷移先とする状態遷移としては、分割対象状態S₃を遷移先とする状態遷移を、その分割対象状態S₃で観測値O₁及びO₂それぞれが観測される観測確率の割合（比）で分割したような状態遷移が行われるべきである。

そこで、学習部２１は、図３３Ｂに示すように、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率に、分割後状態S₃に割り当てられた観測値O₁の、分割対象状態S₃における観測確率を乗算することで、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率を補正し、観測値O₁の観測確率によって状態遷移確率を補正した補正値を求める。

そして、学習部２１は、観測値O₁が割り当てられた分割後状態S₃を遷移先とする状態遷移の状態遷移確率を、観測値O₁の観測確率によって状態遷移確率を補正した補正値に設定する。

さらに、学習部２１は、図３３Ｂに示すように、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率に、分割後状態S₆に割り当てられた観測値O₂の、分割対象状態S₃における観測確率を乗算することで、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率を補正し、観測値O₂の観測確率によって状態遷移確率を補正した補正値を求める。

そして、学習部２１は、観測値O₂が割り当てられた分割後状態S₆を遷移先とする状態遷移の状態遷移確率を、観測値O₂の観測確率によって状態遷移確率を補正した補正値に設定する。

以上のような状態遷移確率の設定は、式（２２）で表される。

・・・（２２）

ここで、式（２１）において、A(,,)は、３次元の配列であり、配列の要素A（S,S',U)は、アクションUが行われた場合に、状態Sを遷移元として、状態S'に状態遷移する状態遷移確率を表す。

また、サフィックスがコロン(:)になっている配列は、式（２１）の場合と同様に、そのコロンになっている次元の要素のすべてを表す。

したがって、式（２２）において、例えば、A(S₃,:,:)は、各アクションが行われた場合の、状態S₃を遷移元とする各状態Sへの状態遷移の状態遷移確率すべてを表す。また、式（２２）において、例えば、A(:,S₃,:)は、各アクションが行われた場合の、状態S₃を遷移先とする、各状態から状態S₃への状態遷移の状態遷移確率すべてを表す。

式（２２）によれば、すべてのアクションについて、分割後状態S₃を遷移元とする状態遷移の状態遷移確率が、分割対象状態S₃を遷移元とする状態遷移の状態遷移確率に設定される（A(S₃,:,:)=A(S₃,:,:)）。

また、すべてのアクションについて、分割後状態S₆を遷移元とする状態遷移の状態遷移確率も、分割対象状態S₃を遷移元とする状態遷移の状態遷移確率に設定される（A(S₆,:,:)=A(S₃,:,:)）。

さらに、式（２２）によれば、すべてのアクションについて、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率A(:,S₃,:)に、分割後状態S₃に割り当てられた観測値O₁の、分割対象状態S₃における観測確率B(S₃,O₁)を乗算することで、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率A(:,S₃,:)を補正した補正値B(S₃,O₁)A(:,S₃,:)が求められる。

そして、すべてのアクションについて、観測値O₂が割り当てられた分割後状態S₆を遷移先とする状態遷移の状態遷移確率A(:,S₃,:)が、補正値B(S₃,O₁)A(:,S₃,:)に設定される（A(:,S₃,:)=B(S₃,O₁)A(:,S₃,:)）。

また、式（２２）によれば、すべてのアクションについて、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率A(:,S₃,:)に、分割後状態S₆に割り当てられた観測値O₂の、分割対象状態S₃における観測確率B(S₃,O₂)を乗算することで、分割対象状態S₃を遷移先とする状態遷移の状態遷移確率A(:,S₃,:)を補正した補正値B(S₃,O₂)A(:,S₃,:)が求められる。

そして、すべてのアクションについて、観測値O₂が割り当てられた分割後状態S₆を遷移先とする状態遷移の状態遷移確率A(:,S₆,:)が、補正値B(S₃,O₂)A(:,S₃,:)に設定される（A(:,S₆,:)=B(S₃,O₂)A(:,S₃,:)）。

［状態のマージ］

図３４は、１状態１観測値制約を実現するための状態のマージの概要を説明する図である。

状態のマージでは、Baum-Welchの再推定法により、モデルパラメータが収束した拡張HMMにおいて、あるアクションが行われたときの、１つの状態を遷移元とする状態遷移の遷移先の状態として、複数の状態（異なる状態）が存在し、その複数の状態それぞれにおいて、同一の観測値が観測される状態が存在する場合に、その同一の観測値が観測される複数の状態が、１つの状態にマージされる。

また、状態のマージでは、モデルパラメータが収束した拡張HMMにおいて、あるアクションが行われたときの、１つの状態を遷移先とする状態遷移の遷移元の状態として、複数の状態が存在し、その複数の状態それぞれにおいて、同一の観測値が観測される状態が存在する場合に、その同一の観測値が観測される複数の状態が、１つの状態にマージされる。

すなわち、状態のマージは、モデルパラメータが収束した拡張HMMにおいて、各アクションについて、同一の状態を遷移元、又は、遷移先とする状態遷移が生じ、かつ、同一の観測値が観測される複数の状態が存在する場合に、そのような複数の状態は、冗長であるため、１つの状態にマージされる。

ここで、状態のマージには、あるアクションが行われたときの１つの状態からの状態遷移の遷移先の状態として、複数の状態が存在する場合に、その遷移先の複数の状態をマージするフォワードマージと、あるアクションが行われたときの１つの状態への状態遷移の遷移元の状態として、複数の状態が存在する場合に、その遷移元の複数の状態をマージするバックワードマージとがある。

図３４Ａは、フォワードマージの例を示している。

図３４Ａでは、拡張HMMは、状態S₁ないしS₅を有し、状態S₁から状態S₂及びS₃への状態遷移、状態S₂から状態S₄への状態遷移、並びに、状態S₃から状態S₅への状態遷移が可能になっている。

また、状態S₁からの、複数の状態S₂及びS₃を遷移先とする状態遷移それぞれ、すなわち、遷移先を状態S₂とする状態S₁からの状態遷移と、遷移先を状態S₃とする状態S₁からの状態遷移とは、状態S₁において、同一のアクションが行われた場合に行われるようになっている。

さらに、状態S₂及び状態S₃では、同一の観測値O₅が観測されるようになっている。

この場合、学習部２１（図４）は、同一のアクションによって生じる、１つの状態S₁からの状態遷移の遷移先であり、同一の観測値O₅が観測される複数の状態S₂及びS₃を、マージの対象であるマージ対象状態として、そのマージ対象状態S₂及びS₃を、１つの状態にマージする。

ここで、複数のマージ対象状態をマージして得られる１つの状態を、代表状態ともいうこととする。図３４Ａでは、２つのマージ対象状態S₂及びS₃が、１つの代表状態S₂にマージされている。

また、あるアクションが行われた場合に、ある１つの状態から生じ得る、同一の観測値が観測される状態への複数の状態遷移は、１つの遷移元の状態から、複数の遷移先の状態に向かって分岐しているように見えるので、そのような状態遷移を、フォワード方向の分岐ともいう。図３４Ａでは、状態S₁から、状態S₂への状態遷移と、状態S₃への状態遷移とが、フォワード方向の分岐である。

なお、フォワード方向の分岐では、分岐元の状態が、遷移元の状態S₁となり、分岐先の状態が、同一の観測値が観測される遷移先の状態S₂及びS₃となる。そして、遷移先の状態でもある分岐先の状態S₂及びS₃が、マージ対象状態となる。

図３４Ｂは、バックワードマージの例を示している。

図３４Ｂでは、拡張HMMは、状態S₁ないしS₅を有し、状態S₁から状態S₃への状態遷移、状態S₂から状態S₄への状態遷移、状態S₃から状態S₅への状態遷移、及び、状態S₄から状態S₅への状態遷移が可能になっている。

また、状態S₅への、複数の状態S₃及びS₄を遷移元とする状態遷移それぞれ、すなわち、遷移元を状態S₃とする状態S₃から状態S₅への状態遷移と、遷移元を状態S₄とする状態S₅への状態遷移とは、状態S₃及びS₄において、同一のアクションが行われた場合に行われるようになっている。

さらに、状態S₃及び状態S₄では、同一の観測値O₇が観測されるようになっている。

この場合、学習部２１（図４）は、同一のアクションによって生じる、１つの状態S₅への状態遷移の遷移元であり、同一の観測値O₇が観測される状態S₃及びS₄を、マージ対象状態として、そのマージ対象状態S₃及びS₄を、１つの状態である代表状態にマージする。

図３４Ｂでは、２つのマージ対象状態S₃及びS₄のうちの１つである状態S₃が、代表状態になっている。

ここで、あるアクションが行われた場合に、ある１つの状態を遷移先とする、同一の観測値が観測される複数の状態からの状態遷移は、１つの遷移先の状態から、複数の遷移元の状態に向かって分岐しているように見えるので、そのような状態遷移を、バックワード方向の分岐ともいう。図３４Ｂでは、状態S₅への、状態S₃からの状態遷移と、状態S₄からの状態遷移とが、バックワード方向の分岐である。

なお、バックワード方向の分岐では、分岐元の状態が、遷移先の状態S₅となり、分岐先の状態が、同一の観測値が観測される遷移元の状態S₃及びS₄となる。そして、遷移元の状態でもある分岐先の状態S₃及びS₄が、マージ対象状態となる。

学習部２１（図４）は、状態のマージにあたって、まず、学習後（モデルパラメータが収束した直後）の拡張HMMにおいて、分岐先の状態となっている複数の状態を、マージ対象状態として検出する。

図３５は、マージ対象状態の検出の方法を説明する図である。

学習部２１は、所定のアクションが行われたときの状態遷移の遷移元又は遷移先の拡張HMMの状態として、複数の状態が存在し、その複数の状態それぞれにおいて観測される、観測確率が最大の観測値が一致する場合の、複数の状態を、マージ対象状態として検出する。

図３５Ａは、フォワード方向の分岐の分岐先となっている複数の状態を、マージ対象状態として検出する方法を示している。

すなわち、図３５Ａは、あるアクションU_mについての状態遷移確率平面Aと、観測確率行列Bとを示している。

各アクションU_mについての状態遷移確率平面Aでは、各状態S_iについて、その状態S_iを遷移元とする状態遷移確率a_ij(U_m)の総和（サフィックスi及びmを固定にし、サフィックスjを、1ないしNに変化させてとったa_ij(U_m)の総和）が、1.0になるように、状態遷移確率が正規化されている。

したがって、あるアクションU_mについて、ある状態S_iを遷移元とする状態遷移確率（アクションU_mについての状態遷移確率平面Aにおいて、ある行iに、水平方向に並ぶ状態遷移確率）の最大値は、状態S_iを分岐元とするフォワード方向の分岐が存在しない場合には、1.0（とみなせる値）になり、最大値以外の状態遷移確率は、0.0（とみなせる値）になる。

一方、あるアクションU_mについて、ある状態S_iを遷移元とする状態遷移確率の最大値は、状態S_iを分岐元とするフォワード方向の分岐が存在する場合には、図３５Ａに示す0.5のように、1.0より十分小さく、かつ、総和が1.0の状態遷移確率を状態S₁ないしS_Nの数Nで均等に分けた場合の値（平均値）1/Nよりも大きくなる。

したがって、フォワード方向の分岐の分岐元となっている状態は、上述した、分岐構造の状態を検出する場合と同様に、式（１９）に従い、アクションU_mについての状態遷移確率平面の行iの状態遷移確率a_ij(U_m)（＝A_ijm）の最大値が、1.0より小さい閾値a_{max_th}より小で、平均値1/Nより大である状態S_iを検索することで検出することができる。

なお、この場合、式（１９）において、閾値a_{max_th}は、フォワード方向の分岐の分岐元となっている状態の検出の敏感さを、どの程度にするかに応じて、1/N＜a_{max_th}＜1.0の範囲で調整することができ、閾値a_{max_th}を、1.0に近づけるほど、分岐元となっている状態を、敏感に検出することができる。

学習部２１（図４）は、上述したようにして、フォワード方向の分岐の分岐元となっている状態（以下、分岐元状態ともいう）を検出すると、その分岐元状態からの、フォワード方向の分岐の分岐先になっている複数の状態を検出する。

すなわち、学習部２１は、アクションU_mのサフィックスmが、Uであり、フォワード方向の分岐の分岐元状態S_iのサフィックスiが、Sである場合の、分岐元状態からの、フォワード方向の分岐の分岐先になっている複数の状態を式（２３）に従って検出する。

・・・（２３）

ここで、式（２３）において、A_ijmは、３次元の状態遷移確率テーブルにおいて、i軸方向の位置が上からi番目で、j軸方向の位置が左からj番目で、アクション軸方向の位置が手前からm番目の状態遷移確率a_ij(U_m)を表す。

また、式（２３）において、argfind(a_{min_th1}＜A_ijm)は、アクションU_mのサフィックスmがUであり、分岐元状態S_iのサフィックスiがSである場合において、かっこ内の条件式a_{min_th1}＜A_ijmを満たす状態遷移確率A_S,j,_Uを検索する（見つける）ことができたときの、かっこ内の条件式a_{min_th1}＜A_ijmを満たす状態遷移確率A_S,j,_Uすべてのサフィックスjを表す。

なお、式（２３）において、閾値a_{min_th1}は、フォワード方向の分岐の分岐先になっている複数の状態の検出の敏感さを、どの程度にするかに応じて、0.0＜a_{min_th1}＜1.0の範囲で調整することができ、閾値a_{min_th1}を、1.0に近づけるほど、フォワード方向の分岐の分岐先になっている複数の状態を、敏感に検出することができる。

学習部２１（図４）は、式（２３）のかっこ内の条件式a_{min_th1}＜A_ijmを満たす状態遷移確率A_ijmを検索する（見つける）ことができたときの、サフィックスがjの状態S_jを、フォワード方向の分岐の分岐先になっている状態（以下、分岐先状態ともいう）の候補として検出する。

その後、学習部２１は、フォワード方向の分岐の分岐先状態の候補として、複数の状態が検出された場合、その複数の分岐先状態の候補それぞれにおいて観測される、観測確率が最大の観測値が一致するかどうかを判定する。

そして、学習部２１は、複数の分岐先状態の候補のうちの、観測確率が最大の観測値が一致する候補を、フォワード方向の分岐の分岐先状態として検出する。

すなわち、学習部２１は、複数の分岐先状態の候補それぞれについて、式（２４）に従って、観測確率が最大の観測値O_maxを求める。

・・・（２４）

ここで、式（２４）において、B_ikは、状態S_iにおいて、観測値O_kが観測される観測確率b_i(O_k)を表す。

また、式（２４）において、argmax(B_ik)は、観測確率行列Bにおいて、状態S_iのサフィックスがSの状態の、最大の観測確率観測確率B_S,kのサフィックスkを表す。

学習部２１は、複数の分岐先状態の候補としての複数の状態S_iそれぞれのサフィックスiについて、式（２４）で得られる、最大の観測確率B_S,kのサフィックスkが一致する場合に、複数の分岐先状態の候補のうちの、式（２４）で得られるサフィックスkが一致する候補を、フォワード方向の分岐の分岐先状態として検出する。

ここで、図３５Ａでは、状態S₃が、フォワード方向の分岐の分岐元状態として検出され、その分岐元状態S₃からの状態遷移の状態遷移確率が、いずれも0.5である状態S₁及びS₄が、フォワード方向の分岐の分岐先状態の候補として検出されている。

そして、フォワード方向の分岐の分岐先状態の候補である状態S₁及びS₄については、状態S₁で観測される、観測確率が1.0で最大の観測値O₂と、状態S₄で観測される、観測確率が0.9で最大の観測値O₂とが一致しているので、状態S₁及びS₄が、フォワード方向の分岐の分岐先状態として検出される。

図３５Ｂは、バックワード方向の分岐の分岐先となっている複数の状態を、マージ対象状態として検出する方法を示している。

すなわち、図３５Ｂは、あるアクションU_mについての状態遷移確率平面Aと、観測確率行列Bとを示している。

各アクションU_mについての状態遷移確率平面Aでは、各状態S_iについて、図３５Ａで説明したように、状態遷移確率は、状態S_iを遷移元とする状態遷移確率a_ij(U_m)の総和が、1.0になるように正規化されているが、状態S_jを遷移先とする状態遷移確率a_ij(U_m)の総和（サフィックスj及びmを固定にし、サフィックスiを、1ないしNに変化させてとったa_ij(U_m)の総和）が1.0になるような正規化は、行われていない。

但し、状態S_iから状態S_jへの状態遷移が行われる可能性がある場合には、状態S_jを遷移先とする状態遷移確率a_ij(U_m)は、0.0（とみなせる値）ではない正の値になっている。

したがって、バックワード方向の分岐の分岐元状態（となり得る状態）と、分岐先状態の候補とは、式（２５）に従って検出することができる。

・・・（２５）

ここで、式（２５）において、A_ijmは、３次元の状態遷移確率テーブルにおいて、i軸方向の位置が上からi番目で、j軸方向の位置が左からj番目で、アクション軸方向の位置が手前からm番目の状態遷移確率a_ij(U_m)を表す。

また、式（２５）において、argfind(a_{min_th2}＜A_ijm)は、アクションU_mのサフィックスmがUであり、遷移先の状態S_jのサフィックスjがSである場合において、かっこ内の条件式a_{min_th2}＜A_ijmを満たす状態遷移確率A_i,S,Uを検索する（見つける）ことができたときの、かっこ内の条件式a_{min_th2}＜A_ijmを満たす状態遷移確率A_i,S,_Uすべてのサフィックスiを表す。

なお、式（２５）において、閾値a_{min_th2}は、バックワード方向の分岐の分岐元状態、及び、分岐先状態（の候補）の検出の敏感さを、どの程度にするかに応じて、0.0＜a_{min_th2}＜1.0の範囲で調整することができ、閾値a_{min_th2}を、1.0に近づけるほど、バックワード方向の分岐の分岐元状態、及び、分岐先状態を、敏感に検出することができる。

学習部２１（図４）は、式（２５）のかっこ内の条件式a_{min_th2}＜A_ijmを満たす複数の状態遷移確率A_ijmを検索する（見つける）ことができたときの、サフィックスjがSの状態を、バックワード方向の分岐の分岐元状態（となり得る状態）として検出する。

さらに、学習部２１は、式（２５）のかっこ内の条件式a_{min_th2}＜A_ijmを満たす複数の状態遷移確率A_ijmを検索することができたときの、その複数の状態遷移確率A_ijmに対応する状態遷移の遷移元の複数の状態、つまり、条件式a_{min_th2}＜A_ijmを満たす複数個の状態遷移確率A_i,S,Uを検索することができたときの、かっこ内の条件式a_{min_th2}＜A_ijmを満たす複数個の状態遷移確率A_i,S,Uそれぞれのi（式（２５）が表す複数のi）をサフィックスとする複数の状態S_iを、分岐先状態の候補として検出する。

その後、学習部２１は、バックワード方向の分岐の複数の分岐先状態の候補それぞれにおいて観測される、観測確率が最大の観測値が一致するかどうかを判定する。

そして、学習部２１は、フォワード方向の分岐の分岐先状態を検出する場合と同様に、複数の分岐先状態の候補のうちの、観測確率が最大の観測値が一致する候補を、バックワード方向の分岐の分岐先状態として検出する。

ここで、図３５Ｂでは、状態S₂が、バックワード方向の分岐の分岐元状態として検出され、その分岐元状態S₂への状態遷移の状態遷移確率が、いずれも0.5である状態S₂及びS₅が、バックワード方向の分岐の分岐先状態の候補として検出されている。

そして、バックワード方向の分岐の分岐先状態の候補である状態S₂及びS₅については、状態S₂で観測される、観測確率が1.0で最大の観測値O₃と、状態S₅で観測される、観測確率が0.8で最大の観測値O₃とが一致しているので、状態S₂及びS₅が、バックワード方向の分岐の分岐先状態として検出される。

学習部２１は、以上のようにして、フォワード方向、及び、バックワード方向の分岐の分岐元状態と、その分岐先状態から分岐する複数の分岐先状態とを検出すると、その複数の分岐先状態を、１つの代表状態にマージする。

ここで、学習部２１は、例えば、複数の分岐先状態のうちの、サフィックスが最小の分岐先状態を、代表状態として、複数の分岐先状態を、代表状態にマージする。

すなわち、例えば、ある分岐元状態から分岐する複数の分岐先状態として、３つの状態が検出された場合には、学習部２１は、その複数の分岐先状態のうちの、サフィックスが最小の分岐先状態を、代表状態として、複数の分岐先状態を、代表状態にマージする。

また、学習部２１は、３つの分岐先状態のうちの、代表状態とならなかった残りの２つの状態を、有効でない状態とする。

なお、状態のマージにおいては、代表状態を分岐先状態ではなく、有効でない状態から選択することができる。この場合、複数の分岐先状態が代表状態にマージされた後、複数の分岐先状態は、すべて、有効でない状態にされる。

図３６は、ある１つの分岐元状態から分岐する複数の分岐先状態を、１つの代表状態にマージする方法を説明する図である。

図３６では、拡張HMMは、7個の状態S₁ないしS₇を有している。

さらに、図３６では、２つの状態S₁及びS₄を、マージ対象状態とするとともに、その２つのマージ対象状態S₁及びS₄のうちの、サフィックスが最小の状態S₁を、代表状態として、２つのマージ対象状態S₁及びS₄が、１つの代表状態S₁にマージされている。

学習部２１（図４）は、以下のようにして、２つのマージ対象状態S₁及びS₄を、１つの代表状態S₁にマージする。

すなわち、学習部２１は、代表状態S₁において、各観測値O_kが観測される観測確率b₁(O_k)を、マージ対象状態である複数の状態S₁及びS₄それぞれにおいて、各観測値O_kが観測される観測確率b₁(O_k)及びb₄(O_k)の平均値に設定するとともに、マージ対象状態である複数の状態S₁及びS₄のうちの、代表状態S₁以外の状態S₄において、各観測値O_kが観測される観測確率b₄(O_k)を、0に設定する。

また、学習部２１は、代表状態S₁を遷移元とする状態遷移の状態遷移確率a_1,j(U_m)を、マージ対象状態である複数の状態S₁及びS₄それぞれを遷移元とする状態遷移の状態遷移確率a_1,j(U_m)及びa_4,j(U_m)の平均値に設定するとともに、代表状態S₁を遷移先とする状態遷移の状態遷移確率a_i,1(U_m)を、マージ対象状態である複数の状態S₁及びS₄それぞれを遷移先とする状態遷移の状態遷移確率a_i,1(U_m)及びa_i,4(U_m)の和に設定する。

さらに、学習部２１は、マージ対象状態である複数の状態S₁及びS₄のうちの、代表状態S₁以外の状態S₄を遷移元とする状態遷移の状態遷移確率a_4,j(U_m)、及び、遷移先とする状態遷移の状態遷移確率a_i,4(U_m)を、0に設定する。

図３６Ａは、状態のマージで行われる観測確率の設定を説明する図である。

学習部２１は、代表状態S₁において、観測値O₁が観測される観測確率b₁(O₁)を、マージ対象状態S₁及びS₄それぞれにおいて、観測値O₁が観測される観測確率b₁(O₁)及びb₄(O₁)の平均値(b₁(O₁)＋びb₄(O₁))／2に設定する。

代表状態S₁において、他の観測値O_kが観測される観測確率b₁(O_k)も、同様に設定される。

さらに、学習部２１は、マージ対象状態S₁及びS₄のうちの、代表状態S₁以外の状態S₄において、各観測値O_kが観測される観測確率b₄(O_k)を、0に設定する。

以上のような観測確率の設定は、式（２６）で表される。

・・・（２６）

ここで、式（２６）において、B(,)は、２次元の配列であり、配列の要素Ｂ（S,O)は、状態Sにおいて、観測値Oが観測される観測確率を表す。

また、サフィックスがコロン(:)になっている配列は、そのコロンになっている次元の要素のすべてを表す。したがって、式（２６）において、例えば、式B(S₄,:)=0.0は、状態S₄において、各観測値が観測される観測確率を、すべて、0.0に設定することを表す。

式（２６）によれば、代表状態S₁において、各観測値O_kが観測される観測確率b₁(O_k)が、マージ対象状態S₁及びS₄それぞれにおいて、各観測値O_kが観測される観測確率b₁(O_k)及びb₄(O_k)の平均値に設定される（B(S₁,:)=(B(S₁,:)+B(S₄,:))/2)。

さらに、式（２６）によれば、マージ対象状態S₁及びS₄のうちの、代表状態S₁以外の状態S₄において、各観測値O_kが観測される観測確率b₄(O_k)が、0に設定される(B(S₄,:)=0.0)。

図３６Ｂは、状態のマージで行われる状態遷移確率の設定を説明する図である。

マージ対象状態である複数の状態それぞれを遷移元とする状態遷移は、一致しているとは限らない。そして、マージ対象状態をマージした代表状態を遷移元とする状態遷移としては、マージ対象状態である複数の状態それぞれを遷移元とする状態遷移が可能であるべきである。

そこで、学習部２１は、図３６Ｂに示すように、代表状態S₁を遷移元とする状態遷移の状態遷移確率a_1,j(U_m)を、マージ対象状態S₁及びS₄それぞれを遷移元とする状態遷移の状態遷移確率a_1,j(U_m)及びa_4,j(U_m)の平均値に設定する。

一方、マージ対象状態である複数の状態それぞれを遷移先とする状態遷移も、一致しているとは限らない。そして、マージ対象状態をマージした代表状態を遷移先とする状態遷移としては、マージ対象状態である複数の状態それぞれを遷移先とする状態遷移が可能であるべきである。

そこで、学習部２１は、図３６Ｂに示すように、代表状態S₁を遷移先とする状態遷移の状態遷移確率a_i,1(U_m)を、マージ対象状態S₁及びS₄それぞれを遷移先とする状態遷移の状態遷移確率a_i,1(U_m)及びa_i,4(U_m)の和に設定する。

なお、代表状態S₁を遷移元とする状態遷移の状態遷移確率a_1,j(U_m)として、マージ対象状態S₁及びS₄を遷移元とする状態遷移の状態遷移確率a_1,j(U_m)及びa_4,j(U_m)の平均値を採用するのに対して、代表状態S₁を遷移先とする状態遷移の状態遷移確率a_i,1(U_m)として、マージ対象状態S₁及びS₄を遷移先とする状態遷移の状態遷移確率a_i,1(U_m)及びa_i,4(U_m)の和を採用するのは、各アクションU_mについての状態遷移確率平面Aでは、状態S_iを遷移元とする状態遷移確率a_ij(U_m)の総和は、1.0になるように、状態遷移確率a_ij(U_m)が正規化されているのに対して、状態S_jを遷移先とする状態遷移確率a_ij(U_m)の総和が、1.0になるような正規化は、行われていないためである。

学習部２１は、代表状態S₁を遷移元とする状態遷移確率と、遷移先とする状態遷移確率との設定の他、マージ対象状態S₁及びS₄を、代表状態S₁にマージすることによって、アクション環境の構造の表現に不要となるマージ対象状態（代表状態以外のマージ対象状態）S₄を遷移元とする状態遷移確率と、遷移先とする状態遷移確率とを、0に設定する。

以上のような状態遷移確率の設定は、式（２７）で表される。

・・・（２７）

ここで、式（２７）において、A(,,)は、３次元の配列であり、配列の要素A（S,S',U)は、アクションUが行われた場合に、状態Sを遷移元として、状態S'に状態遷移する状態遷移確率を表す。

また、サフィックスがコロン(:)になっている配列は、式（２６）の場合と同様に、そのコロンになっている次元の要素のすべてを表す。

したがって、式（２７）において、例えば、A(S₁,:,:)は、各アクションが行われた場合の、状態S₁を遷移元とする各状態への状態遷移の状態遷移確率すべてを表す。また、式（２７）において、例えば、A(:,S₁,:)は、各アクションが行われた場合の、状態S₁を遷移先とする、各状態から状態S₁への状態遷移の状態遷移確率すべてを表す。

式（２７）によれば、すべてのアクションについて、代表状態S₁を遷移元とする状態遷移の状態遷移確率が、マージ対象状態S₁及びS₄を遷移元とする状態遷移の状態遷移確率a_1,j(U_m)及びa_4,j(U_m)の平均値に設定される（A(S₁,:,:)=(A(S₁,:,:)+A(S₄,:,:))/2）。

また、すべてのアクションについて、代表状態S₁を遷移先とする状態遷移の状態遷移確率が、マージ対象状態S₁及びS₄を遷移先とする状態遷移の状態遷移確率a_i,1(U_m)及びa_i,4(U_m)の和に設定される（A(:,S₁,:)=A(:,S₁,:)+A(:,S₄,:)）

さらに、式（２７）によれば、すべてのアクションについて、マージ対象状態S₁及びS₄を、代表状態S₁にマージすることによって、アクション環境の構造の表現に不要となるマージ対象状態S₄を遷移元とする状態遷移確率と、遷移先とする状態遷移確率とが、0に設定される(A(S₄,:,:)=0.0，A(:,S₄,:)=0.0)。

以上のように、マージ対象状態S₁及びS₄を、代表状態S₁にマージすることによって、アクション環境の構造の表現に不要となるマージ対象状態S₄を遷移元とする状態遷移確率と、遷移先とする状態遷移確率とを、0.0に設定するとともに、その不要となるマージ対象状態S₄において、各観測値が観測される観測確率を0.0に設定することにより、不要となるマージ対象状態S₄は、有効でない状態となる。

［１状態１観測値制約の下での拡張HMMの学習］

図３７は、図４の学習部２１が、１状態１観測値制約の下で行う、拡張HMMの学習の処理を説明するフローチャートである。

ステップＳ９１において、学習部２１は、履歴記憶部１４に記憶された学習データとしての観測値系列及びアクション系列を用いて、Baum-Welchの再推定法に従い、拡張HMMの初期学習、すなわち、図７のステップＳ２１ないしＳ２４と同様の処理を行う。

ステップＳ９１の初期学習において、拡張HMMのモデルパラメータが収束すると、学習部２１は、その拡張HMMのモデルパラメータを、モデル記憶部２２（図４）に記憶させて、処理は、ステップＳ９２に進む。

ステップＳ９２では、学習部２１は、モデル記憶部２２に記憶された拡張HMMから、分割対象状態を検出し、処理は、ステップＳ９３に進む。

ここで、ステップＳ９２において、学習部２１が分割対象状態を検出することができなかった場合、すなわち、モデル記憶部２２に記憶された拡張HMMに、分割対象状態が存在しない場合、処理は、ステップＳ９３及びＳ９４をスキップして、ステップＳ９５に進む。

ステップＳ９３では、学習部２１は、ステップＳ９２で検出された分割対象状態を、複数の分割後状態に分割する状態の分割を行い、処理は、ステップＳ９４に進む。

ステップＳ９４では、学習部２１は、履歴記憶部１４に記憶された学習データとしての観測値系列及びアクション系列を用いて、Baum-Welchの再推定法に従い、モデル記憶部２２に記憶された、直前のステップＳ９３で状態の分割が行われた拡張HMMの学習、すなわち、図７のステップＳ２２ないしＳ２４と同様の処理を行う。

なお、ステップＳ９４の学習では（後述するステップＳ９７でも同様）、モデル記憶部２２に記憶されている拡張HMMのモデルパラメータが、そのままモデルパラメータの初期値として用いられる。

ステップＳ９４の学習において、拡張HMMのモデルパラメータが収束すると、学習部２１は、その拡張HMMのモデルパラメータを、モデル記憶部２２（図４）に記憶させて（上書きして）、処理は、ステップＳ９５に進む。

ステップＳ９５では、学習部２１は、モデル記憶部２２に記憶された拡張HMMから、マージ対象状態を検出し、処理は、ステップＳ９６に進む。

ここで、ステップＳ９５において、学習部２１がマージ対象状態を検出することができなかった場合、すなわち、モデル記憶部２２に記憶された拡張HMMに、マージ対象状態が存在しない場合、処理は、ステップＳ９６及びＳ９７をスキップして、ステップＳ９８に進む。

ステップＳ９６では、学習部２１は、ステップＳ９５で検出されたマージ対象状態を、代表状態にマージする状態のマージを行い、処理は、ステップＳ９７に進む。

ステップＳ９７では、学習部２１は、履歴記憶部１４に記憶された学習データとしての観測値系列及びアクション系列を用いて、Baum-Welchの再推定法に従い、モデル記憶部２２に記憶された、直前のステップＳ９６で状態のマージが行われた拡張HMMの学習、すなわち、図７のステップＳ２２ないしＳ２４と同様の処理を行う。

ステップＳ９７の学習において、拡張HMMのモデルパラメータが収束すると、学習部２１は、その拡張HMMのモデルパラメータを、モデル記憶部２２（図４）に記憶させて（上書きして）、処理は、ステップＳ９８に進む。

ステップＳ９８では、学習部２１は、直前のステップＳ９２での分割対象状態の検出の処理で、分割対象状態が検出されず、かつ、直前のステップＳ９５でのマージ対象状態の検出の処理で、マージ対象状態が検出されなかったかどうかを判定する。

ステップＳ９８において、分割対象状態、及び、マージ対象状態のうちの、少なくとも一方が検出されたと判定された場合、処理は、ステップＳ９２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ９８において、分割対象状態、及び、マージ対象状態の両方が検出されなかったと判定された場合、拡張HMMの学習の処理は終了する。

以上のように、状態の分割、状態の分割後の拡張HMMの学習、状態のマージ、及び、状態のマージ後の拡張HMMの学習を、分割対象状態、及び、マージ対象状態の両方が検出されなくなるまで繰り返すことで、１状態１観測値制約を充足する学習が行われ、１つの状態において、１つの観測値（だけ）が観測される拡張HMMを得ることができる。

図３８は、図４の学習部２１が、図３７のステップＳ９２で行う、分割対象状態の検出の処理を説明するフローチャートである。

ステップＳ１１１において、学習部２１は、状態S_iのサフィックスを表す変数iを、例えば、1に初期化して、処理は、ステップＳ１１２に進む。

ステップＳ１１２では、学習部２１は、観測値O_kのサフィックスを表す変数kを、例えば、1に初期化して、処理は、ステップＳ１１３に進む。
４
ステップＳ１１３では、学習部２１は、状態S_iにおいて、観測値O_kが観測される観測確率B_ik＝b_i(O_k)が、式（２０）のかっこ内の条件式1/K＜B_ik＜b_{max_th}を満たすかどうかを判定する。

ステップＳ１１３において、観測確率B_ik＝b_i(O_k)が、条件式1/K＜B_ik＜b_{max_th}を満たさないと判定された場合、処理は、ステップＳ１１４をスキップして、ステップＳ１１５に進む。

また、ステップＳ１１３において、観測確率B_ik＝b_i(O_k)が、条件式1/K＜B_ik＜b_{max_th}を満たすと判定された場合、処理は、ステップＳ１１４に進み、学習部２１は、観測値O_kを、分割対象の観測値（分割後状態に１つずつ割り当てる観測値）として、状態S_iに対応付けて、図示せぬメモリに、一時記憶する。

その後、処理は、ステップＳ１１４からステップＳ１１５に進み、サフィックスkが、観測値の数（以下、シンボル数ともいう）Kに等しいかどうかを判定する。

ステップＳ１１５において、サフィックスkがシンボル数Kに等しくないと判定された場合、処理は、ステップＳ１１６に進み、学習部２１は、サフィックスkを1だけインクリメントする。そして、処理は、ステップＳ１１６からステップＳ１１３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１１５において、サフィックスkがシンボル数Kに等しいと判定された場合、処理は、ステップＳ１１７に進み、学習部２１は、サフィックスiが状態数（拡張HMMの状態の数）Nに等しいかどうかを判定する。

ステップＳ１１７において、サフィックスiが状態数Nに等しくないと判定された場合、処理は、ステップＳ１１８に進み、学習部２１は、サフィックスiを1だけインクリメントする。そして、処理は、ステップＳ１１８からステップＳ１１２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１１７において、サフィックスiが状態数Nに等しいと判定された場合、処理は、ステップＳ１１９に進み、学習部２１は、ステップＳ１１４で分割対象の観測値と対応付けて記憶されている状態S_iのそれぞれを、分割対象状態として検出し、処理はリターンする。

図３９は、図４の学習部２１が、図３７のステップＳ９３で行う、状態の分割（分割対象状態の分割）の処理を説明するフローチャートである。

ステップＳ１３１において、学習部２１は、分割対象状態の中で、まだ、注目する注目状態としていない状態の１つを、注目状態に選択して、処理は、ステップＳ１３２に進む。

ステップＳ１３２では、学習部２１は、注目状態に対応付けられている分割対象の観測値の数を、注目状態を分割した分割後状態の数（以下、分割数ともいう）C_Sとして、拡張HMMの状態のうちの、注目状態と、有効でない状態のうちのC_S-1個の状態との、合計で、C_s個の状態を、分割後状態に選択する。

その後、処理は、ステップＳ１３２からステップＳ１３３に進み、学習部２１は、C_s個の分割後状態のそれぞれに、注目状態に対応付けられているC_S個の分割対象の観測値の1個ずつを割り当て、処理は、ステップＳ１３４に進む。

ステップＳ１３４では、学習部２１は、C_s個の分割後状態をカウントする変数cを、例えば1に初期化して、処理は、ステップＳ１３５に進む。

ステップＳ１３５では、学習部２１は、C_s個の分割後状態のうちの、c番目の分割後状態を、注目する注目分割後状態に選択し、処理は、ステップＳ１３６に進む。

ステップＳ１３６では、学習部２１は、注目分割後状態において、その注目分割後状態に割り当てられた分割対象の観測値が観測される観測確率を、1.0に設定するとともに、他の観測値が観測される観測確率を、0.0に設定して、処理は、ステップＳ１３７に進む。

ステップＳ１３７では、学習部２１は、注目分割後状態を遷移元とする状態遷移の状態遷移確率を、注目状態を遷移元とする状態遷移の状態遷移確率に設定して、処理は、ステップＳ１３８に進む。

ステップＳ１３８では、学習部２１は、図３３で説明したように、注目分割後状態に割り当てられた分割対象状態の観測値が、注目状態において観測される観測確率によって、注目状態を遷移先とする状態遷移の状態遷移確率を補正し、状態遷移確率の補正値を求めて、処理は、ステップＳ１３９に進む。

ステップＳ１３９では、学習部２１は、注目分割後状態を遷移先とする状態遷移の状態遷移確率を、直前のステップＳ１３８で求めた補正値に設定し、処理は、ステップＳ１４０に進む。

ステップＳ１４０では、学習部２１は、変数cが分割数C_Sに等しいかどうかを判定する。

ステップＳ１４０において、変数cが分割数C_Sに等しくないと判定された場合、処理は、ステップＳ１４１に進み、学習部２１は、変数cを1だけインクリメントして、処理は、ステップＳ１３５に戻る。

また、ステップＳ１４０において、変数cが分割数C_Sに等しいと判定された場合、処理は、ステップＳ１４２に進み、学習部２１は、分割対象状態のすべてを、注目状態に選択したかどうかを判定する。

ステップＳ１４２において、分割対象状態のすべてを、まだ、注目状態に選択していないと判定された場合、処理は、ステップＳ１３１に戻り、以下、同様の処理が繰り返される。
４
また、ステップＳ１４２において、分割対象状態のすべてを、注目状態に選択したと判定された場合、すなわち、分割対象状態すべての分割が完了した場合、処理はリターンする。

図４０は、図４の学習部２１が、図３７のステップＳ９５で行う、マージ対象状態の検出の処理を説明するフローチャートである。

ステップＳ１６１において、学習部２１は、アクションU_mのサフィックスを表す変数mを、例えば、1に初期化して、処理は、ステップＳ１６２に進む。

ステップＳ１６２では、学習部２１は、状態S_iのサフィックスを表す変数iを、例えば、1に初期化して、処理は、ステップＳ１６３に進む。
４
ステップＳ１６３では、学習部２１は、モデル記憶部２２に記憶された拡張HMMにおいて、アクションU_mについての、状態S_iを遷移元とする各状態S_jへの状態遷移の状態遷移確率A_ijm=a_ij(U_m)の中の最大値max(A_ijm)を検出して、処理は、ステップＳ１６４に進む。

ステップＳ１６４では、学習部２１は、最大値max(A_ijm)が、式（１９）、すなわち、式1/N＜max(A_ijm)＜a_{max_th}を満たすかどうかを判定する。

ステップＳ１６４において、最大値max(A_ijm)が、式（１９）を満たさないと判定された場合、処理は、ステップＳ１６５をスキップして、ステップＳ１６６に進む。

また、ステップＳ１６４において、最大値max(A_ijm)が、式（１９）を満たすと判定された場合、処理は、ステップＳ１６５に進み、学習部２１は、状態S_iを、フォワード方向の分岐の分岐元状態として検出する。

さらに、学習部２１は、アクションU_mについての、フォワード方向の分岐の分岐元状態S_iを遷移元とする状態遷移の中で、状態遷移確率A_ijm=a_ij(U_m)が、式（２３）のかっこ内の条件式a_{min_th1}＜A_ijmを満たす状態遷移の遷移先の状態S_jを、フォワード方向の分岐の分岐先状態として検出し、処理は、ステップＳ１６５からステップＳ１６６に進む。

ステップＳ１６６では、学習部２１は、サフィックスiが状態数Nに等しいかどうかを判定する。

ステップＳ１６６において、サフィックスiが状態数Nに等しくないと判定された場合、処理は、ステップＳ１６７に進み、学習部２１は、サフィックスiを1だけインクリメントして、処理は、ステップＳ１６３に戻る。

また、ステップＳ１６６において、サフィックスiが状態数Nに等しいと判定された場合、処理は、ステップＳ１６８に進み、学習部２１は、状態S_jのサフィックスを表す変数jを、例えば、1に初期化して、処理は、ステップＳ１６９に進む。

ステップＳ１６９では、学習部２１は、アクションU_mについての、状態S_jを遷移先とする各状態S_i'からの状態遷移の中で、状態遷移確率A_i'jm=a_i'j(U_m)が、式（２５）のかっこ内の条件式a_{min_th2}＜A_i'jmを満たす状態遷移の遷移元の状態S_i'が複数存在するかどうかを判定する。

ステップＳ１６９において、式（２５）のかっこ内の条件式a_{min_th2}＜A_i'jmを満たす状態遷移の遷移元の状態S_i'が複数存在しないと判定された場合、処理は、ステップＳ１７０をスキップして、ステップＳ１７１に進む。

また、ステップＳ１６９において、式（２５）のかっこ内の条件式a_{min_th2}＜A_i'jmを満たす状態遷移の遷移元の状態S_i'が複数存在すると判定された場合、処理は、ステップＳ１７０に進み、学習部２１は、状態S_jをバックワード方向の分岐の分岐元状態として検出する。
４
さらに、学習部２１は、アクションU_mについての、バックワード方向の分岐の分岐元状態S_jを遷移先とする各状態S_i'からの状態遷移の中で、状態遷移確率A_i'jm=a_i'j(U_m)が、式（２５）のかっこ内の条件式a_{min_th2}＜A_i'jmを満たす状態遷移の、複数の遷移元の状態S_i'を、バックワード方向の分岐の分岐先状態として検出し、処理は、ステップＳ１７０からステップＳ１７１に進む。

ステップＳ１７１では、学習部２１は、サフィックスjが状態数Nに等しいかどうかを判定する。

ステップＳ１７１において、サフィックスjが状態数Nに等しくないと判定された場合、処理は、ステップＳ１７２に進み、学習部２１は、サフィックスjを1だけインクリメントして、処理は、ステップＳ１６９に戻る。

また、ステップＳ１７１において、サフィックスjが状態数Nに等しいと判定された場合、処理は、ステップＳ１７３に進み、学習部２１は、サフィックスmがアクションU_mの数（以下、アクション数ともいう）Mに等しいかどうかを判定する。

ステップＳ１７３において、サフィックスmがアクション数Mに等しくないと判定された場合、処理は、ステップＳ１７４に進み、学習部２１は、サフィックスmを1だけインクリメントして、処理は、ステップＳ１６２に戻る。

また、ステップＳ１７３において、サフィックスmがアクション数Mに等しいと判定された場合、処理は、図４１のステップＳ１９１に進む。

すなわち、図４１は、図４０に続くフローチャートである。

図４１のステップＳ１９１では、学習部２１は、図４０のステップＳ１６１ないしＳ１７４の処理によって検出された分岐元状態の中で、まだ、注目状態としていない分岐元状態の１つを、注目状態に選択して、処理は、ステップＳ１９２に進む。

ステップＳ１９２では、学習部２１は、注目状態に対して検出された複数の分岐先状態（の候補）、つまり、注目状態を分岐元として分岐する複数の分岐先状態（の候補）それぞれについて、分岐先状態において観測される、観測確率が最大の観測値（以下、最大確率観測値ともいう）O_maxを、式（２４）に従って検出し、処理は、ステップＳ１９３に進む。

ステップＳ１９３では、学習部２１は、注目状態に対して検出された複数の分岐先状態の中で、最大確率観測値O_maxが一致する分岐先状態があるかどうかを判定する。

ステップＳ１９３において、注目状態に対して検出された複数の分岐先状態の中で、最大確率観測値O_maxが一致する分岐先状態がないと判定された場合、処理は、ステップＳ１９４をスキップして、ステップＳ１９５に進む。

また、ステップＳ１９３において、注目状態に対して検出された複数の分岐先状態の中で、最大確率観測値O_maxが一致する分岐先状態があると判定された場合、処理は、ステップＳ１９４に進み、学習部２１は、注目状態に対して検出された複数の分岐先状態の中で、最大確率観測値O_maxが一致する複数の分岐先状態を、１グループのマージ対象状態として検出し、処理は、ステップＳ１９５に進む。

ステップＳ１９５では、学習部２１は、分割元状態のすべてを、注目状態に選択したかどうかを判定する。

ステップＳ１９５において、分割元状態のすべてを、まだ、注目状態に選択していないと判定された場合、処理は、ステップＳ１９１に戻る。

また、ステップＳ１９５において、分割元状態のすべてを、注目状態に選択したと判定された場合、処理はリターンする。

図４２は、図４の学習部２１が、図３７のステップＳ９６で行う、状態のマージ（マージ対象状態のマージ）の処理を説明するフローチャートである。

ステップＳ２１１において、学習部２１は、マージ対象状態のグループの中で、まだ、注目グループとしていないグループの１つを、注目グループに選択して、処理は、ステップＳ２１２に進む。

ステップＳ２１２では、学習部２１は、注目グループの複数のマージ対象状態のうちの、例えば、サフィックスが最小のマージ対象状態を、注目グループの代表状態に選択して、処理は、ステップＳ２１３に進む。

ステップＳ２１３では、学習部２１は、代表状態において、各観測値が観測される観測確率を、注目グループの複数のマージ対象状態それぞれにおいて、各観測値が観測される観測確率の平均値に設定する。

さらに、ステップＳ２１３では、学習部２１は、注目グループの代表状態以外のマージ対象状態において、各観測値が観測される観測確率を、0.0に設定して、処理は、ステップＳ２１４に進む。

ステップＳ２１４では、学習部２１は、代表状態を遷移元とする状態遷移の状態遷移確率を、注目グループのマージ対象状態それぞれを遷移元とする状態遷移の状態遷移確率の平均値に設定して、処理は、ステップＳ２１５に進む。

ステップＳ２１５では、学習部２１は、代表状態を遷移先とする状態遷移の状態遷移確率を、注目グループのマージ対象状態それぞれを遷移先とする状態遷移の状態遷移確率の和に設定して、処理は、ステップＳ２１６に進む。

ステップＳ２１６では、学習部２１は、注目グループの代表状態以外のマージ対象状態を遷移元とする状態遷移、及び、注目グループの代表状態以外のマージ対象状態を遷移先とする状態遷移の状態遷移確率を、0.0に設定して、処理は、ステップＳ２１７に進む。

ステップＳ２１７では、学習部２１は、マージ対象状態のグループのすべてを、注目グループに選択したかどうかを判定する。

ステップＳ２１７において、マージ対象状態のグループのすべてを、まだ、注目グループに選択していないと判定された場合、処理は、ステップＳ２１１に戻る。

また、ステップＳ２１７において、マージ対象状態のグループのすべてを、注目グループに選択したと判定された場合、処理はリターンする。

図４３は、本件発明者が行った、１状態１観測値制約の下での拡張HMMの学習のシミュレーションを説明する図である。

図４３Ａは、シミュレーションで採用したアクション環境を示す図である。

シミュレーションでは、アクション環境として、構造が、第１の構造と第２の構造とに変換する環境を採用した。

第１の構造のアクション環境では、位置posが、壁になって、通ることができないようになっているのに対して、第２の構造のアクション環境では、位置posが、通路になっており、通ることができるようになっている。

シミュレーションでは、第１及び第２の構造のアクション環境それぞれにおいて、学習データとなる観測系列、及び、アクション系列を得て、拡張HMMの学習を行った。

図４３Ｂは、１状態１観測値制約なしで行った学習の結果得られた拡張HMMを示しており、図４３Ｃは、１状態１観測値制約ありで行った学習の結果得られた拡張HMMを示している。

図４３Ｂ及び図４３Ｃにおいて、丸（○）印は、拡張HMMの状態を表し、丸印の中に記載されている数字は、その丸印が表す状態のサフィックスである。また、丸印で表される状態どうしを表す矢印は、可能な状態遷移（状態遷移確率が0.0（とみなせる値）以外の状態遷移）を表す。

また、図４３Ｂ及び図４３Ｃにおいて、左側の位置に、垂直方向に並べてある状態（を表す丸印）は、拡張HMMにおいて、有効でない状態になっている。

図４３Ｂの拡張HMMによれば、１状態１観測値制約なしの学習では、モデルパラメータがローカルミニマムに陥り、学習後の拡張HMMにおいて、構造が変化するアクション環境の第１及び第２の構造が、観測確率に分布を持つことによって表現される場合と、状態遷移の分岐構造を持つことによって表現される場合とが混在してしまい、その結果、構造が変化するアクション環境の構造を、拡張HMMの状態遷移によって適切に表現することができていないことを確認することができる。

一方、図４３Ｃの拡張HMMによれば、１状態１観測値制約ありの学習では、学習後の拡張HMMにおいて、構造が変化するアクション環境の第１及び第２の構造が、状態遷移の分岐構造を持つことのみによって表現され、構造が変化するアクション環境の構造を、拡張HMMの状態遷移によって適切に表現することができていることを確認することができる。

１状態１観測値制約ありの学習によれば、アクション環境の構造が変化する場合に、構造が変化しない部分は、拡張HMMにおいて共通に記憶され、構造が変化する部分は、拡張HMMにおいて、状態遷移の分岐構造（あるアクションが行われた場合に生じる状態遷移として、異なる状態への（複数の）状態遷移があること）によって表現される。

したがって、構造が変化するアクション環境を、構造ごとにモデルを用意せずに、１つの拡張HMMだけで、適切に表現することができるので、環境が変化するアクション環境のモデル化を、少ない記憶リソースで行うことができる。

［所定のストラテジに従ってアクションを決定する認識アクションモードの処理］

ところで、図８の認識アクションモードの処理では、図４のエージェントが、アクション環境の既知の領域（その領域で観測される観測値系列及びアクション系列を用いて、拡張HMMの学習が行われている場合の、その領域（学習済みの領域））に位置することを前提として、エージェントの現在の状況を認識し、その現在の状況に対応する拡張HMMの状態である現在状態を求めて、現在状態から、目標状態に到達するためのアクションを決定するが、エージェントは、必ずしも、既知の領域に位置するとは限らず、未知の領域（未学習の領域）に位置することがある。

エージェントが、未知の領域に位置する場合に、図８で説明したようにして、アクションを決定しても、そのアクションが、目標状態に到達するための適切なアクションになるとは限らず、逆に、未知の領域をさまようような、いわば、無駄な、又は、冗長なアクションになることがある。

そこで、エージェントでは、認識アクションモードにおいて、エージェントの現在の状況が、未知の状況（いままでに観測したことがない観測値系列及びアクション系列が観測される状況）（拡張HMMで獲得されていない状況）であるか、又は、未知の状況（いままでに観測したことがある観測値系列及びアクション系列が観測される状況）（拡張HMMで獲得されている状況）であるかを判定し、その判定結果に基づいて、適切なアクションを決定することができる。

すなわち、図４４は、そのような認識アクションモードの処理を説明するフローチャートである。

図４４の認識アクションモードでは、エージェントは、図８のステップＳ３１ないしＳ３３と同様の処理を行う。

その後、処理は、ステップＳ３０１に進み、エージェントの状態認識部２３（図４）は、履歴記憶部１４から、系列長(系列を構成する値の数)qが所定の長さQの最新の観測値系列と、その観測値系列の各観測値が観測されるときに行われたアクションのアクション系列とを、エージェントの現在の状況を認識するのに用いる認識用の観測値系列、及び、アクション系列として読み出すことにより取得する。

そして、処理は、ステップＳ３０１からステップＳ３０２に進み、状態認識部２３は、モデル記憶部２２に記憶された学習済みの拡張HMMにおいて、認識用の観測値系列、及び、アクション系列を観測して、時刻tに、状態S_jにいる状態確率の最大値である最適状態確率δ_t(j)、及び、その最適状態確率δ_t(j)が得られる状態系列である最適経路（パス）ψ_t(j)とを、Viterbiアルゴリズムに基づく、上述の式（１０）及び式（１１）に従って求める。

さらに、状態認識部２３は、認識用の観測値系列、及び、アクション系列を観測して、時刻tに、式（１０）の最適状態確率δ_t(j)を最大にする状態S_jに辿り着く状態系列である最尤状態系列を、式（１１）の最適経路ψ_t(j)から求める。

その後、処理は、ステップＳ３０２からステップＳ３０３に進み、状態認識部２３は、最尤状態系列に基づき、エージェントの現在の状況が、既知の状況（既知状況）、又は、未知の状況（未知状況）のいずれであるかを判定する。

ここで、認識用の観測値系列（、又は、認識用の観測値系列、及び、アクション系列）を、Oと表すとともに、認識用の観測値系列O、及び、アクション系列が観測される最尤状態系列を、Xと表す。なお、最尤状態系列Xを構成する状態の数は、認識用の観測値系列Oの系列長qに等しい。

また、認識用の観測値系列Oの最初の観測値が観測される時刻tを、例えば、1として、最尤状態系列Xの、時刻tの状態（先頭からt番目の状態）を、X_tと表すとともに、時刻tの状態X_tから、時刻t+1の状態X_t+1への状態遷移の状態遷移確率を、A(X_t,X_t+1)と表すこととする。

さらに、最尤状態系列Xにおいて、認識用の観測値系列Oが観測される尤度を、P(O|X)と表すこととする。

ステップＳ３０３では、状態認識部２３は、式（２８）、及び、式（２９）が満たされるかどうかを判定する。

・・・（２８）

・・・（２９）

ここで、式（２８）のThres_transは、状態X_tから状態X_t+1への状態遷移があり得るのかどうかを切り分けるための閾値である。また、式（２９）のThres_obsは、最尤状態系列Xにおいて、認識用の観測値系列Oが観測されることがあり得るのかどうかを切り分けるための閾値である。閾値Thres_trans及びThres_obsとしては、例えば、シミュレーション等によって、上述の切り分けを適切に行うことができる値が設定される。

式（２８）及び式（２９）のうちの少なくとも一方が満たされない場合、状態認識部２３は、ステップＳ３０３において、エージェントの現在の状況が、未知状況であると判定する。

また、式（２８）及び式（２９）の両方が満たされる場合、状態認識部２３は、ステップＳ３０３において、エージェントの現在の状況が、既知状況であると判定する。

ステップＳ３０３において、現在の状況が、既知状況であると判定された場合、状態認識部２３は、最尤状態系列Xの最後の状態を、現在状態s_tとして求め（推定し）、処理は、ステップＳ３０４に進む。

ステップＳ３０４では、状態認識部２３は、現在状態にs_tに基づき、経過時間管理テーブル記憶部３２（図４）に記憶された経過時間管理テーブルを、図８のステップＳ３４の場合と同様に更新する。

その後、エージェントでは、図８のステップＳ３５以降と同様の処理が行われる。

一方、ステップＳ３０３において、現在の状況が、未知状況であると判定された場合、処理は、ステップＳ３０５に進み、状態認識部２３は、モデル記憶部２２に記憶された拡張HMMに基づき、エージェントが現在の状況に至るための状態系列である現況状態系列の候補の１以上を算出する。

さらに、状態認識部２３は、１以上の現況状態系列の候補を、アクション決定部２４（図４）に供給して、処理は、ステップＳ３０５からステップＳ３０６に進む。

ステップＳ３０６では、アクション決定部２４が、状態認識部２３からの１以上の現状状態系列の候補を用い、所定のストラテジ(strategy)に従って、エージェントが次に行うべきアクションを決定する。

その後、エージェントでは、図８のステップＳ４０以降と同様の処理が行われる。

以上のように、現在の状況が、未知状況である場合には、エージェントは、１以上の現況状態系列の候補を算出し、その１以上の現況状態系列の候補を用い、所定のストラテジに従って、エージェントのアクションを決定する。

すなわち、現在の状況が、未知状況である場合には、エージェントは、過去の経験から獲得することができる状態系列、つまり、学習済みの拡張HMMで生じる状態遷移の状態系列（以下、経験済みの状態系列ともいう）の中から、現在の状況に至る、ある系列長qの、最新の観測値系列、及び、アクション系列が観測される状態系列を、現況状態系列の候補として取得する。

そして、エージェントは、経験済みの状態系列である現況状態系列を（再）利用し、所定のストラテジに従って、エージェントのアクションを決定する。

［現況状態系列の候補の算出］

図４５は、図４の状態認識部２３が、図４４のステップＳ３０５で行う、現況状態系列の候補の算出の処理を説明するフローチャートである。

ステップＳ３１１において、状態認識部２３は、履歴記憶部１４（図４）から、系列長qが所定の長さQ'の最新の観測値系列、及び、その観測値系列の各観測値が観測されるときに行われたアクションのアクション系列（エージェントが行ったアクションの、系列長qが所定の長さQ'の最新のアクション系列、及び、そのアクション系列のアクションが行われたときにエージェントにおいて観測された観測値の観測値系列）を、認識用の観測値系列、及び、アクション系列として読み出すことにより取得する。

ここで、状態認識部２３がステップＳ３１１で取得する認識用の観測値系列の系列長qである長さQ'としては、図４４のステップＳ３０１で取得される観測値系列の系列長qである長さQよりも短い、例えば、1などが採用される。

すなわち、エージェントは、上述したように、経験済みの状態系列の中から、最新の観測値系列、及び、アクション系列である認識用の観測値系列、及び、アクション系列が観測される状態系列を、現況状態系列の候補として取得するが、認識用の観測値系列、及び、アクション系列の系列長qが長すぎると、そのような長い系列長qの認識用の観測値系列、及び、アクション系列が観測される状態系列が、経験済みの状態系列の中にない（、又は、あっても、ないに等しい程度の尤度しかない）ことがある。

そこで、状態認識部２３は、経験済みの状態系列の中から、認識用の観測値系列、及び、アクション系列が観測される状態系列を取得することができるように、ステップＳ３１１では、短い系列長qの認識用の観測値系列、及び、アクション系列を取得する。

ステップＳ３１１の後、処理は、ステップＳ３１２に進み、状態認識部２３は、モデル記憶部２２に記憶された学習済みの拡張HMMにおいて、ステップＳ３１１で取得した認識用の観測値系列、及び、アクション系列を観測して、時刻tに、状態S_jにいる状態確率の最大値である最適状態確率δ_t(j)、及び、その最適状態確率δ_t(j)が得られる状態系列である最適経路ψ_t(j)とを、Viterbiアルゴリズムに基づく、上述の式（１０）及び式（１１）に従って求める。

すなわち、状態認識部２３は、経験済みの状態系列の中から、認識用の観測値系列、及び、アクション系列が観測される、系列長qがQ'の状態系列である最適経路ψ_t(j)を取得する。

ここで、Viterbiアルゴリズムに基づいて求められる（推定される）最適経路ψ_t(j)である状態系列を、認識用状態系列ともいう。

ステップＳ３１２では、拡張HMMのＮ個の状態S_jそれぞれについて、最適状態確率δ_e(j)と、認識用状態系列（最適経路）ψ_t(j)）とが求められる。

ステップＳ３１２において、認識用状態系列が取得されると、処理は、ステップＳ３１３に進み、状態認識部２３は、ステップＳ３１２で取得された認識用状態系列の中から、１以上の認識用状態系列を、現況状態系列の候補として選択し、処理は、リターンする。

すなわち、ステップＳ３１３では、例えば、尤度、つまり、最適状態確率δ_t(j)が、閾値（例えば、最適状態確率δ_t(j)の最大値（最大尤度）の0.8倍の値等）以上の認識用状態系列が、現況状態系列の候補として選択される。

あるいは、例えば、最適状態確率δ_t(j)が、上位R（Rは１以上の整数）位以内のR個の認識用状態系列が、現況状態系列の候補として選択される。

図４６は、図４の状態認識部２３が、図４４のステップＳ３０５で行う、現況状態系列の候補の算出の処理の他の例を説明するフローチャートである。

図４５の現況状態系列の候補の算出の処理では、認識用の観測値系列、及び、アクション系列の系列長qを、短い長さQ'に固定して、その長さQ'の認識用状態系列、ひいては、現況状態系列の候補が求められる。

これに対して、図４６の現況状態系列の候補の算出の処理では、エージェントは、適応的（自律的）に、認識用の観測値系列、及び、アクション系列の系列長qを調整し、これにより、拡張HMMが獲得しているアクション環境の構造の中で、エージェントの現在の位置の構造により類似する構造、つまり、経験済みの状態系列の中で、認識用の観測値系列、及び、アクション系列（最新の観測値系列、及び、アクション系列）が観測される、系列長qが最長の状態系列を、現況状態系列の候補として取得する。

図４６の現況状態系列の候補の算出の処理では、ステップＳ３２１において、状態認識部２３（図４）は、系列長qを、例えば、最小の1に初期化して、処理は、ステップＳ３２２に進む。

ステップＳ３２２では、状態認識部２３は、履歴記憶部１４（図４）から、系列長が長さqの最新の観測値系列と、その観測値系列の各観測値が観測されるときに行われたアクションのアクション系列とを、認識用の観測値系列、及び、アクション系列として読み出すことにより取得して、処理は、ステップＳ３２３に進む。

ステップＳ３２３では、状態認識部２３は、モデル記憶部２２に記憶された学習済みの拡張HMMにおいて、系列長がqの認識用の観測値系列、及び、アクション系列を観測して、時刻tに、状態S_jにいる状態確率の最大値である最適状態確率δ_t(j)、及び、その最適状態確率δ_t(j)が得られる状態系列である最適経路ψ_t(j)とを、Viterbiアルゴリズムに基づく、上述の式（１０）及び式（１１）に従って求める。

その後、処理は、ステップＳ３２３からステップＳ３２４に進み、状態認識部２３は、最尤状態系列に基づき、エージェントの現在の状況が、既知状況、又は、未知状況のいずれであるかを、図４４のステップＳ３０３の場合と同様にして判定する。

ステップＳ３２４において、現在の状況が、既知状況であると判定された場合、すなわち、経験済みの状態系列の中から、系列長がqの認識用の観測値系列、及び、アクション系列（最新の観測値系列、及び、アクション系列）が観測される状態系列を取得することができる場合、処理は、ステップＳ３２５に進み、状態認識部２３は、系列長qを1だけインクリメントする。

そして、処理は、ステップＳ３２５からステップＳ３２２に戻り、以下、同様の処理が繰り返される。

一方、ステップＳ３２４において、現在の状況が、未知状況であると判定された場合、すなわち、経験済みの状態系列の中から、系列長がqの認識用の観測値系列、及び、アクション系列（最新の観測値系列、及び、アクション系列）が観測される状態系列を取得することができない場合、処理は、ステップＳ３２６に進み、状態認識部２３は、以下、ステップＳ３２６ないしＳ３２８において、経験済みの状態系列の中で、認識用の観測値系列、及び、アクション系列（最新の観測値系列、及び、アクション系列）が観測される、系列長が最長の状態系列を、現況状態系列の候補として取得する。

すなわち、ステップＳ３２２ないしＳ３２５では、認識用の観測値系列、及び、アクション系列の系列長qを1ずつインクリメントしながら、その認識用の観測値系列、及び、アクション系列が観測される最尤状態系列に基づき、エージェントの現在の状況が、既知状況、又は、未知状況のいずれであるかが判定される。

したがって、ステップＳ３２４において、現在の状況が、未知状況であると判定された直後の系列長qを1だけデクリメントした系列長q-1の認識用の観測値系列、及び、アクション系列が観測される最尤状態系列が、経験済みの状態系列の中で、認識用の観測値系列、及び、アクション系列が観測される、系列長が最長の状態系列（の１つ）として存在する。

そこで、ステップＳ３２６では、状態認識部２３は、履歴記憶部１４（図４）から、系列長が長さq-1の最新の観測値系列と、その観測値系列の各観測値が観測されるときに行われたアクションのアクション系列とを、認識用の観測値系列、及び、アクション系列として読み出すことにより取得して、処理は、ステップＳ３２７に進む。

ステップＳ３２７では、状態認識部２３は、モデル記憶部２２に記憶された学習済みの拡張HMMにおいて、ステップＳ３２６で取得した、系列長がq-1の認識用の観測値系列、及び、アクション系列を観測して、時刻tに、状態S_jにいる状態確率の最大値である最適状態確率δ_t(j)、及び、その最適状態確率δ_t(j)が得られる状態系列である最適経路ψ_t(j)とを、Viterbiアルゴリズムに基づく、上述の式（１０）及び式（１１）に従って求める。

すなわち、状態認識部２３は、学習済みの拡張HMMで生じる状態遷移の状態系列の中から、認識用の観測値系列、及び、アクション系列が観測される、系列長がq-1の状態系列である最適経路ψ_t(j)（認識用状態系列）を取得する。

ステップＳ３２７において、認識用状態系列が取得されると、処理は、ステップＳ３２８に進み、状態認識部２３は、図４５のステップＳ３１３の場合と同様にして、ステップＳ３２７で取得された認識用状態系列の中から、１以上の認識用状態系列を、現況状態系列の候補として選択し、処理は、リターンする。

以上のように、系列長qをインクリメントしていき、現在の状況が、未知状況であると判定された直後の系列長qを1だけデクリメントした系列長q-1の認識用の観測値系列、及び、アクション系列を取得することにより、経験済みの状態系列の中から、適切な現況状態系列の候補（拡張HMMが獲得しているアクション環境の構造の中で、エージェントの現在の位置の構造により類似する構造に対応する状態系列）を取得することができる。

すなわち、現況状態系列の候補を取得するのに用いる認識用の観測値系列、及び、アクション系列の系列長を固定にした場合、その固定の系列長が短すぎても、また、長すぎても、適切な現況状態系列の候補を取得することができないことがある。

すなわち、認識用の観測値系列、及び、アクション系列の系列長が短すぎる場合には、経験済みの状態系列の中で、そのような系列長の認識用の観測値系列、及び、アクション系列が観測される尤度が高くなる状態系列が多くなり、多数の、尤度が高い認識用状態系列が取得される。

その結果、そのような多数の、尤度が高い認識用状態系列から、現況状態系列の候補を選択すると、経験済みの状態系列の中で、現在の状況をより適切に表現する状態系列が、現況状態系列の候補として選択されない可能性が高くなることがある。

一方、認識用の観測値系列、及び、アクション系列の系列長が長すぎる場合には、経験済みの状態系列の中で、そのような長すぎる系列長の認識用の観測値系列、及び、アクション系列が観測される尤度が高くなる状態系列が存在せず、結果として、現況状態系列の候補を取得することができない可能性が高くなることがある。

これに対して、図４６で説明したように、認識用の観測値系列、及び、アクション系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、その最尤状態系列に基づいて、エージェントの現在の状況が、拡張HMMにおいて獲得している既知状況であるか、又は、獲得していない未知状況であるかを判定することを、認識用の観測値系列、及び、アクション系列の系列長をインクリメント（増加）しながら、エージェントの現在の状況が、未知状況であると判定されるまで繰り返し、エージェントの現在の状況が、未知状況であると判定されたときの系列長qよりも１サンプル分だけ短い系列長q-1の認識用の観測値系列、及び、アクション系列が観測される状態遷移が生じる状態系列である認識用状態系列の１以上を推定し、その１以上の認識用状態系列の中から、１以上の現況状態系列の候補を選択することにより、拡張HMMが獲得しているアクション環境の構造の中で、エージェントの現在の位置の構造により類似する構造を表現する状態系列を、現況状態系列の候補として取得することができる。

そして、その結果、経験済みの状態系列を、最大限に利用して、アクションを決定することが可能となる。

［ストラテジに従ったアクションの決定］

図４７は、図４のアクション決定部２４が、図４４のステップＳ３０６で行う、ストラテジに従ったアクションの決定の処理を説明するフローチャートである。

図４７では、アクション決定部２４は、拡張HMMにおいて獲得している既知状況のうちの、エージェントの現在の状況に類似する既知状況で、エージェントが行ったアクションを行う第１のストラテジに従って、アクションを決定する。

すなわち、ステップＳ３４１において、アクション決定部２４は、状態認識部２３（図４）からの１以上の現況状態系列の候補の中から、まだ、注目する注目状態系列としていない候補の１つを、注目状態系列に選択して、処理は、ステップＳ３４２に進む。

ステップＳ３４２では、アクション決定部２４は、モデル記憶部２２に記憶された拡張HMMに基づき、注目状態系列に対して、注目状態系列の最後の状態（以下、最後状態ともいう）を遷移元とする状態遷移の状態遷移確率の和を、アクションU_mごとに、（第１のストラテジに従った）アクションU_mを行う適正さを表すアクション適正度として求める。

すなわち、最後状態を、S_I（Iは、1ないしNのうちの、いずれかの整数）と表すこととすると、アクション決定部２４は、各アクションU_mについての状態遷移確率平面の、j軸方向（水平方向）に並ぶ状態遷移確率a_I,1(U_m)，a_I,2(U_m)，・・・，a_I,N(U_m)の和を、アクション適正度として求める。

その後、処理は、ステップＳ３４２からステップＳ３４３に進み、アクション決定部２４は、アクション適正度が求められたM個（種類）のアクションU₁ないしU_Mの中で、アクション適正度が閾値未満のアクションU_mについて求められたアクション適正度を、0.0とする。

すなわち、アクション決定部２４は、アクション適正度が閾値未満のアクションU_mについて求められたアクション適正度を、0.0とすることにより、注目状態系列に対し、アクション適正度が閾値未満のアクションU_mを、第１のストラテジに従って行うべき次のアクションの候補から除外し、結果として、アクション適正度が閾値以上のアクションU_mを、第１のストラテジに従って行うべき次のアクションの候補として選択する。

ステップＳ３４３の後、処理は、ステップＳ３４４に進み、アクション決定部２４は、現況状態系列の候補のすべてを、注目状態系列としたかどうかを判定する。

ステップＳ３４４において、現況状態系列の候補のすべてを、まだ、注目状態系列としていないと判定された場合、処理は、ステップＳ３４１に戻る。そして、ステップＳ３４１では、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補の中から、まだ、注目状態系列としていない候補の１つを、注目状態系列に新たに選択し、以下、同様の処理を繰り返す。

また、ステップＳ３４４において、現況状態系列の候補のすべてを、注目状態系列としたと判定された場合、処理は、ステップＳ３４５に進み、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補それぞれに対して求められた各アクションU_mについてのアクション適正度に基づき、次のアクションの候補の中から、次のアクションを決定して、処理はリターンする。

すなわち、アクション決定部２４は、例えば、アクション適正度が最大の候補を、次のアクションに決定する。

また、アクション決定部２４は、各アクションU_mについて、アクション適正度の期待値（平均値）を求め、その期待値に基づき、次のアクションを決定する。

具体的には、例えば、アクション決定部２４は、各アクションU_mについて、１以上の現況状態系列の候補それぞれに対して求められたアクションU_mについてのアクション適正度の期待値（平均値）を求める。

そして、アクション決定部２４は、各アクションU_mについての期待値に基づき、例えば、期待値が最大のアクションU_mを、次のアクションに決定する。

あるいは、アクション決定部２４は、各アクションU_mについての期待値に基づき、例えば、SoftMax法により、次のアクションを決定する。

すなわち、アクション決定部２４は、M個のアクションU₁ないしU_Mのサフィックス1ないしMの範囲の整数mを、整数mをサフィックスとするアクションU_mについての期待値に対応する確率でランダムに発生し、その発生した整数mをサフィックスとするアクションU_mを、次のアクションに決定する。

以上のように、第１のストラテジに従って、アクションを決定する場合には、エージェントは、エージェントの現在の状況に類似する既知状況で、エージェントが行ったアクションを行う。

したがって、第１のストラテジによれば、エージェントが未知状況にいる場合に、エージェントに、既知状況でとるアクションと同様のアクションを行わせたいときに、エージェントに適切なアクションを行わせることができる。

かかる第１のストラテジに従ったアクションの決定は、エージェントが未知状況にいる場合の他、例えば、エージェントが、上述したオープン端に到達した後に行うべきアクションを決定する場合に行うことができる。

ところで、エージェントが未知状況にいる場合に、エージェントに、既知状況でとるアクションと同様のアクションを行わせると、エージェントが、アクション環境をさまようおそれがある。

エージェントが、アクション環境をさまよう場合、エージェントは、既知の場所（領域）に戻る（現在の状況が、既知状況になる）可能性もあるし、未知の場所を開拓していく（現在の状況を、未知状況のままにし続ける）可能性もある。

したがって、エージェントを、既知の場所に戻らせたい場合、又は、エージェントに、未知の場所を開拓させたい場合に、エージェントが、アクション環境をさまようようなアクションは、エージェントが行うべきアクションとして、適切であるとは言い難い。

そこで、アクション決定部２４は、第１のストラテジの他、以下の第２のストラテジや、第３のストラテジに従って、次のアクションを決定することができるようになっている。

図４８は、第２のストラテジに従ったアクションの決定の概要を説明する図である。

第２のストラテジは、エージェントの（現在の）状況を認識可能にする情報を増加させるストラテジであり、この第２のストラテジに従って、アクションを決定することにより、エージェントが既知の場所に戻るアクションとして、適切なアクションを決定することができ、その結果、エージェントは、効率的に、既知の場所に戻ることができる。

すなわち、第２のストラテジに従ったアクションの決定では、アクション決定部２４は、例えば、図４８に示すように、状態認識部２３からの１以上の現況状態系列の候補の最後状態s_tから、その最後状態s_tの直前の状態である直前状態s_t-1への状態遷移が生じるアクションを、次のアクションに決定する。

図４９は、図４のアクション決定部２４が、図４４のステップＳ３０６で行う、第２のストラテジに従ったアクションの決定の処理を説明するフローチャートである。

ステップＳ３５１において、アクション決定部２４は、状態認識部２３（図４）からの１以上の現況状態系列の候補の中から、まだ、注目する注目状態系列としていない候補の１つを、注目状態系列に選択して、処理は、ステップＳ３５２に進む。

ここで、アクション決定部２４は、状態認識部２３からの現況状態系列の候補の系列長が1であり、最後状態の直前の直前状態が存在しない場合、ステップＳ３５１の処理を行う前に、モデル記憶部２２に記憶された拡張HMM（の状態遷移確率）を参照し、状態認識部２３からの１以上の現況状態系列の候補それぞれについて、最後状態を遷移先とする状態遷移が可能な状態を求める。

そして、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補それぞれについて、最後状態を遷移先とする状態遷移が可能な状態と、最後状態とを並べた状態系列を、現況状態系列の候補として扱う。後述する図５１でも同様である。

ステップＳ３５２では、アクション決定部２４は、モデル記憶部２２に記憶された拡張HMMに基づき、注目状態系列に対して、注目状態系列の最後状態から、その最後状態の直前の直前状態への状態遷移の状態遷移確率を、アクションU_mごとに、（第２のストラテジに従った）アクションU_mを行う適正さを表すアクション適正度として求める。

すなわち、アクション決定部２４は、アクションU_mが行われた場合に、最終状態S_iから直前状態S_jに状態遷移する状態遷移確率a_ij(U_m)を、アクションU_mについてのアクション適正度として求める。

その後、処理は、ステップＳ３５２からステップＳ３５３に進み、アクション決定部２４は、M個（種類）のアクションU₁ないしU_Mの中で、アクション適正度が最大のアクション以外のアクションについて求められたアクション適正度を、0.0とする。

すなわち、アクション決定部２４は、アクション適正度が最大のアクション以外のアクションについて求められたアクション適正度を、0.0とすることにより、結果として、注目状態系列に対して、アクション適正度が最大のアクションを、第２のストラテジに従って行うべき次のアクションの候補として選択する。

ステップＳ３５３の後、処理は、ステップＳ３５４に進み、アクション決定部２４は、現況状態系列の候補のすべてを、注目状態系列としたかどうかを判定する。

ステップＳ３５４において、現況状態系列の候補のすべてを、まだ、注目状態系列としていないと判定された場合、処理は、ステップＳ３５１に戻る。そして、ステップＳ３５１では、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補の中から、まだ、注目状態系列としていない候補の１つを、注目状態系列に新たに選択し、以下、同様の処理を繰り返す。

また、ステップＳ３５４において、現況状態系列の候補のすべてを、注目状態系列としたと判定された場合、処理は、ステップＳ３５５に進み、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補それぞれに対して求められた各アクションU_mについてのアクション適正度に基づき、次のアクションの候補の中から、次のアクションを、図４７のステップＳ３４５の場合と同様に決定して、処理はリターンする。

以上のように、第２のストラテジに従って、アクションを決定する場合には、エージェントは、来た道を戻るようなアクションを行い、その結果、エージェントの状況を認識可能にする情報（観測値）が増加していく。

したがって、第２のストラテジによれば、エージェントが未知状況にいる場合において、エージェントに、既知の場所に戻るアクションを行わせたいときに、エージェントに適切なアクションを行わせることができる。

図５０は、第３のストラテジに従ったアクションの決定の概要を説明する図である。

第３のストラテジは、拡張HMMにおいて獲得していない未知状況の情報（観測値）を増加させるストラテジであり、この第３のストラテジに従って、アクションを決定することにより、エージェントに、未知の場所を開拓させるアクションとして、適切なアクションを決定することができ、その結果、エージェントは、効率的に、未知の場所を開拓することができる。

すなわち、第３のストラテジに従ったアクションの決定では、アクション決定部２４は、例えば、図５０に示すように、状態認識部２３からの１以上の現況状態系列の候補の最後状態s_tから、その最後状態s_tの直前の状態である直前状態s_t-1への状態遷移以外の状態遷移が生じるアクションを、次のアクションに決定する。

図５１は、図４のアクション決定部２４が、図４４のステップＳ３０６で行う、第３のストラテジに従ったアクションの決定の処理を説明するフローチャートである。

ステップＳ３６１において、アクション決定部２４は、状態認識部２３（図４）からの１以上の現況状態系列の候補の中から、まだ、注目する注目状態系列としていない候補の１つを、注目状態系列に選択して、処理は、ステップＳ３６２に進む。

ステップＳ３６２では、アクション決定部２４は、モデル記憶部２２に記憶された拡張HMMに基づき、注目状態系列に対して、注目状態系列の最後状態から、その最後状態の直前の直前状態への状態遷移の状態遷移確率を、アクションU_mごとに、（第２のストラテジに従った）アクションU_mを行う適正さを表すアクション適正度として求める。

その後、処理は、ステップＳ３６２からステップＳ３６３に進み、アクション決定部２４は、注目状態系列に対して、M個（種類）のアクションU₁ないしU_Mの中で、アクション適正度が最大のアクションを、状態を直前状態に戻す状態遷移が生じるアクション（以下、戻りアクションともいう）として検出する。

ステップＳ３６３の後、処理は、ステップＳ３６４に進み、アクション決定部２４は、現況状態系列の候補のすべてを、注目状態系列としたかどうかを判定する。

ステップＳ３６４において、現況状態系列の候補のすべてを、まだ、注目状態系列としていないと判定された場合、処理は、ステップＳ３６１に戻る。そして、ステップＳ３６１では、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補の中から、まだ、注目状態系列としていない候補の１つを、注目状態系列に新たに選択し、以下、同様の処理を繰り返す。

また、ステップＳ３６４において、現況状態系列の候補のすべてを、注目状態系列としたと判定された場合、アクション決定部２４は、現況状態系列の候補のすべてを、注目状態系列に選択したことをリセットして、処理は、ステップＳ３６５に進む。

ステップＳ３６５では、アクション決定部２４は、ステップＳ３６１と同様に、状態認識部２３からの１以上の現況状態系列の候補の中から、まだ、注目状態系列としていない候補の１つを、注目状態系列に選択して、処理は、ステップＳ３６６に進む。

ステップＳ３６６では、アクション決定部２４は、図４７のステップＳ３４２の場合と同様に、モデル記憶部２２に記憶された拡張HMMに基づき、注目状態系列に対して、注目状態系列の最後状態を遷移元とする状態遷移の状態遷移確率の和を、アクションU_mごとに、（第３のストラテジに従った）アクションU_mを行う適正さを表すアクション適正度として求める。

その後、処理は、ステップＳ３６６からステップＳ３６７に進み、アクション決定部２４は、アクション適正度が求められたM個（種類）のアクションU₁ないしU_Mの中で、アクション適正度が閾値未満のアクションU_mについて求められたアクション適正度と、戻りアクションについて求められたアクション適正度とを、0.0とする。

すなわち、アクション決定部２４は、アクション適正度が閾値未満のアクションU_mについて求められたアクション適正度を、0.0とすることにより、結果として、注目状態系列に対し、アクション適正度が閾値以上のアクションU_mを、第３のストラテジに従って行うべき次のアクションの候補として選択する。

さらに、アクション決定部２４は、注目状態系列に対して選択したアクション適正度が閾値以上のアクションU_mのうちの、戻りアクションについて求められたアクション適正度を、0.0とすることにより、結果として、注目状態系列に対し、戻りアクション以外のアクションを、第３のストラテジに従って行うべき次のアクションの候補として選択する。

ステップＳ３６７の後、処理は、ステップＳ３６８に進み、アクション決定部２４は、現況状態系列の候補のすべてを、注目状態系列としたかどうかを判定する。

ステップＳ３６８において、現況状態系列の候補のすべてを、まだ、注目状態系列としていないと判定された場合、処理は、ステップＳ３６５に戻る。そして、ステップＳ３６５では、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補の中から、まだ、注目状態系列としていない候補の１つを、注目状態系列に新たに選択し、以下、同様の処理を繰り返す。

また、ステップＳ３６８において、現況状態系列の候補のすべてを、注目状態系列としたと判定された場合、処理は、ステップＳ３６９に進み、アクション決定部２４は、状態認識部２３からの１以上の現況状態系列の候補それぞれに対して求められた各アクションU_mについてのアクション適正度に基づき、次のアクションの候補の中から、次のアクションを、図４７のステップＳ３４５の場合と同様に決定して、処理はリターンする。

以上のように、第３のストラテジに従って、アクションを決定する場合には、エージェントは、戻りアクション以外のアクション、つまり、未知の場所を開拓していくアクションを行い、その結果、拡張HMMにおいて獲得していない未知状況の情報が増加していく。

したがって、第３のストラテジによれば、エージェントが未知状況にいる場合において、エージェントに、未知の場所を開拓させたいときに、エージェントに適切なアクションを行わせることができる。

以上のように、エージェントにおいて、拡張HMMに基づき、エージェントが現在の状況に至るための状態系列である現況状態系列の候補を算出し、その現状状態系列の候補を用い、所定のストラテジに従って、エージェントが次に行うべきアクションを決定することにより、エージェントは、アクションに対する報酬を算出する報酬関数等の、行うべきアクションのメトリックを与えられていなくても、拡張HMMで獲得した経験に基づき、アクションを決定することができる。

なお、状況の曖昧性を解消する行動決定手法として、例えば、特開2008-186326号公報には、１つの報酬関数によって行動（アクション）を決定する方法が記載されている。

図４４の認識アクションモードの処理は、例えば、拡張HMMに基づき、エージェントが現在の状況に至るための状態系列である現況状態系列の候補を算出し、その現状状態系列の候補を用いて、アクションを決定する点や、エージェントが経験済みの状態系列の中で、認識用の観測値系列、及び、アクション系列が観測される、系列長qが最長の状態系列を、現況状態系列の候補として取得することが可能である点（図４６）、後述するように、アクションの決定時に従うストラテジを切り替える（複数のストラテジの中から選択する）ことが可能である点等において、特開2008-186326号公報の行動決定手法と異なる。

ここで、上述したように、第２のストラテジは、エージェントの状況を認識可能にする情報を増加させるストラテジであり、第３のストラテジは、拡張HMMにおいて獲得していない未知状況の情報を増加させるストラテジであるから、第２及び第３のストラテジは、何らかの情報を増加させるストラテジである。

このように、何らかの情報を増加させる第２及び第３のストラテジに従ったアクションの決定は、図４８ないし図５１で説明した方法の他、以下のようにして行うことができる。

すなわち、ある時刻tにおいて、エージェントがアクションU_mを行った場合に、観測値Oが観測される確率P_m(O)は、式（３０）で表される。

・・・（３０）

なお、ρ_iは、時刻tに、状態S_iにいる状態確率を表す。

いま、発生確率が、確率P_m(O)で表される情報の量を、I(P_m(O))と表すこととすると、何らかの情報を増加させるストラテジに従って、アクションを決定する場合の、そのアクションU_m'のサフィックスm'は、式（３１）で表される。

・・・（３１）

ここで、式（３１）のargmax{I(P_m(O))}は、アクションU_mのサフィックスmのうちの、かっこ内の情報の量I(P_m(O))を最大にするサフィックスm'を表す。

いま、情報として、エージェントの状況を認識可能にする情報（以下、認識可能化情報ともいう）を採用することとすると、式（３１）に従って、アクションU_m'を決定することは、認識可能化情報を増加させる第２のストラテジに従って、アクションを決定することになる。

また、情報として、拡張HMMにおいて獲得していない未知状況の情報（以下、未知状況情報ともいう）を採用することとすると、式（３１）に従って、アクションU_m'を決定することは、未知状況情報を増加させる第３のストラテジに従って、アクションを決定することになる。

ここで、発生確率が、確率P_m(O)で表される情報のエントロピーを、H^o(P_m)と表すこととすると、式（３１）は、等価的に、以下の式で表すことができる。

すなわち、エントロピーH^o(P_m)は、式（３２）で表すことができる。

・・・（３２）

式（３２）のエントロピーH^o(P_m)が、大きい場合には、観測値Oが観測される確率P_m(O)が、各観測値で均等になるので、どのような観測値が観測されるかが分からない、ひいては、エージェントが、どこにいるか分からないというような曖昧性が増加し、エージェントが知らない、いわば未知の世界の情報を獲得する可能性が高くなる。

したがって、エントロピーH^o(P_m)を大きくすることで、未知状況情報は増加するから、未知状況情報を増加させる第３のストラテジに従って、アクションを決定する場合の式（３１）は、等価的に、エントロピーH^o(P_m)を最大化する式（３３）で表すことができる。

・・・（３３）

ここで、式（３３）のargmax{ H^o(P_m)}は、アクションU_mのサフィックスmのうちの、かっこ内のエントロピーH^o(P_m)を最大にするサフィックスm'を表す。

一方、式（３２）のエントロピーH^o(P_m)が、小さい場合には、観測値Oが観測される確率P_m(O)が、ある特定の観測値でのみ高くなるので、どのような観測値が観測されるかが分からない、ひいては、エージェントが、どこにいるか分からないというような曖昧性が解消され、エージェントの位置を確定しやすくなる。

したがって、エントロピーH^o(P_m)を小さくすることで、認識可能化情報は増加するから、認識可能化情報を増加させる第２のストラテジに従って、アクションを決定する場合の式（３１）は、等価的に、エントロピーH^o(P_m)を最小化する式（３４）で表すことができる。

・・・（３４）

ここで、式（３４）のargmin{ H^o(P_m)}は、アクションU_mのサフィックスmのうちの、かっこ内のエントロピーH^o(P_m)を最小にするサフィックスm'を表す。

なお、その他、例えば、確率P_m(O)の最大値と閾値との大小関係に基づいて、確率P_m(O)を最大にするアクションU_mを、次のアクションに決定することができる。

確率P_m(O)の最大値が閾値より大である（以上である）場合に、確率P_m(O)を最大にするアクションU_mを、次のアクションに決定することは、曖昧性を解消するようにアクションを決定すること、つまり、第２のストラテジに従って、アクションを決定することになる。

一方、確率P_m(O)の最大値が閾値以下である（未満である）場合に、確率P_m(O)を最大にするアクションU_mを、次のアクションに決定することは、曖昧さが増加するようにアクションを決定すること、つまり、第３のストラテジに従って、アクションを決定することになる。

以上においては、ある時刻tにおいて、エージェントがアクションU_mを行った場合に、観測値Oが観測される確率P_m(O)を用いて、アクションを決定したが、その他、アクションの決定は、例えば、ある時刻tにおいて、エージェントがアクションU_mを行った場合に、状態S_iから状態S_jに状態遷移する式（３５）の確率P_mjを用いて行うことができる。

・・・（３５）

すなわち、いま、発生確率が、確率P_mjで表される情報の量I(P_mj)を増加させるストラテジに従って、アクションを決定する場合の、そのアクションU_m'のサフィックスm'は、式（３６）で表される。

・・・（３６）

ここで、式（３６）のargmax{I(P_mj)}は、アクションU_mのサフィックスmのうちの、かっこ内の情報の量I(P_mj)を最大にするサフィックスm'を表す。

いま、情報として、認識可能化情報を採用することとすると、式（３６）に従って、アクションU_m'を決定することは、認識可能化情報を増加させる第２のストラテジに従って、アクションを決定することになる。

また、情報として、未知状況情報を採用することとすると、式（３６）に従って、アクションU_m'を決定することは、未知状況情報を増加させる第３のストラテジに従って、アクションを決定することになる。

ここで、発生確率が、確率P_mjで表される情報のエントロピーを、H^j(P_m)と表すこととすると、式（３６）は、等価的に、以下の式で表すことができる。

すなわち、エントロピーH^j(P_m)は、式（３７）で表すことができる。

・・・（３７）

式（３７）のエントロピーH^j(P_m)が、大きい場合には、状態S_iから状態S_jに状態遷移する確率P_mjが、各状態遷移で均等になるので、どのような状態遷移が生じるかが分からない、ひいては、エージェントが、どこにいるか分からないというような曖昧性が増加し、エージェントが知らない、未知の世界の情報を獲得する可能性が高くなる。

したがって、エントロピーH^j(P_m)を大きくすることで、未知状況情報は増加するから、未知状況情報を増加させる第３のストラテジに従って、アクションを決定する場合の式（３６）は、等価的に、エントロピーH^j(P_m)を最大化する式（３８）で表すことができる。

・・・（３８）

ここで、式（３８）のargmax{ H^j(P_m)}は、アクションU_mのサフィックスmのうちの、かっこ内のエントロピーH(P_mj)を最大にするサフィックスm'を表す。

一方、式（３７）のエントロピーH^j(P_m)が、小さい場合には、状態S_iから状態S_jに状態遷移する確率P_mjが、ある特定の状態遷移でのみ高くなるので、どのような観測値が観測されるかが分からない、ひいては、エージェントが、どこにいるか分からないというような曖昧性が解消され、エージェントの位置を確定しやすくなる。

したがって、エントロピーH^j(P_m)を小さくすることで、認識可能化情報は増加するから、認識可能化情報を増加させる第２のストラテジに従って、アクションを決定する場合の式（３６）は、等価的に、エントロピーH^j(P_m)を最小化する式（３９）で表すことができる。

・・・（３９）

ここで、式（３９）のargmin{H(P_mj)}は、アクションU_mのサフィックスmのうちの、かっこ内のエントロピーH^j(P_m)を最小にするサフィックスm'を表す。

なお、その他、例えば、確率P_mjの最大値と閾値との大小関係に基づいて、確率P_mjを最大にするアクションU_mを、次のアクションに決定することができる。

確率P_mjの最大値が閾値より大である（以上である）場合に、確率P_mjを最大にするアクションU_mを、次のアクションに決定することは、曖昧性を解消するようにアクションを決定すること、つまり、第２のストラテジに従って、アクションを決定することになる。

一方、確率P_mjの最大値が閾値以下である（未満である）場合に、確率P_mjを最大にするアクションU_mを、次のアクションに決定することは、曖昧さが増加するようにアクションを決定すること、つまり、第３のストラテジに従って、アクションを決定することになる。

その他、曖昧性を解消するようなアクションの決定、つまり、第２のストラテジに従ったアクションの決定は、観測値Oが観測されたときに、状態S_Xにいる事後確率P(X|O)を用いて行うことができる。

すなわち、事後確率P(X|O)は、式（４０）で表される。

・・・（４０）

事後確率P(X|O)のエントロピーを、H(P(X|O))と表すこととすると、エントロピーH(P(X|O))を小さくするように、アクションを決定することで、第２のストラテジに従ったアクションの決定を行うことができる。

すなわち、式（４１）に従って、アクションU_mを決定することで、第２のストラテジに従ったアクションの決定を行うことができる。

・・・（４１）

ここで、式（４１）のargmin{}は、アクションU_mのサフィックスmのうちの、かっこ内の値を最小にするサフィックスm'を表す。

式（４１）のargmin{}のかっこ内のΣP(O)H(P(X|O))は、観測値Oが観測される確率P(O)と、その観測値Oが観測されたときに、状態S_Xにいる事後確率P(X|O)のエントロピーH(P(X|O))との積の、観測値Oを、観測値O₁ないしO_Kに変化させての総和であり、アクションU_mが行われた場合に、観測値O₁ないしO_Kが観測されるエントロピー全体を表す。

式（４１）によれば、エントロピーΣP(O)H(P(X|O))を最小化するアクション、つまり、観測値Oが一意に決まる可能性が高いアクションが、次のアクションに決定される。

したがって、式（４１）に従ってアクションを決定することは、曖昧性を解消するようにアクションを決定すること、つまり、第２のストラテジに従って、アクションを決定することになる。

また、曖昧さを増加するようなアクションの決定、つまり、第３のストラテジに従ったアクションの決定は、状態S_Xにいる事前確率P(X)のエントロピーH(P(X))に対して、事後確率P(X|O)のエントロピーH(P(X|O))が、どれだけ減少しているかを表す減少分を、未知状況情報の量であるとして、その減少分を最大にするように行うことができる。

すなわち、事前確率P(X)は、式（４２）で表される。

・・・（４２）

状態S_Xにいる事前確率P(X)のエントロピーH(P(X))に対する、事後確率P(X|O)のエントロピーH(P(X|O))の減少分を最大にするアクションU_m'は、式（４３）に従って決定することができる。

・・・（４３）

ここで、式（４３）のargmax{}は、アクションU_mのサフィックスmのうちの、かっこ内の値を最大にするサフィックスm'を表す。

式（４３）によれば、観測値Oが分からない場合に、状態S_xにいる状態確率である事前確率P(X)のエントロピーH(P(X))と、アクションU_mが行われた場合に、観測値Oが観測され、状態S_Xにいる事後確率P(X|O)のエントロピーH(P(X|O))との差分H(P(X))-H(P(X|O))に、観測値Oが観測される確率P(O)を乗算した乗算値P(O)(H(P(X))-H(P(X|O)))の、観測値Oを、観測値O₁ないしO_Kに変化させての総和ΣP(O)(H(P(X))-H(P(X|O)))が、アクションU_mが行われることによって増加した未知状況情報の量として、その未知状況情報の量を最大化するアクションが、次のアクションに決定される。

［ストラテジの選択］

エージェントは、図４７ないし図５１で説明したように、第１ないし第３のストラテジに従って、アクションを決定することができる。アクションを決定するときに従うストラテジは、あらかじめ設定しておくことができるが、その他、複数のストラテジである第１ないし第３のストラテジの中から、適応的に選択することができる。

図５２は、エージェントが、複数のストラテジの中から、アクションを決定するときに従うストラテジを選択する処理を説明するフローチャートである。

ここで、第２のストラテジによれば、認識可能化情報が増加し、曖昧性を解消するように、つまり、エージェントが、既知の場所（領域）に戻るように、アクションが決定される。

一方、第３のストラテジによれば、未知状況情報が増加し、曖昧さが増加するように、つまり、エージェントが、未知の場所を開拓していくように、アクションが決定される。

なお、第１のストラテジによれば、エージェントが、既知の場所に戻るか、未知の場所を開拓していくかは、分からないが、エージェントの現在の状況に類似する既知状況で、エージェントが行ったアクションが行われる。

ここで、アクション環境の構造を、広く獲得すること、すなわち、いわば、エージェントの知識（既知の世界）を増加させていくには、エージェントが、未知の場所を開拓していくように、アクションを決定する必要がある。

一方、エージェントが、未知の場所を、既知の場所として獲得するには、未知の場所から、既知の場所に戻って、未知の場所を、既知の場所と結びつけるために、拡張HMMの学習（追加学習）を行う必要がある。したがって、エージェントが、未知の場所を、既知の場所として獲得するには、エージェントが、既知の場所に戻るように、アクションを決定する必要がある。

そして、エージェントが、未知の場所を開拓していくように、アクションを決定することと、既知の場所に戻るように、アクションを決定することとを、バランス良く行うことで、アクション環境の全体の構造を、効率的に、拡張HMMにモデル化することができる。

そこで、エージェントは、第２及び第３のストラテジの中から、アクションを決定するときに従うストラテジを、図５２に示すように、エージェントの状況が未知状況になってからの経過時間に基づいて選択することができる。

すなわち、ステップＳ３８１において、アクション決定部２４（図４）は、状態認識部２３における、現在の状況の認識結果に基づいて、未知状況になってからの経過時間（以下、未知状況経過時間ともいう）を取得し、処理は、ステップＳ３８２に進む。

ここで、未知状況経過時間とは、状態認識部２３において、現在の状況が、未知状況であるとの認識結果が連続している回数であり、現在の状況が、既知状況であるとの認識結果が得られた場合には、0にリセットされる。したがって、現在の状況が未知状況でない場合（既知状況である場合）には、未知状況経過時間は、0となる。

ステップＳ３８２では、アクション決定部２４は、未知状況経過時間が、所定の閾値より大であるかどうかを判定する。

ステップＳ３８２において、未知状況経過時間が、所定の閾値より大でないと判定された場合、すなわち、エージェントの状況が未知状況になっている時間が、それほど経過していない場合、処理は、ステップＳ３８３に進み、アクション決定部２４は、アクションを決定するときに従うストラテジとして、第２及び第３のストラテジのうちの、未知状況情報を増加させる第３のストラテジを選択して、処理は、ステップＳ３８１に戻る。

また、ステップＳ３８２において、未知状況経過時間が、所定の閾値より大であると判定された場合、すなわち、エージェントの状況が未知状況になっている時間が、かなり経過している場合、処理は、ステップＳ３８４に進み、アクション決定部２４は、アクションを決定するときに従うストラテジとして、第２及び第３のストラテジのうちの、認識可能化情報を増加させる第２のストラテジを選択して、処理は、ステップＳ３８１に戻る。

図５２では、アクションを決定するときに従うストラテジを、エージェントの状況が未知状況になってからの経過時間に基づいて選択することとしたが、アクションを決定するときに従うストラテジは、その他、例えば、間近の所定時間のうちの、既知状況の時間、又は、未知状況の時間の割合に基づいて選択することができる。

図５３は、アクションを決定するときに従うストラテジを、間近の所定時間のうちの、既知状況の時間、又は、未知状況の時間の割合に基づいて選択する処理を説明するフローチャートである。

ステップＳ３９１において、アクション決定部２４（図４）は、状態認識部２３から、間近の所定時間分の状況の認識結果を取得し、その認識結果から、状況が未知状況であった割合（以下、未知率ともいう）を算出して、処理は、ステップＳ３９２に進む。

ステップＳ３９２では、アクション決定部２４は、未知率が、所定の閾値より大であるかどうかを判定する。

ステップＳ３９２において、未知率が、所定の閾値より大でないと判定された場合、すなわち、エージェントの状況が未知状況になっている割合が、それほど多くない場合、処理は、ステップＳ３９３に進み、アクション決定部２４は、アクションを決定するときに従うストラテジとして、第２及び第３のストラテジのうちの、未知状況情報を増加させる第３のストラテジを選択して、処理は、ステップＳ３９１に戻る。

また、ステップＳ３８２において、未知率が、所定の閾値より大であると判定された場合、すなわち、エージェントの状況が未知状況になっている割合が、かなり多い場合、処理は、ステップＳ３９４に進み、アクション決定部２４は、アクションを決定するときに従うストラテジとして、第２及び第３のストラテジのうちの、認識可能化情報を増加させる第２のストラテジを選択して、処理は、ステップＳ３９１に戻る。

なお、図５３では、間近の所定時間分の状況の認識結果における、状況が未知状況であった割合（未知率）に基づいて、ストラテジの選択を行うようにしたが、ストラテジの選択は、間近の所定時間分の状況の認識結果における、状況が既知状況であった割合（以下、既知率ともいう）に基づいて行うことができる。

ストラテジの選択を、既知率に基づいて行う場合、既知率が閾値より大である場合には、第３のストラテジが、既知率が閾値より大でない場合には、第２のストラテジが、それぞれ、アクションを決定するときのストラテジとして選択される。

また、図５２のステップＳ３８３、及び、図５３のステップＳ３９３では、何回かに１回の割合等で、第３のストラテジに代えて、第１のストラテジを、アクションを決定するときのストラテジとして選択することができる。

以上のようにストラテジを選択することで、アクション環境の全体の構造を、効率的に、拡張HMMにモデル化することができる。

［本発明を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図５４は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１反射アクション決定部，１２アクチュエータ，１３センサ，１４履歴記憶部，１５アクション制御部，１６目標決定部，２１学習部，２２モデル記憶部，２３状態認識部，２４アクション決定部，３１目標選択部，３２経過時間管理テーブル記憶部，３３外部目標入力部，３４内部目標生成部，３５ランダム目標生成部，３６分岐構造検出部，３７オープン端検出部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、
前記状態から、所定の観測値が観測される観測確率と
で規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う学習手段
を備える情報処理装置。
前記学習手段は、前記状態遷移確率モデルの１つの状態において、１つの観測値が観測される１状態１観測値制約の下で、前記状態遷移確率モデルの学習を行う
請求項１に記載の情報処理装置。
前記学習手段は、
学習後の前記状態遷移確率モデルにおいて、複数の観測値が観測される状態を、分割対象の分割対象状態として検出し、
前記分割対象状態を、前記複数の観測値の１つずつが観測される複数の状態に分割し、
前記分割対象状態を前記複数の状態に分割した後の前記状態遷移確率モデルの学習を再度行う
ことを、前記分割対象状態が検出されなくなるまで繰り返すことで、前記１状態１観測値制約を充足する学習を行う
請求項２に記載の情報処理装置。
前記学習手段は、
前記分割対象状態を分割した分割後状態に、前記複数の観測値のうちの１つの観測値を割り当て、
前記分割後状態において、前記分割後状態に割り当てられた観測値が観測される観測確率を、1に設定するとともに、他の観測値が観測される観測確率を、0に設定し、
前記分割後状態を遷移元とする状態遷移の状態遷移確率を、前記分割対象状態を遷移元とする状態遷移の状態遷移確率に設定するとともに、前記分割後状態を遷移先とする状態遷移の状態遷移確率を、前記分割後状態に割り当てられた観測値の、前記分割対象状態における観測確率で、前記分割対象状態を遷移先とする状態遷移の状態遷移確率を補正した値に設定する
ことで、前記分割対象状態を、複数の前記分割後状態に分割する
請求項３に記載の情報処理装置。
前記学習手段は、
所定のアクションが行われたときの状態遷移の遷移元又は遷移先の状態として、複数の状態が存在し、その複数の状態それぞれにおいて、同一の観測値が観測される場合に、前記複数の状態を、１つの状態にマージする
請求項２に記載の情報処理装置。
前記学習手段は、
所定のアクションが行われたときの状態遷移の遷移元又は遷移先の前記状態遷移確率モデルの状態として、複数の状態が存在し、その複数の状態それぞれにおいて観測される、前記観測確率が最大の観測値が一致する場合の、前記複数の状態を、マージ対象のマージ対象状態として検出し、
前記マージ対象状態である複数の状態をマージして、前記１つの状態にするときの、その１つの状態である代表状態において、各観測値が観測される観測確率を、前記マージ対象状態である複数の状態それぞれにおいて、各観測値が観測される観測確率の平均値に設定するとともに、前記マージ対象状態において、各観測値が観測される観測確率を、0に設定し、
前記代表状態を遷移元とする状態遷移の状態遷移確率を、前記マージ対象状態である複数の状態それぞれを遷移元とする状態遷移の状態遷移確率の平均値に設定するとともに、前記代表状態を遷移先とする状態遷移の状態遷移確率を、前記マージ対象状態である複数の状態それぞれを遷移先とする状態遷移の状態遷移確率の和に設定し、
前記マージ対象状態を遷移元とする状態遷移の状態遷移確率、及び、遷移先とする状態遷移の状態遷移確率を、0に設定する
ことで、前記マージ対象状態である複数の状態を、前記代表状態にマージする
請求項５に記載の情報処理装置。
前記学習手段は、
学習後の前記状態遷移確率モデルから、前記マージ対象状態である複数の状態を検出し、
前記マージ対象状態である複数の状態を、前記代表状態にマージし、
マージ後の前記状態遷移確率モデルの学習を再度行う
ことを、前記マージ対象状態が検出されなくなるまで繰り返すことで、前記１状態１観測値制約を充足する学習を行う
請求項６に記載の情報処理装置。
前記状態遷移確率モデルは、HMM(Hidden Marcov Model)の状態遷移確率を、前記エージェントが行うアクションごとの状態遷移確率に拡張した拡張HMMであり、
前記学習手段は、Baum-Welchの再推定法に従い、各アクションについての前記状態遷移確率と、前記観測確率とを推定する、前記拡張HMMの学習を行う
請求項２に記載の情報処理装置。
情報処理装置が、
アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、
前記状態から、所定の観測値が観測される観測確率と
で規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う
ステップを含む情報処理方法。
アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、
前記状態から、所定の観測値が観測される観測確率と
で規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う学習手段
として、コンピュータを機能させるためのプログラム。
アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、
前記状態から、所定の観測値が観測される観測確率と
で規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う
ことにより得られる前記状態遷移確率モデルに基づき、前記エージェントが行ったアクションと、そのアクションが行われたときに前記エージェントにおいて観測された観測値とを用いて、前記エージェントの現在の状況を認識し、その現在の状況に対応する前記状態遷移確率モデルの状態である現在状態を求める状態認識手段と、
前記状態遷移確率モデルの状態の１つを、目標とする目標状態に決定する目標決定手段と、
前記状態遷移確率モデルに基づき、前記現在状態から前記目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを算出し、そのアクションプランに従い、前記エージェントが次に行うべきアクションを決定するアクション決定手段と
を備える情報処理装置。
前記状態認識手段は、さらに、前記現在状態の直前の状態から前記現在状態への状態遷移のときに前記エージェントが行ったアクションについての、前記直前の状態と前記現在状態以外の状態との間の状態遷移を抑制するように、状態遷移の抑制を行う抑制子を更新し、
前記アクション決定手段は、
前記抑制子を用いて、前記状態遷移確率モデルの前記状態遷移確率を補正し、
補正後の前記状態遷移確率に基づき、前記アクションプランを算出する
請求項１１に記載の情報処理装置。
前記状態認識手段は、さらに、時間の経過に応じて、状態遷移の抑制を緩和するように、前記抑制子を更新する
請求項１２に記載の情報処理装置。
所定の観測値が観測される状態を遷移元として行うことが可能な状態遷移の中で、行われたことがない状態遷移がある、前記所定の観測値と同一の観測値が観測される他の状態であるオープン端を検出するオープン端検出手段をさらに備え、
前記目標決定手段は、前記オープン端を、前記目標状態に決定する
請求項１１に記載の情報処理装置。
前記オープン端検出手段は、
前記状態遷移確率と、前記観測確率とを用いて、各観測値が観測されるときに、前記エージェントが各アクションを行う確率であるアクション確率を求め、
前記アクション確率と、前記観測確率との乗算により、各観測値が観測される各状態において、前記エージェントが各アクションを行う確率である、観測確率に基づくアクション確率を算出し、
各状態について、その状態を遷移元とする状態遷移の前記状態遷移確率を、アクションごとに加算することにより、各状態において、前記エージェントが各アクションを行う確率である、状態遷移確率に基づくアクション確率を算出し、
前記観測確率に基づくアクション確率と、前記状態遷移確率に基づくアクション確率との差分が所定の閾値以上となる状態を、前記オープン端として検出する
請求項１４に記載の情報処理装置。
前記状態遷移確率に基づいて、１つのアクションが行われた場合に異なる状態への状態遷移が可能な状態である、分岐構造の状態を検出する分岐構造検出手段をさらに備え、
前記目標決定手段は、前記分岐構造の状態を、前記目標状態に決定する
請求項１１に記載の情報処理装置。
前記分岐構造の状態に到達してから経過した経過時間を記憶する記憶手段をさらに備え、
前記目標決定手段は、前記分岐構造検出手段において、複数の前記分岐構造の状態が検出された場合に、前記経過時間が最大の前記分岐構造の状態を、前記目標状態に決定する
請求項１６に記載の情報処理装置。
前記状態遷移確率モデルは、HMM(Hidden Marcov Model)の状態遷移確率を、前記エージェントが行うアクションごとの状態遷移確率に拡張した拡張HMMである
請求項１１に記載の情報処理装置。
情報処理装置が、
アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、
前記状態から、所定の観測値が観測される観測確率と
で規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う
ことにより得られる前記状態遷移確率モデルに基づき、前記エージェントが行ったアクションと、そのアクションが行われたときに前記エージェントにおいて観測された観測値とを用いて、前記エージェントの現在の状況を認識し、その現在の状況に対応する前記状態遷移確率モデルの状態である現在状態を求め、
前記状態遷移確率モデルの状態の１つを、目標とする目標状態に決定し、
前記状態遷移確率モデルに基づき、前記現在状態から前記目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを算出し、そのアクションプランに従い、前記エージェントが次に行うべきアクションを決定する
ステップを含む情報処理方法。
アクション可能なエージェントが行うアクションによって、状態が状態遷移する、前記アクションごとの状態遷移確率と、
前記状態から、所定の観測値が観測される観測確率と
で規定される状態遷移確率モデルの学習を、前記エージェントが行うアクションと、前記エージェントがアクションを行ったときに前記エージェントにおいて観測される観測値とを用いて行う
ことにより得られる前記状態遷移確率モデルに基づき、前記エージェントが行ったアクションと、そのアクションが行われたときに前記エージェントにおいて観測された観測値とを用いて、前記エージェントの現在の状況を認識し、その現在の状況に対応する前記状態遷移確率モデルの状態である現在状態を求める状態認識手段と、
前記状態遷移確率モデルの状態の１つを、目標とする目標状態に決定する目標決定手段と、
前記状態遷移確率モデルに基づき、前記現在状態から前記目標状態までの状態遷移の尤度を最も高くするアクションの系列であるアクションプランを算出し、そのアクションプランに従い、前記エージェントが次に行うべきアクションを決定するアクション決定手段と
して、コンピュータを機能させるためのプログラム。