JP2007328507A

JP2007328507A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP2007328507A
Application number: JP2006158566A
Authority: JP
Inventors: Profio Ugo Di; プロフィオウゴティ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-06-07
Filing date: 2006-06-07
Publication date: 2007-12-20
Anticipated expiration: 2026-06-07
Also published as: JP4863778B2; US20080133436A1; US7882047B2; KR20070117472A; CN101105845A; EP1865447A3; EP1865447A2

Abstract

【課題】改良されたＰＯＭＤＰの構築を可能とする装置および方法を実現する。
【解決手段】部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）において定義される状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）、報酬（Ｒｅｗａｒｄ）の各情報について、それぞれ複数の異なる要素（ファクタ）を設定し、要素間の関係を明確にしたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する。ファクタＰＯＭＤＰを適用した状態遷移予測や行動決定処理においては、要素単位の因果関係を明確に区別した処理が可能となり、より正しい状況予測や効果的な行動決定処理が可能となる。
【選択図】図２

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を基本構成として、要素単位で処理可能としたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を自動構築する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

状態予測や行動決定手法の１つとして、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用した処理が知られている。部分観測マルコフ決定過程（以下ＰＯＭＤＰ）の概要について説明する。

ＰＯＭＤＰは、以下の情報を適用した処理として行なわれる。
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）時間Ｔ＝（ｔ−１）の状態Ｓ＝ｓ_ｔ−１と行動Ａ＝ａ_ｔ−１から、次の時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔへの状態遷移確率を算出する状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）
（ｄ）時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔと行動Ａ＝ａ_ｔからの報酬（Ｒｅｗａｒｄ）を算出する報酬関数：Ｒ（ｓ_ｔ，ａ_ｔ）
（ｅ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ω
（ｆ）時間Ｔ＝（ｔ−１）の行動Ａ＝ａ_ｔ−１と、時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔとから時間Ｔ＝（ｔ）の観測状態の発生確率を算出する観測状態確立関数：Ｏ（ｓ_ｔ，ａ_ｔ−１，ｏ_ｔ−１）＝Ｐ（ｏ_ｔ｜ａ_ｔ−１，ｓ_ｔ）

ＰＯＭＤＰは、上記の各情報適用した状態予測や行動決定処理を行なう。例えば、取得可能な少ない情報から最適と判断される行動（Ａｃｔｉｏｎ）を決定する処理などに適用され、具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。

上記の各情報を適用したＰＯＭＤＰによる状態予測や行動決定処理について、図１を参照して説明する。図１には時間Ｔ＝ｔ−１における状態ｓ_ｔ−１，行動ａ_ｔ−１、報酬Ｒ_ｔ−１、観測ｏ_ｔ−１と、その後の時間Ｔ＝ｔにおける状態ｓ_ｔ，行動ａ_ｔ、報酬Ｒ_ｔ、観測ｏ_ｔとを示している。各ブロックを結ぶ矢印は、相互の影響を示している。矢印の出力元（ｐａｒｅｎｔ）の情報や状態が矢印の出力先（ｃｈｉｌｄ）の状態や情報に変化を及ぼす可能性があることを示している。

例えば、時間Ｔ＝ｔ−１において、
報酬Ｒ_ｔ−１は、時間Ｔ＝ｔ−１の状態ｓ_ｔ−１，行動ａ_ｔ−１に基づいて、上述したように、報酬関数：Ｒ（ｓ_ｔ−１，ａ_ｔ−１）で求められる。
また、観測情報ｏ_ｔ−１は、例えば、状態ｓ_ｔ−１の変化に伴って変化する観察可能な情報である。
これらの関係は、いずれの時間Ｔ＝ｔ−１，ｔ，ｔ＋１，・・・においても同様となる。

さらに、異なる時間の関係において、時間Ｔ＝ｔにおける状態ｓ_ｔと、時間Ｔ＝ｔ−１における状態ｓ_ｔ−１および行動ａ_ｔ−１との関係は、上述した状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）によって対応付けられている。すなわち、時間Ｔ＝ｔにおける状態ｓ_ｔとなる確率は、前の時間Ｔ＝ｔ−１における、状態ｓ_ｔ−１および行動ａ_ｔ−１とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。

このように、ＰＯＭＤＰでは不確実性を含む対象領域において様々な情報（状態、行動、報酬、観測）を定義し、これらの情報に関連性に基づいて、不確実性を含む対象領域における状態遷移の予測や、自己の行動を決定する。行動の決定処理に際しては、例えば報酬が最も高く算出される行動を最善の行動として決定する処理を行なう。

なお、ＰＯＭＤＰの構築処理においては、情報（状態、行動、報酬、観測）間の関連性を正しく設定することが重要であり、このような処理にベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）が利用される。ベイジアンネットワークは、複数ノードからなり、各ノード間の関連性を定義したネットワークである。ベイジアンネットワークの生成処理、利用処理については、例えば特許文献１、特許文献２に記載されている。特許文献１および特許文献２は、ノード間の関連性を正しく設定した信頼度の高いベイジアンネットワークを生成するための処理について記載している。

図１を参照して説明したＰＯＭＤＰでは、例えば行動決定処理に適用する各時間の状態（Ｓｔａｔｅ）、報酬（Ｒｅｗａｒｄ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）、これらの各情報について、それぞれ１つの要素からなる情報として処理を行っている。一方、現実的な環境においては、情報として取得可能な状態や観測される情報は、様々な異なる要素（ファクタ）によって構成される場合が多い。しかし、これまでのＰＯＭＤＰでは、これらの様々な要素を考慮したＰＯＭＤＰを自動的に構築する構成し実現されていない。
ＵＳ公開特許２００４／０２２０８９２ＵＳ公開特許２００２／０１０３７９３

本発明は、上述の問題点に鑑みてなされたものであり、ＰＯＭＤＰを適用した状態遷移予測や、行動決定処理において、複数の異なる要素（ファクタ）を考慮した処理を可能としたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を自動構築する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

本発明の第１の側面は、
不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を基本構成として、ＰＯＭＤＰにおいて定義される各情報に含まれる要素を単位として、要素間の関係を解析し、該解析結果に基づいて、要素間の関係情報を含むＰＯＭＤＰであるファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構築を実行するデータ処理部を有することを特徴とする情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）に含まれる観測要素各々についてのベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を構築し、該観測要素単位のベイジアンネットワークを組み合わせて、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々と、ＰＯＭＤＰにおいて定義される観測以外の情報である状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、報酬（Ｒｅａｒｄ）の少なくともいずれかに含まれる要素との関連性を学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワークを構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築し、さらに、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築する処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ（ＤＡＧ）の更新処理を実行して要素間の関係を解析して前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記ＰＯＭＤＰにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数（Ｍａｘ−Ｆａｎ−Ｉｎ）情報を入力し、該入力情報に従って、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する構成であることを特徴とする。

さらに、本発明の第２の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
データ処理部において、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）において定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築するイントラ・ベイジアンネットワーク生成ステップと、
データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築するダイナミック・ベイジアンネットワーク生成ステップと、
データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、ＰＯＭＤＰにおいて定義される情報の要素の関係情報を含むファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を生成するファクタＰＯＭＤＰ生成ステップと、
を有することを特徴とする情報処理方法にある。

さらに、本発明の情報処理方法の一実施態様において、前記イントラ・ベイジアンネットワーク生成ステップは、ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）に含まれる観測要素各々と、ＰＯＭＤＰにおいて定義される観測以外の情報である状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、報酬（Ｒｅａｒｄ）の少なくともいずれかに含まれる要素との関連性を、学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行するステップを含むことを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記ダイナミック・ベイジアンネットワーク生成ステップは、複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記イントラ・ベイジアンネットワーク生成ステップ、および前記ダイナミック・ベイジアンネットワーク生成ステップでは、前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ（ＤＡＧ）の更新処理を実行して要素間の関係を解析することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、前記データ処理部において、前記ＰＯＭＤＰにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数（Ｍａｘ−Ｆａｎ−Ｉｎ）情報を入力し、該入力情報に従って、前記ファクタＰＯＭＤＰの構築処理を実行することを特徴とする。

さらに、本発明の第３の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
データ処理部において、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）において定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築させるイントラ・ベイジアンネットワーク生成ステップと、
データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築させるダイナミック・ベイジアンネットワーク生成ステップと、
データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、ＰＯＭＤＰにおいて定義される情報の要素の関係情報を含むファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を生成させるファクタＰＯＭＤＰ生成ステップと、
を実行させることを特徴とするコンピュータ・プログラムにある。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、ＣＤやＦＤ、ＭＯなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を基本構成として、ＰＯＭＤＰにおいて定義される状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）、報酬（Ｒｅｗａｒｄ）の各情報について、それぞれ複数の異なる要素（ファクタ）を設定し、要素間の関係を明確にしたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を自動構築することが可能となる。本発明の処理によって生成した要素単位の依存関係を明確にしたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を適用した状態遷移予測や行動決定処理においては、要素単位の因果関係を明確に区別した処理が可能となり、より正しい状況予測や効果的な行動決定処理が可能となる。

以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。

まず、図２を参照して、本発明の情報処理装置において構築する複数の異なる要素（ファクタ）を考慮したＰＯＭＤＰを適用した状態遷移予測や、行動決定処理の概要について説明する。本発明の処理を適用して構築される改良されたＰＯＭＤＰ、すなわちファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）では、要素（ファクタ）を考慮した処理により、より精度の高い状態遷移予測や行動決定が可能となる。具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理などにおいて、より制度の高い処理が可能となる。

なお、先に説明したように、ＰＯＭＤＰは、以下の情報を適用した処理として行なわれる。
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）時間Ｔ＝（ｔ−１）の状態Ｓ＝ｓ_ｔ−１と行動Ａ＝ａ_ｔ−１から、次の時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔへの状態遷移確率を算出する状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）
（ｄ）時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔと行動Ａ＝ａ_ｔからの報酬（Ｒｅｗａｒｄ）を算出する報酬関数：Ｒ（ｓ_ｔ，ａ_ｔ）
（ｅ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ω
（ｆ）時間Ｔ＝（ｔ−１）の行動Ａ＝ａ_ｔ−１と、時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔとから時間Ｔ＝（ｔ）の観測状態の発生確率を算出する観測状態確立関数：Ｏ（ｓ_ｔ，ａ_ｔ−１，ｏ_ｔ−１）＝Ｐ（ｏ_ｔ｜ａ_ｔ−１，ｓ_ｔ）

図２には、先に図１を参照して説明したと同様、時間Ｔ＝ｔ−１における状態ｓ_ｔ−１，行動ａ_ｔ−１、報酬Ｒ_ｔ−１、観測ｏ_ｔ−１と、その後の時間Ｔ＝ｔにおける状態ｓ_ｔ，行動ａ_ｔ、報酬Ｒ_ｔ、観測ｏ_ｔとを示している。各ブロックを結ぶ矢印は、関連性、影響を持つ関係であることを示している。具体的には、矢印の出力元（ｐａｒｅｎｔ）が矢印の出力先（ｃｈｉｌｄ）に影響を及ぼしていることを示している。

図２の構成は、図１を参照して説明した構成と異なり、各時間における状態（Ｓｔａｔｅ）、報酬（Ｒｅｗａｒｄ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）のそれぞれを１つの要素とした処理構成ではなく、状態（Ｓｔａｔｅ）、報酬（Ｒｅｗａｒｄ）、観測に含まれる複数の要素（ファクタ）を考慮して処理を行なう構成となっている。すなわち、同一の情報（状態、行動、報酬、観測）に含まれる複数の要素を個別に考慮したＰＯＭＤＰである。

図２においては、状態（Ｓｔａｔｅ）、報酬（Ｒｅｗａｒｄ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）の各々が、それぞれ２つの要素を持つ例を示している。なお、状態、報酬、観測の要素数は２つに限らない。本発明の情報処理装置では、同一カテゴリの情報に任意数の要素が存在するＰＯＭＤＰ構成を構築することが可能である。

図２においては、状態（Ｓｔａｔｅ）として、
（状態要素１）例えばある人物、物などが存在するか否かの状態を示す［プレゼンス］、
（状態要素２）例えばあるデータ処理や行動計画などのプランの処理状態を示す［プラン］、
これらの２つの異なる要素の状態が定義されている。

また、報酬（Ｒｅｗａｒｄ）については、
（報酬要素１）［プレゼンス］に対応する報酬、
（報酬要素２）［プラン］に対応する報酬、
これらの２つの異なる要素の報酬が定義されている。

さらに、観測（Ｏｂｓｅｒｖａｔｉｏｎ）については、
（観測要素１）ある人物や物の表情、外観の変化の観察情報としての観測情報である［フェイス］、
（観測要素２）ある人物や物の行動の観察情報としての観測情報である［ムーブメント］、
これらの２つの異なる要素の観測情報が定義されている。

本発明の情報処理装置では、先に図１を参照して説明したＰＯＭＤＰ構成とは異なり、各情報に含まれる要素を個別に扱ってＰＯＭＤＰを適用した状態遷移予測や、行動決定処理を可能とする構成を構築する。図２に示すような同一の情報（状態、行動、報酬、観測）に含まれる複数の要素を個別に考慮したＰＯＭＤＰを、図１を参照して説明した従来のＰＯＭＤＰ処理と区別するため、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰまたはＦ−ＰＯＭＤＰ）と呼ぶ。

本発明の情報処理装置では、ＰＯＭＤＰにおいて定義される各情報（状態、行動、報酬、観測）に含まれる要素を判別し、各要素間の関連性を判断して、図２に示すような矢印を設定してファクタＰＯＭＤＰを自動構築する。図２に示す構成では、各要素間に要素間の関連性を示す矢印が設定されているが、この矢印は、前述したように矢印の出力元の要素が出力先の要素に対して影響を与えていることを示している。

本発明の情報処理装置では、各情報（状態、行動、報酬、観測）に要素を定義して、さらに、要素間の関連性を解析することで、図２に示すような要素間の関連性を示す矢印を設定してファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する。各要素間の関連性の解析には、ベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を利用する。これらの具体的なファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構築シーケンスについては後段で詳細に説明する。

図２に示すファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の説明図は、図１と同様、時間Ｔ＝ｔ−１における状態ｓ_ｔ−１，行動ａ_ｔ−１、報酬Ｒ_ｔ−１、観測ｏ_ｔ−１と、その後の時間Ｔ＝ｔにおける状態ｓ_ｔ，行動ａ_ｔ、報酬Ｒ_ｔ、観測ｏ_ｔとを示している。各ブロックを結ぶ矢印は、上述したように要素間の関連性を示している。すなわち、関連性は要素（ファクタ）間で定義される。

例えば、時間Ｔ＝ｔ−１において、
報酬要素の１つである［プレゼンス報酬］は、時間Ｔ＝ｔ−１の状態要素［プレゼンス］と、行動に基づいて、上述の報酬関数：Ｒ（ｓ_ｔ−１，ａ_ｔ−１）で求められる。
また、報酬要素の１つである［プラン報酬］は、時間Ｔ＝ｔ−１の状態要素［プラン］と、行動に基づいて、上述の報酬関数：Ｒ（ｓ_ｔ−１，ａ_ｔ−１）で求められる。

また、観測情報については、
観測要素［フェイス］は、状態要素［プレゼンス］と、状態要素［プラン］の両者の影響の及ぶ観察可能な観測情報として定義され、観測要素［ムーブメント］は、状態要素［プラン］の影響の及ぶ観察可能な観測情報として定義される。

これらの関係は、いずれの時間Ｔ＝ｔ−１，ｔ，ｔ＋１，・・・においても同様となる。

さらに、異なる時間の関係において、時間Ｔ＝ｔにおける状態ｓ_ｔと、時間Ｔ＝ｔ−１における状態ｓ_ｔ−１および行動ａ_ｔ−１との関係は、上述した状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）によって、各要素間の関係をに基づいて対応付けられる。すなわち、時間Ｔ＝ｔにおける状態要素［プレゼンス］の発生確率は、前の時間Ｔ＝ｔ−１における、状態要素［プレゼンス］および行動とから算出され、時間Ｔ＝ｔにおける状態要素［プラン］の発生確率は、前の時間Ｔ＝ｔ−１における、状態要素［プラン］および行動とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。

このように、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）では、各時間における状態、行動、報酬、観測を１つの情報として設定するのではなく、これらの各情報（状態、行動、報酬、観測）の各々のカテゴリについて細分化した要素（ファクタ）を抽出して処理を実行することが可能となる。なお、図２の構成では、行動については要素を定義していないが、行動を要素別に区分して処理を行なうことも可能である。例えば、ロボットの行動を決定する場合、［手の動き］、［足の動き］、［顔の動き］などの行動を別々に定義して、これらを行動の要素として処理することも可能となる。

本発明の情報処理装置では、ＰＯＭＤＰで定義される各情報（状態、行動、報酬、観測）に含まれる要素を判別し、様々な要素間の関連性を解析することで、図２に示すようなファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する。各要素間の関連性の解析には、ベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を利用する。ベイジアンネットワークは、確率変数の依存関係を有向グラフの形式で表現したネットワークであり、例えば、事象をノード、各事象間の因果関係をリンクにより記述した有向グラフである。学習サンプルデータを用いた学習によって、ベイジアンネットワークを構成するノードについて、個別の条件に基づいて発生する確率をまとめたテーブルとしてのコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）を得ることができる。

ベイジアンネットワークおよびコンディショナル確率テーブル（ＣＰＴ）について、図３を参照して説明する。ベイジアンネットワークは確率推論を行なうために適用され、特に、一部の事象のみしか観察できない不確実性を含む対象領域における予測や意思決定を定量的に取り扱うことができる。このアルゴリズムの基本は、複数の事象をノードとして設定しノード間の依存関係をモデル化するものである。

図３に示す例では、ノードとして、［Ｃｌｏｕｄｙ（曇り）］、［Ｓｐｒｉｎｋｌｅｒ（噴水）］、［Ｒａｉｎ（雨）］、［ＷｅｔＧｌａｓｓ（濡れ芝）］の４つの事象ノードを設定した例を示している。各ノードを結ぶ矢印は、矢印の出力元（親ノード）が、矢印の出力先（子ノード）の状態に影響を及ぼすことを示す。

図に示す例では、ノード［Ｃｌｏｕｄｙ（曇り）］が、
真（Ｔｒｕｅ）の確率＝０．５
偽（Ｆａｌｓｅ）の確率＝０．５
であるとする。

この場合、ノード［Ｃｌｏｕｄｙ（曇り）］を親ノードとする子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］において、Ｓｐｒｉｎｋｌｅｒ（噴水）が動作する（Ｔｒｕｅ）確率と、動作しない（Ｆａｌｓｅ）確率を、親ノード［Ｃｌｏｕｄｙ（曇り）］の状態に応じたコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）として得ることができる。図３に示すＣＰＴ１０１である。

ＣＰＴ１０１は、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が、
動作しない（Ｆａｌｓｅ）確率＝０．５
動作する（Ｔｒｕｅ）確率＝０．５
であり、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｔ（Ｔｒｕｅ）の場合、
子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が、
動作しない（Ｆａｌｓｅ）確率＝０．９
動作する（Ｔｒｕｅ）確率＝０．１
であることを示している。
ＣＰＴ１０１において、Ｐ（Ｓ＝Ｆ）は、子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が偽（Ｆａｌｓｅ）である確率（Ｐｏｓｓｉｂｉｌｉｔｙ）を示し、Ｐ（Ｓ＝Ｔ）は、子ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］が真（Ｔｒｕｅ）である確率（Ｐｏｓｓｉｂｉｌｉｔｙ）を示している。

また、ノード［Ｃｌｏｕｄｙ（曇り）］を親ノードとする子ノード［Ｒａｉｎ（雨）］において、Ｒａｉｎ（雨）である（Ｔｒｕｅ）確率と、Ｒａｉｎ（雨）でない（Ｆａｌｓｅ）確率を、親ノード［Ｃｌｏｕｄｙ（曇り）］の状態に応じたコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）として得ることができる。図３に示すＣＰＴ１０２である。

ＣＰＴ１０２は、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［Ｒａｉｎ（雨）］が、
雨でない（Ｆａｌｓｅ）確率＝０．８
雨である（Ｔｒｕｅ）確率＝０．２
であり、
親ノード［Ｃｌｏｕｄｙ（曇り）］＝Ｔ（Ｔｒｕｅ）の場合、
子ノード［Ｒａｉｎ（雨）］が、
雨でない（Ｆａｌｓｅ）確率＝０．２
雨である（Ｔｒｕｅ）確率＝０．８
であることを示している。

さらに、ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］と、ノード［Ｒａｉｎ（雨）］を親ノードとする子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］において、芝が濡れている（Ｔｒｕｅ）確率と、芝が濡れていない（Ｆａｌｓｅ）確率を、親ノードノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］と［Ｒａｉｎ（雨）］の状態に応じたコンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）として得ることができる。図３に示すＣＰＴ１０３である。

ＣＰＴ１０３は、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｆ（Ｆａｌｓｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝１．０
芝が濡れている（Ｔｒｕｅ）確率＝０．０
であり、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｔ（Ｔｒｕｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｆ（Ｆａｌｓｅ）の場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝０．１
芝が濡れている（Ｔｒｕｅ）確率＝０．９
であり、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｆ（Ｆａｌｓｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｔ（Ｔｒｕｅ）の場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝０．１
芝が濡れている（Ｔｒｕｅ）確率＝０．９
であり、
親ノード［Ｓｐｒｉｎｋｌｅｒ（噴水）］＝Ｔ（Ｔｒｕｅ）
親ノード［Ｒａｉｎ（雨）］＝Ｔ（Ｔｒｕｅ）場合、
子ノード［ＷｅｔＧｌａｓｓ（濡れ芝）］が、
芝が濡れていない（Ｆａｌｓｅ）確率＝０．０１
芝が濡れている（Ｔｒｕｅ）確率＝０．９９
であることを示している。

このように子ノードでのそれぞれの結果が生じる確率を親ノードのコンディションの確率に依存した分布を示すテーブルとして設定したテーブルが、コンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）である。このようにベイジアンネットワークを適用することで、ある原因が生じたという条件のもとである結果が得られる条件付確率の表としてのＣＰＴを取得することができる。

本発明の構成では、各情報（状態、行動、報酬、観測）に含まれる要素の依存関係を、ベイジアンネットワークを利用して表現し、かつ、各情報（状態、行動、報酬、観測）および各要素のＣＰＴを学習によって算出してファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する。

本発明の情報処理装置におけるファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）生成処理アルゴリズムの重要処理ステップとしては、以下の処理ステップがある。
［ステップ１］：１つの観測要素［ｎ_ｏｂｓ］を含むベイジアンネットワークを各観測要素［ｎ_ｏｂｓ］各々について個別に構成する。
［ステップ２］：ステップ１で設定した１つの観測要素［ｎ_ｏｂｓ］を含む複数のベイジアンネットワークを合成して１つの合成ベイジアンネットワークを構成する。
［ステップ３］：異なる事象観測時間の間の接続として、たとえば、状態（Ｓｔａｔｅ）と、行動（Ａｃｔｉｏｎ）などの間の接続を決定する。
［ステップ４］：生成したベイジアンネットワークに基づいてファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を完成させる。

以上の［ステップ１〜４］によって、図２に示すような要素間の関連性を示す矢印と、各要素間の影響を示す発生確率等が設定されたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）が構築される。各ステップの処理について、図を参照して説明する。なお、以下の具体例の説明では、
観測（Ｏｂｓｅｒｖａｔｉｏｎ）の要素として、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素、
観測（Ｏｂｓｅｒｖａｔｉｏｎ）以外の情報における要素として、［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素、
これらの要素を設定した処理例について説明する。

［ステップ１］
ステップ１の処理について、図４、図５を参照して説明する。ステップ１は、１つの観測要素［ｎ_ｏｂｓ］を含むベイジアンネットワークを各観測要素［ｎ_ｏｂｓ］各々について個別に構成する処理である。図４、図５には、観測要素各々について、個別にベイジアンネットワークを設定した例を示している。

図４、図５の例においては、
図４、図５の（Ａ）に示すように、観測要素としては、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素を設定している。これらは、例えばカメラやマイクなどによって観測される個別の要素である。
一方、観測要素以外の要素としては、［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素を設定している。これらの要素はそれぞれ個別の独立した状態が設定可能な要素である。本例では、状態（Ｓｔａｔｅ）に属する要素である。［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素は、相互に依存関係が存在する場合もあるが。観測要素相互においては、依存関係は存在しない。すなわち、観測要素間を結ぶ矢印は設定されない。

このような条件の下で、学習サンプルデータを適用して各要素間の依存関係を検証する。この要素間の依存関係の検証処理に、ベイジアンネットワークの構造学習アルゴリズムを適用する。具体的には、例えば、ベイジアンネットワークの構造学習アルゴリズムとして知られているＫ２アルゴリズムを適用した処理を実行する。

Ｋ２アルゴリズムは、
（Ｓ１）各ノードについて、親ノードになる候補を選択し、子ノードを１つ選択して、その選択子ノードの親となり得る親ノード候補を１つずつ選択して有向グラフを設定する。
（Ｓ２）生成したグラフに基づいてパラメータを決定した評価を実行し、評価の高い親ノード候補のみを親ノードとして設定する。
これらの処理によって、各要素間の依存関係を構築する処理として実行される。

本処理例では、観測要素として［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］、その他の要素として［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素をノードとして設定し、観測要素としての［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の各々について個別に上記アルゴリズムに従った処理を実行する。

この処理結果が、図４、図５に示す（Ｂ１）〜（Ｂ４）である。すなわち、
（Ｂ１）は、観測要素としての［ＦａｃｅＤｉｒ］と、状態要素としての［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムとして知られているＫ２アルゴリズムを適用した処理を実行した結果であり、観測要素としての［ＦａｃｅＤｉｒ］は、［Ｐｌａｙｅｒ］と［Ｃｈａｎｎｅｌ］を親ノード（ｐａｒｅｎｔ）とした子ノード（ｃｈａｉｌｄ）であることが解析される。

（Ｂ２）は、観測要素としての［Ｍｏｖｅｍｅｎｔ］と、その他の要素［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムを実行した結果であり、観測要素としての［Ｍｏｖｅｍｅｎｔ］は、［Ｐｌａｙｅｒ］と［Ｉｎｔｅｎｔｉｏｎ］を親ノード（ｐａｒｅｎｔ）とした子ノード（ｃｈａｉｌｄ）であることが解析される。

図５に示す（Ｂ３）は、観測要素としての［ＦａｃｅＳｉｚｅ］と、その他の要素としての［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムを実行した結果であり、観測要素としての［ＦａｃｅＳｉｚｅ］は、［Ｐｌａｙｅｒ］と［Ｃｈａｎｎｅｌ］を親ノード（ｐａｒｅｎｔ）とした子ノード（ｃｈａｉｌｄ）であることが解析される。

図５に示す（Ｂ４）は、観測要素としての［Ｓｐｅｅｃｈ］と、その他の要素としての［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムを実行した結果であり、観測要素としての［Ｓｐｅｅｃｈ］は、［Ｓｉｇｎａｌ］を親ノード（ｐａｒｅｎｔ）とした子ノード（ｃｈａｉｌｄ）であることが解析される。

［ステップ２］
次にステップ２の処理について、図６、図７を参照して説明する。ステップ２は、ステップ１で設定した１つの観測要素［ｎ_ｏｂｓ］を含む複数のベイジアンネットワークを合成して１つの合成ベイジアンネットワークを構成する処理である。

ステップ１では、観測（Ｏｂｓｅｒｖａｔｉｏｎ）要素として、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素各々の個別の４つのベイジアンネットワークを生成した。ステップ２では、この４つのベイジアンネットワークを１つの大きなベイジアンネットワークに組み合わせる処理を行なう。

組み合わせ手法としては、様々な手法がある。図６、図７には、組み合わせ例を３種類（ｃ１）〜（ｃ３）示してある。これらは、それぞれ、観測（Ｏｂｓｅｒｖａｔｉｏｎ）要素として、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素に対する入力矢印の最大数［Ｍａｘ−Ｆａｎ−Ｉｎ］を（ｃ１）＝１、（ｃ２）＝２、（ｃ３）＝３として設定した例である。

すなわち、観測（Ｏｂｓｅｒｖａｔｉｏｎ）要素として、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素に対する影響を及ぼす親ノードの数を、最大１つ、または２つ、または３つとして設定した例である。

例えば、（ｃ１）に示す例では、観測（Ｏｂｓｅｒｖａｔｉｏｎ）要素として、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素に対する入力矢印の最大数［Ｍａｘ−Ｆａｎ−Ｉｎ］を１としている。図４、図５に示す要素別のベイジアンネットワークにおいては、複数の矢印が設定されている観測要素があるが、例えばこれらの矢印の示す親ノードと子ノードの関係において、最も評価の高い親ノードのみを選択して設定される。

（ｃ２）に示す例は、観測（Ｏｂｓｅｒｖａｔｉｏｎ）要素として、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素に対する入力矢印の最大数［Ｍａｘ−Ｆａｎ−Ｉｎ］を２とし、図７の（ｃ３）に示す例は３とした例である。このように異なるベイジアンネットワーク（ｃ１）〜（ｃ３）が設定可能である。例えば、より多くの要素間の関連性を考慮したい場合は、（ｃ３）のようなネットワーク構成を適用することが望ましい。計算量の削減を望む場合には、（ｃ１）のような形式のネットワークを適用すればよい。このように処理に応じて適用するネットワークを選択することが可能である。

ステップ２において設定するベイジアンネットワーク（ｃ１）〜（ｃ３）は、いずれも、１つの事象空間、すなわち、図２の例では、時間Ｔ＝ｔ、または時間Ｔ＝ｔ＋１の事象空間で設定したベイジアンネットワークである。これをイントラネットワークと称する。次に、ステップ２で設定した複数の異なる事象空間のイントラネットワークに含まれる情報、要素間の関連性を設定することが必要となる。この処理がステップ３で実行される。

［ステップ３］
次にステップ３の処理について、図８を参照して説明する。ステップ３は、異なる事象観測時間の間の接続として、たとえば、状態（Ｓｔａｔｅ）と、行動（Ａｃｔｉｏｎ）などの間の接続を決定する処理である。具体的には、図２に示す時間Ｔ＝ｔ−１と時間Ｔ＝ｔの要素間の関連性に基づく接続を設定する処理である。この処理もベイジアンネットワークにより、学習サンプルデータを適用して各要素間のＣＰＴを算出する処理によって実行される。

図８には、ステップ１，２の処理で構築した時間Ｔ＝ｔのベイジアンネットワーク、および時間Ｔ＝ｔ＋１のベイジアンネットワークを示している。ステップ３では、時間Ｔ＝ｔ、および時間Ｔ＝ｔ＋１のベイジアンネットワーク間の要素の関連性を解析して、接続関係を設定する。例えば、図８に太線で示す８本の接続線（Ｌ１〜Ｌ８）が得られる。

なお、１つの事象観察領域である、例えば時間Ｔ＝ｔなどの閉じられたネットワークをイントラネットワーク、図８に示すように、複数の異なる事象観察領域である例えば、時間Ｔ＝ｔおよびＴ＝ｔ＋１のネットワークをインターネットワークと呼ぶ。また、インターネットワークに対応するベイジアンネットワークをダイナミック・ベイジアンネットワーク（ＤＢＮ）と呼ぶ。

ステップ１、ステップ２では、イントラネットワークとしてのベイジアンネットワークにおいて、コンディショナル確率テーブル（ＣＰＴ）を生成して、親ノードと子ノードとして設定される各要素間の接続を決定し、ステップ３では、インターネットワークとしてのダイナミック・ベイジアンネットワークにおいて、コンディショナル確率テーブル（ＣＰＴ）を生成して、親ノードと子ノードとして設定される各要素間の接続を決定する。この結果、図８に示すような接続関係の設定されたダイナミック・ベイジアンネットワークが設定される。

［ステップ４］
次に、ステップ４の処理について、図９を参照して説明する。ステップ４では、ステップ３で生成したダイナミック・ベイジアンネットワークに基づいて、接続関係の設定された各要素を、各情報カテゴリ（状態、行動、報酬、観測）にまとめて、それぞれの要素間の関係、例えば、状態遷移確率算出関数：Ｔ（ｓ_ｔ＋１，ａ_ｔ，ｓ_ｔ）＝Ｐ（ｓ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）、観測状態確立関数：Ｏ（ｓ_ｔ＋１，ａ_ｔ，ｏ_ｔ）＝Ｐ（ｏ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）等の確率関数を各要素ごとに定義する。これらは、先に図３を参照して説明したＣＰＴに基づいて決定する。すなわち、学習サンプルデータを用いた学習によって、ベイジアンネットワークを構成するノードについて、個別の条件に基づいて発生する確率をまとめたテーブルとして、コンディショナル確率テーブル（ＣＰＴ）を作成することで得ることができる。

図９に示す例では、［ＦａｃｅＤｉｒ］［Ｍｏｖｅｍｅｎｔ］［ＦａｃｅＳｉｚｅ］［Ｓｐｅｅｃｈ］の４要素を観測（Ｏｂｓｅｒｖａｔｉｏｎ）要素１５１としてまとめ、［Ｐｌａｙｅｒ］［Ｉｎｔｅｔｉｏｎ］［Ｃｈａｎｎｅｌ］［Ｓｉｇｎａｌ］の４要素を状態（Ｓｔａｔｅ）要素１５２としてまとめ、これらの各要素について、状態遷移確率算出関数：Ｔ（ｓ_ｔ＋１，ａ_ｔ，ｓ_ｔ）＝Ｐ（ｓ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）、観測状態確立関数：Ｏ（ｓ_ｔ＋１，ａ_ｔ，ｏ_ｔ）＝Ｐ（ｏ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）等の確率関数を定義する。

以上の処理によって、各情報カテゴリ（状態、行動、報酬、観測）に含まれる要素の依存関係を明確にしたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰまたはＦ−ＰＯＭＤＰ）、すなわち、図２に示すようなファクタＰＯＭＤＰを構築することができる。このような要素単位の依存関係が明確になったファクタＰＯＭＤＰを適用して状態遷移の予測や、行動決定処理を実行することで、要素単位の確率、要素間の因果関係を明確に区別した処理が可能となり、より現実に即した処理が可能となる。

なお、上述した処理においては、要素間の関連性解析に際して、学習サンプルデータを適用したベイジアンネットワークによる学習によって、コンディショナル確率テーブル（ＣＰＴ：ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂａｂｉｌｉｔｙＴａｂｌｅｓ）を算出して、親ノードと子ノードとの関連を求める構成としているが、ベイジアンネットワークは、先に説明したように、確率変数の依存関係を有向グラフの形式で表現したものであり、各要素間の関連は、矢印の出力元（親ノード）と矢印の出力先（子ノード）に対応する親（ｐａｒｅｎｔ）、子（ｃｈｉｌｄ）を定義することによって表現することができる。

ベイジアンネットワークをデータとして表現する場合、向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）として表現することができる。ＤＡＧの例を図１０に示す。図１０（ａ）は、インターネットワーク、すなわち、図８、図９を参照して説明した複数の異なる（例えば時間Ｔ＝ｔとＴ＝ｔ＋１）事象観察領域相互の要素間の関係を含むダイナミック・ベイジアンネットワークに対応するＤＡＧ（向き付き非循環路グラフ）、すなわちインターＤＡＧ（ＩｎｔｅｒＤＡＧ）であり、図１０（ｂ）は、イントラネットワーク、すなわち、図６、図７を参照して説明した１つの（例えば時間Ｔ＝ｔ）の事象観察領域の要素間のみの関係を含むベイジアンネットワークに対応するＤＡＧ（向き付き非循環路グラフ）、すなわちイントラＤＡＧ（ＩｎｔｅｒＤＡＧ）である。

ＤＡＧにおいては、先に説明したベイジアンネットワークの矢印の出力元（親：ｐａｒｅｎｔ）を縦軸に設定し、矢印の出力先（子：ｃｈｉｌｄ）を横軸に設定し、矢印がある、すなわち親子の関連性があると判断された場合は［１］を設定し、無いと判断された場合は［０］を設定することで、各ノード間の関連性を明確にしたデータである。

図に示すＤＡＧにおいて、親（ｐａｒｅｎｔ）、子（ｃｈｉｌｄ）のフィールドに示す［ｎａｃｔ］は、行動（ａｃｔｉｏｎ）の要素数（ｎｕｍｂｅｒ）、［ｎｓｔ］は状態（ｓｔａｔｅ）の要素数、［ｎｒｅｗ］は、報酬（ｒｅｗａｒｄ）の要素数、［ｎｏｂｓ］は観測（ｏｂｓｅｒｖａｔｉｏｎ）の要素数を示している。図は、簡略化して示しており、各要素名を示していないが、それぞれの要素数に応じた要素名、あるいは要素識別子がそれぞれ親ノードを示す縦フィールドと、子ノードを示す横フィールドに設定され、それぞれのノード間に関連性があると判断された場合［１］が設定される。

すなわち、学習サンプルデータを適用したベイジアンネットワークの学習によって、各要素間に親子の関連性があるか否かの判定が実行され、ある特定の子ノードに対して特定のノードの影響があると診断された場合、そのノードを親ノードであると判断して、そのＤＡＧの対応エリアに［１］を記録していく処理を行なう。様々な学習サンプルデータを適用した学習を実行することで、ＤＡＧのエリアを［１］［０］で埋めることが可能となり、各ノード（要素）間の関連性（ベイジアンネットワークにおける矢印）の有無が決定されることになる。

次に、図１１〜図１３に示すフローチャートを参照して、本発明に従ったファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）構築シーケンスについて説明する。図１１に示すフローチャートは、本発明に従ったファクタＰＯＭＤＰ構築シーケンスの全体処理フローであり、図１２に示すフローチャートは、図１１に示すフロー中のステップＳ１２０の詳細を示すフローであり、図１３に示すフローチャートは、図１１に示すフロー中のステップＳ１３０の詳細を示すフローである。

まず、図１１に示すフローチャートを参照して、本発明に従ったファクタＰＯＭＤＰ構築シーケンスの全体処理シーケンスについて説明する。図１１に示すフローのステップＳ１１０では、まず、基本的なファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）のモデル、すなわち構成を決定する。具体的には、ＰＯＭＤＰにおいて規定される情報（状態、行動、報酬、観測）各々に含まれる要素を決定する。この要素の決定に際しては、要素の種類および各要素のサイズなどの要素情報を設定する。

要素サイズとは、要素のとり得る状態数に相当する値である。例えば図２に示すファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構成例において、観測（Ｏｂｓｅｒｖａｔｉｏｎ）の要素として設定される［フェイス］を例にして説明する。例えば観測対象としてのロボットの顔の向きが正面を向いている（Ｔｒｕｅ）か、否か（Ｆａｌｓｅ）の２状態が判定可能である場合、この要素［フェイス］のサイズは［２］と設定する。

さらに、ステップＳ１１０では、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の基本構成として、先に図６、図７を参照して説明した要素に対する入力矢印の最大数［Ｍａｘ−Ｆａｎ−Ｉｎ］を決定する。すなわち、ステップＳ１１０では、ＰＯＭＤＰにおいて定義される各情報に含まれる要素の種類を含む要素情報と、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数（Ｍａｘ−Ｆａｎ−Ｉｎ）情報を入力し、以下、これらの入力情報に従って、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構築処理を実行する。

ステップＳ１２０、およびステップＳ１３０では、予め用意された学習データ１８０を適用してイントラネットワーク対応のベイジアンネットワークおよびインターネットワーク対応のダイナミック・ベイジアンネットワークの学習を行う。この処理は、ステップＳ１１０において設定された要素間の関連を解析して要素間の対応を明確にする処理、すなわち、図２に示すファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）構成における矢印を設定し、関要素間の関係を明確化する処理である。

なお、ステップＳ１２０では、１つの事象観察領域（図２における時間Ｔ＝ｔなどの単一時間）でのファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）構成における要素間の対応を解析する処理、ステップＳ１３０では、異なる事象観察領域でのファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）構成における要素間の対応を解析する処理が実行されることになる。前述したステップ１とステップ２におけるイントラネットワーク対応の処理が、図１１におけるステップＳ１２０の処理に対応し、前述したステップ３におけるインターネットワーク対応の処理が、図１１におけるステップＳ１３０の処理に対応する。

すなわち、ステップＳ１２０は、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）において定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワークを構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築するイントラ・ベイジアンネットワーク生成ステップであり、ステップＳ１３０は、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築するダイナミック・ベイジアンネットワーク生成ステップである。

なお、ステップＳ１２０のイントラ・ベイジアンネットワーク生成ステップ、およびステップＳ１３０のダイナミック・ベイジアンネットワーク生成ステップでは、要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて向き付き非循環路グラフ（ＤＡＧ）の更新処理を実行してベイジアンネットワークを完成させる。このステップＳ１２０、ステップＳ１３０の処理の詳細については、図１２、図１３のフローチャートを参照して後段で詳細に説明する。

ステップＳ１４０では、ステップＳ１２０、Ｓ１３０の処理の結果に基づいて、図２に示すようなファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を完成させる。すなわち、ダイナミック・ベイジアンネットワーク（ＤＢＮ）に基づいてファクタＰＯＭＤＰを構築する。なお、この処理に際しては、各情報（状態、行動、報酬、観測）や、各要素間の具体的な関係度合い、すなわち、矢印の出力元（ｐａｒｅｎｔ）の要素に基づく矢印の出力先（ｃｈｉｌｄ）の要素の発生確率をまとめたテーブルとしてのＣＰＴ（ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂｓｂｉｌｉｔｙＴａｂｌｅ）に基づいて、情報、要素間の関連を示す関係式、例えば前述した状態遷移確率算出関数：Ｔ（ｓ_ｔ＋１，ａ_ｔ，ｓ_ｔ）＝Ｐ（ｓ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）や、観測状態確立関数：Ｏ（ｓ_ｔ＋１，ａ_ｔ，ｏ_ｔ）＝Ｐ（ｏ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）等の確率関数を設定する。

これらの処理によって、例えば、図２に示すようなファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築することができる。このような要素単位の依存関係が明確になったファクタＰＯＭＤＰを適用して状態遷移の予測や、行動決定処理を実行することで、要素単位の確率、要素間の因果関係を明確に区別した処理が可能となり、より現実に即した処理が可能となる。

次に、ステップＳ１２０の処理の詳細について、図１２に示すフローチャートを参照して説明する。ステップＳ１２１では、ステップＳ１１０で設定したモデルが学習サンプルデータ１８０を適用した学習が可能なモデルであるか否かを判定する。学習サンプルデータ１８０は、情報処理装置の利用可能なデータベースなどの記憶部に記録された格納データである。行動（Ａｃｔｉｏｎ）、状態（Ｓｔａｔｅ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）の各情報を構成可能な要素情報や、要素同士の依存関係を示すサンプルデータが蓄積されている。ステップＳ１２１では、ステップＳ１１０において設定した要素間の関係を構築するために必要な情報が、学習サンプルデータ１８０に含まれているか否かを判定する。含まれていない場合は、学習サンプルデータ１８０を適用した学習は不可能となり、処理は終了する。

ステップＳ１２１において、ステップＳ１１０において設定した要素間の関係を構築するために必要な情報が、学習サンプルデータ１８０に含まれていると判断すると、ステップＳ１２２に進む。ステップＳ１２２では、先に図１０を参照して説明したベイジアンネットワークのノード間の関係（矢印）の有無を示す向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）をリセットする。この時点では、図１０（ｂ）に示すイントラネット対応のＤＡＧの作成処理が行われる。

ステップＳ１１０において決定された要素名を、ＤＡＧの縦フィールド（親：ｐａｒｅｎｔ）と、横フィールド（子：ｃｈｉｌｄ）の各フィールドに設定して、矢印の有無を示すＤＡＧの設定値をすべて［０］（関連（矢印）なし）の設定とするリセット処理（初期化）を行なう。

次に、ステップＳ１２３〜Ｓ１２５は、学習サンプルデータを適用したイントラ・ベイジアンネットワークの学習処理である。この処理は、先に、図４〜図７を参照して説明した処理に相当する。まず、ステップＳ１２３において、図４、図５を参照して説明したように、１つの観測要素［ｎ_ｏｂｓ］に対応する観測要素データ（ｉ）を選択する。ｉは観測要素の識別番号に相当する。

ステップＳ１２４において、学習サンプルデータを適用した学習処理を実行し、各要素（ノード）間の関連性を判定して、矢印の有無を判断し、ステップＳ１２５において、関連あり（矢印あり）の判断がなされたノードの組み合わせが検出された場合は、ＤＡＧのデータを更新、すなわち、ＤＡＧの対応エントリに［１］を設定する。

ステップＳ１２６において、全ての観測要素データに対応する処理が終了したか否かを判定し、未処理の観測要素がある場合は、ステップＳ１２７において観測要素の識別番号としてのｉをインクリメントして、ステップＳ１２３以下の処理を繰り返し実行する。これらの処理によって、すべての観測要素に対応する学習処理が終了すると、イントラネットの個別の観測要素に対応する複数のベイジアンネットワークが完成する。すなわち、図４、図５を参照して説明したネットワークである。ただし、ここで実際にデータ処理として実行しているのはＤＡＧの生成処理であり、これらの処理によって、各観測要素に対応するＤＡＧが得られることになる。

次に、ステップＳ１３０の処理を実行する、ステップＳ１３０の処理の詳細について、図１３に示すフローチャートを参照して説明する。まず、ステップＳ１３１において、ステップＳ１２０において生成した各観測要素（ｉ）に対応するＤＡＧを組み合わせて、全観測要素を組み合わせたＤＡＧを生成する。この処理は、先に図６、図７を参照して説明したベイジアンネットワークの生成に相当する。なお、予めステップＳ１１０において、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の基本構成として、要素に対する入力矢印の最大数［Ｍａｘ−Ｆａｎ−Ｉｎ］が決定されているので、その決定された入力矢印の最大数［Ｍａｘ−Ｆａｎ−Ｉｎ］の制限の下に全観測要素を組み合わせたＤＡＧが生成される。

ここで生成されるＤＡＧは、イントラネットワーク対応のＤＡＧである。次に、ステップＳ１３２において、全ての［状態（Ｓ）］、［行動（Ａ）］、［観測（Ｏ）］
についての要素データを組み合わせてインターネットワーク対応のＤＢＮ構成を設定する。この時点では、異なる事象観察領域の関連（矢印）は設定されていない。すなわち、図８に示すＤＢＮにおける太線で示す矢印（Ｌ１〜Ｌ８）は設定されていない。

次に、ステップＳ１３３において、学習サンプルデータ１１０を適用した学習により、異なるイントラネット間の要素間の関連を解析しインターＤＡＧの基本構成を決定する。この処理よって、図８に示すＤＢＮにおける太線で示す矢印（Ｌ１〜Ｌ８）が設定される。次に、ステップＳ１３４において、報酬［Ｒｅｗａｒｄ］を計算可能なイントラＤＡＧおよびインターＤＡＧを完成させる。この処理においては、報酬（Ｒｅｗａｒｄ）に要素が設定されている場合、各要素についての報酬算出式を設定する処理として実行される。

以上の処理によって、複数の事象観測領域間の情報や要素の関係を明確化したインターネットワーク対応のベイジアンネットワーク、すなわちダイナミック・ベイジアンネットワーク（ＤＢＮ）が生成される。

これらの処理の後、図１１に示すフローのステップＳ１４０の処理、すなわち、ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を完成させる処理が実行される。すなわち、各情報（状態、行動、報酬、観測）や、各要素間の具体的な関係度合い、すなわち、矢印の出力元（ｐａｒｅｎｔ）の要素に基づく矢印の出力先（ｃｈｉｌｄ）の要素の発生確率をまとめたテーブルとしてのＣＰＴ（ＣｏｎｄｉｔｉｏｎａｌＰｒｏｂｓｂｉｌｉｔｙＴａｂｌｅ）に基づいて、情報、要素間の関連を示す関係式、例えば前述した状態遷移確率算出関数：Ｔ（ｓ_ｔ＋１，ａ_ｔ，ｓ_ｔ）＝Ｐ（ｓ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）や、観測状態確立関数：Ｏ（ｓ_ｔ＋１，ａ_ｔ，ｏ_ｔ）＝Ｐ（ｏ_ｔ＋１｜ａ_ｔ，ｓ_ｔ）等の確率関数を設定する。

上述したファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の生成処理を実行する情報処理装置の機能構成について、図１４を参照して説明する。図１４は、ファクタＰＯＭＤＰの生成処理を実行する情報処理装置の機能構成を示すブロック図である。情報処理装置２００は一般的なＰＣ構成と同様の構成によって実現される。なお、ハードウェア構成の具体例については、後段で説明する。情報処理装置２００は、データ入出力部としてのユーザインタフェース２０１、データ処理部２０２、記憶部２０３、学習サンプルデータを格納したデータベース２０４を有する。

ユーザインタフェース２０１を介してファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の生成処理の開始コマンドや、あるいはノードに対応する要素情報などの構成情報、ノード間の関係情報、報酬（Ｒｅｗａｒｄ）の算出式情報などが入力される。データ処理部２０２は、先に図１１〜図１３のフローチャートを参照して説明したファクタＰＯＭＤＰの生成処理を実行する。記憶部２０３には、図１１〜図１３のフローチャートを参照して説明したファクタＰＯＭＤＰの生成処理を実行するプログラムが格納され、データ処理部２０２を構成するＣＰＵにおいて、プログラムに従った処理が実行される。

このファクタＰＯＭＤＰの生成処理において適用する学習サンプルデータはデータベース２０４に格納されており、データ処理部２０２は、適宜、データベース２０４から学習サンプルデータを読み込んでファクタＰＯＭＤＰの生成処理を実行する。なお、この処理において生成するベイジアンネットワークに相当する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）は記憶部２０３に記録され、必要に応じて更新される。

データ処理部２０２の実行する処理を具体的に説明する。データ処理部２０２は、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を基本構成として、ＰＯＭＤＰにおいて定義される各情報に含まれる要素を単位として、要素間の関係を解析し、該解析結果に基づいて、要素間の関係情報を含むＰＯＭＤＰであるファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構築を実行する。

例えば、データ処理部２０２は、ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々と、ＰＯＭＤＰにおいて定義される観測以外の情報である状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、報酬（Ｒｅａｒｄ）の少なくともいずれかに含まれる要素との関連性を学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行し、その後、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築し、さらに、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築する処理を実行する。これらの処理は、データベース２０４から学習サンプルデータを読み込んで学習処理を行なって実行される。

すなわち、データ処理部２０２は、ベイジアンネットワークに対応する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて向き付き非循環路グラフ（ＤＡＧ）の更新処理を実行して要素間の関係を解析してファクタＰＯＭＤＰを構築する。なお、これらの処理に先立ち、データ処理部２０２は、ＰＯＭＤＰにおいて定義される各情報に含まれる要素の種類を含む要素情報と、ファクタＰＯＭＤＰの構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数（Ｍａｘ−Ｆａｎ−Ｉｎ）情報を入力し、該入力情報に従って、ファクタＰＯＭＤＰを構築する。

最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図１５を参照して説明する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、学習サンプルデータを適用したベイジアンネットワークの生成によるファクタＰＯＭＤＰの構築処理を実行する。これらの処理は、各情報処理装置のＲＯＭ、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２は、ＣＰＵ５０１が使用するプログラム、すなわちファクタＰＯＭＤＰ生成処理プログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３は、ＣＰＵ５０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス５０４により相互に接続されている。

ホストバス５０４は、ブリッジ５０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス５０６に接続されている。

キーボード５０８、ポインティングデバイス５０９は、ユーザにより操作される入力デバイスである。ディスプレイ５１０は、液晶表示装置またはＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などから成る。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）５１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ５０１によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば学習用サンプルデータ、ベイジアンネットワーク構成に対応するＤＡＧ情報などの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ５１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体５２１に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース５０７、外部バス５０６、ブリッジ５０５、およびホストバス５０４を介して接続されているＲＡＭ５０３に供給する。

接続ポート５１４は、外部接続機器５２２を接続するポートであり、ＵＳＢ，ＩＥＥＥ１３９４等の接続部を持つ。接続ポート５１４は、インタフェース５０７、および外部バス５０６、ブリッジ５０５、ホストバス５０４等を介してＣＰＵ５０１等に接続されている。通信部５１５は、ネットワークに接続されている。学習用サンプルデータは通信部５１５を介して入力する構成としてもよい。

なお、図１５に示す情報処理装置のハードウェア構成例は、ＰＣを適用して構成した装置の一例であり、図１５に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは記録媒体としてのハードディスクやＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＭＯ（Ｍａｇｎｅｔｏｏｐｔｉｃａｌ）ディスク，ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を基本構成として、ＰＯＭＤＰにおいて定義される状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、観測（Ｏｂｓｅｒｖａｔｉｏｎ）、報酬（Ｒｅｗａｒｄ）の各情報について、それぞれ複数の異なる要素（ファクタ）を設定し、要素間の関係を明確にしたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を自動構築することが可能となる。本発明の処理によって生成した要素単位の依存関係を明確にしたファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を適用した状態遷移予測や行動決定処理においては、要素単位の因果関係を明確に区別した処理が可能となり、より正しい状況予測や効果的な行動決定処理が可能となる。本発明によって構築されるファクタＰＯＭＤＰは、例えば、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。

従来のＰＯＭＤＰについて説明する図である。ファクタＰＯＭＤＰについて説明する図である。ベイジアンネットワークおよびコンディショナル確率テーブル（ＣＰＴ）について説明する図である。１つの観測要素［ｎ_ｏｂｓ］を含むベイジアンネットワークの構成例について説明する図である。１つの観測要素［ｎ_ｏｂｓ］を含むベイジアンネットワークの構成例について説明する図である。１つの観測要素［ｎ_ｏｂｓ］を含むベイジアンネットワークを組み合わせて構成したベイジアンネットワークの例について説明する図である。１つの観測要素［ｎ_ｏｂｓ］を含むベイジアンネットワークを組み合わせて構成したベイジアンネットワークの構成例について説明する図である。時間Ｔ＝ｔのベイジアンネットワーク、および時間Ｔ＝ｔ＋１のベイジアンネットワークを組み合わせて構成したダイナミック・ベイジアンネットワークの構成例について説明する図である。ダイナミック・ベイジアンネットワークに基づいてファクタＰＯＭＤＰを完成させる処理例について説明する図である。ベイジアンネットワークをデータとして表現する場合、向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）の例について説明する図である。ファクタＰＯＭＤＰ構築シーケンスについて説明するフローチャートを示す図である。ファクタＰＯＭＤＰ構築シーケンスについて説明するフローチャートを示す図である。ファクタＰＯＭＤＰ構築シーケンスについて説明するフローチャートを示す図である。情報処理装置の機能構成について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

符号の説明

１０１〜１０３コンディショナル確率テーブル（ＣＰＴ）
１５１観測要素
１５２状態要素
１８０学習サンプルデータ
２００情報処理装置
２０１ユーザインタフェース
２０２データ処理部
２０３記憶部
２０４データベース
５０１ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
５０２ＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ）
５０３ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
５０４ホストバス
５０５ブリッジ
５０６外部バス
５０７インタフェース
５０８キーボード
５０９ポインティングデバイス
５１０ディスプレイ
５１１ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）
５１２ドライブ
５１４接続ポート
５１５通信部
５２１リムーバブル記録媒体
５２２外部接続機器

Claims

不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を基本構成として、ＰＯＭＤＰにおいて定義される各情報に含まれる要素を単位として、要素間の関係を解析し、該解析結果に基づいて、要素間の関係情報を含むＰＯＭＤＰであるファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構築を実行するデータ処理部を有することを特徴とする情報処理装置。
前記データ処理部は、
ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）に含まれる観測要素各々についてのベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を構築し、該観測要素単位のベイジアンネットワークを組み合わせて、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する構成であることを特徴とする請求項１に記載の情報処理装置。
前記データ処理部は、
ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々と、ＰＯＭＤＰにおいて定義される観測以外の情報である状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、報酬（Ｒｅａｒｄ）の少なくともいずれかに含まれる要素との関連性を学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記データ処理部は、
ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワークを構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築し、さらに、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築する処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記データ処理部は、
複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行する構成であることを特徴とする請求項４に記載の情報処理装置。
前記データ処理部は、
前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ（ＤＡＧ）の更新処理を実行して要素間の関係を解析して前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する構成であることを特徴とする請求項１に記載の情報処理装置。
前記データ処理部は、
前記ＰＯＭＤＰにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数（Ｍａｘ−Ｆａｎ−Ｉｎ）情報を入力し、該入力情報に従って、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を構築する構成であることを特徴とする請求項１に記載の情報処理装置。
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
データ処理部において、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）において定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築するイントラ・ベイジアンネットワーク生成ステップと、
データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築するダイナミック・ベイジアンネットワーク生成ステップと、
データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、ＰＯＭＤＰにおいて定義される情報の要素の関係情報を含むファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を生成するファクタＰＯＭＤＰ生成ステップと、
を有することを特徴とする情報処理方法。
前記イントラ・ベイジアンネットワーク生成ステップは、
ＰＯＭＤＰにおいて定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）に含まれる観測要素各々と、ＰＯＭＤＰにおいて定義される観測以外の情報である状態（Ｓｔａｔｅ）、行動（Ａｃｔｉｏｎ）、報酬（Ｒｅａｒｄ）の少なくともいずれかに含まれる要素との関連性を、学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行するステップを含むことを特徴とする請求項８に記載の情報処理方法。
前記ダイナミック・ベイジアンネットワーク生成ステップは、
複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行することを特徴とする請求項８に記載の情報処理方法。
前記イントラ・ベイジアンネットワーク生成ステップ、および前記ダイナミック・ベイジアンネットワーク生成ステップでは、前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ（ＤＡＧ：ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ）を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ（ＤＡＧ）の更新処理を実行して要素間の関係を解析することを特徴とする請求項８に記載の情報処理方法。
前記情報処理方法は、さらに、
前記データ処理部において、前記ＰＯＭＤＰにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数（Ｍａｘ−Ｆａｎ−Ｉｎ）情報を入力し、該入力情報に従って、前記ファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の構築処理を実行することを特徴とする請求項８に記載の情報処理方法。
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
データ処理部において、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）において定義される情報である観測（Ｏｂｓｅｒｖａｔｉｏｎ）情報に含まれる観測要素各々についてのベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築させるイントラ・ベイジアンネットワーク生成ステップと、
データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築させるダイナミック・ベイジアンネットワーク生成ステップと、
データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、ＰＯＭＤＰにおいて定義される情報の要素の関係情報を含むファクタＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）を生成させるファクタＰＯＭＤＰ生成ステップと、
を実行させることを特徴とするコンピュータ・プログラム。