JP5070860B2

JP5070860B2 - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP5070860B2
Application number: JP2007020470A
Authority: JP
Inventors: プロフィオウゴティ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-01-31
Filing date: 2007-01-31
Publication date: 2012-11-14
Anticipated expiration: 2027-01-31
Also published as: US20080183652A1; US8095493B2; JP2008186326A

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、ある入力データ、例えば属性情報とその値を対応付けた属性データ（Ａｔｔｒｉｂｕｔｅ−Ｖａｌｕｅ）に基づいて部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を生成する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

状態予測や行動決定手法の１つとして、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を適用した処理が知られている。部分観測マルコフ決定過程（以下ＰＯＭＤＰ）の概要について説明する。

ＰＯＭＤＰは、以下の情報を適用した状態予測や行動決定を行なう手法である。
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
これらの各情報が、時間（ｔ）の経過に伴って推移するものとし、
例えば状態遷移確率の算出関数や、報酬の算出関数、ある観測状態の発生確率を算出する関数などを定義して、取得可能な情報と、定義関数に基づいて状態予測や行動決定を実行する。

関数としては、例えば、時間Ｔ＝（ｔ−１）の状態Ｓ＝ｓ_ｔ−１と行動Ａ＝ａ_ｔ−１から、次の時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔへの状態遷移確率を算出する状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）
時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔと行動Ａ＝ａ_ｔからの報酬（Ｒｅｗａｒｄ）を算出する報酬関数：Ｒ（ｓ_ｔ，ａ_ｔ）
時間Ｔ＝（ｔ−１）の行動Ａ＝ａ_ｔ−１と、時間Ｔ＝（ｔ）の状態Ｓ＝ｓ_ｔとから時間Ｔ＝（ｔ）の観測状態の発生確率を算出する観測状態確率関数：Ｏ（ｓ_ｔ，ａ_ｔ−１，ｏ_ｔ−１）＝Ｐ（ｏ_ｔ｜ａ_ｔ−１，ｓ_ｔ）
などが定義され、利用されることになる。

ＰＯＭＤＰは、上記の各種の情報や関数を適用した状態予測や行動決定処理を行なう手法である。例えば、取得可能な少ない情報から最適と判断される行動（Ａｃｔｉｏｎ）を決定する処理などに適用され、具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。

上記の各情報を適用したＰＯＭＤＰによる状態予測や行動決定処理について、図１を参照して説明する。図１には時間Ｔ＝ｔ−１における状態ｓ_ｔ−１，行動ａ_ｔ−１、報酬Ｒ_ｔ−１、観測ｏ_ｔ−１と、その後の時間Ｔ＝ｔにおける状態ｓ_ｔ，行動ａ_ｔ、報酬Ｒ_ｔ、観測ｏ_ｔとを示している。各ブロックを結ぶ矢印は、相互の影響を示している。矢印の出力元（ｐａｒｅｎｔ）の情報や状態が矢印の出力先（ｃｈｉｌｄ）の状態や情報に変化を及ぼす可能性があることを示している。

例えば、時間Ｔ＝ｔ−１において、
報酬Ｒ_ｔ−１は、時間Ｔ＝ｔ−１の状態ｓ_ｔ−１，行動ａ_ｔ−１に基づいて、上述したように、報酬関数：Ｒ（ｓ_ｔ−１，ａ_ｔ−１）で求められる。
また、観測情報ｏ_ｔ−１は、例えば、状態ｓ_ｔ−１の変化に伴って変化する観察可能な情報である。
これらの関係は、いずれの時間Ｔ＝ｔ−１，ｔ，ｔ＋１，・・・においても同様となる。

さらに、異なる時間の関係において、時間Ｔ＝ｔにおける状態ｓ_ｔと、時間Ｔ＝ｔ−１における状態ｓ_ｔ−１および行動ａ_ｔ−１との関係は、上述した状態遷移確率算出関数：Ｔ（ｓ_ｔ，ａ_ｔ−１，ｓ_ｔ−１）＝Ｐ（ｓ_ｔ｜ａ_ｔ−１，ｓ_ｔ−１）によって対応付けられている。すなわち、時間Ｔ＝ｔにおける状態ｓ_ｔとなる確率は、前の時間Ｔ＝ｔ−１における、状態ｓ_ｔ−１および行動ａ_ｔ−１とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。

このように、ＰＯＭＤＰでは不確実性を含む対象領域において様々な情報（状態、行動、報酬、観測）を定義し、これらの情報に関連性に基づいて、不確実性を含む対象領域における状態遷移の予測や、自己の行動を決定する。行動の決定処理に際しては、例えば報酬が最も高く算出される行動を最善の行動として決定する処理を行なう。

なお、ＰＯＭＤＰの構築処理においては、情報（状態、行動、報酬、観測）間の関連性を正しく設定することが重要であり、このような処理にベイジアンネットワーク（ＢＮ：ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）が利用される。ベイジアンネットワークは、複数ノードからなり、各ノード間の関連性を定義したネットワークである。ベイジアンネットワークの生成処理、利用処理については、例えば特許文献１、特許文献２に記載されている。特許文献１および特許文献２は、ノード間の関連性を正しく設定した信頼度の高いベイジアンネットワークを生成するための処理について記載している。

例えば、図１を参照して説明したＰＯＭＤＰモデルにおいては、前述したように、
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
これらの様々な情報や、状態遷移確率の算出関数、報酬の算出関数、観測状態の発生確率の算出関数などを定義することが必要であり、ＰＯＭＤＰモデルの構築処理には専門の知識や経験が必要である。
ＵＳ公開特許２００４／０２２０８９２ＵＳ公開特許２００２／０１０３７９３

本発明は、上述の問題点に鑑みてなされたものであり、例えば放送波によって送信されるＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）など、属性情報とその値を持つ属性値データ（Ａｔｔｒｉｂｕｔｅ−Ｖａｌｕｅ）を入力して部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を自動的に生成する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

本発明の第１の側面は、
不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行するデータ処理部と、
前記データ処理部における部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルの生成処理に適用するルールを格納したルール記憶部とを有し、
前記データ処理部は、
前記属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成する構成であることを特徴とする情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記属性データに基づく質問の生成、出力処理において、回答に基づく特定オブジェクト推定が可能な推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）と、推定的アクション以外の非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記属性データに基づく質問の生成、出力処理において、前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記ルール記憶部は、部分観測マルコフ決定過程（ＰＯＭＤＰ）において規定される
（１）状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（２）観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（３）報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルール、
これらのルールの少なくともいずれかのルールを格納しており、
前記データ処理部は、
前記状態遷移関数に関するルール、観測関数に関するルール、報酬関数に関するルールの少なくともいずれかのルールを適用して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記観測関数に関するルールは、前記質問に対応する回答として得られる観測情報に基づいて、各オブジェクトに付与する確率値、すなわち、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
これらの各確率値を定義したルールであることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記観測関数に関するルールは、質問または回答の持つ意味の同一性判定結果に基づいて確率値定義がなされたルールであることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記状態遷移関数に関するルールは、推定的アクション以外のアクションの実行によって状態変化が発生しない確率［ＳＴｄｉｇ％］と、推定的アクションによって状態変化が発生しない確率［ＳＴｄｉｇｘ％］を定めたルールであることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記報酬関数に関するルールは、
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）における、
（Ａ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）における、
（Ｂ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
これらの各々に対応して設定される報酬の値を定めたルールであることを特徴とする。

さらに、本発明の第２の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
データ処理部が、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行するデータ処理ステップを有し、
前記データ処理ステップは、
前記属性データに基づく質問の生成、出力処理を行動として実行する行動ステップと、
質問に対する回答を観測情報として取得する観測情報取得ステップと、
ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成するステップと、
を有することを特徴とする情報処理方法にある。

さらに、本発明の第３の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
データ処理部に、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行させるデータ処理ステップを有し、
前記データ処理ステップは、
前記属性データに基づく質問の生成、出力処理を行動として実行させる行動ステップと、
質問に対する回答を観測情報として取得させる観測情報取得ステップと、
ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成させるステップと、
を有することを特徴とするコンピュータ・プログラムにある。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、ＣＤやＦＤ、ＭＯなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、例えば放送波によって送信されるＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）など、属性情報とその値を持つ属性値データ（Ａｔｔｒｉｂｕｔｅ−Ｖａｌｕｅ）を入力して部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を自動的に生成することが可能となる。例えば、属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを自動的に生成することが可能となる。

以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。

本発明の情報処理装置は、属性データ（Ａｔｔｒｉｂｕｔｅ−Ｖａｌｕｅ）に基づいて部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を自動的に生成する。本発明の情報処理装置では、あるデータ、例えば属性を示す属性情報とその値のセット情報からなる属性データ（Ａｔｔｒｉｂｕｔｅ−Ｖａｌｕｅ）を入力し、入力データに基づいてＰＯＭＤＰを自動生成する。

ＰＯＭＤＰの生成データとして適用可能な属性データとしては様々なデータがあるが、以下の実施例では、放送波によって送信されるＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）に含まれるデータセットを利用したＰＯＭＤＰの生成処理例について説明する。

最近のＴＶ放送はデジタルデータの送信が行なわれ、放送波を利用して放送コンテンツの提供のみならず、番組プログラム情報としてのＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）が提供されている。ＥＰＧには、番組の属性情報として番組（プログラム）の放送日時やタイトル、出演者、その他の番組情報が記録されている。ＥＰＧの一部データの構成例について図２に示す。

ＥＰＧデータは、図２に示すように、データの属性を示す属性（Ａｔｔｒｉｂｕｔｅ）とその値（Ｖａｌｕｅ）とによって構成され、［属性（Ａｔｔｒｉｂｕｔｅ）：値（Ｖａｌｕｅ）］の構成を持つ例えば以下のようなデータによって構成されている。
ｓｔａｔｉｏｎ：テレビＡＢＣ
ｙｅａｒ：２００６
ｍｏｎｔｈ：０５
ｄａｔｅ：１１
ｓｔａｒｔ：１３：３０
ｅｎｄ：１５：３０
ｐｒｏｇｒａｍ−ｔｉｔｌｅ：映画「プリティ・リーグ」
ｐｒｏｇｒａｍ−ｓｕｂｔｉｔｌｅ：
ｇｅｎｒｅ：８０
ｓｕｂｇｅｎｒｅ：１４４
：
本発明の情報処理装置ではこのような属性とその値とからなる属性データセットを入力してＰＯＭＤＰを自動生成する。

図３以下を参照して本発明の情報処理装置におけるＰＯＭＤＰの生成処理の一例について説明する。図３に示す情報処理装置１００は、ＰＯＭＤＰ生成部１１０、パラメータ入力部１２０、ルール記憶部１３０を有する。ＰＯＭＤＰ生成部１１０には、上述したように例えば図２を参照して説明した属性データ、すなわち属性情報と、その属性情報に対応する値とが設定された属性データ１５１が入力される。

ＰＯＭＤＰ生成部１１０は、入力する属性データ１５１を解析し、パラメータ入力部１２０から入力するパラメータと、ルール記憶部１３０に格納されたルールとを適用して、ＰＯＭＤＰモデル１５２を生成して出力する。ＰＯＭＤＰモデル１５２は、先に図１を参照して説明したように、
（ａ）状態情報（Ｓｔａｔｅｓｐａｃｅ）：Ｓ
（ｂ）行動情報（Ａｃｔｉｏｎｓｐａｃｅ）：Ａ
（ｃ）観測情報（Ｏｂｓｅｒｖａｔｉｏｎｓｐａｃｅ）：Ｏ
（ｄ）報酬情報（Ｒｅｗａｒｄｓｐａｃｅ）：Ｒ
これらの様々な情報や、状態遷移確率の算出関数、報酬の算出関数、観測状態の発生確率の算出関数などが定義されたモデルである。

ＰＯＭＤＰ生成部１１０におけるＰＯＭＤＰの生成処理例について、図４を参照して説明する。まず、図２を参照して説明した属性（Ａｔｔｒｉｂｕｔｅ）と属性の値（Ｖａｌｕｅ）からなる属性データ２０１を状態情報（ＳｔａｅＳｐａｃｅ）２１１として設定する。

情報処理装置は、この状態情報（ＳｔａｅＳｐａｃｅ）２１１に基づく行動情報２１２を生成し実行する。本例では、行動情報（ＡｃｔｉｏｎＳｐａｃｅ）２１２として属性データ２０１に基づく質問の生成、出力処理が実行される。情報処理装置は、質問に対する回答を入力し、これを観測情報（ＯｂｓｅｒｖａｔｉｏｎＳｐａｃｅ）２１３とする。

行動情報として生成される質問は例えば以下の２つのカテゴリに分類される。
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）
さらに、上記の推定的アクションと非推定的アクションの具体的なアクション態様として、
（１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
これらの２つのアクションが定義される。

すなわち、
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）の種類として、
（Ａ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
があり、
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）の種類としても、
（Ｂ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
がある。

（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）は、１つのオブジェクトを推定したアクション（質問）である。オブジェクトとは本例では、ある特定番組（タイトル）に対応するＥＰＧデータである。例えば、
「プログラムタイトルはおはよう日本ですか？」
という質問が推定アクションに相当する。プログラムタイトルがおはよう日本であるオブジェクト（ＥＰＧデータ）は、図に示す属性データ２０１に相当するものであり、１つの特定のオブジェクトを推定した質問が推定的アクションとして定義される。

上述の（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）以外のアクションが（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）であり、１つのオブジェクトを推定していないアクション（質問）である。

（１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）は、属性データ２０１中の属性情報（Ａｔｔｒｉｂｕｔｅ）に基づいて生成される質問であり、例えば、
「どこの放送局ですか」
という質問が包括的アクションに相当する。この質問は、属性データ２０１中の属性情報（Ａｔｔｒｉｂｕｔｅ）に基づいて生成され、その属性値を回答として期待した質問である。

（２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）は、属性データ２０１中の値（Ｖａｌｕｅ）に基づいて生成される質問であり、例えば、
「放送局はテレビＡＢＣですか」
という質問が特定的アクションに相当する。この質問は、属性データ２０１中の値（Ｖａｌｕｅ）に基づいて生成され、質問に含まれる属性値（Ｖａｌｕｅ）が正しいか否かを回答として期待した質問である。

上述したように、
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）のいずれにおいても、
（１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
が適用できる。

情報処理装置は、これらの様々な質問に対する回答を入力し、これを観測情報２０３として設定する。観測情報は、ある行動（質問の生成出力）に対応して得られる観測データである。例えば図に示すように、
「テレビＡＢＣ」、
「Ｙｅｓ，Ｎｏ，Ｏｔｈｅｒ」
といった回答を入力して、これを観測情報とする。

情報処理装置では、このように属性データ２０１を状態情報（ＳｔａｅＳｐａｃｅ）２１１として設定し、属性データ２０１に基づく行動情報２１２として、
（１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
これらのいずれかの行動情報２１２を定義して実行し、この行動に基づく回答を観測情報２１３として取得する。情報処理装置では、属性データ２０１に基づく様々な質問の生成、出力を行い、質問に対する回答の入力処理を実行する。

なお、質問に対する回答の種類は、以下のサブセットに分類される。
（１）正しい回答（ＲＡ：ＲｉｇｈｔＡｎｓｗｅｒ）サブセット、
（２）誤った回答（ＷＡ：ＷｒｏｎｇＡｎｘｗｅｒ）サブセット、
（３）不適切な回答（ＩｒＡ：ＩｒｒｅｌｅｖａｎｔＡｎｘｗｅｒ）サブセット、
この３つのサブセットに分類され、観測情報２１３として取得される。なお、（１）正しい回答（ＲＡ：ＲｉｇｈｔＡｎｓｗｅｒ）と、（２）誤った回答（ＷＡ：ＷｒｏｎｇＡｎｘｗｅｒ）は、適切な回答（ＲｅｌｅｖａｎｔＡｎｓｗｅｒ）として解釈される。

図３に示すＰＯＭＤＰ生成部１１０は、質問生成、回答入力によるＰＯＭＤＰの生成処理に際して、図３に示すパラメータ入力部１２０から供給されるパラメータと、ルール記憶部１３０に予め記憶されたルールを適用した処理を実行する。

適用するルールには、
（１）状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（２）観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（３）報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルール、
がある。

（３）報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルールは、ある行動や、観測情報に基づく報酬（Ｒｅｗａｒｄ）の値を決定したルールである。（１）状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールと、（２）観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールについて、図５、図６を参照して説明する。

状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールは、初期状態（ｓ）が、行動（ａ）によって、最終状態（ｓ'）となる確率を設定したルールである。

例えば、図５（１）に示すロボット３０１は、領域３０２の領域［１］〜［４］のいずれかの領域に存在するとして、行動（アクション）を実行する。アクションとしては、図に示すように、
右移動アクション３１１、
左移動アクション３１２、
ストップアクション３１３、
のいずれかである。

これらの行動（ａ：アクション）を実行した場合の、初期状態（ｓ）と最終状態（ｓ'）の生起関係としての確率値を示したのが、図５（２）である。
（２−１）は、右移動アクションを行なった場合の初期状態（ｓ）と最終状態（ｓ'）の対応確率値、
（２−２）は、左移動アクションを行なった場合の初期状態（ｓ）と最終状態（ｓ'）の対応確率値、
（２−３）は、ストップアクションを行なった場合の初期状態（ｓ）と最終状態（ｓ'）の対応確率値、
である。

右移動アクションを行なった場合の初期状態（ｓ）と最終状態（ｓ'）の対応確率値を示した（２−１）では、例えば、ロボット３０１の初期状態（ｓ）が領域［１］である場合、右移動アクションを行なうことで、最終状態（ｓ'）としてのロボットの位置は、
領域［１］＝０．１
領域［２］＝０．９
領域［３］＝０．０
領域［４］＝０．０
これらの確率分布となる。

このように、ある初期状態（ｓ）からあるアクション（ａ）に基づいて遷移する状態（ｓ'）の確率を定めたルールが状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールである。

次に、観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールについて図６を参照して説明する。観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールは、ある初期状態（ｓ）において行動（ａ）を発生させた場合に観測される観測情報（Ｏ）の発生確率を設定したルールである。
例えば、図６（１）に示すロボット３０１は、領域３０２の領域［１］〜［４］のいずれかの領域に存在する。左側には壁（Ｗａｌｌ）３１５がある。このとき、右移動アクション（ａ）を実行した場合の、初期状態（ｓ）と観測情報（Ｏ）の対応関係としての確率値を示したのが、図６（２）である。

右移動アクションを行なった場合の初期状態（ｓ）と観測情報（Ｏ）の対応確率値では、例えば、ロボット３０１の初期状態（ｓ）が領域［１］である場合、右移動アクションを行なうことで観測される情報の確率値（Ｏ）は、
左が壁（Ｌ＿Ｗａｌｌ）＝０．９
左がオープン（Ｌ＿Ｏｐｅｎｉｎｇ）＝０．１
右が壁（Ｒ＿Ｗａｌｌ）＝０．１
右がオープン（Ｒ＿Ｏｐｅｎｉｎｇ）＝０．９
となる。
なお、この観測情報は、ロボット３０１の初期状態（ｓ）が領域［１］にあったとき、右移動アクションを行なうことでロボット３０１が領域［２］に移動した場合にロボット３０１の観測する情報に対応する。

このように、ある初期状態（ｓ）からあるアクション（ａ）に基づいて遷移する状態（ｓ'）において観測される情報（Ｏ）の確率を定めたルールが観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールである。

図３に示す情報処理装置１００のＰＯＭＤＰ生成部１１０では、上述したように、
（１）状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（２）観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（３）報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルール、
これらのルールの少なくともいずれかを適用したＰＯＭＤＰ生成処理を実行する。これらのルールはルール記憶部１３０に予め登録されている。本実施例におけるＰＯＭＤＰ生成処理において適用するルールの具体例について説明する。例えば以下の４つのルールを適用する。
（ルール１），（ルール２）
ルール１、ルール２は、状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールであり、以下のように定義されるルールである。
（ルール１）
推定的アクション以外のアクションの実行によって状態変化が発生しない確率を［ＳＴｄｉｇ％］とする。
（ルール２）
推定的アクションによって状態変化が発生しない確率を［ＳＴｄｉｇｘ］とする。

（ルール３）
ルール３は、観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールである。前述したように、情報処理装置は、行動として様々な質問の生成、出力を実行しその回答を観測情報とする。観測情報として得られる回答は、以下の３つの種類に区分できる。
正しい答（ＲｉｇｈｔＡｎｓｗｅｒ）
誤った答（ＷｒｏｎｇＡｎｓｗｅｒ）
不適切な答（ＩｒｒｅｖａｎｔＡｎｓｗｅｒ）
ルール３は、これらの回答、すなわち観測データに対応して設定される観測関数確率値の設定ルールである。
正しい答（ＲｉｇｈｔＡｎｓｗｅｒ）に対しては、予め定めた正答観測確率値［ＯＦｒ％］を設定し、
誤った答（ＷｒｏｎｇＡｎｓｗｅｒ）に対しては、予め定めた誤答観測確率値［ＯＦｗ％］を設定し、
その他の不適切な答（ＩｒｒｅｖａｎｔＡｎｓｗｅｒ）に対しては、予め定めた不適切回答観測確率値［ＯＦｉｒ％］を設定する。

例えば、具体的には、
正答観測確率値［ＯＦｒ％］＝８５％、
誤答観測確率値［ＯＦｗ％］＝１０％、
不適切回答観測確率値［ＯＦｉｒ％］＝５％
といった設定を行う。

なお、観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルールを定義する場合、上記のような正答、誤答、不適切回答の区分を行なうことが必要となるが、１つの行動（質問）に対する正答が１つとは限らない。すなわち複数の異なる回答が意味的に同一である場合もある。また、異なる行動（質問）も意味的に同じ質問となる場合もある。

例えば、
一週間のどの日か｛ｄａｙｏｆｗｅｅｋ｝と、
年月日｛ｙｅａｒ，ｍｏｎｔｈ，ｄａｙ｝、
これらの回答を求める行動（質問）に対して得られる回答は、日や曜日などであり、回答が適切か不適切か、正答か誤答かといった回答の区分に際しては、意味的な解釈を含めた区分を実行して各観測確率値を設定すべきである。

例えば、図７（１）には、
行動（ａ：アクション）として、
「その日は１９日ですか」
に対応する観測関数ルールの設定例を示している。
正答観測確率値［ＯＦｒ％］＝８５％、
誤答観測確率値［ＯＦｗ％］＝１０％、
不適切回答観測確率値［ＯＦｉｒ％］＝５％
としており、
例えばＥＰＧ−Ａが１９日のプログラムである場合、
観測情報である回答［Ｙｅｓ］と［１９］を正答観測確率値［ＯＦｒ％］＝８５％、
回答［Ｎｏ］と［１８］を誤答観測確率値［ＯＦｗ％］＝１０％、
その他の回答を不適切回答観測確率値［ＯＦｉｒ％］＝５％
として設定した観測関数ルールとしている。

また、ＥＰＧ−Ｂは１８日のプログラムである場合、
観測情報である回答［Ｎｏ］と［１８］を正答観測確率値［ＯＦｒ％］＝８５％、
回答［Ｙｅｓ］と［１９］を誤答観測確率値［ＯＦｗ％］＝１０％、
その他の回答を不適切回答観測確率値［ＯＦｉｒ％］＝５％
として設定した観測関数ルールとしている。

しかし、質問として設定した１９日が２００６年５月１９日であり金曜日（Ｆｒｉｄａｙ）である場合、ＥＰＧ−Ａが１９日のプログラムである場合、
「その日は１９日ですか」
という質問に対する回答として、
金曜日（Ｆｒｉｄａｙ）という回答（観測情報）と、
木曜日（Ｔｈｕｒｓｄａｙ）という回答（観測情報）
これらを同列のノイズ、すなわち不適切な回答とすることは好ましくない。

従って、図７（２）に示すように、
１９日（金（Ｆｒｉ））のプログラムであるＥＰＧ−Ａに対しては、
「その日は１９日ですか」
という質問に対する回答として、
観測情報である回答［Ｙｅｓ］と［１９］に、さらに［Ｆｒｉｄａｙ］を正答観測確率値［ＯＦｒ％］＝８５％
として設定し、
１８日（木（Ｆｒｉ））のプログラムであるＥＰＧ−Ａに対しては、
観測情報である回答［Ｎｏ］と［１８］と［Ｔｈｕｒｓｅｄａｙ］を正答観測確率値［ＯＦｒ％］＝８５％
として設定する。
このような処理によって、観測情報に対する処理を的確に実行する。

また、図８（１）には、
行動（ａ：アクション）として、
「それは週のいつですか」
に対応する観測関数ルールの設定例を示している。
正答観測確率値［ＯＦｒ％］＝８５％、
誤答観測確率値［ＯＦｗ％］＝１０％、
不適切回答観測確率値［ＯＦｉｒ％］＝５％
としており、
例えばＥＰＧ−Ａが１９日（金）のプログラムである場合、
観測情報である回答［Ｆｒｉｄａｙ（金）］を正答観測確率値［ＯＦｒ％］＝８５％、
回答［Ｔｈｕｒｓｅｄａｙ（木）］を誤答観測確率値［ＯＦｗ％］＝１０％、
その他の回答を不適切回答観測確率値［ＯＦｉｒ％］＝５％
として設定した観測関数ルールとし、
ＥＰＧ−Ｂが１８日（木）のプログラムである場合、
観測情報である回答［Ｔｈｕｒｓｅｄａｙ（木）］を正答観測確率値［ＯＦｒ％］＝８５％、
回答［Ｆｒｉｄａｙ（金）］を誤答観測確率値［ＯＦｗ％］＝１０％、
その他の回答を不適切回答観測確率値［ＯＦｉｒ％］＝５％
として設定した観測関数ルールとしている。

この場合も、質問として設定した
「それは週のいつですか」
に対する観測情報（回答）として日にちが得られる場合もあり、
１９日が２００６年５月１９日であり金曜日（Ｆｒｉｄａｙ）である場合、ＥＰＧ−Ａが１９日のプログラムである場合の回答として、
１８日という回答（観測情報）と、
１９日という回答（観測情報）
これらを同列のノイズ、すなわち不適切な回答とすることは好ましくない。

従って、図８（２）に示すように、
１９日（金（Ｆｒｉ））のプログラムであるＥＰＧ−Ａに対しては、
「それは週のいつですか」
という質問に対する回答として、
観測情報である回答［Ｆｒｉｄａｙ］に、さらに［１９］を正答観測確率値［ＯＦｒ％］＝８５％
として設定し、
１８日（木（Ｆｒｉ））のプログラムであるＥＰＧ−Ａに対しては、
観測情報である回答［Ｔｈｕｒｓｅｄａｙ］にさらに［１８］を正答観測確率値［ＯＦｒ％］＝８５％
として設定する。
このような処理によって、観測情報に対する処理を的確に実行する。

（ルール４）
ルール４は、報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルールである。このルールは、前述した
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）における、
（Ａ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）における、
（Ｂ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
これらの各々に対応して設定される報酬の値を定めたルールである。

具体的には、
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）において、
（Ａ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）に対する報酬の値を［ＲＷｇｘ］、
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）に対する適切（ｒｅｌｅｖａｎｔ）な回等が得られた場合の報酬の値を［ＲＷｐｘ］、
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）に対する非適切（ｎｏｔｒｅｌｅｖａｎｔ）な回等が得られた場合の報酬の値を［ＲＷｎｐｘ］、
とする。

また、（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）において、
（Ｂ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）に対する報酬の値を［ＲＷｇ］、
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）に対する適切（ｒｅｌｅｖａｎｔ）な回等が得られた場合の報酬の値を［ＲＷｐ］、
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）に対する不適切（ｎｏｔｒｅｌｅｖａｎｔ）な回等が得られた場合の報酬の値を［ＲＷｎｐ］、
とする。

次に、図９以下を参照して、本発明の情報処理装置における部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）の自動生成処理および利用構成について説明する。

図９以下で説明するＰＯＭＤＰ生成および利用処理は、ある番組（プログラム）に対応するＥＰＧプログラムの属性データ、すなわち先に図２等を参照して説明した属性（Ａｔｔｒｉｂｕｔｅ）とその値（Ｖａｌｕｅ）からなる属性データを入力してＰＯＭＤＰを生成して、行動（Ａｃｔｉｏｎ）、すなわち質問を実行して、回答を観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として取得し、観測情報に基づいて予め定めたルール（上述のルール１〜４）に従って、様々なオブジェクト（プログラム）に対して確率値を設定して、最終的に入力されたＥＰＧプログラムを推定する処理である。

図９に示すグラフ３２１は、上述の処理によって生成される各オブジェクトに対する確率値分布データとしてのオブジェクト対応確率分布グラフ３２１である。複数のオブジェクトＯｂ１〜Ｏｂ２２・・は、本例では、それぞれ異なる番組（プログラム）対応のＥＰＧである。行動（Ａｃｔｉｏｎ）軸は、実行する行動（アクション）、すなわち質問の回数を示している。縦軸（確率：Ｐｒｏｂａｂｉｌｉｔｙ）は、各質問に対する観測情報に基づいて上記ルールを適用して得られる各オブジェクトの確率を示しており、入力ＥＰＧがＯｂ１〜Ｏｂ２２である確率を示している。

初期的には、行動（Ａｃｔｉｏｎ）軸の［０］の部分であり、この初期状態では、Ｏｂ１〜Ｏｂ２２の確率（Ｐｒｏｂａｂｉｌｉｔｙ）はすべて同一なフラットな状態である。

最初のアクションとアクションに対応する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）の対応データがアクション−観測情報３２２である。すなわち、
アクション＝一日のうちのいつですか｛ａｓｋ＿ｐａｒｔｏｆｄａｙ｝
に対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝午後
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。これらの各率値の具体的な値は予め設定しておく。例えば、
正答観測確率値［ＯＦｒ％］＝８５％、
誤答観測確率値［ＯＦｗ％］＝１０％、
不適切回答観測確率値［ＯＦｉｒ％］＝５％
である。

この確率値を設定したのが、図９に示す確率分布グラフ３２１の行動（Ａｃｔｉｏｎ）の［１］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ２，Ｏｂ４，Ｏｂ７，Ｏｂ２１等の確率値が大きく設定されており、これらのオブジェクトが、
アクション＝一日のうちのいつですか｛ａｓｋ＿ｐａｒｔｏｆｄａｙ｝
に対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝午後
に対して、正答観測確率値［ＯＦｒ％］が与えられたオブジェクトである。

ここでは、解析対象の入力ＥＰＧは図に示すＥＰＧプログラム３２３であり、オブジェクト４（Ｏｂ４）に対応するものとする。当然、確率分布グラフ３２１のオブジェクト４（Ｏｂ４）の行動（ａｃｔｉｏｎ）＝１に対応する確率値グラフも高く設定される。その他にも、午後のプログラムが存在するので、複数の高い確率値が各オブジェクトに対する確率値として設定されることになる。

図１０は、２回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報３２２に示すように、２回目のアクションは、
アクション＝テレビ局はどこですか｛ａｓｋ＿ｓｔａｔｉｏｎ｝
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝ＷＯテレビ
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１０に示すグラフ３２１の行動（Ａｃｔｉｏｎ）の［２］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ４，Ｏｂ６等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１１は、３回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報３２２に示すように、３回目のアクションは、
アクション＝プログラムはダックテイルですか、
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝Ｙｅｓ
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１１に示すグラフ３２１の行動（Ａｃｔｉｏｎ）の［３］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ４等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

これらの処理によって、確率分布グラフ３２１の各オブジェクトの確率分布から最も高い確率値を持つものがターゲットのプログラムであると判定され、入力されたＥＰＧプログラムはオブジェクト４（Ｏｂ４）であることの判定が可能となる。

図９〜図１１における処理例は、ターゲットとして探索するオブジェクト（ＥＰＧプログラム）が１つの場合の例であるが、複数のオブジェクトを探索ターゲットとした処理も可能である。図１２以下を参照して複数のオブジェクトを探索ターゲットとした処理例について説明する。

図１２には、２つの異なる番組（プログラム）対応のＥＰＧプログラム４０１，４０２を示している。これらの２つが探索対象のターゲットプログラムであるとする。

図１３は、１回目のアクションに基づく観測情報の取得と確率分布グラフ４２２の生成処理例を示している。アクション−観測情報４２１に示すように、１回目のアクションは、
アクション＝一日のうちのいつですか｛ａｓｋ＿ｐａｒｔｏｆｄａｙ｝
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝午後
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１３に示す確率分布グラフ４２２の行動（Ａｃｔｉｏｎ）の［１］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ４等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１４は、２回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報４２１に示すように、２回目のアクションは、
アクション＝テレビ局はどこですか｛ａｓｋ＿ｓｔａｔｉｏｎ｝
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝ＷＯテレビ
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１４に示すグラフ３２１の行動（Ａｃｔｉｏｎ）の［２］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ４，Ｏｂ６等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１５は、３回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報４２１に示すように、３回目のアクションは、
アクション＝番組はダックテイルですか
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝Ｎｏ
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１５に示すオブジェクト対応確率分布グラフ４２２の行動（Ａｃｔｉｏｎ）の［３］に相当するラインに示されたデータである。多くのオブジェクトの確率値が比較的大きく設定されている。これらの多くのオブジェクトは、ダックテイルの番組に相当しないオブジェクト（ＥＰＧプログラム）であり、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１６は、４回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報４２１に示すように、４回目のアクションは、
アクション＝テレビ局はどこですか｛ａｓｋ＿ｓｔａｔｉｏｎ｝
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝衛星第二テレビ
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１６に示すオブジェクト対応確率分布グラフ４２２の行動（Ａｃｔｉｏｎ）の［４］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ２，Ｏｂ５，Ｏｂ８等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１７は、５回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報４２１に示すように、５回目のアクションは、
アクション＝ジャンルは何ですか｛ａｓｋ＿ｇｅｎｒｅ｝
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝料理
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１７に示すオブジェクト対応確率分布グラフ４２２の行動（Ａｃｔｉｏｎ）の［５］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ２，Ｏｂ８等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１８は、６回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報４２１に示すように、６回目のアクションは、
アクション＝一日のうちどの時間帯ですか｛ａｓｋ＿ｐａｒｔｏｆｄａｙ｝
であり、このアクションに対する観測情報（Ｏｂｓｅｒｖａｔｉｏｎ）として、
観測情報＝夕方
この観測情報が得られたことを示している。

情報処理装置のＰＯＭＤＰ生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
の各確率値を設定する。この確率値を設定したのが、図１８に示すオブジェクト対応確率分布グラフ４２２の行動（Ａｃｔｉｏｎ）の［６］に相当するラインに示されたデータである。オブジェクト＝Ｏｂ２，Ｏｂ８等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール（観測関数に対応するルール）に基づいて高い確率値が設定されたオブジェクトである。

図１８に示すオブジェクト対応確率分布グラフ４２２は、６回の行動（Ａｃｔｉｏｎ＝質問）に基づいて取得された６回の観測情報によって生成されたオブジェクト対応の確率分布グラフである。これらの各率分布データに基づいて、例えば、オブジェクトごとの確率値の積算値を算出し、最も高いものから順にリストを生成した場合、
図１２に示すオブジェクト４０１，４０２がＮｏ１，Ｎｏ２となる確率がもっとも高くなる。このように、ターゲットが複数の場合であっても、ＰＯＭＤＰによって得られた確率分布情報からターゲットを推定することが可能となる。

上述したＰＯＭＤＰの生成処理を実行する情報処理装置の機能構成について、図１９を参照して説明する。図１９は、ＰＯＭＤＰの生成処理を実行する情報処理装置の機能構成を示すブロック図である。情報処理装置４５０は一般的なＰＣ構成と同様の構成によって実現される。なお、ハードウェア構成の具体例については、後段で説明する。情報処理装置４５０は、データ入出力部４５１、ＰＯＭＤＰ生成部としてのデータ処理部４５２、記憶部４５３、ＰＯＭＤＰ生成に適用する各種ルールを格納したルール記憶部としてのデータベース４５４を有する。

データ入出力部４５１を介して、属性データ、すなわち先に図２を参照して説明した属性情報（Ａｔｔｒｉｂｕｔｅ）と属性値（Ｖａｌｕｅ）からなる属性データが入力され、さらにＰＯＭＤＰ（ＦａｃｔｏｒｅｄＰＯＭＤＰ）の生成処理の開始コマンドなどが入力される。

ＰＯＭＤＰ生成部としてのデータ処理部４５２はＰＯＭＤＰの生成処理、すなわち、不確実性を含む対象領域における情報分析処理に適用する部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行する。

ルール記憶部としてのデータベース４５４は、データ処理部４５２における部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルの生成処理に適用するルールを格納している。記憶部４５３は、データ処理部４５２における適用するパラメータ、プログラムの格納領域、ワーク領域などに用いられるメモリである。

データ処理部４５２は、属性情報および属性値を含む属性データを入力し、属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成する。

データ処理部４５２は、属性データに基づく質問の生成、出力処理において、回答に基づく特定オブジェクト推定が可能な推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）と、推定的アクション以外の非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する。

なお、データ処理部４５２は、属性データに基づく質問の生成、出力処理において、属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）と、属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する。

ルール記憶部としてのデータベース４５４は、部分観測マルコフ決定過程（ＰＯＭＤＰ）において規定される、
（１）状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（２）観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（３）報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルール、
これらのルールの少なくともいずれかのルールを格納しており、
データ処理部４５２は、状態遷移関数に関するルール、観測関数に関するルール、報酬関数に関するルールの少なくともいずれかのルールを適用して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成する。

なお、観測関数に関するルールは、質問に対応する回答として得られる観測情報に基づいて、各オブジェクトに付与する確率値、すなわち、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
これらの各確率値を定義したルールである。
また、観測関数に関するルールは、先に、図７、図８を参照して説明したように、質問または回答の持つ意味の同一性判定結果に基づいて確率値定義がなされたルールである。

状態遷移関数に関するルールは、推定的アクション以外のアクションの実行によって状態変化が発生しない確率［ＳＴｄｉｇ％］と、推定的アクションによって状態変化が発生しない確率［ＳＴｄｉｇｘ％］を定めたルールであり、報酬関数に関するルールは、
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）における、
（Ａ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）における、
（Ｂ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
これらの各々に対応して設定される報酬の値を定めたルールである。

最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図２０を参照して説明する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、ＰＯＭＤＰの構築処理を実行する。これらの処理は、各情報処理装置のＲＯＭ、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２は、ＣＰＵ５０１が使用するプログラム、ＰＯＭＤＰ生成処理プログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３は、ＣＰＵ５０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス５０４により相互に接続されている。

ホストバス５０４は、ブリッジ５０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス５０６に接続されている。

キーボード５０８、ポインティングデバイス５０９は、ユーザにより操作される入力デバイスである。ディスプレイ５１０は、液晶表示装置またはＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などから成る。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）５１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ５０１によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えばＰＯＭＤＰ生成に適用するルールなどの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ５１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体５２１に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース５０７、外部バス５０６、ブリッジ５０５、およびホストバス５０４を介して接続されているＲＡＭ５０３に供給する。

接続ポート５１４は、外部接続機器５２２を接続するポートであり、ＵＳＢ，ＩＥＥＥ１３９４等の接続部を持つ。接続ポート５１４は、インタフェース５０７、および外部バス５０６、ブリッジ５０５、ホストバス５０４等を介してＣＰＵ５０１等に接続されている。通信部５１５は、ネットワークに接続されている。例えば属性データやルールは通信部５１５を介して入力する構成としてもよい。

なお、図２０に示す情報処理装置のハードウェア構成例は、ＰＣを適用して構成した装置の一例であり、図２０に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは記録媒体としてのハードディスクやＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＭＯ（Ｍａｇｎｅｔｏｏｐｔｉｃａｌ）ディスク，ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、例えば放送波によって送信されるＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）など、属性情報とその値を持つ属性値データ（Ａｔｔｒｉｂｕｔｅ−Ｖａｌｕｅ）を入力して部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）を自動的に生成することが可能となる。例えば、属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを自動的に生成することが可能となる。

ＰＯＭＤＰについて説明する図である。属性データの構成例について説明する図である。本発明の情報処理装置の構成および処理について説明する図である。本発明の情報処理装置の構成および処理について説明する図である。状態遷移関数について説明する図である。観測関数について説明する図である。観測関数ルールの生成処理について説明する図である。観測関数ルールの生成処理について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の実行するＰＯＭＤＰ生成処理例について説明する図である。本発明の情報処理装置の構成例について説明する図である。本発明の情報処理装置のハードウェア構成例について説明する図である。

符号の説明

１００情報処理装置
１１０ＰＯＭＤＰ生成部
１２０パラメータ入力部
１３０ルール記憶部
１５１属性データセット
１５２ＰＯＭＤＰモデル
２０１属性データ
２１１状態情報（ＳｔａｅＳｐａｃｅ）
２１２行動情報（ＡｃｔｉｏｎＳｐａｃｅ）
２１３観測情報（ＯｂｓｅｒｖａｔｉｏｎＳｐａｃｅ）
３０１ロボット
３０２領域
３２１オブジェクト対応確率分布グラフ
３２２アクション−観測情報
３２３ＥＰＧプログラム
４０１ＥＰＧプログラム
４０２ＥＰＧプログラム
４２１アクション−観測情報
４２２オブジェクト対応確率分布グラフ
４５０情報処理装置
４５１データ入出力部
４５２データ処理部
４５３記憶部
４５４データベース
５０１ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
５０２ＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ）
５０３ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
５０４ホストバス
５０５ブリッジ
５０６外部バス
５０７インタフェース
５０８キーボード
５０９ポインティングデバイス
５１０ディスプレイ
５１１ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）
５１２ドライブ
５１４接続ポート
５１５通信部
５２１リムーバブル記録媒体
５２２外部接続機器

Claims

不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行するデータ処理部と、
前記データ処理部における部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルの生成処理に適用するルールを格納したルール記憶部とを有し、
前記データ処理部は、
前記属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成する構成であり、
前記データ処理部は、
前記属性データに基づく質問の生成、出力処理において、
回答に基づく特定オブジェクト推定が可能な推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）と、推定的アクション以外の非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）のいずれかを実行する構成であり、
前記データ処理部は、
前記推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）、および前記非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）の実行に際して、
前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する構成であることを特徴とする情報処理装置。
前記ルール記憶部は、
部分観測マルコフ決定過程（ＰＯＭＤＰ）において規定される
（１）状態遷移関数（ＳｔａｔｅＴｒａｎｓｉｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（２）観測関数（ＯｂｓｅｒｖａｔｉｏｎＦｕｎｃｔｉｏｎ）に関するルール、
（３）報酬関数（ＲｅｗａｒｄＦｕｎｃｔｉｏｎ）に関するルール、
これらのルールの少なくともいずれかのルールを格納しており、
前記データ処理部は、
前記状態遷移関数に関するルール、観測関数に関するルール、報酬関数に関するルールの少なくともいずれかのルールを適用して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成する構成であることを特徴とする請求項１に記載の情報処理装置。
前記観測関数に関するルールは、
前記質問に対応する回答として得られる観測情報に基づいて、各オブジェクトに付与する確率値、すなわち、
正答観測確率値［ＯＦｒ％］、
誤答観測確率値［ＯＦｗ％］、
不適切回答観測確率値［ＯＦｉｒ％］、
これらの各確率値を定義したルールであることを特徴とする請求項２に記載の情報処理装置。
前記観測関数に関するルールは、
質問または回答の持つ意味の同一性判定結果に基づいて確率値定義がなされたルールであることを特徴とする請求項３に記載の情報処理装置。
前記状態遷移関数に関するルールは、
推定的アクション以外のアクションの実行によって状態変化が発生しない確率［ＳＴｄｉｇ％］と、
推定的アクションによって状態変化が発生しない確率［ＳＴｄｉｇｘ％］を定めたルールであることを特徴とする請求項２に記載の情報処理装置。
前記報酬関数に関するルールは、
（Ａ）推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）における、
（Ａ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ａ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
（Ｂ）非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）における、
（Ｂ１）包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）
（Ｂ２）特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）
これらの各々に対応して設定される報酬の値を定めたルールであることを特徴とする請求項２に記載の情報処理装置。
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
データ処理部が、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行するデータ処理ステップを有し、
前記データ処理ステップは、
前記属性データに基づく質問の生成、出力処理を行動として実行する行動ステップと、
質問に対する回答を観測情報として取得する観測情報取得ステップと、
ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成するモデル生成ステップを有し、
前記行動ステップにおいて、
回答に基づく特定オブジェクト推定が可能な推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）と、推定的アクション以外の非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）のいずれかを実行し、
前記推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）、および前記非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）の実行に際して、前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）のいずれかを実行し、
前記モデル生成ステップにおいて、
各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行することを特徴とする情報処理方法。
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
データ処理部に、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程（ＰＯＭＤＰ：ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）モデルの自動生成処理を実行させるデータ処理ステップを有し、
前記データ処理ステップは、
前記属性データに基づく質問の生成、出力処理を行動として実行させる行動ステップと、
質問に対する回答を観測情報として取得させる観測情報取得ステップと、
ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程（ＰＯＭＤＰ）モデルを生成させるモデル生成ステップと、
を有し、
前記行動ステップにおいて、
回答に基づく特定オブジェクト推定が可能な推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）と、推定的アクション以外の非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）のいずれかを実行させ、
前記推定的アクション（ＧｕｅｓｓＡｃｔｉｏｎ）、および前記非推定的アクション（ＯｔｈｅｒＡｃｔｉｏｎ）の実行に際して、前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション（ＧｅｎｅｒｉｃＡｃｔｉｏｎ）と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション（ＳｐｅｃｉｆｉｃＡｃｔｉｏｎ）のいずれかを実行させ、
前記モデル生成ステップにおいて、
各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行させることを特徴とするコンピュータ・プログラム。