JP5070860B2 - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP5070860B2
JP5070860B2 JP2007020470A JP2007020470A JP5070860B2 JP 5070860 B2 JP5070860 B2 JP 5070860B2 JP 2007020470 A JP2007020470 A JP 2007020470A JP 2007020470 A JP2007020470 A JP 2007020470A JP 5070860 B2 JP5070860 B2 JP 5070860B2
Authority
JP
Japan
Prior art keywords
action
information
observation
attribute
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007020470A
Other languages
English (en)
Other versions
JP2008186326A (ja
Inventor
プロフィオ ウゴ ティ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007020470A priority Critical patent/JP5070860B2/ja
Priority to US12/011,754 priority patent/US8095493B2/en
Publication of JP2008186326A publication Critical patent/JP2008186326A/ja
Application granted granted Critical
Publication of JP5070860B2 publication Critical patent/JP5070860B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、ある入力データ、例えば属性情報とその値を対応付けた属性データ(Attribute−Value)に基づいて部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を生成する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
状態予測や行動決定手法の1つとして、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を適用した処理が知られている。部分観測マルコフ決定過程(以下POMDP)の概要について説明する。
POMDPは、以下の情報を適用した状態予測や行動決定を行なう手法である。
(a)状態情報(State space):S
(b)行動情報(Action space):A
(c)観測情報(Observation space):O
(d)報酬情報(Reward space):R
これらの各情報が、時間(t)の経過に伴って推移するものとし、
例えば状態遷移確率の算出関数や、報酬の算出関数、ある観測状態の発生確率を算出する関数などを定義して、取得可能な情報と、定義関数に基づいて状態予測や行動決定を実行する。
関数としては、例えば、時間T=(t−1)の状態S=st−1と行動A=at−1から、次の時間T=(t)の状態S=sへの状態遷移確率を算出する状態遷移確率算出関数:T(s,at−1,st−1)=P(s|at−1,st−1
時間T=(t)の状態S=sと行動A=aからの報酬(Reward)を算出する報酬関数:R(s,a
時間T=(t−1)の行動A=at−1と、時間T=(t)の状態S=sとから時間T=(t)の観測状態の発生確率を算出する観測状態確率関数:O(s,at−1,ot−1)=P(o|at−1,s
などが定義され、利用されることになる。
POMDPは、上記の各種の情報や関数を適用した状態予測や行動決定処理を行なう手法である。例えば、取得可能な少ない情報から最適と判断される行動(Action)を決定する処理などに適用され、具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。
上記の各情報を適用したPOMDPによる状態予測や行動決定処理について、図1を参照して説明する。図1には時間T=t−1における状態st−1,行動at−1、報酬Rt−1、観測ot−1と、その後の時間T=tにおける状態s,行動a、報酬R、観測oとを示している。各ブロックを結ぶ矢印は、相互の影響を示している。矢印の出力元(parent)の情報や状態が矢印の出力先(child)の状態や情報に変化を及ぼす可能性があることを示している。
例えば、時間T=t−1において、
報酬Rt−1は、時間T=t−1の状態st−1,行動at−1に基づいて、上述したように、報酬関数:R(st−1,at−1)で求められる。
また、観測情報ot−1は、例えば、状態st−1の変化に伴って変化する観察可能な情報である。
これらの関係は、いずれの時間T=t−1,t,t+1,・・・においても同様となる。
さらに、異なる時間の関係において、時間T=tにおける状態sと、時間T=t−1における状態st−1および行動at−1との関係は、上述した状態遷移確率算出関数:T(s,at−1,st−1)=P(s|at−1,st−1)によって対応付けられている。すなわち、時間T=tにおける状態sとなる確率は、前の時間T=t−1における、状態st−1および行動at−1とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。
このように、POMDPでは不確実性を含む対象領域において様々な情報(状態、行動、報酬、観測)を定義し、これらの情報に関連性に基づいて、不確実性を含む対象領域における状態遷移の予測や、自己の行動を決定する。行動の決定処理に際しては、例えば報酬が最も高く算出される行動を最善の行動として決定する処理を行なう。
なお、POMDPの構築処理においては、情報(状態、行動、報酬、観測)間の関連性を正しく設定することが重要であり、このような処理にベイジアンネットワーク(BN:Bayesian Network)が利用される。ベイジアンネットワークは、複数ノードからなり、各ノード間の関連性を定義したネットワークである。ベイジアンネットワークの生成処理、利用処理については、例えば特許文献1、特許文献2に記載されている。特許文献1および特許文献2は、ノード間の関連性を正しく設定した信頼度の高いベイジアンネットワークを生成するための処理について記載している。
例えば、図1を参照して説明したPOMDPモデルにおいては、前述したように、
(a)状態情報(State space):S
(b)行動情報(Action space):A
(c)観測情報(Observation space):O
(d)報酬情報(Reward space):R
これらの様々な情報や、状態遷移確率の算出関数、報酬の算出関数、観測状態の発生確率の算出関数などを定義することが必要であり、POMDPモデルの構築処理には専門の知識や経験が必要である。
US公開特許2004/0220892 US公開特許2002/0103793
本発明は、上述の問題点に鑑みてなされたものであり、例えば放送波によって送信されるEPG(Electronic Program Guide)など、属性情報とその値を持つ属性値データ(Attribute−Value)を入力して部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を自動的に生成する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行するデータ処理部と、
前記データ処理部における部分観測マルコフ決定過程(POMDP)モデルの生成処理に適用するルールを格納したルール記憶部とを有し、
前記データ処理部は、
前記属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成する構成であることを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記属性データに基づく質問の生成、出力処理において、回答に基づく特定オブジェクト推定が可能な推定的アクション(Guess Action)と、推定的アクション以外の非推定的アクション(Other Action)のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記属性データに基づく質問の生成、出力処理において、前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション(Generic Action)と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション(Specific Action)のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記ルール記憶部は、部分観測マルコフ決定過程(POMDP)において規定される
(1)状態遷移関数(State Transition Function)に関するルール、
(2)観測関数(Observation Function)に関するルール、
(3)報酬関数(Reward Function)に関するルール、
これらのルールの少なくともいずれかのルールを格納しており、
前記データ処理部は、
前記状態遷移関数に関するルール、観測関数に関するルール、報酬関数に関するルールの少なくともいずれかのルールを適用して部分観測マルコフ決定過程(POMDP)モデルを生成する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記観測関数に関するルールは、前記質問に対応する回答として得られる観測情報に基づいて、各オブジェクトに付与する確率値、すなわち、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
これらの各確率値を定義したルールであることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記観測関数に関するルールは、質問または回答の持つ意味の同一性判定結果に基づいて確率値定義がなされたルールであることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記状態遷移関数に関するルールは、推定的アクション以外のアクションの実行によって状態変化が発生しない確率[STdig%]と、推定的アクションによって状態変化が発生しない確率[STdigx%]を定めたルールであることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記報酬関数に関するルールは、
(A)推定的アクション(Guess Action)における、
(A1)包括的アクション(Generic Action)
(A2)特定的アクション(Specific Action)
(B)非推定的アクション(Other Action)における、
(B1)包括的アクション(Generic Action)
(B2)特定的アクション(Specific Action)
これらの各々に対応して設定される報酬の値を定めたルールであることを特徴とする。
さらに、本発明の第2の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
データ処理部が、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行するデータ処理ステップを有し、
前記データ処理ステップは、
前記属性データに基づく質問の生成、出力処理を行動として実行する行動ステップと、
質問に対する回答を観測情報として取得する観測情報取得ステップと、
ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成するステップと、
を有することを特徴とする情報処理方法にある。
さらに、本発明の第3の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
データ処理部に、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行させるデータ処理ステップを有し、
前記データ処理ステップは、
前記属性データに基づく質問の生成、出力処理を行動として実行させる行動ステップと、
質問に対する回答を観測情報として取得させる観測情報取得ステップと、
ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成させるステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、例えば放送波によって送信されるEPG(Electronic Program Guide)など、属性情報とその値を持つ属性値データ(Attribute−Value)を入力して部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を自動的に生成することが可能となる。例えば、属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを自動的に生成することが可能となる。
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
本発明の情報処理装置は、属性データ(Attribute−Value)に基づいて部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を自動的に生成する。本発明の情報処理装置では、あるデータ、例えば属性を示す属性情報とその値のセット情報からなる属性データ(Attribute−Value)を入力し、入力データに基づいてPOMDPを自動生成する。
POMDPの生成データとして適用可能な属性データとしては様々なデータがあるが、以下の実施例では、放送波によって送信されるEPG(Electronic Program Guide)に含まれるデータセットを利用したPOMDPの生成処理例について説明する。
最近のTV放送はデジタルデータの送信が行なわれ、放送波を利用して放送コンテンツの提供のみならず、番組プログラム情報としてのEPG(Electronic Program Guide)が提供されている。EPGには、番組の属性情報として番組(プログラム)の放送日時やタイトル、出演者、その他の番組情報が記録されている。EPGの一部データの構成例について図2に示す。
EPGデータは、図2に示すように、データの属性を示す属性(Attribute)とその値(Value)とによって構成され、[属性(Attribute):値(Value)]の構成を持つ例えば以下のようなデータによって構成されている。
station: テレビABC
year: 2006
month: 05
date: 11
start: 13:30
end: 15:30
program−title: 映画「プリティ・リーグ」
program−subtitle:
genre: 80
subgenre: 144

本発明の情報処理装置ではこのような属性とその値とからなる属性データセットを入力してPOMDPを自動生成する。
図3以下を参照して本発明の情報処理装置におけるPOMDPの生成処理の一例について説明する。図3に示す情報処理装置100は、POMDP生成部110、パラメータ入力部120、ルール記憶部130を有する。POMDP生成部110には、上述したように例えば図2を参照して説明した属性データ、すなわち属性情報と、その属性情報に対応する値とが設定された属性データ151が入力される。
POMDP生成部110は、入力する属性データ151を解析し、パラメータ入力部120から入力するパラメータと、ルール記憶部130に格納されたルールとを適用して、POMDPモデル152を生成して出力する。POMDPモデル152は、先に図1を参照して説明したように、
(a)状態情報(State space):S
(b)行動情報(Action space):A
(c)観測情報(Observation space):O
(d)報酬情報(Reward space):R
これらの様々な情報や、状態遷移確率の算出関数、報酬の算出関数、観測状態の発生確率の算出関数などが定義されたモデルである。
POMDP生成部110におけるPOMDPの生成処理例について、図4を参照して説明する。まず、図2を参照して説明した属性(Attribute)と属性の値(Value)からなる属性データ201を状態情報(Stae Space)211として設定する。
情報処理装置は、この状態情報(Stae Space)211に基づく行動情報212を生成し実行する。本例では、行動情報(Action Space)212として属性データ201に基づく質問の生成、出力処理が実行される。情報処理装置は、質問に対する回答を入力し、これを観測情報(Observation Space)213とする。
行動情報として生成される質問は例えば以下の2つのカテゴリに分類される。
(A)推定的アクション(Guess Action)
(B)非推定的アクション(Other Action)
さらに、上記の推定的アクションと非推定的アクションの具体的なアクション態様として、
(1)包括的アクション(Generic Action)
(2)特定的アクション(Specific Action)
これらの2つのアクションが定義される。
すなわち、
(A)推定的アクション(Guess Action)の種類として、
(A1)包括的アクション(Generic Action)
(A2)特定的アクション(Specific Action)
があり、
(B)非推定的アクション(Other Action)の種類としても、
(B1)包括的アクション(Generic Action)
(B2)特定的アクション(Specific Action)
がある。
(A)推定的アクション(Guess Action)は、1つのオブジェクトを推定したアクション(質問)である。オブジェクトとは本例では、ある特定番組(タイトル)に対応するEPGデータである。例えば、
「プログラムタイトルはおはよう日本ですか?」
という質問が推定アクションに相当する。プログラムタイトルがおはよう日本であるオブジェクト(EPGデータ)は、図に示す属性データ201に相当するものであり、1つの特定のオブジェクトを推定した質問が推定的アクションとして定義される。
上述の(A)推定的アクション(Guess Action)以外のアクションが(B)非推定的アクション(Other Action)であり、1つのオブジェクトを推定していないアクション(質問)である。
(1)包括的アクション(Generic Action)は、属性データ201中の属性情報(Attribute)に基づいて生成される質問であり、例えば、
「どこの放送局ですか」
という質問が包括的アクションに相当する。この質問は、属性データ201中の属性情報(Attribute)に基づいて生成され、その属性値を回答として期待した質問である。
(2)特定的アクション(Specific Action)は、属性データ201中の値(Value)に基づいて生成される質問であり、例えば、
「放送局はテレビABCですか」
という質問が特定的アクションに相当する。この質問は、属性データ201中の値(Value)に基づいて生成され、質問に含まれる属性値(Value)が正しいか否かを回答として期待した質問である。
上述したように、
(A)推定的アクション(Guess Action)
(B)非推定的アクション(Other Action)のいずれにおいても、
(1)包括的アクション(Generic Action)
(2)特定的アクション(Specific Action)
が適用できる。
情報処理装置は、これらの様々な質問に対する回答を入力し、これを観測情報203として設定する。観測情報は、ある行動(質問の生成出力)に対応して得られる観測データである。例えば図に示すように、
「テレビABC」、
「Yes,No,Other」
といった回答を入力して、これを観測情報とする。
情報処理装置では、このように属性データ201を状態情報(Stae Space)211として設定し、属性データ201に基づく行動情報212として、
(1)包括的アクション(Generic Action)
(2)特定的アクション(Specific Action)
これらのいずれかの行動情報212を定義して実行し、この行動に基づく回答を観測情報213として取得する。情報処理装置では、属性データ201に基づく様々な質問の生成、出力を行い、質問に対する回答の入力処理を実行する。
なお、質問に対する回答の種類は、以下のサブセットに分類される。
(1)正しい回答(RA:Right Answer)サブセット、
(2)誤った回答(WA:Wrong Anxwer)サブセット、
(3)不適切な回答(IrA:Irrelevant Anxwer)サブセット、
この3つのサブセットに分類され、観測情報213として取得される。なお、(1)正しい回答(RA:Right Answer)と、(2)誤った回答(WA:Wrong Anxwer)は、適切な回答(Relevant Answer)として解釈される。
図3に示すPOMDP生成部110は、質問生成、回答入力によるPOMDPの生成処理に際して、図3に示すパラメータ入力部120から供給されるパラメータと、ルール記憶部130に予め記憶されたルールを適用した処理を実行する。
適用するルールには、
(1)状態遷移関数(State Transition Function)に関するルール、
(2)観測関数(Observation Function)に関するルール、
(3)報酬関数(Reward Function)に関するルール、
がある。
(3)報酬関数(Reward Function)に関するルールは、ある行動や、観測情報に基づく報酬(Reward)の値を決定したルールである。(1)状態遷移関数(State Transition Function)に関するルールと、(2)観測関数(Observation Function)に関するルールについて、図5、図6を参照して説明する。
状態遷移関数(State Transition Function)に関するルールは、初期状態(s)が、行動(a)によって、最終状態(s')となる確率を設定したルールである。
例えば、図5(1)に示すロボット301は、領域302の領域[1]〜[4]のいずれかの領域に存在するとして、行動(アクション)を実行する。アクションとしては、図に示すように、
右移動アクション311、
左移動アクション312、
ストップアクション313、
のいずれかである。
これらの行動(a:アクション)を実行した場合の、初期状態(s)と最終状態(s')の生起関係としての確率値を示したのが、図5(2)である。
(2−1)は、右移動アクションを行なった場合の初期状態(s)と最終状態(s')の対応確率値、
(2−2)は、左移動アクションを行なった場合の初期状態(s)と最終状態(s')の対応確率値、
(2−3)は、ストップアクションを行なった場合の初期状態(s)と最終状態(s')の対応確率値、
である。
右移動アクションを行なった場合の初期状態(s)と最終状態(s')の対応確率値を示した(2−1)では、例えば、ロボット301の初期状態(s)が領域[1]である場合、右移動アクションを行なうことで、最終状態(s')としてのロボットの位置は、
領域[1]=0.1
領域[2]=0.9
領域[3]=0.0
領域[4]=0.0
これらの確率分布となる。
このように、ある初期状態(s)からあるアクション(a)に基づいて遷移する状態(s')の確率を定めたルールが状態遷移関数(State Transition Function)に関するルールである。
次に、観測関数(Observation Function)に関するルールについて図6を参照して説明する。観測関数(Observation Function)に関するルールは、ある初期状態(s)において行動(a)を発生させた場合に観測される観測情報(O)の発生確率を設定したルールである。
例えば、図6(1)に示すロボット301は、領域302の領域[1]〜[4]のいずれかの領域に存在する。左側には壁(Wall)315がある。このとき、右移動アクション(a)を実行した場合の、初期状態(s)と観測情報(O)の対応関係としての確率値を示したのが、図6(2)である。
右移動アクションを行なった場合の初期状態(s)と観測情報(O)の対応確率値では、例えば、ロボット301の初期状態(s)が領域[1]である場合、右移動アクションを行なうことで観測される情報の確率値(O)は、
左が壁(L_Wall)=0.9
左がオープン(L_Opening)=0.1
右が壁(R_Wall)=0.1
右がオープン(R_Opening)=0.9
となる。
なお、この観測情報は、ロボット301の初期状態(s)が領域[1]にあったとき、右移動アクションを行なうことでロボット301が領域[2]に移動した場合にロボット301の観測する情報に対応する。
このように、ある初期状態(s)からあるアクション(a)に基づいて遷移する状態(s')において観測される情報(O)の確率を定めたルールが観測関数(Observation Function)に関するルールである。
図3に示す情報処理装置100のPOMDP生成部110では、上述したように、
(1)状態遷移関数(State Transition Function)に関するルール、
(2)観測関数(Observation Function)に関するルール、
(3)報酬関数(Reward Function)に関するルール、
これらのルールの少なくともいずれかを適用したPOMDP生成処理を実行する。これらのルールはルール記憶部130に予め登録されている。本実施例におけるPOMDP生成処理において適用するルールの具体例について説明する。例えば以下の4つのルールを適用する。
(ルール1),(ルール2)
ルール1、ルール2は、状態遷移関数(State Transition Function)に関するルールであり、以下のように定義されるルールである。
(ルール1)
推定的アクション以外のアクションの実行によって状態変化が発生しない確率を[STdig%]とする。
(ルール2)
推定的アクションによって状態変化が発生しない確率を[STdigx]とする。
(ルール3)
ルール3は、観測関数(Observation Function)に関するルールである。前述したように、情報処理装置は、行動として様々な質問の生成、出力を実行しその回答を観測情報とする。観測情報として得られる回答は、以下の3つの種類に区分できる。
正しい答(Right Answer)
誤った答(Wrong Answer)
不適切な答(Irrevant Answer)
ルール3は、これらの回答、すなわち観測データに対応して設定される観測関数確率値の設定ルールである。
正しい答(Right Answer)に対しては、予め定めた正答観測確率値[OFr%]を設定し、
誤った答(Wrong Answer)に対しては、予め定めた誤答観測確率値[OFw%]を設定し、
その他の不適切な答(Irrevant Answer)に対しては、予め定めた不適切回答観測確率値[OFir%]を設定する。
例えば、具体的には、
正答観測確率値[OFr%]=85%、
誤答観測確率値[OFw%]=10%、
不適切回答観測確率値[OFir%]=5%
といった設定を行う。
なお、観測関数(Observation Function)に関するルールを定義する場合、上記のような正答、誤答、不適切回答の区分を行なうことが必要となるが、1つの行動(質問)に対する正答が1つとは限らない。すなわち複数の異なる回答が意味的に同一である場合もある。また、異なる行動(質問)も意味的に同じ質問となる場合もある。
例えば、
一週間のどの日か{dayofweek}と、
年月日{year,month,day}、
これらの回答を求める行動(質問)に対して得られる回答は、日や曜日などであり、回答が適切か不適切か、正答か誤答かといった回答の区分に際しては、意味的な解釈を含めた区分を実行して各観測確率値を設定すべきである。
例えば、図7(1)には、
行動(a:アクション)として、
「その日は19日ですか」
に対応する観測関数ルールの設定例を示している。
正答観測確率値[OFr%]=85%、
誤答観測確率値[OFw%]=10%、
不適切回答観測確率値[OFir%]=5%
としており、
例えばEPG−Aが19日のプログラムである場合、
観測情報である回答[Yes]と[19]を正答観測確率値[OFr%]=85%、
回答[No]と[18]を誤答観測確率値[OFw%]=10%、
その他の回答を不適切回答観測確率値[OFir%]=5%
として設定した観測関数ルールとしている。
また、EPG−Bは18日のプログラムである場合、
観測情報である回答[No]と[18]を正答観測確率値[OFr%]=85%、
回答[Yes]と[19]を誤答観測確率値[OFw%]=10%、
その他の回答を不適切回答観測確率値[OFir%]=5%
として設定した観測関数ルールとしている。
しかし、質問として設定した19日が2006年5月19日であり金曜日(Friday)である場合、EPG−Aが19日のプログラムである場合、
「その日は19日ですか」
という質問に対する回答として、
金曜日(Friday)という回答(観測情報)と、
木曜日(Thursday)という回答(観測情報)
これらを同列のノイズ、すなわち不適切な回答とすることは好ましくない。
従って、図7(2)に示すように、
19日(金(Fri))のプログラムであるEPG−Aに対しては、
「その日は19日ですか」
という質問に対する回答として、
観測情報である回答[Yes]と[19]に、さらに[Friday]を正答観測確率値[OFr%]=85%
として設定し、
18日(木(Fri))のプログラムであるEPG−Aに対しては、
観測情報である回答[No]と[18]と[Thurseday]を正答観測確率値[OFr%]=85%
として設定する。
このような処理によって、観測情報に対する処理を的確に実行する。
また、図8(1)には、
行動(a:アクション)として、
「それは週のいつですか」
に対応する観測関数ルールの設定例を示している。
正答観測確率値[OFr%]=85%、
誤答観測確率値[OFw%]=10%、
不適切回答観測確率値[OFir%]=5%
としており、
例えばEPG−Aが19日(金)のプログラムである場合、
観測情報である回答[Friday(金)]を正答観測確率値[OFr%]=85%、
回答[Thurseday(木)]を誤答観測確率値[OFw%]=10%、
その他の回答を不適切回答観測確率値[OFir%]=5%
として設定した観測関数ルールとし、
EPG−Bが18日(木)のプログラムである場合、
観測情報である回答[Thurseday(木)]を正答観測確率値[OFr%]=85%、
回答[Friday(金)]を誤答観測確率値[OFw%]=10%、
その他の回答を不適切回答観測確率値[OFir%]=5%
として設定した観測関数ルールとしている。
この場合も、質問として設定した
「それは週のいつですか」
に対する観測情報(回答)として日にちが得られる場合もあり、
19日が2006年5月19日であり金曜日(Friday)である場合、EPG−Aが19日のプログラムである場合の回答として、
18日という回答(観測情報)と、
19日という回答(観測情報)
これらを同列のノイズ、すなわち不適切な回答とすることは好ましくない。
従って、図8(2)に示すように、
19日(金(Fri))のプログラムであるEPG−Aに対しては、
「それは週のいつですか」
という質問に対する回答として、
観測情報である回答[Friday]に、さらに[19]を正答観測確率値[OFr%]=85%
として設定し、
18日(木(Fri))のプログラムであるEPG−Aに対しては、
観測情報である回答[Thurseday]にさらに[18]を正答観測確率値[OFr%]=85%
として設定する。
このような処理によって、観測情報に対する処理を的確に実行する。
(ルール4)
ルール4は、報酬関数(Reward Function)に関するルールである。このルールは、前述した
(A)推定的アクション(Guess Action)における、
(A1)包括的アクション(Generic Action)
(A2)特定的アクション(Specific Action)
(B)非推定的アクション(Other Action)における、
(B1)包括的アクション(Generic Action)
(B2)特定的アクション(Specific Action)
これらの各々に対応して設定される報酬の値を定めたルールである。
具体的には、
(A)推定的アクション(Guess Action)において、
(A1)包括的アクション(Generic Action)に対する報酬の値を[RWgx]、
(A2)特定的アクション(Specific Action)に対する適切(relevant)な回等が得られた場合の報酬の値を[RWpx]、
(A2)特定的アクション(Specific Action)に対する非適切(not relevant)な回等が得られた場合の報酬の値を[RWnpx]、
とする。
また、(B)非推定的アクション(Other Action)において、
(B1)包括的アクション(Generic Action)に対する報酬の値を[RWg]、
(B2)特定的アクション(Specific Action)に対する適切(relevant)な回等が得られた場合の報酬の値を[RWp]、
(B2)特定的アクション(Specific Action)に対する不適切(not relevant)な回等が得られた場合の報酬の値を[RWnp]、
とする。
次に、図9以下を参照して、本発明の情報処理装置における部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)の自動生成処理および利用構成について説明する。
図9以下で説明するPOMDP生成および利用処理は、ある番組(プログラム)に対応するEPGプログラムの属性データ、すなわち先に図2等を参照して説明した属性(Attribute)とその値(Value)からなる属性データを入力してPOMDPを生成して、行動(Action)、すなわち質問を実行して、回答を観測情報(Observation)として取得し、観測情報に基づいて予め定めたルール(上述のルール1〜4)に従って、様々なオブジェクト(プログラム)に対して確率値を設定して、最終的に入力されたEPGプログラムを推定する処理である。
図9に示すグラフ321は、上述の処理によって生成される各オブジェクトに対する確率値分布データとしてのオブジェクト対応確率分布グラフ321である。複数のオブジェクトOb1〜Ob22・・は、本例では、それぞれ異なる番組(プログラム)対応のEPGである。行動(Action)軸は、実行する行動(アクション)、すなわち質問の回数を示している。縦軸(確率:Probability)は、各質問に対する観測情報に基づいて上記ルールを適用して得られる各オブジェクトの確率を示しており、入力EPGがOb1〜Ob22である確率を示している。
初期的には、行動(Action)軸の[0]の部分であり、この初期状態では、Ob1〜Ob22の確率(Probability)はすべて同一なフラットな状態である。
最初のアクションとアクションに対応する観測情報(Observation)の対応データがアクション−観測情報322である。すなわち、
アクション=一日のうちのいつですか{ask_partofday}
に対する観測情報(Observation)として、
観測情報=午後
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。これらの各率値の具体的な値は予め設定しておく。例えば、
正答観測確率値[OFr%]=85%、
誤答観測確率値[OFw%]=10%、
不適切回答観測確率値[OFir%]=5%
である。
この確率値を設定したのが、図9に示す確率分布グラフ321の行動(Action)の[1]に相当するラインに示されたデータである。オブジェクト=Ob2,Ob4,Ob7,Ob21等の確率値が大きく設定されており、これらのオブジェクトが、
アクション=一日のうちのいつですか{ask_partofday}
に対する観測情報(Observation)として、
観測情報=午後
に対して、正答観測確率値[OFr%]が与えられたオブジェクトである。
ここでは、解析対象の入力EPGは図に示すEPGプログラム323であり、オブジェクト4(Ob4)に対応するものとする。当然、確率分布グラフ321のオブジェクト4(Ob4)の行動(action)=1に対応する確率値グラフも高く設定される。その他にも、午後のプログラムが存在するので、複数の高い確率値が各オブジェクトに対する確率値として設定されることになる。
図10は、2回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報322に示すように、2回目のアクションは、
アクション=テレビ局はどこですか{ask_station}
であり、このアクションに対する観測情報(Observation)として、
観測情報=WOテレビ
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図10に示すグラフ321の行動(Action)の[2]に相当するラインに示されたデータである。オブジェクト=Ob4,Ob6等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図11は、3回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報322に示すように、3回目のアクションは、
アクション=プログラムはダックテイルですか、
であり、このアクションに対する観測情報(Observation)として、
観測情報=Yes
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図11に示すグラフ321の行動(Action)の[3]に相当するラインに示されたデータである。オブジェクト=Ob4等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
これらの処理によって、確率分布グラフ321の各オブジェクトの確率分布から最も高い確率値を持つものがターゲットのプログラムであると判定され、入力されたEPGプログラムはオブジェクト4(Ob4)であることの判定が可能となる。
図9〜図11における処理例は、ターゲットとして探索するオブジェクト(EPGプログラム)が1つの場合の例であるが、複数のオブジェクトを探索ターゲットとした処理も可能である。図12以下を参照して複数のオブジェクトを探索ターゲットとした処理例について説明する。
図12には、2つの異なる番組(プログラム)対応のEPGプログラム401,402を示している。これらの2つが探索対象のターゲットプログラムであるとする。
図13は、1回目のアクションに基づく観測情報の取得と確率分布グラフ422の生成処理例を示している。アクション−観測情報421に示すように、1回目のアクションは、
アクション=一日のうちのいつですか{ask_partofday}
であり、このアクションに対する観測情報(Observation)として、
観測情報=午後
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図13に示す確率分布グラフ422の行動(Action)の[1]に相当するラインに示されたデータである。オブジェクト=Ob4等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図14は、2回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報421に示すように、2回目のアクションは、
アクション=テレビ局はどこですか{ask_station}
であり、このアクションに対する観測情報(Observation)として、
観測情報=WOテレビ
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図14に示すグラフ321の行動(Action)の[2]に相当するラインに示されたデータである。オブジェクト=Ob4,Ob6等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図15は、3回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報421に示すように、3回目のアクションは、
アクション=番組はダックテイルですか
であり、このアクションに対する観測情報(Observation)として、
観測情報=No
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図15に示すオブジェクト対応確率分布グラフ422の行動(Action)の[3]に相当するラインに示されたデータである。多くのオブジェクトの確率値が比較的大きく設定されている。これらの多くのオブジェクトは、ダックテイルの番組に相当しないオブジェクト(EPGプログラム)であり、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図16は、4回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報421に示すように、4回目のアクションは、
アクション=テレビ局はどこですか{ask_station}
であり、このアクションに対する観測情報(Observation)として、
観測情報=衛星第二テレビ
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図16に示すオブジェクト対応確率分布グラフ422の行動(Action)の[4]に相当するラインに示されたデータである。オブジェクト=Ob2,Ob5,Ob8等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図17は、5回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報421に示すように、5回目のアクションは、
アクション=ジャンルは何ですか{ask_genre}
であり、このアクションに対する観測情報(Observation)として、
観測情報=料理
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図17に示すオブジェクト対応確率分布グラフ422の行動(Action)の[5]に相当するラインに示されたデータである。オブジェクト=Ob2,Ob8等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図18は、6回目のアクションに基づく観測情報の取得と確率分布グラフの生成処理例を示している。アクション−観測情報421に示すように、6回目のアクションは、
アクション=一日のうちどの時間帯ですか{ask_partofday}
であり、このアクションに対する観測情報(Observation)として、
観測情報=夕方
この観測情報が得られたことを示している。
情報処理装置のPOMDP生成部は、この観測情報に基づいて、前述したルールを適用して各オブジェクトに対して、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
の各確率値を設定する。この確率値を設定したのが、図18に示すオブジェクト対応確率分布グラフ422の行動(Action)の[6]に相当するラインに示されたデータである。オブジェクト=Ob2,Ob8等の確率値が大きく設定されている。これらのオブジェクトは、確率値の配分を決定するルール(観測関数に対応するルール)に基づいて高い確率値が設定されたオブジェクトである。
図18に示すオブジェクト対応確率分布グラフ422は、6回の行動(Action=質問)に基づいて取得された6回の観測情報によって生成されたオブジェクト対応の確率分布グラフである。これらの各率分布データに基づいて、例えば、オブジェクトごとの確率値の積算値を算出し、最も高いものから順にリストを生成した場合、
図12に示すオブジェクト401,402がNo1,No2となる確率がもっとも高くなる。このように、ターゲットが複数の場合であっても、POMDPによって得られた確率分布情報からターゲットを推定することが可能となる。
上述したPOMDPの生成処理を実行する情報処理装置の機能構成について、図19を参照して説明する。図19は、POMDPの生成処理を実行する情報処理装置の機能構成を示すブロック図である。情報処理装置450は一般的なPC構成と同様の構成によって実現される。なお、ハードウェア構成の具体例については、後段で説明する。情報処理装置450は、データ入出力部451、POMDP生成部としてのデータ処理部452、記憶部453、POMDP生成に適用する各種ルールを格納したルール記憶部としてのデータベース454を有する。
データ入出力部451を介して、属性データ、すなわち先に図2を参照して説明した属性情報(Attribute)と属性値(Value)からなる属性データが入力され、さらにPOMDP(Factored POMDP)の生成処理の開始コマンドなどが入力される。
POMDP生成部としてのデータ処理部452はPOMDPの生成処理、すなわち、不確実性を含む対象領域における情報分析処理に適用する部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行する。
ルール記憶部としてのデータベース454は、データ処理部452における部分観測マルコフ決定過程(POMDP)モデルの生成処理に適用するルールを格納している。記憶部453は、データ処理部452における適用するパラメータ、プログラムの格納領域、ワーク領域などに用いられるメモリである。
データ処理部452は、属性情報および属性値を含む属性データを入力し、属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成する。
データ処理部452は、属性データに基づく質問の生成、出力処理において、回答に基づく特定オブジェクト推定が可能な推定的アクション(Guess Action)と、推定的アクション以外の非推定的アクション(Other Action)のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する。
なお、データ処理部452は、属性データに基づく質問の生成、出力処理において、属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション(Generic Action)と、属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション(Specific Action)のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する。
ルール記憶部としてのデータベース454は、部分観測マルコフ決定過程(POMDP)において規定される、
(1)状態遷移関数(State Transition Function)に関するルール、
(2)観測関数(Observation Function)に関するルール、
(3)報酬関数(Reward Function)に関するルール、
これらのルールの少なくともいずれかのルールを格納しており、
データ処理部452は、状態遷移関数に関するルール、観測関数に関するルール、報酬関数に関するルールの少なくともいずれかのルールを適用して部分観測マルコフ決定過程(POMDP)モデルを生成する。
なお、観測関数に関するルールは、質問に対応する回答として得られる観測情報に基づいて、各オブジェクトに付与する確率値、すなわち、
正答観測確率値[OFr%]、
誤答観測確率値[OFw%]、
不適切回答観測確率値[OFir%]、
これらの各確率値を定義したルールである。
また、観測関数に関するルールは、先に、図7、図8を参照して説明したように、質問または回答の持つ意味の同一性判定結果に基づいて確率値定義がなされたルールである。
状態遷移関数に関するルールは、推定的アクション以外のアクションの実行によって状態変化が発生しない確率[STdig%]と、推定的アクションによって状態変化が発生しない確率[STdigx%]を定めたルールであり、報酬関数に関するルールは、
(A)推定的アクション(Guess Action)における、
(A1)包括的アクション(Generic Action)
(A2)特定的アクション(Specific Action)
(B)非推定的アクション(Other Action)における、
(B1)包括的アクション(Generic Action)
(B2)特定的アクション(Specific Action)
これらの各々に対応して設定される報酬の値を定めたルールである。
最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図20を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、POMDPの構築処理を実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラム、POMDP生成処理プログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成る。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えばPOMDP生成に適用するルールなどの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続されている。例えば属性データやルールは通信部515を介して入力する構成としてもよい。
なお、図20に示す情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、図20に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、例えば放送波によって送信されるEPG(Electronic Program Guide)など、属性情報とその値を持つ属性値データ(Attribute−Value)を入力して部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を自動的に生成することが可能となる。例えば、属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを自動的に生成することが可能となる。
POMDPについて説明する図である。 属性データの構成例について説明する図である。 本発明の情報処理装置の構成および処理について説明する図である。 本発明の情報処理装置の構成および処理について説明する図である。 状態遷移関数について説明する図である。 観測関数について説明する図である。 観測関数ルールの生成処理について説明する図である。 観測関数ルールの生成処理について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の実行するPOMDP生成処理例について説明する図である。 本発明の情報処理装置の構成例について説明する図である。 本発明の情報処理装置のハードウェア構成例について説明する図である。
符号の説明
100 情報処理装置
110 POMDP生成部
120 パラメータ入力部
130 ルール記憶部
151 属性データセット
152 POMDPモデル
201 属性データ
211 状態情報(Stae Space)
212 行動情報(Action Space)
213 観測情報(Observation Space)
301 ロボット
302 領域
321 オブジェクト対応確率分布グラフ
322 アクション−観測情報
323 EPGプログラム
401 EPGプログラム
402 EPGプログラム
421 アクション−観測情報
422 オブジェクト対応確率分布グラフ
450 情報処理装置
451 データ入出力部
452 データ処理部
453 記憶部
454 データベース
501 CPU(Central Processing Unit)
502 ROM(Read−Only−Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (8)

  1. 不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
    属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行するデータ処理部と、
    前記データ処理部における部分観測マルコフ決定過程(POMDP)モデルの生成処理に適用するルールを格納したルール記憶部とを有し、
    前記データ処理部は、
    前記属性データに基づく質問の生成、出力処理を行動として実行して、質問に対する回答を観測情報として取得し、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成する構成であり、
    前記データ処理部は、
    前記属性データに基づく質問の生成、出力処理において、
    回答に基づく特定オブジェクト推定が可能な推定的アクション(Guess Action)と、推定的アクション以外の非推定的アクション(Other Action)のいずれかを実行する構成であり、
    前記データ処理部は、
    前記推定的アクション(Guess Action)、および前記非推定的アクション(Other Action)の実行に際して、
    前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション(Generic Action)と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション(Specific Action)のいずれかを実行し、各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行する構成であることを特徴とする情報処理装置。
  2. 前記ルール記憶部は、
    部分観測マルコフ決定過程(POMDP)において規定される
    (1)状態遷移関数(State Transition Function)に関するルール、
    (2)観測関数(Observation Function)に関するルール、
    (3)報酬関数(Reward Function)に関するルール、
    これらのルールの少なくともいずれかのルールを格納しており、
    前記データ処理部は、
    前記状態遷移関数に関するルール、観測関数に関するルール、報酬関数に関するルールの少なくともいずれかのルールを適用して部分観測マルコフ決定過程(POMDP)モデルを生成する構成であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記観測関数に関するルールは、
    前記質問に対応する回答として得られる観測情報に基づいて、各オブジェクトに付与する確率値、すなわち、
    正答観測確率値[OFr%]、
    誤答観測確率値[OFw%]、
    不適切回答観測確率値[OFir%]、
    これらの各確率値を定義したルールであることを特徴とする請求項に記載の情報処理装置。
  4. 前記観測関数に関するルールは、
    質問または回答の持つ意味の同一性判定結果に基づいて確率値定義がなされたルールであることを特徴とする請求項に記載の情報処理装置。
  5. 前記状態遷移関数に関するルールは、
    推定的アクション以外のアクションの実行によって状態変化が発生しない確率[STdig%]と、
    推定的アクションによって状態変化が発生しない確率[STdigx%]を定めたルールであることを特徴とする請求項に記載の情報処理装置。
  6. 前記報酬関数に関するルールは、
    (A)推定的アクション(Guess Action)における、
    (A1)包括的アクション(Generic Action)
    (A2)特定的アクション(Specific Action)
    (B)非推定的アクション(Other Action)における、
    (B1)包括的アクション(Generic Action)
    (B2)特定的アクション(Specific Action)
    これらの各々に対応して設定される報酬の値を定めたルールであることを特徴とする請求項に記載の情報処理装置。
  7. 情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
    データ処理部が、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行するデータ処理ステップを有し、
    前記データ処理ステップは、
    前記属性データに基づく質問の生成、出力処理を行動として実行する行動ステップと、
    質問に対する回答を観測情報として取得する観測情報取得ステップと、
    ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成するモデル生成ステップを有し、
    前記行動ステップにおいて、
    回答に基づく特定オブジェクト推定が可能な推定的アクション(Guess Action)と、推定的アクション以外の非推定的アクション(Other Action)のいずれかを実行し、
    前記推定的アクション(Guess Action)、および前記非推定的アクション(Other Action)の実行に際して、前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション(Generic Action)と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション(Specific Action)のいずれかを実行し、
    前記モデル生成ステップにおいて、
    各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行することを特徴とする情報処理方法。
  8. 情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
    データ処理部に、属性情報および属性値を含む属性データを入力し、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルの自動生成処理を実行させるデータ処理ステップを有し、
    前記データ処理ステップは、
    前記属性データに基づく質問の生成、出力処理を行動として実行させる行動ステップと、
    質問に対する回答を観測情報として取得させる観測情報取得ステップと、
    ルール記憶部に記録されたルールに基づいて、取得した観測情報に基づくオブジェクト対応の確率分布情報の生成処理を実行して部分観測マルコフ決定過程(POMDP)モデルを生成させるモデル生成ステップと、
    を有し、
    前記行動ステップにおいて、
    回答に基づく特定オブジェクト推定が可能な推定的アクション(Guess Action)と、推定的アクション以外の非推定的アクション(Other Action)のいずれかを実行させ、
    前記推定的アクション(Guess Action)、および前記非推定的アクション(Other Action)の実行に際して、前記属性データに含まれる属性情報に基づいて生成される質問を適用した包括的アクション(Generic Action)と、前記属性データに含まれる属性値に基づいて生成される質問を適用した特定的アクション(Specific Action)のいずれかを実行させ、
    前記モデル生成ステップにおいて、
    各アクションに応じたルールに基づいて、オブジェクト対応の確率分布情報の生成処理を実行させることを特徴とするコンピュータ・プログラム。
JP2007020470A 2007-01-31 2007-01-31 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Expired - Fee Related JP5070860B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007020470A JP5070860B2 (ja) 2007-01-31 2007-01-31 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US12/011,754 US8095493B2 (en) 2007-01-31 2008-01-29 Information processing apparatus, information processing method and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007020470A JP5070860B2 (ja) 2007-01-31 2007-01-31 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2008186326A JP2008186326A (ja) 2008-08-14
JP5070860B2 true JP5070860B2 (ja) 2012-11-14

Family

ID=39669070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007020470A Expired - Fee Related JP5070860B2 (ja) 2007-01-31 2007-01-31 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US8095493B2 (ja)
JP (1) JP5070860B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5440840B2 (ja) 2009-06-11 2014-03-12 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11093533B2 (en) * 2018-06-05 2021-08-17 International Business Machines Corporation Validating belief states of an AI system by sentiment analysis and controversy detection
CN111401033B (zh) * 2020-03-19 2023-07-25 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
CN114469000B (zh) * 2022-01-27 2023-08-11 重庆邮电大学 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103793A1 (en) 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
JP2003271168A (ja) 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体
US20040220892A1 (en) 2003-04-29 2004-11-04 Ira Cohen Learning bayesian network classifiers using labeled and unlabeled data
JP4449871B2 (ja) 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法

Also Published As

Publication number Publication date
US20080183652A1 (en) 2008-07-31
US8095493B2 (en) 2012-01-10
JP2008186326A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
Ripley et al. Manual for RSIENA
JP4863778B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20180137424A1 (en) Methods and systems for identifying gaps in predictive model ontology
US20180129959A1 (en) Methods and systems for programmatically selecting predictive model parameters
Chen et al. Usher: Improving data quality with dynamic forms
Mao et al. Learning deterministic probabilistic automata from a model checking perspective
EP3882776B1 (en) Autonomous self-healing test automation
JP5070860B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP7245961B2 (ja) 対話型機械学習
US9355020B2 (en) Resolving nondeterminism in application behavior models
JP2023512856A (ja) 対話型機械学習
JP2007257184A (ja) 障害原因推定システム、方法、及び、プログラム
JP2007249873A (ja) 分析モデル作成方法、分析モデル作成プログラムおよび分析モデル作成装置
US11481650B2 (en) Method and system for selecting label from plurality of labels for task in crowd-sourced environment
US20220067541A1 (en) Hybrid machine learning
CN115345600B (zh) 一种rpa流程的生成方法和装置
Chopra et al. Conversational challenges in ai-powered data science: Obstacles, needs, and design opportunities
Čertický Real-time action model learning with online algorithm 3 sg
Gasparic et al. Context-aware integrated development environment command recommender systems
CN115349129A (zh) 生成具有不确定性区间的性能预测
US20140067848A1 (en) Estimation of effects of process customization
JP7127686B2 (ja) 仮説推論装置、仮説推論方法、及びプログラム
Sánchez-Ruiz et al. Abstraction in knowledge-rich models for case-based planning
RU2819647C2 (ru) Способ и система генерирования обучающих данных для алгоритма машинного обучения
Brown et al. Developer productivity for humans, part 6: Measuring flow, focus, and friction for developers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120806

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees