JP2007328507A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2007328507A
JP2007328507A JP2006158566A JP2006158566A JP2007328507A JP 2007328507 A JP2007328507 A JP 2007328507A JP 2006158566 A JP2006158566 A JP 2006158566A JP 2006158566 A JP2006158566 A JP 2006158566A JP 2007328507 A JP2007328507 A JP 2007328507A
Authority
JP
Japan
Prior art keywords
information
pomdp
observation
elements
bayesian network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006158566A
Other languages
English (en)
Other versions
JP4863778B2 (ja
Inventor
Profio Ugo Di
プロフィオ ウゴ ティ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006158566A priority Critical patent/JP4863778B2/ja
Priority to KR1020070054970A priority patent/KR20070117472A/ko
Priority to EP07011149A priority patent/EP1865447A3/en
Priority to US11/759,083 priority patent/US7882047B2/en
Priority to CNA2007101388245A priority patent/CN101105845A/zh
Publication of JP2007328507A publication Critical patent/JP2007328507A/ja
Application granted granted Critical
Publication of JP4863778B2 publication Critical patent/JP4863778B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】改良されたPOMDPの構築を可能とする装置および方法を実現する。
【解決手段】部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)において定義される状態(State)、行動(Action)、観測(Observation)、報酬(Reward)の各情報について、それぞれ複数の異なる要素(ファクタ)を設定し、要素間の関係を明確にしたファクタPOMDP(Factored POMDP)を構築する。ファクタPOMDPを適用した状態遷移予測や行動決定処理においては、要素単位の因果関係を明確に区別した処理が可能となり、より正しい状況予測や効果的な行動決定処理が可能となる。
【選択図】図2

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を基本構成として、要素単位で処理可能としたファクタPOMDP(Factored POMDP)を自動構築する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
状態予測や行動決定手法の1つとして、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を適用した処理が知られている。部分観測マルコフ決定過程(以下POMDP)の概要について説明する。
POMDPは、以下の情報を適用した処理として行なわれる。
(a)状態情報(State space):S
(b)行動情報(Action space):A
(c)時間T=(t−1)の状態S=st−1と行動A=at−1から、次の時間T=(t)の状態S=sへの状態遷移確率を算出する状態遷移確率算出関数:T(s,at−1,st−1)=P(s|at−1,st−1
(d)時間T=(t)の状態S=sと行動A=aからの報酬(Reward)を算出する報酬関数:R(s,a
(e)観測情報(Observation space):Ω
(f)時間T=(t−1)の行動A=at−1と、時間T=(t)の状態S=sとから時間T=(t)の観測状態の発生確率を算出する観測状態確立関数:O(s,at−1,ot−1)=P(o|at−1,s
POMDPは、上記の各情報適用した状態予測や行動決定処理を行なう。例えば、取得可能な少ない情報から最適と判断される行動(Action)を決定する処理などに適用され、具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。
上記の各情報を適用したPOMDPによる状態予測や行動決定処理について、図1を参照して説明する。図1には時間T=t−1における状態st−1,行動at−1、報酬Rt−1、観測ot−1と、その後の時間T=tにおける状態s,行動a、報酬R、観測oとを示している。各ブロックを結ぶ矢印は、相互の影響を示している。矢印の出力元(parent)の情報や状態が矢印の出力先(child)の状態や情報に変化を及ぼす可能性があることを示している。
例えば、時間T=t−1において、
報酬Rt−1は、時間T=t−1の状態st−1,行動at−1に基づいて、上述したように、報酬関数:R(st−1,at−1)で求められる。
また、観測情報ot−1は、例えば、状態st−1の変化に伴って変化する観察可能な情報である。
これらの関係は、いずれの時間T=t−1,t,t+1,・・・においても同様となる。
さらに、異なる時間の関係において、時間T=tにおける状態sと、時間T=t−1における状態st−1および行動at−1との関係は、上述した状態遷移確率算出関数:T(s,at−1,st−1)=P(s|at−1,st−1)によって対応付けられている。すなわち、時間T=tにおける状態sとなる確率は、前の時間T=t−1における、状態st−1および行動at−1とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。
このように、POMDPでは不確実性を含む対象領域において様々な情報(状態、行動、報酬、観測)を定義し、これらの情報に関連性に基づいて、不確実性を含む対象領域における状態遷移の予測や、自己の行動を決定する。行動の決定処理に際しては、例えば報酬が最も高く算出される行動を最善の行動として決定する処理を行なう。
なお、POMDPの構築処理においては、情報(状態、行動、報酬、観測)間の関連性を正しく設定することが重要であり、このような処理にベイジアンネットワーク(BN:Bayesian Network)が利用される。ベイジアンネットワークは、複数ノードからなり、各ノード間の関連性を定義したネットワークである。ベイジアンネットワークの生成処理、利用処理については、例えば特許文献1、特許文献2に記載されている。特許文献1および特許文献2は、ノード間の関連性を正しく設定した信頼度の高いベイジアンネットワークを生成するための処理について記載している。
図1を参照して説明したPOMDPでは、例えば行動決定処理に適用する各時間の状態(State)、報酬(Reward)、観測(Observation)、これらの各情報について、それぞれ1つの要素からなる情報として処理を行っている。一方、現実的な環境においては、情報として取得可能な状態や観測される情報は、様々な異なる要素(ファクタ)によって構成される場合が多い。しかし、これまでのPOMDPでは、これらの様々な要素を考慮したPOMDPを自動的に構築する構成し実現されていない。
US公開特許2004/0220892 US公開特許2002/0103793
本発明は、上述の問題点に鑑みてなされたものであり、POMDPを適用した状態遷移予測や、行動決定処理において、複数の異なる要素(ファクタ)を考慮した処理を可能としたファクタPOMDP(Factored POMDP)を自動構築する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を基本構成として、POMDPにおいて定義される各情報に含まれる要素を単位として、要素間の関係を解析し、該解析結果に基づいて、要素間の関係情報を含むPOMDPであるファクタPOMDP(Factored POMDP)の構築を実行するデータ処理部を有することを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、POMDPにおいて定義される情報である観測(Observation)に含まれる観測要素各々についてのベイジアンネットワーク(Bayesian Network)を構築し、該観測要素単位のベイジアンネットワークを組み合わせて、前記ファクタPOMDP(Factored POMDP)を構築する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、POMDPにおいて定義される情報である観測(Observation)情報に含まれる観測要素各々と、POMDPにおいて定義される観測以外の情報である状態(State)、行動(Action)、報酬(Reard)の少なくともいずれかに含まれる要素との関連性を学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、POMDPにおいて定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワークを構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築し、さらに、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ(DAG)の更新処理を実行して要素間の関係を解析して前記ファクタPOMDP(Factored POMDP)を構築する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記POMDPにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタPOMDP(Factored POMDP)の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数(Max−Fan−In)情報を入力し、該入力情報に従って、前記ファクタPOMDP(Factored POMDP)を構築する構成であることを特徴とする。
さらに、本発明の第2の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
データ処理部において、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)において定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワーク(Bayesian Network)を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築するイントラ・ベイジアンネットワーク生成ステップと、
データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築するダイナミック・ベイジアンネットワーク生成ステップと、
データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、POMDPにおいて定義される情報の要素の関係情報を含むファクタPOMDP(Factored POMDP)を生成するファクタPOMDP生成ステップと、
を有することを特徴とする情報処理方法にある。
さらに、本発明の情報処理方法の一実施態様において、前記イントラ・ベイジアンネットワーク生成ステップは、POMDPにおいて定義される情報である観測(Observation)に含まれる観測要素各々と、POMDPにおいて定義される観測以外の情報である状態(State)、行動(Action)、報酬(Reard)の少なくともいずれかに含まれる要素との関連性を、学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行するステップを含むことを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記ダイナミック・ベイジアンネットワーク生成ステップは、複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記イントラ・ベイジアンネットワーク生成ステップ、および前記ダイナミック・ベイジアンネットワーク生成ステップでは、前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ(DAG)の更新処理を実行して要素間の関係を解析することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、前記データ処理部において、前記POMDPにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタPOMDP(Factored POMDP)の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数(Max−Fan−In)情報を入力し、該入力情報に従って、前記ファクタPOMDPの構築処理を実行することを特徴とする。
さらに、本発明の第3の側面は、
情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
データ処理部において、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)において定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワーク(Bayesian Network)を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築させるイントラ・ベイジアンネットワーク生成ステップと、
データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築させるダイナミック・ベイジアンネットワーク生成ステップと、
データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、POMDPにおいて定義される情報の要素の関係情報を含むファクタPOMDP(Factored POMDP)を生成させるファクタPOMDP生成ステップと、
を実行させることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を基本構成として、POMDPにおいて定義される状態(State)、行動(Action)、観測(Observation)、報酬(Reward)の各情報について、それぞれ複数の異なる要素(ファクタ)を設定し、要素間の関係を明確にしたファクタPOMDP(Factored POMDP)を自動構築することが可能となる。本発明の処理によって生成した要素単位の依存関係を明確にしたファクタPOMDP(Factored POMDP)を適用した状態遷移予測や行動決定処理においては、要素単位の因果関係を明確に区別した処理が可能となり、より正しい状況予測や効果的な行動決定処理が可能となる。
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
まず、図2を参照して、本発明の情報処理装置において構築する複数の異なる要素(ファクタ)を考慮したPOMDPを適用した状態遷移予測や、行動決定処理の概要について説明する。本発明の処理を適用して構築される改良されたPOMDP、すなわちファクタPOMDP(Factored POMDP)では、要素(ファクタ)を考慮した処理により、より精度の高い状態遷移予測や行動決定が可能となる。具体的には、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理などにおいて、より制度の高い処理が可能となる。
なお、先に説明したように、POMDPは、以下の情報を適用した処理として行なわれる。
(a)状態情報(State space):S
(b)行動情報(Action space):A
(c)時間T=(t−1)の状態S=st−1と行動A=at−1から、次の時間T=(t)の状態S=sへの状態遷移確率を算出する状態遷移確率算出関数:T(s,at−1,st−1)=P(s|at−1,st−1
(d)時間T=(t)の状態S=sと行動A=aからの報酬(Reward)を算出する報酬関数:R(s,a
(e)観測情報(Observation space):Ω
(f)時間T=(t−1)の行動A=at−1と、時間T=(t)の状態S=sとから時間T=(t)の観測状態の発生確率を算出する観測状態確立関数:O(s,at−1,ot−1)=P(o|at−1,s
図2には、先に図1を参照して説明したと同様、時間T=t−1における状態st−1,行動at−1、報酬Rt−1、観測ot−1と、その後の時間T=tにおける状態s,行動a、報酬R、観測oとを示している。各ブロックを結ぶ矢印は、関連性、影響を持つ関係であることを示している。具体的には、矢印の出力元(parent)が矢印の出力先(child)に影響を及ぼしていることを示している。
図2の構成は、図1を参照して説明した構成と異なり、各時間における状態(State)、報酬(Reward)、観測(Observation)のそれぞれを1つの要素とした処理構成ではなく、状態(State)、報酬(Reward)、観測に含まれる複数の要素(ファクタ)を考慮して処理を行なう構成となっている。すなわち、同一の情報(状態、行動、報酬、観測)に含まれる複数の要素を個別に考慮したPOMDPである。
図2においては、状態(State)、報酬(Reward)、観測(Observation)の各々が、それぞれ2つの要素を持つ例を示している。なお、状態、報酬、観測の要素数は2つに限らない。本発明の情報処理装置では、同一カテゴリの情報に任意数の要素が存在するPOMDP構成を構築することが可能である。
図2においては、状態(State)として、
(状態要素1)例えばある人物、物などが存在するか否かの状態を示す[プレゼンス]、
(状態要素2)例えばあるデータ処理や行動計画などのプランの処理状態を示す[プラン]、
これらの2つの異なる要素の状態が定義されている。
また、報酬(Reward)については、
(報酬要素1)[プレゼンス]に対応する報酬、
(報酬要素2)[プラン]に対応する報酬、
これらの2つの異なる要素の報酬が定義されている。
さらに、観測(Observation)については、
(観測要素1)ある人物や物の表情、外観の変化の観察情報としての観測情報である[フェイス]、
(観測要素2)ある人物や物の行動の観察情報としての観測情報である[ムーブメント]、
これらの2つの異なる要素の観測情報が定義されている。
本発明の情報処理装置では、先に図1を参照して説明したPOMDP構成とは異なり、各情報に含まれる要素を個別に扱ってPOMDPを適用した状態遷移予測や、行動決定処理を可能とする構成を構築する。図2に示すような同一の情報(状態、行動、報酬、観測)に含まれる複数の要素を個別に考慮したPOMDPを、図1を参照して説明した従来のPOMDP処理と区別するため、ファクタPOMDP(Factored POMDPまたはF−POMDP)と呼ぶ。
本発明の情報処理装置では、POMDPにおいて定義される各情報(状態、行動、報酬、観測)に含まれる要素を判別し、各要素間の関連性を判断して、図2に示すような矢印を設定してファクタPOMDPを自動構築する。図2に示す構成では、各要素間に要素間の関連性を示す矢印が設定されているが、この矢印は、前述したように矢印の出力元の要素が出力先の要素に対して影響を与えていることを示している。
本発明の情報処理装置では、各情報(状態、行動、報酬、観測)に要素を定義して、さらに、要素間の関連性を解析することで、図2に示すような要素間の関連性を示す矢印を設定してファクタPOMDP(Factored POMDP)を構築する。各要素間の関連性の解析には、ベイジアンネットワーク(BN:Bayesian Network)を利用する。これらの具体的なファクタPOMDP(Factored POMDP)の構築シーケンスについては後段で詳細に説明する。
図2に示すファクタPOMDP(Factored POMDP)の説明図は、図1と同様、時間T=t−1における状態st−1,行動at−1、報酬Rt−1、観測ot−1と、その後の時間T=tにおける状態s,行動a、報酬R、観測oとを示している。各ブロックを結ぶ矢印は、上述したように要素間の関連性を示している。すなわち、関連性は要素(ファクタ)間で定義される。
例えば、時間T=t−1において、
報酬要素の1つである[プレゼンス報酬]は、時間T=t−1の状態要素[プレゼンス]と、行動に基づいて、上述の報酬関数:R(st−1,at−1)で求められる。
また、報酬要素の1つである[プラン報酬]は、時間T=t−1の状態要素[プラン]と、行動に基づいて、上述の報酬関数:R(st−1,at−1)で求められる。
また、観測情報については、
観測要素[フェイス]は、状態要素[プレゼンス]と、状態要素[プラン]の両者の影響の及ぶ観察可能な観測情報として定義され、観測要素[ムーブメント]は、状態要素[プラン]の影響の及ぶ観察可能な観測情報として定義される。
これらの関係は、いずれの時間T=t−1,t,t+1,・・・においても同様となる。
さらに、異なる時間の関係において、時間T=tにおける状態sと、時間T=t−1における状態st−1および行動at−1との関係は、上述した状態遷移確率算出関数:T(s,at−1,st−1)=P(s|at−1,st−1)によって、各要素間の関係をに基づいて対応付けられる。すなわち、時間T=tにおける状態要素[プレゼンス]の発生確率は、前の時間T=t−1における、状態要素[プレゼンス]および行動とから算出され、時間T=tにおける状態要素[プラン]の発生確率は、前の時間T=t−1における、状態要素[プラン]および行動とから算出される。この関係は、連続する事象観測時間の間において、すべて成立する。
このように、ファクタPOMDP(Factored POMDP)では、各時間における状態、行動、報酬、観測を1つの情報として設定するのではなく、これらの各情報(状態、行動、報酬、観測)の各々のカテゴリについて細分化した要素(ファクタ)を抽出して処理を実行することが可能となる。なお、図2の構成では、行動については要素を定義していないが、行動を要素別に区分して処理を行なうことも可能である。例えば、ロボットの行動を決定する場合、[手の動き]、[足の動き]、[顔の動き]などの行動を別々に定義して、これらを行動の要素として処理することも可能となる。
本発明の情報処理装置では、POMDPで定義される各情報(状態、行動、報酬、観測)に含まれる要素を判別し、様々な要素間の関連性を解析することで、図2に示すようなファクタPOMDP(Factored POMDP)を構築する。各要素間の関連性の解析には、ベイジアンネットワーク(BN:Bayesian Network)を利用する。ベイジアンネットワークは、確率変数の依存関係を有向グラフの形式で表現したネットワークであり、例えば、事象をノード、各事象間の因果関係をリンクにより記述した有向グラフである。学習サンプルデータを用いた学習によって、ベイジアンネットワークを構成するノードについて、個別の条件に基づいて発生する確率をまとめたテーブルとしてのコンディショナル確率テーブル(CPT:Conditional Probability Tables)を得ることができる。
ベイジアンネットワークおよびコンディショナル確率テーブル(CPT)について、図3を参照して説明する。ベイジアンネットワークは確率推論を行なうために適用され、特に、一部の事象のみしか観察できない不確実性を含む対象領域における予測や意思決定を定量的に取り扱うことができる。このアルゴリズムの基本は、複数の事象をノードとして設定しノード間の依存関係をモデル化するものである。
図3に示す例では、ノードとして、[Cloudy(曇り)]、[Sprinkler(噴水)]、[Rain(雨)]、[WetGlass(濡れ芝)]の4つの事象ノードを設定した例を示している。各ノードを結ぶ矢印は、矢印の出力元(親ノード)が、矢印の出力先(子ノード)の状態に影響を及ぼすことを示す。
図に示す例では、ノード[Cloudy(曇り)]が、
真(True)の確率=0.5
偽(False)の確率=0.5
であるとする。
この場合、ノード[Cloudy(曇り)]を親ノードとする子ノード[Sprinkler(噴水)]において、Sprinkler(噴水)が動作する(True)確率と、動作しない(False)確率を、親ノード[Cloudy(曇り)]の状態に応じたコンディショナル確率テーブル(CPT:Conditional Probability Tables)として得ることができる。図3に示すCPT101である。
CPT101は、
親ノード[Cloudy(曇り)]=F(False)の場合、
子ノード[Sprinkler(噴水)]が、
動作しない(False)確率=0.5
動作する(True)確率=0.5
であり、
親ノード[Cloudy(曇り)]=T(True)の場合、
子ノード[Sprinkler(噴水)]が、
動作しない(False)確率=0.9
動作する(True)確率=0.1
であることを示している。
CPT101において、P(S=F)は、子ノード[Sprinkler(噴水)]が偽(False)である確率(Possibility)を示し、P(S=T)は、子ノード[Sprinkler(噴水)]が真(True)である確率(Possibility)を示している。
また、ノード[Cloudy(曇り)]を親ノードとする子ノード[Rain(雨)]において、Rain(雨)である(True)確率と、Rain(雨)でない(False)確率を、親ノード[Cloudy(曇り)]の状態に応じたコンディショナル確率テーブル(CPT:Conditional Probability Tables)として得ることができる。図3に示すCPT102である。
CPT102は、
親ノード[Cloudy(曇り)]=F(False)の場合、
子ノード[Rain(雨)]が、
雨でない(False)確率=0.8
雨である(True)確率=0.2
であり、
親ノード[Cloudy(曇り)]=T(True)の場合、
子ノード[Rain(雨)]が、
雨でない(False)確率=0.2
雨である(True)確率=0.8
であることを示している。
さらに、ノード[Sprinkler(噴水)]と、ノード[Rain(雨)]を親ノードとする子ノード[WetGlass(濡れ芝)]において、芝が濡れている(True)確率と、芝が濡れていない(False)確率を、親ノードノード[Sprinkler(噴水)]と[Rain(雨)]の状態に応じたコンディショナル確率テーブル(CPT:Conditional Probability Tables)として得ることができる。図3に示すCPT103である。
CPT103は、
親ノード[Sprinkler(噴水)]=F(False)
親ノード[Rain(雨)]=F(False)の場合、
子ノード[WetGlass(濡れ芝)]が、
芝が濡れていない(False)確率=1.0
芝が濡れている(True)確率=0.0
であり、
親ノード[Sprinkler(噴水)]=T(True)
親ノード[Rain(雨)]=F(False)の場合、
子ノード[WetGlass(濡れ芝)]が、
芝が濡れていない(False)確率=0.1
芝が濡れている(True)確率=0.9
であり、
親ノード[Sprinkler(噴水)]=F(False)
親ノード[Rain(雨)]=T(True)の場合、
子ノード[WetGlass(濡れ芝)]が、
芝が濡れていない(False)確率=0.1
芝が濡れている(True)確率=0.9
であり、
親ノード[Sprinkler(噴水)]=T(True)
親ノード[Rain(雨)]=T(True)場合、
子ノード[WetGlass(濡れ芝)]が、
芝が濡れていない(False)確率=0.01
芝が濡れている(True)確率=0.99
であることを示している。
このように子ノードでのそれぞれの結果が生じる確率を親ノードのコンディションの確率に依存した分布を示すテーブルとして設定したテーブルが、コンディショナル確率テーブル(CPT:Conditional Probability Tables)である。このようにベイジアンネットワークを適用することで、ある原因が生じたという条件のもとである結果が得られる条件付確率の表としてのCPTを取得することができる。
本発明の構成では、各情報(状態、行動、報酬、観測)に含まれる要素の依存関係を、ベイジアンネットワークを利用して表現し、かつ、各情報(状態、行動、報酬、観測)および各要素のCPTを学習によって算出してファクタPOMDP(Factored POMDP)を構築する。
本発明の情報処理装置におけるファクタPOMDP(Factored POMDP)生成処理アルゴリズムの重要処理ステップとしては、以下の処理ステップがある。
[ステップ1]:1つの観測要素[nobs]を含むベイジアンネットワークを各観測要素[nobs]各々について個別に構成する。
[ステップ2]:ステップ1で設定した1つの観測要素[nobs]を含む複数のベイジアンネットワークを合成して1つの合成ベイジアンネットワークを構成する。
[ステップ3]:異なる事象観測時間の間の接続として、たとえば、状態(State)と、行動(Action)などの間の接続を決定する。
[ステップ4]:生成したベイジアンネットワークに基づいてファクタPOMDP(Factored POMDP)を完成させる。
以上の[ステップ1〜4]によって、図2に示すような要素間の関連性を示す矢印と、各要素間の影響を示す発生確率等が設定されたファクタPOMDP(Factored POMDP)が構築される。各ステップの処理について、図を参照して説明する。なお、以下の具体例の説明では、
観測(Observation)の要素として、[FaceDir][Movement][FaceSize][Speech]の4要素、
観測(Observation)以外の情報における要素として、[Player][Intetion][Channel][Signal]の4要素、
これらの要素を設定した処理例について説明する。
[ステップ1]
ステップ1の処理について、図4、図5を参照して説明する。ステップ1は、1つの観測要素[nobs]を含むベイジアンネットワークを各観測要素[nobs]各々について個別に構成する処理である。図4、図5には、観測要素各々について、個別にベイジアンネットワークを設定した例を示している。
図4、図5の例においては、
図4、図5の(A)に示すように、観測要素としては、[FaceDir][Movement][FaceSize][Speech]の4要素を設定している。これらは、例えばカメラやマイクなどによって観測される個別の要素である。
一方、観測要素以外の要素としては、[Player][Intetion][Channel][Signal]の4要素を設定している。これらの要素はそれぞれ個別の独立した状態が設定可能な要素である。本例では、状態(State)に属する要素である。[Player][Intetion][Channel][Signal]の4要素は、相互に依存関係が存在する場合もあるが。観測要素相互においては、依存関係は存在しない。すなわち、観測要素間を結ぶ矢印は設定されない。
このような条件の下で、学習サンプルデータを適用して各要素間の依存関係を検証する。この要素間の依存関係の検証処理に、ベイジアンネットワークの構造学習アルゴリズムを適用する。具体的には、例えば、ベイジアンネットワークの構造学習アルゴリズムとして知られているK2アルゴリズムを適用した処理を実行する。
K2アルゴリズムは、
(S1)各ノードについて、親ノードになる候補を選択し、子ノードを1つ選択して、その選択子ノードの親となり得る親ノード候補を1つずつ選択して有向グラフを設定する。
(S2)生成したグラフに基づいてパラメータを決定した評価を実行し、評価の高い親ノード候補のみを親ノードとして設定する。
これらの処理によって、各要素間の依存関係を構築する処理として実行される。
本処理例では、観測要素として[FaceDir][Movement][FaceSize][Speech]、その他の要素として[Player][Intetion][Channel][Signal]の4要素をノードとして設定し、観測要素としての[FaceDir][Movement][FaceSize][Speech]の各々について個別に上記アルゴリズムに従った処理を実行する。
この処理結果が、図4、図5に示す(B1)〜(B4)である。すなわち、
(B1)は、観測要素としての[FaceDir]と、状態要素としての[Player][Intetion][Channel][Signal]の4要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムとして知られているK2アルゴリズムを適用した処理を実行した結果であり、観測要素としての[FaceDir]は、[Player]と[Channel]を親ノード(parent)とした子ノード(chaild)であることが解析される。
(B2)は、観測要素としての[Movement]と、その他の要素[Player][Intetion][Channel][Signal]の4要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムを実行した結果であり、観測要素としての[Movement]は、[Player]と[Intention]を親ノード(parent)とした子ノード(chaild)であることが解析される。
図5に示す(B3)は、観測要素としての[FaceSize]と、その他の要素としての[Player][Intetion][Channel][Signal]の4要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムを実行した結果であり、観測要素としての[FaceSize]は、[Player]と[Channel]を親ノード(parent)とした子ノード(chaild)であることが解析される。
図5に示す(B4)は、観測要素としての[Speech]と、その他の要素としての[Player][Intetion][Channel][Signal]の4要素を解析対象のノードとして設定して、ベイジアンネットワークの構造学習アルゴリズムを実行した結果であり、観測要素としての[Speech]は、[Signal]を親ノード(parent)とした子ノード(chaild)であることが解析される。
[ステップ2]
次にステップ2の処理について、図6、図7を参照して説明する。ステップ2は、ステップ1で設定した1つの観測要素[nobs]を含む複数のベイジアンネットワークを合成して1つの合成ベイジアンネットワークを構成する処理である。
ステップ1では、観測(Observation)要素として、[FaceDir][Movement][FaceSize][Speech]の4要素各々の個別の4つのベイジアンネットワークを生成した。ステップ2では、この4つのベイジアンネットワークを1つの大きなベイジアンネットワークに組み合わせる処理を行なう。
組み合わせ手法としては、様々な手法がある。図6、図7には、組み合わせ例を3種類(c1)〜(c3)示してある。これらは、それぞれ、観測(Observation)要素として、[FaceDir][Movement][FaceSize][Speech]の4要素に対する入力矢印の最大数[Max−Fan−In]を(c1)=1、(c2)=2、(c3)=3として設定した例である。
すなわち、観測(Observation)要素として、[FaceDir][Movement][FaceSize][Speech]の4要素に対する影響を及ぼす親ノードの数を、最大1つ、または2つ、または3つとして設定した例である。
例えば、(c1)に示す例では、観測(Observation)要素として、[FaceDir][Movement][FaceSize][Speech]の4要素に対する入力矢印の最大数[Max−Fan−In]を1としている。図4、図5に示す要素別のベイジアンネットワークにおいては、複数の矢印が設定されている観測要素があるが、例えばこれらの矢印の示す親ノードと子ノードの関係において、最も評価の高い親ノードのみを選択して設定される。
(c2)に示す例は、観測(Observation)要素として、[FaceDir][Movement][FaceSize][Speech]の4要素に対する入力矢印の最大数[Max−Fan−In]を2とし、図7の(c3)に示す例は3とした例である。このように異なるベイジアンネットワーク(c1)〜(c3)が設定可能である。例えば、より多くの要素間の関連性を考慮したい場合は、(c3)のようなネットワーク構成を適用することが望ましい。計算量の削減を望む場合には、(c1)のような形式のネットワークを適用すればよい。このように処理に応じて適用するネットワークを選択することが可能である。
ステップ2において設定するベイジアンネットワーク(c1)〜(c3)は、いずれも、1つの事象空間、すなわち、図2の例では、時間T=t、または時間T=t+1の事象空間で設定したベイジアンネットワークである。これをイントラネットワークと称する。次に、ステップ2で設定した複数の異なる事象空間のイントラネットワークに含まれる情報、要素間の関連性を設定することが必要となる。この処理がステップ3で実行される。
[ステップ3]
次にステップ3の処理について、図8を参照して説明する。ステップ3は、異なる事象観測時間の間の接続として、たとえば、状態(State)と、行動(Action)などの間の接続を決定する処理である。具体的には、図2に示す時間T=t−1と時間T=tの要素間の関連性に基づく接続を設定する処理である。この処理もベイジアンネットワークにより、学習サンプルデータを適用して各要素間のCPTを算出する処理によって実行される。
図8には、ステップ1,2の処理で構築した時間T=tのベイジアンネットワーク、および時間T=t+1のベイジアンネットワークを示している。ステップ3では、時間T=t、および時間T=t+1のベイジアンネットワーク間の要素の関連性を解析して、接続関係を設定する。例えば、図8に太線で示す8本の接続線(L1〜L8)が得られる。
なお、1つの事象観察領域である、例えば時間T=tなどの閉じられたネットワークをイントラネットワーク、図8に示すように、複数の異なる事象観察領域である例えば、時間T=tおよびT=t+1のネットワークをインターネットワークと呼ぶ。また、インターネットワークに対応するベイジアンネットワークをダイナミック・ベイジアンネットワーク(DBN)と呼ぶ。
ステップ1、ステップ2では、イントラネットワークとしてのベイジアンネットワークにおいて、コンディショナル確率テーブル(CPT)を生成して、親ノードと子ノードとして設定される各要素間の接続を決定し、ステップ3では、インターネットワークとしてのダイナミック・ベイジアンネットワークにおいて、コンディショナル確率テーブル(CPT)を生成して、親ノードと子ノードとして設定される各要素間の接続を決定する。この結果、図8に示すような接続関係の設定されたダイナミック・ベイジアンネットワークが設定される。
[ステップ4]
次に、ステップ4の処理について、図9を参照して説明する。ステップ4では、ステップ3で生成したダイナミック・ベイジアンネットワークに基づいて、接続関係の設定された各要素を、各情報カテゴリ(状態、行動、報酬、観測)にまとめて、それぞれの要素間の関係、例えば、状態遷移確率算出関数:T(st+1,a,s)=P(st+1|a,s)、観測状態確立関数:O(st+1,a,o)=P(ot+1|a,s)等の確率関数を各要素ごとに定義する。これらは、先に図3を参照して説明したCPTに基づいて決定する。すなわち、学習サンプルデータを用いた学習によって、ベイジアンネットワークを構成するノードについて、個別の条件に基づいて発生する確率をまとめたテーブルとして、コンディショナル確率テーブル(CPT)を作成することで得ることができる。
図9に示す例では、[FaceDir][Movement][FaceSize][Speech]の4要素を観測(Observation)要素151としてまとめ、[Player][Intetion][Channel][Signal]の4要素を状態(State)要素152としてまとめ、これらの各要素について、状態遷移確率算出関数:T(st+1,a,s)=P(st+1|a,s)、観測状態確立関数:O(st+1,a,o)=P(ot+1|a,s)等の確率関数を定義する。
以上の処理によって、各情報カテゴリ(状態、行動、報酬、観測)に含まれる要素の依存関係を明確にしたファクタPOMDP(Factored POMDPまたはF−POMDP)、すなわち、図2に示すようなファクタPOMDPを構築することができる。このような要素単位の依存関係が明確になったファクタPOMDPを適用して状態遷移の予測や、行動決定処理を実行することで、要素単位の確率、要素間の因果関係を明確に区別した処理が可能となり、より現実に即した処理が可能となる。
なお、上述した処理においては、要素間の関連性解析に際して、学習サンプルデータを適用したベイジアンネットワークによる学習によって、コンディショナル確率テーブル(CPT:Conditional Probability Tables)を算出して、親ノードと子ノードとの関連を求める構成としているが、ベイジアンネットワークは、先に説明したように、確率変数の依存関係を有向グラフの形式で表現したものであり、各要素間の関連は、矢印の出力元(親ノード)と矢印の出力先(子ノード)に対応する親(parent)、子(child)を定義することによって表現することができる。
ベイジアンネットワークをデータとして表現する場合、向き付き非循環路グラフ(DAG:Directed Acyclic Graph)として表現することができる。DAGの例を図10に示す。図10(a)は、インターネットワーク、すなわち、図8、図9を参照して説明した複数の異なる(例えば時間T=tとT=t+1)事象観察領域相互の要素間の関係を含むダイナミック・ベイジアンネットワークに対応するDAG(向き付き非循環路グラフ)、すなわちインターDAG(InterDAG)であり、図10(b)は、イントラネットワーク、すなわち、図6、図7を参照して説明した1つの(例えば時間T=t)の事象観察領域の要素間のみの関係を含むベイジアンネットワークに対応するDAG(向き付き非循環路グラフ)、すなわちイントラDAG(InterDAG)である。
DAGにおいては、先に説明したベイジアンネットワークの矢印の出力元(親:parent)を縦軸に設定し、矢印の出力先(子:child)を横軸に設定し、矢印がある、すなわち親子の関連性があると判断された場合は[1]を設定し、無いと判断された場合は[0]を設定することで、各ノード間の関連性を明確にしたデータである。
図に示すDAGにおいて、親(parent)、子(child)のフィールドに示す[nact]は、行動(action)の要素数(number)、[nst]は状態(state)の要素数、[nrew]は、報酬(reward)の要素数、[nobs]は観測(observation)の要素数を示している。図は、簡略化して示しており、各要素名を示していないが、それぞれの要素数に応じた要素名、あるいは要素識別子がそれぞれ親ノードを示す縦フィールドと、子ノードを示す横フィールドに設定され、それぞれのノード間に関連性があると判断された場合[1]が設定される。
すなわち、学習サンプルデータを適用したベイジアンネットワークの学習によって、各要素間に親子の関連性があるか否かの判定が実行され、ある特定の子ノードに対して特定のノードの影響があると診断された場合、そのノードを親ノードであると判断して、そのDAGの対応エリアに[1]を記録していく処理を行なう。様々な学習サンプルデータを適用した学習を実行することで、DAGのエリアを[1][0]で埋めることが可能となり、各ノード(要素)間の関連性(ベイジアンネットワークにおける矢印)の有無が決定されることになる。
次に、図11〜図13に示すフローチャートを参照して、本発明に従ったファクタPOMDP(Factored POMDP)構築シーケンスについて説明する。図11に示すフローチャートは、本発明に従ったファクタPOMDP構築シーケンスの全体処理フローであり、図12に示すフローチャートは、図11に示すフロー中のステップS120の詳細を示すフローであり、図13に示すフローチャートは、図11に示すフロー中のステップS130の詳細を示すフローである。
まず、図11に示すフローチャートを参照して、本発明に従ったファクタPOMDP構築シーケンスの全体処理シーケンスについて説明する。図11に示すフローのステップS110では、まず、基本的なファクタPOMDP(Factored POMDP)のモデル、すなわち構成を決定する。具体的には、POMDPにおいて規定される情報(状態、行動、報酬、観測)各々に含まれる要素を決定する。この要素の決定に際しては、要素の種類および各要素のサイズなどの要素情報を設定する。
要素サイズとは、要素のとり得る状態数に相当する値である。例えば図2に示すファクタPOMDP(Factored POMDP)の構成例において、観測(Observation)の要素として設定される[フェイス]を例にして説明する。例えば観測対象としてのロボットの顔の向きが正面を向いている(True)か、否か(False)の2状態が判定可能である場合、この要素[フェイス]のサイズは[2]と設定する。
さらに、ステップS110では、ファクタPOMDP(Factored POMDP)の基本構成として、先に図6、図7を参照して説明した要素に対する入力矢印の最大数[Max−Fan−In]を決定する。すなわち、ステップS110では、POMDPにおいて定義される各情報に含まれる要素の種類を含む要素情報と、ファクタPOMDP(Factored POMDP)の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数(Max−Fan−In)情報を入力し、以下、これらの入力情報に従って、ファクタPOMDP(Factored POMDP)の構築処理を実行する。
ステップS120、およびステップS130では、予め用意された学習データ180を適用してイントラネットワーク対応のベイジアンネットワークおよびインターネットワーク対応のダイナミック・ベイジアンネットワークの学習を行う。この処理は、ステップS110において設定された要素間の関連を解析して要素間の対応を明確にする処理、すなわち、図2に示すファクタPOMDP(Factored POMDP)構成における矢印を設定し、関要素間の関係を明確化する処理である。
なお、ステップS120では、1つの事象観察領域(図2における時間T=tなどの単一時間)でのファクタPOMDP(Factored POMDP)構成における要素間の対応を解析する処理、ステップS130では、異なる事象観察領域でのファクタPOMDP(Factored POMDP)構成における要素間の対応を解析する処理が実行されることになる。前述したステップ1とステップ2におけるイントラネットワーク対応の処理が、図11におけるステップS120の処理に対応し、前述したステップ3におけるインターネットワーク対応の処理が、図11におけるステップS130の処理に対応する。
すなわち、ステップS120は、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)において定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワークを構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築するイントラ・ベイジアンネットワーク生成ステップであり、ステップS130は、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築するダイナミック・ベイジアンネットワーク生成ステップである。
なお、ステップS120のイントラ・ベイジアンネットワーク生成ステップ、およびステップS130のダイナミック・ベイジアンネットワーク生成ステップでは、要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて向き付き非循環路グラフ(DAG)の更新処理を実行してベイジアンネットワークを完成させる。このステップS120、ステップS130の処理の詳細については、図12、図13のフローチャートを参照して後段で詳細に説明する。
ステップS140では、ステップS120、S130の処理の結果に基づいて、図2に示すようなファクタPOMDP(Factored POMDP)を完成させる。すなわち、ダイナミック・ベイジアンネットワーク(DBN)に基づいてファクタPOMDPを構築する。なお、この処理に際しては、各情報(状態、行動、報酬、観測)や、各要素間の具体的な関係度合い、すなわち、矢印の出力元(parent)の要素に基づく矢印の出力先(child)の要素の発生確率をまとめたテーブルとしてのCPT(Conditional Probsbility Table)に基づいて、情報、要素間の関連を示す関係式、例えば前述した状態遷移確率算出関数:T(st+1,a,s)=P(st+1|a,s)や、観測状態確立関数:O(st+1,a,o)=P(ot+1|a,s)等の確率関数を設定する。
これらの処理によって、例えば、図2に示すようなファクタPOMDP(Factored POMDP)を構築することができる。このような要素単位の依存関係が明確になったファクタPOMDPを適用して状態遷移の予測や、行動決定処理を実行することで、要素単位の確率、要素間の因果関係を明確に区別した処理が可能となり、より現実に即した処理が可能となる。
次に、ステップS120の処理の詳細について、図12に示すフローチャートを参照して説明する。ステップS121では、ステップS110で設定したモデルが学習サンプルデータ180を適用した学習が可能なモデルであるか否かを判定する。学習サンプルデータ180は、情報処理装置の利用可能なデータベースなどの記憶部に記録された格納データである。行動(Action)、状態(State)、観測(Observation)の各情報を構成可能な要素情報や、要素同士の依存関係を示すサンプルデータが蓄積されている。ステップS121では、ステップS110において設定した要素間の関係を構築するために必要な情報が、学習サンプルデータ180に含まれているか否かを判定する。含まれていない場合は、学習サンプルデータ180を適用した学習は不可能となり、処理は終了する。
ステップS121において、ステップS110において設定した要素間の関係を構築するために必要な情報が、学習サンプルデータ180に含まれていると判断すると、ステップS122に進む。ステップS122では、先に図10を参照して説明したベイジアンネットワークのノード間の関係(矢印)の有無を示す向き付き非循環路グラフ(DAG:Directed Acyclic Graph)をリセットする。この時点では、図10(b)に示すイントラネット対応のDAGの作成処理が行われる。
ステップS110において決定された要素名を、DAGの縦フィールド(親:parent)と、横フィールド(子:child)の各フィールドに設定して、矢印の有無を示すDAGの設定値をすべて[0](関連(矢印)なし)の設定とするリセット処理(初期化)を行なう。
次に、ステップS123〜S125は、学習サンプルデータを適用したイントラ・ベイジアンネットワークの学習処理である。この処理は、先に、図4〜図7を参照して説明した処理に相当する。まず、ステップS123において、図4、図5を参照して説明したように、1つの観測要素[nobs]に対応する観測要素データ(i)を選択する。iは観測要素の識別番号に相当する。
ステップS124において、学習サンプルデータを適用した学習処理を実行し、各要素(ノード)間の関連性を判定して、矢印の有無を判断し、ステップS125において、関連あり(矢印あり)の判断がなされたノードの組み合わせが検出された場合は、DAGのデータを更新、すなわち、DAGの対応エントリに[1]を設定する。
ステップS126において、全ての観測要素データに対応する処理が終了したか否かを判定し、未処理の観測要素がある場合は、ステップS127において観測要素の識別番号としてのiをインクリメントして、ステップS123以下の処理を繰り返し実行する。これらの処理によって、すべての観測要素に対応する学習処理が終了すると、イントラネットの個別の観測要素に対応する複数のベイジアンネットワークが完成する。すなわち、図4、図5を参照して説明したネットワークである。ただし、ここで実際にデータ処理として実行しているのはDAGの生成処理であり、これらの処理によって、各観測要素に対応するDAGが得られることになる。
次に、ステップS130の処理を実行する、ステップS130の処理の詳細について、図13に示すフローチャートを参照して説明する。まず、ステップS131において、ステップS120において生成した各観測要素(i)に対応するDAGを組み合わせて、全観測要素を組み合わせたDAGを生成する。この処理は、先に図6、図7を参照して説明したベイジアンネットワークの生成に相当する。なお、予めステップS110において、ファクタPOMDP(Factored POMDP)の基本構成として、要素に対する入力矢印の最大数[Max−Fan−In]が決定されているので、その決定された入力矢印の最大数[Max−Fan−In]の制限の下に全観測要素を組み合わせたDAGが生成される。
ここで生成されるDAGは、イントラネットワーク対応のDAGである。次に、ステップS132において、全ての[状態(S)]、[行動(A)]、[観測(O)]
についての要素データを組み合わせてインターネットワーク対応のDBN構成を設定する。この時点では、異なる事象観察領域の関連(矢印)は設定されていない。すなわち、図8に示すDBNにおける太線で示す矢印(L1〜L8)は設定されていない。
次に、ステップS133において、学習サンプルデータ110を適用した学習により、異なるイントラネット間の要素間の関連を解析しインターDAGの基本構成を決定する。この処理よって、図8に示すDBNにおける太線で示す矢印(L1〜L8)が設定される。次に、ステップS134において、報酬[Reward]を計算可能なイントラDAGおよびインターDAGを完成させる。この処理においては、報酬(Reward)に要素が設定されている場合、各要素についての報酬算出式を設定する処理として実行される。
以上の処理によって、複数の事象観測領域間の情報や要素の関係を明確化したインターネットワーク対応のベイジアンネットワーク、すなわちダイナミック・ベイジアンネットワーク(DBN)が生成される。
これらの処理の後、図11に示すフローのステップS140の処理、すなわち、ファクタPOMDP(Factored POMDP)を完成させる処理が実行される。すなわち、各情報(状態、行動、報酬、観測)や、各要素間の具体的な関係度合い、すなわち、矢印の出力元(parent)の要素に基づく矢印の出力先(child)の要素の発生確率をまとめたテーブルとしてのCPT(Conditional Probsbility Table)に基づいて、情報、要素間の関連を示す関係式、例えば前述した状態遷移確率算出関数:T(st+1,a,s)=P(st+1|a,s)や、観測状態確立関数:O(st+1,a,o)=P(ot+1|a,s)等の確率関数を設定する。
これらの処理によって、例えば、図2に示すようなファクタPOMDP(Factored POMDP)を構築することができる。このような要素単位の依存関係が明確になったファクタPOMDPを適用して状態遷移の予測や、行動決定処理を実行することで、要素単位の確率、要素間の因果関係を明確に区別した処理が可能となり、より現実に即した処理が可能となる。
上述したファクタPOMDP(Factored POMDP)の生成処理を実行する情報処理装置の機能構成について、図14を参照して説明する。図14は、ファクタPOMDPの生成処理を実行する情報処理装置の機能構成を示すブロック図である。情報処理装置200は一般的なPC構成と同様の構成によって実現される。なお、ハードウェア構成の具体例については、後段で説明する。情報処理装置200は、データ入出力部としてのユーザインタフェース201、データ処理部202、記憶部203、学習サンプルデータを格納したデータベース204を有する。
ユーザインタフェース201を介してファクタPOMDP(Factored POMDP)の生成処理の開始コマンドや、あるいはノードに対応する要素情報などの構成情報、ノード間の関係情報、報酬(Reward)の算出式情報などが入力される。データ処理部202は、先に図11〜図13のフローチャートを参照して説明したファクタPOMDPの生成処理を実行する。記憶部203には、図11〜図13のフローチャートを参照して説明したファクタPOMDPの生成処理を実行するプログラムが格納され、データ処理部202を構成するCPUにおいて、プログラムに従った処理が実行される。
このファクタPOMDPの生成処理において適用する学習サンプルデータはデータベース204に格納されており、データ処理部202は、適宜、データベース204から学習サンプルデータを読み込んでファクタPOMDPの生成処理を実行する。なお、この処理において生成するベイジアンネットワークに相当する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)は記憶部203に記録され、必要に応じて更新される。
データ処理部202の実行する処理を具体的に説明する。データ処理部202は、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を基本構成として、POMDPにおいて定義される各情報に含まれる要素を単位として、要素間の関係を解析し、該解析結果に基づいて、要素間の関係情報を含むPOMDPであるファクタPOMDP(Factored POMDP)の構築を実行する。
例えば、データ処理部202は、POMDPにおいて定義される情報である観測(Observation)情報に含まれる観測要素各々と、POMDPにおいて定義される観測以外の情報である状態(State)、行動(Action)、報酬(Reard)の少なくともいずれかに含まれる要素との関連性を学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行し、その後、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築し、さらに、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築する処理を実行する。これらの処理は、データベース204から学習サンプルデータを読み込んで学習処理を行なって実行される。
すなわち、データ処理部202は、ベイジアンネットワークに対応する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて向き付き非循環路グラフ(DAG)の更新処理を実行して要素間の関係を解析してファクタPOMDPを構築する。なお、これらの処理に先立ち、データ処理部202は、POMDPにおいて定義される各情報に含まれる要素の種類を含む要素情報と、ファクタPOMDPの構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数(Max−Fan−In)情報を入力し、該入力情報に従って、ファクタPOMDPを構築する。
最後に、上述した処理を実行する情報処理装置のハードウェア構成例について、図15を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理、上述の実施例において説明したデータ処理部の実行主体として機能する。具体的には、学習サンプルデータを適用したベイジアンネットワークの生成によるファクタPOMDPの構築処理を実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラム、すなわちファクタPOMDP生成処理プログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成る。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば学習用サンプルデータ、ベイジアンネットワーク構成に対応するDAG情報などの格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続されている。学習用サンプルデータは通信部515を介して入力する構成としてもよい。
なお、図15に示す情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、図15に示す構成に限らず、上述した実施例において説明した処理を実行可能な様々な装置が適用可能である。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を基本構成として、POMDPにおいて定義される状態(State)、行動(Action)、観測(Observation)、報酬(Reward)の各情報について、それぞれ複数の異なる要素(ファクタ)を設定し、要素間の関係を明確にしたファクタPOMDP(Factored POMDP)を自動構築することが可能となる。本発明の処理によって生成した要素単位の依存関係を明確にしたファクタPOMDP(Factored POMDP)を適用した状態遷移予測や行動決定処理においては、要素単位の因果関係を明確に区別した処理が可能となり、より正しい状況予測や効果的な行動決定処理が可能となる。本発明によって構築されるファクタPOMDPは、例えば、ロボットの行動を決定する処理や、計算機を使用したシミュレーションや、データ処理、さらには、事業経営などにおける最適なアクションの決定処理など、様々な行動の決定に適用可能である。
従来のPOMDPについて説明する図である。 ファクタPOMDPについて説明する図である。 ベイジアンネットワークおよびコンディショナル確率テーブル(CPT)について説明する図である。 1つの観測要素[nobs]を含むベイジアンネットワークの構成例について説明する図である。 1つの観測要素[nobs]を含むベイジアンネットワークの構成例について説明する図である。 1つの観測要素[nobs]を含むベイジアンネットワークを組み合わせて構成したベイジアンネットワークの例について説明する図である。 1つの観測要素[nobs]を含むベイジアンネットワークを組み合わせて構成したベイジアンネットワークの構成例について説明する図である。 時間T=tのベイジアンネットワーク、および時間T=t+1のベイジアンネットワークを組み合わせて構成したダイナミック・ベイジアンネットワークの構成例について説明する図である。 ダイナミック・ベイジアンネットワークに基づいてファクタPOMDPを完成させる処理例について説明する図である。 ベイジアンネットワークをデータとして表現する場合、向き付き非循環路グラフ(DAG:Directed Acyclic Graph)の例について説明する図である。 ファクタPOMDP構築シーケンスについて説明するフローチャートを示す図である。 ファクタPOMDP構築シーケンスについて説明するフローチャートを示す図である。 ファクタPOMDP構築シーケンスについて説明するフローチャートを示す図である。 情報処理装置の機能構成について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
符号の説明
101〜103 コンディショナル確率テーブル(CPT)
151 観測要素
152 状態要素
180 学習サンプルデータ
200 情報処理装置
201 ユーザインタフェース
202 データ処理部
203 記憶部
204 データベース
501 CPU(Central Processing Unit)
502 ROM(Read−Only−Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (13)

  1. 不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理装置であり、
    部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)を基本構成として、POMDPにおいて定義される各情報に含まれる要素を単位として、要素間の関係を解析し、該解析結果に基づいて、要素間の関係情報を含むPOMDPであるファクタPOMDP(Factored POMDP)の構築を実行するデータ処理部を有することを特徴とする情報処理装置。
  2. 前記データ処理部は、
    POMDPにおいて定義される情報である観測(Observation)に含まれる観測要素各々についてのベイジアンネットワーク(Bayesian Network)を構築し、該観測要素単位のベイジアンネットワークを組み合わせて、前記ファクタPOMDP(Factored POMDP)を構築する構成であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記データ処理部は、
    POMDPにおいて定義される情報である観測(Observation)情報に含まれる観測要素各々と、POMDPにおいて定義される観測以外の情報である状態(State)、行動(Action)、報酬(Reard)の少なくともいずれかに含まれる要素との関連性を学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  4. 前記データ処理部は、
    POMDPにおいて定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワークを構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築し、さらに、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築する処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  5. 前記データ処理部は、
    複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行する構成であることを特徴とする請求項4に記載の情報処理装置。
  6. 前記データ処理部は、
    前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ(DAG)の更新処理を実行して要素間の関係を解析して前記ファクタPOMDP(Factored POMDP)を構築する構成であることを特徴とする請求項1に記載の情報処理装置。
  7. 前記データ処理部は、
    前記POMDPにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタPOMDP(Factored POMDP)の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数(Max−Fan−In)情報を入力し、該入力情報に従って、前記ファクタPOMDP(Factored POMDP)を構築する構成であることを特徴とする請求項1に記載の情報処理装置。
  8. 情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築する情報処理方法であり、
    データ処理部において、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)において定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワーク(Bayesian Network)を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築するイントラ・ベイジアンネットワーク生成ステップと、
    データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築するダイナミック・ベイジアンネットワーク生成ステップと、
    データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、POMDPにおいて定義される情報の要素の関係情報を含むファクタPOMDP(Factored POMDP)を生成するファクタPOMDP生成ステップと、
    を有することを特徴とする情報処理方法。
  9. 前記イントラ・ベイジアンネットワーク生成ステップは、
    POMDPにおいて定義される情報である観測(Observation)に含まれる観測要素各々と、POMDPにおいて定義される観測以外の情報である状態(State)、行動(Action)、報酬(Reard)の少なくともいずれかに含まれる要素との関連性を、学習サンプルデータに基づいて決定して観測要素単位のベイジアンネットワークを構築する処理を実行するステップを含むことを特徴とする請求項8に記載の情報処理方法。
  10. 前記ダイナミック・ベイジアンネットワーク生成ステップは、
    複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を学習サンプルデータに基づいて決定する処理を実行することを特徴とする請求項8に記載の情報処理方法。
  11. 前記イントラ・ベイジアンネットワーク生成ステップ、および前記ダイナミック・ベイジアンネットワーク生成ステップでは、前記要素間の関係を示すデータとして、ベイジアンネットワークに対応する向き付き非循環路グラフ(DAG:Directed Acyclic Graph)を適用し、学習サンプルデータに基づく学習処理によって得られた情報に基づいて前記向き付き非循環路グラフ(DAG)の更新処理を実行して要素間の関係を解析することを特徴とする請求項8に記載の情報処理方法。
  12. 前記情報処理方法は、さらに、
    前記データ処理部において、前記POMDPにおいて定義される各情報に含まれる要素の種類を含む要素情報と、前記ファクタPOMDP(Factored POMDP)の構成情報としてのベイジアンネットワークにおけるノード接続態様としての最大入力数(Max−Fan−In)情報を入力し、該入力情報に従って、前記ファクタPOMDP(Factored POMDP)の構築処理を実行することを特徴とする請求項8に記載の情報処理方法。
  13. 情報処理装置において、不確実性を含む対象領域における情報分析処理に適用する情報分析処理構成を構築させるコンピュータ・プログラムであり、
    データ処理部において、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)において定義される情報である観測(Observation)情報に含まれる観測要素各々についてのベイジアンネットワーク(Bayesian Network)を構築し、同じ事象観察領域における複数の観測要素単位のベイジアンネットワークを組み合わせてイントラネットワーク対応のベイジアンネットワークを構築させるイントラ・ベイジアンネットワーク生成ステップと、
    データ処理部において、異なる事象観察領域における複数のイントラネットワーク対応のベイジアンネットワークに含まれる要素間の関連性を解析して、異なる事象観察領域における要素間の関連情報を持つインターネットワーク対応のダイナミック・ベイジアンネットワークを構築させるダイナミック・ベイジアンネットワーク生成ステップと、
    データ処理部において、前記ダイナミック・ベイジアンネットワークに基づいて、POMDPにおいて定義される情報の要素の関係情報を含むファクタPOMDP(Factored POMDP)を生成させるファクタPOMDP生成ステップと、
    を実行させることを特徴とするコンピュータ・プログラム。
JP2006158566A 2006-06-07 2006-06-07 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Expired - Fee Related JP4863778B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006158566A JP4863778B2 (ja) 2006-06-07 2006-06-07 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
KR1020070054970A KR20070117472A (ko) 2006-06-07 2007-06-05 정보처리장치 및 정보처리방법과 컴퓨터 프로그램
EP07011149A EP1865447A3 (en) 2006-06-07 2007-06-06 Information processing apparatus, information processing method and computer program
US11/759,083 US7882047B2 (en) 2006-06-07 2007-06-06 Partially observable markov decision process including combined bayesian networks into a synthesized bayesian network for information processing
CNA2007101388245A CN101105845A (zh) 2006-06-07 2007-06-07 信息处理装置和信息处理方法、以及计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006158566A JP4863778B2 (ja) 2006-06-07 2006-06-07 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2007328507A true JP2007328507A (ja) 2007-12-20
JP4863778B2 JP4863778B2 (ja) 2012-01-25

Family

ID=38610606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006158566A Expired - Fee Related JP4863778B2 (ja) 2006-06-07 2006-06-07 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Country Status (5)

Country Link
US (1) US7882047B2 (ja)
EP (1) EP1865447A3 (ja)
JP (1) JP4863778B2 (ja)
KR (1) KR20070117472A (ja)
CN (1) CN101105845A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009114649A2 (en) * 2008-03-12 2009-09-17 Aptima, Inc. Probabilistic decision making system and methods of use
US10290221B2 (en) 2012-04-27 2019-05-14 Aptima, Inc. Systems and methods to customize student instruction
US10438156B2 (en) 2013-03-13 2019-10-08 Aptima, Inc. Systems and methods to provide training guidance
US10552764B1 (en) 2012-04-27 2020-02-04 Aptima, Inc. Machine learning system for a training model of an adaptive trainer
JP2020537205A (ja) * 2017-08-23 2020-12-17 ザ ジェネラル ホスピタル コーポレーション ドゥーイング ビジネス アズ マサチューセッツ ジェネラル ホスピタル 意思決定理論モデルを用いた手術の意思決定支援
KR20220156389A (ko) * 2021-05-18 2022-11-25 한전케이디엔주식회사 인공지능 처리 결과 분석 장치 및 그 방법
JP7448502B2 (ja) 2021-03-30 2024-03-12 Kddi株式会社 主体感推定モデル、装置及び方法、並びに行動変容促進モデル

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101399199B1 (ko) * 2007-07-16 2014-05-27 삼성전자주식회사 소프트웨어 로봇의 유전자 코드 구성 방법
US8793119B2 (en) * 2009-07-13 2014-07-29 At&T Intellectual Property I, L.P. System and method for generating manually designed and automatically optimized spoken dialog systems
US11126627B2 (en) 2014-01-14 2021-09-21 Change Healthcare Holdings, Llc System and method for dynamic transactional data streaming
US10121557B2 (en) 2014-01-21 2018-11-06 PokitDok, Inc. System and method for dynamic document matching and merging
US10007757B2 (en) 2014-09-17 2018-06-26 PokitDok, Inc. System and method for dynamic schedule aggregation
WO2016118619A1 (en) * 2015-01-20 2016-07-28 PokitDok, Inc. Health lending system and method using probabilistic graph models
US20160342750A1 (en) 2015-05-18 2016-11-24 PokitDok, Inc. Dynamic topological system and method for efficient claims processing
US10366204B2 (en) 2015-08-03 2019-07-30 Change Healthcare Holdings, Llc System and method for decentralized autonomous healthcare economy platform
JP2018538595A (ja) 2015-10-15 2018-12-27 ポキットドク インコーポレイテッド Apiトランザクションにおける動的メタデータ存続及び相関のためのシステム及び方法
US10102340B2 (en) 2016-06-06 2018-10-16 PokitDok, Inc. System and method for dynamic healthcare insurance claims decision support
US10108954B2 (en) 2016-06-24 2018-10-23 PokitDok, Inc. System and method for cryptographically verified data driven contracts
CN107958289B (zh) * 2016-10-18 2022-02-01 深圳市中吉电气科技有限公司 用于机器人的数据处理方法和装置、机器人
US10805072B2 (en) 2017-06-12 2020-10-13 Change Healthcare Holdings, Llc System and method for autonomous dynamic person management
CN108282587B (zh) * 2018-01-19 2020-05-26 重庆邮电大学 基于状态跟踪与策略导向下的移动客服对话管理方法
CN110322019A (zh) * 2018-03-29 2019-10-11 日本电气株式会社 用于处理数据集的方法、系统和存储介质
US11531908B2 (en) * 2019-03-12 2022-12-20 Ebay Inc. Enhancement of machine learning-based anomaly detection using knowledge graphs
CN113189986B (zh) * 2021-04-16 2023-03-14 中国人民解放军国防科技大学 一种自主机器人的二阶段自适应行为规划方法及系统
CN113552902A (zh) * 2021-08-10 2021-10-26 中国人民解放军国防科技大学 一种平流层飞艇三维轨迹跟踪控制方法及系统
CN116363678B (zh) * 2023-05-31 2023-08-11 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997036247A1 (en) 1996-03-25 1997-10-02 Stoneman Martin L Autonomous decision systems
US20020103793A1 (en) 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
US20040220892A1 (en) 2003-04-29 2004-11-04 Ira Cohen Learning bayesian network classifiers using labeled and unlabeled data
JP4164669B2 (ja) 2003-09-29 2008-10-15 独立行政法人産業技術総合研究所 モデル作成装置、情報分析装置、モデル作成方法、情報分析方法、およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009114649A2 (en) * 2008-03-12 2009-09-17 Aptima, Inc. Probabilistic decision making system and methods of use
WO2009114649A3 (en) * 2008-03-12 2010-01-28 Aptima, Inc. Probabilistic decision making system and methods of use
US10846606B2 (en) 2008-03-12 2020-11-24 Aptima, Inc. Probabilistic decision making system and methods of use
US10290221B2 (en) 2012-04-27 2019-05-14 Aptima, Inc. Systems and methods to customize student instruction
US10552764B1 (en) 2012-04-27 2020-02-04 Aptima, Inc. Machine learning system for a training model of an adaptive trainer
US11188848B1 (en) 2012-04-27 2021-11-30 Aptima, Inc. Systems and methods for automated learning
US10438156B2 (en) 2013-03-13 2019-10-08 Aptima, Inc. Systems and methods to provide training guidance
JP2020537205A (ja) * 2017-08-23 2020-12-17 ザ ジェネラル ホスピタル コーポレーション ドゥーイング ビジネス アズ マサチューセッツ ジェネラル ホスピタル 意思決定理論モデルを用いた手術の意思決定支援
JP7448502B2 (ja) 2021-03-30 2024-03-12 Kddi株式会社 主体感推定モデル、装置及び方法、並びに行動変容促進モデル
KR20220156389A (ko) * 2021-05-18 2022-11-25 한전케이디엔주식회사 인공지능 처리 결과 분석 장치 및 그 방법
KR102512552B1 (ko) 2021-05-18 2023-03-20 한전케이디엔주식회사 인공지능 처리 결과 분석 장치 및 그 방법

Also Published As

Publication number Publication date
JP4863778B2 (ja) 2012-01-25
US20080133436A1 (en) 2008-06-05
US7882047B2 (en) 2011-02-01
KR20070117472A (ko) 2007-12-12
CN101105845A (zh) 2008-01-16
EP1865447A3 (en) 2011-01-19
EP1865447A2 (en) 2007-12-12

Similar Documents

Publication Publication Date Title
JP4863778B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
Ripley et al. Manual for RSIENA
US20060265416A1 (en) Method and apparatus for analyzing ongoing service process based on call dependency between messages
EP3696745A1 (en) Intelligent workflow advisor for part design, simulation and manufacture
JP2020091543A (ja) 学習装置、処理装置、ニューラルネットワーク、学習方法、及びプログラム
CN111000492B (zh) 基于知识图谱的智能扫地机行为决策方法及智能扫地机
JP7115207B2 (ja) 学習プログラム、学習方法および学習装置
Den Hengst et al. Reinforcement learning with option machines
JP5070860B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US11989656B2 (en) Search space exploration for deep learning
Pitakrat et al. Increasing dependability of component-based software systems by online failure prediction (short paper)
JP2020181578A (ja) データ処理方法、装置、及び媒体
WO2020223184A1 (en) Analytical model training method for customer experience estimation
JP7466702B2 (ja) プロトタイプオプションの発見による解釈可能な模倣学習
JP2020030738A (ja) 学習データの解析方法及び計算機システム
JP2023520313A (ja) 不確定区間を有する性能予測の生成
JP7063397B2 (ja) 回答統合装置、回答統合方法および回答統合プログラム
CN109472363B (zh) 可解释性竞争对手建模方法
WO2022106438A1 (en) Predicting the state of a system using elasticities
JP7373384B2 (ja) 計算機システム及びスケジューリングシステムの検証方法
JP6199480B2 (ja) シミュレーション解析方法および情報処理システム
US12008479B2 (en) Automatic determination of the run parameters for a software application on an information processing platform by genetic algorithm and enhanced noise management
WO2017056320A1 (ja) プログラム生成装置、プログラム生成方法および生成プログラム
EP4202804A1 (en) Information processing program, information processing method, and information processing device
WO2022106437A1 (en) Predicting the state of a system with continuous variables

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091007

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091014

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20091225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees