JP2015176329A - 生成装置、生成方法、情報処理方法、及び、プログラム - Google Patents

生成装置、生成方法、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP2015176329A
JP2015176329A JP2014052154A JP2014052154A JP2015176329A JP 2015176329 A JP2015176329 A JP 2015176329A JP 2014052154 A JP2014052154 A JP 2014052154A JP 2014052154 A JP2014052154 A JP 2014052154A JP 2015176329 A JP2015176329 A JP 2015176329A
Authority
JP
Japan
Prior art keywords
gain
state
selection
input
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014052154A
Other languages
English (en)
Other versions
JP6103540B2 (ja
Inventor
貴行 恐神
Takayuki Osogami
貴行 恐神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014052154A priority Critical patent/JP6103540B2/ja
Priority to US14/633,414 priority patent/US9747616B2/en
Priority to US14/748,264 priority patent/US9858592B2/en
Publication of JP2015176329A publication Critical patent/JP2015176329A/ja
Application granted granted Critical
Publication of JP6103540B2 publication Critical patent/JP6103540B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルにおける最適施策を高速に算出することを課題とする。
【解決手段】観測可能な可視状態、及び、観測不能な隠れ状態を備え、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する生成装置であって、隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の隠れ状態の確率分布を設定する設定部と、選択用の確率分布について累積期待利得の最大値を与える利得ベクトルを優先して利得ベクトルの集合に含める選択部とを備える生成装置を提供する。
【選択図】図1

Description

本発明は、生成方法、選択方法、及び、プログラムに関する。
観測可能でない状態を含む環境における逐次的意思決定は部分観測マルコフ決定過程(POMDP)として定式化されていた(特許文献1〜3)。しかし、意思決定問題の中には、状態の観測可能性や不変性が定まっている場合、例えば、状態の一部が完全に観測可能で残りが観測不可能な場合がある。また、観測不可能な部分が不変である場合がある。従来は、このような場合においても汎用のPOMDPソルバにより最適施策を算出していた。
[特許文献1]特開2011−53735号公報
[特許文献2]特開2012−123529号公報
[特許文献3]特開2012−190062号公報
完全に観測可能な可視状態、及び、観測不可能な隠れ状態を備える遷移モデルにおける最適施策を高速に算出することを課題とする。
本発明の第1の態様においては、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する生成装置であって、隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の隠れ状態の確率分布を設定する設定部と、選択用の確率分布について累積期待利得の最大値を与える利得ベクトルを優先して利得ベクトルの集合に含める選択部とを備える生成装置、生成装置を用いた生成方法、及び、プログラムを提供する。
本発明の第2の態様においては、利得ベクトルの集合を生成する生成装置と、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルにおいて最適な入力を選択する選択装置であって、生成装置が生成した利得ベクトルの集合を取得する取得部、現在の可視状態に応じた利得ベクトルの中から、現時点における隠れ状態の確率分布に対し累積期待利得を最大化する利得ベクトルを選択する利得選択部、及び、選択した利得ベクトルに対応する入力を、最適な入力として選択する入力選択部を備える選択装置とを備える情報処理システムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本実施形態の情報処理システムの概要を示す。 本実施形態に係る可視状態s及び隠れ状態bの一例を示す。 本実施形態の生成装置10の処理フローを示す。 本実施形態における生成部140による集合Λ(s)の生成方法の一例を示す。 図3における処理フローの具体的アルゴリズムの一例を示す。 本実施形態における集合Λs,nと累積期待利得の関係を示す。 図3における処理フローの具体的アルゴリズムの別の一例を示す。 本実施形態の選択装置20の処理フローを示す。 本実施形態の変形例に係る情報処理システムの概要を示す。 本変形例の生成装置30の処理フローの一例を示す。 図10における処理フローの具体的アルゴリズムの一例を示す。 本変形例における集合Λs,nと累積期待利得の関係を示す。 本実施形態の本変形例の処理フローの別の一例を示す。 コンピュータ1900のハードウェア構成の一例を示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態の情報処理システムを示す。本実施形態の情報処理システムは、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力及び/又は隠れ状態に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルを定式化した利得ベクトルの集合を生成し、利得ベクトルの集合に基づいて最適な入力を選択する。
例えば、消費者が特定の商品(例えば、家電製品)のテレビCMを視聴した後の状態か、及び、消費者が特定の商品に興味を持った状態かは観測不能な隠れ状態となるが、消費者が特定の商品のWeb広告を閲覧した状態であるかはクッキー等により観測可能な可視状態である。
本実施形態の情報処理システムは、このような遷移モデルを定式化し、消費者から得られる期待利得(例えば、売り上げ)を最大化するための入力(例えば、テレビCM、ダイレクトメール、及び、Eメール等)を選択する。本実施形態の情報処理システムは、利得ベクトルの集合を生成する生成装置10と、利得ベクトルの集合に従って最適な入力を選択する選択装置20を有する。
生成装置10は、学習用データに基づいて基準時点以降で予め定められた将来の時点までの各時点の期待利得を累積した累積期待利得の成分を隠れ成分毎に含み、累積期待利得の算出に用いることができる利得ベクトルの集合を可視状態毎に生成する。生成装置10は、一例として、コンピュータ上でソフトウェアを実行することにより実現される。生成装置10は、入力部110、算出部120、初期化部130、及び、生成部140を備える。
入力部110は、外部のデータベース1000等の記憶装置又は生成装置10の内部から利得ベクトルの集合を生成するための学習用データを入力する。入力部110は、学習用データを算出部120に提供する。学習用データは、例えば、消費者の購買履歴及び行動履歴等であってよい。
算出部120は、学習用データから各可視状態からの遷移確率を表す状態遷移確率、及び、各可視状態において入力に応じて期待される利得である期待利得を算出する。算出部120は、状態遷移確率、及び、期待利得を生成部140に供給する。
初期化部130は、選択関数に用いられる可視状態毎の利得ベクトルの集合を、遷移モデルが対象とする期間全体において算出するのに先立って、予め定められた将来の時点(例えば、期間の最後の時点)における利得ベクトルの集合を初期化する。例えば、初期化部130は、将来のある時点における可視状態毎の利得ベクトルの集合をゼロベクトルの集合とすることにより初期化する。初期化部130は、初期化された利得ベクトルの集合を生成部140に提供する。
生成部140は、状態遷移確率及び期待利得に基づいて、基準時点以降の累積期待利得の算出に用いられる少なくとも1つの利得ベクトルを有し、累積期待利得の最大値を与える利得ベクトルが選択されるべき利得ベクトルの集合を、将来の時点から遡って再帰的に生成する。また、生成部140は、生成した利得ベクトルの集合から基準時点における累積期待利得が最大となる利得ベクトルが選択される選択関数を生成してよい。生成部140による利得ベクトルの集合等の詳細な生成方法については追って説明する。
また、生成部140は、利得ベクトルの集合を生成するときに入力と利得ベクトルとの対応付けを含む入力対応情報を生成する。生成部140は、生成した利得ベクトルの集合、状態遷移確率、及び、入力対応情報を選択装置20に供給してよい。生成部140は、利得ベクトルの集合に代えて選択関数を選択装置20に供給してもよい。
選択装置20は、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力及び/又は隠れ状態に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルにおいて、利得ベクトルの集合に基づいて最適な入力を選択する。例えば、選択装置は、利得を最大化させる施策を最適な入力として選択する。選択装置20は、一例として、コンピュータ上でソフトウェアを実行することにより実現される。選択装置20は、取得部210、利得選択部220、入力選択部230、及び、遷移部240を有する。
取得部210は、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を取得する。例えば、取得部210は、生成装置10が生成した利得ベクトルの集合を取得してよい。
また、取得部210は、状態遷移確率、及び、入力対応情報を生成装置10から取得してよい。取得部210は、取得した利得ベクトルの集合及び入力対応情報を利得選択部220に供給する。また、取得部210は、状態遷移確率を遷移部240に供給する。
利得選択部220は、利得ベクトルの集合に基づいて、現在の可視状態に応じた利得ベクトルの中から、現時点における隠れ状態の確率分布に対し累積期待利得を最大化する利得ベクトルを選択する。例えば、利得選択部220は、利得ベクトルの集合から一の利得ベクトルを選択する選択関数を生成し、当該選択関数に基づいて累積期待利得を最大化する利得ベクトルを選択する。利得選択部220は、選択した利得ベクトル及び入力対応情報を入力選択部230に供給する。
入力選択部230は、入力対応情報に基づき、利得選択部220が選択した利得ベクトルに対応する入力を最適な入力として選択する。入力選択部230は、例えば、累積期待利得を最大化する施策を最適な入力として選択する。入力選択部230は、選択した入力を遷移部240に供給する。
遷移部240は、入力選択部230に選択された入力に対応する状態遷移確率、及び、現在の隠れ状態の確率分布に基づき、可視状態を確率的に遷移させる。また、遷移部240は、選択された入力に応じて、隠れ状態の確率分布を更新する。遷移部240は、更新した可視状態及び隠れ状態の確率分布を利得選択部220に供給し、再度、利得選択部220に可視状態及び隠れ状態の確率分布に基づき利得ベクトルを選択させる。
このように、本実施形態の情報処理システムによると、観測可能な可視状態が遷移する遷移モデルに再帰的手法を適用することにより、生成装置10が利得ベクトルの集合を高速に生成することができる。また、選択装置20は、生成装置10が生成した利得ベクトルの集合に基づいて最適な入力を選択することができる。
図2は、本実施形態に係る遷移モデルの可視状態s及び隠れ状態bの一例を示す。図示するように、本実施形態の情報処理システムは、観測可能な可視状態s1、s2、s3…及び観測不可能な隠れ状態b1、b2、b3…を有する。本実施形態において、可視状態、及び、隠れ状態は、図示するようにそれぞれ独立して与えられる。
すなわち、本実施形態において、可視状態のいずれか(例えば、可視状態s2)と隠れ状態のいずれか(例えば、隠れ状態b2)が同時に与えられる。例えば、ウェブベースの販売サイトにおいて、顧客との間の商取引により得られる累積期待利得を最大化するマーケティング施策を出力するアプリケーションを本実施形態の情報処理システムに適用する場合、顧客に対して行ったマーケティング施策及び顧客の反応は外部から観測できる可視状態であり、隠れ状態は顧客の嗜好等の外部から直接観測できない状態であってよい。
そして、本実施形態の情報処理システムは、期間中に可視状態は遷移し得るが(例えば、可視状態s2→s1又はs3等)、隠れ状態間では遷移しない(例えば、隠れ状態b2のまま遷移しない)遷移モデルを扱う。
なお、隠れ状態は観測不可能なので、実際には図示するように一の隠れ状態b2を特定することはできず、それぞれの隠れ状態iにある確率を表す確率分布b{b(i)|i=1,...,|B|}のみが算出される。可視状態の状態遷移の結果、どの隠れ状態にあるかの確からしさが間接的に判明していく場合があり、確率分布bは遷移し得る。例えば、隠れ状態b2において可視状態s2→s1に遷移する確率が非常に高い場合、時点tから時点t+1において可視状態s2→s1が観測されたことに応じて、時点t+1における確率分布bにおいて隠れ状態b2を与える確率が高くなる。
図3は、本実施形態の生成装置10の処理フローを示す。本実施形態において、生成装置10は、S110〜S160の処理を実行することにより、利得ベクトルの集合を生成する。
まず、S110において、入力部110は、外部又は生成装置10内部のデータベース1000から学習用データを取得する。例えば、入力部110は、可視状態、入力の内容、及び、観測結果等が予め時系列で定義されたデータを学習用データとして入力してよい。
これに代えて、入力部110は、可視状態が定義されていないデータを学習用データとして取得してもよい。一例として、入力部110は、まず、複数の消費者に対して提供された広告等の施策、及び、消費者の商品購入等の行動履歴等を取得してよい。次に、入力部110は、行動履歴等から状態ベクトルの時系列を生成し、状態ベクトルを離散化することで可視状態を定義してもよい。
また、入力部110は、学習用データとして、隠れ状態の推測に利用できるデータを取得してよい。例えば、入力部110は、学習用データとして消費者の嗜好等が記載されたアンケート結果を取得してよい。入力部110は、アンケート結果等から特徴ベクトルを生成し、特徴ベクトルを離散化することで隠れ状態を定義してもよい。入力部110は、学習用データを算出部120に提供する。
S120において、算出部120は、学習用データから状態遷移確率及び期待利得を算出する。例えば、算出部120は、学習用データから互いに遷移可能な1以上の可視状態s(s∈S)、及び、互いに遷移しない1以上の隠れ状態i(i∈B)を定義し、可視状態s、隠れ状態iにおいて入力aを実行したときに可視状態sから可視状態tに遷移し、zが観測される状態遷移確率P s,i;t,zと、可視状態s及び隠れ状態iにおいて入力aを実行したときの期待利得q (i)を算出する。算出部120は、Q学習などの強化学習法により状態遷移確率P s,i;t,z及び期待利得q (i)を算出してよい。算出部120は、算出した状態遷移確率P s,i;t,z及び期待利得q (i)を生成部140に供給する。
次に、S130において、初期化部130は、遷移モデルにおける将来の時点N(Nは2以上の整数)における可視状態sについての利得ベクトルαs,Nの集合Λ(s)を初期化する。例えば、初期化部130は、αs,Nの集合Λ(s)を長さが隠れ状態の数|B|と同じ数のゼロベクトルだけからなる集合{(0,...,0)}として集合Λ(s)を初期化する。また、初期化部130は、n=N−1としてnを初期化する。初期化部130は、初期化された集合Λ(s)等を生成部140に提供する。
次に、S140において、生成部140は、1≦n≦N−1となるnについて利得ベクトルαs,nの集合Λ(s)を集合Λn+1(s)から生成する。生成部140が生成する利得ベクトルαs,nの集合Λ(s)は、隠れ状態i毎に累積期待利得の成分αs,n(i)を有する利得ベクトルαs,nを少なくとも1つ含む。
図4は、本実施形態における生成部140による集合Λ(s)の生成方法の一例を示す。生成部140は、時点nにおける可視状態s(s∈S、Sは可視状態の集合)についての利得ベクトルαs,nの集合Λ(s)を、次の時点n+1における各可視状態s'(s'∈S)についての利得ベクトルαs',n+1の集合Λn+1(s')に基づいて再帰的に生成する。
例えば、図示するように可視状態s1が可視状態s1、s2及びs3を含む場合、生成部140は、時点n+1の利得ベクトルの集合Λn+1(1)、Λn+1(2)、及び、Λn+1(3)から時点nの利得ベクトルの集合Λ(1)を生成してよい。生成部140は、利得ベクトルの集合を、入力に応じて一の可視状態sから時点n+1の可視状態s'に遷移する状態遷移確率、及び、可視状態s'において入力に応じて得られる期待利得に基づいて生成する。この具体的な生成方法は後述する。
ここで、生成部140は、生成した利得ベクトルαs,nの集合Λ(s)に基づいて、可視状態s及び隠れ状態の確率分布bに応じて基準時点n以降の累積期待利得が最大となる利得ベクトルを選択する選択関数Kmax(s,b)を生成してよい。例えば、生成部140は、確率分布bにおける各隠れ状態iを取る確率に利得ベクトルの各成分を乗じた合計値に基づく累積期待利得が最大となる利得ベクトルを選択する選択関数を生成する。
一例として、生成部140は、数式(1)に示す選択関数Kmax(s,b)を生成する。なお、b(i)は隠れ状態の確率分布における隠れ状態iを取る確率を示し、αs,n (i)は、時点nにおける可視状態sに対応するk番目の利得ベクトルαs,n の隠れ状態iに対応する成分を示す。また、生成部140は、選択関数Kmax(s,b)を生成する過程において、入力と利得ベクトルとの対応付けを含む入力対応情報を生成する。
Figure 2015176329
…数式(1)
次に、S150において、生成部140は、nから1を減じて処理をS160に進める。
次に、S160において、生成部140は、n=0となるか否かを判断する。n=0となる場合、生成部140は処理を終了し、そうでない場合は処理をS140に戻す。これにより、生成部140は、nがNから0になるまで利得ベクトルの集合Λ(s)、及び/又は、選択関数Kmax(s,b)を再帰的に生成する。
このように生成装置10は、学習用データからまず状態遷移確率P s,i;t,z、及び、期待利得q (i)を算出し、これらに基づいて利得ベクトルの集合Λn+1(s)からΛ(s)を再帰的に算出する。生成装置10は、隠れ状態bが遷移しないモデルにおける利得ベクトルの集合Λ(s)を生成するので処理をより高速化することができる。
なお、遷移しない隠れ状態bは、環境中において短時間で変化しにくい特性と考えることができる。例えば、生成装置10は、通常観測することが難しくかつ長期間変化しない消費者個人の好み(例えば、食事、又は、趣味等の好み)をモデルに組み入れた上で、最適施策を選択するための利得ベクトルの集合を生成することができる。
また、生成装置10は、複数のセンサを備える自律行動するロボットに用いることができる。例えば、生成装置10は、複数のセンサのうち一部のセンサが故障した状態を遷移しない隠れ状態に当てはめることができる。例えば、生成装置10は、故障したセンサが検出する事項を隠れた状態とおくことにより、故障したセンサを考慮した上で最適施策を選択するための利得ベクトルの集合を提供することができる。
また、生成装置10は、音声認識装置に用いた会話生成装置に適用することができる。例えば、生成装置10は、完全に聞き取れなかった会話の内容を隠れ状態と考えることができる。これにより、生成装置10は、人の会話等を完全に聞き取れなかった場合においても、最適施策(例えば、人に対する会話の回答)を選択するための利得ベクトルの集合を提供することができる。
図5は、図3における処理フローの具体的アルゴリズムの一例を示す。ここでは、図5を例にS140の処理のアルゴリズムを説明する。
まず、1行目に示すように、生成部140は、時点n+1、状態t(t∈S)における利得ベクトルの集合Λn+1,tを取得する。なお、集合Λx(y)を集合Λx,y又は集合Λ(y,x)と記載する場合がある。
次に、2行目に示すように、生成部140は、時点nにおける全入力に対応する利得ベクトルの集合Λ s,nを空集合とすることにより初期化する。
次に、3行目に示すように、生成部140は、各々の入力a(a∈A、Aは入力の集合)に対して、3〜14行目で定義する第1ループ処理を実行する。
4行目に示すように、生成部140は、第1ループ処理内で入力aに対応づけられた利得ベクトルの集合Λ s,nを空集合とすることにより初期化する。
次に、5行目に示すように、生成部140は、第1ループ処理内で各々の可視状態t(t∈S)及び観測z(z∈Z、Zは観測の集合)の組み合わせに対して、5〜12行目で定義する第2ループ処理を実行する。
6行目に示すように、生成部140は、第2ループ処理内で、ベクトル集合Φを空集合とすることにより初期化する。
次に、7行目に示すように、生成部140は、第2ループ処理内で各々の利得ベクトルα(α∈Λ s,n+1)に対して、7〜9行目で定義する第3ループ処理を実行する。
8行目に示すように、生成部140は、第3ループ処理内でベクトル集合Φを更新する。具体的には、生成部140は、従前のベクトル集合Φと時点n+1における利得ベクトルαに基づいて生成される新しいベクトルの和集合を生成する。
生成部140は、各々の隠れ状態iについて、期待利得q (i)を可視状態sの数|S|及び観測zの数|Z|で除した値と、将来の利得に対する割引率γ(0<γ<1)、状態遷移確率P s,i;t,z、及び、利得ベクトルαの隠れ状態iの成分α(i)(すなわち、隠れ状態iに対応する累積期待利得の成分)の積の値との和を、隠れ状態iに対応する成分として有する、時刻nの新しいベクトルを生成する。
生成部140は、γ=1とすることにより将来の利得を割り引くことなく新しいベクトルを生成してもよい。
次に、10行目に示すように、生成部140は、第2ループ処理内で第3ループ処理の後に、更新されたベクトル集合ΦをPrune関数によって枝刈りしてよい。ここで、Prune関数は、入力されたベクトル集合に含まれるベクトルのうち、隠れ状態iの確率分布bの少なくとも一部の範囲において隠れ状態iに対応する成分が最大値を構成するベクトル以外のベクトルを入力集合から除去する。
次に、11行目に示すように、生成部140は、第2ループ処理内で時点nの利得ベクトルの集合Λ s,nを生成する。具体的には、生成部140は、現在の利得ベクトルの集合Λ s,nに含まれるベクトルα、及び、ベクトル集合Φに含まれるベクトルα'の全ての組み合わせについて、ベクトルα及びベクトルα'の和から合算ベクトルを生成し、当該合算ベクトルをPrune関数により枝刈りすることにより、新しい利得ベクトルの集合Λ s,nを生成する。これにより、生成部140は、入力aに対応する利得ベクトルの集合Λ s,nを生成するので、入力と利得ベクトルの対応情報である入力対応情報を生成することができる。
次に、13行目に示すように、生成部140は、第1ループ処理内で第2ループ処理の後に、利得ベクトルの集合Λ s,nを更新する。具体的には、生成部140は、集合Λ s,nと集合Λ s,nとの和集合を取ることにより集合Λ s,nを更新する。
次に、15行目に示すように、生成部140は、第1ループ処理の後に、集合Λ s,nを更新する。具体的には、生成部140は、Prune関数に集合Λ s,nを入力することにより集合Λ s,nを更新する。
次に、16行目において、生成部140は、集合Λ s,nを時点n、状態sにおける利得ベクトルの集合して出力する。
このように、生成装置10は、時点n+1の可視状態sにおける隠れ状態i毎の期待利得q (i)、時点n+1の可視状態sにおけるΛs,n+1、及び、割引率γに基づいて、時点nの可視状態sに対応する利得ベクトルΛs,nを生成する。
また、生成装置10は、Prune関数により、各時点n及び各可視状態sにおいて、集合Λs,nに含まれる利得ベクトルαs,nの集合から、隠れ状態iの確率分布の少なくとも一部の範囲において最大値を構成する利得ベクトル以外を除去することにより、集合Λs,nを生成する。
図6は、利得ベクトルの集合Λs,nと累積期待利得の関係を示す。図6(a)は集合Λs,nと累積期待利得との関係を示す。ここで利得ベクトルα、α、α、及びαを含む利得ベクトルの集合Λs,nを想定する。各利得ベクトルは、隠れ状態の確率分布bに応じた累積期待利得の値を算出するのに用いることができる。図6では説明のために便宜的に、各利得ベクトルが、確率分布bではなく単一の隠れ状態iである確率b(i)の値のみに応じて累積期待利得の値を返すものとして説明する。
例えば、隠れ状態iである確率b(i)がbである場合、利得ベクトルαはbの値に応じた累積期待利得rを返し、利得ベクトルαはbの値に応じた累積期待利得rを返し、利得ベクトルαはbの値に応じた累積期待利得rを返し、利得ベクトルαはbの値に応じた累積期待利得rを返す。
図示するように、累積期待利得r〜rのうち最大値を取るのは累積期待利得rであるので、利得ベクトルα〜αの集合から確率bに応じて累積期待利得rに対応する利得ベクトルαを選択することができる。例えば、選択関数は、確率bが入力されたことに応じて、利得ベクトルαに対応する番号1を出力する。同様に、選択関数は、確率bに応じて累積期待利得の最大値を取る利得ベクトルαを出力し、bに応じて累積期待利得の最大値を取る利得ベクトルαを出力する。
ここで、各利得ベクトルには入力が対応付けられているので、選択関数に隠れ状態の確率分布bを入力することで、最適な入力を選択することができる。例えば、選択関数が利得ベクトルαに対応する番号1を出力した場合、番号1に対応する入力を最適な入力して選択することができる。
図6(b)は、最大値を取る利得ベクトルの部分を連結することにより得られる、累積期待利得の最大値を返す利得関数を示す。図示するように、複数の利得ベクトルα〜αのうち累積期待利得が最大値となる区間のみを連結すると、太線で示す下に凸が向いた区分線形凸関数となる利得関数v(s,b)が得られる。利得関数v(s,b)は、v(s,b)=max[Σb(i)α(i)]で表される可視状態s及び隠れ状態の確率分布bに依存する関数となる。
ここで、生成部140は、集合Λs,nを生成する際に、Prune関数により累積期待利得が最大値となる区間を有しない利得ベクトル(例えば、利得ベクトルα)を除去している。これにより、生成部140は、選択関数に用いる利得ベクトルから入力の選択に寄与しない無意味なものを排除し、計算をより効率化することができる。
図7は、図3における処理フローの具体的アルゴリズムの別の一例を示す。図7は、図5を例にS140の処理のアルゴリズムを説明する。本例のアルゴリズムは、図5で示したものと異なり、観測z(z∈Z)を考慮せずに集合Λn,tを算出する。
まず、1行目に示すように、生成部140は、各々の可視状態s(s∈S)に対して、1〜11行目で定義する第1ループ処理を実行する。
次に、2行目に示すように、生成部140は、第1ループ処理内で全入力に対応する利得ベクトルの集合Λ(s,n)を空集合とすることにより初期化する。
次に、3行目に示すように、生成部140は、各々の入力a(a∈A)に対して、3〜10行目で定義する第2ループ処理を実行する。
4行目に示すように、生成部140は、第2ループ処理内で入力aに対応づけられた利得ベクトルの集合Λ(s,n,a)を空集合とすることにより初期化する。
次に、5行目に示すように、生成部140は、第2ループ処理内で各々の可視状態s'(s'∈S)に対して、5〜8行目で定義する第3ループ処理を実行する。ここで、可視状態s'は時点n+1における可視状態を示す。
6行目に示すように、生成部140は、第3ループ処理内でベクトルの集合Λ(s,n,a,s')を生成する。具体的には、生成部140は、時点n+1の集合Λ(s',n+1)に含まれる各々の利得ベクトルαについて、新しいベクトルを生成する。状態遷移確率P s,i;s'は、可視状態s、隠れ状態iにおいて入力aを実行したときに可視状態sから可視状態s'に遷移する確率を表す。
例えば、生成部140は、各々の隠れ状態iについて、期待利得q s,iを可視状態sの数|S|で除した値と、状態遷移確率P s,i;s'、及び、利得ベクトルαの隠れ状態iの成分α(i)の積の値との和を、新しいベクトルの隠れ状態iに対応する成分とすることにより利得ベクトルαから新しいベクトルを生成する。生成部140を、生成した新しいベクトルをPrune関数に入力することにより、集合Λ(s,n,a,s')を生成する。
次に、7行目に示すように、生成部140は、第3ループ処理内で集合Λ(s,n,a)を生成する。具体的には、生成部140は、集合Λ(s,n,a)に含まれるベクトルα、及び、集合Λ(s,n,a,s')に含まれるベクトルα'の全ての組み合わせについて、ベクトルα及びベクトルα'の和から合算ベクトルを生成し、当該合算ベクトルをPrune関数に入力することにより、新しい利得ベクトルの集合Λ(s,n,a)を生成する。これにより、生成部140は、入力aと集合Λ(s,n,a)に含まれる利得ベクトルとを対応付けることができる。
次に、9行目に示すように、生成部140は、第2ループ処理内で第3ループ処理の後に、集合Λ(s,n)を更新する。具体的には、生成部140は、集合Λ(s,n)と集合Λ(s,n,a)との和集合を取ることにより集合Λ(s,n)を更新する。
図8は、本実施形態の選択装置20の処理フローを示す。本実施形態において、選択装置20は、S310〜S380の処理を実行することにより、最適な入力を選択する。
まず、S310において、取得部210は、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合Λs,nを取得する。
また、取得部210は、生成装置10から、隠れ状態iにおいて一の入力aをしたときに状態集合Sにおいて一の可視状態sから別の可視状態s'に遷移する状態遷移確率P s,i,s'、及び、入力aと利得ベクトルαs,n との対応付けを含む入力対応情報を取得してよい。
取得部210は、取得した利得ベクトルの集合Λs,n及び入力対応情報を利得選択部220に供給する。また、取得部210は、状態遷移確率P s,i,s'を遷移部240に供給する。
次に、S320において、取得部210は、シミュレーションの対象となる環境の初期化処理を実行する。例えば、取得部210は、可視状態、及び、隠れ状態の初期条件を設定する。
一例として、取得部210は、生成装置10がデータベース1000から取得した学習用データにおける将来の時点における可視状態s、及び、隠れ状態の確率分布bをシミュレーションの初期条件(s,b)としてよい。また、例えば、取得部210は、環境の可視状態、及び、隠れ状態についての初期条件を直接データベース1000等から取得してもよい。
また、取得部210は、時点nを1に設定することで初期化する。取得部210は、将来の時点Nを設定する。例えば、取得部210は、時点Nに予め定められた数を設定する。取得部210は、初期化の結果を利得選択部220に供給する。
次に、S330において、利得選択部220は、現在の可視状態sに応じた利得ベクトルαの中から、現時点における隠れ状態の確率分布bに対し累積期待利得を最大化する利得ベクトルαを選択する。
例えば、まず、利得選択部220は、利得ベクトルの集合Λs,nから数式(1)で表される隠れ状態iを取る確率b(i)、及び、時点nの可視状態sに対応するk番目の利得ベクトルαs,n の隠れ状態iに対応するαs,n (i)に基づく規定される選択関数Kmax(s,b)を生成する。
Figure 2015176329
…数式(1)
次に、利得選択部220は、選択関数Kmax(s,b)に現在の可視状態s及び隠れ状態の確率分布bを入力して、隠れ状態の確率分布bに対応して決定される利得ベクトルα s,nを選択する。利得選択部220は、利得ベクトルの集合Λs,nの代わりに取得部210を介して取得した選択関数Kmax(s,b)により利得ベクトルα s,nを選択してもよい。利得選択部220は、選択した利得ベクトルα s,n及び入力対応情報を入力選択部230に供給する。
次に、S340において、入力選択部230は、利得選択部220が選択した利得ベクトルに対応する入力を、最適な入力として選択する。例えば、入力選択部230は、入力対応情報に基づき、利得ベクトルα s,nと予め対応付けられた入力kを、時点nにおいて実行した場合に最大の累積期待利得を与える最適な入力kとして選択する。入力選択部230は、選択した入力kを遷移部240に供給する。
次に、S350において、遷移部240は、入力選択部230に選択された入力kを実行したことに応じて、選択された入力に対応する状態遷移確率及び現在の隠れ状態の確率分布bに基づき、可視状態sを確率的に遷移させる。
すなわち、遷移部240は、現在の可視状態sを状態遷移確率P s,i;t,zの確率でいずれか1つの可視状態t(t∈S)に遷移させる。
次に、遷移部240は、選択された入力kに対応する状態遷移確率P s,i,s',z及び現在の隠れ状態の確率分布bに基づき、隠れ状態の確率分布bを更新する。例えば、遷移部240は、隠れ状態iをとる確率b(i)に数式(2)の計算結果を代入することにより隠れ状態の確率分布bを更新する。
Figure 2015176329
…数式(2)
s,i;s',zは隠れ状態i及び可視状態sにおいて入力aにより可視状態sから可視状態s'に遷移し、観測zが観測される状態遷移確率を示す。
観測zを考慮しない遷移モデルの場合、遷移部240は、選択された入力kに対応する状態遷移確率P s,i,s'及び現在の隠れ状態の確率分布bに基づき、隠れ状態の確率分布bを更新する。例えば、遷移部240は、隠れ状態iをとる確率b(i)に数式(3)の計算結果を代入することにより隠れ状態の確率分布bを更新する。
Figure 2015176329
…数式(3)
s,i;s'は隠れ状態i及び可視状態sにおいて入力aにより可視状態sから可視状態s'に遷移する状態遷移確率を示す。
次に、S370において、遷移部240は、nに1を加える。遷移部240は、処理をS380に進める。
次に、S380において、遷移部240は、nがNを超えるか否かを判断する。n>Nとなる場合、遷移部240は処理を終了し、そうでない場合は処理をS330に戻す。
このように、選択装置20は、生成装置10が生成した利得ベクトルの集合Λs,nを用いて、可視状態s及び隠れ状態の確率分布bに応じた最適な施策を選択して出力することができる。
図9は、本実施形態の変形例に係る情報処理システムの概要を示す。本変形例では、生成装置30は、利得ベクトルの集合を生成した後、生成した利得ベクトルの一部を選択して選択装置40に供給する。
生成装置30は、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力及び/又は隠れ状態に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する。生成装置30は、入力部310、算出部320、初期化部330、生成部340、設定部350、及び、選択部360を備える。入力部310、算出部320、及び、初期化部330は、図1で説明した生成装置10に係る入力部110、算出部120、及び、初期化部130と同様の構成であってよい。
生成部340は、生成部140と同様に状態遷移確率及び期待利得に基づいて、基準時点以降の累積期待利得の算出に用いられる少なくとも1つの利得ベクトルを有し、累積期待利得の最大値を与える利得ベクトルが選択されるべき利得ベクトルの集合を、将来の時点から遡って再帰的に生成する。
また、生成部340は、利得ベクトルの集合を生成するときに入力と利得ベクトルとの対応付けを含む入力対応情報を生成する。生成部340は、生成した利得ベクトルの集合、状態遷移確率、及び、入力対応情報を選択部360に供給してよい。
設定部350は、利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の隠れ状態の確率分布を設定する。設定部350は、設定した選択用の確率分布を、選択部360に供給する。
選択部360は、設定した選択用の確率分布に基づいて、生成部340が生成した利得ベクトルの集合から少なくとも一部の利得ベクトルを選択する。例えば、選択部360は、選択用の確率分布について累積期待利得の最大値を与える利得ベクトルを優先して選択して利得ベクトルの集合に含めることにより、新しい利得ベクトルの集合を生成する。
選択部360は、生成したある時点n+の1における新しい利得ベクトルの集合を生成部340に供給し、生成部340に前の時点nにおける利得ベクトルの集合を生成させてよい。選択部360は、最終的に選択された利得ベクトルの集合、状態遷移確率、及び、入力対応情報を選択装置40に供給する。
選択装置40は、観測可能な可視状態、及び、観測不能な隠れ状態を備え、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルにおいて、利得ベクトルの集合に基づいて最適な入力を選択する。
選択装置40は、取得部410、利得選択部420、入力選択部430、及び、遷移部440を有する。取得部410、利得選択部420、及び、入力選択部430は、図1で説明した選択装置20に係る取得部210、利得選択部220、及び、入力選択部230と同様の構成であってよい。
遷移部440は、選択装置20に係る遷移部240と同様に、入力選択部430に選択された入力に応じて、可視状態及び隠れ状態の確率分布を遷移させる。遷移部440は、更新した可視状態及び隠れ状態の確率分布を利得選択部420に供給し、再度、利得選択部420に可視状態及び隠れ状態の確率分布に基づき利得ベクトルを選択させる。また、遷移部440は、時刻ごとに更新される隠れ状態の確率分布の時系列を、生成装置30の設定部350に供給してよい。
このように、本変形例の情報処理システムによると、生成装置30は、選択用の確率分布に基づき利得ベクトルが選択された利得ベクトルの集合を生成して、選択装置40に供給する。これにより選択装置40は、より少数の利得ベクトルを用いることにより、更に効率的に最適な入力を算出することができる。
図10は、本変形例の生成装置30の処理フローの一例を示す。本変形例において、生成装置30は、S510〜S570の処理を実行することにより、利得ベクトルの集合を生成する。生成装置30は、S510〜S530の処理を、図3に係るS110〜S130の処理と同様に実行してよい。
S540において、設定部350は、選択装置40に供給する利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の隠れ状態の確率分布を設定する。例えば、設定部350は、予め定められたベクトルの集合を選択用の隠れ状態の確率分布として設定する。
一例として、設定部350は、選択用の確率分布に、長さが隠れ状態の数|B|となり、各隠れ状態iについて当該隠れ状態に対応する成分を予め定められた値(例えば、1)としたベクトル{e|i=1,...,|B|}の集合を、選択用の確率分布として設定してよい。設定部350は、設定した選択用の確率分布を、選択部360に供給する。
次にS550において、生成部340は、S140と同様に、1≦n≦N−1となる時点nについて利得ベクトルαs,nの集合Λ(s)を時点n+1についての集合Λn+1(s)から再帰的に生成する。生成部340は、時点nについての利得ベクトルの集合Λ(s)等を選択部360に供給する。
次に、S552において、選択部360は、選択用の確率分布に基づいて利得ベクトルの集合から少なくとも一部の利得ベクトルのみを選択した利得ベクトルの集合を生成する。例えば、選択部360は、生成部340から受け取った時点nについての利得ベクトルの集合から、選択用の確率分布について累積期待利得の最大値を与える利得ベクトルを優先して選択して利得ベクトルの集合に含めることにより、時点nについて選択済みの利得ベクトルの集合を生成する。
すなわち、選択部360は、利得ベクトルの集合から選択用の確率分布について累積期待利得の最大値を与える利得ベクトル以外の利得ベクトルを除去する。選択部360は、生成した時点nについての選択済みの利得ベクトルの集合を生成部340に供給する。なお、選択部360による利得ベクトルの選択の具体的な処理内容につては後述する。
次に、S560において、選択部360は、nから1を減じて処理をS570に進める。
次に、S570において、選択部360は、n=0となるか否かを判断する。n=0となる場合、選択部360は処理を終了し、そうでない場合は処理をS550に戻す。2回目以降のS550の処理において、生成部340は、選択部360が生成した選択済みの利得ベクトルの集合に基づいて、再度利得ベクトルの集合を生成し、選択部360に供給する。これにより、生成部340及び選択部360は、nがNから0になるまで利得ベクトルの集合Λ(s)を再帰的に生成する。
このように本変形例の生成装置30は、生成部340が利得ベクトルの集合を生成し、選択部360が生成された利得ベクトルの一部のみを選択する。これにより、生成装置30は、最終的に生成される利得ベクトルの集合に含まれる利得ベクトルの数を低減するので、選択装置40による選択処理をより高速化することができる。
図11は、図10における処理フローの具体的アルゴリズムの一例を示す。ここでは、図10のS550及びS552の処理のアルゴリズムを説明する。
まず、1行目に示すように、生成部340は、時点n+1、状態t(t∈S)における利得ベクトルの集合Λt,n+1を取得し、選択部360は選択用の隠れ状態の確率分布bの集合Bを取得する。
次に、生成部340は、各々の入力a(a∈A)、各々の可視状態t(t∈S)、及び、各々の観測z(z∈Z)に対して、2〜4行目で定義する第1ループ処理を実行する。
3行目に示すように、生成部340は、第1ループ処理内でベクトル集合Θ t,zを更新する。具体的には、生成部340は、隠れ状態の各成分iについて、状態遷移確率P s,i;t、及び、時点n+1の利得ベクトルαの隠れ状態iの成分α(i)(すなわち、隠れ状態iに対応する累積期待利得の成分)を乗じることにより、時点nの利得ベクトルαt,z(αt,z∈Θ t,z)を生成する。
次に、選択部360は、各々の選択用の確率分布b(b∈B)について、5〜7行目に示す第2ループ処理を実行する。
6行目に示すように、選択部360は、利得ベクトルの集合θ t,zから利得ベクトルを選択してベクトル集合Ψを生成する。具体的には、選択部360は、選択用の確率分布bの各々について、隠れ状態の確率分布b及び利得ベクトルαt,zの積が最大化される利得ベクトルαt,zをargmax関数で選択し、選択された利得ベクトルαt,zと期待利得q との和をベクトル集合Ψに加える。選択部360は、隠れ状態の確率分布b及び利得ベクトルαt,zの積に割引率γ(0<γ<1)を更に乗じてもよい。
次に、8行目に示すように、選択部360は、ベクトル集合Ψから利得ベクトルを選択して、時点nについての選択済みの利得ベクトルの集合Λs,nを生成する。具体的には、選択部360は、隠れ状態の確率分布b及び利得ベクトルα(α∈Ψ)の積が最大化される利得ベクトルαをargmax関数で選択し、これを選択済みの利得ベクトルの集合Λs,nとする。
次に、9行目において、選択部360は、集合Λs,nを時点n、状態sにおける利得ベクトルの集合として出力する。
図12は、本変形例における集合Λs,nと累積期待利得の関係を示す。図12(a)は図6(a)と同様に集合Λs,nと累積期待利得との関係を示す。生成部340は、利得ベクトルα、α、α、及びαを含む利得ベクトルの集合Λs,nを生成する。
本変形例において、設定部350は、選択用の確率分布b'及びb'を設定する。なお、図12では説明のため便宜的に、選択用の確率分布b'及びb'はベクトルではなく、単一の隠れ状態iに対応した値b(i)であるものとして説明する。
例えば、選択部360は、選択用の確率分布b'について、利得ベクトルα〜αのうち累積期待利得の最大値を与える利得ベクトルαを選択済みの利得ベクトルの集合に含める。また、選択部360は、選択用の確率分布b'について、利得ベクトルα〜αのうち累積期待利得の最大値を与える利得ベクトルαを選択済みの利得ベクトルの集合に含める。このように、選択部360は、選択用の確率分布b'及びb'に基づき、生成部340が生成した利得ベクトルα〜αから利得ベクトルα及びαを含む選択済みの利得ベクトルの集合を生成する。
図12(b)は、本変形例に係る生成装置30が生成する利得ベクトルの集合に含まれる利得ベクトルの部分を連結することにより得られる、累積期待利得の最大値を返す利得関数を示す。
図示するように、選択済みの利得ベクトルの集合に含まれる利得ベクトルα及びαのうち累積期待利得が最大値となる区間のみを連結すると、太線で示す下に凸が向いた区分線形凸関数となる利得関数v(s,b)が得られる。αを選択済みの利得ベクトルの集合に含まれる利得ベクトルとしたときに、利得関数v(s,b)は、v(s,b)=max[Σb(i)α(i)]で表される可視状態s及び隠れ状態の確率分布bに依存する関数となる。
このように本変形例によると、図6(b)に示す利得関数と比べて、利得ベクトルの数を減らすことができる。これにより、選択装置40は、選択関数による計算をより高速化及び効率化することができる。
図13は、本実施形態の本変形例の処理フローの別の一例を示す。本変形例において、選択装置40は予め定められた期間1〜Nについて選択関数により入力を選択して、確率分布の更新を実行し、生成装置30は選択装置40から更新された確率分布を受け取り、当該確率分布を選択用の確率分布として利用して利得ベクトルの集合を更新する。
生成装置30はS710〜S760の処理を図10のS510〜S570の処理と同様に実行してよい。S770において、生成部340は、n=0となるか否かを判断する。n=0となる場合、生成部340は処理をS780に進め、そうでない場合は処理をS750に戻す。
S780において、生成装置30の選択部360は、生成した選択済みの利得ベクトルの集合、入力と利得ベクトルとの対応付けを含む入力対応情報、及び、可視状態の状態遷移確率を選択装置40に供給する。
選択装置40はS810〜S870の処理を図8のS310〜S370の処理と同様に実行してよい。
S880において、遷移部240は、nがNを超えるか否かを判断する。n>Nとなる場合、遷移部240は処理をS890に進め、そうでない場合は処理をS830に戻す。
S890において、遷移部240は、選択装置40が選択関数により入力を選択して確率分布の更新を実行すること、及び、生成装置30が選択装置から更新された確率分布を受け取り当該確率分布を選択用の確率分布として利得ベクトルの集合を更新することを予め定められた回数繰り返し実行したか否かを判断する。
予め定められた回数の繰り返しが完了した場合、遷移部240は処理を終了し、そうでない場合は処理をS900に戻す。
S900において、遷移部440は、繰り返し実行されたS860の処理において生成された期間中の各時点における隠れ状態の確率分布の情報を生成装置30に送信する。
次に、生成装置30の設定部350は、再びS740の処理を実行して、遷移部440が更新した各時点における確率分布を受け取り、これを選択用の確率分布として設定する。ここで、設定部350は、既に設定された選択用の確率分布に加えて/代えて、遷移部440が更新した確率分布を選択用の確率分布として設定してよい。
このように、設定部350は、生成部340が生成した利得ベクトルの集合の中から累積期待利得の最大値を返す利得ベクトルに対応する入力が利得選択部420により選択された場合に、選択された入力に応じて遷移部440で更新される隠れ状態の確率分布を選択用の確率分布として設定することができる。
これにより、本変形例の情報処理システムは、生成装置30による利得ベクトルの生成、及び、選択装置40による最適入力の選択の繰り返しを実行するごとに、より現実に近い隠れ状態の確率分布に基づいて、利得ベクトルの集合に含める利得ベクトルを選択することができるので、選択装置40は最適入力の選択をより正確かつ高速に実行することができる。
図14は、生成装置10、選択装置20、生成装置30、及び/又は、選択装置40として機能するコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部を備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、有線又は無線によりネットワークを介して他の装置と通信する。また、通信インターフェイスは、通信を行うハードウェアとして機能する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続するとともに、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を生成装置10及び選択装置20として機能させるプログラムは、入力モジュール、算出モジュール、初期化モジュール、生成モジュール、設定モジュール、選択モジュール、取得モジュール、利得選択モジュール、入力選択モジュール、及び、遷移モジュールを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、入力部110、算出部120、初期化部130、生成部140、取得部210、利得選択部220、入力選択部230、遷移部240、入力部310、算出部320、初期化部330、生成部340、設定部350、選択部360、取得部410、利得選択部420、入力選択部430、及び、遷移部440としてそれぞれ機能させてよい。
これらのプログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である入力部110、算出部120、初期化部130、生成部140、取得部210、利得選択部220、入力選択部230、遷移部240、入力部310、算出部320、初期化部330、生成部340、設定部350、選択部360、取得部410、利得選択部420、入力選択部430、及び、遷移部440として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の生成装置10、選択装置20、生成装置30、及び、選択装置40が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、又はCD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、CD−ROMドライブ2060(CD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020及び外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。
本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすか否かを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVD又はCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 生成装置、110 入力部、120 算出部、130 初期化部、140 生成部、20 選択装置、210 取得部、220 利得選択部、230 入力選択部、240 遷移部、30 生成装置、310 入力部、320 算出部、330 初期化部、340 生成部、350 設定部、360 選択部、40 選択装置、410 取得部、420 利得選択部、430 入力選択部、440 遷移部、1000 データベース、1900 コンピュータ、2000 CPU、2010 ROM、2020 RAM、2030 通信インターフェイス、2040 ハードディスクドライブ、2050 フレキシブルディスク・ドライブ、2060 CD−ROMドライブ、2070 入出力チップ、2075 グラフィック・コントローラ、2080 表示装置、2082 ホスト・コントローラ、2084 入出力コントローラ、2090 フレキシブルディスク、2095 CD−ROM

Claims (16)

  1. 観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する、コンピュータにより実行される生成方法であって、
    隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の前記隠れ状態の確率分布を設定する設定段階と、
    選択用の前記確率分布について前記累積期待利得の最大値を与える利得ベクトルを優先して前記利得ベクトルの集合に含める選択段階と、
    を備える生成方法。
  2. 前記利得ベクトルの集合を、将来の時点から前記基準時点へと遡って再帰的に生成する生成段階を更に備える、
    請求項1に記載の生成方法。
  3. 前記設定段階は、選択用の前記確率分布に、長さが隠れ状態の数となり、各隠れ状態について当該隠れ状態に対応する成分を1としたベクトルを、選択用の前記確率分布として設定する段階を含む、
    請求項2に記載の生成方法。
  4. 前記設定段階は、前記生成段階において生成した前記利得ベクトルの集合の中から前記累積期待利得の最大値を返す前記利得ベクトルに対応する入力が選択された場合に、選択された前記入力に応じて更新される隠れ状態の確率分布を選択用の前記確率分布として設定する段階を含む、
    請求項2又は3に記載の生成方法。
  5. 前記将来の時点N(但し、Nは2以上の整数)における利得ベクトルの集合を初期化する初期化段階を更に備える請求項2から4のいずれか1項に記載の生成方法。
  6. 前記生成段階は、
    時点nにおける可視状態s(s∈S、Sは可視状態の集合)についての利得ベクトルαs,nの集合Λ(s)を、次の時点n+1における各可視状態s'(s'∈S)についての利得ベクトルαs',n+1の集合Λn+1(s')に基づいて再帰的に生成する段階を含む、
    請求項2から5のいずれか1項に記載の生成方法。
  7. 前記生成段階は、一の可視状態sから別の可視状態s'に遷移する状態遷移確率、及び、可視状態s'における期待利得に更に基づいて、利得ベクトルαs,nの集合Λ(s)を生成する段階を含む、
    請求項6に記載の生成方法。
  8. 請求項1から6のいずれか1項に記載の生成方法と、
    観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルにおいて最適な入力を選択する選択方法であって、
    前記生成方法において生成した利得ベクトルの集合を取得する取得段階、
    現在の可視状態に応じた前記利得ベクトルの中から、現時点における隠れ状態の確率分布に対し累積期待利得を最大化する前記利得ベクトルを選択する利得選択段階、及び、
    選択した前記利得ベクトルに対応する入力を、最適な入力として選択する入力選択段階を有する選択方法と、
    をコンピュータにより実行する情報処理方法。
  9. 前記取得段階は、隠れ状態iにおいて一の入力aをしたときに状態集合Sにおいて一の可視状態sから別の可視状態s'に遷移する状態遷移確率P s,i,s'を取得し、
    前記選択段階は、前記入力選択段階で選択された入力aを実行したことに応じて、前記選択された入力aに対応する前記状態遷移確率P s,i,s'及び現在の隠れ状態の確率分布に基づき、可視状態sを遷移させる遷移段階を更に備える、
    請求項8に記載の情報処理方法。
  10. 前記遷移段階は、前記状態遷移確率P s,i,s'及び現在の隠れ状態の確率分布に基づき、隠れ状態の確率分布bを更新する段階を含む、
    請求項9に記載の情報処理方法。
  11. 前記遷移段階は、前記入力選択段階で選択された入力に応じて、隠れ状態iをとる確率b(i)に数式(1)の計算結果を代入することにより隠れ状態の確率分布bを更新する段階を含む、
    Figure 2015176329
    …数式(1)
    (但し、Pa s,i;s'は隠れ状態i及び可視状態sにおいて入力aにより可視状態sから可視状態s'に遷移する状態遷移確率を示す。)
    請求項10に記載の情報処理方法。
  12. 前記遷移段階は、前記入力選択段階で選択された入力に応じて、隠れ状態iをとる確率b(i)に数式(2)の計算結果を代入することにより隠れ状態の確率分布bを更新する段階を含む、
    Figure 2015176329
    …数式(2)
    (但し、Pa s,i;s'は隠れ状態i及び可視状態sにおいて入力aにより可視状態sから可視状態s'に遷移し、観測zが観測される状態遷移確率を示す。)
    請求項10に記載の情報処理方法。
  13. 前記設定段階は、前記遷移段階で更新した確率分布を選択用の確率分布として設定する段階を含む、
    請求項9から12のいずれか1項に記載の情報処理方法。
  14. 前記選択方法において、予め定められた期間について入力を選択して、前記確率分布の更新を実行することと、
    前記生成方法において、前記選択方法により前記更新された確率分布を受け取り、当該確率分布bを前記選択用の確率分布として前記利得ベクトルの集合を更新することとを繰り返す、
    請求項13に記載の情報処理方法。
  15. 観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する生成装置であって、
    隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の前記隠れ状態の確率分布を設定する設定部と、
    選択用の前記確率分布について前記累積期待利得の最大値を与える利得ベクトルを優先して前記利得ベクトルの集合に含める選択部と、
    を備える生成装置。
  16. コンピュータを、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する生成装置として機能させるプログラムであって、実行されると当該コンピュータを、
    隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の前記隠れ状態の確率分布を設定する設定部と、
    選択用の前記確率分布について前記累積期待利得の最大値を与える利得ベクトルを優先して前記利得ベクトルの集合に含める選択部として機能させる、
    プログラム。
JP2014052154A 2014-03-14 2014-03-14 生成装置、生成方法、情報処理方法、及び、プログラム Active JP6103540B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014052154A JP6103540B2 (ja) 2014-03-14 2014-03-14 生成装置、生成方法、情報処理方法、及び、プログラム
US14/633,414 US9747616B2 (en) 2014-03-14 2015-02-27 Generating apparatus, generation method, information processing method and program
US14/748,264 US9858592B2 (en) 2014-03-14 2015-06-24 Generating apparatus, generation method, information processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014052154A JP6103540B2 (ja) 2014-03-14 2014-03-14 生成装置、生成方法、情報処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2015176329A true JP2015176329A (ja) 2015-10-05
JP6103540B2 JP6103540B2 (ja) 2017-03-29

Family

ID=54069324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014052154A Active JP6103540B2 (ja) 2014-03-14 2014-03-14 生成装置、生成方法、情報処理方法、及び、プログラム

Country Status (2)

Country Link
US (2) US9747616B2 (ja)
JP (1) JP6103540B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071813A (ja) * 2014-10-02 2016-05-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、選択装置、生成方法、選択方法、およびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360509B2 (en) * 2015-10-19 2019-07-23 International Business Machines Corporation Apparatus and method for generating an optimal set of choices
US11176473B2 (en) 2017-01-06 2021-11-16 International Business Machines Corporation Partially observed Markov decision process model and its use
US10831509B2 (en) 2017-02-23 2020-11-10 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
US11947978B2 (en) 2017-02-23 2024-04-02 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
US11568236B2 (en) 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060100874A1 (en) * 2004-10-22 2006-05-11 Oblinger Daniel A Method for inducing a Hidden Markov Model with a similarity metric
JP2008152321A (ja) * 2006-12-14 2008-07-03 Internatl Business Mach Corp <Ibm> 顧客セグメント推定装置
US20120310872A1 (en) * 2011-06-02 2012-12-06 Supported Intelligence, LLC System and method for evaluating decision opportunities

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5946673A (en) * 1996-07-12 1999-08-31 Francone; Frank D. Computer implemented machine learning and control system
US6466908B1 (en) * 2000-01-14 2002-10-15 The United States Of America As Represented By The Secretary Of The Navy System and method for training a class-specific hidden Markov model using a modified Baum-Welch algorithm
ES2261527T3 (es) * 2001-01-09 2006-11-16 Metabyte Networks, Inc. Sistema, procedimiento y aplicacion de software para publicidad dirigida mediante una agrupacion de modelos de comportamiento, y preferencias de programacion basadas en grupos de modelos de comportamiento.
US7403904B2 (en) * 2002-07-19 2008-07-22 International Business Machines Corporation System and method for sequential decision making for customer relationship management
US7174354B2 (en) * 2002-07-31 2007-02-06 Bea Systems, Inc. System and method for garbage collection in a computer system, which uses reinforcement learning to adjust the allocation of memory space, calculate a reward, and use the reward to determine further actions to be taken on the memory space
US20050071223A1 (en) * 2003-09-30 2005-03-31 Vivek Jain Method, system and computer program product for dynamic marketing strategy development
US8655822B2 (en) * 2008-03-12 2014-02-18 Aptima, Inc. Probabilistic decision making system and methods of use
WO2010045272A1 (en) * 2008-10-14 2010-04-22 Honda Motor Co., Ltd. Smoothed sarsa: reinforcement learning for robot delivery tasks
US8478642B2 (en) * 2008-10-20 2013-07-02 Carnegie Mellon University System, method and device for predicting navigational decision-making behavior
JP5619379B2 (ja) 2009-06-24 2014-11-05 株式会社西原環境 固液分離装置
JP5361615B2 (ja) 2009-08-31 2013-12-04 日本電信電話株式会社 行動制御学習方法、行動制御学習装置、行動制御学習プログラム
US8024611B1 (en) * 2010-02-26 2011-09-20 Microsoft Corporation Automated learning of failure recovery policies
US20110313933A1 (en) * 2010-03-16 2011-12-22 The University Of Washington Through Its Center For Commercialization Decision-Theoretic Control of Crowd-Sourced Workflows
WO2012030838A1 (en) * 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
JP5427163B2 (ja) 2010-12-07 2014-02-26 日本電信電話株式会社 行動制御装置、行動制御方法及び行動制御プログラム
JP5475707B2 (ja) 2011-03-08 2014-04-16 日本電信電話株式会社 行動制御装置、行動制御方法及び行動制御プログラム
JP5868104B2 (ja) * 2011-09-30 2016-02-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム
US9047423B2 (en) * 2012-01-12 2015-06-02 International Business Machines Corporation Monte-Carlo planning using contextual information
JP2013205170A (ja) * 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2013242761A (ja) * 2012-05-22 2013-12-05 Internatl Business Mach Corp <Ibm> マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060100874A1 (en) * 2004-10-22 2006-05-11 Oblinger Daniel A Method for inducing a Hidden Markov Model with a similarity metric
JP2008152321A (ja) * 2006-12-14 2008-07-03 Internatl Business Mach Corp <Ibm> 顧客セグメント推定装置
US20120310872A1 (en) * 2011-06-02 2012-12-06 Supported Intelligence, LLC System and method for evaluating decision opportunities

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6017001938; Joelle Pineau et al.: 'Point-based value iteration: An anytime algorithm for POMDPs' International Joint Conference on Artificial Intelligence (IJCAI) , 2003, pp.1025-1032 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071813A (ja) * 2014-10-02 2016-05-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、選択装置、生成方法、選択方法、およびプログラム

Also Published As

Publication number Publication date
US20150294354A1 (en) 2015-10-15
US9858592B2 (en) 2018-01-02
US9747616B2 (en) 2017-08-29
US20150262231A1 (en) 2015-09-17
JP6103540B2 (ja) 2017-03-29

Similar Documents

Publication Publication Date Title
JP6103540B2 (ja) 生成装置、生成方法、情報処理方法、及び、プログラム
Djatmiko et al. Brand image and product price; Its impact for Samsung smartphone purchasing decision
Ma et al. On the adequacy of untuned warmup for adaptive optimization
JP5984150B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6443858B2 (ja) 算出装置、算出方法、学習装置、学習方法、及びプログラム
US20240095490A1 (en) Aspect Pre-selection using Machine Learning
JP4847916B2 (ja) 購買順序を考慮したリコメンド装置、リコメンド方法、リコメンドプログラムおよびそのプログラムを記録した記録媒体
JP6072078B2 (ja) 分析装置、分析プログラム、分析方法、推定装置、推定プログラム、及び、推定方法。
JP6187977B2 (ja) 解析装置、解析方法及びプログラム
JP2017146888A (ja) 設計支援装置及び方法及びプログラム
CN111967924A (zh) 商品推荐方法、商品推荐装置、计算机设备和介质
JP5963320B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP6132288B2 (ja) 生成装置、選択装置、生成方法、選択方法、及び、プログラム
JP6366031B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Ursu et al. The sequential search model: A framework for empirical research
JP7047911B2 (ja) 情報処理システム、情報処理方法及び記憶媒体
JP5945206B2 (ja) 商品推薦装置及び方法及びプログラム
JP2013235512A (ja) 数理計画問題を解くための装置、プログラムおよび方法
EP4120144A1 (en) Reducing sample selection bias in a machine learning-based recommender system
JP2015106164A (ja) 情報処理装置、情報処理方法、及び、プログラム
CN113947431A (zh) 一种用户行为质量评估方法、装置、设备和存储介质
CN111242654B (zh) 生成广告图片的方法和系统
JP6532048B2 (ja) 生成装置、選択装置、生成方法、選択方法、およびプログラム
Sirivara MARKETING REEVALUATED-PROPOSING COMPUTER ASSISTED GENERATION OF ONLINE SELLER MARKETING CONTENT
WO2023175977A1 (ja) 学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20170201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170221

R150 Certificate of patent or registration of utility model

Ref document number: 6103540

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150