JP6850678B2 - 動的潜在コスト推定装置、方法、及びプログラム - Google Patents

動的潜在コスト推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP6850678B2
JP6850678B2 JP2017101266A JP2017101266A JP6850678B2 JP 6850678 B2 JP6850678 B2 JP 6850678B2 JP 2017101266 A JP2017101266 A JP 2017101266A JP 2017101266 A JP2017101266 A JP 2017101266A JP 6850678 B2 JP6850678 B2 JP 6850678B2
Authority
JP
Japan
Prior art keywords
user
state
feature
representing
time zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017101266A
Other languages
English (en)
Other versions
JP2018197653A (ja
Inventor
匡宏 幸島
匡宏 幸島
達史 松林
達史 松林
浩之 戸田
浩之 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017101266A priority Critical patent/JP6850678B2/ja
Publication of JP2018197653A publication Critical patent/JP2018197653A/ja
Application granted granted Critical
Publication of JP6850678B2 publication Critical patent/JP6850678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、動的潜在コスト推定装置、方法、及びプログラムに係り、特に、人の移動経路における動的な潜在コストを推定する動的潜在コスト推定装置、方法、及びプログラムに関する。
近年、人の移動経路の選択をモデリングする手法として、逆強化学習(IRL:Inverse Reinforcement Learning)と呼ばれる手法が利用されている(例えば、非特許文献1、2を参照)。IRLでは、人の移動の際に通る道や場所に潜在的なコストが存在し、人は経路全体で支払うコストの和が小さい経路をより高い確率で選択しやすくなると仮定してモデル化される。
上記の仮定に基づいて、IRLでは、その人の過去の移動履歴から、その人にとっての各道や場所における潜在的なコストを推定する。例えば、非特許文献2に記載されているように、あるタクシー運転手の移動履歴を入力とすることで、その運転手における各道のコストを推定し、運転手の好む、コストの低い道路特性、例えば、整備されている道路を好むか、カーブのゆるやかな道路を好むか等を知ることができる。また、この運転手がある目的地に至るまでに選択しやすい経路がどれであるかを見つけることができる。ほかにもロボット制御、自然言語処理における特筆すべき成功例も存在する(例えば、非特許文献3、4を参照)。
AndrewY Ng and Stuart Russell. Algorithms for inverse reinforcement learning. In in Proc. 17th International Conf. on Machine Learning, 2000. BrianD Ziebart, AndrewL Maas, JAndrew Bagnell, and AnindK Dey. Maximum entropy inverse reinforcement learning. In AAAI, pages 1433-1438, 2008. Pieter Abbeel and AndrewY Ng. Apprenticeship learning via inverse reinforcement learning. In Proceedings of the twenty-first international conference on Machine learning, page1. ACM, 2004. Gergely Neu and Csaba Szepesv_ari. Training parsers by inverse reinforcement learning. Machine learning, 77(2-3):303-337, 2009. Emanuel Todorov. Linearly-solvable markov decision problems. In Advances in neural information processing systems, pages 1369-1376, 2006. Krishnamurthy Dvijotham and Emanuel Todorov. Inverse optimal control with linearly-solvable mdps. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 335-342, 2010. Masa-Aki Sato. Online model selection based on the variational bayes. Neural Computation, 13(7):1649-1681, 2001. Matthew Hoffman, FrancisR Bach, and DavidM Blei. Online learning for latent dirichlet allocation. In advances in neural information processing systems, pages 856-864, 2010.
既存のIRL手法では、各道や場所における潜在的なコストは固定された静的なものとして定義されている。しかしながら、このことは現実に即さない場合がある。例えば、突発的な事故によってある特定の道が通行不能になるという状況や、混雑によってある特定の道の通過に非常に長い時間を要するという状況が存在する。このような状況では、人はその道路を避けた経路を選択する確率が高まると想定できるが、これは事故の時点から一定期間または渋滞発生中の期間、その道路におけるコストが通常時よりも大きい値になることに相当する。
従って、各道や場所における潜在的なコストを固定ではなく、動的に変化すると考えるほうが望ましい場合があるが、既存のIRL手法では、このような動的な潜在コストを推定することができない。
本発明は、上記の事情に鑑みてなされたもので、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる動的潜在コスト推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る動的潜在コスト推定装置は、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するパラメタ推定部と、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、を含み、前記目的関数をF (q,η,ξ)(〜はFの直上)、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルをA、特徴ベクトルAの分布パラメタをq(A)、前記状態特徴行列をB、状態特徴行列Bの分布パラメタをq(B)、前記グラフ重みデータをw、前記補助変数をη及びξ、特徴ベクトルAの事前分布を表すP(A)と状態特徴行列Bの事前分布を表すP(B)との積をP(A,B)とした場合に、前記目的関数F (q,η,ξ)は、


Figure 0006850678

により表され、但し、h(・)は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、前記報酬関数をr tj (−はrの直上)、前記価値関数の推定値をv tj 及びv tk (−はvの直上)、前記基本遷移確率をp jk (−はpの直上)、0以上1未満の定数である割引率をγとした場合に、前記報酬関数r tj は、


Figure 0006850678

により表され、前記遷移確率をp ijk (a ij )、前記行動をa ij 、前記最適方策をa ijk 、前記基本遷移確率をp jk 、前記割引率をγ、前記価値関数をv ij 及びv ik とした場合に、前記遷移確率p ijk (a ij )は、


Figure 0006850678

により表されるものである。
の発明に係る動的潜在コスト推定方法は、パラメタ推定部及び報酬関数計算部を含む動的潜在コスト推定装置が実行する動的潜在コスト推定方法であって、前記パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するステップと、前記報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算するステップと、を含み、前記目的関数をF (q,η,ξ)(〜はFの直上)、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルをA、特徴ベクトルAの分布パラメタをq(A)、前記状態特徴行列をB、状態特徴行列Bの分布パラメタをq(B)、前記グラフ重みデータをw、前記補助変数をη及びξ、特徴ベクトルAの事前分布を表すP(A)と状態特徴行列Bの事前分布を表すP(B)との積をP(A,B)とした場合に、前記目的関数F (q,η,ξ)は、


Figure 0006850678

により表され、但し、h(・)は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、前記報酬関数をr tj (−はrの直上)、前記価値関数の推定値をv tj 及びv tk (−はvの直上)、前記基本遷移確率をp jk (−はpの直上)、0以上1未満の定数である割引率をγとした場合に、前記報酬関数r tj は、


Figure 0006850678

により表され、前記遷移確率をp ijk (a ij )、前記行動をa ij 、前記最適方策をa ijk 、前記基本遷移確率をp jk 、前記割引率をγ、前記価値関数をv ij 及びv ik とした場合に、前記遷移確率p ijk (a ij )は、


Figure 0006850678

により表されるものである。
の発明に係るプログラムは、コンピュータを、第1の発明に係る動的潜在コスト推定装置が備える各部として機能させるためのプログラムである。
以上説明したように、本発明に係る動的潜在コスト推定装置、方法、及びプログラムによれば、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。
実施形態に係る線形可解マルコフ決定過程(LMDP)における状態集合、基本遷移関数、及び報酬関数の一例を示す模式図である。 実施形態に係る動的潜在コスト推定装置の構成の一例を示すブロック図である。 実施形態に係る動的潜在コスト推定プログラムの処理の流れの一例を示すフローチャートである。 実施形態に係る動的潜在コスト推定プログラムのサブルーチンの処理の流れの一例を示すフローチャートである。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
<本発明の実施形態に係る原理>
まず、本発明の実施形態における原理を、上記非特許文献5〜8を参考文献として提示しながら説明する。ここでは、本実施形態に係る構成及び作用の説明において用いる記号、アルゴリズムについて記述する。なお、本実施形態においては、ユーザ(人)毎に異なる行動の内部基準(後述する報酬関数に相当する)が存在する例を用いて説明するが、時間帯毎に異なる内部基準が存在する場合であっても同様に適用することができる。
[線形可解マルコフ決定過程(LMDP:Linearly-solvable Markov Decision Process)の定義]
まず、上記非特許文献5を参照して、線形可解マルコフ決定過程(LMDP)について説明する。線形可解マルコフ決定過程(LMDP)では、状態集合
Figure 0006850678
、基本遷移関数
Figure 0006850678
、報酬関数
Figure 0006850678
が定義された環境を考える。本実施形態では、一例として、ユーザ毎に報酬関数が存在する場合について述べるため、上記の定義を、非特許文献5から若干変更する。ユーザ数をI、状態数をJとする。状態集合を
Figure 0006850678
、基本遷移関数をJ×J行列
Figure 0006850678
、報酬関数をI×J行列
Figure 0006850678
と定義する。非特許文献5に記載の定義では、上記定義においてユーザ数I=1であり、報酬関数がJ列ベクトルで与えられる場合を考えていることに相当する。上記3つ組
Figure 0006850678
の具体例を図1に示す。なお、図1は、本実施形態に係る線形可解マルコフ決定過程(LMDP)における状態集合、基本遷移関数、及び報酬関数の一例を示す模式図である。図1中の各グリッドが、状態集合
Figure 0006850678
中のいずれかの状態sに対応し、各グリッド間の“基本的な”遷移の確率(基本遷移確率)が基本遷移関数
Figure 0006850678
で決められている。“基本的な”と注釈をつけたのは、LMDPでは行動
Figure 0006850678
を実行し、行動コストを支払うことで、この遷移の確率を変更することが許されているからである。具体的には、行動
Figure 0006850678
を実行することで、状態jから状態kへの遷移の確率を
Figure 0006850678
から
Figure 0006850678
へ変更することができる。
Figure 0006850678
の値が大きければ大きいほど、状態jへの遷移の確率を増加できることがわかる。ただし、
Figure 0006850678
の値は確率の和が1となることを満たすもの、すなわち
Figure 0006850678
を満たすものに限られる。
Figure 0006850678
また、上記のように状態jで行動
Figure 0006850678
を実行することにより発生するコスト
Figure 0006850678
は、確率分布の類似度を図る尺度であるKL(カルバックライブラーダイバージェンス)距離を用いて以下(3)式のように定義される。KL距離は、値が小さいほど類似していることを表し、一致すれば0となる。
Figure 0006850678
つまり、上記(3)式においては遷移の確率を
Figure 0006850678
から変化させればさせるほど、支払うコストが多くなる。上記の行動コストとは別に、ユーザと状態のみに依存した状態コストを表すのが、報酬関数
Figure 0006850678
である。上記図1の例で示すように、この報酬関数の値rijは、例えば、“ユーザiにとっての状態jの目的地らしさ”に対応した値などに対応し、値が小さいほど目的地らしいといえる。さらに、各状態sにおいて実行する行動
Figure 0006850678
を定めたものを方策
Figure 0006850678
と呼ぶこととする。
方策πにしたがって行動するユーザiを考えると、上記(1)式にしたがって確率的に状態間を遷移し、遷移する度に行動コストと状態コストとの和
Figure 0006850678
を支払う動きがモデリングできる。状態遷移を十分な回数繰り返した際に、遷移の過程で支払ったコスト(行動コストと状態コストとの和)の累積和の期待値が最小になるような方策を最適方策と呼び、
Figure 0006850678
と書く。すなわち、最適方策とは、先ほどの例を用いると、できるだけ少ない行動コストで状態コストの低い目的地に早く到達できる方策であり、直感的には、目的地に到達する最適な手順を表しているとみなせる。このように、基本遷移関数
Figure 0006850678
と報酬関数
Figure 0006850678
が既知の時に、最適方策
Figure 0006850678
を求める問題が、LMDPにおける順問題である。ユーザiの最適方策は、以下(4)式の最適性方程式を満たす価値関数
Figure 0006850678

Figure 0006850678
を求めることで、次の(6)式のように算出できる。なお、上記(4)式から(5)式への式展開は、上記非特許文献5を参照できる。また、価値関数は、各状態の目的地への到達しやすさを表す。価値関数の求め方は後述する。
Figure 0006850678
ただし、γは、割引率
Figure 0006850678
であり、将来に得る報酬をどれだけ減衰させて評価するかを定めるものである。ここで、上記(6)式により得られた最適方策の値を上記(1)式に代入することで、最適方策により行動を選択する場合の遷移確率は、以下(7)式で与えられることがわかる。
Figure 0006850678
したがって、価値関数
Figure 0006850678
が計算できれば、LMDPの順問題が解けることになる。
[価値関数計算アルゴリズム]
次に、価値関数を計算するアルゴリズムについて説明する。価値関数を計算するアルゴリズムは上記(5)式から導かれる。両辺の符号を変換したのち、指数をとると、以下の(8)式が求まる。
Figure 0006850678
ここで
Figure 0006850678
と定義すると、上記(8)式は、以下(9)式のようにベクトル表記できる。
Figure 0006850678
そして、以下(10)式に従い、
Figure 0006850678
と収束するまで更新することで、上記(9)式を満たす
Figure 0006850678
を求めることができる(上記非特許文献5を参照)。
Figure 0006850678
最後に
Figure 0006850678
の定義より、
Figure 0006850678
と変換することで、価値関数
Figure 0006850678
が求まる。各ユーザiについて以上の手続きを繰り返すことで、各ユーザiの価値関数vの集合を表す価値関数Vが求まる。以上がLMDPの順問題の解法である。なお、ユーザ数I=1であれば、上記の手続きは、上記非特許文献5による価値関数計算方法と同等であり、計算方法に本質的な違いは存在しない。
[逆問題の解法]
次に、上記非特許文献6を参照して、LMDPの逆問題を説明する。LMDPの逆問題は、人、ロボットの遷移の系列と基本遷移関数とを入力とし、報酬関数を推定する問題、として定式化される。逆問題における解法の鍵は、人、ロボットの遷移が上記(7)式の最適方策による遷移確率にしたがって得られているとみなすことにある。ユーザiの遷移履歴データ
Figure 0006850678
を(遷移前の状態、遷移後の状態)という1ステップの遷移の履歴の集合で表現し、
Figure 0006850678
を状態jが遷移前の状態として現れた回数とし、
Figure 0006850678
を状態jが遷移後の状態として現れた回数とする。ユーザiの価値関数
Figure 0006850678
を未知のパラメタとみなすと、上記(7)式から、負の対数尤度関数
Figure 0006850678
を最小化する
Figure 0006850678
が、入力の遷移の履歴
Figure 0006850678
を生成する確率の最も高い最尤推定量
Figure 0006850678
となる。
Figure 0006850678
上記の尤度関数の最小化には、最急降下法やニュートン法など任意の方法が適用できる。上記(5)式に最尤推定量
Figure 0006850678
を代入すれば、報酬関数は、次の(12)式により求めることができる。
Figure 0006850678
以上がLMDPの逆問題の解法である。上記のアプローチでは、ユーザiの推定にはユーザiの遷移履歴データ
Figure 0006850678
のみを利用して推定を行っている。また、基本遷移確率
Figure 0006850678
は、既知であるとした。
<本発明の実施形態に係る概要>
本実施形態に係る手法は、ユーザ毎に報酬関数が存在する状況において、各ユーザ毎の報酬関数と基本遷移確率とを動的に推定することを可能とする新しい手法である。本実施形態に係るパラメタ推定の定式化の方法は、最尤推定や変分ベイズ推定等の多様な方法が存在する。以下では、一例として、上記非特許文献7、8等に記載されている変分ベイズ推定法に基づくオンラインアルゴリズムについて示す。但し、最尤推定法などに基づくアルゴリズムも、以下に示すアルゴリズム導出の手続きから容易に類推して導出可能である。まず、コストが静的な場合のアルゴリズムを示した後、コストが動的な場合のアルゴリズムを示す。
変分ベイズ推定法では、推定するパラメタの確率分布を推定する。総ユーザ数をI、あるユーザiの潜在的な特徴量を表す特徴ベクトルを、
Figure 0006850678
と書く。同様に、総場所数をJ、ある場所jの潜在的な特徴量を表す特徴ベクトルを、
Figure 0006850678
Figure 0006850678
と書く。Rは上記特徴ベクトルの次元を表す。R<<I,Jを満たす。
上記の特徴ベクトルを各行にもつ行列を、
Figure 0006850678
と書き、それぞれユーザ特徴行列、状態特徴行列と呼ぶ。これらの行列が推定対象となるパラメタA、B(以下、個別にユーザパラメタA、場所パラメタBともいう。)である。
ユーザiの場所jにおける価値関数の値が、
Figure 0006850678
として、上記2つの特徴ベクトルの積として表現されると仮定し、あるユーザ特徴行列、状態特徴行列が与えられた場合に、全ユーザの移動履歴を表すデータ
Figure 0006850678
を生成する確率は、上記(7)式より、
Figure 0006850678
と書ける。ただし、
Figure 0006850678
は、ユーザiが場所jから場所kへ遷移した回数を表す。
また、以後の記述で、
Figure 0006850678
のように、添え字の一部をドット記号で記述されている場合には, その添え字に関しては和をとった値を表すこととする。すなわち、
Figure 0006850678
である。また、記述の簡便性のため、 基本遷移確率を
Figure 0006850678
と定義しなおした。また、ユーザパラメタA及び場所パラメタBの各々の事前分布は、正規分布で与えられるとし、以下の式で定義する。
Figure 0006850678
ただし、α、αは、ハイパーパラメタである。これらより、観測データとパラメタの同時確率は、次の式のように書き下せる。
Figure 0006850678
前述したように、変分ベイズ推定法による学習では、ユーザパラメタA及び場所パラメタBの各々の分布を推定する。以後、ユーザパラメタA及び場所パラメタBの各々の分布を
Figure 0006850678
とする。このパラメタ分布を
Figure 0006850678
のように、分解できるという条件のもと、目的関数
Figure 0006850678
を最小化することで求める方法が変分ベイズ推定法である。なお、関数hは、任意の対数尤度関数の下界となる関数を示し、ここでは以下の定義を利用する(この関数が下界であることの証明は省略する)。
Figure 0006850678
Figure 0006850678
は、補助変数であり、これらの補助変数も最適化の対象とされる。また、
Figure 0006850678
と定義した。σ( )は、シグモイド関数を表す。変分ヘイズ推定法による解析から、
Figure 0006850678
が最小となるとき、行列A、Bの分布は正規分布であり、その平均と分散のパラメタは、以下の式を満たすことが示される。なお、平均がμ、分散がΣとする。
Figure 0006850678
なお、上記(16)〜(19)式において、
Figure 0006850678
は、
Figure 0006850678
であり、
Figure 0006850678
は、
Figure 0006850678
である。また、上記(16)、(18)式において、上付きのTは転置を示す。
これらの式に基づいて、「各分布のパラメタを他の分布のパラメタを固定したもとで更新する」ことを何度も繰り返すことで、パラメタ分布を得ることができる。このアルゴリムが静的なコストの場合における変分ベイズアルゴリズムである。なお、補助変数も上記繰り返し手続きの途中に下記の更新を実行することで最適化することができる。
Figure 0006850678
ただし、
Figure 0006850678
である。なお、|Ω|は、状態jから1ステップで移動可能な状態の数を表す。上記のアルゴリズムに基づいて、遷移履歴データが逐次的に到着し、動的にコストが変化する状況のアルゴリズムを導く。
ここでは特に、動的に場所のコストが変化し、一例として、逐次的に新たなユーザの移動に関する遷移履歴データが到着する状況を考える。すなわち、過去のユーザの移動を表現していた場所パラメタB(場所の特徴ベクトル)と、現在の場所における場所パラメタBは等しくないという状況である。したがって、過去のデータよりもより現在のデータをより重視する、という方針のもとアルゴリズムを設計する。以下にアルゴリズムの手続きを示す。なお、ここでいう新たなユーザとは、総ユーザ数Iに含まれない新たなユーザを想定しているが、過去のユーザを対象としても同様である。
新たなユーザtの遷移履歴データから、ユーザtが場所jから場所kへ遷移した回数を示すデータ
Figure 0006850678
が得られたとする。そして、これまでに推定されている場所の場所パラメタBに基づいて、ユーザtの特徴ベクトルaと関連する補助変数
Figure 0006850678
を推定する。これらの補助変数に基づいて、場所パラメタBに関する平均及び分散のパラメタの値を、上記式(18)、(19)式のうち過去のユーザに関する項を減衰させたうえで、ユーザtに関する項を加えることで更新する。具体的な平均及び分散のパラメタの更新式を以下に示す。
Figure 0006850678
このような手続きによって、状態特徴行列Bに関する平均及び分散のパラメタは、過去のデータを忘却しながら、現在のデータに追随するよう推定されていくようになる。なお、このようにして推定した平均及び分散のパラメタを用いれば、ユーザtの場所jに関する価値関数の推定値は、
Figure 0006850678
であるから、報酬関数を求める上記(12)式の記号
Figure 0006850678
を、記号
Figure 0006850678
で置き換えて、
Figure 0006850678
と計算することで、ユーザtの場所jにおける報酬関数の推定値
Figure 0006850678
が得られる。上記が本実施形態に係るアルゴリズムである。
<本発明の実施形態に係る動的潜在コスト推定装置の構成>
図2は、本実施形態に係る動的潜在コスト推定装置90の構成の一例を示すブロック図である。
図2に示すように、本実施形態に係る動的潜在コスト推定装置90は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及びHDD(Hard Disk Drive)等を備えたコンピュータとして構成される。ROMには、本実施形態に係る動的潜在コスト推定プログラムが記憶されている。なお、動的潜在コスト推定プログラムは、HDDに記憶されていてもよい。
上記の動的潜在コスト推定プログラムは、例えば、動的潜在コスト推定装置90に予めインストールされていてもよい。この動的潜在コスト推定プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、動的潜在コスト推定装置90に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が挙げられる。
CPUは、ROMに記憶されている動的潜在コスト推定プログラムを読み込んで実行することにより、グラフ重み処理部10、状態特徴行列処理部20、遷移履歴処理部30、パラメタ推定部40、報酬関数計算部50、及び報酬関数処理部60として機能する。また、HDDは、記録部70として機能する。記録部70は、グラフ重み記録部71、状態特徴行列記録部72、遷移履歴記録部73、ユーザ特徴行列記録部74、及び報酬関数記録部75を含む。
動的潜在コスト推定装置90は、入出力部80を備える。入出力部80は、外部装置92から出力された、状態間の基本遷移確率の負の対数として定義される
Figure 0006850678
の集合を表すグラフ重みデータ
Figure 0006850678
及びハイパーパラメタα、αの入力を受け付ける。
グラフ重み処理部10は、入出力部80により入力を受け付けたグラフ重みデータ
Figure 0006850678
及びハイパーパラメタα、αをグラフ重み記録部71に格納する。
また、入出力部80は、外部装置92から出力された、状態特徴行列Bの分布パラメタ
Figure 0006850678
の初期値の入力を受け付ける。
状態特徴行列処理部20は、入出力部80により入力を受け付けた状態特徴行列Bの分布パラメタ
Figure 0006850678
の初期値を状態特徴行列記録部72に格納する。
また、入出力部80は、外部装置92から出力された、推定対象とされる、新たなユーザtの遷移履歴データ
Figure 0006850678
の入力を受け付ける。
遷移履歴処理部30は、入出力部80により入力を受け付けたユーザtの遷移履歴データ
Figure 0006850678
を遷移履歴記録部73に格納する。本実施の形態では、新たなユーザtについての遷移履歴データが到着する毎に、到着した遷移履歴データが遷移履歴記録部73に格納される。
パラメタ推定部40は、グラフ重み記録部71に格納されたグラフ重みデータ
Figure 0006850678
及びハイパーパラメタα、α、状態特徴行列記録部72に格納された状態特徴行列Bの分布パラメタ
Figure 0006850678
の初期値、及び遷移履歴記録部73に格納されたユーザtの遷移履歴データ
Figure 0006850678
を入力とし、上記(14)式に示す目的関数を最適化するように、ユーザtの潜在的な特徴量を表す特徴ベクトルa(以下、ユーザ特徴ベクトルa)の分布を表す分布パラメタ
Figure 0006850678
と、ユーザ特徴ベクトルaと関連する補助変数
Figure 0006850678
と、状態特徴行列Bの分布を表す分布パラメタ
Figure 0006850678
と、を推定する。本実施形態では、目的関数を最小化することで、最適化しているが、利用する目的関数の種類によっては、目的関数を最大化することで、最適化してもよい。なお、上記では、ユーザtのユーザ特徴ベクトルa及び状態特徴行列Bを用いて、ユーザtの各場所の価値関数が表現されると仮定する。また、上記目的関数は、状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率(上記(7)式)、上記遷移履歴データから得られる状態間の遷移回数、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタを用いて表される。本実施形態に係るパラメタ推定部40は、上記目的関数を最小化することにより、ユーザtのユーザ特徴ベクトルaの分布パラメタ
Figure 0006850678
及びユーザ特徴ベクトルaと関連する補助変数
Figure 0006850678
を推定し、推定した分布パラメタ
Figure 0006850678
及び補助変数
Figure 0006850678
をユーザ特徴行列記録部74に格納する。
具体的には、パラメタ推定部40は、予め定められた反復終了条件を満たすまで、上記(14)式で示される目的関数を最小化するように、ユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数を更新することを繰り返すことにより、ユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数を推定する。一例として、変分ベイズ推定法により上記(14)式で示される目的関数が最小となるとき、ユーザ特徴行列A及び状態特徴行列Bの各々は正規分布となり、パラメタ推定部40は、ユーザ特徴ベクトルaの分布パラメタ
Figure 0006850678
を、上記(16)、(17)式に従って更新する。そして、パラメタ推定部40は、更新前と更新後の平均パラメタ
Figure 0006850678
の差の絶対値の最大値
Figure 0006850678
が、平均パラメタの更新量の最大変化幅を示す変数δ1より大きい場合に、変数δ1を上記最大値に更新する。但し、更新前の平均パラメタの値を
Figure 0006850678
、更新後の値を
Figure 0006850678
と記述した。
また、パラメタ推定部40は、ユーザ特徴ベクトルaと関連する補助変数
Figure 0006850678
を、上記(20)、(21)式に従って更新する。そして、パラメタ推定部40は、更新前と更新後の値の差の絶対値の最大値
Figure 0006850678
が、値の更新量の最大変化幅を示す変数δ2より大きい場合に、変数δ2を上記最大値に更新する。この変数δ2は、上記変数δ1と同じでもよいし、異なっていてもよい。以下では、説明を簡単にするため、δ1=δ2として、単に変数δと記述する。但し、更新前の補助変数
Figure 0006850678
の要素を
Figure 0006850678
、更新後の要素を
Figure 0006850678
と記述した。同様に、更新前の補助変数
Figure 0006850678
の要素を
Figure 0006850678
、更新後の要素を
Figure 0006850678
と記述した。
パラメタ推定部40は、変数δが予め定められた閾値εより小さい場合に、ユーザ特徴ベクトルaの分布パラメタ及び補助変数の更新を終了する。また、パラメタ推定部40は、ユーザ特徴ベクトルaの分布パラメタ及び補助変数の更新を繰り返し、繰り返し回数をカウントする。この場合、パラメタ推定部40は、カウントした繰り返し回数が予め定められた最大繰り返し回数を超える場合に、ユーザ特徴ベクトルaの分布パラメタ及び補助変数の更新を終了してもよい。
そして、パラメタ推定部40は、ユーザ特徴行列記録部74に格納された、更新後のユーザtについてのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数に基づいて、上記(22)、(23)式に従って、状態特徴行列Bの分布パラメタ
Figure 0006850678
を更新することにより、状態特徴行列Bの分布パラメタを推定し、推定した状態特徴行列Bの分布パラメタ
Figure 0006850678
を状態特徴行列記録部72に格納する。
報酬関数計算部50は、状態特徴行列記録部72に格納された状態特徴行列Bの分布パラメタ
Figure 0006850678
、及び、ユーザ特徴行列記録部74に格納されたユーザtについてのユーザ特徴ベクトルaの分布パラメタ
Figure 0006850678
に基づいて、ユーザtについての場所jの目的地への到達し易さを表す価値関数
Figure 0006850678
を推定し、推定した価値関数、及び状態間の基本遷移確率(グラフ重みデータW)を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、上記(24)式を用いて、ユーザtについての場所jの目的地らしさを表す報酬関数
Figure 0006850678
を計算し、報酬関数記録部75に格納する。
報酬関数処理部60は、報酬関数記録部75に格納された報酬関数
Figure 0006850678
を、入出力部80を介して外部装置92に出力する。
なお、本実施形態では、上記遷移履歴データがユーザ毎に入力される場合について説明したが、上記遷移履歴データが時間帯毎に入力される場合についても同様に適用することができる。この場合、ユーザtを、時間帯tに置き換えればよい。つまり、パラメタ推定部40は、時間帯tについての特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタを推定する。報酬関数計算部50は、パラメタ推定部40により推定された、時間帯tについての特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタに基づいて、時間帯tについての各状態の報酬関数を計算する。
<本発明の実施形態に係る動的潜在コスト推定装置の作用>
次に、図3を参照して、本実施形態に係る動的潜在コスト推定装置90の作用について説明する。なお、図3は、本実施形態に係る動的潜在コスト推定プログラムの処理の流れの一例を示すフローチャートである。
まず、図3のステップ100では、グラフ重み処理部10が、外部装置92から入出力部80を介してグラフ重みデータW及びハイパーパラメタα、αの入力を受け付け、グラフ重み記録部71に格納する。一方、状態特徴行列処理部20は、外部装置92から入出力部80を介して状態特徴行列Bの分布パラメタの初期値の入力を受け付け、状態特徴行列記録部72に格納する。
ステップ102では、遷移履歴処理部30が、外部装置92から入出力部80を介してユーザtの遷移履歴データDの到着を受け付けたか否かを判定する。ユーザtの遷移履歴データDの到着を受け付けたと判定した場合(肯定判定の場合)、ユーザtの遷移履歴データDを遷移履歴記録部73に格納し、ステップ104に移行する。一方、ユーザtの遷移履歴データDの到着を受け付けていないと判定した場合(否定判定の場合)、ステップ102で待機となる。
ステップ104では、パラメタ推定部40が、グラフ重み記録部71に格納されたグラフ重みデータW、ハイパーパラメタα、α、状態特徴行列記録部72に格納された状態特徴行列Bの分布パラメタの初期値、及び遷移履歴記録部73に格納されたユーザtの遷移履歴データDに基づいて、上記(14)式に示す目的関数を最小化することで、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタを推定する。具体的には、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタの更新処理として、図4に示すサブルーチンが実行される。
図4は、本実施形態に係る動的潜在コスト推定プログラムのサブルーチンの処理の流れの一例を示すフローチャートである。
まず、図4のステップ200では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルa、及びユーザ特徴ベクトルaと関連する補助変数η、ξを初期化する。
ステップ202では、パラメタ推定部40が、終了条件に用いる変数δを初期化する。そして、パラメタ推定部40は、終了条件となる閾値ε、及び最大繰り返し回数を設定する。
ステップ204では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルaの分布パラメタを、上記(16)、(17)式に従って更新する。このとき、更新前と更新後の平均パラメタの差の絶対値の最大値
Figure 0006850678
が変数δより大きい場合、変数δを上記最大値に更新する。
ステップ206では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルaと関連する補助変数η、ξを、上記(20)、(21)式に従って更新する。このとき、更新前と更新後の値の差の絶対値の最大値
Figure 0006850678
が変数δより大きい場合、変数δを上記最大値に更新する。
ステップ208では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数η、ξの繰り返し回数をカウントアップする。
ステップ210では、パラメタ推定部40が、終了条件を満たしているか否かを判定する。終了条件を満たしていると判定した場合(肯定判定の場合)、更新したユーザtのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数η、ξをユーザ特徴行列記録部74に格納し、ステップ212に移行する。一方、終了条件を満たしていないと判定した場合(否定判定の場合)、ステップ214に移行し、変数δ←0として、ステップ204に戻り処理を繰り返す。なお、ここでいう終了条件としては、上述したように、繰り返し回数が最大繰り返し回数を超えた場合、又は、変数δが閾値εより小さい場合に、終了と判定される。
ステップ212では、パラメタ推定部40が、状態特徴行列Bの分布パラメタを、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数η、ξに基づいて、上記(22)、(23)式に従って更新し、図3のステップ106に移行する。
次に、図3に戻り、ステップ106では、報酬関数計算部50が、グラフ重みデータW、ハイパーパラメタα、α、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタに基づいて、上記(24)式を用いて、ユーザtについての報酬関数を計算し、計算した報酬関数を報酬関数記録部75に格納する。そして、報酬関数処理部60は、報酬関数記録部75に格納された報酬関数を、入出力部80を介して外部装置92に出力する。
なお、上記では、各因子行列A、Bの更新式として、一例として変分ベイズ推定法に基づいて導出した式を利用しているが、上記(13)式で表されるモデルのパラメタを推定する他のいかなる方法を用いても良い。
本実施形態によれば、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。
以上、実施形態として動的潜在コスト推定装置を例示して説明した。実施形態は、コンピュータを、動的潜在コスト推定装置が備える各部として機能させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明した動的潜在コスト推定装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 グラフ重み処理部
20 状態特徴行列処理部
30 遷移履歴処理部
40 パラメタ推定部
50 報酬関数計算部
60 報酬関数処理部
70 記録部
71 グラフ重み記録部
72 状態特徴行列記録部
73 遷移履歴記録部
74 ユーザ特徴行列記録部
75 報酬関数記録部
80 入出力部
90 動的潜在コスト推定装置
92 外部装置

Claims (3)

  1. ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するパラメタ推定部と、
    前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、
    を含み、
    前記目的関数をF (q,η,ξ)(〜はFの直上)、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルをA、特徴ベクトルAの分布パラメタをq(A)、前記状態特徴行列をB、状態特徴行列Bの分布パラメタをq(B)、前記グラフ重みデータをw、前記補助変数をη及びξ、特徴ベクトルAの事前分布を表すP(A)と状態特徴行列Bの事前分布を表すP(B)との積をP(A,B)とした場合に、前記目的関数F (q,η,ξ)は、


    Figure 0006850678

    により表され、但し、h(・)は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、
    前記報酬関数をr tj (−はrの直上)、前記価値関数の推定値をv tj 及びv tk (−はvの直上)、前記基本遷移確率をp jk (−はpの直上)、0以上1未満の定数である割引率をγとした場合に、前記報酬関数r tj は、


    Figure 0006850678

    により表され、
    前記遷移確率をp ijk (a ij )、前記行動をa ij 、前記最適方策をa ijk 、前記基本遷移確率をp jk 、前記割引率をγ、前記価値関数をv ij 及びv ik とした場合に、前記遷移確率p ijk (a ij )は、


    Figure 0006850678

    により表される
    動的潜在コスト推定装置。
  2. パラメタ推定部及び報酬関数計算部を含む動的潜在コスト推定装置が実行する動的潜在コスト推定方法であって、
    前記パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するステップと、
    前記報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算するステップと、
    を含み、
    前記目的関数をF (q,η,ξ)(〜はFの直上)、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルをA、特徴ベクトルAの分布パラメタをq(A)、前記状態特徴行列をB、状態特徴行列Bの分布パラメタをq(B)、前記グラフ重みデータをw、前記補助変数をη及びξ、特徴ベクトルAの事前分布を表すP(A)と状態特徴行列Bの事前分布を表すP(B)との積をP(A,B)とした場合に、前記目的関数F (q,η,ξ)は、


    Figure 0006850678

    により表され、但し、h(・)は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、
    前記報酬関数をr tj (−はrの直上)、前記価値関数の推定値をv tj 及びv tk (−はvの直上)、前記基本遷移確率をp jk (−はpの直上)、0以上1未満の定数である割引率をγとした場合に、前記報酬関数r tj は、


    Figure 0006850678

    により表され、
    前記遷移確率をp ijk (a ij )、前記行動をa ij 、前記最適方策をa ijk 、前記基本遷移確率をp jk 、前記割引率をγ、前記価値関数をv ij 及びv ik とした場合に、前記遷移確率p ijk (a ij )は、


    Figure 0006850678

    により表される
    動的潜在コスト推定方法。
  3. コンピュータを、請求項1に記載の動的潜在コスト推定装置の各部として機能させるためのプログラム。
JP2017101266A 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム Active JP6850678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017101266A JP6850678B2 (ja) 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017101266A JP6850678B2 (ja) 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018197653A JP2018197653A (ja) 2018-12-13
JP6850678B2 true JP6850678B2 (ja) 2021-03-31

Family

ID=64663787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017101266A Active JP6850678B2 (ja) 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6850678B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509326B (zh) * 2020-12-02 2021-12-10 北京航空航天大学 一种基于广义极值t分布偏差的非周期拥堵检测方法
CN116957172B (zh) * 2023-09-21 2024-01-16 山东大学 基于深度强化学习的动态作业车间调度优化方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2487701B (en) * 2009-12-18 2013-01-16 Ibm Cost evaluation system, method and program
EP3178040A4 (en) * 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverse reinforcement learning by density ratio estimation

Also Published As

Publication number Publication date
JP2018197653A (ja) 2018-12-13

Similar Documents

Publication Publication Date Title
Lintusaari et al. Fundamentals and recent developments in approximate Bayesian computation
Klinkenberg Learning drifting concepts: Example selection vs. example weighting
US7660705B1 (en) Bayesian approach for learning regression decision graph models and regression models for time series analysis
US8533224B2 (en) Assessing accuracy of trained predictive models
Sirignano et al. Stochastic gradient descent in continuous time
US20120284212A1 (en) Predictive Analytical Modeling Accuracy Assessment
JP6464075B2 (ja) What−ifシミュレーション装置、方法、及びプログラム
JP6749282B2 (ja) 人流量予測装置、人流量予測方法、及び人流量予測プログラム
Kocadağlı A novel hybrid learning algorithm for full Bayesian approach of artificial neural networks
WO2013086186A2 (en) Particle methods for nonlinear control
JP6850678B2 (ja) 動的潜在コスト推定装置、方法、及びプログラム
Wu et al. Causal artificial neural network and its applications in engineering design
JP7378836B2 (ja) 総和確率的勾配推定方法、装置、およびコンピュータプログラム
JP6665071B2 (ja) 人流量予測装置、人流量予測方法、及び人流量予測プログラム
JP6853968B2 (ja) パラメータ推定システム、パラメータ推定方法およびパラメータ推定プログラム
Verstraete et al. Consistent iterative algorithm for stochastic dynamic traffic assignment with a stable route set
AU2020326407B2 (en) Extending finite rank deep kernel learning to forecasting over long time horizons
JP2019095895A (ja) 人流量予測装置、方法、及びプログラム
JP2014115685A (ja) プロファイル解析装置及び方法及びプログラム
JP6190771B2 (ja) パラメータ推定方法、装置、及びプログラム
JP6789176B2 (ja) 潜在コスト推定装置、方法、及びプログラム
JP6757280B2 (ja) パラメータ出力装置、パラメータ出力方法及びプログラム
JP2017027509A (ja) 予測モデル構築装置
JP2020009314A (ja) データ解析装置、方法、及びプログラム
Randhawa et al. Combining importance sampling and temporal difference control variates to simulate Markov chains

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210308

R150 Certificate of patent or registration of utility model

Ref document number: 6850678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150