JP6850678B2

JP6850678B2 - 動的潜在コスト推定装置、方法、及びプログラム

Info

Publication number: JP6850678B2
Application number: JP2017101266A
Authority: JP
Inventors: 匡宏幸島; 達史松林; 浩之戸田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2021-03-31
Anticipated expiration: 2037-05-22
Also published as: JP2018197653A

Description

本発明は、動的潜在コスト推定装置、方法、及びプログラムに係り、特に、人の移動経路における動的な潜在コストを推定する動的潜在コスト推定装置、方法、及びプログラムに関する。

近年、人の移動経路の選択をモデリングする手法として、逆強化学習（ＩＲＬ：Inverse Reinforcement Learning）と呼ばれる手法が利用されている（例えば、非特許文献１、２を参照）。ＩＲＬでは、人の移動の際に通る道や場所に潜在的なコストが存在し、人は経路全体で支払うコストの和が小さい経路をより高い確率で選択しやすくなると仮定してモデル化される。

上記の仮定に基づいて、ＩＲＬでは、その人の過去の移動履歴から、その人にとっての各道や場所における潜在的なコストを推定する。例えば、非特許文献２に記載されているように、あるタクシー運転手の移動履歴を入力とすることで、その運転手における各道のコストを推定し、運転手の好む、コストの低い道路特性、例えば、整備されている道路を好むか、カーブのゆるやかな道路を好むか等を知ることができる。また、この運転手がある目的地に至るまでに選択しやすい経路がどれであるかを見つけることができる。ほかにもロボット制御、自然言語処理における特筆すべき成功例も存在する（例えば、非特許文献３、４を参照）。

AndrewY Ng and Stuart Russell. Algorithms for inverse reinforcement learning. In in Proc. 17th International Conf. on Machine Learning, 2000. BrianD Ziebart, AndrewL Maas, JAndrew Bagnell, and AnindK Dey. Maximum entropy inverse reinforcement learning. In AAAI, pages 1433-1438, 2008. Pieter Abbeel and AndrewY Ng. Apprenticeship learning via inverse reinforcement learning. In Proceedings of the twenty-first international conference on Machine learning, page1. ACM, 2004. Gergely Neu and Csaba Szepesv_ari. Training parsers by inverse reinforcement learning. Machine learning, 77(2-3):303-337, 2009. Emanuel Todorov. Linearly-solvable markov decision problems. In Advances in neural information processing systems, pages 1369-1376, 2006. Krishnamurthy Dvijotham and Emanuel Todorov. Inverse optimal control with linearly-solvable mdps. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 335-342, 2010. Masa-Aki Sato. Online model selection based on the variational bayes. Neural Computation, 13(7):1649-1681, 2001. Matthew Hoffman, FrancisR Bach, and DavidM Blei. Online learning for latent dirichlet allocation. In advances in neural information processing systems, pages 856-864, 2010.

既存のＩＲＬ手法では、各道や場所における潜在的なコストは固定された静的なものとして定義されている。しかしながら、このことは現実に即さない場合がある。例えば、突発的な事故によってある特定の道が通行不能になるという状況や、混雑によってある特定の道の通過に非常に長い時間を要するという状況が存在する。このような状況では、人はその道路を避けた経路を選択する確率が高まると想定できるが、これは事故の時点から一定期間または渋滞発生中の期間、その道路におけるコストが通常時よりも大きい値になることに相当する。

従って、各道や場所における潜在的なコストを固定ではなく、動的に変化すると考えるほうが望ましい場合があるが、既存のＩＲＬ手法では、このような動的な潜在コストを推定することができない。

本発明は、上記の事情に鑑みてなされたもので、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる動的潜在コスト推定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る動的潜在コスト推定装置は、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザｔ又は時間帯ｔの各状態の価値関数が表現されると仮定して、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最小化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するパラメタ推定部と、前記パラメタ推定部によって推定された、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザｔ又は時間帯ｔについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザｔ又は時間帯ｔについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、を含み、前記目的関数をＦ ^〜（ｑ，η，ξ）（〜はＦの直上）、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルをＡ、特徴ベクトルＡの分布パラメタをｑ（Ａ）、前記状態特徴行列をＢ、状態特徴行列Ｂの分布パラメタをｑ（Ｂ）、前記グラフ重みデータをｗ、前記補助変数をη及びξ、特徴ベクトルＡの事前分布を表すＰ（Ａ）と状態特徴行列Ｂの事前分布を表すＰ（Ｂ）との積をＰ（Ａ，Ｂ）とした場合に、前記目的関数Ｆ ^〜（ｑ，η，ξ）は、

により表され、但し、ｈ（・）は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、前記報酬関数をｒ ⁻ _ｔｊ（−はｒの直上）、前記価値関数の推定値をｖ ⁻ _ｔｊ及びｖ ⁻ _ｔｋ（−はｖの直上）、前記基本遷移確率をｐ ⁻ _ｊｋ（−はｐの直上）、０以上１未満の定数である割引率をγとした場合に、前記報酬関数ｒ ⁻ _ｔｊは、

により表され、前記遷移確率をｐ _ｉｊｋ（ａ ^＊ _ｉｊ）、前記行動をａ ^＊ _ｉｊ、前記最適方策をａ ^＊ _ｉｊｋ、前記基本遷移確率をｐ ⁻ _ｊｋ、前記割引率をγ、前記価値関数をｖ _ｉｊ及びｖ _ｉｋとした場合に、前記遷移確率ｐ _ｉｊｋ（ａ ^＊ _ｉｊ）は、

により表されるものである。

第２の発明に係る動的潜在コスト推定方法は、パラメタ推定部及び報酬関数計算部を含む動的潜在コスト推定装置が実行する動的潜在コスト推定方法であって、前記パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザｔ又は時間帯ｔの各状態の価値関数が表現されると仮定して、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最小化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するステップと、前記報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザｔ又は時間帯ｔについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザｔ又は時間帯ｔについての各状態の目的地らしさを表す報酬関数を計算するステップと、を含み、前記目的関数をＦ ^〜（ｑ，η，ξ）（〜はＦの直上）、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルをＡ、特徴ベクトルＡの分布パラメタをｑ（Ａ）、前記状態特徴行列をＢ、状態特徴行列Ｂの分布パラメタをｑ（Ｂ）、前記グラフ重みデータをｗ、前記補助変数をη及びξ、特徴ベクトルＡの事前分布を表すＰ（Ａ）と状態特徴行列Ｂの事前分布を表すＰ（Ｂ）との積をＰ（Ａ，Ｂ）とした場合に、前記目的関数Ｆ ^〜（ｑ，η，ξ）は、

により表されるものである。

第３の発明に係るプログラムは、コンピュータを、第１の発明に係る動的潜在コスト推定装置が備える各部として機能させるためのプログラムである。

以上説明したように、本発明に係る動的潜在コスト推定装置、方法、及びプログラムによれば、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。

実施形態に係る線形可解マルコフ決定過程（ＬＭＤＰ）における状態集合、基本遷移関数、及び報酬関数の一例を示す模式図である。実施形態に係る動的潜在コスト推定装置の構成の一例を示すブロック図である。実施形態に係る動的潜在コスト推定プログラムの処理の流れの一例を示すフローチャートである。実施形態に係る動的潜在コスト推定プログラムのサブルーチンの処理の流れの一例を示すフローチャートである。

以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。

＜本発明の実施形態に係る原理＞

まず、本発明の実施形態における原理を、上記非特許文献５〜８を参考文献として提示しながら説明する。ここでは、本実施形態に係る構成及び作用の説明において用いる記号、アルゴリズムについて記述する。なお、本実施形態においては、ユーザ（人）毎に異なる行動の内部基準（後述する報酬関数に相当する）が存在する例を用いて説明するが、時間帯毎に異なる内部基準が存在する場合であっても同様に適用することができる。

［線形可解マルコフ決定過程（ＬＭＤＰ：Linearly-solvable Markov Decision Process）の定義］
まず、上記非特許文献５を参照して、線形可解マルコフ決定過程（ＬＭＤＰ）について説明する。線形可解マルコフ決定過程（ＬＭＤＰ）では、状態集合

、基本遷移関数

、報酬関数

が定義された環境を考える。本実施形態では、一例として、ユーザ毎に報酬関数が存在する場合について述べるため、上記の定義を、非特許文献５から若干変更する。ユーザ数をＩ、状態数をＪとする。状態集合を

、基本遷移関数をＪ×Ｊ行列

、報酬関数をＩ×Ｊ行列

と定義する。非特許文献５に記載の定義では、上記定義においてユーザ数Ｉ＝１であり、報酬関数がＪ列ベクトルで与えられる場合を考えていることに相当する。上記３つ組

の具体例を図１に示す。なお、図１は、本実施形態に係る線形可解マルコフ決定過程（ＬＭＤＰ）における状態集合、基本遷移関数、及び報酬関数の一例を示す模式図である。図１中の各グリッドが、状態集合

中のいずれかの状態ｓ_ｊに対応し、各グリッド間の“基本的な”遷移の確率（基本遷移確率）が基本遷移関数

で決められている。“基本的な”と注釈をつけたのは、ＬＭＤＰでは行動

を実行し、行動コストを支払うことで、この遷移の確率を変更することが許されているからである。具体的には、行動

を実行することで、状態ｊから状態ｋへの遷移の確率を

から

へ変更することができる。

ａ_ｊの値が大きければ大きいほど、状態ｊへの遷移の確率を増加できることがわかる。ただし、

の値は確率の和が１となることを満たすもの、すなわち

を満たすものに限られる。

また、上記のように状態ｊで行動

を実行することにより発生するコスト

は、確率分布の類似度を図る尺度であるＫＬ（カルバックライブラーダイバージェンス）距離を用いて以下（３）式のように定義される。ＫＬ距離は、値が小さいほど類似していることを表し、一致すれば０となる。

つまり、上記（３）式においては遷移の確率を

から変化させればさせるほど、支払うコストが多くなる。上記の行動コストとは別に、ユーザと状態のみに依存した状態コストを表すのが、報酬関数

である。上記図１の例で示すように、この報酬関数の値ｒ_ｉｊは、例えば、“ユーザｉにとっての状態ｊの目的地らしさ”に対応した値などに対応し、値が小さいほど目的地らしいといえる。さらに、各状態ｓ_ｊにおいて実行する行動

を定めたものを方策

と呼ぶこととする。

方策πにしたがって行動するユーザｉを考えると、上記（１）式にしたがって確率的に状態間を遷移し、遷移する度に行動コストと状態コストとの和

を支払う動きがモデリングできる。状態遷移を十分な回数繰り返した際に、遷移の過程で支払ったコスト（行動コストと状態コストとの和）の累積和の期待値が最小になるような方策を最適方策と呼び、

と書く。すなわち、最適方策とは、先ほどの例を用いると、できるだけ少ない行動コストで状態コストの低い目的地に早く到達できる方策であり、直感的には、目的地に到達する最適な手順を表しているとみなせる。このように、基本遷移関数

と報酬関数

が既知の時に、最適方策

を求める問題が、ＬＭＤＰにおける順問題である。ユーザｉの最適方策は、以下（４）式の最適性方程式を満たす価値関数

を求めることで、次の（６）式のように算出できる。なお、上記（４）式から（５）式への式展開は、上記非特許文献５を参照できる。また、価値関数は、各状態の目的地への到達しやすさを表す。価値関数の求め方は後述する。

ただし、γは、割引率

であり、将来に得る報酬をどれだけ減衰させて評価するかを定めるものである。ここで、上記（６）式により得られた最適方策の値を上記（１）式に代入することで、最適方策により行動を選択する場合の遷移確率は、以下（７）式で与えられることがわかる。

したがって、価値関数

が計算できれば、ＬＭＤＰの順問題が解けることになる。

［価値関数計算アルゴリズム］
次に、価値関数を計算するアルゴリズムについて説明する。価値関数を計算するアルゴリズムは上記（５）式から導かれる。両辺の符号を変換したのち、指数をとると、以下の（８）式が求まる。

ここで

と定義すると、上記（８）式は、以下（９）式のようにベクトル表記できる。

そして、以下（１０）式に従い、

と収束するまで更新することで、上記（９）式を満たす

を求めることができる（上記非特許文献５を参照）。

最後に

の定義より、

と変換することで、価値関数

が求まる。各ユーザｉについて以上の手続きを繰り返すことで、各ユーザｉの価値関数ｖの集合を表す価値関数Ｖが求まる。以上がＬＭＤＰの順問題の解法である。なお、ユーザ数Ｉ＝１であれば、上記の手続きは、上記非特許文献５による価値関数計算方法と同等であり、計算方法に本質的な違いは存在しない。

［逆問題の解法］
次に、上記非特許文献６を参照して、ＬＭＤＰの逆問題を説明する。ＬＭＤＰの逆問題は、人、ロボットの遷移の系列と基本遷移関数とを入力とし、報酬関数を推定する問題、として定式化される。逆問題における解法の鍵は、人、ロボットの遷移が上記（７）式の最適方策による遷移確率にしたがって得られているとみなすことにある。ユーザｉの遷移履歴データ

を（遷移前の状態、遷移後の状態）という１ステップの遷移の履歴の集合で表現し、

を状態ｊが遷移前の状態として現れた回数とし、

を状態ｊが遷移後の状態として現れた回数とする。ユーザｉの価値関数

を未知のパラメタとみなすと、上記（７）式から、負の対数尤度関数

を最小化する

が、入力の遷移の履歴

を生成する確率の最も高い最尤推定量

となる。

上記の尤度関数の最小化には、最急降下法やニュートン法など任意の方法が適用できる。上記（５）式に最尤推定量

を代入すれば、報酬関数は、次の（１２）式により求めることができる。

以上がＬＭＤＰの逆問題の解法である。上記のアプローチでは、ユーザｉの推定にはユーザｉの遷移履歴データ

のみを利用して推定を行っている。また、基本遷移確率

は、既知であるとした。

＜本発明の実施形態に係る概要＞

本実施形態に係る手法は、ユーザ毎に報酬関数が存在する状況において、各ユーザ毎の報酬関数と基本遷移確率とを動的に推定することを可能とする新しい手法である。本実施形態に係るパラメタ推定の定式化の方法は、最尤推定や変分ベイズ推定等の多様な方法が存在する。以下では、一例として、上記非特許文献７、８等に記載されている変分ベイズ推定法に基づくオンラインアルゴリズムについて示す。但し、最尤推定法などに基づくアルゴリズムも、以下に示すアルゴリズム導出の手続きから容易に類推して導出可能である。まず、コストが静的な場合のアルゴリズムを示した後、コストが動的な場合のアルゴリズムを示す。

変分ベイズ推定法では、推定するパラメタの確率分布を推定する。総ユーザ数をＩ、あるユーザｉの潜在的な特徴量を表す特徴ベクトルを、

と書く。同様に、総場所数をＪ、ある場所ｊの潜在的な特徴量を表す特徴ベクトルを、

と書く。Ｒは上記特徴ベクトルの次元を表す。Ｒ＜＜Ｉ，Ｊを満たす。

上記の特徴ベクトルを各行にもつ行列を、

と書き、それぞれユーザ特徴行列、状態特徴行列と呼ぶ。これらの行列が推定対象となるパラメタＡ、Ｂ（以下、個別にユーザパラメタＡ、場所パラメタＢともいう。）である。

ユーザｉの場所ｊにおける価値関数の値が、

として、上記２つの特徴ベクトルの積として表現されると仮定し、あるユーザ特徴行列、状態特徴行列が与えられた場合に、全ユーザの移動履歴を表すデータ

を生成する確率は、上記（７）式より、

と書ける。ただし、

は、ユーザｉが場所ｊから場所ｋへ遷移した回数を表す。

また、以後の記述で、

のように、添え字の一部をドット記号で記述されている場合には, その添え字に関しては和をとった値を表すこととする。すなわち、

である。また、記述の簡便性のため、基本遷移確率を

と定義しなおした。また、ユーザパラメタＡ及び場所パラメタＢの各々の事前分布は、正規分布で与えられるとし、以下の式で定義する。

ただし、α_Ａ、α_Ｂは、ハイパーパラメタである。これらより、観測データとパラメタの同時確率は、次の式のように書き下せる。

前述したように、変分ベイズ推定法による学習では、ユーザパラメタＡ及び場所パラメタＢの各々の分布を推定する。以後、ユーザパラメタＡ及び場所パラメタＢの各々の分布を

とする。このパラメタ分布を

のように、分解できるという条件のもと、目的関数

を最小化することで求める方法が変分ベイズ推定法である。なお、関数ｈは、任意の対数尤度関数の下界となる関数を示し、ここでは以下の定義を利用する(この関数が下界であることの証明は省略する)。

は、補助変数であり、これらの補助変数も最適化の対象とされる。また、

と定義した。σ（）は、シグモイド関数を表す。変分ヘイズ推定法による解析から、

が最小となるとき、行列Ａ、Ｂの分布は正規分布であり、その平均と分散のパラメタは、以下の式を満たすことが示される。なお、平均がμ、分散がΣとする。

なお、上記（１６）〜（１９）式において、

は、

であり、

は、

である。また、上記（１６）、（１８）式において、上付きのＴは転置を示す。

これらの式に基づいて、「各分布のパラメタを他の分布のパラメタを固定したもとで更新する」ことを何度も繰り返すことで、パラメタ分布を得ることができる。このアルゴリムが静的なコストの場合における変分ベイズアルゴリズムである。なお、補助変数も上記繰り返し手続きの途中に下記の更新を実行することで最適化することができる。

ただし、

である。なお、｜Ω_ｊ｜は、状態ｊから１ステップで移動可能な状態の数を表す。上記のアルゴリズムに基づいて、遷移履歴データが逐次的に到着し、動的にコストが変化する状況のアルゴリズムを導く。

ここでは特に、動的に場所のコストが変化し、一例として、逐次的に新たなユーザの移動に関する遷移履歴データが到着する状況を考える。すなわち、過去のユーザの移動を表現していた場所パラメタＢ（場所の特徴ベクトル）と、現在の場所における場所パラメタＢは等しくないという状況である。したがって、過去のデータよりもより現在のデータをより重視する、という方針のもとアルゴリズムを設計する。以下にアルゴリズムの手続きを示す。なお、ここでいう新たなユーザとは、総ユーザ数Ｉに含まれない新たなユーザを想定しているが、過去のユーザを対象としても同様である。

新たなユーザｔの遷移履歴データから、ユーザｔが場所ｊから場所ｋへ遷移した回数を示すデータ

が得られたとする。そして、これまでに推定されている場所の場所パラメタＢに基づいて、ユーザｔの特徴ベクトルａ_ｔと関連する補助変数

を推定する。これらの補助変数に基づいて、場所パラメタＢに関する平均及び分散のパラメタの値を、上記式（１８）、（１９）式のうち過去のユーザに関する項を減衰させたうえで、ユーザｔに関する項を加えることで更新する。具体的な平均及び分散のパラメタの更新式を以下に示す。

このような手続きによって、状態特徴行列Ｂに関する平均及び分散のパラメタは、過去のデータを忘却しながら、現在のデータに追随するよう推定されていくようになる。なお、このようにして推定した平均及び分散のパラメタを用いれば、ユーザｔの場所ｊに関する価値関数の推定値は、

であるから、報酬関数を求める上記（１２）式の記号

を、記号

で置き換えて、

と計算することで、ユーザｔの場所ｊにおける報酬関数の推定値

が得られる。上記が本実施形態に係るアルゴリズムである。

＜本発明の実施形態に係る動的潜在コスト推定装置の構成＞

図２は、本実施形態に係る動的潜在コスト推定装置９０の構成の一例を示すブロック図である。
図２に示すように、本実施形態に係る動的潜在コスト推定装置９０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ(Random Access Memory)、ＲＯＭ(Read Only Memory)、及びＨＤＤ(Hard Disk Drive)等を備えたコンピュータとして構成される。ＲＯＭには、本実施形態に係る動的潜在コスト推定プログラムが記憶されている。なお、動的潜在コスト推定プログラムは、ＨＤＤに記憶されていてもよい。

上記の動的潜在コスト推定プログラムは、例えば、動的潜在コスト推定装置９０に予めインストールされていてもよい。この動的潜在コスト推定プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、動的潜在コスト推定装置９０に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ(Compact Disc Read Only Memory)、光磁気ディスク、ＤＶＤ-ＲＯＭ(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が挙げられる。

ＣＰＵは、ＲＯＭに記憶されている動的潜在コスト推定プログラムを読み込んで実行することにより、グラフ重み処理部１０、状態特徴行列処理部２０、遷移履歴処理部３０、パラメタ推定部４０、報酬関数計算部５０、及び報酬関数処理部６０として機能する。また、ＨＤＤは、記録部７０として機能する。記録部７０は、グラフ重み記録部７１、状態特徴行列記録部７２、遷移履歴記録部７３、ユーザ特徴行列記録部７４、及び報酬関数記録部７５を含む。

動的潜在コスト推定装置９０は、入出力部８０を備える。入出力部８０は、外部装置９２から出力された、状態間の基本遷移確率の負の対数として定義される

の集合を表すグラフ重みデータ

及びハイパーパラメタα_Ａ、α_Ｂの入力を受け付ける。

グラフ重み処理部１０は、入出力部８０により入力を受け付けたグラフ重みデータ

及びハイパーパラメタα_Ａ、α_Ｂをグラフ重み記録部７１に格納する。

また、入出力部８０は、外部装置９２から出力された、状態特徴行列Ｂの分布パラメタ

の初期値の入力を受け付ける。

状態特徴行列処理部２０は、入出力部８０により入力を受け付けた状態特徴行列Ｂの分布パラメタ

の初期値を状態特徴行列記録部７２に格納する。

また、入出力部８０は、外部装置９２から出力された、推定対象とされる、新たなユーザｔの遷移履歴データ

の入力を受け付ける。

遷移履歴処理部３０は、入出力部８０により入力を受け付けたユーザｔの遷移履歴データ

を遷移履歴記録部７３に格納する。本実施の形態では、新たなユーザｔについての遷移履歴データが到着する毎に、到着した遷移履歴データが遷移履歴記録部７３に格納される。

パラメタ推定部４０は、グラフ重み記録部７１に格納されたグラフ重みデータ

及びハイパーパラメタα_Ａ、α_Ｂ、状態特徴行列記録部７２に格納された状態特徴行列Ｂの分布パラメタ

の初期値、及び遷移履歴記録部７３に格納されたユーザｔの遷移履歴データ

を入力とし、上記（１４）式に示す目的関数を最適化するように、ユーザｔの潜在的な特徴量を表す特徴ベクトルａ_ｔ（以下、ユーザ特徴ベクトルａ_ｔ）の分布を表す分布パラメタ

と、ユーザ特徴ベクトルａ_ｔと関連する補助変数

と、状態特徴行列Ｂの分布を表す分布パラメタ

と、を推定する。本実施形態では、目的関数を最小化することで、最適化しているが、利用する目的関数の種類によっては、目的関数を最大化することで、最適化してもよい。なお、上記では、ユーザｔのユーザ特徴ベクトルａ_ｔ及び状態特徴行列Ｂを用いて、ユーザｔの各場所の価値関数が表現されると仮定する。また、上記目的関数は、状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率（上記（７）式）、上記遷移履歴データから得られる状態間の遷移回数、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及び状態特徴行列Ｂの分布パラメタを用いて表される。本実施形態に係るパラメタ推定部４０は、上記目的関数を最小化することにより、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ

及びユーザ特徴ベクトルａ_ｔと関連する補助変数

を推定し、推定した分布パラメタ

及び補助変数

をユーザ特徴行列記録部７４に格納する。

具体的には、パラメタ推定部４０は、予め定められた反復終了条件を満たすまで、上記（１４）式で示される目的関数を最小化するように、ユーザ特徴ベクトルａ_ｔの分布パラメタ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数を更新することを繰り返すことにより、ユーザ特徴ベクトルａ_ｔの分布パラメタ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数を推定する。一例として、変分ベイズ推定法により上記（１４）式で示される目的関数が最小となるとき、ユーザ特徴行列Ａ及び状態特徴行列Ｂの各々は正規分布となり、パラメタ推定部４０は、ユーザ特徴ベクトルａ_ｔの分布パラメタ

を、上記（１６）、（１７）式に従って更新する。そして、パラメタ推定部４０は、更新前と更新後の平均パラメタ

の差の絶対値の最大値

が、平均パラメタの更新量の最大変化幅を示す変数δ１より大きい場合に、変数δ１を上記最大値に更新する。但し、更新前の平均パラメタの値を

、更新後の値を

と記述した。

また、パラメタ推定部４０は、ユーザ特徴ベクトルａ_ｔと関連する補助変数

を、上記（２０）、（２１）式に従って更新する。そして、パラメタ推定部４０は、更新前と更新後の値の差の絶対値の最大値

が、値の更新量の最大変化幅を示す変数δ２より大きい場合に、変数δ２を上記最大値に更新する。この変数δ２は、上記変数δ１と同じでもよいし、異なっていてもよい。以下では、説明を簡単にするため、δ１＝δ２として、単に変数δと記述する。但し、更新前の補助変数

の要素を

、更新後の要素を

と記述した。同様に、更新前の補助変数

の要素を

、更新後の要素を

と記述した。

パラメタ推定部４０は、変数δが予め定められた閾値εより小さい場合に、ユーザ特徴ベクトルａ_ｔの分布パラメタ及び補助変数の更新を終了する。また、パラメタ推定部４０は、ユーザ特徴ベクトルａ_ｔの分布パラメタ及び補助変数の更新を繰り返し、繰り返し回数をカウントする。この場合、パラメタ推定部４０は、カウントした繰り返し回数が予め定められた最大繰り返し回数を超える場合に、ユーザ特徴ベクトルａ_ｔの分布パラメタ及び補助変数の更新を終了してもよい。

そして、パラメタ推定部４０は、ユーザ特徴行列記録部７４に格納された、更新後のユーザｔについてのユーザ特徴ベクトルａ_ｔの分布パラメタ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数に基づいて、上記（２２）、（２３）式に従って、状態特徴行列Ｂの分布パラメタ

を更新することにより、状態特徴行列Ｂの分布パラメタを推定し、推定した状態特徴行列Ｂの分布パラメタ

を状態特徴行列記録部７２に格納する。

報酬関数計算部５０は、状態特徴行列記録部７２に格納された状態特徴行列Ｂの分布パラメタ

、及び、ユーザ特徴行列記録部７４に格納されたユーザｔについてのユーザ特徴ベクトルａ_ｔの分布パラメタ

に基づいて、ユーザｔについての場所ｊの目的地への到達し易さを表す価値関数

を推定し、推定した価値関数、及び状態間の基本遷移確率（グラフ重みデータＷ）を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、上記（２４）式を用いて、ユーザｔについての場所ｊの目的地らしさを表す報酬関数

を計算し、報酬関数記録部７５に格納する。

報酬関数処理部６０は、報酬関数記録部７５に格納された報酬関数

を、入出力部８０を介して外部装置９２に出力する。

なお、本実施形態では、上記遷移履歴データがユーザ毎に入力される場合について説明したが、上記遷移履歴データが時間帯毎に入力される場合についても同様に適用することができる。この場合、ユーザｔを、時間帯ｔに置き換えればよい。つまり、パラメタ推定部４０は、時間帯ｔについての特徴ベクトルａ_ｔの分布パラメタ、及び状態特徴行列Ｂの分布パラメタを推定する。報酬関数計算部５０は、パラメタ推定部４０により推定された、時間帯ｔについての特徴ベクトルａ_ｔの分布パラメタ、及び状態特徴行列Ｂの分布パラメタに基づいて、時間帯ｔについての各状態の報酬関数を計算する。

＜本発明の実施形態に係る動的潜在コスト推定装置の作用＞

次に、図３を参照して、本実施形態に係る動的潜在コスト推定装置９０の作用について説明する。なお、図３は、本実施形態に係る動的潜在コスト推定プログラムの処理の流れの一例を示すフローチャートである。

まず、図３のステップ１００では、グラフ重み処理部１０が、外部装置９２から入出力部８０を介してグラフ重みデータＷ及びハイパーパラメタα_Ａ、α_Ｂの入力を受け付け、グラフ重み記録部７１に格納する。一方、状態特徴行列処理部２０は、外部装置９２から入出力部８０を介して状態特徴行列Ｂの分布パラメタの初期値の入力を受け付け、状態特徴行列記録部７２に格納する。

ステップ１０２では、遷移履歴処理部３０が、外部装置９２から入出力部８０を介してユーザｔの遷移履歴データＤ_ｔの到着を受け付けたか否かを判定する。ユーザｔの遷移履歴データＤ_ｔの到着を受け付けたと判定した場合（肯定判定の場合）、ユーザｔの遷移履歴データＤ_ｔを遷移履歴記録部７３に格納し、ステップ１０４に移行する。一方、ユーザｔの遷移履歴データＤ_ｔの到着を受け付けていないと判定した場合（否定判定の場合）、ステップ１０２で待機となる。

ステップ１０４では、パラメタ推定部４０が、グラフ重み記録部７１に格納されたグラフ重みデータＷ、ハイパーパラメタα_Ａ、α_Ｂ、状態特徴行列記録部７２に格納された状態特徴行列Ｂの分布パラメタの初期値、及び遷移履歴記録部７３に格納されたユーザｔの遷移履歴データＤ_ｔに基づいて、上記（１４）式に示す目的関数を最小化することで、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及び状態特徴行列Ｂの分布パラメタを推定する。具体的には、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及び状態特徴行列Ｂの分布パラメタの更新処理として、図４に示すサブルーチンが実行される。

図４は、本実施形態に係る動的潜在コスト推定プログラムのサブルーチンの処理の流れの一例を示すフローチャートである。

まず、図４のステップ２００では、パラメタ推定部４０が、ユーザｔのユーザ特徴ベクトルａ_ｔ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数η_ｔ、ξ_ｔを初期化する。

ステップ２０２では、パラメタ推定部４０が、終了条件に用いる変数δを初期化する。そして、パラメタ推定部４０は、終了条件となる閾値ε、及び最大繰り返し回数を設定する。

ステップ２０４では、パラメタ推定部４０が、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタを、上記（１６）、（１７）式に従って更新する。このとき、更新前と更新後の平均パラメタの差の絶対値の最大値

が変数δより大きい場合、変数δを上記最大値に更新する。

ステップ２０６では、パラメタ推定部４０が、ユーザｔのユーザ特徴ベクトルａ_ｔと関連する補助変数η_ｔ、ξ_ｔを、上記（２０）、（２１）式に従って更新する。このとき、更新前と更新後の値の差の絶対値の最大値

が変数δより大きい場合、変数δを上記最大値に更新する。

ステップ２０８では、パラメタ推定部４０が、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数η_ｔ、ξ_ｔの繰り返し回数をカウントアップする。

ステップ２１０では、パラメタ推定部４０が、終了条件を満たしているか否かを判定する。終了条件を満たしていると判定した場合（肯定判定の場合）、更新したユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数η_ｔ、ξ_ｔをユーザ特徴行列記録部７４に格納し、ステップ２１２に移行する。一方、終了条件を満たしていないと判定した場合（否定判定の場合）、ステップ２１４に移行し、変数δ←０として、ステップ２０４に戻り処理を繰り返す。なお、ここでいう終了条件としては、上述したように、繰り返し回数が最大繰り返し回数を超えた場合、又は、変数δが閾値εより小さい場合に、終了と判定される。

ステップ２１２では、パラメタ推定部４０が、状態特徴行列Ｂの分布パラメタを、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及びユーザ特徴ベクトルａ_ｔと関連する補助変数η_ｔ、ξ_ｔに基づいて、上記（２２）、（２３）式に従って更新し、図３のステップ１０６に移行する。

次に、図３に戻り、ステップ１０６では、報酬関数計算部５０が、グラフ重みデータＷ、ハイパーパラメタα_Ａ、α_Ｂ、ユーザｔのユーザ特徴ベクトルａ_ｔの分布パラメタ、及び状態特徴行列Ｂの分布パラメタに基づいて、上記（２４）式を用いて、ユーザｔについての報酬関数を計算し、計算した報酬関数を報酬関数記録部７５に格納する。そして、報酬関数処理部６０は、報酬関数記録部７５に格納された報酬関数を、入出力部８０を介して外部装置９２に出力する。

なお、上記では、各因子行列Ａ、Ｂの更新式として、一例として変分ベイズ推定法に基づいて導出した式を利用しているが、上記（１３）式で表されるモデルのパラメタを推定する他のいかなる方法を用いても良い。

本実施形態によれば、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。

以上、実施形態として動的潜在コスト推定装置を例示して説明した。実施形態は、コンピュータを、動的潜在コスト推定装置が備える各部として機能させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。

その他、上記実施形態で説明した動的潜在コスト推定装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。

また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。

１０グラフ重み処理部
２０状態特徴行列処理部
３０遷移履歴処理部
４０パラメタ推定部
５０報酬関数計算部
６０報酬関数処理部
７０記録部
７１グラフ重み記録部
７２状態特徴行列記録部
７３遷移履歴記録部
７４ユーザ特徴行列記録部
７５報酬関数記録部
８０入出力部
９０動的潜在コスト推定装置
９２外部装置

Claims

ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザｔ又は時間帯ｔの各状態の価値関数が表現されると仮定して、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最小化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するパラメタ推定部と、
前記パラメタ推定部によって推定された、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザｔ又は時間帯ｔについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザｔ又は時間帯ｔについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、
を含み、
前記目的関数をＦ ^〜（ｑ，η，ξ）（〜はＦの直上）、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルをＡ、特徴ベクトルＡの分布パラメタをｑ（Ａ）、前記状態特徴行列をＢ、状態特徴行列Ｂの分布パラメタをｑ（Ｂ）、前記グラフ重みデータをｗ、前記補助変数をη及びξ、特徴ベクトルＡの事前分布を表すＰ（Ａ）と状態特徴行列Ｂの事前分布を表すＰ（Ｂ）との積をＰ（Ａ，Ｂ）とした場合に、前記目的関数Ｆ ^〜（ｑ，η，ξ）は、

により表され、但し、ｈ（・）は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、
前記報酬関数をｒ ⁻ _ｔｊ（−はｒの直上）、前記価値関数の推定値をｖ ⁻ _ｔｊ及びｖ ⁻ _ｔｋ（−はｖの直上）、前記基本遷移確率をｐ ⁻ _ｊｋ（−はｐの直上）、０以上１未満の定数である割引率をγとした場合に、前記報酬関数ｒ ⁻ _ｔｊは、

により表され、
前記遷移確率をｐ _ｉｊｋ（ａ ^＊ _ｉｊ）、前記行動をａ ^＊ _ｉｊ、前記最適方策をａ ^＊ _ｉｊｋ、前記基本遷移確率をｐ ⁻ _ｊｋ、前記割引率をγ、前記価値関数をｖ _ｉｊ及びｖ _ｉｋとした場合に、前記遷移確率ｐ _ｉｊｋ（ａ ^＊ _ｉｊ）は、

により表される
動的潜在コスト推定装置。
パラメタ推定部及び報酬関数計算部を含む動的潜在コスト推定装置が実行する動的潜在コスト推定方法であって、
前記パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザｔ又は時間帯ｔの各状態の価値関数が表現されると仮定して、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最小化するように変分ベイズ推定法を用いて推定する場合に、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するステップと、
前記報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザｔ又は時間帯ｔについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザｔ又は時間帯ｔについての各状態の目的地らしさを表す報酬関数を計算するステップと、
を含み、
前記目的関数をＦ ^〜（ｑ，η，ξ）（〜はＦの直上）、前記ユーザｔ又は時間帯ｔの潜在的な特徴量を表す特徴ベクトルをＡ、特徴ベクトルＡの分布パラメタをｑ（Ａ）、前記状態特徴行列をＢ、状態特徴行列Ｂの分布パラメタをｑ（Ｂ）、前記グラフ重みデータをｗ、前記補助変数をη及びξ、特徴ベクトルＡの事前分布を表すＰ（Ａ）と状態特徴行列Ｂの事前分布を表すＰ（Ｂ）との積をＰ（Ａ，Ｂ）とした場合に、前記目的関数Ｆ ^〜（ｑ，η，ξ）は、

により表され、但し、ｈ（・）は、前記遷移回数を含む、任意の対数尤度関数の下界となる関数を表し、
前記報酬関数をｒ ⁻ _ｔｊ（−はｒの直上）、前記価値関数の推定値をｖ ⁻ _ｔｊ及びｖ ⁻ _ｔｋ（−はｖの直上）、前記基本遷移確率をｐ ⁻ _ｊｋ（−はｐの直上）、０以上１未満の定数である割引率をγとした場合に、前記報酬関数ｒ ⁻ _ｔｊは、

により表され、
前記遷移確率をｐ _ｉｊｋ（ａ ^＊ _ｉｊ）、前記行動をａ ^＊ _ｉｊ、前記最適方策をａ ^＊ _ｉｊｋ、前記基本遷移確率をｐ ⁻ _ｊｋ、前記割引率をγ、前記価値関数をｖ _ｉｊ及びｖ _ｉｋとした場合に、前記遷移確率ｐ _ｉｊｋ（ａ ^＊ _ｉｊ）は、

により表される
動的潜在コスト推定方法。
コンピュータを、請求項１に記載の動的潜在コスト推定装置の各部として機能させるためのプログラム。