JP2018197653A - 動的潜在コスト推定装置、方法、及びプログラム - Google Patents
動的潜在コスト推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018197653A JP2018197653A JP2017101266A JP2017101266A JP2018197653A JP 2018197653 A JP2018197653 A JP 2018197653A JP 2017101266 A JP2017101266 A JP 2017101266A JP 2017101266 A JP2017101266 A JP 2017101266A JP 2018197653 A JP2018197653 A JP 2018197653A
- Authority
- JP
- Japan
- Prior art keywords
- user
- state
- feature
- representing
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。
まず、上記非特許文献5を参照して、線形可解マルコフ決定過程(LMDP)について説明する。線形可解マルコフ決定過程(LMDP)では、状態集合
次に、価値関数を計算するアルゴリズムについて説明する。価値関数を計算するアルゴリズムは上記(5)式から導かれる。両辺の符号を変換したのち、指数をとると、以下の(8)式が求まる。
次に、上記非特許文献6を参照して、LMDPの逆問題を説明する。LMDPの逆問題は、人、ロボットの遷移の系列と基本遷移関数とを入力とし、報酬関数を推定する問題、として定式化される。逆問題における解法の鍵は、人、ロボットの遷移が上記(7)式の最適方策による遷移確率にしたがって得られているとみなすことにある。ユーザiの遷移履歴データ
図2に示すように、本実施形態に係る動的潜在コスト推定装置90は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及びHDD(Hard Disk Drive)等を備えたコンピュータとして構成される。ROMには、本実施形態に係る動的潜在コスト推定プログラムが記憶されている。なお、動的潜在コスト推定プログラムは、HDDに記憶されていてもよい。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。
20 状態特徴行列処理部
30 遷移履歴処理部
40 パラメタ推定部
50 報酬関数計算部
60 報酬関数処理部
70 記録部
71 グラフ重み記録部
72 状態特徴行列記録部
73 遷移履歴記録部
74 ユーザ特徴行列記録部
75 報酬関数記録部
80 入出力部
90 動的潜在コスト推定装置
92 外部装置
Claims (6)
- ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最適化するように推定するパラメタ推定部と、
前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、
を含む動的潜在コスト推定装置。 - 前記パラメタ推定部は、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、
前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定する請求項1に記載の動的潜在コスト推定装置。 - 前記目的関数は、前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率、前記遷移履歴データから得られる状態間の遷移回数、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて表され、
前記報酬関数計算部は、前記推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の報酬関数を計算する請求項1又は2に記載の動的潜在コスト推定装置。 - パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最適化するように推定するステップと、
報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算するステップと、
を含む動的潜在コスト推定方法。 - 前記パラメタ推定部が推定するステップは、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、
前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定する請求項4に記載の動的潜在コスト推定方法。 - コンピュータを、請求項1〜3のいずれか1項に記載の動的潜在コスト推定装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017101266A JP6850678B2 (ja) | 2017-05-22 | 2017-05-22 | 動的潜在コスト推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017101266A JP6850678B2 (ja) | 2017-05-22 | 2017-05-22 | 動的潜在コスト推定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018197653A true JP2018197653A (ja) | 2018-12-13 |
JP6850678B2 JP6850678B2 (ja) | 2021-03-31 |
Family
ID=64663787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017101266A Active JP6850678B2 (ja) | 2017-05-22 | 2017-05-22 | 動的潜在コスト推定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6850678B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509326A (zh) * | 2020-12-02 | 2021-03-16 | 北京航空航天大学 | 一种基于广义极值t分布偏差的非周期拥堵检测方法 |
CN116957172B (zh) * | 2023-09-21 | 2024-01-16 | 山东大学 | 基于深度强化学习的动态作业车间调度优化方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011074369A1 (ja) * | 2009-12-18 | 2011-06-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コスト評価システム、方法及びプログラム |
WO2016021210A1 (en) * | 2014-08-07 | 2016-02-11 | Okinawa Institute Of Science And Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
-
2017
- 2017-05-22 JP JP2017101266A patent/JP6850678B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011074369A1 (ja) * | 2009-12-18 | 2011-06-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コスト評価システム、方法及びプログラム |
WO2016021210A1 (en) * | 2014-08-07 | 2016-02-11 | Okinawa Institute Of Science And Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509326A (zh) * | 2020-12-02 | 2021-03-16 | 北京航空航天大学 | 一种基于广义极值t分布偏差的非周期拥堵检测方法 |
CN116957172B (zh) * | 2023-09-21 | 2024-01-16 | 山东大学 | 基于深度强化学习的动态作业车间调度优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6850678B2 (ja) | 2021-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kocadağlı et al. | Nonlinear time series forecasting with Bayesian neural networks | |
JP6464075B2 (ja) | What−ifシミュレーション装置、方法、及びプログラム | |
Sirignano et al. | Stochastic gradient descent in continuous time | |
JP6749282B2 (ja) | 人流量予測装置、人流量予測方法、及び人流量予測プログラム | |
Kocadağlı | A novel hybrid learning algorithm for full Bayesian approach of artificial neural networks | |
Wen et al. | Batch stationary distribution estimation | |
KR20160050807A (ko) | 데이터 분석 및 예측 장치 및 방법 | |
JP6850678B2 (ja) | 動的潜在コスト推定装置、方法、及びプログラム | |
JP7378836B2 (ja) | 総和確率的勾配推定方法、装置、およびコンピュータプログラム | |
JP6853968B2 (ja) | パラメータ推定システム、パラメータ推定方法およびパラメータ推定プログラム | |
JP2019067224A (ja) | 人流パターン推定システム、人流パターン推定方法および人流パターン推定プログラム | |
Verstraete et al. | Consistent iterative algorithm for stochastic dynamic traffic assignment with a stable route set | |
Liu | Rank-based ant colony optimization applied to dynamic traveling salesman problems | |
JP2019095895A (ja) | 人流量予測装置、方法、及びプログラム | |
Schmidt | Numerical prediction and sequential process optimization in sheet forming based on genetic algorithm | |
JP6789176B2 (ja) | 潜在コスト推定装置、方法、及びプログラム | |
JP2017027509A (ja) | 予測モデル構築装置 | |
Randhawa et al. | Combining importance sampling and temporal difference control variates to simulate Markov chains | |
JP2018147075A (ja) | パラメータ出力装置、パラメータ出力方法及びプログラム | |
JP5427163B2 (ja) | 行動制御装置、行動制御方法及び行動制御プログラム | |
Murphy | Hidden states, hidden structures: Bayesian learning in time series models | |
Chen et al. | Stochastic co-kriging for steady-state simulation metamodeling | |
JP5713877B2 (ja) | 入出力モデル推定装置、方法、及びプログラム | |
JP6837953B2 (ja) | パラメータ推定装置、パラメータ推定方法及びプログラム | |
Hauman et al. | Application of the multi-objective cross-entropy method to the vehicle routing problem with soft time windows |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6850678 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |