JP6464075B2 - What−ifシミュレーション装置、方法、及びプログラム - Google Patents

What−ifシミュレーション装置、方法、及びプログラム Download PDF

Info

Publication number
JP6464075B2
JP6464075B2 JP2015221563A JP2015221563A JP6464075B2 JP 6464075 B2 JP6464075 B2 JP 6464075B2 JP 2015221563 A JP2015221563 A JP 2015221563A JP 2015221563 A JP2015221563 A JP 2015221563A JP 6464075 B2 JP6464075 B2 JP 6464075B2
Authority
JP
Japan
Prior art keywords
function
states
transition
probability
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015221563A
Other languages
English (en)
Other versions
JP2017091273A (ja
Inventor
匡宏 幸島
匡宏 幸島
達史 松林
達史 松林
澤田 宏
宏 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015221563A priority Critical patent/JP6464075B2/ja
Publication of JP2017091273A publication Critical patent/JP2017091273A/ja
Application granted granted Critical
Publication of JP6464075B2 publication Critical patent/JP6464075B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、What−ifシミュレーション装置、方法、及びプログラムに係り、特に、対象物の流れを予測するためのWhat−ifシミュレーション装置、方法、及びプログラムに関する。
本発明における背景技術は、蓄積させたデータを基に人やモノ等に代表される対象物の流れを予測する技術である。人の流れの一例としては、例えば「自宅→最寄り駅→東京駅→勤務地」、のようなある個人の移動系列のことを示し、予測とは、過去に蓄積された系列データをもとに、東京駅の後にどこを訪れるかを推測すること、又は、東京駅の後に各場所(たとえば勤務地)を訪れる確率がいくつであるかを算出することを示す。移動系列は上記の例のように必ずしも具体的な場所名の系列で表現される必要はなく、緯度経度情報が連続するようなGPSデータであってもよい。また人以外のモノの流れについても同様に表現可能である。例えば、動物が住処を変える移動の履歴や、車やタクシーの移動履歴も、同様の移動系列として表現できることがわかる。これ以後は人の流れの例を用いて述べるが、それとまったく同様にモノの流れの予測にも適用可能であることを述べておく。また、ここでいうモノとは自然法則によって全て動きが説明されるもの、及びされないもの両方を含むが、自然法則で説明できない人間の意思で制御及びコントロールされるモノ、自己の判断で動く動物の行動を予測ができることに本技術の利点がある。
人やモノなどの流れを予測する手法として最も代表的なものとして、マルコフモデルがある。このマルコフモデルでは、次の状態は現在の状態にのみ依存して確率的に決まるとされる。したがって、例えば系列データとしてA→B→C、A→C、A→Bという3つのデータが蓄積されていたとすると、状態Aから始まる遷移にはA→Bが2回、A→Cが1回の計3回観測されていることから、Aの後にBへ移動する確率は2/3、Cへ移動する確率は1/3と、遷移の確率をデータから推定する。上記のマルコフモデルはある個人のデータだけを用いて推定を行えば、その個人の次の状態の予測も行えるし、個人による遷移の違いが無いとして全員のデータを用い、推定を行うこともできる。また、マルコフモデルは多様な拡張がなされている。例えば上記のマルコフモデルでは、1ステップ後の遷移しか考えていないが、Nステップ前の状態から1ステップ前の状態全てに依存して次の状態が決定するN次マルコフ連鎖と呼ばれる方法も可能である。
しかしながら、上記の手法では、データが得られた環境と全く異なる環境における予測を行うことができない。したがって、例えば、普段の東京駅付近の人の流れが蓄積されたデータを所有していたとしても、自然災害によって東京駅に近づくことが不可能となった時に、人の流れを予測することは不可能である。
本発明は、上記問題点を解決するために成されたものであり、障害物が存在する状況における、対象物の流れを予測することができるWhat−ifシミュレーション装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るWhat−ifシミュレーション装置は、入力された、移動する対象物が状態間を遷移した履歴を表す遷移履歴データ、及び状態間の基本遷移確率に基づいて、各状態についての目的地らしさを表す報酬関数を推定する報酬関数推定部と、入力された、状態遷移確率の変化に関するデータに基づいて、前記状態間の基本遷移確率を更新する障害物有り基本遷移関数計算部と、前記報酬関数推定部によって推定された前記報酬関数と、前記障害物有り基本遷移関数計算部によって更新された前記状態間の基本遷移確率とに基づいて、各状態の目的地への到達しやすさを表す価値関数を計算する価値関数計算部と、前記価値関数計算部によって計算された前記価値関数と、前記障害物有り基本遷移確率計算部によって更新された前記状態間の基本遷移確率とに基づいて、状態間の前記対象物の移動を予測するWhat−if予測確率を推定するWhat−if予測確率計算部と、を含んで構成されている。
また、第1の発明に係るWhat−ifシミュレーション装置において、前記報酬関数推定部は、入力された前記遷移履歴データ及び前記状態間の基本遷移確率に基づいて、前記遷移履歴データに対する前記価値関数の尤もらしさを表す目的関数を最適化するように、前記価値関数を推定し、前記推定された前記価値関数と、前記状態間の基本遷移確率とに基づいて、前記報酬関数を推定するようにしてもよい。
第2の発明に係るWhat−ifシミュレーション方法は、報酬関数推定部が、入力された、移動する対象物が状態間を遷移した履歴を表す遷移履歴データ、及び状態間の基本遷移確率に基づいて、各状態についての目的地らしさを表す報酬関数を推定するステップと、障害物有り基本遷移関数計算部が、入力された、状態遷移確率の変化に関するデータに基づいて、前記状態間の基本遷移確率を更新するステップと、価値関数計算部が、前記報酬関数推定部によって推定された前記報酬関数と、前記障害物有り基本遷移関数計算部によって更新された前記状態間の基本遷移確率とに基づいて、各状態の目的地への到達しやすさを表す価値関数を計算するステップと、What−if予測確率計算部が、前記価値関数計算部によって計算された前記価値関数と、前記障害物有り基本遷移確率計算部によって更新された前記状態間の基本遷移確率とに基づいて、状態間の前記対象物の移動を予測するステップと、を含んで実行することを特徴とする。
また、第1の発明に係るWhat−ifシミュレーション方法において、前記報酬関数推定部が推定するステップは、入力された前記遷移履歴データ及び前記状態間の基本遷移確率に基づいて、前記遷移履歴データに対する前記価値関数の尤もらしさを表す目的関数を最適化するように、前記価値関数を推定し、前記推定された前記価値関数と、前記状態間の基本遷移確率とに基づいて、前記報酬関数を推定するようにしてもよい。
第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係るWhat−ifシミュレーション装置の各部として機能させるためのプログラムである。
本発明のWhat−ifシミュレーション装置、方法、及びプログラムによれば、移動する対象物が状態間を遷移した履歴を表す遷移履歴データ、及び状態間の基本遷移確率に基づいて、各状態についての目的地らしさを表す報酬関数を推定し、障害物が置かれた状態の集合を表す障害物データに基づいて、状態間の基本遷移確率を更新し、推定された報酬関数と、更新された状態間の基本遷移確率とに基づいて、各状態の目的地への到達しやすさを表す価値関数を計算し、計算された価値関数と、更新された状態間の基本遷移確率とに基づいて、状態間の対象物の移動を予測するWhat−if予測確率を推定することにより、障害物が存在する状況における、対象物の流れを予測することができる、という効果が得られる。
線形可解マルコフ決定過程(MLDP)における状態集合、基本遷移関数、及び報酬関数の一例を示す抽象図である。 障害物設置による基本遷移関数の変化の一例を示す抽象図である。 本発明の実施の形態に係るWhat−ifシミュレーション装置の構成を示すブロック図である。 本発明の実施の形態に係るWhat−ifシミュレーション装置におけるWhat−ifシミュレーション処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態に係る概要を説明する。
本発明の実施の形態における技術の新規性は、自然災害発生時などの、データが蓄積された環境とは全く異なる環境における人の流れを予測可能としたことにある。実際に自然災害が起こった時の予測に使えることはもちろん、「もし起こったときにどうなるか」というWhat−if予測も可能とすることができる。なお、本実施の形態では人の流れの予測に焦点を置いて説明するが、これに限定されるものではなく、対象物となるものであれば、人以外にも車、動物等のあらゆるモノの流れの予測が可能である。
本実施の形態において提案する手法では、「通常時において蓄積された系列データ」と自然災害によってある場所が侵入禁止となったなどの「変化した環境における通行可能・不可能を表すデータ」を用いる。提案手法の鍵となるアイディアは「通常時において蓄積された系列データ」から、人の流れの到達点を推定することにある。到達点を推定することの有効性は次の例を考えるとわかりやすい。例えば、帰宅ラッシュ時間に東京駅近辺で大規模火災が発生し、東京駅に近づくことが不可能となった場合を考える。このとき、人々の動きは新橋駅や品川駅まで徒歩移動したのちに電車を利用するなど、移動の仕方について劇的な変化が生じると考えられる。しかし、流れの到達点、すなわち人々の帰宅先は変わらない。よって、提案手法では、火災が発生していない通常時に推定した、人の流れの到達点に関する情報をそのまま転用することができる。この人の流れの到達点に関する情報に「変化した環境における通行可能・不可能を表すデータ」を組み合わせ、利用可能な経路を限定することで、「変化後の環境における系列データ」を利用することなく人の流れを予測することを実現する。
また、変化する人の流れの予測が可能になることによって、多様なサービスの実現が見込まれる。例えば、ある個人が次に駅に到着することがわかれば、ユーザの入力なしにスマートフォン上に時刻表を表示させることができるし、飲食店の多いエリアに到着することがわかれば、そのエリア店舗のクーポンを表示させることもできる。他にも、ショッピングセンター内などの施設内である店舗を訪れる人の数が通行を妨げるレベルで増大することが予測されれば、施設運営者は行列整理のための人員を派遣するなどの対策をとることも可能となる。
[本発明の実施の形態におけるアイディア]
上記のアイディアを、本発明の実施の形態では、次の3つのアプローチから実現する。
第1のアプローチは、「流れの到達点」の推定として「逆強化学習による報酬推定」を利用する事である。
第2のアプローチは、「変化した環境における通行可能・不可能を表すデータ」から局所的な遷移の変化を計算することである。
第3のアプローチは、流れの到達点の推定結果、及び局所的な遷移の変化を組み合わせて人の流れを予測することである。
[逆強化学習による報酬推定]
本発明の実施の形態では、後述する報酬関数について逆強化学習を行う。逆強化学習とはその名の通り、強化学習と呼ばれる問題の逆問題を表しており、そのためまずは強化学習について簡単に述べる。また、本発明の実施の形態では強化学習の中でも、線形可解マルコフ決定過程(Linearly Solvable Markov Decision Process、以下、LMDPと称する)と呼ばれる参考文献1に記載の枠組みを利用したものを考える。
[参考文献1]Emanuel Todorov. Linearly-solvable markov decision problems. In Advances in neural information processing systems, pages 1369{1376, 2006.
LMDPは、参考文献2に記載のマルコフ決定過程(Markov Decision Process、以下、MDPと称する)と同様にロボットと外界の相互作用を記述したものである。
[参考文献2]RichardS Sutton and AndrewG Barto. Reinforcement learning: An introduction. MIT press Cambridge, 1998. 邦題: 強化学習訳: 三上貞芳, 皆川雅章.
MDPは、ロボットがとりうる状態の集合、状態間の遷移の仕方を定める関数、コスト関数で定義される。各状態で行動をとることで、状態間の遷移の仕方をある程度コントロールすることが許され、LMDP、及びMDPではコスト和を最小化する、各状態でどの行動を選択するかを定める方策(最適方策と呼ぶ)を求める順問題が考察される。ロボット制御の文脈でよく説明される上記の順問題の具体例として、迷路にいるロボットの例が挙げられる。迷路のどこにいるかを定めているのが「状態」、ロボットが右に行くか左に行くかが「行動」であり、どこがゴールであるかを定めているのが「報酬関数」である。迷路を最短に脱出する手段(迷路の各場所で右に行くが、左に行くかを決定する)が「最適方策」である。よって最適方策を求める、という問題はこの場合、迷路の脱出手段をロボットが自動で獲得する、ということに対応する。上記の順問題の説明を含むMDPの適用例は、上記参考文献2に詳しい。LMDPではMDPと比較して容易に最適方策を求めることができる。なお、正確にはLMDPとMDPとでは問題の定義が少々異なるがここでは説明を省略する。
また、LMDPは、参考文献3に記載されているように、逆問題(InverseLMDP)も非常に効率的に解くことができるという利点がある。
[参考文献3]Krishnamurthy Dvijotham and Emanuel Todorov. Inverse optimal control with linearly-solvable mdps. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 335{342, 2010.
LMDPの逆問題は、順問題とは入出力が異なり、ロボットの移動系列データと基本遷移関数から、報酬関数を推定する問題として定式化される。移動系列データは、最適方策にしたがってロボットが行動した遷移の履歴であるとみなすことで、背後にある未知の報酬関数を推定するのである。よってこのInverseLMDPの定式化を用いることで、「蓄積された人の流れの系列データ」から「各場所の目的地(ゴール)としての度合い」を定める報酬関数を効率的に推定することができる。
[シナリオデータと基本遷移関数]
次に「変化した環境における通行可能・不可能を表すデータ」の利用方法について述べる。このデータは、「もし東京駅に入らないとき」というWhat−ifのifに対応する部分のデータであり、シナリオデータと呼ぶことにする。本発明の実施の形態では、シナリオデータによって、LMDPにおける基本遷移関数Pを変更することを考える。例えば、東京駅利用不可の例でいえば、ある場所から東京駅への基本遷移確率が0より大きいある値を持っていたが、それが0になったと考える。これは先ほどの迷路ロボットの例でいえば、新たに通行不可能な障害物が追加されたケースを想定していることと非常に類似する。他にも、例えばデータが収集されたエリアが駅構内であり、駅構内の人の移動を予測するケースを考えてみる。この場合、立ち入り禁止以外にも、特定エリアを一方通行にすることなどが考えられるが、このようなケースもまた基本遷移関数の変化として表現可能である。このように本技術は、What−ifのシナリオとして基本遷移関数の変化として表現できるものを考える。
[What−if予測]
最後にWhat−if予測を行う際には、LMDPの順問題の定式化を利用する。つまり、蓄積された人の流れの系列データから推定した報酬関数、シナリオデータを用いて計算された新しい基本遷移関数、の2つを入力として、最適方策を求める。人はこの最適方策に従って行動を選択するとして予測を行うことで変化した環境における予測や、What−if予測を行う。
<本発明の実施の形態に係る原理>
次に、本発明の実施の形態に係る原理を説明する。ここでは、実施の形態の構成及び作用において用いる記号、アルゴリズムについて記述する。
[線形可解マルコフ決定過程(LMDP)の定義]
まず、上記参考文献1を参照して、線形可解マルコフ決定過程(LMDP)について説明する。LMDPでは、状態集合
、基本遷移関数
、及び報酬関数
の3つ組
で定義された環境を考える。上記3つ組の具体例を図1に示す。図1中の各グリッドが状態集合
中のいずれかの状態sに対応し、各グリッド間の“基本的な”遷移の確率が基本遷移関数
によって決められている。“基本的な”と注釈をつけたのは、LMDPでは行動
を実行し、行動コストを支払うことでこの遷移の確率を変更することが許されているからである。具体的には、行動
を実行することで、状態iから状態jへの遷移の確率を
から以下(1)式に示す
に変更することができる。
上記(1)式では、aの値が大きければ大きいほど、状態jへの遷移の確率を増加できることがわかる。ただし、
の値は確率の和が1となることを満たすもの、すなわち
を満たすものに限られる。
また、上記の行動のように、状態iで行動
を実行することにより発生するコスト
は、確率分布の類似度を図る尺度であるKL距離を用いて以下(3)式のように定義される。KL距離は、値が小さいほど類似していることを表し、一致すれば0となる。
つまり、上記(3)式においては遷移の確率を ̄pijから変化させればさせるほど、支払うコストが高くなる。上記の行動コストとは別に状態のみに依存した状態コストを表すのが、報酬関数
である。図1の例で示すように、この報酬関数の値を本実施の形態では“目的地らしさ”に対応した値とみなし、値が小さいほど目的地らしいものとする。さらに、各状態sにおいて実行する行動
を定めたものを方策
と呼ぶこととする。
方策πにしたがって行動するロボットや人を考えると、上記(1)式にしたがって確率的に状態間を遷移し、遷移する度に行動コストと状態コストとの和
を支払う動きがモデリングできる。状態遷移を十分な回数繰り返した際に、遷移の過程で支払ったコスト(行動コストと状態コストとの和)の累積和の期待値が最小になるような方策を最適方策と呼び、
と書く。すなわち、最適方策とは、できるだけ少ない行動コストで状態コストの低い目的地に早く到達できる方策であり、直感的には、目的地に到達する最適な手順を表しているとみなせる。このように、基本遷移関数
と報酬関数
が既知の時に、最適方策
を求める問題が、LMDPにおける順問題である。最適方策は、以下(4)式の最適性方程式を満たす価値関数
を求めることで、次の(6)式のように算出できる。なお、上記(4)式から(5)式への式展開は上記参考文献3を参照できる。また、価値関数は、各状態の目的地への到達しやすさを表す。価値関数の求め方は後述する。
ここで、上記(6)式により得られたa ijの値を上記(1)式に代入することで、最適方策により行動を選択する場合の遷移確率は、以下(7)式で与えられることがわかる。
したがって、価値関数
が計算できれば、LMDPの順問題が解けることになる。
[価値関数計算アルゴリズム]
次に、参考文献1を参照して価値関数を計算するアルゴリズムについて説明する。価値関数を計算するアルゴリズムは上記(5)式から導かれる。両辺の符号を変換したのち、指数をとると、以下の(8)式が求まる。
ここで
と定義すると、上記(8)式は以下(9)式のようにベクトル表記できる。
これより明らかに
は行列
の固有値1の固有ベクトルであることがわかる。また、これが最大固有ベクトルであることも示せる。よって、以下(10)式に従い、
と収束するまで更新することで上記(9)式を満たす
を求めることができる。
最後に上記(9)式の定義より、
と変換することで価値関数
が求まる。以上がLMDPの順問題の解法である。
[逆問題の解法]
次に参考文献3を参照してLMDPの逆問題を説明する。LMDPの逆問題は、人、ロボットの遷移の系列と基本遷移関数
とを入力とし、報酬関数
を推定する問題、として定式化される。逆問題における解法の鍵は、人、ロボットの遷移は上記(7)式の最適方策による遷移確率にしたがって得られているとみなすことにある。入力の遷移系列データ
を(遷移前の状態,遷移後の状態)という1ステップの遷移の履歴の集合で表現し、nを状態iが遷移前の状態として現れた回数、n´を状態iが遷移後の状態として現れた回数とする。
上記(7)式における価値関数
を未知のパラメタとみなすと、以下(11)に示す負の対数尤度関数
を最小化する
が、最も入力の遷移の履歴を生成する確率の高い最尤推定量
となる。
上記(11)式の関数の最小化には、最急降下法やニュートン法など任意の方法が適用できる。そして、上記(5)式に最尤推定量
を代入すれば、報酬関数は次の(12)式により求めることができる。
以上がLMDPの逆問題の解法である。
[障害物データ(シナリオデータ)による基本遷移確率の変化]
前述したように、本発明の実施の形態では、変化した環境における通行可能・不可能を表すデータである、シナリオデータを利用する。シナリオデータの形式には多様なものが考えられるが、後述する構成では、(障害物の種類、及び設置場所)を表すものとしてシナリオデータが与えられるケースを想定する。よって以後シナリオデータを障害物データと呼ぶ。なお、障害物データが状態遷移確率の変化に関するデータの一例である。
障害物の種類には、立ち入り禁止、一方通行などが挙げられる。図2に障害物が設置されたことによる基本遷移関数の変化前、変化後の値の例を示す。障害物設置後の基本遷移関数を障害物有り基本遷移関数
と書くと、障害物[種類:立ち入り禁止]、障害物[種類:右一方通行]が追加された際の
の計算式には、たとえば次の(13)式のようなものが考えられる。
ただし、
が障害物[種類:立ち入り禁止]が置かれた状態の集合、
が障害物[種類:右一方通行]が置かれた状態の集合を表す。上記(13)以外の式を考える場合にも、本発明の実施の形態に適用可能である。
[What−if予測]
最後にWhat−if予測の全体像について述べる。まず初めにInverseLMDPの枠組みで報酬関数を推定する。すなわち、入力として、人の遷移履歴データ
と、このデータが収集された際の基本遷移関数
を利用し、報酬関数
と、価値関数
とを推定する。次に障害物データと、基本遷移関数
とを入力として、障害物有り基本遷移関数
を求める。最後に、LMDPの順問題を解く。障害物有り基本遷移関数
と、データから推定した報酬関数
を入力とすることで、障害物が存在するときの価値関数
を求める。最後に障害物有り基本遷移関数
と、価値関数
とを上記(7)式に代入して、以下の(14)式で与えられるWhat−if予測確率
を用いて予測を行う。
<本発明の実施の形態に係るWhat−ifシミュレーション装置の構成>
次に、本発明の実施の形態に係るWhat−ifシミュレーション装置の構成について説明する。図3に示すように、本発明の実施の形態に係るWhat−ifシミュレーション装置100は、CPUと、RAMと、後述するWhat−ifシミュレーション処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このWhat−ifシミュレーション装置100は、機能的には図3に示すように入出力部150と、遷移履歴処理部10と、基本遷移関数処理部20と、報酬関数推定部30と、障害物処理部40と、障害物有り基本遷移関数計算部50と、価値関数計算部60と、What−if予測確率計算部70と、What−if予測確率処理部80と、記録部90とを備えている。
入出力部150は、外部装置200から出力された、人が状態間を遷移した履歴を表す遷移履歴データ
、状態間の基本遷移確率からなる基本遷移関数
、及び障害物が置かれた状態の集合を表す障害物データを受け付ける。また、入出力部150は、What−if予測確率処理部80による予測結果を、外部装置200へ出力する。
記録部90は、遷移履歴記録部91、基本遷移関数記録部92、報酬関数記録部93、障害物記録部94、障害物有り基本遷移関数記録部95、価値関数記録部96、及びWhat−if予測確率記録部97を有する。
遷移履歴処理部10は、入出力部150により受け付けた、人が状態間を遷移した履歴を表す遷移履歴データ
を遷移履歴記録部91に格納する。
基本遷移関数処理部20は、入出力部150により受け付けた、状態間の基本遷移確率からなる基本遷移関数
を基本遷移関数記録部92に格納する。
報酬関数推定部30は、遷移履歴記録部91に格納された遷移履歴データ
と、基本遷移関数記録部92に格納された基本遷移関数
における状態間の基本遷移確率とに基づいて、状態iが遷移前の状態として現れた回数をn、状態iが遷移後の状態として現れた回数をn´、状態jの推定量をvとして、上記(11)式に示す、遷移履歴データに対する価値関数の尤もらしさを表す目的関数を最適化するように、価値関数の最尤推定量
を求めることにより、各状態の目的地への到達しやすさを表す価値関数を推定する。そして、推定された価値関数と、状態間の基本遷移確率とに基づいて、最尤推定量
を、上記(12)式に代入することで報酬関数
を推定し、報酬関数記録部93に格納する。
障害物処理部40は、入出力部150により受け付けた、障害物が置かれた状態の集合を表す障害物データを障害物記録部94に格納する。
障害物有り基本遷移関数計算部50は、基本遷移関数記録部92に格納された基本遷移関数
と、障害物記録部94に格納された障害物データとに基づいて、障害物[種類:立ち入り禁止]が置かれた状態の集合を
、障害物[種類:右一方通行]が置かれた状態の集合を
として、上記(13)式によって障害物有り基本遷移関数
を計算することにより更新し、障害物有り基本遷移関数記録部95に格納する。
価値関数計算部60は、報酬関数記録部93に格納された報酬関数
と、障害物有り基本遷移関数記録部95に格納された障害物有り基本遷移関数
における状態間の基本遷移確率とに基づいて、上記(10)式に従って価値関数
を計算し、価値関数記録部96に格納する。
What−if予測確率計算部70は、価値関数記録部96に格納された価値関数
と、障害物有り基本遷移関数記録部95に格納された障害物有り基本遷移関数
における状態間の基本遷移確率とに基づいて、上記(14)式に従って、状態間の人の移動を予測するWhat−if予測確率
を推定し、What−if予測確率記録部97に格納する。
What−if予測確率処理部80は、What−if予測確率記録部97に格納されたWhat−if予測確率
を外部装置200に出力する。
<本発明の実施の形態に係るWhat−ifシミュレーション装置の作用>
次に、本発明の実施の形態に係るWhat−ifシミュレーション装置100の作用について説明する。入出力部150において遷移履歴データを受け付け遷移履歴記録部91に格納し、状態間の基本遷移確率からなる基本遷移関数を受け付け基本遷移関数記録部92に格納し、及び障害物が置かれた状態の集合を表す障害物データを受け付け障害物記録部94に格納すると、What−ifシミュレーション装置100は、図4に示すWhat−ifシミュレーション処理ルーチンを実行する。
まず、ステップS100では、遷移履歴記録部91に格納された遷移履歴データと、基本遷移関数記録部92に格納された基本遷移関数における状態間の基本遷移確率とに基づいて、状態iが遷移前の状態として現れた回数をn、状態iが遷移後の状態として現れた回数をn´、状態jの推定量をvとして、上記(11)式に示す、遷移履歴データに対する価値関数の尤もらしさを表す目的関数を最適化するように、価値関数の最尤推定量を求めることにより、各状態の目的地への到達しやすさを表す価値関数を推定する。
次に、ステップS102では、ステップS100で推定された価値関数と、状態間の基本遷移確率とに基づいて、最尤推定量を、上記(12)式に代入することで報酬関数を推定し、報酬関数記録部93に格納する。
ステップS104では、基本遷移関数記録部92に格納された基本遷移関数と、障害物記録部94に格納された障害物データとに基づいて、障害物[種類:立ち入り禁止]が置かれた状態の集合を
、障害物[種類:右一方通行]が置かれた状態の集合を
として、上記(13)式によって障害物有り基本遷移関数を計算し、障害物有り基本遷移関数記録部95に格納する。
ステップS106では、報酬関数記録部93に格納された報酬関数と、障害物有り基本遷移関数記録部95に格納された障害物有り基本遷移関数における状態間の基本遷移確率とに基づいて、上記(10)式に従って価値関数を計算し、価値関数記録部96に格納する。
ステップS108では、価値関数記録部96に格納された価値関数と、障害物有り基本遷移関数記録部95に格納された障害物有り基本遷移関数における状態間の基本遷移確率とに基づいて、上記(14)式に従って、状態間の対象物の移動を予測するWhat−if予測確率を推定し、What−if予測確率記録部97に格納する。
ステップS110では、What−if予測確率記録部97に格納されたWhat−if予測確率を外部装置200に出力し、処理を終了する。
以上説明したように、本発明の実施の形態に係るWhat−ifシミュレーション装置によれば、人が状態間を遷移した履歴を表す遷移履歴データ、及び状態間の基本遷移確率に基づいて、上記(11)式及び(12)式を用いて、各状態についての目的地らしさを表す報酬関数を推定し、障害物が置かれた状態の集合を表す障害物データに基づいて、上記(13)式によって、状態間の基本遷移確率を更新し、推定された報酬関数と、更新された状態間の基本遷移確率とに基づいて、上記(10)式に従って、各状態の目的地への到達しやすさを表す価値関数を計算し、計算された価値関数と、更新された状態間の基本遷移確率とに基づいて、上記(14)式に従って、状態間の対象物の移動を予測するWhat−if予測確率を推定することにより、障害物が存在する状況における、人の流れを予測することができる。
また、本発明の実施の形態に係るWhat−ifシミュレーション装置によって、これまで一度も発生したことのない自然災害などが起こった際の人の流れを予測することができるようになる。実際に自然災害が起こった時の予測に使えることはもちろん、もし起こったときにどうなるかというWhat−if予測も可能とすることができる。例えばWhat−if予測によって、東京駅が封鎖された際には、品川駅へ向かう人が増大し、ある道路が非常に混雑することが予測できれば、その道路に警官を配備するプランをあらかじめ策定しておくなどの対応策を検討しておくことができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態では、障害物データが入力として与えられ、上記(13)式をもとに障害物有り基本遷移関数
が求められているが、この例に限定されることはない。例えば、障害物有り基本遷移関数
そのものが入力として与えられる場合を考えてもよい。また、上記の実施の形態の図3に示すWhat−ifシミュレーション装置は、各構成要素の動作をプログラムとして構築し、What−if予測装置として利用されるコンピュータにインストールして実行させる、またはネットワークを介して流通させることが可能である。
また、移動する対象物が、人物である場合を例に説明したが、これに限定されるものではなく、移動する対象物として、人物以外のもの、例えば、ロボット、動物、車両などであってもよい。
また、上述した実施の形態では、障害物データを用いて障害物有り基本遷移関数を計算する場合を例に説明したが、これに限定されるものではなく、障害物でない形式で記述されるデータ、例えばある状態間の遷移は不可、というような状態間の関係性で記述される状態遷移確率の変化に関するデータを用いて、状態遷移確率の変化を考慮した基本遷移関数を計算するようにしてもよい。
10 遷移履歴処理部
20 基本遷移関数処理部
30 報酬関数推定部
40 障害物処理部
50 障害物有り基本遷移関数計算部
60 価値関数計算部
70 What−if予測確率計算部
80 What−if予測確率処理部
90 記録部
91 遷移履歴記録部
92 基本遷移関数記録部
93 報酬関数記録部
94 障害物記録部
95 障害物有り基本遷移関数記録部
96 価値関数記録部
97 What−if予測確率記録部
100 What−ifシミュレーション装置
150 入出力部
200 外部装置

Claims (5)

  1. 入力された、移動する対象物が状態間を遷移した履歴を表す遷移履歴データ、及び状態間の基本遷移確率に基づいて、各状態についての目的地らしさを表す報酬関数を推定する報酬関数推定部と、
    入力された、状態遷移確率の変化に関するデータに基づいて、前記状態間の基本遷移確率を更新する障害物有り基本遷移関数計算部と、
    前記報酬関数推定部によって推定された前記報酬関数と、前記障害物有り基本遷移関数計算部によって更新された前記状態間の基本遷移確率とに基づいて、各状態の目的地への到達しやすさを表す価値関数を計算する価値関数計算部と、
    前記価値関数計算部によって計算された前記価値関数と、前記障害物有り基本遷移確率計算部によって更新された前記状態間の基本遷移確率とに基づいて、状態間の前記対象物の移動を予測するWhat−if予測確率を推定するWhat−if予測確率計算部と、
    を含むWhat−ifシミュレーション装置。
  2. 前記報酬関数推定部は、入力された前記遷移履歴データ及び前記状態間の基本遷移確率に基づいて、前記遷移履歴データに対する前記価値関数の尤もらしさを表す目的関数を最適化するように、前記価値関数を推定し、前記推定された前記価値関数と、前記状態間の基本遷移確率とに基づいて、前記報酬関数を推定する請求項1記載のWhat−ifシミュレーション装置。
  3. 報酬関数推定部が、入力された、移動する対象物が状態間を遷移した履歴を表す遷移履歴データ、及び状態間の基本遷移確率に基づいて、各状態についての目的地らしさを表す報酬関数を推定するステップと、
    障害物有り基本遷移関数計算部が、入力された、状態遷移確率の変化に関するデータに基づいて、前記状態間の基本遷移確率を更新するステップと、
    価値関数計算部が、前記報酬関数推定部によって推定された前記報酬関数と、前記障害物有り基本遷移関数計算部によって更新された前記状態間の基本遷移確率とに基づいて、各状態の目的地への到達しやすさを表す価値関数を計算するステップと、
    What−if予測確率計算部が、前記価値関数計算部によって計算された前記価値関数と、前記障害物有り基本遷移確率計算部によって更新された前記状態間の基本遷移確率とに基づいて、状態間の前記対象物の移動を予測するWhat−if予測確率を推定するステップと、
    を含むWhat−ifシミュレーション方法。
  4. 前記報酬関数推定部が推定するステップは、入力された前記遷移履歴データ及び前記状態間の基本遷移確率に基づいて、前記遷移履歴データに対する前記価値関数の尤もらしさを表す目的関数を最適化するように、前記価値関数を推定し、前記推定された前記価値関数と、前記状態間の基本遷移確率とに基づいて、前記報酬関数を推定する請求項3記載のWhat−ifシミュレーション方法。
  5. コンピュータを、請求項1又は請求項2に記載のWhat−ifシミュレーション装置の各部として機能させるためのプログラム。
JP2015221563A 2015-11-11 2015-11-11 What−ifシミュレーション装置、方法、及びプログラム Active JP6464075B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015221563A JP6464075B2 (ja) 2015-11-11 2015-11-11 What−ifシミュレーション装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015221563A JP6464075B2 (ja) 2015-11-11 2015-11-11 What−ifシミュレーション装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017091273A JP2017091273A (ja) 2017-05-25
JP6464075B2 true JP6464075B2 (ja) 2019-02-06

Family

ID=58770579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015221563A Active JP6464075B2 (ja) 2015-11-11 2015-11-11 What−ifシミュレーション装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6464075B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108134687B (zh) * 2017-12-07 2020-10-27 浙江工业大学 一种基于马尔可夫链的灰色模型局域网峰值流量预测方法
CN109117825B (zh) 2018-09-04 2020-01-17 百度在线网络技术(北京)有限公司 车道线处理方法和装置
CN109215136B (zh) 2018-09-07 2020-03-20 百度在线网络技术(北京)有限公司 一种真实数据增强方法、装置以及终端
CN109255181B (zh) * 2018-09-07 2019-12-24 百度在线网络技术(北京)有限公司 一种基于多模型的障碍物分布仿真方法、装置以及终端
CN109143242B (zh) 2018-09-07 2020-04-14 百度在线网络技术(北京)有限公司 障碍物绝对速度估计方法、系统、计算机设备和存储介质
CN110375659B (zh) 2018-09-11 2021-07-27 百度在线网络技术(北京)有限公司 检测障碍物高度的方法、装置、设备及存储介质
CN109165629B (zh) 2018-09-13 2019-08-23 百度在线网络技术(北京)有限公司 多焦距视觉障碍物感知方法、装置、设备及存储介质
CN109703568B (zh) 2019-02-19 2020-08-18 百度在线网络技术(北京)有限公司 自动驾驶车辆行驶策略实时学习的方法、装置和服务器
CN109712421B (zh) 2019-02-22 2021-06-04 百度在线网络技术(北京)有限公司 自动驾驶车辆的速度规划方法、装置和存储介质
US20220245494A1 (en) * 2019-06-26 2022-08-04 Nippon Telegraph And Telephone Corporation Parameter estimation device, parameter estimation method, and parameter estimation program
CN111983480B (zh) * 2020-08-19 2023-02-28 华晟(青岛)智能装备科技有限公司 一种基于马氏过程的agv电量状态预测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190463A (ja) * 1996-01-12 1997-07-22 Shimizu Corp 歩行者流動量シミュレーションシステム
JP5815458B2 (ja) * 2012-04-20 2015-11-17 日本電信電話株式会社 報酬関数推定装置、報酬関数推定方法、およびプログラム

Also Published As

Publication number Publication date
JP2017091273A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
JP6464075B2 (ja) What−ifシミュレーション装置、方法、及びプログラム
Liebig et al. Dynamic route planning with real-time traffic predictions
Johansen et al. Probabilistic multi-scale modeling of interdependencies between critical infrastructure systems for resilience
Li et al. A traffic prediction enabled double rewarded value iteration network for route planning
Bellei et al. A within-day dynamic traffic assignment model for urban road networks
EP3916652A1 (en) A method and neural network trained by reinforcement learning to determine a constraint optimal route using a masking function
JP2019040475A (ja) 人流予測装置、システムおよびプログラム
Liu et al. Stochastic on-time arrival problem in transit networks
JP2018195244A (ja) Odトラヒック予測装置、方法、及びプログラム
Hsu et al. Clearance time estimation for incorporating evacuation risk in routing strategies for evacuation operations
CN111862590A (zh) 路况预测方法、装置及存储介质
JP6777082B2 (ja) 渋滞予測システム、渋滞予測方法、及び、プログラム
CN115311860B (zh) 一种交通流量预测模型的在线联邦学习方法
Ghosh et al. CLAWER: Context-aware cloud-fog based workflow management framework for health emergency services
Wahba et al. Learning-based framework for transit assignment modeling under information provision
JP6665071B2 (ja) 人流量予測装置、人流量予測方法、及び人流量予測プログラム
JP6744767B2 (ja) 人流予測装置、パラメータ推定装置、方法、及びプログラム
JP6807822B2 (ja) 人流量予測装置、方法、及びプログラム
Barthélemy et al. An adaptive agent-based approach to traffic simulation
Crişan et al. Computational intelligence for solving difficult transportation problems
Fan et al. A deep reinforcement learning model for resilient road network recovery under earthquake or flooding hazards
Fu et al. Incremental path planning: Reservation system in V2X environment
Ma et al. Providing personalized system optimum traveler information in a congested traffic network with mixed users
Gorbunova et al. Evaluation of the end-to-end delay of a multiphase queuing system using artificial neural networks
Tong et al. Heuristic algorithms for simulation-based dynamic traffic assignment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190107

R150 Certificate of patent or registration of utility model

Ref document number: 6464075

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150