JP2018197653A - 動的潜在コスト推定装置、方法、及びプログラム - Google Patents

動的潜在コスト推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018197653A
JP2018197653A JP2017101266A JP2017101266A JP2018197653A JP 2018197653 A JP2018197653 A JP 2018197653A JP 2017101266 A JP2017101266 A JP 2017101266A JP 2017101266 A JP2017101266 A JP 2017101266A JP 2018197653 A JP2018197653 A JP 2018197653A
Authority
JP
Japan
Prior art keywords
user
state
feature
representing
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017101266A
Other languages
English (en)
Other versions
JP6850678B2 (ja
Inventor
匡宏 幸島
Masahiro Kojima
匡宏 幸島
達史 松林
Tatsufumi Matsubayashi
達史 松林
浩之 戸田
Hiroyuki Toda
浩之 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017101266A priority Critical patent/JP6850678B2/ja
Publication of JP2018197653A publication Critical patent/JP2018197653A/ja
Application granted granted Critical
Publication of JP6850678B2 publication Critical patent/JP6850678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】道や場所の潜在コストが動的に変化する場合でも、その変化に追随して動的な潜在コストを推定する。【解決手段】動的潜在コスト推定装置90は、ユーザ毎に遷移履歴データが入力される毎に、遷移履歴データのユーザtの潜在的な特徴量を表す特徴ベクトル及び各状態の潜在的な特徴量を表す状態特徴行列を用いて、ユーザtの各状態の価値関数が表現されると仮定して、ユーザtの特徴ベクトル及び状態特徴行列の各々の分布を表す分布パラメタを、各ユーザの特徴ベクトルの分布パラメタ、状態特徴行列の分布パラメタ、状態間の基本遷移確率、及び状態間の遷移回数を用いて表される目的関数を最適化して推定するパラメタ推定部40と、ユーザtの特徴ベクトル及び状態特徴行列の各々の分布パラメタを用いて、ユーザtの価値関数を推定し、推定した価値関数、及び状態間の基本遷移確率に基づいて、ユーザtの報酬関数を計算する報酬関数計算部50と、を含む。【選択図】図2

Description

本発明は、動的潜在コスト推定装置、方法、及びプログラムに係り、特に、人の移動経路における動的な潜在コストを推定する動的潜在コスト推定装置、方法、及びプログラムに関する。
近年、人の移動経路の選択をモデリングする手法として、逆強化学習(IRL:Inverse Reinforcement Learning)と呼ばれる手法が利用されている(例えば、非特許文献1、2を参照)。IRLでは、人の移動の際に通る道や場所に潜在的なコストが存在し、人は経路全体で支払うコストの和が小さい経路をより高い確率で選択しやすくなると仮定してモデル化される。
上記の仮定に基づいて、IRLでは、その人の過去の移動履歴から、その人にとっての各道や場所における潜在的なコストを推定する。例えば、非特許文献2に記載されているように、あるタクシー運転手の移動履歴を入力とすることで、その運転手における各道のコストを推定し、運転手の好む、コストの低い道路特性、例えば、整備されている道路を好むか、カーブのゆるやかな道路を好むか等を知ることができる。また、この運転手がある目的地に至るまでに選択しやすい経路がどれであるかを見つけることができる。ほかにもロボット制御、自然言語処理における特筆すべき成功例も存在する(例えば、非特許文献3、4を参照)。
AndrewY Ng and Stuart Russell. Algorithms for inverse reinforcement learning. In in Proc. 17th International Conf. on Machine Learning, 2000. BrianD Ziebart, AndrewL Maas, JAndrew Bagnell, and AnindK Dey. Maximum entropy inverse reinforcement learning. In AAAI, pages 1433-1438, 2008. Pieter Abbeel and AndrewY Ng. Apprenticeship learning via inverse reinforcement learning. In Proceedings of the twenty-first international conference on Machine learning, page1. ACM, 2004. Gergely Neu and Csaba Szepesv_ari. Training parsers by inverse reinforcement learning. Machine learning, 77(2-3):303-337, 2009. Emanuel Todorov. Linearly-solvable markov decision problems. In Advances in neural information processing systems, pages 1369-1376, 2006. Krishnamurthy Dvijotham and Emanuel Todorov. Inverse optimal control with linearly-solvable mdps. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 335-342, 2010. Masa-Aki Sato. Online model selection based on the variational bayes. Neural Computation, 13(7):1649-1681, 2001. Matthew Hoffman, FrancisR Bach, and DavidM Blei. Online learning for latent dirichlet allocation. In advances in neural information processing systems, pages 856-864, 2010.
既存のIRL手法では、各道や場所における潜在的なコストは固定された静的なものとして定義されている。しかしながら、このことは現実に即さない場合がある。例えば、突発的な事故によってある特定の道が通行不能になるという状況や、混雑によってある特定の道の通過に非常に長い時間を要するという状況が存在する。このような状況では、人はその道路を避けた経路を選択する確率が高まると想定できるが、これは事故の時点から一定期間または渋滞発生中の期間、その道路におけるコストが通常時よりも大きい値になることに相当する。
従って、各道や場所における潜在的なコストを固定ではなく、動的に変化すると考えるほうが望ましい場合があるが、既存のIRL手法では、このような動的な潜在コストを推定することができない。
本発明は、上記の事情に鑑みてなされたもので、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる動的潜在コスト推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る動的潜在コスト推定装置は、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最適化するように推定するパラメタ推定部と、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、を含むものである。
第2の発明に係る動的潜在コスト推定装置は、第1の発明において、前記パラメタ推定部が、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するものである。
第3の発明に係る動的潜在コスト推定装置は、第1又は第2の発明において、前記目的関数が、前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率、前記遷移履歴データから得られる状態間の遷移回数、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて表され、前記報酬関数計算部が、前記推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の報酬関数を計算するものである。
第4の発明に係る動的潜在コスト推定方法は、パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最適化するように推定するステップと、報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算するステップと、を含むものである。
第5の発明に係る動的潜在コスト推定方法は、第4の発明において、前記パラメタ推定部が推定するステップが、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定するものである。
第6の発明に係るプログラムは、コンピュータを、第1〜第3のいずれかの発明に係る動的潜在コスト推定装置が備える各部として機能させるためのプログラムである。
以上説明したように、本発明に係る動的潜在コスト推定装置、方法、及びプログラムによれば、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。
実施形態に係る線形可解マルコフ決定過程(LMDP)における状態集合、基本遷移関数、及び報酬関数の一例を示す模式図である。 実施形態に係る動的潜在コスト推定装置の構成の一例を示すブロック図である。 実施形態に係る動的潜在コスト推定プログラムの処理の流れの一例を示すフローチャートである。 実施形態に係る動的潜在コスト推定プログラムのサブルーチンの処理の流れの一例を示すフローチャートである。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
<本発明の実施形態に係る原理>
まず、本発明の実施形態における原理を、上記非特許文献5〜8を参考文献として提示しながら説明する。ここでは、本実施形態に係る構成及び作用の説明において用いる記号、アルゴリズムについて記述する。なお、本実施形態においては、ユーザ(人)毎に異なる行動の内部基準(後述する報酬関数に相当する)が存在する例を用いて説明するが、時間帯毎に異なる内部基準が存在する場合であっても同様に適用することができる。
[線形可解マルコフ決定過程(LMDP:Linearly-solvable Markov Decision Process)の定義]
まず、上記非特許文献5を参照して、線形可解マルコフ決定過程(LMDP)について説明する。線形可解マルコフ決定過程(LMDP)では、状態集合
、基本遷移関数
、報酬関数
が定義された環境を考える。本実施形態では、一例として、ユーザ毎に報酬関数が存在する場合について述べるため、上記の定義を、非特許文献5から若干変更する。ユーザ数をI、状態数をJとする。状態集合を
、基本遷移関数をJ×J行列
、報酬関数をI×J行列
と定義する。非特許文献5に記載の定義では、上記定義においてユーザ数I=1であり、報酬関数がJ列ベクトルで与えられる場合を考えていることに相当する。上記3つ組
の具体例を図1に示す。なお、図1は、本実施形態に係る線形可解マルコフ決定過程(LMDP)における状態集合、基本遷移関数、及び報酬関数の一例を示す模式図である。図1中の各グリッドが、状態集合
中のいずれかの状態sに対応し、各グリッド間の“基本的な”遷移の確率(基本遷移確率)が基本遷移関数
で決められている。“基本的な”と注釈をつけたのは、LMDPでは行動
を実行し、行動コストを支払うことで、この遷移の確率を変更することが許されているからである。具体的には、行動
を実行することで、状態jから状態kへの遷移の確率を
から
へ変更することができる。
の値が大きければ大きいほど、状態jへの遷移の確率を増加できることがわかる。ただし、
の値は確率の和が1となることを満たすもの、すなわち
を満たすものに限られる。
また、上記のように状態jで行動
を実行することにより発生するコスト
は、確率分布の類似度を図る尺度であるKL(カルバックライブラーダイバージェンス)距離を用いて以下(3)式のように定義される。KL距離は、値が小さいほど類似していることを表し、一致すれば0となる。
つまり、上記(3)式においては遷移の確率を
から変化させればさせるほど、支払うコストが多くなる。上記の行動コストとは別に、ユーザと状態のみに依存した状態コストを表すのが、報酬関数
である。上記図1の例で示すように、この報酬関数の値rijは、例えば、“ユーザiにとっての状態jの目的地らしさ”に対応した値などに対応し、値が小さいほど目的地らしいといえる。さらに、各状態sにおいて実行する行動
を定めたものを方策
と呼ぶこととする。
方策πにしたがって行動するユーザiを考えると、上記(1)式にしたがって確率的に状態間を遷移し、遷移する度に行動コストと状態コストとの和
を支払う動きがモデリングできる。状態遷移を十分な回数繰り返した際に、遷移の過程で支払ったコスト(行動コストと状態コストとの和)の累積和の期待値が最小になるような方策を最適方策と呼び、
と書く。すなわち、最適方策とは、先ほどの例を用いると、できるだけ少ない行動コストで状態コストの低い目的地に早く到達できる方策であり、直感的には、目的地に到達する最適な手順を表しているとみなせる。このように、基本遷移関数
と報酬関数
が既知の時に、最適方策
を求める問題が、LMDPにおける順問題である。ユーザiの最適方策は、以下(4)式の最適性方程式を満たす価値関数

を求めることで、次の(6)式のように算出できる。なお、上記(4)式から(5)式への式展開は、上記非特許文献5を参照できる。また、価値関数は、各状態の目的地への到達しやすさを表す。価値関数の求め方は後述する。
ただし、γは、割引率
であり、将来に得る報酬をどれだけ減衰させて評価するかを定めるものである。ここで、上記(6)式により得られた最適方策の値を上記(1)式に代入することで、最適方策により行動を選択する場合の遷移確率は、以下(7)式で与えられることがわかる。
したがって、価値関数
が計算できれば、LMDPの順問題が解けることになる。
[価値関数計算アルゴリズム]
次に、価値関数を計算するアルゴリズムについて説明する。価値関数を計算するアルゴリズムは上記(5)式から導かれる。両辺の符号を変換したのち、指数をとると、以下の(8)式が求まる。
ここで
と定義すると、上記(8)式は、以下(9)式のようにベクトル表記できる。
そして、以下(10)式に従い、
と収束するまで更新することで、上記(9)式を満たす
を求めることができる(上記非特許文献5を参照)。
最後に
の定義より、
と変換することで、価値関数
が求まる。各ユーザiについて以上の手続きを繰り返すことで、各ユーザiの価値関数vの集合を表す価値関数Vが求まる。以上がLMDPの順問題の解法である。なお、ユーザ数I=1であれば、上記の手続きは、上記非特許文献5による価値関数計算方法と同等であり、計算方法に本質的な違いは存在しない。
[逆問題の解法]
次に、上記非特許文献6を参照して、LMDPの逆問題を説明する。LMDPの逆問題は、人、ロボットの遷移の系列と基本遷移関数とを入力とし、報酬関数を推定する問題、として定式化される。逆問題における解法の鍵は、人、ロボットの遷移が上記(7)式の最適方策による遷移確率にしたがって得られているとみなすことにある。ユーザiの遷移履歴データ
を(遷移前の状態、遷移後の状態)という1ステップの遷移の履歴の集合で表現し、
を状態jが遷移前の状態として現れた回数とし、
を状態jが遷移後の状態として現れた回数とする。ユーザiの価値関数
を未知のパラメタとみなすと、上記(7)式から、負の対数尤度関数
を最小化する
が、入力の遷移の履歴
を生成する確率の最も高い最尤推定量
となる。
上記の尤度関数の最小化には、最急降下法やニュートン法など任意の方法が適用できる。上記(5)式に最尤推定量
を代入すれば、報酬関数は、次の(12)式により求めることができる。
以上がLMDPの逆問題の解法である。上記のアプローチでは、ユーザiの推定にはユーザiの遷移履歴データ
のみを利用して推定を行っている。また、基本遷移確率
は、既知であるとした。
<本発明の実施形態に係る概要>
本実施形態に係る手法は、ユーザ毎に報酬関数が存在する状況において、各ユーザ毎の報酬関数と基本遷移確率とを動的に推定することを可能とする新しい手法である。本実施形態に係るパラメタ推定の定式化の方法は、最尤推定や変分ベイズ推定等の多様な方法が存在する。以下では、一例として、上記非特許文献7、8等に記載されている変分ベイズ推定法に基づくオンラインアルゴリズムについて示す。但し、最尤推定法などに基づくアルゴリズムも、以下に示すアルゴリズム導出の手続きから容易に類推して導出可能である。まず、コストが静的な場合のアルゴリズムを示した後、コストが動的な場合のアルゴリズムを示す。
変分ベイズ推定法では、推定するパラメタの確率分布を推定する。総ユーザ数をI、あるユーザiの潜在的な特徴量を表す特徴ベクトルを、
と書く。同様に、総場所数をJ、ある場所jの潜在的な特徴量を表す特徴ベクトルを、
と書く。Rは上記特徴ベクトルの次元を表す。R<<I,Jを満たす。
上記の特徴ベクトルを各行にもつ行列を、
と書き、それぞれユーザ特徴行列、状態特徴行列と呼ぶ。これらの行列が推定対象となるパラメタA、B(以下、個別にユーザパラメタA、場所パラメタBともいう。)である。
ユーザiの場所jにおける価値関数の値が、
として、上記2つの特徴ベクトルの積として表現されると仮定し、あるユーザ特徴行列、状態特徴行列が与えられた場合に、全ユーザの移動履歴を表すデータ
を生成する確率は、上記(7)式より、
と書ける。ただし、
は、ユーザiが場所jから場所kへ遷移した回数を表す。
また、以後の記述で、
のように、添え字の一部をドット記号で記述されている場合には, その添え字に関しては和をとった値を表すこととする。すなわち、
である。また、記述の簡便性のため、 基本遷移確率を
と定義しなおした。また、ユーザパラメタA及び場所パラメタBの各々の事前分布は、正規分布で与えられるとし、以下の式で定義する。
ただし、α、αは、ハイパーパラメタである。これらより、観測データとパラメタの同時確率は、次の式のように書き下せる。
前述したように、変分ベイズ推定法による学習では、ユーザパラメタA及び場所パラメタBの各々の分布を推定する。以後、ユーザパラメタA及び場所パラメタBの各々の分布を
とする。このパラメタ分布を
のように、分解できるという条件のもと、目的関数
を最小化することで求める方法が変分ベイズ推定法である。なお、関数hは、任意の対数尤度関数の下界となる関数を示し、ここでは以下の定義を利用する(この関数が下界であることの証明は省略する)。
は、補助変数であり、これらの補助変数も最適化の対象とされる。また、
と定義した。σ( )は、シグモイド関数を表す。変分ヘイズ推定法による解析から、
が最小となるとき、行列A、Bの分布は正規分布であり、その平均と分散のパラメタは、以下の式を満たすことが示される。なお、平均がμ、分散がΣとする。
なお、上記(16)〜(19)式において、
は、
であり、
は、
である。また、上記(16)、(18)式において、上付きのTは転置を示す。
これらの式に基づいて、「各分布のパラメタを他の分布のパラメタを固定したもとで更新する」ことを何度も繰り返すことで、パラメタ分布を得ることができる。このアルゴリムが静的なコストの場合における変分ベイズアルゴリズムである。なお、補助変数も上記繰り返し手続きの途中に下記の更新を実行することで最適化することができる。
ただし、
である。なお、|Ω|は、状態jから1ステップで移動可能な状態の数を表す。上記のアルゴリズムに基づいて、遷移履歴データが逐次的に到着し、動的にコストが変化する状況のアルゴリズムを導く。
ここでは特に、動的に場所のコストが変化し、一例として、逐次的に新たなユーザの移動に関する遷移履歴データが到着する状況を考える。すなわち、過去のユーザの移動を表現していた場所パラメタB(場所の特徴ベクトル)と、現在の場所における場所パラメタBは等しくないという状況である。したがって、過去のデータよりもより現在のデータをより重視する、という方針のもとアルゴリズムを設計する。以下にアルゴリズムの手続きを示す。なお、ここでいう新たなユーザとは、総ユーザ数Iに含まれない新たなユーザを想定しているが、過去のユーザを対象としても同様である。
新たなユーザtの遷移履歴データから、ユーザtが場所jから場所kへ遷移した回数を示すデータ
が得られたとする。そして、これまでに推定されている場所の場所パラメタBに基づいて、ユーザtの特徴ベクトルaと関連する補助変数
を推定する。これらの補助変数に基づいて、場所パラメタBに関する平均及び分散のパラメタの値を、上記式(18)、(19)式のうち過去のユーザに関する項を減衰させたうえで、ユーザtに関する項を加えることで更新する。具体的な平均及び分散のパラメタの更新式を以下に示す。
このような手続きによって、状態特徴行列Bに関する平均及び分散のパラメタは、過去のデータを忘却しながら、現在のデータに追随するよう推定されていくようになる。なお、このようにして推定した平均及び分散のパラメタを用いれば、ユーザtの場所jに関する価値関数の推定値は、
であるから、報酬関数を求める上記(12)式の記号
を、記号
で置き換えて、
と計算することで、ユーザtの場所jにおける報酬関数の推定値
が得られる。上記が本実施形態に係るアルゴリズムである。
<本発明の実施形態に係る動的潜在コスト推定装置の構成>
図2は、本実施形態に係る動的潜在コスト推定装置90の構成の一例を示すブロック図である。
図2に示すように、本実施形態に係る動的潜在コスト推定装置90は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及びHDD(Hard Disk Drive)等を備えたコンピュータとして構成される。ROMには、本実施形態に係る動的潜在コスト推定プログラムが記憶されている。なお、動的潜在コスト推定プログラムは、HDDに記憶されていてもよい。
上記の動的潜在コスト推定プログラムは、例えば、動的潜在コスト推定装置90に予めインストールされていてもよい。この動的潜在コスト推定プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、動的潜在コスト推定装置90に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が挙げられる。
CPUは、ROMに記憶されている動的潜在コスト推定プログラムを読み込んで実行することにより、グラフ重み処理部10、状態特徴行列処理部20、遷移履歴処理部30、パラメタ推定部40、報酬関数計算部50、及び報酬関数処理部60として機能する。また、HDDは、記録部70として機能する。記録部70は、グラフ重み記録部71、状態特徴行列記録部72、遷移履歴記録部73、ユーザ特徴行列記録部74、及び報酬関数記録部75を含む。
動的潜在コスト推定装置90は、入出力部80を備える。入出力部80は、外部装置92から出力された、状態間の基本遷移確率の負の対数として定義される
の集合を表すグラフ重みデータ
及びハイパーパラメタα、αの入力を受け付ける。
グラフ重み処理部10は、入出力部80により入力を受け付けたグラフ重みデータ
及びハイパーパラメタα、αをグラフ重み記録部71に格納する。
また、入出力部80は、外部装置92から出力された、状態特徴行列Bの分布パラメタ
の初期値の入力を受け付ける。
状態特徴行列処理部20は、入出力部80により入力を受け付けた状態特徴行列Bの分布パラメタ
の初期値を状態特徴行列記録部72に格納する。
また、入出力部80は、外部装置92から出力された、推定対象とされる、新たなユーザtの遷移履歴データ
の入力を受け付ける。
遷移履歴処理部30は、入出力部80により入力を受け付けたユーザtの遷移履歴データ
を遷移履歴記録部73に格納する。本実施の形態では、新たなユーザtについての遷移履歴データが到着する毎に、到着した遷移履歴データが遷移履歴記録部73に格納される。
パラメタ推定部40は、グラフ重み記録部71に格納されたグラフ重みデータ
及びハイパーパラメタα、α、状態特徴行列記録部72に格納された状態特徴行列Bの分布パラメタ
の初期値、及び遷移履歴記録部73に格納されたユーザtの遷移履歴データ
を入力とし、上記(14)式に示す目的関数を最適化するように、ユーザtの潜在的な特徴量を表す特徴ベクトルa(以下、ユーザ特徴ベクトルa)の分布を表す分布パラメタ
と、ユーザ特徴ベクトルaと関連する補助変数
と、状態特徴行列Bの分布を表す分布パラメタ
と、を推定する。本実施形態では、目的関数を最小化することで、最適化しているが、利用する目的関数の種類によっては、目的関数を最大化することで、最適化してもよい。なお、上記では、ユーザtのユーザ特徴ベクトルa及び状態特徴行列Bを用いて、ユーザtの各場所の価値関数が表現されると仮定する。また、上記目的関数は、状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率(上記(7)式)、上記遷移履歴データから得られる状態間の遷移回数、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタを用いて表される。本実施形態に係るパラメタ推定部40は、上記目的関数を最小化することにより、ユーザtのユーザ特徴ベクトルaの分布パラメタ
及びユーザ特徴ベクトルaと関連する補助変数
を推定し、推定した分布パラメタ
及び補助変数
をユーザ特徴行列記録部74に格納する。
具体的には、パラメタ推定部40は、予め定められた反復終了条件を満たすまで、上記(14)式で示される目的関数を最小化するように、ユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数を更新することを繰り返すことにより、ユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数を推定する。一例として、変分ベイズ推定法により上記(14)式で示される目的関数が最小となるとき、ユーザ特徴行列A及び状態特徴行列Bの各々は正規分布となり、パラメタ推定部40は、ユーザ特徴ベクトルaの分布パラメタ
を、上記(16)、(17)式に従って更新する。そして、パラメタ推定部40は、更新前と更新後の平均パラメタ
の差の絶対値の最大値
が、平均パラメタの更新量の最大変化幅を示す変数δ1より大きい場合に、変数δ1を上記最大値に更新する。但し、更新前の平均パラメタの値を
、更新後の値を
と記述した。
また、パラメタ推定部40は、ユーザ特徴ベクトルaと関連する補助変数
を、上記(20)、(21)式に従って更新する。そして、パラメタ推定部40は、更新前と更新後の値の差の絶対値の最大値
が、値の更新量の最大変化幅を示す変数δ2より大きい場合に、変数δ2を上記最大値に更新する。この変数δ2は、上記変数δ1と同じでもよいし、異なっていてもよい。以下では、説明を簡単にするため、δ1=δ2として、単に変数δと記述する。但し、更新前の補助変数
の要素を
、更新後の要素を
と記述した。同様に、更新前の補助変数
の要素を
、更新後の要素を
と記述した。
パラメタ推定部40は、変数δが予め定められた閾値εより小さい場合に、ユーザ特徴ベクトルaの分布パラメタ及び補助変数の更新を終了する。また、パラメタ推定部40は、ユーザ特徴ベクトルaの分布パラメタ及び補助変数の更新を繰り返し、繰り返し回数をカウントする。この場合、パラメタ推定部40は、カウントした繰り返し回数が予め定められた最大繰り返し回数を超える場合に、ユーザ特徴ベクトルaの分布パラメタ及び補助変数の更新を終了してもよい。
そして、パラメタ推定部40は、ユーザ特徴行列記録部74に格納された、更新後のユーザtについてのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数に基づいて、上記(22)、(23)式に従って、状態特徴行列Bの分布パラメタ
を更新することにより、状態特徴行列Bの分布パラメタを推定し、推定した状態特徴行列Bの分布パラメタ
を状態特徴行列記録部72に格納する。
報酬関数計算部50は、状態特徴行列記録部72に格納された状態特徴行列Bの分布パラメタ
、及び、ユーザ特徴行列記録部74に格納されたユーザtについてのユーザ特徴ベクトルaの分布パラメタ
に基づいて、ユーザtについての場所jの目的地への到達し易さを表す価値関数
を推定し、推定した価値関数、及び状態間の基本遷移確率(グラフ重みデータW)を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、上記(24)式を用いて、ユーザtについての場所jの目的地らしさを表す報酬関数
を計算し、報酬関数記録部75に格納する。
報酬関数処理部60は、報酬関数記録部75に格納された報酬関数
を、入出力部80を介して外部装置92に出力する。
なお、本実施形態では、上記遷移履歴データがユーザ毎に入力される場合について説明したが、上記遷移履歴データが時間帯毎に入力される場合についても同様に適用することができる。この場合、ユーザtを、時間帯tに置き換えればよい。つまり、パラメタ推定部40は、時間帯tについての特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタを推定する。報酬関数計算部50は、パラメタ推定部40により推定された、時間帯tについての特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタに基づいて、時間帯tについての各状態の報酬関数を計算する。
<本発明の実施形態に係る動的潜在コスト推定装置の作用>
次に、図3を参照して、本実施形態に係る動的潜在コスト推定装置90の作用について説明する。なお、図3は、本実施形態に係る動的潜在コスト推定プログラムの処理の流れの一例を示すフローチャートである。
まず、図3のステップ100では、グラフ重み処理部10が、外部装置92から入出力部80を介してグラフ重みデータW及びハイパーパラメタα、αの入力を受け付け、グラフ重み記録部71に格納する。一方、状態特徴行列処理部20は、外部装置92から入出力部80を介して状態特徴行列Bの分布パラメタの初期値の入力を受け付け、状態特徴行列記録部72に格納する。
ステップ102では、遷移履歴処理部30が、外部装置92から入出力部80を介してユーザtの遷移履歴データDの到着を受け付けたか否かを判定する。ユーザtの遷移履歴データDの到着を受け付けたと判定した場合(肯定判定の場合)、ユーザtの遷移履歴データDを遷移履歴記録部73に格納し、ステップ104に移行する。一方、ユーザtの遷移履歴データDの到着を受け付けていないと判定した場合(否定判定の場合)、ステップ102で待機となる。
ステップ104では、パラメタ推定部40が、グラフ重み記録部71に格納されたグラフ重みデータW、ハイパーパラメタα、α、状態特徴行列記録部72に格納された状態特徴行列Bの分布パラメタの初期値、及び遷移履歴記録部73に格納されたユーザtの遷移履歴データDに基づいて、上記(14)式に示す目的関数を最小化することで、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタを推定する。具体的には、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタの更新処理として、図4に示すサブルーチンが実行される。
図4は、本実施形態に係る動的潜在コスト推定プログラムのサブルーチンの処理の流れの一例を示すフローチャートである。
まず、図4のステップ200では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルa、及びユーザ特徴ベクトルaと関連する補助変数η、ξを初期化する。
ステップ202では、パラメタ推定部40が、終了条件に用いる変数δを初期化する。そして、パラメタ推定部40は、終了条件となる閾値ε、及び最大繰り返し回数を設定する。
ステップ204では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルaの分布パラメタを、上記(16)、(17)式に従って更新する。このとき、更新前と更新後の平均パラメタの差の絶対値の最大値
が変数δより大きい場合、変数δを上記最大値に更新する。
ステップ206では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルaと関連する補助変数η、ξを、上記(20)、(21)式に従って更新する。このとき、更新前と更新後の値の差の絶対値の最大値
が変数δより大きい場合、変数δを上記最大値に更新する。
ステップ208では、パラメタ推定部40が、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数η、ξの繰り返し回数をカウントアップする。
ステップ210では、パラメタ推定部40が、終了条件を満たしているか否かを判定する。終了条件を満たしていると判定した場合(肯定判定の場合)、更新したユーザtのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数η、ξをユーザ特徴行列記録部74に格納し、ステップ212に移行する。一方、終了条件を満たしていないと判定した場合(否定判定の場合)、ステップ214に移行し、変数δ←0として、ステップ204に戻り処理を繰り返す。なお、ここでいう終了条件としては、上述したように、繰り返し回数が最大繰り返し回数を超えた場合、又は、変数δが閾値εより小さい場合に、終了と判定される。
ステップ212では、パラメタ推定部40が、状態特徴行列Bの分布パラメタを、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及びユーザ特徴ベクトルaと関連する補助変数η、ξに基づいて、上記(22)、(23)式に従って更新し、図3のステップ106に移行する。
次に、図3に戻り、ステップ106では、報酬関数計算部50が、グラフ重みデータW、ハイパーパラメタα、α、ユーザtのユーザ特徴ベクトルaの分布パラメタ、及び状態特徴行列Bの分布パラメタに基づいて、上記(24)式を用いて、ユーザtについての報酬関数を計算し、計算した報酬関数を報酬関数記録部75に格納する。そして、報酬関数処理部60は、報酬関数記録部75に格納された報酬関数を、入出力部80を介して外部装置92に出力する。
なお、上記では、各因子行列A、Bの更新式として、一例として変分ベイズ推定法に基づいて導出した式を利用しているが、上記(13)式で表されるモデルのパラメタを推定する他のいかなる方法を用いても良い。
本実施形態によれば、道や場所の潜在コストが動的に変化する場合であっても、その変化に追随して動的な潜在コストを推定することができる。
これによって、事故や渋滞等が突発的に発生する場合においても、より正確にユーザが選択する移動経路を予測することができるようになる。
以上、実施形態として動的潜在コスト推定装置を例示して説明した。実施形態は、コンピュータを、動的潜在コスト推定装置が備える各部として機能させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明した動的潜在コスト推定装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 グラフ重み処理部
20 状態特徴行列処理部
30 遷移履歴処理部
40 パラメタ推定部
50 報酬関数計算部
60 報酬関数処理部
70 記録部
71 グラフ重み記録部
72 状態特徴行列記録部
73 遷移履歴記録部
74 ユーザ特徴行列記録部
75 報酬関数記録部
80 入出力部
90 動的潜在コスト推定装置
92 外部装置

Claims (6)

  1. ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最適化するように推定するパラメタ推定部と、
    前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算する報酬関数計算部と、
    を含む動的潜在コスト推定装置。
  2. 前記パラメタ推定部は、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、
    前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定する請求項1に記載の動的潜在コスト推定装置。
  3. 前記目的関数は、前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率、前記遷移履歴データから得られる状態間の遷移回数、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて表され、
    前記報酬関数計算部は、前記推定した価値関数、及び前記状態間の基本遷移確率を用いて表される、最適方策により行動を選択する場合の状態間の遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の報酬関数を計算する請求項1又は2に記載の動的潜在コスト推定装置。
  4. パラメタ推定部が、ユーザ毎又は時間帯毎にユーザが状態間を遷移した履歴を表す遷移履歴データが入力される毎に、前記入力された前記遷移履歴データのユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトル、及び各状態の潜在的な特徴量を表す特徴ベクトルを持つ状態特徴行列を用いて、ユーザt又は時間帯tの各状態の価値関数が表現されると仮定して、ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布を表す分布パラメタ、及び前記状態特徴行列の分布を表す分布パラメタを、各ユーザ又は各時間帯の潜在的な特徴量を表す特徴ベクトルの分布パラメタ、前記状態特徴行列の分布パラメタ、前記状態間の基本遷移確率、及び前記遷移履歴データから得られる状態間の遷移回数を用いて表される目的関数を最適化するように推定するステップと、
    報酬関数計算部が、前記パラメタ推定部によって推定された、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタを用いて、前記ユーザt又は時間帯tについての各状態の目的地への到達し易さを表す価値関数を推定し、推定した価値関数、及び前記状態間の基本遷移確率に基づいて、前記ユーザt又は時間帯tについての各状態の目的地らしさを表す報酬関数を計算するステップと、
    を含む動的潜在コスト推定方法。
  5. 前記パラメタ推定部が推定するステップは、前記状態間の基本遷移確率の負の対数の集合を表すグラフ重みデータ、前記状態特徴行列の分布パラメタ、及び前記入力された遷移履歴データに基づいて、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタを推定し、前記グラフ重みデータ、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ、及び前記状態特徴行列の分布パラメタに基づいて、前記目的関数に含まれる補助変数を推定することを、予め定められた反復終了条件を満たすまで繰り返し、
    前記推定した、前記ユーザt又は時間帯tの潜在的な特徴量を表す特徴ベクトルの分布パラメタ及び前記補助変数に基づいて、前記状態特徴行列の分布パラメタを推定する請求項4に記載の動的潜在コスト推定方法。
  6. コンピュータを、請求項1〜3のいずれか1項に記載の動的潜在コスト推定装置の各部として機能させるためのプログラム。
JP2017101266A 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム Active JP6850678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017101266A JP6850678B2 (ja) 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017101266A JP6850678B2 (ja) 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018197653A true JP2018197653A (ja) 2018-12-13
JP6850678B2 JP6850678B2 (ja) 2021-03-31

Family

ID=64663787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017101266A Active JP6850678B2 (ja) 2017-05-22 2017-05-22 動的潜在コスト推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6850678B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509326A (zh) * 2020-12-02 2021-03-16 北京航空航天大学 一种基于广义极值t分布偏差的非周期拥堵检测方法
CN116957172B (zh) * 2023-09-21 2024-01-16 山东大学 基于深度强化学习的动态作业车间调度优化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011074369A1 (ja) * 2009-12-18 2011-06-23 インターナショナル・ビジネス・マシーンズ・コーポレーション コスト評価システム、方法及びプログラム
WO2016021210A1 (en) * 2014-08-07 2016-02-11 Okinawa Institute Of Science And Technology School Corporation Inverse reinforcement learning by density ratio estimation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011074369A1 (ja) * 2009-12-18 2011-06-23 インターナショナル・ビジネス・マシーンズ・コーポレーション コスト評価システム、方法及びプログラム
WO2016021210A1 (en) * 2014-08-07 2016-02-11 Okinawa Institute Of Science And Technology School Corporation Inverse reinforcement learning by density ratio estimation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509326A (zh) * 2020-12-02 2021-03-16 北京航空航天大学 一种基于广义极值t分布偏差的非周期拥堵检测方法
CN116957172B (zh) * 2023-09-21 2024-01-16 山东大学 基于深度强化学习的动态作业车间调度优化方法及系统

Also Published As

Publication number Publication date
JP6850678B2 (ja) 2021-03-31

Similar Documents

Publication Publication Date Title
Kocadağlı et al. Nonlinear time series forecasting with Bayesian neural networks
JP6464075B2 (ja) What−ifシミュレーション装置、方法、及びプログラム
Sirignano et al. Stochastic gradient descent in continuous time
JP6749282B2 (ja) 人流量予測装置、人流量予測方法、及び人流量予測プログラム
Kocadağlı A novel hybrid learning algorithm for full Bayesian approach of artificial neural networks
Wen et al. Batch stationary distribution estimation
KR20160050807A (ko) 데이터 분석 및 예측 장치 및 방법
JP6850678B2 (ja) 動的潜在コスト推定装置、方法、及びプログラム
JP7378836B2 (ja) 総和確率的勾配推定方法、装置、およびコンピュータプログラム
JP6853968B2 (ja) パラメータ推定システム、パラメータ推定方法およびパラメータ推定プログラム
JP2019067224A (ja) 人流パターン推定システム、人流パターン推定方法および人流パターン推定プログラム
Verstraete et al. Consistent iterative algorithm for stochastic dynamic traffic assignment with a stable route set
Liu Rank-based ant colony optimization applied to dynamic traveling salesman problems
JP2019095895A (ja) 人流量予測装置、方法、及びプログラム
Schmidt Numerical prediction and sequential process optimization in sheet forming based on genetic algorithm
JP6789176B2 (ja) 潜在コスト推定装置、方法、及びプログラム
JP2017027509A (ja) 予測モデル構築装置
Randhawa et al. Combining importance sampling and temporal difference control variates to simulate Markov chains
JP2018147075A (ja) パラメータ出力装置、パラメータ出力方法及びプログラム
JP5427163B2 (ja) 行動制御装置、行動制御方法及び行動制御プログラム
Murphy Hidden states, hidden structures: Bayesian learning in time series models
Chen et al. Stochastic co-kriging for steady-state simulation metamodeling
JP5713877B2 (ja) 入出力モデル推定装置、方法、及びプログラム
JP6837953B2 (ja) パラメータ推定装置、パラメータ推定方法及びプログラム
Hauman et al. Application of the multi-objective cross-entropy method to the vehicle routing problem with soft time windows

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210308

R150 Certificate of patent or registration of utility model

Ref document number: 6850678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150