JP7006566B2 - 最適化装置、誘導システム、最適化方法、及びプログラム - Google Patents

最適化装置、誘導システム、最適化方法、及びプログラム Download PDF

Info

Publication number
JP7006566B2
JP7006566B2 JP2018205831A JP2018205831A JP7006566B2 JP 7006566 B2 JP7006566 B2 JP 7006566B2 JP 2018205831 A JP2018205831 A JP 2018205831A JP 2018205831 A JP2018205831 A JP 2018205831A JP 7006566 B2 JP7006566 B2 JP 7006566B2
Authority
JP
Japan
Prior art keywords
parameter
unit
evaluation
optimization
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018205831A
Other languages
English (en)
Other versions
JP2020071712A (ja
Inventor
秀剛 伊藤
恭太 堤田
達史 松林
浩之 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018205831A priority Critical patent/JP7006566B2/ja
Priority to US17/289,220 priority patent/US20220012548A1/en
Priority to PCT/JP2019/041994 priority patent/WO2020090675A1/ja
Publication of JP2020071712A publication Critical patent/JP2020071712A/ja
Application granted granted Critical
Publication of JP7006566B2 publication Critical patent/JP7006566B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、最適化装置、誘導システム、最適化方法、及びプログラムに関する。
近年、機械学習やシミュレーションなどにおいて、パラメータの調整の重要性が増してきている。例えば、機械学習では予め決めるパラメータが存在する。また、人や車のシミュレーションなどでも、予め決めるパラメータが存在する(非特許文献1)。機械学習やシミュレーションの結果を、ここでは評価値と呼ぶ。このような機械学習やシミュレーションでは、評価値がより適切なものになるように、パラメータを調整する問題が存在する。例えば、評価値は値が大きいものが良い場合、パラメータを試行錯誤しながら、評価値が最大になるようにパラメータを決定する、つまりパラメータを最適化することが必要である。近年の機械学習やシミュレーションの高度化に伴い、1回の評価にかかる時間は大きい。そこで、パラメータを少ない試行錯誤で最適化する技術が提案されている(非特許文献2)。
Krajzewicz, D., Brockfeld, E., Mikat, J., Ringel, J., Rossel, C., Tuchscheerer, W., Wagner, P., and Wosler, R.: Simulation of modern Traffic Lights Control Systems using the open source Traffic Simulation SUMO, Proceedings of the 3rd Industrial Simulation Conference 2005, pp. 299-302 (2005).
Shahriari, B., Swersky, K.,Wang, Z., Adams, R. P. and Freitas, de N.: Taking the human out of the loop: A review of bayesian optimization, Proceedings of the IEEE, Vol. 104, No. 1, pp. 148-175 (2016).
本開示は上記のパラメータの最適化問題のうち、パラメータに階層的な依存関係がある場合を対象とする。階層的な依存関係とは、あるパラメータの値によって、ある他のパラメータを考慮する必要が出てくるものをいう。
例えば、人の誘導を考える。人の誘導を行うかどうかを1つのパラメータとしたとき、人の誘導を行う場合は、どのように誘導を行うのか、誘導の仕方を決める新しいパラメータが必要となる。この、誘導の仕方を指定する新しいパラメータは、誘導を行わない場合は考慮する必要もなく、シミュレーションの結果に影響を及ぼさない。これが、パラメータに階層的な依存関係がある場合である。
また、別の例として機械学習を考える。機械学習の1種にニューラルネットが存在する。ニューラルネットは、ネットワークの層の数というパラメータがある。ここで、ネットワークの層の数が2であるとき、3層目のネットワークに関係するパラメータは考慮する必要がない。一方、ネットワークの層の数が3になると、3層目のネットワークに関係するパラメータを考慮する必要がある。これが、パラメータに階層的な依存関係がある場合である。
これらの例の場合、パラメータを2種類に分けることができる。他のパラメータに影響を与えるパラメータと、他のパラメータに影響を受けるパラメータとである。そこで、前者を上位パラメータ、後者を下位パラメータと呼ぶ。上記の例であれば、人の誘導を行うか否か、及びネットワークの層の数の各々は、上位パラメータである。また、誘導の仕方、及び各層のネットワークに関係するパラメータの各々は、下位パラメータである。
このように、パラメータに階層的な依存関係がある場合、上位パラメータ、及び下位パラメータを共に最適化する必要がある。
本開示は、上記の点に鑑みてなされたものであり、少ない評価回数で、上位パラメータ、及び下位パラメータの最適化を行うことができる、最適化装置、誘導システム、最適化方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本開示の第1の態様の最適化装置は、評価用データを入力として計算するときに用いられる上位パラメータ、及び前記上位パラメータの影響を受ける下位パラメータを最適化する最適化装置であって、前記評価用データ、前記上位パラメータ、及び前記下位パラメータに基づいて、前記計算を行い、計算結果の評価を表す評価値を出力する評価部と、前記上位パラメータ及び前記下位パラメータを最適化する最適化部と、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化された前記上位パラメータ及び前記下位パラメータを出力する出力部と、を備え、前記最適化部は、前記評価値、前記上位パラメータ、及び前記下位パラメータの組み合わせに基づいて、評価値を予測するためのモデルを学習し、前記評価部が次に評価する前記上位パラメータを選択し、学習した前記モデルに基づいて、前記選択された前記上位パラメータに対応する前記下位パラメータから、前記評価部が次に評価する前記下位パラメータを決定する。
本開示の第2の態様の最適化装置は、第1の態様の最適化装置において、前記最適化部は、前記モデルを用いて、前記下位パラメータの各々について前記評価値を予測し、前記下位パラメータに対する前記評価値の予測を変数とする獲得関数を計算し、前記獲得関数が最大または最小となる前記下位パラメータを、前記評価部が次に評価する前記下位パラメータとして決定する。
本開示の第3の態様の最適化装置は、第1の態様または第2の態様の最適化装置において、前記モデルは、ガウス過程を用いる確率モデルである。
本開示の第4の態様の最適化装置は、第1の態様から第3の態様のいずれか1態様の最適化装置において、前記最適化部は、前記評価部による処理により得られた、前記評価値、前記上位パラメータ、及び前記下位パラメータに基づいて、前記モデルを学習する。
上記目的を達成するために、本開示の第5の態様の誘導システムは、歩行者の誘導を制御するための誘導装置と、前記歩行者の状況の計算に必要な評価用データを入力として計算するときに用いられる上位パラメータ、及び前記上位パラメータの影響を受ける下位パラメータを最適化する最適化装置と、を備える誘導システムであって、前記誘導装置は、前記最適化装置により得られた前記上位パラメータ及び前記下位パラメータを用いて、前記歩行者の誘導を制御する制御部を含み、前記最適化装置は、前記評価用データ、前記上位パラメータ、及び前記下位パラメータに基づいて、前記計算を行い、計算結果の評価を表す評価値を出力する評価部と、前記上位パラメータ及び前記下位パラメータを最適化する最適化部と、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化された前記上位パラメータ及び前記下位パラメータを出力する出力部と、を含み、前記最適化部は、前記評価値、前記上位パラメータ、及び前記下位パラメータの組み合わせに基づいて、評価値を予測するためのモデルを学習し、前記評価部が次に評価する前記上位パラメータを選択し、学習した前記モデルに基づいて、前記選択された前記上位パラメータに対応する前記下位パラメータから、前記評価部が次に評価する前記下位パラメータを決定する。
上記目的を達成するために、本開示の第6の態様の最適化方法は、評価用データを入力として計算するときに用いられる上位パラメータ、及び前記上位パラメータの影響を受ける下位パラメータを最適化する最適化方法であって、評価部が、前記評価用データ、前記上位パラメータ、及び前記下位パラメータに基づいて、前記計算を行い、計算結果の評価を表す評価値を出力するステップと、最適化部が、前記上位パラメータ及び前記下位パラメータを最適化するステップと、出力部が、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化された前記上位パラメータ及び前記下位パラメータを出力するステップと、を備え、前記最適化部が最適化するステップは、前記評価値、前記上位パラメータ、及び前記下位パラメータの組み合わせに基づいて、評価値を予測するためのモデルを学習し、前記評価部が次に評価する前記上位パラメータを選択し、学習した前記モデルに基づいて、前記選択された前記上位パラメータに対応する前記下位パラメータから、前記評価部が次に評価する前記下位パラメータを決定するステップを含む。
上記目的を達成するために、本開示の第7態様のプログラムは、コンピュータを、第1の態様から第4の態様のいずれか1態様に記載の最適化装置の各部として機能させるためのプログラムである。
本開示によれば、少ない評価回数で、上位パラメータ、及び下位パラメータの最適化を行うことができる、という効果が得られる。
実施形態の誘導システムの一例の構成を示すブロック図である 実施形態のパラメータ及び評価値記憶部に記憶される情報の一部の例を示す図である。 実施形態の最適化装置における最適化処理ルーチンの一例を示すフローチャートである。
以下、図面を参照して本開示の実施形態を詳細に説明する。一例として、本実施形態では、歩行者の流れ、いわゆる人流のシミュレーション(以下、「人流シミュレーション」という)を行った結果から計算される評価値に基づいて、歩行者を誘導する誘導装置のパラメータを最適化する誘導システムに対し、本開示の最適化装置を適用した形態について説明する。
<本実施形態の誘導システムの構成>
図1は、本実施形態の誘導システムの一例の構成を示すブロック図である。図1に示すように、本実施形態の誘導システム1は、最適化装置10及び誘導装置50を備える。
一例として、本実施形態の最適化装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する最適化処理ルーチンを実行するためのプログラムや各種データを記憶したROM(Read Only Memory)と、を含むコンピュータで構成することができる。具体的には、上記プログラムを実行したCPUが、図1に示した最適化装置10の最適化部100、評価部300、及び出力部400として機能する。
図1に示すように本実施形態の最適化装置10は、最適化部100、評価用データ記憶部200、評価部300、及び出力部400を備える。
評価用データ記憶部200は、評価部300が人流シミュレーションを行うために必要な評価用データを記憶する。評価用データは、誘導を行うに当たり、歩行者の状況の計算に必要なデータであり、例えば、道路の形状、歩行者の進行速度、歩行者の人数、各歩行者のシミュレーション区間への進入時間、それらの歩行者のルート、及び人流シミュレーションの開始時間や終了時間等が挙げられるが、これらに限定されるものではない。これらの評価用データは、任意のタイミングで最適化装置10の外部から評価用データ記憶部200に入力され、評価部300の指示に応じて評価部300に出力される。
評価部300は、評価用データと、上位パラメータz及び下位パラメータxとに基づいて、人流シミュレーションを行い、評価値yを導出する。
本実施形態では一例として、上位パラメータzは、歩行者の誘導を行うか否かについてのパラメータとし、下位パラメータxは、誘導を行う場合における誘導方法を決定するパラメータとしている。また一例として、人流シミュレーションの結果である評価値yは、歩行者が目的地に到達するまでに要した時間としている。
具体的には、評価部300には、評価用データ記憶部200から取得した評価用データが入力される。
また、評価部300には、パラメータ決定部150から、次回の人流シミュレーションにおける上位パラメータz及び下位パラメータxが入力される。換言すると、人流シミュレーションの回数をtとすると、評価部300には、パラメータ決定部150から、t+1回目の人流シミュレーションの上位パラメータzt+1、及び下位パラメータxt+1が入力される。なお、シミュレーションの回数を表すtは、評価部300により評価を行った順番、つまり人流シミュレーションの順番を示す。
最適化部100は、評価部300における人流シミュレーションの上位パラメータz、及び下位パラメータxを最適化する。図1に示すように、本実施形態の最適化部100は、パラメータ及び評価値記憶部110、モデル学習部120、下位パラメータ選択部130、上位パラメータ選択部140、及びパラメータ決定部150を含む。
パラメータ及び評価値記憶部110は、評価部300から入力された、評価部300が過去に行った人流シミュレーションのデータを記憶する。具体的には、パラメータ及び評価値記憶部110が記憶するデータは、t回目(t=0,1,2,…)に選択された上位パラメータz、t回目に選択された下位パラメータx、及びt回目の評価値yである。t=0,1,2,…における、上位パラメータz、下位パラメータx、及び評価値yの集合を、各々Z,X,Yと表す。図2に記憶する情報の一部の例を示す。
また、パラメータ及び評価値記憶部110は、上位パラメータzと下位パラメータxとの階層的な依存関係の対応表も記憶する。依存関係の対応表は、任意のタイミングで最適化装置10の外部からパラメータ及び評価値記憶部110に入力される。
モデル学習部120は、パラメータ及び評価値記憶部110に記憶された上位パラメータzの集合Z,下位パラメータxの集合X,及び評価値yの集合Yに基づいて、モデルの学習を行う。
具体的には、モデル学習部120は、パラメータ及び評価値記憶部110に記憶された上位パラメータzの集合Z,下位パラメータxの集合X,及び評価値yの集合Yを取得する。そして、最適化装置10は、上位パラメータzの集合Z,下位パラメータxの集合X,及び評価値yの集合Yに基づいて、モデルの一例として、確率モデルであるガウス過程を学習する(参考文献1)。さらに、モデル学習部120は、学習したモデルを下位パラメータ選択部130に出力する。
[参考文献1]Rasmussen, C. E. and Williams, C. K. I.: Gaussian processes for machine learning, MIT Press (2006).
ガウス過程による回帰を用いると、任意の入力xに対して、未知の評価値yを正規分布の形で確率分布として推論することができる。また、xに関するカーネルは何でもよい。一例として、下記(1)式で表されるガウスカーネルがある(非特許文献2)。また、下記(1)式におけるθは、実数をとるパラメータである。θの一例として、ガウス過程の周辺尤度が最大になる値に点推定した値を用いる(参考文献1)。
Figure 0007006566000001
なお、本実施形態の最適化装置10では、下位パラメータxに対して評価値yを推定するモデルを学習することにより、パラメータ及び評価値記憶部110に記憶されている、上位パラメータzと下位パラメータxとの階層的な依存関係の対応表により、上位パラメータz及び下位パラメータxに対して評価値yを推定するモデルが学習される。
そして、モデル学習部120は、学習されたガウス過程のモデルを下位パラメータ選択部130に出力する。
上位パラメータ選択部140は、次の評価で用いる上位パラメータの候補zt+1を選択し、下位パラメータ選択部130に出力する。
下位パラメータ選択部130は、モデル学習部120から入力されたモデルであるガウス過程回帰を行い、評価部300において、次に、下位パラメータxt+1を用いて人流シミュレーションするべき度合いを表す、関数を計算する。これを、獲得関数α(x)と呼ぶ。獲得関数α(x)の一例として、下記(2)式に表されるupper confidence boundがある(非特許文献2)。
Figure 0007006566000002
ここで、μ(x)、及びσ(x)は、それぞれガウス過程で回帰した平均と分散であり、βt+1はパラメータである。例えば
Figure 0007006566000003

とすることができる。
そして、次の評価で用いる上位パラメータzt+1が与えられた条件において、獲得関数α(x)が最大となる下位パラメータxt+1をパラメータ決定部150に出力する。ここで、上位パラメータzt+1が与えられたときに下位パラメータxt+1が取り得る値の集合を
Figure 0007006566000004

と置くと、獲得関数α(x)が最大となる下位パラメータxt+1は、下記(3)式で表される。
Figure 0007006566000005
また、下位パラメータ選択部130は、パラメータ及び評価値記憶部110に記憶されている、上位パラメータzと下位パラメータxとの階層的な依存関係の対応表を参照し、全ての上位パラメータの候補
Figure 0007006566000006

について、上位パラメータの候補
Figure 0007006566000007

が与えられた条件において、獲得関数α(x)が最大となる下位パラメータの候補
Figure 0007006566000008

をパラメータ決定部150に出力する。ここで、上位パラメータの候補
Figure 0007006566000009

が与えられたときに下位パラメータxが取り得る値の集合を
Figure 0007006566000010

と置くと、獲得関数α(x)が最大となる下位パラメータの候補
Figure 0007006566000011

は、下記(4)式で表される。
Figure 0007006566000012
さらに、下位パラメータ選択部130は、全ての下位パラメータの候補
Figure 0007006566000013

に対して、
Figure 0007006566000014

とxt+1とを比較し、いずれが、次に人流シミュレーションを行うのに好ましい下位パラメータxであるか否かを判断する。ここで、好ましいものであると判断する根拠の一例として、獲得関数α(x)の値が大きい方が好ましいとすることができる。つまり、下位パラメータ選択部130は、獲得関数α(xt+1)と獲得関数
Figure 0007006566000015

とを比較し、いずれが好ましいかを表す情報を比較結果としてパラメータ決定部150に出力する。
パラメータ決定部150は、下位パラメータ選択部130から入力された上位パラメータの候補
Figure 0007006566000016

及び下位パラメータの候補
Figure 0007006566000017

から、上位パラメータzt+1、及び下位パラメータxt+1を決定する。
具体的には、パラメータ決定部150は、下記(5)式に表すように、下位パラメータxt+1を、下位パラメータ候補
Figure 0007006566000018

に置き換える。また、下記(6)式に表すように、上位パラメータzt+1を、上位パラメータ候補
Figure 0007006566000019

に置き換える。
Figure 0007006566000020
さらに、パラメータ決定部150は、上記(5)式及び(6)式により得られた上位パラメータzt+1、及び下位パラメータxt+1から、上位パラメータの候補
Figure 0007006566000021

、及び下位パラメータの候補
Figure 0007006566000022

の選択が十分であるか否かを判断する。ここで、候補の選択が十分であるか否かを判断する方法の一例として、前回上位パラメータzt+1及び下位パラメータxt+1を選択した際に、全ての下位パラメータの候補
Figure 0007006566000023

の中で、下位パラメータxt+1より好ましいものが存在しなかった場合に、上位パラメータの候補
Figure 0007006566000024

、及び下位パラメータの候補
Figure 0007006566000025

の選択が十分であると判断する方法が挙げられる。パラメータ決定部150は、候補の選択が十分であると判断した場合、上位パラメータzt+1、及び下位パラメータxt+1の情報を評価用データ記憶部200に出力する。一方、パラメータ決定部150は、候補の選択が十分ではないと判断した場合、上位パラメータの候補
Figure 0007006566000026

を、上位パラメータ選択部140に出力する。
出力部400は、最適な上位パラメータz及び下位パラメータxを最適化装置10の外部に出力する。具体的には、本実施形態の出力部400は、パラメータ及び評価値記憶部110に記憶されている評価値を参照し、評価値が最大となる場合の上位パラメータz及び下位パラメータxを、最適な上位パラメータz及び下位パラメータxとして、誘導装置50に出力する。
誘導装置50は、歩行者の誘導を制御するための装置である。上位パラメータz及び下位パラメータxを指定することで、誘導を行うか否か、より具体的には、複数の所定場所の各々において誘導を行うか否か、及び誘導を行う場合は、誘導の仕方についてが、一意に決定される。
一例として、本実施形態の誘導装置50は、CPUと、RAMと、歩行者の誘導を制御するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。具体的には、上記プログラムを実行したCPUが、図1に示した誘導装置50の入力部500及び制御部510として機能する。
図1に示すように、本実施形態の誘導装置50は、入力部500及び制御部510を備える。
入力部500は、最適化装置10の出力部400から、上位パラメータz及び下位パラメータxを取得する。そのため、入力部500には、出力部400から上位パラメータz及び下位パラメータxが入力される。入力部500は、入力された上位パラメータz及び下位パラメータxを、制御部510へ出力する。
制御部510は、入力部500から入力された上位パラメータz及び下位パラメータxを用いて、歩行者の誘導を制御する。具体的には、制御部510は、上位パラメータz及び下位パラメータxに基づき、歩行者の誘導を行う場所、及び誘導行う場所においての歩行者の誘導の仕方を表す情報を誘導装置50の外部に出力する。
<本実施形態の最適化装置の作用>
次に、本実施形態の最適化装置10の作用について図面を参照して説明する。図3は、本実施形態の最適化装置において実行される最適化処理ルーチンの一例を示すフローチャートである。
図3に示した最適化処理ルーチンは、例えば、評価用データが評価用データ記憶部200に記憶されたタイミングや、最適化装置10の外部から最適化処理ルーチンの実行指示を受け付けたタイミング等、任意のタイミングで実行される。なお、本実施形態の最適化装置10では、最適化処理ルーチンの実行前に、人流シミュレーションを行うために必要な評価用データを、評価用データ記憶部200に予め記憶させた状態としておく。
図3のステップS100で評価部300は、パラメータ及び評価値記憶部110から、人流シミュレーションに必要な評価用データを取得する。
次のステップS102で評価部300は、パラメータ及び評価値記憶部110に、上位パラメータz、下位パラメータx、及び評価値yの初期値を記憶させる。本実施形態の最適化装置10では、任意の上位パラメータz、下位パラメータxを用いて評価部300により人流シミュレーションを行い、得られた評価値yと、上位パラメータz及び下位パラメータxとを、1組以上、初期値としてパラメータ及び評価値記憶部110に記憶させる。なお、任意の上位パラメータz及び下位パラメータxは、特に限定されず、例えば、適用する人流シミュレーションで取り得る値ならばよく、ランダムな値であってもよい。
次のステップS104で評価部300は、繰り返し回数t=0を設定する。
次のステップS106でモデル学習部120は、パラメータ及び評価値記憶部110からX,Z,Yを取得する。
次のステップS108で、モデル学習部120は、X,Z,Yから、上述したようにモデルを構築する。そして、モデル学習部120は、学習されたガウス過程のモデルを下位パラメータ選択部130に出力する。
次のステップS110で上位パラメータ選択部140は、次に人流シミュレーションを行う際の上位パラメータzt+1を1つ選択する。選択の一例として、前回、評価部300が評価を行った際の上位パラメータzが挙げられる。
次のステップS112で下位パラメータ選択部130は、学習されたモデルに基づいて、上述したように、上記(2)式により、獲得関数α(x)を構築する。
次のステップS114で上位パラメータ選択部140は、上位パラメータの候補
Figure 0007006566000027

を1つまたは1つ以上選択する。選択方法の一例として、上位パラメータzt+1の周辺の点を全て選択する方法等が挙げられる。
次のステップS116で下位パラメータ選択部130は、上述したように、上記(4)式により、全ての上位パラメータの候補
Figure 0007006566000028

について、上位パラメータの候補
Figure 0007006566000029

が与えられた条件において、獲得関数α(x)が最大となる下位パラメータの候補
Figure 0007006566000030

を導出し、パラメータ決定部150に出力する。
次のステップS118で下位パラメータ選択部130は、上位パラメータの候補
Figure 0007006566000031

及び下位パラメータの候補
Figure 0007006566000032

の各々が、上位パラメータzt+1及び下位パラメータxt+1の各々より良い(好ましい)か否かを判定する。本実施形態の下位パラメータ選択部130は、上述したように、下位パラメータ選択部130は、獲得関数α(xt+1)と獲得関数
Figure 0007006566000033

とを比較し、値が大きい方を好ましいとし、いずれが好ましいかを表す情報を比較結果としてパラメータ決定部150に出力する。
従って、ステップS118では、獲得関数
Figure 0007006566000034

の方が、獲得関数α(x)よりも大きい場合、肯定判定となり、ステップS120へ移行する。
ステップS120でパラメータ決定部150は、上述したように、上記(5)式及び(6)式に表すように、下位パラメータxt+1を、下位パラメータ候補
Figure 0007006566000035

に置き換え、上位パラメータzt+1を、上位パラメータ候補
Figure 0007006566000036

に置き換えたあと、ステップS122へ移行する。
一方、ステップS118において、獲得関数
Figure 0007006566000037

の方が、獲得関数α(x)よりも小さい場合、否定判定となり、ステップS122へ移行する。
ステップS122でパラメータ決定部150は、上述したように、上位パラメータの候補
Figure 0007006566000038

、及び下位パラメータの候補
Figure 0007006566000039

の選択が十分であるか否かを判定する。
候補の選択が十分ではない場合、ステップS122の判定が否定判定となり、ステップS114に戻り、ステップS114~S120の処理を繰り返す。一方、候補の選択が十分な場合、ステップS122の判定が肯定判定となり、ステップS124へ移行する。この場合、パラメータ決定部150は、上位パラメータzt+1、及び位パラメータxt+1を、評価部300へ出力する。
ステップS124で評価部300は、評価用データ記憶部200から取得した評価用データと、パラメータ決定部150から入力された上位パラメータzt+1、及び位パラメータxt+1と、を用いて、人流シミュレーションを実行する。評価部300は、人流シミュレーションの結果得られた、1つまたは1つ以上の評価値yt+1と、上位パラメータzt+1及び下位パラメータxt+1とを、パラメータ及び評価値記憶部110に出力する。
次のステップS126で評価部300は、現在の人流シミュレーションを行った回数tが、予め定めた人流シミュレーションを繰り返す最大回数を超えているか否かを判断する。繰り返しの最大回数の一例としては、1000回が挙げられる。
回数tが最大回数を超えていない場合、ステップS126の判定が否定判定となり、ステップS128へ移行する。ステップS128で評価部300は、t=t+1とした後、ステップS106に戻り、ステップS106~S124の処理を繰り返す。一方、回数tが最大回数を超えている場合、ステップS126の判定が肯定判定となり、ステップS130へ移行する。
ステップS130で出力部400は、パラメータ及び評価値記憶部110を参照し、評価値yが最大値となる、上位パラメータz及び下位パラメータxを、誘導装置50に出力し、本最適化処理ルーチンを終了する。
以上説明したように、本実施形態の最適化装置10は、評価用データを入力として計算するときに用いられる上位パラメータz、及び上位パラメータzの影響を受ける下位パラメータxを最適化する最適化装置である。最適化装置10は、評価用データ、上位パラメータz、及び下位パラメータxに基づいて、計算を行い、計算結果の評価を表す評価値を出力する評価部300と、上位パラメータz及び下位パラメータxを最適化する最適化部100と、評価部300による処理と、評価部300による処理とを繰り返すことにより得られる、最適化された上位パラメータz及び下位パラメータxを出力する出力部400と、を備える。最適化部100は、評価値y、上位パラメータz、及び下位パラメータxの組み合わせに基づいて、評価値yを予測するためのモデルを学習し、評価部300が次に評価する上位パラメータzを選択し、学習したモデルに基づいて、選択された上位パラメータzに対応する下位パラメータxから、評価部300が次に評価する下位パラメータxを決定する。
本実施形態の最適化装置10では、パラメータの最適化の方針を2段階に分け、徐々に1段階目の処理から2段階目の処理に移行する。ここで1段階目とは、限られたパラメータの候補の中から、最適なものを見つける処理のことをいう。また、2段階目とは、全体のパラメータの候補の中から、最適なものを見つける処理のことをいう。本実施形態の最適化装置10では、上位パラメータzを限定することで、評価値yの予測を実施することにより、1段階目の処理を高速に行うことを可能とする。また、最適化装置10では、1段階目の処理を行うことで2段階目の処理が容易になる。
従った、本実施形態の最適化装置10によれば、少ない評価回数で、上位パラメータz、及び下位パラメータxの最適化を行うことができる。
また、本実施形態の誘導システム1は、歩行者の誘導を制御するための誘導装置50と、歩行者の状況の計算に必要な評価用データを入力として計算するときに用いられる上位パラメータz、及び上位パラメータzの影響を受ける下位パラメータxを最適化する最適化装置10と、を備える誘導システムである。誘導装置50は、最適化装置10により得られた上位パラメータz及び下位パラメータxを用いて、歩行者の誘導を制御する制御部510を含む。最適化装置10は、評価用データ、上位パラメータz、及び下位パラメータxに基づいて、計算を行い、計算結果の評価を表す評価値yを出力する評価部300と、上位パラメータz及び下位パラメータxを最適化する最適化部100と、評価部300による処理と、最適化部100による処理とを繰り返すことにより得られる、最適化された上位パラメータz及び下位パラメータxを出力する出力部400と、を含む。最適化部100は、評価値y、上位パラメータz、及び下位パラメータxの組み合わせに基づいて、評価値yを予測するためのモデルを学習し、評価部300が次に評価する上位パラメータzを選択し、学習したモデルに基づいて、選択された上位パラメータzに対応する下位パラメータxから、評価部300が次に評価する下位パラメータxを決定する。
なお、本開示は、上記実施形態に限定されるものではなく、この本開示の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
上記実施形態の最適化装置10では、最適な評価値yが最大値である場合の、上位パラメータz及び下位パラメータxを最適化する形態について説明したが、当該形態に限定されない。例えば、最適化装置10は、最適な評価値yが最小値である場合の、上位パラメータz及び下位パラメータxを最適化する形態であってもよい。なお、獲得関数α(x)は、最適な評価値yを最大値及び最小値等、どのような値とするかにより適宜、定められる。例えば、最適な評価値yが最小値である場合、獲得関数α(x)は、上記(2)式に代わり、下記(7)式で表される。
Figure 0007006566000040
また、上記実施形態では、最適化装置10を、上位パラメータzを歩行者の誘導を行うか否か、及び下位パラメータxを誘導の仕方とした人流シミュレーションに適用した形態について説明したが、これに限定されるものではない。
例えば、他の実施形態として最適化装置10は、上位パラメータzを信号機を制御するか否か、及び下位パラメータxを信号の切り替えタイミング、評価値yを目的地までの到達時間等とした交通シミュレーションに適用することができる。また例えば、他の実施形態として最適化装置10は、上位パラメータzをネットワークの層の数、または処理のパイプライン、下位パラメータxをアルゴリズムのハイパーパラメータ、評価値yを推論の正解率等とした機械学習に適用することができる。
また、本実施形態では、上記プログラムが予めインストールされている形態について説明したが、当該プログラムを、コンピュータが読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
1 誘導システム
10 最適化装置
50 誘導装置
100 最適化部
110 パラメータ及び評価値記憶部
120 モデル学習部
130 下位パラメータ選択部
140 上位パラメータ選択部
150 パラメータ決定部
200 評価用データ記憶部
300 評価部
400 出力部
500 入力部
510 制御部

Claims (7)

  1. 評価用データを入力として計算するときに用いられる上位パラメータ、及び前記上位パラメータの影響を受ける下位パラメータを最適化する最適化装置であって、
    前記評価用データ、前記上位パラメータ、及び前記下位パラメータに基づいて、前記計算を行い、計算結果の評価を表す評価値を出力する評価部と、
    前記上位パラメータ及び前記下位パラメータを最適化する最適化部と、
    前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化された前記上位パラメータ及び前記下位パラメータを出力する出力部と、
    を備え、
    前記最適化部は、前記評価値、前記上位パラメータ、及び前記下位パラメータの組み合わせに基づいて、評価値を予測するためのモデルを学習し、前記評価部が次に評価する前記上位パラメータを選択し、学習した前記モデルに基づいて、前記選択された前記上位パラメータに対応する前記下位パラメータから、前記評価部が次に評価する前記下位パラメータを決定する、
    最適化装置。
  2. 前記最適化部は、前記モデルを用いて、前記下位パラメータの各々について前記評価値を予測し、前記下位パラメータに対する前記評価値の予測を変数とする獲得関数を計算し、前記獲得関数が最大または最小となる前記下位パラメータを、前記評価部が次に評価する前記下位パラメータとして決定する、
    請求項1に記載の最適化装置。
  3. 前記モデルは、ガウス過程を用いる確率モデルである、
    請求項1または請求項2に記載の最適化装置。
  4. 前記最適化部は、前記評価部による処理により得られた、前記評価値、前記上位パラメータ、及び前記下位パラメータに基づいて、前記モデルを学習する、
    請求項1から請求項3のいずれか1項に記載の最適化装置。
  5. 歩行者の誘導を制御するための誘導装置と、前記歩行者の状況の計算に必要な評価用データを入力として計算するときに用いられる上位パラメータ、及び前記上位パラメータの影響を受ける下位パラメータを最適化する最適化装置と、を備える誘導システムであって、
    前記誘導装置は、
    前記最適化装置により得られた前記上位パラメータ及び前記下位パラメータを用いて、前記歩行者の誘導を制御する制御部を含み、
    前記最適化装置は、
    前記評価用データ、前記上位パラメータ、及び前記下位パラメータに基づいて、前記計算を行い、計算結果の評価を表す評価値を出力する評価部と、
    前記上位パラメータ及び前記下位パラメータを最適化する最適化部と、
    前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化された前記上位パラメータ及び前記下位パラメータを出力する出力部と、
    を含み、
    前記最適化部は、前記評価値、前記上位パラメータ、及び前記下位パラメータの組み合わせに基づいて、評価値を予測するためのモデルを学習し、前記評価部が次に評価する前記上位パラメータを選択し、学習した前記モデルに基づいて、前記選択された前記上位パラメータに対応する前記下位パラメータから、前記評価部が次に評価する前記下位パラメータを決定する、
    誘導システム。
  6. 評価用データを入力として計算するときに用いられる上位パラメータ、及び前記上位パラメータの影響を受ける下位パラメータを最適化する最適化方法であって、
    評価部が、前記評価用データ、前記上位パラメータ、及び前記下位パラメータに基づいて、前記計算を行い、計算結果の評価を表す評価値を出力するステップと、
    最適化部が、前記上位パラメータ及び前記下位パラメータを最適化するステップと、
    出力部が、前記評価部による処理と、前記最適化部による処理とを繰り返すことにより得られる、最適化された前記上位パラメータ及び前記下位パラメータを出力するステップと、
    を備え、
    前記最適化部が最適化するステップは、前記評価値、前記上位パラメータ、及び前記下位パラメータの組み合わせに基づいて、評価値を予測するためのモデルを学習し、前記評価部が次に評価する前記上位パラメータを選択し、学習した前記モデルに基づいて、前記選択された前記上位パラメータに対応する前記下位パラメータから、前記評価部が次に評価する前記下位パラメータを決定するステップ
    を含む最適化方法。
  7. コンピュータを、請求項1から請求項4のいずれか1項に記載の最適化装置の各部として機能させるためのプログラム。
JP2018205831A 2018-10-31 2018-10-31 最適化装置、誘導システム、最適化方法、及びプログラム Active JP7006566B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018205831A JP7006566B2 (ja) 2018-10-31 2018-10-31 最適化装置、誘導システム、最適化方法、及びプログラム
US17/289,220 US20220012548A1 (en) 2018-10-31 2019-10-25 Optimization device, guidance system, optimization method, and program
PCT/JP2019/041994 WO2020090675A1 (ja) 2018-10-31 2019-10-25 最適化装置、誘導システム、最適化方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018205831A JP7006566B2 (ja) 2018-10-31 2018-10-31 最適化装置、誘導システム、最適化方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020071712A JP2020071712A (ja) 2020-05-07
JP7006566B2 true JP7006566B2 (ja) 2022-01-24

Family

ID=70462037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018205831A Active JP7006566B2 (ja) 2018-10-31 2018-10-31 最適化装置、誘導システム、最適化方法、及びプログラム

Country Status (3)

Country Link
US (1) US20220012548A1 (ja)
JP (1) JP7006566B2 (ja)
WO (1) WO2020090675A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153767A (ja) 2013-02-05 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> パラメータ推定方法、装置、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6785741B2 (ja) * 2017-10-31 2020-11-18 日本電信電話株式会社 最適化装置、交通信号制御システム、パラメータ探索装置、最適化方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153767A (ja) 2013-02-05 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> パラメータ推定方法、装置、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
堤田恭太ほか,メタ戦略と分類器を用いた交通渋滞緩和,マルチメディア,分散,協調とモバイル(DICOMO2018)シンポジウム論文集,日本,一般社団法人情報処理学会,2018年06月27日,第2018巻 第1号,p. 1363-1370
清水仁ほか,ベイズ的最適化による最適集団誘導探索,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2018年10月29日,第118巻 第284号,p. 99-104

Also Published As

Publication number Publication date
JP2020071712A (ja) 2020-05-07
US20220012548A1 (en) 2022-01-13
WO2020090675A1 (ja) 2020-05-07

Similar Documents

Publication Publication Date Title
Mazoure et al. Leveraging exploration in off-policy algorithms via normalizing flows
KR101876051B1 (ko) 기계 학습 시스템 및 그의 사용자 제어 패턴 학습 방법
KR20200022739A (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
JP2017215898A (ja) 機械学習システム
WO2019208639A1 (ja) 最適化装置、最適化方法、及びプログラム
KR20200113744A (ko) 심층 신경망 분할 방법 및 장치
EP3899758A1 (en) Methods and systems for automatically selecting a model for time series prediction of a data stream
JP4028384B2 (ja) エージェント学習装置、方法、プログラム
WO2021227536A1 (en) Methods and systems for support policy learning
JP2014102578A (ja) 情報処理装置、制御方法、プログラム、及び記録媒体
KR20210067442A (ko) 객체 인식을 위한 자동 레이블링 장치 및 방법
US20200250529A1 (en) Arithmetic device
Maleki et al. A hybrid approach of firefly and genetic algorithms in software cost estimation
JP7481902B2 (ja) 管理計算機、管理プログラム、及び管理方法
US11721334B2 (en) Method and apparatus for controlling device located a distance away from a user
US20230120256A1 (en) Training an artificial neural network, artificial neural network, use, computer program, storage medium and device
Kitakoshi et al. Empirical analysis of an on-line adaptive system using a mixture of Bayesian networks
JP7006566B2 (ja) 最適化装置、誘導システム、最適化方法、及びプログラム
JP2008280912A (ja) 時系列データの出力予測装置および空燃比制御装置
JP6785741B2 (ja) 最適化装置、交通信号制御システム、パラメータ探索装置、最適化方法、及びプログラム
EP2386987B1 (en) A method of reinforcement learning, corresponding computer program product, and data storage device therefor
JP2020126511A (ja) 最適化装置、方法、及びプログラム
US20210004717A1 (en) Learning method and recording medium
JP2022172503A (ja) 衛星観測計画立案システム、衛星観測計画立案方法、および衛星観測計画立案プログラム
Nakashima et al. A fuzzy reinforcement learning for a ball interception problem

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7006566

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150