JP2022022177A - 戦略を学習するための方法及び装置、並びに、戦略を動作させるための方法及び装置 - Google Patents
戦略を学習するための方法及び装置、並びに、戦略を動作させるための方法及び装置 Download PDFInfo
- Publication number
- JP2022022177A JP2022022177A JP2021120505A JP2021120505A JP2022022177A JP 2022022177 A JP2022022177 A JP 2022022177A JP 2021120505 A JP2021120505 A JP 2021120505A JP 2021120505 A JP2021120505 A JP 2021120505A JP 2022022177 A JP2022022177 A JP 2022022177A
- Authority
- JP
- Japan
- Prior art keywords
- strategy
- parameter
- learning
- cma
- state information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 230000002787 reinforcement Effects 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 19
- 238000004519 manufacturing process Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 231100000310 mutation rate increase Toxicity 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 230000000977 initiatory effect Effects 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 11
- 230000009471 action Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 101150082208 DIABLO gene Proteins 0.000 description 2
- 102100033189 Diablo IAP-binding mitochondrial protein Human genes 0.000 description 2
- 238000000137 annealing Methods 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
【課題】進化アルゴリズムの少なくとも1つのパラメータ(σ)を最適に適応化する戦略(π)を学習するための方法(20)である。【解決手段】方法は、状態情報(S)に依存してパラメータ(σ)のパラメータ表示(A)を算定する戦略を初期化するステップと、強化学習(英語:reinforcement learning)を用いて戦略(π)を学習するステップと、を含み、CMA-ESアルゴリズムと、状態情報(S)に依存する戦略により決定されたパラメータ表示と、問題インスタンス(14)と、報酬信号(R)との相互作用から、可能な状態情報にとっていずれのパラメータ表示が最適であるかが学習される。【選択図】図2
Description
本発明は、進化アルゴリズムをパラメータ表示するように構成された戦略を学習及び動作させるための方法、並びに、コンピュータプログラム及び機械可読記憶媒体に関する。
従来技術
進化戦略(ES)は、最適化問題を数値的に解くための、確率論的であって導関数のない手法である。これは、進化アルゴリズム及び進化計算のクラスに属している。進化アルゴリズムは、全体として生物学的進化の法則、即ち、(再結合及び突然変異による)変化と選択との繰り返しの相互作用を基礎としている。各世代(いわゆる反復)において、新たな個体(いわゆる候補解、x)が、多くの場合に確率論的な、その時点における親の個体の変化により発生する。その後、いくつかの個体が、その適応度又はその目的関数値F(x)に基づいて選択され、次の世代の親となる。このようにして、世代の経過に伴い、徐々に良好となる適応度を有する個体が発生する。
進化戦略(ES)は、最適化問題を数値的に解くための、確率論的であって導関数のない手法である。これは、進化アルゴリズム及び進化計算のクラスに属している。進化アルゴリズムは、全体として生物学的進化の法則、即ち、(再結合及び突然変異による)変化と選択との繰り返しの相互作用を基礎としている。各世代(いわゆる反復)において、新たな個体(いわゆる候補解、x)が、多くの場合に確率論的な、その時点における親の個体の変化により発生する。その後、いくつかの個体が、その適応度又はその目的関数値F(x)に基づいて選択され、次の世代の親となる。このようにして、世代の経過に伴い、徐々に良好となる適応度を有する個体が発生する。
CMA-ES(Covariance Matrix Adaptation Evolution Strategy,共分散行列適応進化戦略)は、連続的な「ブラックボックス関数」を最適化するための進化アルゴリズムである。当該アルゴリズムは、特別なタイプの数値最適化のための戦略を使用している。このための新たな候補解xは、多変量正規分布に従ってRnにおいてランダムに引き出される。ここで、進化上の再結合は、分布のための適応化された中央値が決定されることによって達成される。分布における変数間の対としての依存関係は、共分散行列によって表される。共分散行列の適応化(CMA)は、当該分布の共分散行列を更新するための手法である。
ランダムサンプリング分布の学習のために、CMA-ESにおいては、候補解間の階層のみが利用され、導関数も関数値自体も手法には必要とされない。
発明の利点
こうした従来技術に対して、本発明は、多変量正規分布が条件に従って自動的に適応化されるため、CMA-ESが優位となり得るという利点を有している。さらに、実験から、本発明によるアプローチの世代特性は高く、広範囲に異なる想定外の他の適用事例にも直接的に方法を適用することができ、新たな適用事例のための戦略の適応化が必要ないことが判明している。
こうした従来技術に対して、本発明は、多変量正規分布が条件に従って自動的に適応化されるため、CMA-ESが優位となり得るという利点を有している。さらに、実験から、本発明によるアプローチの世代特性は高く、広範囲に異なる想定外の他の適用事例にも直接的に方法を適用することができ、新たな適用事例のための戦略の適応化が必要ないことが判明している。
さらに、本発明の過程は、他の進化アルゴリズム、例えば差分進化にも適用可能であることが判明している。
発明の開示
第1の態様においては、本発明は、進化アルゴリズム、特にCMA-ESアルゴリズム又は差分進化アルゴリズムの少なくとも1つのパラメータを最適に適応化する戦略を学習するためのコンピュータ実装方法であって、問題インスタンスに関する状態情報に依存してパラメータのパラメータ表示を算定する戦略を初期化するステップを含む。次いで、戦略の学習が、強化学習(英語:reinforcement learning)を用いて行われる。この場合、CMA-ESアルゴリズムと、問題インスタンスと、状態情報に依存する戦略を用いて決定されたパラメータのパラメータ表示と、報酬信号Rとの相互作用から、可能な状態情報にとっていずれのパラメータ表示が最適であるかが学習される。
第1の態様においては、本発明は、進化アルゴリズム、特にCMA-ESアルゴリズム又は差分進化アルゴリズムの少なくとも1つのパラメータを最適に適応化する戦略を学習するためのコンピュータ実装方法であって、問題インスタンスに関する状態情報に依存してパラメータのパラメータ表示を算定する戦略を初期化するステップを含む。次いで、戦略の学習が、強化学習(英語:reinforcement learning)を用いて行われる。この場合、CMA-ESアルゴリズムと、問題インスタンスと、状態情報に依存する戦略を用いて決定されたパラメータのパラメータ表示と、報酬信号Rとの相互作用から、可能な状態情報にとっていずれのパラメータ表示が最適であるかが学習される。
好適には、パラメータは、CMA-ESアルゴリズムのステップ幅、候補解(英語:population-size)の数(λ)、突然変異率(英語:mutation-rate)、及び/又は、交叉率(英語:crossover-rate)である。
ここで、状態情報が、パラメータの現在のパラメータ表示、累積距離、及び/又は、現在の反復と先行の反復とにおける問題インスタンスの最適化すべき関数の関数値間の差を含む少なくとも1つの値を含むことが提案される。
好適には、状態情報は、複数回の先行の反復にわたるパラメータ表示を含む。特に好ましくは、最後の40回の反復である。
さらに、状態情報が、問題インスタンスに関するコンテキスト情報、特に、最適化すべき関数も含むことが提案される。ここでの利点は、種々の問題インスタンス間において戦略を異なるものとすることができ、これにより、個々の問題インスタンスに対して良好な結果が達成可能となることである。
パラメータ表示とは、パラメータに割り当てられた値である。
さらに、“Guided Policy Search”(GPS)を使用した強化学習が用いられ、設定可能なヒューリスティックスを用いてパラメータのパラメータ表示が決定され、そこからパラメータのパラメータ表示の複数の特性が特徴付けられ、当該特性からGPSを用いて戦略の学習のための教師が提供されることが提案される。
本発明の第2の態様においては、本発明の第1の態様によって学習された戦略を動作させる方法が提案される。このために、ここでの問題インスタンスについての状態情報が算定される。学習された戦略は、状態情報に依存してパラメータ表示を算定し、CMA-ESは、当該パラメータ表示と共に少なくとも1回の反復にわたって適用される。好適には、最適値が得られるまで2つのステップが交互に繰り返される。
ここで、問題インスタンスが機械学習のためのトレーニングプロセスであり、戦略を使用したCMA-ESを用いてトレーニングプロセスのハイパーパラメータが最適化されること、又は、問題インスタンスが車両経路最適化若しくは製造/生産におけるタスクプランニングであり、戦略を使用したCMA-ESを用いて経路若しくはタスクプランニングが最適化されることが提案される。タスクプランニングは、例えば、製造ステップの1作業であるものとしてよい。
さらに、最適化されたハイパーパラメータを使用して、ディープニューラルネットワークが学習されることが提案される。好適には、当該ニューラルネットワークは、センサにより検出されたセンサ量に依存して出力量が算定され、次いで、これが制御ユニットを用いて制御量の算定のために使用可能となるように学習される。
制御量は、技術システムのアクチュエータを制御するために使用可能である。技術システムは、例えば、少なくとも部分自律型の機械、少なくとも部分自律型の車両、ロボット、ワークツール、工作機械、又は、航空機、例えばドローンであるものとしてよい。入力量は、例えば、検出されたセンサデータに依存して算定可能であり、供給可能である。センサデータは、技術システムのセンサ、例えばカメラによって検出することができ、又は、これに代えて外部から受信することもできる。
他の態様においては、本発明は、上述した方法を実施するように構成されたコンピュータプログラム、及び、当該コンピュータプログラムを記憶した機械可読記憶媒体に関する。
以下、本発明の実施形態について、添付図面を参照しながら詳細に説明する。
実施例の説明
CMA-ESアルゴリズムにおいては、探索分布のパラメータを適応化する2つの主方式が利用される。
CMA-ESアルゴリズムにおいては、探索分布のパラメータを適応化する2つの主方式が利用される。
第1の方式は、有効な候補解及び探索ステップの確率を増加させるというアイデアに基づく最尤法の方式である。分布の中央値は、先行の有効な候補解の確率が最大化されるように更新される。分布の共分散行列は、先行の有効な探索ステップの確率が増加するように(インクリメンタルに)更新される。2つの更新は、自然勾配上昇として解釈可能である。
第2の方式は、戦略の分布手段の時間的展開の、探索パス又は展開パスと称される2つのパスによって特徴付けられるものである。これらのパスは、相互に連続するステップ間の相関に関する重要な情報を含む。特に、相互に連続するステップが類似の方向を辿る場合、進化パスは長くなる。進化パスは、2つの形式において利用される。一方のパスは、共分散行列の適応化プロセスに対して、個々の有効な探索ステップに代えて使用され、好都合な方向における可能な限り高速な分散拡大(Varianzerhoehung)を可能にするものである。他方のパスは、付加的なステップサイズ制御を実行するために使用される。当該ステップサイズ制御は、分布手段の相互に連続する運動を予測において直交させることを目的としている。ステップサイズ制御により、事前の共分散が有効に防止され、しかも最適値へ向かっての高速な共分散が可能となる。
数学的には、CMA-ESは、次のように、連続関数f:Rn→Rの最適化アルゴリズムとして、多変量正規分布N(m,σ2c)の候補解のランダムな引き出しにより表現可能であり、ここで、mは、予測値に相当し、σ2は、ステップ幅に相当し、cは、共分散行列に相当する。
共分散行列は、単位行列として、また、m及びσ2は、例えば乱数値によって、初期化可能であり又はユーザによって設定可能である。次いで、CMA-ESは、有効な候補解の確率が増加するように、再帰的に正規分布Nを更新する。
世代Gとも称される反復ごとに、先ず、λ個の候補解のx(g+1)が引き出され、最良のμ個の候補解のみが次世代g+1の親として使用される。候補解xの数λは、初期的には設定値に設定可能である。次いで、予測値mが、
(式1):
のように適応化される。ここで、cmは、学習率であり、例えば、1に等しく設定可能である。
(式1):
次いで、累積ステップ長適応化(CSA)としても知られるとおり、ステップ幅cが、
(式2):
のように適応化される。ここで、cσ<1は、他の学習率であり、
は、減衰パラメータであり、
は、世代g+1の共役進化パスであり、即ち、
(式3):
である。
(式2):
(式3):
ステップ幅σを適応化する複数の他の種々の手段が存在し、CMA-ESの実行時にこうした種々の手段の間において往復切り替えが行われると一般的に有意であり得ることに注意されたい。共分散行列cの適応化に関しては、CMA-ESについての文献に示されている。
CME-ESのパフォーマンスを高めるために、ステップ幅σ(g+1)の適応化が(式2)により状態情報sgに依存して実行され、このために戦略(英語:policy)π(sg)が使用される。即ち、(任意の)コスト関数を最小化する戦略πが探索され、ここで、コスト関数Lは、CMA-ESが戦略を使用してどの程度良好に切断されるかを特徴付ける。
このことは、数学的には、
(式4):
のように表すことができる。ここでは、戦略を強化学習(英語:reinforcement learning)を用いて決定することが提案される。このために、好ましくは連続的であってステップ幅σ(g)の可能な値を有する行動空間(英語:action space)が定められる。
(式4):
好適には、状態情報は、複数の先行のステップ幅の履歴を含む。特に好ましくは、このために最後の40個のステップ幅が使用される。付加的に、世代(g)からの最適化すべき関数fの現在の関数値の差の履歴も、先行の世代からの複数の値に加えることができる。履歴に対して充分な過去の値が存在しない場合、ここには、例えばゼロを充填することができる。
負の関数値f(x)のコスト関数Lを、現在の反復の内側において最良に切断された候補とすることが提案される。このことは、いわゆる常時パフォーマンスが最適化されるという利点を有する。
以下の実施例においては、サンプリング効率(英語:sample efficiency)をどの程度著しく改善することができるかが提起される。ここでの基本的な思想は、戦略をゼロから学習するのでなく、教師が傍らに置かれるということである。シミュレーションにより、強化学習による戦略の学習につき約10000回のCMA-ESを行わなければならないが、教師が関与する場合には、この値を1100回のCMA-ESの実行まで低減し得ることが判明している。従って、CMA-ESアルゴリズムとその環境とのわずかな相互作用のみ行えばよい。
第1の実施例においては、教師は、自己適応型ヒューリスティックス(英語:self-adaptive heuristic)の形態において使用され、ここでは、ヒューリスティックスとして(式2)が使用される。(式2)に代えて、ステップ幅を決定するための他の式、例えば「2点ステップサイズ適応化(two-point step-size adaptation)」も、ヒューリスティックスとして使用可能であることに注意されたい。
好ましい一実施例においては、教師は、“Guided policy search”(GPS)との名称によっても知られるガイディングトラジェクトリ(英語:guiding trajectory)の形態において存在する。この場合、戦略は、監視あり学習を用いて、その出力トラジェクトリがガイディングトラジェクトリに極めて類似するように適応化される。
GPSに関するさらなる詳細については、Levine, S., Abbeel, P.: Learning neural network policies with guided policy search under unknown dynamics, In: Ghahramani, Z., Welling, M., Cortes, C., Lawrence, N., Weinberger, K. (eds.) Proceedings of the 28th International Conference on Advances in Neural Information Processing Systems (NeurIPS’14), pp.1071-1079 (2014)に記載されており、これはhttps://papers.nips.cc/paper/5444-learning-neural-network-policies-with-guided-policy-search-under-unknown-dynamics.pdfにおいてオンラインで閲覧可能であり、又は、Levine, S., Koltun, V.: Guided policy search, In: Dasgupta, S., McAllester, D. (eds.), Proceedings of the 30th International Conference on Machine Learning (ICML’13), pp.1 (2013)に記載されており、これはhttp://proceedings.mlr.press/v28/levine13.pdfにおいてオンラインで閲覧可能である。
相互に連続する世代gから成る、CMA-ESによって決定されたステップ幅σを、GPSのためのガイディングトラジェクトリとして使用することが提案される。即ち、複数のガイディングトラジェクトリが決定され、次いで、ここから教師が作成される。このことについては、上掲したGPSについての文献を参照されたい。教師は、GPSにおいては、報酬が最大化され、特に、戦略πに対する偏差が最小化されるように決定される「教師分布」(GPS:「トラジェクトリ分布」/「ガイディング分布」)である。GPSは、報酬を改善するために、時間の経過に伴って教師を更新するので、時間の経過に伴って(特に、式2に従って)CMA-ESによって決定されたステップ幅から教師が離れてしまう可能性がある。これは、生徒(戦略π)及び教師のみがGPSによって相互に近くとどまることを強制されるからである。教師及び生徒の双方が、CMA-ESによって決定されたステップ幅σから大きく偏差する場合、学習された戦略πが、CMA-ESによって決定されたステップ幅σのケースの挙動を再現することができなくなることが起こり得る。
ゆえに、発明者らは、種々の教育経験を取得するために、教師に加えて、CMA-ESによって決定されたステップ幅σについてのサンプリングされた他のトラジェクトリを使用することを提案する。即ち、代替的に、教師のトラジェクトリからあまりに遠く離れないようにするために、教師についての硬性の発散(ダイバージェンス)基準によって生徒を限定することができ、CMA-ESで決定されたステップ幅σのサンプリングされた他の特性がトラジェクトリとして使用される。以下においては、これを、付加的な教師とも称する。付加的な教師は、教師について上述したように算定することができる。
最適な作用を有する付加的な教師を使用するために、サンプリングレートの導入によりGPSを拡張することが提案される。サンプリングレートは、GPSがどれだけの割合で教師のキャリア及び付加的な教師を戦略の学習に使用するかを特徴付ける。サンプリングレートは、戦略がどの程度CMA-ESの生起に類似しているかを判定するものと言える。実験から、付加的な教師に対する0.3のサンプリングレートが関数fのタイプに依存せずに最良の結果を生じることが判明している。このことは、言い換えれば、トレーニングトラジェクトリテストの間、0.7の確率で教師が使用され、0.3の確率で付加的な教師のトラジェクトリテストが取り出されることを意味する。
教師又は付加的な教師は、CMA-ESのステップ幅を決定する他のヒューリスティックスであってもよいことに注意されたい。
さらに、学習中の補外を保証するために、トレーニングセットにおける関数の起点分布の中央値に対する1つ又は複数の初期ステップの極大値がランダムに均等な分布から取り出されることに注意されたい。
好適には、戦略πとして、それぞれ50個の隠れユニットを含む2つの隠れ層とReLu活性化部とから成るニューラルネットワークが使用される。
ステップ幅だけでなく、他のパラメータ、例えばCMA-ESの個体数の大きさも、このために戦略が最適化されている場合には当該戦略に基づいて適応化可能であることに注意されたい。好適には、パラメータは、適当な初期化を得るために、初期的にSMACを用いて予め決定される。
SMACは、刊行物Hutter, F., Hoos, H., Leyton-Brown, K., “Sequential model-based optimization for general algorithm conguration”, In: Coello, C.(ed.), Proceedings of the Fifth International Conference on Learning and Intelligent Optimization (LION’11), Lecture Notes in Computer Science, vol 6683, pp.507 (2011)に記載されている。
図1には、例として、上述した方法を実行するための装置及び戦略πを動作させるための装置が示されている。強化学習のためのエージェント10は、一方では、状態情報S及び報酬信号(英語:reward signal)Rを受け取り、アクションAを出力する。アクションAは、この場合、ステップ幅σに相当する。エージェント10の学習中に、状態情報S及び報酬信号Rに依存して戦略πを学習するために、GPSが実行される。エージェント10の動作中に、戦略が適用され、即ち、状態情報Sに依存してアクションAが決定される。
エージェント10は、状態情報S及び報酬信号Rを環境11から受け取る。環境11は、ここでは、次の要素、即ち、報酬信号発生器13と、内部状態算定回路12と、問題インスタンス14に適用されるCMA-ESとを含む。
報酬信号発生器13は、状態情報Sに依存して、好適にはアクションAから、報酬信号Rを上述したように計算する。状態算定回路12は、上述した状態並びに特に教師及び付加的な教師を算定する。アクションAにより、問題インスタンス14のCMA-ESがコンフィグレーションされ、その規則的なステップ、即ち、「次世代の候補を形成する」、「適応度を評価する」、「式1に従って中央値mを適応化する」及び「共分散行列cを適応化する」が実行される。
さらに、図1には、当該装置のための計算を実行するように構成された計算ユニット15と、メモリ16とが示されている。
図2には、本発明に係る方法の一実施形態のフローチャート20が概略的に示されている。
方法は、ステップS21において開始する。ここで、所与の問題インスタンス14に対してCMA-ESが適用され、ステップ幅σが算定されて全世代にわたって特徴付けられる。このために、状態算定回路12を使用することができる。
次いで、ステップS22へと続き、戦略πの初期化が行われる。戦略は、例えば、既に述べたように、状態情報に依存してステップ幅σを算定し、そのパラメータ、特に重みをランダムに初期化するニューラルネットワークであるものとしてよい。
次いで、ステップS23へと続く。当該ステップにおいては、戦略πを最適化するために、報酬付きの学習(英語:reinforcement learning)が適用される。これは、エージェント10が問題インスタンス14を探索し、その際に、可能な限り頑健な報酬信号R又は報酬信号Rの和を取得するために、状態情報Sに依存してアクションAをどのように選択したかを学習することにより、行うことができる。状態情報Sは、例えば、状態算定回路12によって取得可能である。
ステップS23が終了した後、ステップS24へと続く。戦略πが学習された後、これを新たな問題インスタンス14を解くことに使用することができる。
本発明の一実施例においては、問題インスタンス14は、ハイパーパラメータの最適化であるものとしてよい。この場合、CMA-ESと戦略とにより、ハイパーパラメータのパラメータ表示を最適化することができる。ハイパーパラメータの最適化は、例えば、機械学習のための学習アルゴリズムのハイパーパラメータに使用可能である。ここで、ハイパーパラメータは、学習率、又は、学習アルゴリズムによって使用されるコスト関数の正則化項の重みであるものとしてよい。例えば、学習率が最適化される場合、GPSに対する付加的な教師が、例えばヒューリスティックスとして使用可能となる。即ち、余弦焼きなまし法(英語:cosine-annealing)、指数関数的減衰学習率(英語:exponential decaying learning rate)、又は、ステップ減衰学習率(英語:step-wise decaying learning rate)が使用可能となる。
好適には、機械学習の学習アルゴリズムは、機械学習システムの学習、特にニューラルネットワークの学習に使用され、例えば、コンピュータに基づくヴィジョン(英語:computer vision)のために使用される。即ち、例えば、オブジェクト認識又はオブジェクト位置特定又はセマンティックセグメンテーションのために使用される。
他の実施例においては、問題インスタンス14は、車両経路案内(英語:Vehicle Routing)であり得る。この場合、CMA-ES及び戦略πにより、車両のための経路が決定される。
他の問題インスタンスは、例えば、時間プランニング問題及び完走問題であり得る。即ち、例えば、いずれの製造機械がいずれの製造タスク/生産タスクを担当及び実行するかを決定することができる。
上記において開示した、進化アルゴリズムの改善のための戦略の使用の方式は、他の進化アルゴリズムにも適用可能である。例えば、CMA-ESに代えて、差分進化(DE)アルゴリズムも使用可能である。この場合、戦略により、差分進化(DE)の差分重みが適応化可能となる。戦略の学習のためにGPSが使用される場合、次のヒューリスティックス、即ち、DE-APC、ADP、SinDE、DE-random又はSaMDEが教師/付加的な教師として使用される。
上述した機械学習システムは、本発明に係る方法を使用して学習を行ったものであり、次のように使用可能である。
好適には規則的な時間間隔で、周囲が、センサ、特にビデオセンサのような撮像センサを用いて、かつ、複数のセンサによって設けられ得るセンサ、例えばステレオカメラを用いて、検出される。他の撮像センサ、例えば、レーダ、超音波又はLIDARも考えられる。サーモグラフカメラも考えられる。センサのセンサ信号S(又は複数のセンサの場合にはそれぞれのセンサ信号S)は、制御システムへ伝送される。ここで、制御システムは、一連のセンサ信号Sを受信する。制御システムは、当該センサ信号Sから駆動信号Aを算定し、これをアクチュエータに伝送する。
制御システムは、センサの一連のセンサ信号Sを最適な受信ユニットで受信し、この最適な受信ユニットがセンサ信号Sを一連の入力画像xへ変換する(代替的に、直接的にそれぞれセンサ信号Sを入力画像xとして受け取ることもできる)。入力画像xは、例えば、センサ信号Sのカットアウト又はセンサ信号Sをさらに処理したものであってよい。入力画像xは、ビデオ表示の個々のフレームを含む。言い換えれば、入力画像xは、センサ信号Sに依存して算定される。一連の入力画像xが、機械学習システム、この実施例においては人工ニューラルネットワークへ供給される。
人工ニューラルネットワークは、入力画像xから出力量yを算定する。当該出力量yは、特に、入力画像xの分類及び/又はセマンティックセグメンテーションを含み得る。出力量yは、最適な変形ユニットに供給され、ここから駆動信号Aが算定されて、アクチュエータ10を対応して駆動制御するためにアクチュエータへ供給される。出力量yは、センサが検出したオブジェクトに関する情報を含む。アクチュエータは、駆動信号Aを受信し、対応して駆動されて、対応するアクションを実行する。
図3には、少なくとも部分自律型のロボット、ここでは、少なくとも部分自律型の自動車100を制御する制御システム40がどのように使用可能であるかが示されている。
センサ30は、例えば、好適には自動車100内に配置されるビデオセンサであるものとしてよい。
人工ニューラルネットワーク60は、入力画像xから対象物を安全に識別するように構成されている。
好適には自動車100内に配置されるアクチュエータ10は、例えば、自動車100のブレーキ、駆動機構又は操舵部であるものとしてよい。駆動信号Aは、この場合、1つ又は複数のアクチュエータ10が駆動制御されるように、特に、特定されたクラスの対象物が例えば歩行者である場合に、自動車100と、例えば人工ニューラルネットワーク60によって安全に識別された対象物との衝突が回避されるように、算定可能である。
代替的に、少なくとも部分自律型のロボットは、他の移動可能ロボット(図示せず)、例えば、飛行、航行、潜水又は陸上移動によって推進するロボットであるものとしてもよい。移動可能ロボットは、例えば、少なくとも部分自律型の草刈り機又は少なくとも部分自律型の掃除ロボットであるものとしてもよい。また、この場合、駆動信号Aは、当該少なくとも部分自律型のロボットと、例えば人工ニューラルネットワーク60によって識別された対象物との衝突を回避すべく移動可能ロボットの駆動機構及び/又は操舵部が駆動制御されるように、算定可能である。
他の好ましい実施形態においては、制御システム40は、1つ又は複数のプロセッサ45と、プロセッサ45上において実行されるときに、制御システム40に本発明に係る方法を実施させるための命令を記憶した少なくとも1つの機械可読記憶媒体とを含む。
代替的な実施形態においては、アクチュエータ10に代えて又はこれに加えて、表示ユニット10aも設けられる。
代替的に又は付加的に、駆動信号Aにより表示ユニット10aを駆動することもでき、例えば、算定された安全領域が表示される。また、例えば、自動車100においては、非自律的な操舵も行われ得るので、自動車100と安全に識別された対象物との衝突の危険が迫っていることが判定された場合、表示ユニット10aは、駆動信号Aにより、光学警報信号又は音響警報信号を送出するように駆動される。
図4には、製造システム200の製造機械11を制御するアクチュエータ10を駆動制御することにより、当該製造機械11を駆動制御するための制御システム40が使用される実施例が示されている。製造機械11は、例えば、穿孔機、ソー、ボーリング機、及び/又は、切削機であるものとしてよい。
センサ30は、例えば、生産品12a,12bの特性を検出するための、例えば光学センサであるものとしてよい。当該生産品12a,12bは、移動可能であり得る。製造機械11が生産品12a,12bのうち正しいものの次の処理ステップを対応して実行するように、検出された生産品12a,12bの割り当てに依存して、製造機械11を制御するアクチュエータ10を駆動制御することができる。また、生産品12a,12bの正しい特性を識別することにより(即ち、誤った割り当てなしに)、次の生産品の処理のための同様の製造ステップに従って、製造機械11を適応化することもできる。
図5には、アクセスシステム300を制御する制御システム40が使用される実施例が示されている。アクセスシステム300は、物理的なアクセス監視、例えばドア401を含み得る。ビデオセンサ30が人員を検出するために備え付けられている。対象物識別システム60により、当該検出された画像を解釈することができる。複数の人員が同時に検出された場合、人員(即ち、オブジェクト)の相互の割り当てによって、例えばその運動の分析により、例えば人員のIDを特に高い信頼性を以て算定することができる。アクチュエータ10は、駆動信号Aに依存してアクセス監視を解放する又は解放禁止するロック、例えば、ドア401を開放する又は開放禁止するロックであるものとしてよい。このために、駆動信号Aは、対象物識別システム60の解釈に依存して、例えば、算定された人員のIDに依存して選択可能である。物理的なアクセス監視に代えて、論理的なアクセス監視を行うこともできる。
図6には、監視システム400を制御する制御システム40が使用される実施例が示されている。図5に示した実施例との相違は、この実施例においては、アクチュエータ10に代えて表示ユニット10aが設けられており、これが制御システム40によって駆動制御されることである。例えば、人工ニューラルネットワーク60により、高い信頼性を以てビデオセンサ30が記録した対象のIDが算定され、これに基づいて、例えば、疑わしい何者かを推定することができ、この場合、駆動信号Aは、こうした対象が表示ユニット10aによって色付きにて強調表示されるように選択される。
図7には、パーソナルアシスタント250を制御するための制御システム40が使用される実施例が示されている。センサ30は、好ましくは、ユーザ249のジェスチャの画像を受信する光学センサである。
センサ30の信号に依存して、制御システム40は、パーソナルアシスタント250の駆動信号Aを、例えば、ニューラルネットワークにおいてジェスチャ認識を行うことにより算定する。パーソナルアシスタント250には、この場合、当該算定された駆動信号Aが伝送され、これにより、対応する駆動制御が行われる。当該算定された駆動信号Aは、特に、ユーザ249により想定される望ましい駆動制御に対応するように選択される。当該想定される望ましい駆動制御は、人工ニューラルネットワーク60により識別されたジェスチャに依存して算定可能である。制御システム40は、当該想定される望ましい駆動制御に依存して、駆動信号Aをパーソナルアシスタント250へ伝送するために選択可能であり、及び/又は、駆動信号Aを想定される望ましい駆動制御に従ってパーソナルアシスタントへ伝送するために選択可能である。
当該対応する駆動制御は、例えば、パーソナルアシスタント250がデータベースから情報を呼び出し、ユーザ249のために調整可能に再構成することを含み得る。
パーソナルアシスタント250に代えて、対応する駆動制御のために、家電機器(図示せず)、特に、洗濯機、レンジ、オーブン、マイクロ波調理器又は食器洗浄機が設けられるものとしてもよい。
図8には、医用撮像システム500、例えば、MRT装置、X線装置又は超音波装置を制御する制御システム40が使用される実施例が示されている。センサ30は、例えば、撮像センサによって与えられるセンサであるものとしてよく、制御システム40により、表示ユニット10aが駆動制御される。例えば、ニューラルネットワーク60は、撮像センサが記録した領域に要注意箇所があるかどうかを判定することができ、駆動信号Aは、この場合、当該領域が表示ユニット10aによって色付きにて強調表示されるように選択される。
「コンピュータ」なる概念は、設定可能な計算プロトコルを処理するための任意の装置を含む。ここでの計算プロトコルは、ソフトウェアの形態において存在するものとしてもよいし、又は、ハードウェアの形態、又は、ソフトウェア及びハードウェアの混合形態において存在するものとしてもよい。
Claims (11)
- 進化アルゴリズム、特にCMA-ESアルゴリズム又は差分進化アルゴリズムの少なくとも1つのパラメータ(σ)を最適に適応化する戦略(π)を学習するためのコンピュータ実装方法(20)であって、
問題インスタンス(14)に関する状態情報(S)に依存して前記パラメータ(σ)のパラメータ表示(A)を算定する前記戦略を初期化するステップと、
強化学習(英語:reinforcement learning)を用いて前記戦略(π)を学習するステップと、
を含み、
前記CMA-ESアルゴリズムと、前記状態情報(S)に依存する前記戦略を用いて決定されたパラメータ表示と、前記問題インスタンス(14)と、報酬信号(R)との相互作用から、可能な状態情報にとっていずれのパラメータ表示が最適であるかが学習される、方法。 - 前記パラメータは、前記CMA-ESアルゴリズムのステップ幅であり、及び/又は、候補解(英語:population-size)の数(λ)、突然変異率(英語:mutation-rate)、交叉率(英語:crossover-rate)である、
請求項1に記載の方法。 - 前記状態情報(S)は、前記パラメータの現在のパラメータ表示、累積距離(pσ)、及び/又は、現在の反復と先行の反復とにおける前記問題インスタンス(14)の最適化すべき関数(f)の関数値間の差を含む少なくとも1つの値を含む、
請求項1又は2に記載の方法。 - “Guided Policy Search”(GPS)を使用した強化学習が用いられ、設定可能なヒューリスティックスを用いて前記問題インスタンス(14)の前記パラメータのパラメータ表示が決定され、そこから前記パラメータのパラメータ表示の複数の特性が特徴付けられ、前記特性からGPSを用いて戦略の学習のための教師が提供される、
請求項1乃至3のいずれか一項に記載の方法。 - GPSにサンプリングレートが補完され、前記サンプリングレートは、どれだけの確率で戦略が前記教師又は付加的な教師によって学習されるかを特徴付けるものであり、前記付加的な教師は、前記パラメータの値の他の特性を含む、
請求項4に記載の方法。 - 前記サンプリングレートは、0.3である、
請求項5に記載の方法。 - 請求項1乃至6のいずれか一項に記載の学習された戦略を動作させるための方法であって、
問題インスタンスの状態情報が決定され、
学習された戦略が前記状態情報に依存してパラメータ表示を算定し、
CMA-ESが少なくとも1回の反復に対して前記パラメータ表示と共に適用される、
方法。 - 前記問題インスタンスは、機械学習のためのトレーニングプロセスであり、戦略を使用したCMA-ESを用いて、前記トレーニングプロセスのハイパーパラメータが最適化される、又は、
前記問題インスタンスは、車両経路最適化若しくは製造/生産におけるタスクプランニングであり、戦略を使用したCMA-ESを用いて、経路若しくはタスクプランニングが最適化される、
請求項7に記載の方法。 - 請求項1乃至8のいずれか一項に記載の方法を実施するように構成された装置。
- 請求項1乃至8のいずれか一項に記載の方法を実施するために構成されたコンピュータプログラム。
- 請求項10に記載のコンピュータプログラムを記憶した機械可読記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020209281.8A DE102020209281A1 (de) | 2020-07-23 | 2020-07-23 | Verfahren und Vorrichtung zum Lernen einer Strategie und Betreiben der Strategie |
DE102020209281.8 | 2020-07-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022022177A true JP2022022177A (ja) | 2022-02-03 |
Family
ID=79179186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021120505A Pending JP2022022177A (ja) | 2020-07-23 | 2021-07-21 | 戦略を学習するための方法及び装置、並びに、戦略を動作させるための方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220027743A1 (ja) |
JP (1) | JP2022022177A (ja) |
CN (1) | CN113971460A (ja) |
DE (1) | DE102020209281A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568236B2 (en) * | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
CN113168553A (zh) * | 2018-09-28 | 2021-07-23 | 英特尔公司 | 机器人移动设备及相关方法 |
US10983233B2 (en) * | 2019-03-12 | 2021-04-20 | Saudi Arabian Oil Company | Method for dynamic calibration and simultaneous closed-loop inversion of simulation models of fractured reservoirs |
US11443235B2 (en) * | 2019-11-14 | 2022-09-13 | International Business Machines Corporation | Identifying optimal weights to improve prediction accuracy in machine learning techniques |
-
2020
- 2020-07-23 DE DE102020209281.8A patent/DE102020209281A1/de active Pending
-
2021
- 2021-07-09 US US17/305,586 patent/US20220027743A1/en active Pending
- 2021-07-21 JP JP2021120505A patent/JP2022022177A/ja active Pending
- 2021-07-22 CN CN202110830466.4A patent/CN113971460A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220027743A1 (en) | 2022-01-27 |
CN113971460A (zh) | 2022-01-25 |
DE102020209281A1 (de) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhattacharyya et al. | Multi-agent imitation learning for driving simulation | |
Sermanet et al. | Unsupervised perceptual rewards for imitation learning | |
Mazoure et al. | Leveraging exploration in off-policy algorithms via normalizing flows | |
Mishra et al. | A new meta-heuristic bat inspired classification approach for microarray data | |
US10896382B2 (en) | Inverse reinforcement learning by density ratio estimation | |
Zimmer et al. | Safe active learning for time-series modeling with gaussian processes | |
Infantes et al. | Learning the behavior model of a robot | |
Ayed et al. | Learning the spatio-temporal dynamics of physical processes from partial observations | |
EP3624021A1 (en) | Device and method for training an augmented discriminator | |
Kitakoshi et al. | Empirical analysis of an on-line adaptive system using a mixture of Bayesian networks | |
EP3783538A1 (en) | Analysing interactions between multiple physical objects | |
EP4027273A1 (en) | Device and method to improve reinforcement learning with synthetic environment | |
Zhang et al. | Multimodal embodied attribute learning by robots for object-centric action policies | |
He et al. | Linguistic decision making for robot route learning | |
JP2022022177A (ja) | 戦略を学習するための方法及び装置、並びに、戦略を動作させるための方法及び装置 | |
US20240296357A1 (en) | Method and device for the automated creation of a machine learning system for multi-sensor data fusion | |
Woo et al. | Structure learning-based task decomposition for reinforcement learning in non-stationary environments | |
Mishra et al. | Visual sparse Bayesian reinforcement learning: a framework for interpreting what an agent has learned | |
EP2500847B1 (en) | Optimal technique search method and system | |
Malekzadeh et al. | Uncertainty-aware transfer across tasks using hybrid model-based successor feature reinforcement learning☆ | |
WO2022076061A1 (en) | Interactive agent | |
Nakashima et al. | A fuzzy reinforcement learning for a ball interception problem | |
JP6910074B2 (ja) | 密度比推定による直接逆強化学習 | |
Saleem et al. | Obstacle-avoidance algorithm using deep learning based on rgbd images and robot orientation | |
Amado et al. | A Survey on Model-Free Goal Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210831 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240507 |