JP7093547B2 - 制御プログラム、制御方法及びシステム - Google Patents
制御プログラム、制御方法及びシステム Download PDFInfo
- Publication number
- JP7093547B2 JP7093547B2 JP2018129322A JP2018129322A JP7093547B2 JP 7093547 B2 JP7093547 B2 JP 7093547B2 JP 2018129322 A JP2018129322 A JP 2018129322A JP 2018129322 A JP2018129322 A JP 2018129322A JP 7093547 B2 JP7093547 B2 JP 7093547B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- action
- search
- time
- executed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
上でも述べたように、ノードは、シミュレートされたタスクの状態を表し、辺は、現在のノードの状態から子ノードの状態へ遷移するために実行されたアクションに対応する。
UCB1=Xaj+C×(2logn/nj)1/2
1: procedure UCTSEARCH(root, τ)
2: while time < τ do //ステップS13
3: front = TreeSearch(root) //ステップS1
4: reward = DefaultPolicy(front.state, front.horizon)
//ステップS9
5: BackUp(front, reward) //ステップS11
6: return BestChild(root, 0) //最適な(a,τ)を選択
7: procedure TREESEARCH(node)
8: while not node.state.terminal() do: //終了状態になるまで探索を繰り返す
9: if not node.fully.expanded() then: //ステップS3
10: return Expand(node) //ステップS7
11: else:
12: node = BestChild(node, scale) //ステップS5
13: return node
14: procedure DEFAULTPOLICY(state) //ステップS9の詳細
15: reward = state.reward
16: done = state.terminal()
17: steps=h
18: while done == false && steps <MAXSTEPS do:
19: a = sample.actionSpace()
20: obs, rew, done = env.step(a)
21: reward = reward + rew
22: steps = steps + 1
23: return reward
24: procedure EXPAND(node)
25: a, τ, Hlead = HOOSearch(node.Hroot) //ステップS7:(a,τ)sampling
26: addedNode = node.AddChild(a, τ, Hleaf) //ステップS7:ノード追加
27: return addedNode //ステップS7:探索木の拡張
28: procedure BESTCHILD(node, C) //最大UCB1のノードを選択
29: bestchildren = []
30: UCB1max = -∞
31: for node.childrenに含まれるx do
32: UCB1 = x.reward/x.visits + C×{(2log(node.visits)/x.visits}0.5
33: if UCB1 == UCB1max then
34: bestchildren.append(x)
35: if UCB1 > UCB1max then
36: bestchildren = [x]
37: UCB1max = UCB1
38: return random.choice(bestchildren) //複数候補の場合はランダム
39: procedure BACKUP(Node, reward) //ステップS11の詳細
40: while node do
41: node.visits = node.visits + 1 //被訪問回数をインクリメント
42: node.reward = node.reward + reward //報酬の更新
43: node.Hleaf.reward = node.reward //2DHOOTのノード値を更新
44: node = node.parent
1: procedure HOOSEARCH(root)
2: HOO-Update(root, root.visits) //ループL31 木の更新
3: leaf = HOOPolicy(root) //ループL33 最大スコアのパス探索
4: a,τ = sample.leaf.region() //ステップS49
5: leaf.expand() //ステップS51
6: return a, τ, leaf //(a,τ)とpointerを返す
7: procedure HOO-UPDATE(node, N) //再帰的なループL31の詳細
8: childBmax = 0
9: for node.children含まれるx do //ループL311 再帰的な子ノードの更新
10: HOO-Update(x,N)
11: for node.children含まれるx do //ステップS39
12: node.reward = node.reward + x.reward
13: if x.Bvalue > childBmax then
14: childBmax = x.Bvalue //Bvalue更新のため用いられる
15: Uvalue=node.reward/node.visits + {2log(N)/node.visits}0.5
+ v1ρh //ステップS39 U-value更新
16: if Uvalue < childBmax then //ステップS39 B-value更新
17: node.Bvalue = Uvalue
18: else
19: node.Bvalue = childBmax
20: procedure HOOPOLICY(node)
21: while node.children do //ループL33
22: node.visits = node.visits + 1 //ノード被訪問回数の増分
23: bestchildren = []
24: Bvaluemax = -∞
25: for node.childrenに含まれるx do
26: if x.Bvalue == Bvaluemax then
27: bestchildren.append(x)
28: if x.Bvalue > Bvaluemax then
29: bestchildren = [x]
30: Bvaluemax = x.Bvalue
31: node = random.choice(bestchildren) //複数候補の場合はランダムに
32: node.visits = node.vistis + 1 //被訪問回数の増分
33: return node //選択されたleaf nodeを返す
110 モンテカルロ木探索部
120 2DHOOT部
130 シミュレーション部
140 インターフェース部
200 制御対象物
Claims (5)
- ノード間の辺に、次に実行すべきアクションとさらに次に実行すべきアクションを選択するまでの時間とを対応付けた、アクション及び時間を選択する木探索のための探索木において、新たなノードを追加しつつ、第1の評価式の値でノードを探索する探索処理を、前回実行された探索処理において選択されたノードへの辺に対応付けられた時間中に実行するステップと、
今回実行された探索処理において選択されたノードへの辺に対応付けられたアクションを、制御対象物に実行させるステップと、
を、1又は複数のプロセッサに実行させ、
前記次に実行すべきアクションが、有限の連続値の中の一つの値に対応し、
前記さらに次に実行すべきアクションを選択するまでの時間が、有限の連続する時間内の一つの値である
制御プログラム。 - 前記探索処理に含まれる前記新たなノードを追加する処理が、
前記次に実行すべきアクションと前記時間とで張られる空間において、当該空間に含まれる領域の包含関係を階層的に表し、各領域に対応するノードを有する第2の探索木において、第2の評価式の値でノードを前記第2の探索木のルートノードからリーフノードまで選択するステップと、
選択された前記リーフノードに対応する領域内において点を選択するステップと、
選択された前記点についてのアクション及び時間が対応付けられた辺で繋がるノードを前記探索木において追加するステップと、
を含む請求項1記載の制御プログラム。 - 前記探索処理に含まれる前記新たなノードを追加する処理が、
選択された前記リーフノードに対応する領域を、前記空間の次元数を指数とする所定数(2以上の自然数)のべき乗個に分割することで生成された新たな領域に対応するリーフノードを、前記第2の探索木に追加するステップ
をさらに含む請求項2記載の制御プログラム。 - ノード間の辺に、次に実行すべきアクションとさらに次に実行すべきアクションを選択するまでの時間とを対応付けた、アクション及び時間を選択する木探索のための探索木において、新たなノードを追加しつつ、第1の評価式の値でノードを探索する探索処理を、前回実行された探索処理において選択されたノードへの辺に対応付けられた時間中に実行するステップと、
今回実行された探索処理において選択されたノードへの辺に対応付けられたアクションを、制御対象物に実行させるステップと、
を含み、
前記次に実行すべきアクションが、有限の連続値の中の一つの値に対応し、
前記さらに次に実行すべきアクションを選択するまでの時間が、有限の連続する時間内の一つの値である、
1又は複数のプロセッサが実行する制御方法。 - ノード間の辺に、次に実行すべきアクションとさらに次に実行すべきアクションを選択するまでの時間とを対応付けた、アクション及び時間を選択する木探索のための探索木において、新たなノードを追加しつつ、第1の評価式の値でノードを探索する探索処理を、前回実行された探索処理において選択されたノードへの辺に対応付けられた時間中に実行する探索部と、
今回実行された探索処理において選択されたノードへの辺に対応付けられたアクションを、制御対象物に実行させる指示部と、
を有し、
前記次に実行すべきアクションが、有限の連続値の中の一つの値に対応し、
前記さらに次に実行すべきアクションを選択するまでの時間が、有限の連続する時間内の一つの値である
システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018129322A JP7093547B2 (ja) | 2018-07-06 | 2018-07-06 | 制御プログラム、制御方法及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018129322A JP7093547B2 (ja) | 2018-07-06 | 2018-07-06 | 制御プログラム、制御方法及びシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020009122A JP2020009122A (ja) | 2020-01-16 |
JP7093547B2 true JP7093547B2 (ja) | 2022-06-30 |
Family
ID=69151713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018129322A Active JP7093547B2 (ja) | 2018-07-06 | 2018-07-06 | 制御プログラム、制御方法及びシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7093547B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220130177A (ko) * | 2020-01-28 | 2022-09-26 | 딥마인드 테크놀로지스 리미티드 | 학습된 은닉 상태를 사용한 에이전트 제어 플래닝 |
CN117521576B (zh) * | 2024-01-08 | 2024-04-26 | 深圳鸿芯微纳技术有限公司 | 运算资源共享方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007055181A1 (ja) | 2005-11-11 | 2007-05-18 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
WO2014087590A1 (ja) | 2012-12-05 | 2014-06-12 | 日本電気株式会社 | 最適化装置、最適化方法および最適化プログラム |
WO2014115232A1 (ja) | 2013-01-25 | 2014-07-31 | 日本電気株式会社 | 解探索装置、解探索方法および解探索プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09114849A (ja) * | 1995-10-16 | 1997-05-02 | N T T Data Tsushin Kk | 木探索装置及び木探索方法 |
JPH1185845A (ja) * | 1997-09-08 | 1999-03-30 | Fuji Electric Co Ltd | 発電機の定期補修計画作成方法 |
-
2018
- 2018-07-06 JP JP2018129322A patent/JP7093547B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007055181A1 (ja) | 2005-11-11 | 2007-05-18 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
WO2014087590A1 (ja) | 2012-12-05 | 2014-06-12 | 日本電気株式会社 | 最適化装置、最適化方法および最適化プログラム |
WO2014115232A1 (ja) | 2013-01-25 | 2014-07-31 | 日本電気株式会社 | 解探索装置、解探索方法および解探索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020009122A (ja) | 2020-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6889270B2 (ja) | ニューラルネットワークアーキテクチャの最適化 | |
Andradóttir | An overview of simulation optimization via random search | |
JP7043596B2 (ja) | ニューラルアーキテクチャ検索 | |
KR102107378B1 (ko) | 하이퍼파라미터 자동 최적화 방법 및 그 장치 | |
Bouckaert | Bayesian network classifiers in weka | |
Srinivas et al. | IDEAL: A software package for analysis of influence diagrams | |
Gero et al. | An exploration‐based evolutionary model of a generative design process | |
JP2004530967A (ja) | 予測用モデルを展開する方法及び装置 | |
JP7093547B2 (ja) | 制御プログラム、制御方法及びシステム | |
JP2021519461A (ja) | 2つのノード間の到達可能なパスを決定するための方法、装置及びシステム | |
JP2022554074A (ja) | 所望の有機分子に対して有機合成経路を設計するためのシステムおよび方法 | |
Liu et al. | Extracting knowledge from web text with monte carlo tree search | |
JP7225866B2 (ja) | 最適化装置、方法、及びプログラム | |
WO2014087590A1 (ja) | 最適化装置、最適化方法および最適化プログラム | |
KR102559605B1 (ko) | 함수 최적화 방법 및 장치 | |
CN112905809B (zh) | 知识图谱学习方法和系统 | |
CN114036388A (zh) | 数据处理方法和装置、电子设备、及存储介质 | |
JP6989014B2 (ja) | システム構成導出装置、方法およびプログラム | |
CN107807993B (zh) | 一种网页历史记录功能的实现方法及装置 | |
JPWO2011016281A1 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
CN114239827A (zh) | 基于混合采样策略的多智能体在线动作决策方法 | |
KR20210093483A (ko) | 몬테카를로 트리 탐색 기반의 행동 결정 방법 | |
JP6804009B2 (ja) | 学習装置、学習方法、及び学習プログラム | |
JP2009301557A (ja) | 学習システム | |
Demir et al. | Generating effective initiation sets for subgoal-driven options |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7093547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |