JP2019124990A - 解探索処理装置および解探索処理方法 - Google Patents
解探索処理装置および解探索処理方法 Download PDFInfo
- Publication number
- JP2019124990A JP2019124990A JP2018003124A JP2018003124A JP2019124990A JP 2019124990 A JP2019124990 A JP 2019124990A JP 2018003124 A JP2018003124 A JP 2018003124A JP 2018003124 A JP2018003124 A JP 2018003124A JP 2019124990 A JP2019124990 A JP 2019124990A
- Authority
- JP
- Japan
- Prior art keywords
- policy
- solution
- value function
- decision
- action value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
解探索処理装置は、鉄道における車両や乗務員の再割り当てや資源配置計画を自動で行うための装置であり、図1に示されるように、表示部101、入力部102、CPU103、通信部104、記憶部107、メモリ105から構成される一般的な情報処理装置で実現される。解探索処理装置のハードウェアとして用いられる情報処理装置は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットやサーバ装置であってもよい。また、解探索処理装置の情報処理装置は、ネットワーク100を介して他の情報処理装置と通信可能である。
本実施形態では、ラインX、Y、Zの各々の生産量(それぞれの生産量をx,y,zとして、整数と仮定)を、決められた制約条件のもとで、ある生産高をなるべく大きくする条件(生産量x、y、zなど)を求める離散最適化問題を考える。
各ラインの生産能力:0≦x,y,z≦3
ラインY、Zの共用設備から来る生産設備上の制約:0≦y+z≦3
生産に従事する作業員の配置から来る制約:
z=3のとき、x=0、y=0
z=2のとき、x≦1
z=1のとき、(x,y)=(0,0)∪(1,1)
z=0のとき、(x,y)≠(3,3)
このときに、生産高f(x,y,z)=5x+3y+zを最大化する問題を考える。このように最適化問題のターゲットとなる関数を、目的関数という。
Vt:探索ステップtでの各決定変数の値選択状況を表す行列
Dt:探索ステップtでの各決定変数の選択可能なドメインを表す行列
行列Vt、Dtは、行が決定変数x,y,zで、列がその決定変数x,y,zのドメインを示している。Vtの探索ステップt=0での各要素の初期値は0である。
x,y,z=l(l=0,1,2,3)
となっている決定変数x,y,zの行のドメインlの列に1を選択するものとする。
1)ある探索ステップtの値選択状況Vtで選択可能なドメインDtを、上記Q学習の状態sを表すものとする。
2)選択可能なドメインDtは、値選択状況Vtから制約伝播によって計算する。
3)状態sに応じて,次に値を決定するために選択するべき決定変数とその値を方策aとする。
4)目的関数のスコアの改善度を報酬rとする。
5)方策決定前の選択可能なドメインs_pre、方策決定後の選択可能なドメイン s_postとし、行動価値関数は、これらのドメインs_pre,s_postを入力としたQ(s_pre,s_post,a)で表現し,行動価値関数が最大となる方策aを選択する(図5、図6)。
6)目的関数のスコアの改善度で与えられる報酬rによって行動価値関数Q(s_pre,s_post,a)を更新する。
r=f(x2,y2,z2)−f(x1,y1,z1) …(式1)
ここで、x1,y1,z1は、方策決定前の値、x2,y2,z2は、方策決定後の値である。これは、目的関数fが最大のものを求めることに対応して、目的関数fが大きいものを、その報酬が大きいものと評価するという意味である。なお、本実施形態の生産計画問題のように、報酬rは目的関数が単調ならば、準最適解が見つかった時点ではなく、解探索の途中に付与してもよい。
Q(s_pre,s_post,a)=f(x2,y2,z2) …(式2)
ここでも、x2,y2,z2は、方策決定後の値である。
上記のように本実施形態の解探索のアルゴリズムは、強化学習を前提としたものであり、行動価値関数Qは、以下の(式3)により学習により、更新していくものとする。
なお、オフライン学習200でもオンライン210でもQ学習のアルゴリズムは同様である。
図8に示される行動価値関数初期化部120は、行動価値関数Qを初期化する機能部である。行動価値関数初期化部120では、行動価値関数Qを過去データの問題と解の履歴により初期化する(オフライン学習200)。ここでは、上記の(式2)に従い、目的関数のスコアを報酬としてQを更新し、初期化する。
本実施形態の探索処理は、強化学習の考え方を利用した制約伝播下における探索処理であり、図9Aに示される例では、目的関数の途中のスコア(目的関数の値)に応じて報酬rを各ステップの方策ごとに随時付与し、Qを更新しながら、探索するアルゴリズムになっている。これは、ε−greedy法で、確率1−εで、Qを最大化するように探索ツリーを探索するものである。
方策aを選択し(S02)、状態s_preと方策aで制約伝播を算出し(S03)、状態、s_postを算出する(S04)。そして、Q(s_pre,s_post,a)を算出する(S05)。
先ず、ランダムに方策aを選択し(S21)、状態s_preと方策aで制約伝播を算出し(S22)、状態、s_postを算出する(S23)。そして、Q(s_pre,s_post,a)を算出する(S24)。
そして、方策aに対する報酬rに応じて、Q(s_pre,s_post,a)を更新する(S26、(式3))。
101…表示部
102…入力部
103…CPU
104…通信部
105…メモリ
106…プログラム
107…記憶部
110…過去の探索情報
112…現在の問題情報
120…行動価値関数初期化部
121…探索部
122…遷移後状態算出部
123…行動価値関数学習部
Claims (8)
- 離散最適化問題の目的関数に対する準最適解を探索する解探索処理装置であって、
解の履歴と制約式と決定変数の選択可能なドメインの初期状態からなる探索情報を入力して、各ステップで選択する決定変数とその値を方策とし、前記方策と、方策決定前の決定変数の選択可能なドメインと、方策決定後の決定変数の選択可能なドメインとを引数とする行動価値関数を初期化する行動価値関数初期化部と、
方策決定前の決定変数の選択可能なドメインと、方策から制約伝播によって方策決定後の決定変数の選択可能なドメイン領域とを算出する遷移後状態算出部と、
制約式と決定変数のドメインの初期状態からなる問題情報と、前記行動価値関数初期化部により初期化した行動価値関数の情報とを入力して、方策と、方策決定前の決定変数のドメインと、方策決定後の行動価値関数のドメインとから対応する行動価値関数の値を求め、前記行動価値関数を最大とする方策を探索して、問題情報に対する最適解を探索する探索部とを有することを特徴とする解探索処理装置。 - 前記探索部は、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、行動価値関数を更新することを特徴とする請求項1記載の解探索処理装置。
- さらに、前記探索情報を入力して、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、前記行動価値関数を更新する行動価値関数学習部を有することを特徴とする請求項1記載の解探索処理装置。
- 前記行動価値関数学習部は、前記行動価値関数の学習のための方策の選択戦略として、ε−greedy法を用いることを特徴とする請求項3記載の解探索処理装置。
- 離散最適化問題の目的関数に対する準最適解を探索する解探索処理装置による解探索方法であって、
前記解探索処理装置に解の履歴と制約式と決定変数の選択可能なドメインの初期状態からなる探索情報とを入力して、前記解探索処理装置が各ステップで選択する決定変数とその値を方策とし、前記方策と、方策決定前の決定変数の選択可能なドメインと、方策決定後の決定変数の選択可能なドメインとを引数とする行動価値関数を初期化する手順と、
前記解探索処理装置が方策決定前の決定変数の選択可能なドメインと、方策から制約伝播によって方策決定後の決定変数の選択可能なドメイン領域とを算出する手順と、
前記解探索処理装置に、制約式と決定変数のドメインの初期状態からなる問題情報と、前記行動価値関数初期化部により初期化した行動価値関数の情報とを入力して、前記解探索処理装置が、方策と、方策決定前の決定変数のドメインと、方策決定後の行動価値関数のドメインとから対応する行動価値関数の値を求め、前記行動価値関数を最大とする方策を探索して、問題情報に対する最適解を探索する手順とを有することを特徴とする解探索処理方法。 - 前記問題情報に対する最適解を探索する手順において、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、行動価値関数を更新することを特徴とする請求項5記載の解探索処理方法。
- さらに、前記探索情報を入力して、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、前記行動価値関数を更新する手順を有することを特徴とする請求項5記載の解探索処理方法。
- 前記行動価値関数を更新する手順において、前記行動価値関数の学習のための方策の選択戦略として、ε−greedy法を用いることを特徴とする請求項7記載の解探索処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018003124A JP6963511B2 (ja) | 2018-01-12 | 2018-01-12 | 解探索処理装置および解探索処理方法 |
US16/156,300 US20190220750A1 (en) | 2018-01-12 | 2018-10-10 | Solution search processing apparatus and solution search processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018003124A JP6963511B2 (ja) | 2018-01-12 | 2018-01-12 | 解探索処理装置および解探索処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019124990A true JP2019124990A (ja) | 2019-07-25 |
JP6963511B2 JP6963511B2 (ja) | 2021-11-10 |
Family
ID=67213961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018003124A Active JP6963511B2 (ja) | 2018-01-12 | 2018-01-12 | 解探索処理装置および解探索処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190220750A1 (ja) |
JP (1) | JP6963511B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021132327A (ja) * | 2020-02-20 | 2021-09-09 | 国立大学法人京都大学 | 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2022024339A1 (ja) | 2020-07-31 | 2022-02-03 | 富士通株式会社 | 予測プログラム、予測方法および予測装置 |
JP2022522180A (ja) * | 2020-01-10 | 2022-04-14 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム |
JP2022525423A (ja) * | 2019-03-20 | 2022-05-13 | ソニーグループ株式会社 | ダブルアクタークリティックアルゴリズムを通じた強化学習 |
JP7468883B2 (ja) | 2019-11-07 | 2024-04-16 | 日本電気航空宇宙システム株式会社 | 輸送計画作成装置、輸送計画作成方法、プログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7029990B2 (ja) * | 2018-03-22 | 2022-03-04 | 日本電信電話株式会社 | 最適解探索装置、最適解探索方法及びプログラム |
US11742901B2 (en) * | 2020-07-27 | 2023-08-29 | Electronics And Telecommunications Research Institute | Deep learning based beamforming method and apparatus |
JP7111997B2 (ja) * | 2020-09-29 | 2022-08-03 | ダイキン工業株式会社 | 組合せ決定システム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008226096A (ja) * | 2007-03-15 | 2008-09-25 | Hitachi Ltd | 制約伝播装置、制約伝播方法、およびプログラム |
JP2013084175A (ja) * | 2011-10-12 | 2013-05-09 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
-
2018
- 2018-01-12 JP JP2018003124A patent/JP6963511B2/ja active Active
- 2018-10-10 US US16/156,300 patent/US20190220750A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008226096A (ja) * | 2007-03-15 | 2008-09-25 | Hitachi Ltd | 制約伝播装置、制約伝播方法、およびプログラム |
JP2013084175A (ja) * | 2011-10-12 | 2013-05-09 | Sony Corp | 情報処理装置、情報処理方法、及びプログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022525423A (ja) * | 2019-03-20 | 2022-05-13 | ソニーグループ株式会社 | ダブルアクタークリティックアルゴリズムを通じた強化学習 |
US11816591B2 (en) | 2019-03-20 | 2023-11-14 | Sony Group Corporation | Reinforcement learning through a double actor critic algorithm |
JP7468883B2 (ja) | 2019-11-07 | 2024-04-16 | 日本電気航空宇宙システム株式会社 | 輸送計画作成装置、輸送計画作成方法、プログラム |
JP2022522180A (ja) * | 2020-01-10 | 2022-04-14 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム |
JP7161066B2 (ja) | 2020-01-10 | 2022-10-25 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム |
JP2021132327A (ja) * | 2020-02-20 | 2021-09-09 | 国立大学法人京都大学 | 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP7272606B2 (ja) | 2020-02-20 | 2023-05-12 | 国立大学法人京都大学 | 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2022024339A1 (ja) | 2020-07-31 | 2022-02-03 | 富士通株式会社 | 予測プログラム、予測方法および予測装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6963511B2 (ja) | 2021-11-10 |
US20190220750A1 (en) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019124990A (ja) | 解探索処理装置および解探索処理方法 | |
Alkhateeb et al. | Discrete hybrid cuckoo search and simulated annealing algorithm for solving the job shop scheduling problem | |
JP6470165B2 (ja) | サーバ、システム及び探索方法 | |
JPH0973440A (ja) | コラム構造の再帰型ニューラルネットワークによる時系列トレンド推定システムおよび方法 | |
Alawad et al. | Discrete Jaya with refraction learning and three mutation methods for the permutation flow shop scheduling problem | |
US20190287010A1 (en) | Search point determining method and search point determining apparatus | |
Martins et al. | HSEDA: a heuristic selection approach based on estimation of distribution algorithm for the travelling thief problem | |
CN115066694A (zh) | 计算图优化 | |
Mukhopadhyay et al. | Reinforcement learning algorithms for uncertain, dynamic, zero-sum games | |
Xu et al. | Fusing complete monotonic decision trees | |
Rosendo et al. | A hybrid particle swarm optimization algorithm for combinatorial optimization problems | |
Bautista et al. | GRASP for sequencing mixed models in an assembly line with work overload, useless time and production regularity | |
Anantathanavit et al. | Using K-means radius particle swarm optimization for the travelling salesman problem | |
Wang et al. | Self-adapting hybrid strategy particle swarm optimization algorithm | |
JP6470209B2 (ja) | サーバ、システム及び探索方法 | |
Şenyiğit et al. | Artificial neural network models for lot-sizing problem: a case study | |
Nguyen et al. | Online learning-based clustering approach for news recommendation systems | |
US20210406932A1 (en) | Information processing apparatus, information processing method and program thereof | |
Gosavi | Solving Markov decision processes via simulation | |
Chetty et al. | A study on the enhanced best performance algorithm for the just-in-time scheduling problem | |
Yu et al. | An improved artificial bee colony algorithm based on factor library and dynamic search balance | |
CN111027709B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
Filiberto et al. | A new method for personnel selection based on ranking aggregation using a reinforcement learning approach | |
Dong et al. | Solving traveling salesman problems with ant colony optimization algorithms in sequential and parallel computing environments: a normalized comparison | |
Chen et al. | An efficient particle swarm optimizer with application to man-day project scheduling problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210413 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211015 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6963511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |