JP2019124990A - 解探索処理装置および解探索処理方法 - Google Patents

解探索処理装置および解探索処理方法 Download PDF

Info

Publication number
JP2019124990A
JP2019124990A JP2018003124A JP2018003124A JP2019124990A JP 2019124990 A JP2019124990 A JP 2019124990A JP 2018003124 A JP2018003124 A JP 2018003124A JP 2018003124 A JP2018003124 A JP 2018003124A JP 2019124990 A JP2019124990 A JP 2019124990A
Authority
JP
Japan
Prior art keywords
policy
solution
value function
decision
action value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018003124A
Other languages
English (en)
Other versions
JP6963511B2 (ja
Inventor
洋介 藤原
Yosuke Fujiwara
洋介 藤原
由泰 高橋
Yoshiyasu Takahashi
由泰 高橋
小林 雄一
Yuichi Kobayashi
雄一 小林
江端 智一
Tomokazu Ebata
智一 江端
太一 石飛
Taichi Ishitobi
太一 石飛
難波 康晴
Yasuharu Nanba
康晴 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018003124A priority Critical patent/JP6963511B2/ja
Priority to US16/156,300 priority patent/US20190220750A1/en
Publication of JP2019124990A publication Critical patent/JP2019124990A/ja
Application granted granted Critical
Publication of JP6963511B2 publication Critical patent/JP6963511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】制約プログラミングによって解探索を実施する大規模な離散最適化問題において、学習データを利用して、実用時間内に準最適解の求解を行う。【解決手段】解探索処理装置の行動価値関数初期化部は、解の履歴と制約式と決定変数の選択可能なドメインの初期状態からなる探索情報を入力して、各ステップで選択する決定変数とその値を方策とし、方策と、方策決定前の決定変数の選択可能なドメインと、方策決定後の決定変数の選択可能なドメインとを引数とする行動価値関数を初期化する。探索部は、価値関数初期化部により初期化した行動価値関数の情報を入力して、方策と、方策決定前の決定変数のドメインと、方策決定後の行動価値関数のドメインとから対応する行動価値関数の値を求め、行動価値関数を最大とする方策を探索して、問題情報に対する最適解を探索する。また、探索部は、目的関数に対するスコアの改善度を報酬とし、報酬に基づいて、行動価値関数を更新する。【選択図】 図9A

Description

本発明は、解探索処理装置に係り、大規模な離散最適化問題において制約充足解を探索する過程において、最適解に準じた準最適解を高速に求めるのに好適な解探索処理装置および解探索処理方法に関する。
制約プログラミングにより制約充足解を探索する問題の応用として、鉄道や資源配置、工場の生産計画などの産業分野における資源の管理や計画の業務を対象とする場合がある。
対象とする業務としては、例えば、鉄道運行管理業務では、通常時には予め定められた列車の運行計画(ダイヤ)に基づいて列車を走行させることが要求されているが、運行当日にダイヤ乱れが発生した場合には、列車運行に支障がないように計画を修正しなければならない。鉄道輸送に必要な計画は列車のダイヤのほかに、ダイヤ上の列車に車両の割り当て計画を定めた車両運用情報や、乗務員の割り当て計画を定めた乗務員運用情報がある。運行当日にダイヤ乱れが発生した場合には、ダイヤの修正に応じて車両運用情報や乗務員運用情報の修正が行われる。
また、例えば、資源配置計画業務では、資源の入出荷によって日次で変動する資源の在庫量に応じて、容量制限のある資源の配置場所に資源を配置する日次計画を立案することが求められる。このとき、出荷のための資源の加工を決められた日時に決められた場所で行う制約や日当たりでの資源を移動させる手段の容量制限の制約など多くの制約を遵守しながら、なおかつ前日の計画とはなるべく変更をしないように日次計画を立案する必要がある。
上記のような計画作成業務では、大規模な制約充足問題の解を導出しなければならず、従来では熟練したオペレータが手動で行っていた。しかしながら、近年では熟練したオペレータの退職に伴い、上記の業務をシステムで代替しようというニーズが顕在化している。熟練者のオペレータの業務を代替するシステムにおいてはオペレータが立案した計画と同等に実用的な制約充足解を実用的な時間内に求解することが求められている。
これまでも、実用的な制約充足解の求解を容易化する技術は提案されている。例えば、特許文献1には、ユーザにより決定変数のドメイン変更などの新たな要求が追加されるたびに、過去の問題解決事例において採用された解と比較し、同一の解が採用された頻度に基づいて解候補の評価値を求め、固定化された制約と追加の要求を満たす中で最も評価値の高い解を出力する技術が記載されている。
また、非特許文献1には、ツリー探索を効率的に行うプログラミングパラダイムの一つとして、制約プログラミングという手法が開示されている。
特開2003−99259号公報
Marc Vilain、 Henry Kautz、 Constraint Propagation Algorithms for Temporal Reasoning、 Aaai、 1986、 pp377-382
特許文献1に記載の技術は、ユーザが入力した決定変数のドメインの変更に関する要求に対して、過去の問題解決事例において採用された解と比較し、適切な解を出力することができる。ここで、ドメインとは決定変数の取りうる値の範囲をいう。確かに、特許文献1に記載の技術は、小規模な制約充足問題で全探索が終了する場合には過去事例に基づいて望まれる解が出力されるため有効である。しかしながら、制約や決定変数の数が多い大規模な制約充足問題では問題設定の状況に応じて制約充足解の集合を探索すること自体が困難となる。大規模な制約充足問題で決定変数をノードとして決定変数の値をエッジとしたツリー探索を行う場合には全探索を実用的な時間内に行うことは難しく、実用時間内に探索できる探索ステップ数内で求解できるように、決定変数のドメイン変更だけではなく、制約式の変更に応じて、適切な探索ルールを設定する必要がある。
また、非特許文献1に記載されているような制約プログラミングでは、ある決定変数のドメインが制約式を介して他の決定変数のドメインを縮小させる影響を制約伝播という演算で特定する。制約伝播により、制約式を介した、互いの決定変数のドメインの影響を考慮し、不要な探索範囲を早めにカットすることにより、効率的に探索領域の絞込みを行う。しかしながら、制約プログラミングにおける解探索においても、探索木の深さ方向の効率化はなされているが、探索木の分岐のうち、どの分岐を優先的に探索するかなど幅方向の効率化はまだ研究段階であり、全ての場合に有効なアルゴリズムは提案されていない。そのため、制約プログラミングにおいても、制約式の変更に応じて、実用時間内に最適解ではないとしても、最適解に準じた準最適解がみつかるように幅方向にも動的な探索をすることが必要である。
本発明の目的は、制約プログラミングによって解探索を実施する大規模な離散最適化問題において、学習データを利用して、実用時間内に準最適解の求解を行う解探索処理装置を提供することにある。
本発明の解探索処理装置の構成は、好ましくは、離散最適化問題の目的関数に対する準最適解を探索する解探索処理装置であって、解の履歴と制約式と決定変数の選択可能なドメインの初期状態からなる探索情報を入力して、各ステップで選択する決定変数とその値を方策とし、方策と、方策決定前の決定変数の選択可能なドメインと、方策決定後の決定変数の選択可能なドメインとを引数とする行動価値関数を初期化する行動価値関数初期化部と、方策決定前の決定変数の選択可能なドメインと、方策から制約伝播によって方策決定後の決定変数の選択可能なドメイン領域とを算出する遷移後状態算出部と、制約式と決定変数のドメインの初期状態からなる問題情報を入力して、行動価値関数初期化部により初期化した行動価値関数の情報を入力して、方策と、方策決定前の決定変数のドメインと、方策決定後の行動価値関数のドメインとから対応する行動価値関数の値を求め、行動価値関数を最大とする方策を探索して、問題情報に対する最適解を探索する探索部とを有するようにしたものである。
また、上記解探索処理装置の構成において、探索部は、行動価値関数は、目的関数に対するスコアの改善度を報酬とし、報酬に基づいて、行動価値関数を更新するようにしたものである。
本発明によれば、制約プログラミングによって解探索を実施する大規模な離散最適化問題において、学習データを利用して、実用時間内に準最適解の求解を行う解探索処理装置を提供することができる。
解探索処理装置のハードウェア・ソフトウェア構成図である。 値選択状況を表す行列の一例を示す図である。 ステップ1での選択可能なドメインを表す行列を示す図である。 ステップ2での選択可能なドメインを表す行列を示す図である。 探索ステップでの様子を示す図である。 本実施形態のアルゴリズムによる探索ツリーを示す図である。 Qの学習の様子を示す図である。 解探索処理装置の処理の全体概要を示す図である。 解探索処理装置の探索処理を示すフローチャートである(その一)。 解探索処理装置の探索処理を示すフローチャートである(その一)。
以下、本発明に係る一実施形態を、図1ないし図9Bについて説明する。
先ず、図1を用いて実施形態1に係る解探索処理装置のハードウェア・ソフトウェア構成について説明する。
解探索処理装置は、鉄道における車両や乗務員の再割り当てや資源配置計画を自動で行うための装置であり、図1に示されるように、表示部101、入力部102、CPU103、通信部104、記憶部107、メモリ105から構成される一般的な情報処理装置で実現される。解探索処理装置のハードウェアとして用いられる情報処理装置は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットやサーバ装置であってもよい。また、解探索処理装置の情報処理装置は、ネットワーク100を介して他の情報処理装置と通信可能である。
記憶部107には、過去の探索情報110、現在の問題情報112が格納されている。過去の探索情報110は、過去の解の履歴と制約式と決定変数のドメインの初期状態で構成される情報である。現在の問題情報112は、制約式と決定変数のドメインの初期状態で構成される情報である。過去の探索情報110は、行動価値関数の初期化に用いられ、現在の問題情報112は、現在の準最適解を求めるための対象とする問題のデータである。
また、メモリ105には、解探索処理装置の各機能を実行するプログラム106が記憶されており、CPU103に実行されることにより機能が実現される。解探索処理装置は、プログラム106を実行することにより、行動価値関数初期化部120、探索部121、遷移後状態算出部122、行動価値関数学習部123の各機能部の機能を実行する。なお、各部の機能の詳細については、後に詳述する。
次に、図2ないし図6を用いて本実施形態の基本的な考え方、記法と、例として取り上げる離散最適化問題について説明する。
本実施形態では、ラインX、Y、Zの各々の生産量(それぞれの生産量をx,y,zとして、整数と仮定)を、決められた制約条件のもとで、ある生産高をなるべく大きくする条件(生産量x、y、zなど)を求める離散最適化問題を考える。
ここで、以下のような制約条件を仮定する。
各ラインの生産能力:0≦x,y,z≦3
ラインY、Zの共用設備から来る生産設備上の制約:0≦y+z≦3
生産に従事する作業員の配置から来る制約:
z=3のとき、x=0、y=0
z=2のとき、x≦1
z=1のとき、(x,y)=(0,0)∪(1,1)
z=0のとき、(x,y)≠(3,3)
このときに、生産高f(x,y,z)=5x+3y+zを最大化する問題を考える。このように最適化問題のターゲットとなる関数を、目的関数という。
解探索処理装置においては、過去の探索情報110を受け取り、各探索ステップごとに選択した決定変数の値と決定変数の選択によって変化する選択可能なドメインとの関係を導出する。ここで、決定変数とは、問題の対象として、その値を決定するべき変数であり、この問題の例では、各ラインの生産量であるx,y,zである。また、ドメインとは、決定変数が取りうる値の範囲(定義域)である。
探索ステップtでの各決定変数の値選択状況と選択可能なドメインで表現され、以下の行列で表記される。
:探索ステップtでの各決定変数の値選択状況を表す行列
:探索ステップtでの各決定変数の選択可能なドメインを表す行列
行列V、Dは、行が決定変数x,y,zで、列がその決定変数x,y,zのドメインを示している。Vの探索ステップt=0での各要素の初期値は0である。
については、探索ステップtで
x,y,z=l(l=0,1,2,3)
となっている決定変数x,y,zの行のドメインlの列に1を選択するものとする。
については、探索ステップt=0での各要素の初期値は決定変数の初期状態で選択可能となっている決定変数x,y,zのドメインlを1とし、選択不能となっているものを0としたものである。探索ステップt≠0については、Vの状態での他の決定変数からの制約伝播により、選択可能となった決定変数x,y,zの行のドメインlの列を1と更新し、選択不能となったものを0と更新する。
例えば、あるステップtで、x=y=1が選択され、zが選択されていないときには、Vは、図2(a)に示されるようになる。
また、あるステップtで、x=y=z=1が選択されたときには、図2(b)に示されるようになる。ここで、全の行に1が一つだけ現れるときに、x,y,zが全て選択されていることを意味する。
実際に、x=y=z=1のときには、上記の制約条件の全てを満たし、このときの生産高は、f(1,1,1)=5×1+3×1+1=9となる。
また、初期状態ステップ1で、全ての値をとりうるときのドメインを表す行列Dは、図3に示されるようになる。そして、次のステップ2では、zのとりうる値がz=3,2,1,0に従って、図4(a)、図4(b)、図4(c)、図4(d)に示されるようになる。
なお、この離散最適化問題の最適解は、(x,y,z)=(3,2,0)であり、生産高は、f(3,2,0)=5×3+3×2+0=21となる。また、この生産高に近い解としては、(x,y,z)=(2,3,0)であり、生産高は、f(2,3,0)=5×2+3×3+0=19となり、この解は、準最適解と評価してよい。
このような問題において、本実施形態では、以下のようなアルゴリズムにより、最適解(準最適解)の探索をおこなう。このアルゴリズムは、強化学習の一種であるQ学習の行動価値関数を応用したものである。
強化学習(Reinforcement Learning)とは、エージェント(行動主体)は環境の状況に基づき或る行動を選択し、行動に基づき環境が変化するという前提の下、環境の変化に伴って、何らかの報酬がエージェントに与えられ、エージェントはより良い行動の選択(意志決定)を学習していくという方法である。
Q学習(Q-learning)は、この強化学習の一種であり、或る環境状態sの下で、方策aを選択する価値(行動価値関数の値)Q(s,a)を学習する方法である。Q学習の基本的なアイデアとしては、ある状態sのとき、Q(s,a)の最も高いaを最適な行動として選択すればよいというものである。
このQ学習における行動価値関数を利用して、本実施形態の解探索処理装置における解探索の処理を以下のようにしておこなう。
1)ある探索ステップtの値選択状況Vで選択可能なドメインDを、上記Q学習の状態sを表すものとする。
2)選択可能なドメインDは、値選択状況Vから制約伝播によって計算する。
3)状態sに応じて,次に値を決定するために選択するべき決定変数とその値を方策aとする。
4)目的関数のスコアの改善度を報酬rとする。
5)方策決定前の選択可能なドメインs_pre、方策決定後の選択可能なドメイン s_postとし、行動価値関数は、これらのドメインs_pre,s_postを入力としたQ(s_pre,s_post,a)で表現し,行動価値関数が最大となる方策aを選択する(図5、図6)。
6)目的関数のスコアの改善度で与えられる報酬rによって行動価値関数Q(s_pre,s_post,a)を更新する。
本実施形態では、報酬rを目的関数fにより、以下の(式1)で定義する。
r=f(x,y,z)−f(x,y,z) …(式1)
ここで、x,y,zは、方策決定前の値、x,y,zは、方策決定後の値である。これは、目的関数fが最大のものを求めることに対応して、目的関数fが大きいものを、その報酬が大きいものと評価するという意味である。なお、本実施形態の生産計画問題のように、報酬rは目的関数が単調ならば、準最適解が見つかった時点ではなく、解探索の途中に付与してもよい。
また、初期状態においては、行動価値関数Qの値は、以下の(式2)で定義する。
Q(s_pre,s_post,a)=f(x,y,z) …(式2)
ここでも、x,y,zは、方策決定後の値である。
次に、図7を用いて行動価値関数Qの学習処理を説明する。
上記のように本実施形態の解探索のアルゴリズムは、強化学習を前提としたものであり、行動価値関数Qは、以下の(式3)により学習により、更新していくものとする。
Figure 2019124990
ここで、s_pre′は、後方での方策決定前の選択可能なドメイン、s_postは、後方での方策決定後の選択可能なドメイン、cは、方策の候補である。また、γ(0<γ≦1)は、割引率、α(0<α≦1)は、学習率であり、これらは、Q学習における定数である。
学習のための探索戦略としては、例えば、ε−greedy法を用いる。これは、改善解を求めるにあたって、確率εで、ランダムに探索ツリーを探索し、確率1−εで、Qを最大化するように探索ツリーを探索するものである。
改善解としては、行動価値関数が大きいものが一つの指標になるので、Qを最大化するように探索するのは、当然であるが、それでは、解の探索範囲が広がらず、埋もれた準最適解や最適解があるおそれがある。ε−greedy法は、そのために、ランダムな探索と、Qを最大化する探索を組み合わせたアルゴリズムであるということができる。
本実施形態の解探索処理装置では、図6に示されるように、過去の探索情報110を用いたオフライン学習200と、現在の問題情報112を用いたオンライン学習210を用いたQによる探索処理300をおこなう。
オフライン学習200は、過去の探索情報110による模倣と強化プロセスである。模倣のプロセスは、過去の問題の解(教師データ)を用いて、行動価値関数Qを更新するプロセスであり、強化のプロセスは、過去の問題に対して新たな解を見つけて、Qを更新するプロセスである。
一方のオンライン学習210は、目的関数の変更や過去データに対する反例の対応のためにおこなう学習である。もし、目的関数変更、反例が存在する場合に、過去の探索情報110による行動価値関数Qに従った解の探索をすると、高い報酬rが得られない。そのため、上記のε−greedy法により、確率εで、たまたま高い報酬rが見つかると、そのたまたま見つかった高い報酬rの方向を重点的に探索するようQを更新する。したがって、オンライン学習210で更新した行動価値関数Qに従って探索した結果、目的関数が変更されたり、反例が存在する場合でも探索をアジャストできるというものである。
なお、オフライン学習200でもオンライン210でもQ学習のアルゴリズムは同様である。
次に、図8を用いて解探索処理装置の処理の全体概要について説明する。
図8に示される行動価値関数初期化部120は、行動価値関数Qを初期化する機能部である。行動価値関数初期化部120では、行動価値関数Qを過去データの問題と解の履歴により初期化する(オフライン学習200)。ここでは、上記の(式2)に従い、目的関数のスコアを報酬としてQを更新し、初期化する。
行動価値関数学習部123は、行動価値関数Qを学習する機能部である。行動価値関数学習部123では、初期化された行動価値関数Qに対して、ε−greedy法で過去データの問題の改善解を探索し,改善度を報酬としてQを更新する(オフライン学習200、(式3))。また、現在の問題に対する探索中に呼出されて、ε−greedy法で改善解を探索し,改善度を報酬としてQを更新する(オンライン学習210、(式3))。
探索部121は、行動価値関数Qに従った解の探索をする機能部である。探索部121は、オフライン学習200でチューニングされた行動価値関数Qにより現在の探索情報からデータを受け取り、各ステップで方策aをとることにより、最適解、準最適解を探索する。
次に、図9Aおよび図9Bを用いて解探索処理装置による探索処理について説明する。
本実施形態の探索処理は、強化学習の考え方を利用した制約伝播下における探索処理であり、図9Aに示される例では、目的関数の途中のスコア(目的関数の値)に応じて報酬rを各ステップの方策ごとに随時付与し、Qを更新しながら、探索するアルゴリズムになっている。これは、ε−greedy法で、確率1−εで、Qを最大化するように探索ツリーを探索するものである。
全ての方策候補について、以下の処理を繰り返す(S01−S06)。
方策aを選択し(S02)、状態s_preと方策aで制約伝播を算出し(S03)、状態、s_postを算出する(S04)。そして、Q(s_pre,s_post,a)を算出する(S05)。
S01−S07のループを抜けたとき、Q(s_pre,s_post,a)が最大となる方策aを選択し(S07)、方策aに対する報酬rに応じて、Q(s_pre,s_post,a)を更新する(S08、(式3))。
探索終了条件を満たすときには(S09:YES)、探索処理を終了し、解が全て定まっていないときには(S09:NO)、次ステップに行き(S10)、S01に戻る。
探索終了条件は、離散最適化問題の特質やユーザの意図に応じて定める。例えば、ステップ数や探索ツリーの深さが既定のものを超えたこと、準最適解が求められて目的化関数で十分なスコアを得られたこと、解探索処理装置のCPU稼働時間が既定の時間をオーバしたことなどが考えられる。
また、他の探索戦略においては、図9Bに示されるように、方策aをランダムに選択する。ε−greedy法で、確率εで、ランダムに探索ツリーを探索することに対応するものである。
先ず、ランダムに方策aを選択し(S21)、状態s_preと方策aで制約伝播を算出し(S22)、状態、s_postを算出する(S23)。そして、Q(s_pre,s_post,a)を算出する(S24)。
そして、方策aに対する報酬rに応じて、Q(s_pre,s_post,a)を更新する(S26、(式3))。
探索終了条件を満たすときには(S26:YES)、探索処理を終了し、解が全て定まっていないときには(S26:NO)、次ステップに行き(S30)、S21に戻る。
離散最適化問題の一例として、将棋、チェス、囲碁などの完全情報ゲームで、局面を与えて望ましい着手を計算する問題がある。この場合には、それらのゲームはルール(制約、目的関数)が固定されている。そのため,探索モデルは同一のルールであれば変更する必要がない。一方、業務スケジューリング問題は、毎回、制約や目的関数が変更されるため、同一のルールが前提条件となっているゲーム用の人工知能では対応できない。本実施形態の解探索処理方法によれば、そのような制約や目的関数が変更される問題においても、ルール(特に制約)の変更が反映される決定変数の選択可能なドメインを制約伝播により、計算し、選択可能なドメインの変化に応じて強化学習のモデルにより探索することによって、ルールの変化に応じて準最適解を効率的に探索できるという利点がある。
また、行動価値関数は、引数の場合分けの数が膨大となる可能性があるため、畳み込みニューラルネットワークにより、行動価値関数Qが最大となる方策aを推定するようにしてもよい。
また、本実施形態では、行動価値関数をQ学習で更新する強化学習する例を述べたが、強化学習の枠組みなら上記に限定されず、Actor−Critic、Sarsaやモンテカルロ法などの他の強化学習の手法によってもよい。
なお、本実施形態で、状態として捉えた方策決定後の選択可能なドメインs_postは,方策決定前の選択可能なドメインs_postの行列と制約伝播の作用の行列との要素どうしの積により算出することができる。また、方策自体を制約伝播の作用の行列で表現してもよい。
以上、説明したように、本実施形態の解探索処理装置によれば、強化学習の手法を離散最適化問題に応用することにより、制約や目的関数が変更される場合にあっても、行動価値関数にそった探索をおこなうことによって、決定変数のとりうる組合せ数が膨大な場合でも、実用時間内に準最適解を求めることができる。
100…ネットワーク
101…表示部
102…入力部
103…CPU
104…通信部
105…メモリ
106…プログラム
107…記憶部
110…過去の探索情報
112…現在の問題情報
120…行動価値関数初期化部
121…探索部
122…遷移後状態算出部
123…行動価値関数学習部

Claims (8)

  1. 離散最適化問題の目的関数に対する準最適解を探索する解探索処理装置であって、
    解の履歴と制約式と決定変数の選択可能なドメインの初期状態からなる探索情報を入力して、各ステップで選択する決定変数とその値を方策とし、前記方策と、方策決定前の決定変数の選択可能なドメインと、方策決定後の決定変数の選択可能なドメインとを引数とする行動価値関数を初期化する行動価値関数初期化部と、
    方策決定前の決定変数の選択可能なドメインと、方策から制約伝播によって方策決定後の決定変数の選択可能なドメイン領域とを算出する遷移後状態算出部と、
    制約式と決定変数のドメインの初期状態からなる問題情報と、前記行動価値関数初期化部により初期化した行動価値関数の情報とを入力して、方策と、方策決定前の決定変数のドメインと、方策決定後の行動価値関数のドメインとから対応する行動価値関数の値を求め、前記行動価値関数を最大とする方策を探索して、問題情報に対する最適解を探索する探索部とを有することを特徴とする解探索処理装置。
  2. 前記探索部は、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、行動価値関数を更新することを特徴とする請求項1記載の解探索処理装置。
  3. さらに、前記探索情報を入力して、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、前記行動価値関数を更新する行動価値関数学習部を有することを特徴とする請求項1記載の解探索処理装置。
  4. 前記行動価値関数学習部は、前記行動価値関数の学習のための方策の選択戦略として、ε−greedy法を用いることを特徴とする請求項3記載の解探索処理装置。
  5. 離散最適化問題の目的関数に対する準最適解を探索する解探索処理装置による解探索方法であって、
    前記解探索処理装置に解の履歴と制約式と決定変数の選択可能なドメインの初期状態からなる探索情報とを入力して、前記解探索処理装置が各ステップで選択する決定変数とその値を方策とし、前記方策と、方策決定前の決定変数の選択可能なドメインと、方策決定後の決定変数の選択可能なドメインとを引数とする行動価値関数を初期化する手順と、
    前記解探索処理装置が方策決定前の決定変数の選択可能なドメインと、方策から制約伝播によって方策決定後の決定変数の選択可能なドメイン領域とを算出する手順と、
    前記解探索処理装置に、制約式と決定変数のドメインの初期状態からなる問題情報と、前記行動価値関数初期化部により初期化した行動価値関数の情報とを入力して、前記解探索処理装置が、方策と、方策決定前の決定変数のドメインと、方策決定後の行動価値関数のドメインとから対応する行動価値関数の値を求め、前記行動価値関数を最大とする方策を探索して、問題情報に対する最適解を探索する手順とを有することを特徴とする解探索処理方法。
  6. 前記問題情報に対する最適解を探索する手順において、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、行動価値関数を更新することを特徴とする請求項5記載の解探索処理方法。
  7. さらに、前記探索情報を入力して、目的関数に対するスコアの改善度を報酬とし、前記報酬に基づいて、前記行動価値関数を更新する手順を有することを特徴とする請求項5記載の解探索処理方法。
  8. 前記行動価値関数を更新する手順において、前記行動価値関数の学習のための方策の選択戦略として、ε−greedy法を用いることを特徴とする請求項7記載の解探索処理方法。
JP2018003124A 2018-01-12 2018-01-12 解探索処理装置および解探索処理方法 Active JP6963511B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018003124A JP6963511B2 (ja) 2018-01-12 2018-01-12 解探索処理装置および解探索処理方法
US16/156,300 US20190220750A1 (en) 2018-01-12 2018-10-10 Solution search processing apparatus and solution search processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018003124A JP6963511B2 (ja) 2018-01-12 2018-01-12 解探索処理装置および解探索処理方法

Publications (2)

Publication Number Publication Date
JP2019124990A true JP2019124990A (ja) 2019-07-25
JP6963511B2 JP6963511B2 (ja) 2021-11-10

Family

ID=67213961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018003124A Active JP6963511B2 (ja) 2018-01-12 2018-01-12 解探索処理装置および解探索処理方法

Country Status (2)

Country Link
US (1) US20190220750A1 (ja)
JP (1) JP6963511B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021132327A (ja) * 2020-02-20 2021-09-09 国立大学法人京都大学 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2022024339A1 (ja) 2020-07-31 2022-02-03 富士通株式会社 予測プログラム、予測方法および予測装置
JP2022522180A (ja) * 2020-01-10 2022-04-14 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム
JP2022525423A (ja) * 2019-03-20 2022-05-13 ソニーグループ株式会社 ダブルアクタークリティックアルゴリズムを通じた強化学習
JP7468883B2 (ja) 2019-11-07 2024-04-16 日本電気航空宇宙システム株式会社 輸送計画作成装置、輸送計画作成方法、プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7029990B2 (ja) * 2018-03-22 2022-03-04 日本電信電話株式会社 最適解探索装置、最適解探索方法及びプログラム
US11742901B2 (en) * 2020-07-27 2023-08-29 Electronics And Telecommunications Research Institute Deep learning based beamforming method and apparatus
JP7111997B2 (ja) * 2020-09-29 2022-08-03 ダイキン工業株式会社 組合せ決定システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008226096A (ja) * 2007-03-15 2008-09-25 Hitachi Ltd 制約伝播装置、制約伝播方法、およびプログラム
JP2013084175A (ja) * 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008226096A (ja) * 2007-03-15 2008-09-25 Hitachi Ltd 制約伝播装置、制約伝播方法、およびプログラム
JP2013084175A (ja) * 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022525423A (ja) * 2019-03-20 2022-05-13 ソニーグループ株式会社 ダブルアクタークリティックアルゴリズムを通じた強化学習
US11816591B2 (en) 2019-03-20 2023-11-14 Sony Group Corporation Reinforcement learning through a double actor critic algorithm
JP7468883B2 (ja) 2019-11-07 2024-04-16 日本電気航空宇宙システム株式会社 輸送計画作成装置、輸送計画作成方法、プログラム
JP2022522180A (ja) * 2020-01-10 2022-04-14 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム
JP7161066B2 (ja) 2020-01-10 2022-10-25 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 断熱発展経路の予測方法、装置、機器及びコンピュータプログラム
JP2021132327A (ja) * 2020-02-20 2021-09-09 国立大学法人京都大学 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体
JP7272606B2 (ja) 2020-02-20 2023-05-12 国立大学法人京都大学 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2022024339A1 (ja) 2020-07-31 2022-02-03 富士通株式会社 予測プログラム、予測方法および予測装置

Also Published As

Publication number Publication date
JP6963511B2 (ja) 2021-11-10
US20190220750A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
JP2019124990A (ja) 解探索処理装置および解探索処理方法
Alkhateeb et al. Discrete hybrid cuckoo search and simulated annealing algorithm for solving the job shop scheduling problem
JP6470165B2 (ja) サーバ、システム及び探索方法
JPH0973440A (ja) コラム構造の再帰型ニューラルネットワークによる時系列トレンド推定システムおよび方法
Alawad et al. Discrete Jaya with refraction learning and three mutation methods for the permutation flow shop scheduling problem
US20190287010A1 (en) Search point determining method and search point determining apparatus
Martins et al. HSEDA: a heuristic selection approach based on estimation of distribution algorithm for the travelling thief problem
CN115066694A (zh) 计算图优化
Mukhopadhyay et al. Reinforcement learning algorithms for uncertain, dynamic, zero-sum games
Xu et al. Fusing complete monotonic decision trees
Rosendo et al. A hybrid particle swarm optimization algorithm for combinatorial optimization problems
Bautista et al. GRASP for sequencing mixed models in an assembly line with work overload, useless time and production regularity
Anantathanavit et al. Using K-means radius particle swarm optimization for the travelling salesman problem
Wang et al. Self-adapting hybrid strategy particle swarm optimization algorithm
JP6470209B2 (ja) サーバ、システム及び探索方法
Şenyiğit et al. Artificial neural network models for lot-sizing problem: a case study
Nguyen et al. Online learning-based clustering approach for news recommendation systems
US20210406932A1 (en) Information processing apparatus, information processing method and program thereof
Gosavi Solving Markov decision processes via simulation
Chetty et al. A study on the enhanced best performance algorithm for the just-in-time scheduling problem
Yu et al. An improved artificial bee colony algorithm based on factor library and dynamic search balance
CN111027709B (zh) 信息推荐方法、装置、服务器及存储介质
Filiberto et al. A new method for personnel selection based on ranking aggregation using a reinforcement learning approach
Dong et al. Solving traveling salesman problems with ant colony optimization algorithms in sequential and parallel computing environments: a normalized comparison
Chen et al. An efficient particle swarm optimizer with application to man-day project scheduling problems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211015

R150 Certificate of patent or registration of utility model

Ref document number: 6963511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150