JP4209109B2 - Container terminal operation optimization system - Google Patents

Container terminal operation optimization system Download PDF

Info

Publication number
JP4209109B2
JP4209109B2 JP2001388533A JP2001388533A JP4209109B2 JP 4209109 B2 JP4209109 B2 JP 4209109B2 JP 2001388533 A JP2001388533 A JP 2001388533A JP 2001388533 A JP2001388533 A JP 2001388533A JP 4209109 B2 JP4209109 B2 JP 4209109B2
Authority
JP
Japan
Prior art keywords
state
container
unloading
containers
yard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001388533A
Other languages
Japanese (ja)
Other versions
JP2003182854A (en
Inventor
一浩 武多
昭 井上
洋一 平嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2001388533A priority Critical patent/JP4209109B2/en
Publication of JP2003182854A publication Critical patent/JP2003182854A/en
Application granted granted Critical
Publication of JP4209109B2 publication Critical patent/JP4209109B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンテナターミナル運用最適化システムに関し、特にコンテナを効率良くコンテナ船に積み込む技術に関する。
【0002】
【従来の技術】
船舶を利用した貨物輸送は世界各国の港で従来から盛んに行われてきた。通常、各貨物はコンテナによって管理されるため、港では船舶に対してコンテナの荷役作業が不可欠である。コンテナを船舶に積み込む場合、各コンテナの輸送先が決まっており、船舶内ではコンテナを移動することができないので、予め決定された積載順にコンテナを並べておく必要がある。コンテナは各地からトラックによって運び込まれ、所定の領域に積み上げられる。この領域をベイ、ベイの集合をヤードエリアと呼ぶ。ヤードエリアのコンテナは積載順を無視して並べられるため、船舶への積み込み前にコンテナを配置換えする必要が生じる。配置換え後、コンテナはバッファエリアと呼ばれる領域に保管される。
【0003】
一方、港に停泊する船舶からは停泊料が徴収される。料金は停泊時間を基準にして決定されるため、長時間停泊すると料金が高額になってしまう。このためコンテナの配置替えを効率よく行うことによって停泊時間をできるだけ短くする方法が求められている。
【0004】
コンテナの配置替えを行う場合、コンテナの配置と移動の組み合わせを全部記憶しておくことによって、最短時間の配置替え順序を探索することができる。しかし、配置と移動の組み合わせ数は、コンテナ数が増加するにつれて指数関数的に増大するため、コンテナ数が大きい場合は全ての組み合わせを記憶・利用することは困難である。そこで、初期状態から局所的な探索をはじめ、解の改善を行う手法が必要になる。
【0005】
上記説明と関連して、特開平9−12116号公報には、コンテナ配置替え計画作成方法が開示されている。この引例では、N台の搬送手段が同期して搬送物をセットとして一度に運ぶ場合において、セットの搬送時間を最小にすることを目的としている。
【0006】
また、特開平9−267918号公報にはコンテナターミナルにおける本線荷役計画作成方法が開示されている。この引例では、岸壁荷役用クレーンの作業時間とコンテナヤード荷役用クレーンの作業時間の調整について述べている。
【0007】
【発明が解決しようとする課題】
従って、本発明の課題は、短時間で荷役作業を行うことができるコンテナターミナル運用最適化システムとその方法を提供することである。
【0008】
本発明の他の課題は、コンテナの最小移動を通して荷役作業を完了することができるように荷役作業をシミュレーションし、その結果に基づいて荷役作業を行うことができるコンテナターミナル運用最適化システムとその方法を提供することである。
【0009】
本発明の他の課題は、上記シミュレーションにQ-Learning法を適用してシミュレーションの効率を改善したコンテナターミナル運用最適化システムとその方法を提供することである。
【0010】
本発明の他の課題は、Q-Learning法の適用に際し、必要とされるメモリ容量を減らすことができるコンテナターミナル運用最適化システムとその方法を提供することである。
【0011】
【課題を解決するための手段】
以下に、[発明の実施の形態]で使用する番号・符号を用いて、課題を解決するための手段を説明する。これらの番号・符号は、[特許請求の範囲]の記載と[発明の実施の形態]の記載との対応関係を明らかにするために付加されたものであるが、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
【0012】
本発明の第1の観点で、コンテナターミナル運用最適化システムは、ヤードエリアに保管されているコンテナの配置位置を示すヤード配置データを格納するヤード配置データベース(36)と、バッファエリアに保管されるべき移動対象コンテナの希望配置位置を示すバッファ配置データを格納するバッファ配置データベース(38)と、コンテナ船の輸送先を示すデータから前記バッファ配置データを作成し、Q−learning法を用いて、前記ヤード配置データと前記バッファ配置データから最小移動回数で前記移動対象コンテナを前記ヤードエリアから前記バッファエリアに移動する手順を決定する制御部(40)とを具備するコンテナターミナル運用最適化システムは、前記移動対象コンテナを移動するためのトランスファクレーン(10)を更に具備し、前記制御部(40)は、前記決定された手順に従って、前記移動対象コンテナを前記ヤードエリア(4)から前記バッファエリア(6)に移動する順番を前記トランスファクレーン(10)に指示する制御指示装置(44)を更に具備する。
【0013】
前記トランスファクレーン(10)は、前記ヤードエリアに沿って設けられたレール(12)上を移動する。
【0014】
前記制御部(40)は、Q−learning法を実行するシミュレーション部(42)を具備し、前記シミュレーション部(42)は、Q−learning法を実行するとき、移動可能な前記動対象コンテナを前記ヤードエリア(4)から前記バッファエリア(6)に移動し、残りの前記コンテナに前記Q−learning法を実行する。このとき、前記残りのコンテナ中の残りの前記移動対象コンテナの順列について前記Q−learning法を実行する。
【0015】
本発明の第2の観点では、コンテナターミナル運用最適化方法は、コンテナ船の輸送先を示すデータからバッファ配置データを作成するステップと、前記バッファ配置データは、バッファエリアに保管されるべき移動対象コンテナの希望配置位置を示し、Q−learning法を用いて、ヤード配置データと前記バッファ配置データから最小移動回数で移動対象コンテナをヤードエリアからバッファエリアに移動する手順を決定するステップと、前記ヤード配置データは、前記ヤードエリアに保管されているコンテナの配置位置を示し、前記決定された手順に従って、前記移動対象コンテナを前記ヤードエリアから前記バッファエリアに移動するステップとを具備する。
【0016】
前記決定するステップは、移動可能な前記移動対象コンテナを前記ヤードエリアから前記バッファエリアに移動し、残りの前記コンテナに前記Q−learning法を実行するステップを具備する。
【0017】
前記実行するステップは、残りのコンテナ中の残りの前記動対象コンテナの順列について前記Q−learning法を実行する。
【0018】
本発明の第3の観点では、コンテナターミナル運用最適化方法は、(a)配置替え可能な移動対象コンテナが存在するか否かを判定するステップと、(b)配置替え可能な前記移動対象コンテナが存在するとき、全ての前記移動可能コンテナをヤードエリアからバッファエリアに移動するステップと、(c)配置替え可能ではない前記移動対象コンテナの特定のものを選択するステップと、(d)Q値を更新しながら前記移動対象コンテナを前記ヤードエリアから前記バッファエリアに移動するステップと、(e)前記移動対象コンテナが前記ヤードエリアに存在しなくなるまで、前記ステップ(a)から(d)までを繰り返すステップとを具備する。
【0019】
前記ステップ(a)から(e)までを、前記移動対象コンテナを並べたときの全ての順列に対して実行して、コンテナの移動回数が最も少ない順列を決定する。また、前記ステップ(d)は、前記移動対象コンテナ以外のコンテナをヤード内で移動して前記特定の移動対象コンテナを見いだし、前記特定の移動対象コンテナを前記ヤードエリアから前記バッファエリアに移動するステップを具備する。
【0020】
近年、わが国のコンテナターミナルの整備の立ち遅れやサービス水準の低下が指摘されており、中枢国際港湾の整備が緊急の課題となっている。このような状況の中でコンテナターミナルのオペレーションに着目し、そのスピードアップを図るために、試行錯誤を通じて最適解を導出する強化学習の一手法であるQ-Learning法をコンテナの配置替え荷役作業に適用し、短時間で荷役作業を終えることができる最適な運用化システムが提供される。
【0021】
【発明の実施の形態】
以下に添付図面を参照して、本発明のコンテナターミナル運用最適化システムについて詳細に説明する。
【0022】
図1は、本発明の実施の形態が適用されるコンテナターミナルと最適化システムを示している。コンテナターミナルは、ヤードエリア4とバッファエリア6とを有する。ヤードエリア4は、複数のベイ8からなる。ヤードエリア4とバッファエリア6の両側にはトランスファクレーン10用のレール12が設けられている。トランスファクレーン10は、レール12に沿って、ヤードエリア4とバッファエリア6とを移動する。最適化システムは、制御装置2を含み、制御装置2は、トランスファークレーン10の動作を監視し、制御する。
【0023】
コンテナトラックで運ばれてきたコンテナは、トランスファクレーン10によりいずれかのベイ8に積み上げられる。コンテナ船20の入港が予定されるときには、制御装置2は、輸送先を示すデータからコンテナの最適な荷役作業を計画し、その計画に従ってトランスファクレーン10にヤードエリア4からバッファエリア6にコンテナを移動する順番を指示する。その後、コンテナ船20が埠頭に着岸したときには、トランスファクレーン10は、制御装置2からの指示に従ってヤードシャーシ14にコンテナを積む。ヤードシャーシ14は、コンテナを積んだまま埠頭に移動する。岸壁荷役用クレーン22は、ヤードシャーシ14に積載されていたコンテナをコンテナ船20の内部に順番に移動する。こうして、効率よくコンテナはヤードエリア4からコンテナ船20に積み込まれることができる。
【0024】
制御装置2は、ヤード配置データベース36、バッファ配置データベース38、制御部40、入力装置32、出力装置34とを有する。制御部40は、シミュレータ42と制御指示装置44とを備えている。ヤード配置データベース36は、各コンテナのヤードエリア4での保管位置を示すヤード配置データを格納している。また、バッファ配置データベース38は、バッファエリア6に移動されたコンテナの一時保管位置を示すバッファ配置データを格納している。コンテナ船20の入港が予定されるときには、コンテナ船20の輸送先を示すデータが入力装置32からシミュレータ42に入力される。シミュレータ42は、輸送先データとヤード配置データとからバッファ配置データを作成する。その後、シミュレータ42は、ヤード配置データとバッファ配置データから、コンテナ船20に積み込まれるべきコンテナの最適な順番をシミュレートして配置替え計画を立案する。立案された計画は出力装置34に出力される。また、制御指示装置44は、その計画に従って指示をトランスファクレーン10に出力する。こうして、コンテナの移動回数が最小となる最適な順番でコンテナはヤードエリア4からバッファエリア8に配置替えされることができる。
【0025】
次に、コンテナの配置替え作業について説明する。
【0026】
先ず、図3を参照して、ヤードエリア4とバッファエリア6について説明する。一例として、図3(a)に示されるように、ヤードエリア4に2つのベイ8が存在するとする。この場合、ベイ8に積み上げられているコンテナには、図示のように番号がつけられている。また、輸送先はヤード配置データとリンクされている。コンテナ船20の輸送先データに基づいて、バッファエリア8に積み上げられるべきコンテナの位置が図3(b)に示されるとおりであるとする。実際にベイ8に積み上げられているコンテナの状態が図3(c)に示されている。このとき、コンテナを図3(b)に示されるようにコンテナを最も効率よく積み上げることを考える。
【0027】
図7は、荷繰り、配置替え操作の第1例を示している。この例では、バッファエリア8に移動され配置されるコンテナの順番は、C1、C2,C3、C4、C5、C6、C7、C8、C9の順である。このための操作を図4と図5を参照して説明する。
【0028】
図4(a)から(f)と図5(g)から(m)は、図7に示される荷役作業計画のステップに対応している。左2つは、ベイ8でのコンテナの保管状況を示し、右端はバッファエリア8でのコンテナの一時保管状況を示している。
【0029】
図4(a)は、最初のステップを示している。図3(c)に示される状態から、コンテナC1を配置替えするためにコンテナC9が荷繰りされる。次に、第2ステップでは、コンテナC1は移動可能であるので、コンテナC1がバッファエリア8に移動される。次に、第3ステップでは、コンテナC2のためにコンテナC7が荷繰りされる。続いて第4ステップでは、コンテナC2がバッファエリア8に配置替えされる。第5ステップでは、コンテナC5が荷繰りされ、第6ステップでは、コンテナC3がバッファエリア8に配置替えされる。第7ステップでは、コンテナC4がバッファエリア8に配置替えされ、続いて第8ステップではコンテナC5がバッファエリア8に配置替えされる。次に、第9ステップでは、コンテナC9が荷繰りされ、第10ステップではコンテナC6がバッファエリア8に配置替えされる。続いて、第11ステップでは、コンテナC7が配置替えされ、第12ステップではコンテナC8がバッファエリア8に配置替えされる。最後に、第13ステップでコンテナC9がバッファエリア8に配置替えされる。荷役作業計画の第1例では、コンテナは、C1、C2、C3、C4、C5、C6、C7、C8、C9の順で配置替えされている。このように、C1からC9までのコンテナを、図3(b)に示される所望の順番に積み上げるために、13ステップを要することになる。
【0030】
次に、図8は、荷役作業計画の第2例を示している。この例では、バッファエリア8に移動され配置されるコンテナの順番は、C2、C5,C3、C6、C9、C1、C4、C7、C8の順である。このための操作を図6を参照して説明する。図6(a)から(j)は、図8のステップに対応している。左2つは、ベイ8でのコンテナの保管状況を示し、右端はバッファエリア8でのコンテナの一時保管状況を示している。
【0031】
図6(a)は、最初のステップを示している。図3(c)に示される状態から、コンテナC2を配置替えするためにコンテナCが荷繰りされる。第1ステップで、ヤードエリア4で荷替え可能コンテナは、C6、C9、C4、C8、C7、C5であるが、バッファエリア8では荷替え可能コンテナはC1、C2、C3であり、実際に荷替え可能なコンテナは存在しない。そこで、コンテナC7が荷繰りされる。ここで、コンテナC7が選択されたのは、Q−learning法による学習の結果である。
【0032】
第2ステップでは、ヤードエリア4で荷替え可能コンテナは、C6、C9、C4、C7、C2、C5であるが、バッファエリア8では荷替え可能コンテナはC1、C2、C3であり、コンテナC2は配置替え可能である。従って、第2ステップでコンテナC2がバッファエリア8に配置替えされる。
【0033】
次に、第3ステップでは、ヤードエリア4で荷替え可能コンテナは、C6、C9、C4、C7、C5であるが、バッファエリア8では荷替え可能コンテナはC1、C5、C3であり、コンテナC5は配置替え可能である。従って、第3ステップでコンテナC5がバッファエリア8に配置替えされる。
【0034】
次に、第4ステップでは、ヤードエリア4で荷替え可能コンテナは、C6、C9、C4、C7、C3であるが、バッファエリア8では荷替え可能コンテナはC1、C8、C3であり、コンテナC3は配置替え可能である。従って、第4ステップでコンテナC3がバッファエリア8に配置替えされる。
【0035】
次に、第5ステップでは、ヤードエリア4で荷替え可能コンテナは、C6、C9、C4、C7であるが、バッファエリア8では荷替え可能コンテナはC1、C8、C6であり、コンテナC6は配置替え可能である。従って、第5ステップでコンテナC6がバッファエリア8に配置替えされる。
【0036】
次に、第6ステップでは、ヤードエリア4で荷替え可能コンテナは、C9、C4、C7であるが、バッファエリア8では荷替え可能コンテナはC1、C8、C9であり、コンテナC9は配置替え可能である。従って、第6ステップでコンテナC9がバッファエリア8に配置替えされる。
【0037】
次に、第7ステップでは、ヤードエリア4で荷替え可能コンテナは、C1、C4、C7であるが、バッファエリア8では荷替え可能コンテナはC1、C8であり、コンテナC1は配置替え可能である。従って、第7ステップでコンテナC1がバッファエリア8に配置替えされる。
【0038】
次に、第8ステップでは、ヤードエリア4で荷替え可能コンテナは、C4、C7であるが、バッファエリア8では荷替え可能コンテナはC4、C8であり、コンテナC4は配置替え可能である。従って、第8ステップでコンテナC4がバッファエリア8に配置替えされる。
【0039】
次に、第9ステップでは、ヤードエリア4で荷替え可能コンテナは、C7であるが、バッファエリア8では荷替え可能コンテナはC7、C8であり、コンテナC7は配置替え可能である。従って、第9ステップでコンテナC7がバッファエリア8に配置替えされる。
【0040】
最後に、第10ステップでは、ヤードエリア4で荷替え可能コンテナは、C8であるが、バッファエリア8では荷替え可能コンテナはC8であり、コンテナC8は配置替え可能である。従って、第10ステップでコンテナC8がバッファエリア8に配置替えされる。
【0041】
こうして、荷役作業計画の第2例では、10ステップでコンテナC1からコンテナC9が所望の位置に配置替えされている。一方、第1例では、13ステップかかっている。このように、配置替えの手順を考えるだけで最小の移動回数でコンテナをヤードエリア4からバッファエリア6に配置替えすることができる。
【0042】
次にこのような効率の良い配置替えをシミュレーションするために強化学習法としてのQ−learning法を適用することを考える。このために、Q−learning法におけるQ値は、ある状態とある動作の評価値を有する。ここで、配置替え問題の場合には、Q値(Q(s,a))は、コンテナの配置状態(s)と、このコンテナをヤードエリア4内での荷繰り操作、ヤードエリア4からバッファエリア8への配置替え操作(a)により定義される。Q値(Q(s,a))が最適値を持つように以下に示すアルゴリズムで更新していくことにより、コンテナの移動回数を最小にするコンテナの配置換え荷役を計画する。
(1) コンテナ状態sを観測する。
(2) 任意の行動選択方法に従ってコンテナの移動行動aを実行する。
(3) 移動行動に対する報酬rを受け取る。
(4) 配置換え後のコンテナ状態s'を観測する。
(5) 以下の更新式よりQ値を更新する。
Q(s,a)←(1−α)×Q(s,a)+α[r+γ・max Q(s',a')]
ただし、αは学習率(0<α<1)、γは割引率(0<γ<1)
(6) 時間ステップtをt+1へ進めて手順(1)へ戻る。
【0043】
従来のQ-learning法では、xi,uj,(i=1,...,m,j=1,・・・,n)をそれぞれのプラントの状態変数、入力とする。各(xi,uj)の組み合わせに対応する評価としてQ値を与える。Q値の集合をQ値表といい、各ujは対応する1Q値表を持つ。よって全ての(xi,uj)の組み合わせに対する評価を行うために、n個のQ値表が必要である。Q値表の入力はxi、出力はQ(xi,uj)である。プラントの特性が未知の場合、Q(xi,uj)も未知である。従ってQ(xi,uj)の時刻tにおける推定値をQt(xi,uj)として、次の式(1)でこれを更新する:
【数1】

Figure 0004209109
ここで、0<γ<1は割引率、αは学習率である。また、Rtは報酬で、時刻t−1の制御入力がuj、時刻tのプラント状態がx'の場合に与える。このとき、式(1)によって更新されるのは、(xi,uj)に対応する1Q値のみである。
【0044】
学習初期には、多くの(xi,uj)に対するQ(xi,uj)を繰り返し更新する必要がある。このため以下の式(2)のボルツマン分布によって入力ujを選択する方法が広く使われている。
【数2】
Figure 0004209109
ただし、Tは温度定数である。
【0045】
ここで、k個のコンテナの配置替え問題を考える。各コンテナはc1からckまでの固有の識別子を持つ。コンテナは1個のベイ8にランダムに積み上げられている。船舶に荷積みするコンテナの順序が決まっているため、コンテナをベイ8からバッファエリア6と呼ばれる領域に配置替えする。バッファエリア6の配置はコンテナの荷積み順に従って予め決定する。ベイの大きさはmy行ny列、コンテナの高さがl、バッファエリアの大きさはmb行nb列とする。ヤードエリア内の位置は1からmy×ny×lまでの整数で識別する。また、コンテナci(i=1,...,k)のヤードエリア内の位置をxi(xiは、1以上かつmy×ny×l以下の数)とし、ヤードエリアの配置をx=[x1,...,xk]と表す。ただし、ciがバッファエリアにある場合はxi=0とする。バッファエリアにはベイからコンテナを移動し、下から積み上げる。このため、バッファエリアに移動可能なコンテナはバッファエリアの列数nbに制限される。コンテナを配置替えする場合、まず対象コンテナcTを配置替え候補ucj(j=ny,...,nb+ny−1)から決定する。次に、cTの上に他のコンテナが存在する場合、これらをすべてベイ内の他の列[um1,...,umny 1]のうち1列に移動する。これを荷繰りと呼び、荷繰り対象コンテナをcMとする。そしてcTをバッファエリアに配置替えする。このとき、荷繰り先は1コンテナ当りny−1通り、配置替えはnb通りの選択肢があり、荷繰りまたは配置替えを行うとヤードエリアの状態が変化する。そこで、プラントの動作を、以下のように表す。
uj = umj (1≦j≦ny-1)
= ucj (ny≦j≦nb+ny-1)
この場合、プラントを以下の式(3)で表現できる。
【数3】
Figure 0004209109
ここで、f()はヤード・バッファエリアに対する動作ujの適用関数である。図3において、my=ny=mb=nb=3,l=2,k=9であり、コンテナの位置は1から18までの整数で識別される、このプラントに対して図6(a)で配置替え対象cTを[c1,c2,c3]の中からc2に決定し、c2上のコンテナc7を荷繰りしている。また、その荷繰り先を[um1,um2]=[13,18]から決定し、次の配置替え対象をc5としている。このときc7の荷繰り先を18にするよりも13にした方がc5を配置替えするための荷繰り回数が1回少なくなっている。また配置替え順序を第1例の1,2,3,4,5,6,7,8,9とするよりも、第2例の2,5,3,6,9,1,4,7,8とする方が少ない荷繰り回数で配置替えを行うことができる。2通りの配置替え順序に対するxの変化は、上記図7と8に示したとおりである。
【0046】
コンテナ配置替え問題に対するQ-learning法の適用に関し、従来では実現困難だったQ-learning法を用いた解の探索方法を説明する。
【0047】
Q-learning法では、全ての状態と動作の組み合わせが評価(Q値)を持つ必要がある。コンテナ配置替え問題にQ-learningを適用する場合、荷繰りを行う際にプラントの状態を表現するためにはxに加えて荷繰りコンテナcが必要になる。そこで、xを拡張したx+=[x1,…,xk,c]とuj(j=1,…,ny+nb−1)の組み合わせに対してQ値を割り当てる。このとき、1以上my×ny×l以下のxi(i=1,…,k)に対して、cはn通りであるため、x+は、以下の式のように、
【数4】
Figure 0004209109
通り存在し、Q値数は
【数5】
Figure 0004209109
である。つまり、kが増加するとQ値の数が指数関数的に増加する。従来、Q-learningではQ値数が大きくなると学習速度が低下し、また、Q値を格納するために必要な記憶領域も大きくなってしまう。
【0048】
そこで、学習速度を改善するためにプラントの性質を利用したQ-learningのアルゴリズムと、必要な記憶領域を減少させるためのデータ構造を以下で説明する。
【0049】
従来のQ-learningでは、Q値が(1)式によって更新され、γによって割り引かれつつ伝播する。配置替え問題の目的は荷繰り回数をできる限り小さくすることであるので、Q値は荷繰り回数を表す指標であれば良い。そこで、荷繰 u j(j=1,...,ny−1)に対してヤードエリアの2状態x,x'に、
【数6】
Figure 0004209109
の関係が成り立つ場合に、以下の式(4)
【数7】
Figure 0004209109
によってQ値を更新/伝播する。報酬Rtを配置替えがすべて完了した場合のみ与え、式(4)を用いてQ値を伝播すると、荷繰り回数の増加に伴って割り引き回数が増えるため対応するQ値が小さくなる。つまり、各状態で、Q値が相対的に大きくなる荷繰りを選択することによって荷繰り回数を小さくすることができる。また、各uj(j=1,...,ny−1)の選択確率を次式(5)で計算する。
【数8】
Figure 0004209109
【0050】
一方、配置替え順序は総荷繰り回数に影響を与える。すべての(x,uj)(jは1以上ny−1以下の整数)に対してQ値が求まっていれば、各配置順序に対する総荷繰り回数の最小値が計算できる。また、配置替え対象コンテナの選択は状態xに影響しない。これらの性質を利用し、cTを決定する場合には割引を行うことなくQ値を伝播する。つまりQ'(x,uj)(jは1以上ny−1以下の整数)をヤードエリアの状態xと配置替え対象コンテナの選択ujの組に対するQ値として、次式(6)で更新する。
【数9】
Figure 0004209109
式(6)によって配置替えしてもQ値の荷繰り回数の指標とし、各xに対して荷繰り回数を最も小さくするcTを求めることができる。ny以上nb(ny−1)以下を示す各ujの選択確率は次式(7)とする。
【数10】
Figure 0004209109
ただし、複数の配置替え候補が同一列に存在する場合、最も上にある候補を配置替え対象とする。これは、総繰り回数を増加させることが明らかな動作を除外するためである。
【0051】
さらに、他のコンテナが配置替え対象コンテナの上に存在しない場合には無条件に配置替えできる。この場合には、動作の選択肢が1通りのみであり、学習を行う必要がないため、Q値の伝播は配置替え直前と配置替え直後の状態に対応するQ値間で行う。つまり、時刻t−1,状態xで荷繰り、時刻t+i,状態x'i(i=1,...,K−1)(ただしKはコンテナの数)で配置替え候補コンテナをバッファに移動、時刻t+K,状態x'Kも新たな配置替え候補コンテナを決定した場合、以下の式(8)
【数11】
Figure 0004209109
となる。
【0052】
図10と図11に上記式(4)〜(8)を考慮したQ値の伝播方法の例を示す。図10において、パターン1では、プラントに入力uj1,uj2が順に与えられ、ヤードエリアの状態がx,x',x"の順に変化している。そして、荷繰りのみを繰り返しているので、式(4)によって2回Q値が伝播している。また、図11において、パターン2では、入力uj1,uj2,uj3が順に与えられているが、u2は配置替え対象の決定であるために状態が変化していない。また、x'→x"は配置替えでありx'に対してQ値の伝播が行われない。従って(x”,uj2)に対して式(6),(x+,uj1)に対して式(8)を用いてQ値が伝播されている。この結果、割引を伴ったQ値の伝播は荷繰りを行った場合のみに行われる。
【0053】
以上の説明に基づいて、以下に荷役作業最適化手順の決定方法を図9を参照して説明する。
【0054】
最初に、すべてのQ値を0に初期化する。ステップS2とS4で、配置替え可能なコンテナを全てバッファエリアに移動する。これにより、試行すべき順列の数が減少する。続いて、ステップS6で、配置替え対象コンテナcTを決定し、式(8)によってQ値を伝播した後、(x,uj)を記憶する。ステップS8では、Q値を更新する。続いて、ステップS10と12では、cMが存在すれば、式(6)によってQ値を更新した後(x',uj)を記憶する。さらにcMがあれば荷繰りし、式(4)によってQ値を更新した後、(x+,uj)を記憶する。これをcMがなくなるまで繰り返す。ステップS14では、cTを配置替えする。コンテナがヤードエリアに残っていれば制御フローは、ステップS16からステップS2に戻る。配置替えが完了すれば、ステップS18で報酬を受け取る。
【0055】
以上によって、Q値の繰り返し回数の指標とすることができる。
【0056】
提案方法の有効性を示すために、規模の異なる3つのプラントに対して計算機シミュレーションを行った。プラント1はl=1,k=4,my=3,ny=4,mb=1,nb=4,プラント2はl=1,k=5,my=3,ny=4,mb=2,nb=3,プラント3はl=2,k=36,my=ny=mb=nb=6とし、ヤードエリアの初期配列とバッファエリアの目標配列を図12に示す。プラント1、プラント2の状態数はそれぞれ47,520、380,160である。またプラント3の状態数は
【数12】
Figure 0004209109
であり、Q値数は
【数13】
Figure 0004209109
となる。
【0057】
1Q値を記憶するために4Byteが必要と仮定すると、全てのQ値を記憶するために記憶容量が約9.2×1066Byte必要であり、従来のQ-tableを用いる手法は構成できなかった。本発明の手法の設定パラメータは、α=0.99、γ=0.8、T=0.1とした。プラント1,2の最適解は荷繰り回数が1であり、どちらのプラントに対しても提案方法は最適解を発見できた。また、初期状態から配置替え完了までを1試行とし、プラント1に対して50試行、プラント2に対して200試行で全てのQ値の値が収束し、学習が終了した。このとき、プラント1に対して提案手法が学習した全ての状態・動作・Q値を図13に示す。
【0058】
図13からプラント1に対して記憶した状態はxε,xωのみであり、各状態に対して2Q値を学習していることが分かる。プラント2に対して、記憶した状態数は11であり、従来のQ-learningに比べQ-tableの構成に必要な状態数が削減できた。また、各状態において学習したQ値のうちで最大の値を持つ動作を選択することによって、荷繰り・配置替えの合計回数を最小にできることが分かった。プラント1,2では状態数が小さく、全ての状態・動作について学習が行えるため、初期状態から配置替え完了にいたるまでの全ての経路に対して、荷繰り・配置替え回数に応じたQ値が獲得できている。
【0059】
プラント1に対して学習した全てのQ値の試行回数に対する変化を調べ、異なった初期に対して行った30回のシミュレーション結果の空間平均をとったところ、学習した全てのQ値の値が収束していることが分かった。また状態xεの動作完了後、荷繰り0回または1回で配置替えが完了するため、各動作に対応するQ値は0.8または1.0となる。xωに対してはいずれの動作後も荷繰り0回で配置替えが完了するためQ値は1.0となる。従って、全てのQ値が真値に収束していることが分かった。
【0060】
図14は、プラント3に本発明の手法を適用した結果を示す。図14において、横軸は試行回数、縦軸は各試行の荷繰り数と配置替え数の合計を表す。結果は(A)30試行ごとの荷繰り・配置替え数の平均、(B)各試行までで最も小さい荷繰り・配置替えの合計回数について、行動選択アルゴリズムの初期値を変えて行った30回の独立したシミュレーションの結果の空間平均をとった。試行を重ねて学習が進行するとともに荷繰り・配置替え数が減少していることが分かった。また、全てのシミュレーションにおいて、最も少ない荷繰り・配置替え数は43(荷繰り数7)、1シミュレーションあたりの計算時間はCPUがPentiumIII850MHzのパーソナルコンピュータを用いて約1分30秒、使用メモリは約6×106Byteだった。
【0061】
このように、本発明は、強化学習の一手法であるQ-learning法を用いたコンテナターミナル運用最適化システムが提供する。本発明では、コンテナの配置をシステムの状態、コンテナの移動を制御入力ととらえ、コンテナの移動回数を小さくするように学習・記憶を行う。通常状態数が大きいプラントにQ-learning法を用いると状態と行動の組み合わせ数が大きくなり、必要な記憶容量が膨大になることが知られているが、本発明の手法は探索済みデータのみを記憶するため、必要な配置・移動の組み合わせ数を小さくできる。また、探索済みデータが再利用できるため、解の高速な探索・改善が可能である。
【0062】
上記のように、本発明では、コンテナ荷役計画に対して、状態・動作の組み合わせ数の爆発のために従来困難だったQ-learning法による学習法が提供される。その際、荷繰り回数のみをQ値の値に反映することによって学習効果を高めるとともに、必要な状態のみをQ-tableに記憶することによって必要な記憶容量を削減した。また、計算機シミュレーションによって、小規模な問題に対して最適解が求まることを確認した。さらに、実用規模の問題に対して,良好な結果が小さい記憶容量と短い計算時間で得られることが分かった。
【0063】
今回対象にしたコンテナターミナルは、本来荷役のための専用バッファ(一時保管場所)を有する。運用面では、翌朝船積みされるコンテナを前日夜間にヤードからバッファに配置換えし、バッファにおいては本船荷役中に荷繰りする必要がないように船積み順に合わせて積みつけるという運用になる。本発明のメリットは、▲1▼船積み中に荷繰りを行う必要がない、▲2▼ヤードシャーシはバッファとコンテナクレーンの間のみで搬送し走行距離が短縮される、▲3▼ヤードで搬出入を行う外来シャーシとの干渉がない、といったメリットがある。
【0064】
本研究の類似問題として古くから人工知能分野などで扱われた積み木問題があり、最近GAやニューラルネットワーク、マルチエージェント手法などによる解法が提案されている。積み木問題と本研究のプラントとはバッファエリアが存在し、バッファエリアへ積むコンテナの順序を荷繰り順に加えて学習することが異なる。
【0065】
【発明の効果】
この前日夜間に行われる配置換え荷役において、試行錯誤を通じて最適解を導出する強化学習の一手法であるQ-Learning法をコンテナの配置換え荷役作業に適用し、短時間で荷役作業を終えることができる最適な運用を計画する。
【図面の簡単な説明】
【図1】図1は、本発明が適用されるコンテナターミナルを示す図である。
【図2】図2は、本発明のコンテナターミナル運用最適化システムのうちの制御装置の構成を示すブロック図である。
【図3】図3は、コンテナの移動の最適化を説明する一例を示す図であり、(a)は、2つのヤードからヤードエリアにおけるコンテナの配置を示すヤード配置位置データであり、(b)は、バッファエリアに配置されるべきコンテナの位置を示すバッファ配置位置データを示す図であり、(c)はコンテナの初期状態を示す図である。
【図4】図4の(a)から(f)は、第1例におけるコンテナの移動を示す図である。
【図5】図5の(g)から(m)は、第1例におけるコンテナの移動を示す図である。
【図6】図6の(a)から(j)は、第2例におけるコンテナの移動を示す図である。
【図7】図7は、第1例におけるコンテナの荷繰りと配置替えの順序を示す図である。
【図8】図8は、第2例におけるコンテナの荷繰りと配置替えの順序を示す図である。
【図9】図9は、本発明のコンテナターミナル運用最適化の方法を示すフローチャートである。
【図10】図10は、Q値の伝播方法の例を示す図である。
【図11】図11は、Q値の伝播方法の例を示す図である。
【図12】図12は、ヤードエリアの初期配列とバッファエリアの目標配列を示す図である。
【図13】図13は、プラント1に対して提案手法が学習した全ての状態・動作・Q値を示す図である。
【図14】図14は、プラント3に本発明の手法を適用した結果を示す図である。
【符号の説明】
2:制御装置
4:ヤードエリア
6:バッファエリア
8:ベイ
10:トランスファクレーン
12:レール
14:ヤードシャーシ
20:コンテナ船
22:コンテナクレーン
32:入力装置
34:出力装置
36:ヤード配置データベース
38:バッファ配置データベース
40:制御部
42:シミュレータ
44:制御指示装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a container terminal operation optimizing system, and more particularly to a technique for efficiently loading containers onto a container ship.
[0002]
[Prior art]
Freight transportation using ships has been actively conducted at ports around the world. Usually, since each cargo is managed by a container, the container handling work is indispensable for a ship at a port. When a container is loaded on a ship, the destination of transportation of each container is determined, and the container cannot be moved in the ship. Therefore, it is necessary to arrange the containers in a predetermined loading order. Containers are transported from various locations by truck and stacked in a predetermined area. This area is called a bay, and the set of bays is called a yard area. Since the containers in the yard area are arranged ignoring the order of loading, it is necessary to rearrange the containers before loading into the ship. After the rearrangement, the container is stored in an area called a buffer area.
[0003]
On the other hand, a berthing fee is collected from a ship anchored at the port. The price is determined based on the berthing time, so if you berth for a long time, the price will be high. For this reason, there is a demand for a method for making the berthing time as short as possible by efficiently rearranging the containers.
[0004]
When performing container rearrangement, it is possible to search for the rearrangement order in the shortest time by storing all combinations of container arrangement and movement. However, since the number of combinations of arrangement and movement increases exponentially as the number of containers increases, it is difficult to store and use all combinations when the number of containers is large. Therefore, a method for improving the solution is required, including a local search from the initial state.
[0005]
In connection with the above description, Japanese Patent Application Laid-Open No. 9-12116 discloses a container rearrangement plan creation method. This reference aims at minimizing the transport time of a set when N transport means are synchronized and transport a transported object as a set at one time.
[0006]
Japanese Laid-Open Patent Publication No. 9-267918 discloses a main line cargo handling plan creation method in a container terminal. This reference describes the adjustment of the working time of a quay handling crane and the working time of a container yard handling crane.
[0007]
[Problems to be solved by the invention]
Accordingly, an object of the present invention is to provide a container terminal operation optimizing system and method capable of carrying out cargo handling work in a short time.
[0008]
Another object of the present invention is a container terminal operation optimization system and method for simulating a cargo handling operation so that the cargo handling operation can be completed through a minimum movement of the container and performing the cargo handling operation based on the result. Is to provide.
[0009]
Another object of the present invention is to provide a container terminal operation optimizing system and method for improving the efficiency of the simulation by applying the Q-Learning method to the simulation.
[0010]
Another object of the present invention is to provide a container terminal operation optimization system and method that can reduce the required memory capacity when applying the Q-Learning method.
[0011]
[Means for Solving the Problems]
The means for solving the problem will be described below using the numbers and symbols used in the [Embodiments of the Invention]. These numbers and symbols are added to clarify the correspondence between the description of [Claims] and the description of [Embodiments of the Invention]. It should not be used to interpret the technical scope of the described invention.
[0012]
In the first aspect of the present invention, the container terminal operation optimizing system is stored in a buffer area and a yard arrangement database (36) for storing yard arrangement data indicating the arrangement positions of containers stored in the yard area. The buffer arrangement database (38) for storing buffer arrangement data indicating the desired arrangement position of the container to be moved and the buffer arrangement data are created from data indicating the transport destination of the container ship, and using the Q-learning method, A container terminal operation optimizing system comprising a control unit (40) for determining a procedure for moving the movement target container from the yard area to the buffer area with a minimum number of movements from the yard arrangement data and the buffer arrangement data, Transfer crease to move the container to be moved (40), and the control unit (40) determines the order of moving the container to be moved from the yard area (4) to the buffer area (6) according to the determined procedure. A control instruction device (44) for instructing (10) is further provided.
[0013]
The transfer crane (10) moves on a rail (12) provided along the yard area.
[0014]
  The control unit (40) includes a simulation unit (42) that executes a Q-learning method, and the simulation unit (42) is movable when the Q-learning method is executed.TransferThe moving target container is moved from the yard area (4) to the buffer area (6), and the Q-learning method is executed on the remaining containers. At this time, the order of the remaining containers to be moved in the remaining containersIn a rowThen, the Q-learning method is executed.
[0015]
In the second aspect of the present invention, the container terminal operation optimizing method includes a step of creating buffer arrangement data from data indicating a transport destination of a container ship, and the buffer arrangement data is a moving object to be stored in a buffer area. Determining a procedure for moving a container to be moved from the yard area to the buffer area with the minimum number of movements from the yard arrangement data and the buffer arrangement data using a Q-learning method, and indicating a desired arrangement position of the container; The arrangement data indicates an arrangement position of the container stored in the yard area, and includes the step of moving the container to be moved from the yard area to the buffer area according to the determined procedure.
[0016]
The determining step includes a step of moving the movable container to be moved from the yard area to the buffer area and executing the Q-learning method on the remaining containers.
[0017]
  The performing step includes the remaining of the remaining containers in the remaining containers.TransferOrder of moving target containersIn a rowThen, the Q-learning method is executed.
[0018]
In the third aspect of the present invention, the container terminal operation optimizing method includes: (a) determining whether there is a relocatable transfer target container; and (b) the relocatable transfer target container. (C) selecting a specific one of the containers to be moved that is not relocatable; and (d) a Q value. (E) moving the container to be moved from the yard area to the buffer area while updating (a) until the container to be moved no longer exists in the yard area. Repeating steps.
[0019]
The steps (a) to (e) are executed for all the permutations when the containers to be moved are arranged, and the permutation with the smallest number of container movements is determined. In the step (d), a container other than the movement target container is moved in the yard to find the specific movement target container, and the specific movement target container is moved from the yard area to the buffer area. It comprises.
[0020]
In recent years, it has been pointed out that Japan's container terminal development has been delayed and service levels have declined, and the development of a central international port has become an urgent issue. In this situation, focusing on the operation of the container terminal, the Q-Learning method, which is a reinforcement learning method that derives the optimal solution through trial and error, is used for container relocation handling work in order to speed up the operation. An optimum operation system that can be applied and can finish the cargo handling work in a short time is provided.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a container terminal operation optimization system according to the present invention will be described in detail with reference to the accompanying drawings.
[0022]
FIG. 1 shows a container terminal and an optimization system to which an embodiment of the present invention is applied. The container terminal has a yard area 4 and a buffer area 6. The yard area 4 includes a plurality of bays 8. Rails 12 for the transfer crane 10 are provided on both sides of the yard area 4 and the buffer area 6. The transfer crane 10 moves between the yard area 4 and the buffer area 6 along the rail 12. The optimization system includes a control device 2 that monitors and controls the operation of the transfer crane 10.
[0023]
The containers carried by the container truck are stacked in one of the bays 8 by the transfer crane 10. When the container ship 20 is scheduled to enter the port, the control device 2 plans the optimum container handling operation from the data indicating the destination, and moves the container from the yard area 4 to the buffer area 6 in the transfer crane 10 according to the plan. Instruct the order to do. Thereafter, when the container ship 20 arrives at the wharf, the transfer crane 10 loads the container on the yard chassis 14 in accordance with an instruction from the control device 2. The yard chassis 14 moves to the wharf with the container loaded. The wharf crane 22 moves the containers loaded on the yard chassis 14 into the container ship 20 in order. Thus, the containers can be efficiently loaded from the yard area 4 into the container ship 20.
[0024]
The control device 2 includes a yard arrangement database 36, a buffer arrangement database 38, a control unit 40, an input device 32, and an output device 34. The control unit 40 includes a simulator 42 and a control instruction device 44. The yard arrangement database 36 stores yard arrangement data indicating the storage position of each container in the yard area 4. The buffer arrangement database 38 stores buffer arrangement data indicating the temporary storage position of the container moved to the buffer area 6. When the port of the container ship 20 is scheduled, data indicating the transport destination of the container ship 20 is input from the input device 32 to the simulator 42. The simulator 42 creates buffer arrangement data from the transportation destination data and the yard arrangement data. Thereafter, the simulator 42 creates a rearrangement plan by simulating the optimum order of containers to be loaded on the container ship 20 from the yard arrangement data and the buffer arrangement data. The planned plan is output to the output device 34. Further, the control instruction device 44 outputs an instruction to the transfer crane 10 according to the plan. In this way, the containers can be rearranged from the yard area 4 to the buffer area 8 in an optimal order that minimizes the number of times the containers have moved.
[0025]
Next, container rearrangement work will be described.
[0026]
First, the yard area 4 and the buffer area 6 will be described with reference to FIG. As an example, it is assumed that there are two bays 8 in the yard area 4 as shown in FIG. In this case, the containers stacked in the bay 8 are numbered as shown. In addition, the transportation destination is linked to the yard arrangement data. Assume that the positions of the containers to be stacked in the buffer area 8 are as shown in FIG. 3B based on the transport destination data of the container ship 20. The state of the containers actually stacked in the bay 8 is shown in FIG. At this time, it is considered that the containers are stacked most efficiently as shown in FIG.
[0027]
FIG. 7 shows a first example of unloading and rearrangement operations. In this example, the order of containers moved and arranged in the buffer area 8 is the order of C1, C2, C3, C4, C5, C6, C7, C8, and C9. The operation for this will be described with reference to FIGS.
[0028]
FIGS. 4A to 4F and FIGS. 5G to 5M correspond to the steps of the cargo handling work plan shown in FIG. The two on the left indicate the storage status of the container in the bay 8, and the right end indicates the temporary storage status of the container in the buffer area 8.
[0029]
FIG. 4A shows the first step. From the state shown in FIG. 3C, the container C9 is unloaded in order to rearrange the container C1. Next, in the second step, since the container C1 is movable, the container C1 is moved to the buffer area 8. Next, in the third step, the container C7 is unloaded for the container C2. Subsequently, in the fourth step, the container C2 is rearranged in the buffer area 8. In the fifth step, the container C5 is unloaded, and in the sixth step, the container C3 is rearranged in the buffer area 8. In the seventh step, the container C4 is rearranged in the buffer area 8, and in the eighth step, the container C5 is rearranged in the buffer area 8. Next, in the ninth step, the container C9 is unloaded, and in the tenth step, the container C6 is rearranged in the buffer area 8. Subsequently, in the eleventh step, the container C7 is rearranged, and in the twelfth step, the container C8 is rearranged in the buffer area 8. Finally, the container C9 is rearranged in the buffer area 8 in the thirteenth step. In the first example of the cargo handling work plan, the containers are rearranged in the order of C1, C2, C3, C4, C5, C6, C7, C8, and C9. Thus, 13 steps are required to stack the containers C1 to C9 in the desired order shown in FIG. 3B.
[0030]
Next, FIG. 8 shows a second example of the cargo handling work plan. In this example, the order of containers moved and arranged in the buffer area 8 is the order of C2, C5, C3, C6, C9, C1, C4, C7, and C8. The operation for this will be described with reference to FIG. FIGS. 6A to 6J correspond to the steps in FIG. The two on the left indicate the storage status of the container in the bay 8, and the right end indicates the temporary storage status of the container in the buffer area 8.
[0031]
  FIG. 6A shows the first step. In order to rearrange the container C2 from the state shown in FIG.7Is unloaded. In the first step, the refillable containers in the yard area 4 are C6, C9, C4, C8, C7, and C5. In the buffer area 8, the refillable containers are C1, C2, and C3. There is no replaceable container. Therefore, the container C7 is unloaded. Here, the container C7 is selected as a result of learning by the Q-learning method.
[0032]
In the second step, the refillable containers in the yard area 4 are C6, C9, C4, C7, C2, and C5. In the buffer area 8, the refillable containers are C1, C2, and C3, and the container C2 is Rearrangement is possible. Accordingly, the container C2 is rearranged in the buffer area 8 in the second step.
[0033]
Next, in the third step, the refillable containers in the yard area 4 are C6, C9, C4, C7, and C5. In the buffer area 8, the refillable containers are C1, C5, and C3, and the container C5 Can be rearranged. Accordingly, the container C5 is rearranged in the buffer area 8 in the third step.
[0034]
Next, in the fourth step, the refillable containers in the yard area 4 are C6, C9, C4, C7, and C3. In the buffer area 8, the refillable containers are C1, C8, and C3, and the container C3 Can be rearranged. Accordingly, the container C3 is rearranged in the buffer area 8 in the fourth step.
[0035]
Next, in the fifth step, the refillable containers in the yard area 4 are C6, C9, C4, and C7. In the buffer area 8, the refillable containers are C1, C8, and C6, and the container C6 is arranged. It is possible to change. Accordingly, the container C6 is rearranged in the buffer area 8 in the fifth step.
[0036]
Next, in the sixth step, the refillable containers in the yard area 4 are C9, C4, and C7. In the buffer area 8, the refillable containers are C1, C8, and C9, and the container C9 can be rearranged. It is. Accordingly, the container C9 is rearranged in the buffer area 8 in the sixth step.
[0037]
Next, in the seventh step, the refillable containers in the yard area 4 are C1, C4, and C7. In the buffer area 8, the refillable containers are C1 and C8, and the container C1 can be rearranged. . Accordingly, the container C1 is rearranged in the buffer area 8 in the seventh step.
[0038]
Next, in the eighth step, the refillable containers in the yard area 4 are C4 and C7, but in the buffer area 8, the refillable containers are C4 and C8, and the container C4 can be rearranged. Accordingly, the container C4 is rearranged in the buffer area 8 in the eighth step.
[0039]
Next, in the ninth step, the refillable container in the yard area 4 is C7, but in the buffer area 8, the refillable containers are C7 and C8, and the container C7 can be rearranged. Accordingly, the container C7 is rearranged in the buffer area 8 in the ninth step.
[0040]
Finally, in the tenth step, the refillable container in the yard area 4 is C8, but in the buffer area 8, the refillable container is C8, and the container C8 can be rearranged. Accordingly, the container C8 is rearranged in the buffer area 8 in the tenth step.
[0041]
Thus, in the second example of the cargo handling work plan, the containers C1 to C9 are rearranged to a desired position in 10 steps. On the other hand, in the first example, 13 steps are required. As described above, the container can be rearranged from the yard area 4 to the buffer area 6 with the minimum number of movements only by considering the rearrangement procedure.
[0042]
Next, consider the application of the Q-learning method as a reinforcement learning method in order to simulate such efficient rearrangement. For this reason, the Q value in the Q-learning method has an evaluation value of a certain state and a certain operation. Here, in the case of the relocation problem, the Q value (Q (s, a)) is determined by the container arrangement state (s) and the container unloading operation in the yard area 4, and buffered from the yard area 4. It is defined by the rearrangement operation (a) to area 8. By renewing the Q value (Q (s, a)) with the algorithm shown below so as to have the optimum value, the container relocation handling that minimizes the number of times of container movement is planned.
(1) Observe container state s.
(2) The container movement action a is executed according to an arbitrary action selection method.
(3) Receive a reward r for moving behavior.
(4) Observe the container state s ′ after the rearrangement.
(5) Update the Q value using the following update formula.
Q (s, a) ← (1−α) × Q (s, a) + α [r + γ · max Q (s ', a')]
Where α is the learning rate (0 <α <1) and γ is the discount rate (0 <γ <1)
(6) Advance time step t to t + 1 and return to step (1).
[0043]
In the conventional Q-learning method, xi, uj, (i = 1,..., m, j = 1,..., n) are the state variables and inputs of the respective plants. Each (xi, ujQ value is given as the evaluation corresponding to the combination of). A set of Q values is called a Q value table.jHas a corresponding 1Q value table. So all (xi, uj) N number of Q value tables are required to evaluate the combination. The input of the Q value table is xi, Output is Q (xi, uj). If the plant characteristics are unknown, Q (xi, uj) Is also unknown. Therefore Q (xi, uj) Q at time tt(xi, uj) To update this with the following equation (1):
[Expression 1]
Figure 0004209109
Here, 0 <γ <1 is a discount rate, and α is a learning rate. RtIs the reward, and the control input at time t−1 is uj, Given when the plant state at time t is x ′. At this time, what is updated by equation (1) is (xi, ujOnly 1Q value corresponding to).
[0044]
In early learning, many (xi, uj) For Q (xi, uj) Must be updated repeatedly. For this reason, the input u is given by the Boltzmann distribution of the following equation (2).jThe method of selecting is widely used.
[Expression 2]
Figure 0004209109
Where T is a temperature constant.
[0045]
Here, consider the relocation problem of k containers. Each container is c1To ckHas unique identifiers up to. Containers are stacked randomly in one bay 8. Since the order of containers to be loaded on the ship is determined, the containers are rearranged from the bay 8 to an area called a buffer area 6. The arrangement of the buffer area 6 is determined in advance according to the loading order of the containers. The size of the bay is myRow nyRow, container height is l, buffer area size is mbRow nbA column. Position in the yard area is 1 to myXnyIdentifies with an integer up to × l. Also container ciThe position in the yard area of (i = 1, ..., k) is xi(xi is 1 or more and myXnyXl or less) and the yard area layout is x = [x1,. . . , Xk]. Where ciX if is in the buffer areai= 0. Move the containers from the bay to the buffer area and stack them from the bottom. Therefore, the number of columns in the buffer area is nbLimited to When relocating a container, first target container cTReplace candidate ucj(j = ny,. . . , Nb+ ny-1). Then cTAll other containers in the bay [um1,. . . , Umny 1] Move to one row. This is called unloading.MAnd And cTTo the buffer area. At this time, the shipping destination is n per container.y−1, relocation is nbThere are street choices, and the state of the yard area changes when unloading or rearranging. Therefore, the operation of the plant is expressed as follows.
uj = umj (1 ≦ j ≦ ny-1)
= ucj (ny≦ j ≦ nb+ ny-1)
In this case, the plant can be expressed by the following equation (3).
[Equation 3]
Figure 0004209109
Where f () is the operation for the yard / buffer area ujIs an application function of. In FIG. 3, my= ny= mb= nb= 3, l = 2, k = 9, and the position of the container is identified by an integer from 1 to 18. For this plant, the relocation target c in FIG. 6 (a)T[C1, c2, cThree] C2Determined to c2On container c7Unloading. Also, the shipping destination is [um1, um2] = [13,18], and the next relocation target is cFiveIt is said. At this time c7C is better than 13 instead of 18.FiveThe number of times of unloading to rearrange is reduced by one. Also, the order of rearrangement is 2,2,3,4,5,6,7,8,9 in the first example, rather than 2,2,3,6,9,1,4,7 in the second example. , 8 can be rearranged with fewer unloading times. Changes in x with respect to the two rearrangement orders are as shown in FIGS.
[0046]
Regarding the application of the Q-learning method to the container relocation problem, a solution search method using the Q-learning method, which has been difficult to realize in the past, will be described.
[0047]
In the Q-learning method, all state and action combinations must have an evaluation (Q value). When applying Q-learning to container relocation problem, in order to express the state of the plant when unloading, in addition to x, unloading container cTIs required. So x is an extension of x+= [x1, ..., xk, cT] And uj(j = 1,…, ny+ nbQ value is assigned to the combination of −1). At this time, 1 or more myXnyX less than xi(i = 1, ..., k), cTIs nbX because it is street+Is as follows:
[Expression 4]
Figure 0004209109
And the number of Q values is
[Equation 5]
Figure 0004209109
It is. That is, as k increases, the number of Q values increases exponentially. Conventionally, in Q-learning, as the number of Q values increases, the learning speed decreases, and the storage area required to store the Q values also increases.
[0048]
Therefore, a Q-learning algorithm that uses plant properties to improve the learning speed and a data structure for reducing the necessary storage area will be described below.
[0049]
  In the conventional Q-learning, the Q value is updated by the equation (1) and propagated while being discounted by γ. Since the purpose of the relocation problem is to make the number of unloading as small as possible, the Q value may be an index representing the unloading number. Therefore, unloadingR u j(j = 1, ..., ny−1) to two states x and x ′ in the yard area,
[Formula 6]
Figure 0004209109
When the above relationship holds, the following equation (4)
[Expression 7]
Figure 0004209109
To update / propagate the Q value. Reward RtIs given only when all the rearrangements are completed, and if the Q value is propagated using equation (4), the corresponding Q value becomes smaller because the number of discounts increases as the number of times of unloading increases. That is, in each state, the number of times of unloading can be reduced by selecting a unloading with a relatively large Q value. Also each uj(j = 1, ..., nyThe selection probability of -1) is calculated by the following equation (5).
[Equation 8]
Figure 0004209109
[0050]
  On the other hand, the rearrangement order affects the total number of times of unloading. All (x, uj) (J is 1 or more nyIf the Q value is obtained for an integer less than or equal to −1, the minimum value of total unloading times for each arrangement order can be calculated. In addition, the selection of the relocation target container does not affect the state x. Utilizing these properties, cTThe Q value is propagated without discounting. That is, Q '(x, uj) (J is 1 or more ny-1 or less integer) is the yard area state x and the container to be relocatedSelection ofujThe Q value for the set of is updated by the following equation (6).
[Equation 9]
Figure 0004209109
Even if rearranged according to Equation (6), it will be used as an index of the Q number of unloading times, and the unloading number will be the smallest for each xTCan be requested. nyNb(ny−1) Each ujThe selection probability of is given by the following equation (7).
[Expression 10]
Figure 0004209109
However, when a plurality of rearrangement candidates exist in the same column, the candidate at the top is the target for rearrangement. This is to exclude an operation that is apparent to increase the total number of repetitions.
[0051]
  Furthermore, if there is no other container on the container to be rearranged, it can be rearranged unconditionally. In this case, since there are only one choice of operation and learning is not necessary, propagation of the Q value is performed between the Q values corresponding to the states immediately before and after the rearrangement. That is, unloading at time t−1, state x, time t + i, state x ′i(i = 1, ..., K-1) (where K is the number of containers) move the relocation candidate containers to the buffer, time t + K, state x 'KIf a new replacement candidate container is also determined, the following equation (8)
## EQU11 ##
Figure 0004209109
It becomes.
[0052]
FIG. 10 and FIG. 11 show examples of Q value propagation methods considering the above equations (4) to (8). In FIG. 10, pattern 1 is input to the plant uj1, uj2Are given in order, and the state of the yard area changes in the order of x, x ', x ". Since only unloading is repeated, the Q value is propagated twice according to equation (4). In FIG. 11, in pattern 2, inputs uj1, uj2, and uj3 are given in order, but u2 is determined to be a rearrangement target, so the state has not changed. Rearrangement x+Q value is not propagated to '. Therefore (x+”, Uj2) For (6), (x+, uj1) Is propagated using equation (8). As a result, the Q value with a discount is only propagated when unloading.
[0053]
Based on the above description, a method for determining a cargo handling work optimization procedure will be described below with reference to FIG.
[0054]
First, all Q values are initialized to 0. In steps S2 and S4, all containers that can be rearranged are moved to the buffer area. This reduces the number of permutations to be tried. Subsequently, in step S6, the relocation target container cTAnd propagating the Q value according to equation (8), then (x, uj) Is memorized. In step S8, the Q value is updated. Subsequently, in steps S10 and S12, cM(X ', u) after updating the Q value according to Equation (6)j) Is memorized. CMIf there is, unload and update the Q value according to Equation (4), then (x+, uj) Is memorized. CMRepeat until there is no more. In step S14, cTRearrange. If the container remains in the yard area, the control flow returns from step S16 to step S2. If the rearrangement is completed, a reward is received in step S18.
[0055]
As described above, an index of the number of repetitions of the Q value can be used.
[0056]
In order to show the effectiveness of the proposed method, computer simulations were performed for three different scale plants. Plant 1 is l = 1, k = 4, my= 3, ny= 4, mb= 1, nb= 4, plant 2 is l = 1, k = 5, my= 3, ny= 4, mb= 2, nb= 3, plant 3 is l = 2, k = 36, my= ny= mb= nbFIG. 12 shows the initial arrangement of the yard area and the target arrangement of the buffer area. The number of states of plant 1 and plant 2 are 47,520, 380,160, respectively. The number of states of plant 3 is
[Expression 12]
Figure 0004209109
And the number of Q values is
[Formula 13]
Figure 0004209109
It becomes.
[0057]
Assuming that 4 bytes are needed to store 1Q value, the storage capacity is about 9.2 × 10 to store all Q values66Byte is necessary and the conventional method using Q-table could not be constructed. The setting parameters of the method of the present invention were α = 0.99, γ = 0.8, and T = 0.1. The optimal solution for plants 1 and 2 has a loading count of 1, and the proposed method was able to find the optimal solution for both plants. Moreover, from the initial state to the completion of the rearrangement, one trial was performed, and all Q values converged after 50 trials for plant 1 and 200 trials for plant 2, and learning was completed. At this time, all the states / operations / Q values learned by the proposed method for the plant 1 are shown in FIG.
[0058]
From FIG. 13, the state stored for plant 1 is x.ε, XωIt can be seen that 2Q values are learned for each state. The number of states stored for the plant 2 is 11, and the number of states necessary for the configuration of the Q-table can be reduced compared to the conventional Q-learning. It was also found that the total number of times of unloading and rearrangement can be minimized by selecting the operation having the maximum value among the Q values learned in each state. Since the number of states in Plants 1 and 2 is small and learning is possible for all states and operations, the Q value corresponding to the number of times of unloading / rearrangement is obtained for all routes from the initial state to the completion of relocation. I have earned it.
[0059]
Examining changes in the number of trials of all Q values learned for plant 1 and taking the spatial average of the results of 30 simulations performed for different initial stages, the values of all learned Q values converge. I found out that Also state xεAfter the operation is completed, the relocation is completed 0 times or once, so the Q value corresponding to each operation is 0.8 or 1.0. xωFor any of the above, the Q value is 1.0 because the rearrangement is completed with 0 unloading after any operation. Therefore, it was found that all Q values converged to true values.
[0060]
FIG. 14 shows the result of applying the method of the present invention to the plant 3. In FIG. 14, the horizontal axis represents the number of trials, and the vertical axis represents the total number of unloading and rearrangement for each trial. The results are (A) the average number of unloading / relocations per 30 trials, and (B) the total number of unloading / relocations that were the smallest up to each trial, 30 times changed by changing the initial value of the action selection algorithm. The spatial average of the results of independent simulations was taken. It was found that the number of unloading and rearrangement decreased as learning progressed through repeated trials. In all simulations, the smallest number of unloading / replacement was 43 (unloading number 7), the calculation time per simulation was about 1 minute 30 seconds using a personal computer with a Pentium III 850 MHz CPU, and the memory used was about 6 × 106It was Byte.
[0061]
Thus, the present invention provides a container terminal operation optimization system using the Q-learning method, which is one method of reinforcement learning. In the present invention, learning and storage are performed so as to reduce the number of times the container is moved by regarding the arrangement of the container as a system state and moving the container as a control input. It is known that using the Q-learning method for a plant with a large number of normal states will increase the number of combinations of states and actions, and the required storage capacity will be enormous. However, the method of the present invention uses only searched data. Since it is stored, the number of necessary combinations of arrangement and movement can be reduced. In addition, since searched data can be reused, it is possible to search and improve a solution at high speed.
[0062]
As described above, in the present invention, a learning method based on the Q-learning method, which has been difficult in the past due to the explosion of the number of combinations of states and operations, is provided for the container handling plan. At that time, the learning effect was improved by reflecting only the number of unloading in the Q value, and the necessary storage capacity was reduced by storing only the necessary states in the Q-table. It was also confirmed by computer simulation that an optimal solution was obtained for a small problem. Furthermore, it was found that good results can be obtained with a small storage capacity and a short calculation time for practical scale problems.
[0063]
The container terminal targeted this time originally has a dedicated buffer (temporary storage location) for cargo handling. In terms of operation, the container to be loaded the next morning is replaced from the yard to the buffer the night before the day before, and the buffer is loaded in accordance with the loading order so that it is not necessary to unload it during the cargo handling. Advantages of the present invention are as follows: (1) No need to unload during loading, (2) Yard chassis is transported only between the buffer and the container crane and the travel distance is shortened, (3) Loading and unloading at the yard There is an advantage that there is no interference with the external chassis.
[0064]
A similar problem of this research is a building block problem that has been treated for a long time in the field of artificial intelligence. Recently, solutions using GA, neural networks, and multi-agent methods have been proposed. There is a buffer area between the building block problem and the plant of this study, and the difference is that learning is performed by adding the order of containers loaded into the buffer area to the loading order.
[0065]
【The invention's effect】
The Q-Learning method, which is a reinforcement learning method for deriving the optimal solution through trial and error, can be applied to the container replacement work. Plan for the best possible operation.
[Brief description of the drawings]
FIG. 1 is a diagram showing a container terminal to which the present invention is applied.
FIG. 2 is a block diagram showing a configuration of a control device in the container terminal operation optimizing system of the present invention.
FIG. 3 is a diagram illustrating an example for explaining optimization of container movement; (a) is yard arrangement position data indicating arrangement of containers in a yard area from two yards; () Is a diagram showing buffer arrangement position data indicating the position of the container to be arranged in the buffer area, and (c) is a diagram showing an initial state of the container.
FIGS. 4A to 4F are views showing container movement in the first example. FIG.
FIGS. 5 (g) to 5 (m) are diagrams illustrating container movement in the first example.
FIGS. 6A to 6J are views showing movement of containers in the second example.
FIG. 7 is a diagram illustrating the order of container unloading and rearrangement in the first example.
FIG. 8 is a diagram illustrating the order of container unloading and rearrangement in the second example.
FIG. 9 is a flowchart showing a container terminal operation optimizing method according to the present invention.
FIG. 10 is a diagram illustrating an example of a Q value propagation method;
FIG. 11 is a diagram illustrating an example of a Q value propagation method;
FIG. 12 is a diagram illustrating an initial arrangement of yard areas and a target arrangement of buffer areas.
FIG. 13 is a diagram showing all states / operations / Q values learned by the proposed method for the plant 1;
FIG. 14 is a diagram showing a result of applying the method of the present invention to a plant 3;
[Explanation of symbols]
2: Control device
4: Yard area
6: Buffer area
8: Bay
10: Transfer crane
12: Rail
14: Yard chassis
20: Container ship
22: Container crane
32: Input device
34: Output device
36: Yard layout database
38: Buffer allocation database
40: Control unit
42: Simulator
44: Control instruction device

Claims (13)

ヤードエリアに保管されている複数コンテナの初期状態を格納するヤード配置データベースと、
バッファエリアに保管されるべき前記複数コンテナの希望配置位置を示すバッファ配置データを格納するバッファ配置データベースと、
前記複数コンテナの状態と前記複数コンテナを前記状態から他の状態に移す動作とに対応するQ値を用いるQ−learning法を用いて、前記ヤード配置データと前記バッファ配置データから前記複数コンテナの全部を前記ヤードエリアから前記バッファエリアに移動する手順を決定する制御部とを具備し、
前記動作は、
前記複数コンテナのうちの1つのコンテナを前記ヤードエリアのうちの1つの位置から前記ヤードエリアのうちの他の位置まで移動する荷繰りと、
前記複数コンテナのうちの1つのコンテナを前記ヤードエリアのうちの1つの位置から前記バッファエリアのうちの1つの位置まで移動する配置替えとを含み、
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’で前記荷繰りが実行されるときに、状態x+’と状態x+’で実行され得る前記荷繰りとに対応するQ値が伝播して、状態x+と荷繰りuとに対応するQ値が更新され、
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’と状態x’’で実行され得る前記動作とに対応するQ値が伝播して、前記状態x+と荷繰りuとに対応するQ値が更新される
コンテナターミナル運用最適化システム。
A yard arrangement database for storing the initial state of multiple containers stored in the yard area;
A buffer arrangement database for storing buffer arrangement data indicating a desired arrangement position of the plurality of containers to be stored in a buffer area;
Using Q-learning method using a Q value corresponding to the act of transferring the plurality container and state of the plurality container to another state from the state, and the yard grid data from said buffer location data of said plurality containers A controller for determining a procedure for moving the entire area from the yard area to the buffer area;
The operation is
Unloading to move one container of the plurality of containers from one position of the yard area to another position of the yard area;
Repositioning to move one container of the plurality of containers from one position of the yard area to one position of the buffer area,
When the state x + is changed to the state x + ′ by the unloading u and the unloading is executed in the state x + ′, the Q value corresponding to the unloading that can be executed in the state x + ′ and the state x + ′ is Propagating, the Q value corresponding to state x + and unloading u is updated,
When the state x + is changed to the state x + ′ by the unloading u and the state x ″ is changed from the state x + ′ to the state x ″ by one or more rearrangements, the state x ″ and the state x ″ can be executed. A container terminal operation optimization system in which a Q value corresponding to an operation is propagated and a Q value corresponding to the state x + and the unloading u is updated .
請求項1において、
前記動作は、前記複数コンテナのうちの前記ヤードエリアに配置されるヤードエリアコンテナから配置替え対象コンテナを選択する配置替え対象コンテナ選択操作を更に含み、
前記荷繰りは、前記配置替え対象コンテナの上に他のコンテナが配置されているときに前記ヤードエリアコンテナのうちの1つのコンテナを移動する動作であり、
前記配置替えは、前記配置替え対象コンテナの上に他のコンテナが配置されているときに前記配置替え対象コンテナを移動する動作であ
コンテナターミナル運用最適化システム。
In claim 1,
The operation further includes a relocation target container selection operation for selecting a relocation target container from a yard area container disposed in the yard area of the plurality of containers,
The unloading is an operation of moving one container of the yard area containers when another container is arranged on the relocation target container,
The rearrangements are Ru operation der moving the rearranged target container when another container on top of the relocated object container is located
Container terminal operation optimization system.
請求項2において、  In claim 2,
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’で前記荷繰りが実行されるときに、状態x+’と状態x+’で実行され得る前記荷繰りとに対応するQ値が割引を伴って伝播して、状態x+と荷繰りuとに対応するQ値が更新され、  When the state x + is changed to the state x + ′ by the unloading u and the unloading is executed in the state x + ′, the Q value corresponding to the unloading that can be executed in the state x + ′ and the state x + ′ is Propagating with a discount, the Q value corresponding to state x + and unloading u is updated,
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’と状態x’’で実行され得る前記動作とに対応するQ値が割引を伴って伝播して、状態x+と荷繰りuとに対応するQ値が更新され、  When the state x + is changed to the state x + ′ by the unloading u and the state x ″ is changed from the state x + ′ to the state x ″ by one or more rearrangements, the state x ″ and the state x ″ can be executed. The Q value corresponding to the action propagates with a discount, and the Q value corresponding to the state x + and the unloading u is updated,
状態xから配置替え対象コンテナ選択操作u’’’で状態x+に移る場合で、状態x+で前記荷繰りが実行されるときに、状態x+と状態x+で実行され得る前記荷繰りとに対応するQ値が割引を行うことなく伝播して、状態xと配置替え対象コンテナ選択操作u’’’とに対応するQ値が更新され、  When the state x + is changed from the state x to the state x + by the relocation target container selection operation u ′ ″ and the unloading is executed in the state x +, it corresponds to the unloading that can be executed in the state x + and the state x +. The Q value propagates without discounting, and the Q value corresponding to the state x and the relocation target container selection operation u ′ ″ is updated,
前記手順は、前記状態に対応するQ値のうちで最大の値を持つ動作を選択することにより、決定される  The procedure is determined by selecting the operation having the largest value among the Q values corresponding to the state.
コンテナターミナル運用最適化システム。  Container terminal operation optimization system.
請求項3において、
態xに対応し、かつ、荷繰りuに対応するQ値Q(x,u)は、
状態xから荷繰りuにより移る状態x’から前記荷繰りが実行されるときに、状態x’に対応し、かつ、状態x’で実行されうる荷繰りu’に対応するQ値Q(x’,u’)を用いて、次式:
Q(x,u)=(1−α)Q(x,u)+α[R+γmaxQ(x’,u’)]
により表現され、
状態x’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’に対応し、かつ、状態x’’で実行されうる動作u’’に対応するQ値Q(x’’,u’’)を用いて、次式:
Q(x,u)=(1−α)Q(x,u)+α[R+γmaxQ(x’’,u’’)]
により表現され、
xに対応し、かつ、配置替え対象コンテナ選択操作u’’’に対応するQ値Q(x,u’’’)は、配置替え対象コンテナ選択操作u’’’により選択された配置替え対象コンテナを配置替えするときに前記荷繰りが必要であるときに、状態xか配置替え対象コンテナ選択操作u’’’により移る状態x+と状態x+で実行されうる荷繰りu’’’’とを用いて、次式:
Q(x,u’’’)=maxQ(x+,u’’’’
により表現される
コンテナターミナル運用最適化システム。
In claim 3,
Corresponding to state x +, and corresponds to the load repeatedly u Q value Q (x +, u) is
'When the said load repeatedly runs, state x +' state x + moving by load repeatedly u from state x + corresponds to, and corresponds to the 'load repeatedly u may be performed in' state x + Using the Q value Q (x + ', u'), the following formula:
Q (x + , u) = (1- [alpha]) Q (x + , u) + [alpha] [R + [gamma] maxQ (x + ', u')]
Expressed by
When 'from the state x by one or more of the relocated' state x + moves to 'state x''corresponds to, and the state x' Q value corresponding to the 'operation u that may be performed by'' Using Q (x ″, u ″), the following formula:
Q (x + , u) = (1−α) Q (x + , u) + α [R + γmaxQ (x ″, u ″)]
Expressed by
Corresponding to state x, and, 'Q value Q corresponding to (x, u' rearranged target container selection operation u '' '') is selected by the rearranged target container selection operation u '''arranged when the load repeatedly are required when rearranging the target container instead, the state x or we relocated object container selection operation u '''load that may be performed in a state x + a state x + proceeding by repeated u' Using ''' and the following formula:
Q ( x, u ′ ″ ) = maxQ (x +, u ″ ″ )
Expressed by the container terminal operation optimization system.
請求項1請求項のいずれかにおいて、
前記複数コンテナを移動するためのトランスファクレーンを更に具備し、
前記制御部は、前記決定された手順に従って、前記移動対象コンテナを前記ヤードエリアから前記バッファエリアに移動する順番を前記トランスファクレーンに指示する制御指示装置を更に具備する
コンテナターミナル運用最適化システム。
In any one of claims 1 to 4,
A transfer crane for moving the plurality of containers;
The said control part is further equipped with the control instruction | indication apparatus which instruct | indicates the order which moves the said movement object container from the said yard area to the said buffer area according to the determined procedure. The container terminal operation optimization system.
ヤードエリアに保管されている複数コンテナの初期状態を格納するヤード配置データベースと、
バッファエリアに保管されるべき前記複数コンテナの希望配置位置を示すバッファ配置データを格納するバッファ配置データベースと、
前記複数コンテナの状態と前記複数コンテナを前記状態から他の状態に移す動作とに対応するQ値を用いるQ−learning法を用いて、前記ヤード配置データと前記バッファ配置データから前記複数コンテナの全部を前記ヤードエリアから前記バッファエリアに移動する手順を決定する制御部とを具備し、
前記動作は、
前記複数コンテナのうちの1つのコンテナを前記ヤードエリアのうちの1つの位置から前記ヤードエリアのうちの他の位置まで移動する荷繰りと、
前記複数コンテナのうちの1つのコンテナを前記ヤードエリアのうちの1つの位置から前記バッファエリアのうちの1つの位置まで移動する配置替えとを含み、
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’で前記荷繰りが実行されるときに、状態x+’と状態x+’で実行され得る前記荷繰りとに対応するQ値が伝播して、状態x+と荷繰りuとに対応するQ値が更新され、
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’と状態x’’で実行され得る前記動作とに対応するQ値が伝播して、前記状態x+と荷繰りuとに対応するQ値が更新される
コンテナターミナル運用最適化装置
A yard arrangement database for storing the initial state of multiple containers stored in the yard area;
A buffer arrangement database for storing buffer arrangement data indicating a desired arrangement position of the plurality of containers to be stored in a buffer area;
Using Q-learning method using a Q value corresponding to the act of transferring the plurality container and state of the plurality container to another state from the state, and the yard grid data from said buffer location data of said plurality containers A controller for determining a procedure for moving the entire area from the yard area to the buffer area;
The operation is
Unloading to move one container of the plurality of containers from one position of the yard area to another position of the yard area;
Repositioning to move one container of the plurality of containers from one position of the yard area to one position of the buffer area,
When the state x + is changed to the state x + ′ by the unloading u and the unloading is executed in the state x + ′, the Q value corresponding to the unloading that can be executed in the state x + ′ and the state x + ′ is Propagating, the Q value corresponding to state x + and unloading u is updated,
When the state x + is changed to the state x + ′ by the unloading u and the state x ″ is changed from the state x + ′ to the state x ″ by one or more rearrangements, the state x ″ and the state x ″ can be executed. A container terminal operation optimizing device in which a Q value corresponding to an operation is propagated and a Q value corresponding to the state x + and the unloading u is updated .
請求項において、
前記動作は、前記複数コンテナのうちの前記ヤードエリアに配置されるヤードエリアコンテナから配置替え対象コンテナを選択する配置替え対象コンテナ選択操作を更に含み、
前記荷繰りは、前記配置替え対象コンテナの上に他のコンテナが配置されているときに前記ヤードエリアコンテナのうちの1つのコンテナを移動する動作であり、
前記配置替えは、前記配置替え対象コンテナの上に他のコンテナが配置されているときに前記配置替え対象コンテナを移動する動作であ
コンテナターミナル運用最適化装置。
In claim 6 ,
The operation further includes a relocation target container selection operation for selecting a relocation target container from a yard area container disposed in the yard area of the plurality of containers,
The unloading is an operation of moving one container of the yard area containers when another container is arranged on the relocation target container,
The rearrangements are Ru operation der moving the rearranged target container when another container on top of the relocated object container is located
Container terminal operation optimization device.
請求項7において、  In claim 7,
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’で前記荷繰りが実行されるときに、状態x+’と状態x+’で実行され得る前記荷繰りとに対応するQ値が割引を伴って伝播して、状態x+と荷繰りuとに対応するQ値が更新され、  When the state x + is changed to the state x + ′ by the unloading u and the unloading is executed in the state x + ′, the Q value corresponding to the unloading that can be executed in the state x + ′ and the state x + ′ is Propagating with a discount, the Q value corresponding to state x + and unloading u is updated,
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’と状態x’’で実行され得る前記動作とに対応するQ値が割引を伴って伝播して、状態x+と荷繰りuとに対応するQ値が更新され、  When the state x + is changed to the state x + ′ by the unloading u and the state x ″ is changed from the state x + ′ to the state x ″ by one or more rearrangements, the state x ″ and the state x ″ can be executed. The Q value corresponding to the action propagates with a discount, and the Q value corresponding to the state x + and the unloading u is updated,
状態xから配置替え対象コンテナ選択操作u’’’で状態x+に移る場合で、状態x+で前記荷繰りが実行されるときに、状態x+と状態x+で実行され得る前記荷繰りとに対応するQ値が割引を行うことなく伝播して、状態xと配置替え対象コンテナ選択操作u’’’とに対応するQ値が更新され、  When the state x + is changed from the state x to the state x + by the relocation target container selection operation u ′ ″ and the unloading is executed in the state x +, it corresponds to the unloading that can be executed in the state x + and the state x +. The Q value propagates without discounting, and the Q value corresponding to the state x and the relocation target container selection operation u ′ ″ is updated,
前記手順は、前記状態に対応するQ値のうちで最大の値を持つ動作を選択することにより、決定される  The procedure is determined by selecting the operation having the largest value among the Q values corresponding to the state.
コンテナターミナル運用最適化装置。  Container terminal operation optimization device.
請求項8において、
態xに対応し、かつ、荷繰りuに対応するQ値Q(x,u)は、
状態xから荷繰りuにより移る状態x’から前記荷繰りが実行されるときに、状態x’に対応し、かつ、状態x’で実行されうる荷繰りu’に対応するQ値Q(x’,u’)を用いて、次式:
Q(x,u)=(1−α)Q(x,u)+α[R+γmaxQ(x’,u’)]
により表現され、
状態x’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’に対応し、かつ、状態x’’で実行されうる動作u’’に対応するQ値Q(x’’,u’’)を用いて、次式:
Q(x,u)=(1−α)Q(x,u)+α[R+γmaxQ(x’’,u’’)]
により表現され、
xに対応し、かつ、配置替え対象コンテナ選択操作u’’’に対応するQ値Q(x,u’’’)は、配置替え対象コンテナ選択操作u’’’により選択された配置替え対象コンテナを配置替えするときに前記荷繰りが必要であるときに、状態xか配置替え対象コンテナ選択操作u’’’により移る状態x+と状態x+で実行されうる荷繰りu’’’’とを用いて、次式:
Q(x,u’’’)=maxQ(x+,u’’’’
により表現される
コンテナターミナル運用最適化装置。
In claim 8,
Corresponding to state x +, and corresponds to the load repeatedly u Q value Q (x +, u) is
'When the said load repeatedly runs, state x +' state x + moving by load repeatedly u from state x + corresponds to, and corresponds to the 'load repeatedly u may be performed in' state x + Using the Q value Q (x + ', u'), the following formula:
Q (x + , u) = (1- [alpha]) Q (x + , u) + [alpha] [R + [gamma] maxQ (x + ', u')]
Expressed by
When 'from the state x by one or more of the relocated' state x moves to 'state x''corresponds to, and the state x' Q value Q corresponding to 'operation u that may be performed by'' Using (x ″, u ″), the following formula:
Q (x + , u) = (1−α) Q (x + , u) + α [R + γmaxQ (x ″, u ″)]
Expressed by
Corresponding to state x, and, 'Q value Q corresponding to (x, u' rearranged target container selection operation u '' '') is selected by the rearranged target container selection operation u '''arranged when the load repeatedly are required when rearranging the target container instead, the state x or we relocated object container selection operation u '''load that may be performed in a state x + a state x + proceeding by repeated u' Using ''' and the following formula:
Q ( x, u ′ ″ ) = maxQ (x +, u ″ ″ )
Represented by
Container terminal operation optimization device.
ヤードエリアに保管されている複数コンテナの初期状態をヤード配置データベースに格納するステップと、
バッファエリアに保管されるべき前記複数コンテナの希望配置位置を示すバッファ配置データをバッファ配置データベースに格納するステップと、
前記複数コンテナの状態と前記複数コンテナを前記状態から他の状態に移す動作とに対応するQ値を用いるQ−learning法を用いて、前記ヤード配置データと前記バッファ配置データから前記複数コンテナの全部を前記ヤードエリアから前記バッファエリアに移動する手順を決定するステップとを具備し、
前記動作は、
前記複数コンテナのうちの1つのコンテナを前記ヤードエリアのうちの1つの位置から前記ヤードエリアのうちの他の位置まで移動する荷繰りと、
前記複数コンテナのうちの1つのコンテナを前記ヤードエリアのうちの1つの位置から前記バッファエリアのうちの1つの位置まで移動する配置替えとを含み、
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’で前記荷繰りが実行されるときに、状態x+’と状態x+’で実行され得る前記荷繰りとに対応するQ値が伝播して、状態x+と荷繰りuとに対応するQ値が更新され、
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’と状態x’’で実行され得る前記動作とに対応するQ値が伝播して、前記状態x+と荷繰りuとに対応するQ値が更新される
コンテナターミナル運用最適化方法。
Storing the initial state of multiple containers stored in the yard area in a yard arrangement database;
Storing buffer arrangement data indicating a desired arrangement position of the plurality of containers to be stored in a buffer area in a buffer arrangement database;
Using Q-learning method using a Q value corresponding to the act of transferring the plurality container and state of the plurality container to another state from the state, and the yard grid data from said buffer location data of said plurality containers Determining a procedure for moving everything from the yard area to the buffer area,
The operation is
Unloading to move one container of the plurality of containers from one position of the yard area to another position of the yard area;
Repositioning to move one container of the plurality of containers from one position of the yard area to one position of the buffer area,
When the state x + is changed to the state x + ′ by the unloading u and the unloading is executed in the state x + ′, the Q value corresponding to the unloading that can be executed in the state x + ′ and the state x + ′ is Propagating, the Q value corresponding to state x + and unloading u is updated,
When the state x + is changed to the state x + ′ by the unloading u and the state x ″ is changed from the state x + ′ to the state x ″ by one or more rearrangements, the state x ″ and the state x ″ can be executed. A container terminal operation optimization method in which a Q value corresponding to an operation is propagated and a Q value corresponding to the state x + and the unloading u is updated .
請求項10において、
前記動作は、前記複数コンテナのうちの前記ヤードエリアに配置されるヤードエリアコンテナから配置替え対象コンテナを選択する配置替え対象コンテナ選択操作を更に含み、
前記荷繰りは、前記配置替え対象コンテナの上に他のコンテナが配置されているときに前記ヤードエリアコンテナのうちの1つのコンテナを移動する動作であり、
前記配置替えは、前記配置替え対象コンテナの上に他のコンテナが配置されているときに前記配置替え対象コンテナを移動する動作であ
コンテナターミナル運用最適化方法。
In claim 10 ,
The operation further includes a relocation target container selection operation for selecting a relocation target container from a yard area container disposed in the yard area of the plurality of containers,
The unloading is an operation of moving one container of the yard area containers when another container is arranged on the relocation target container,
The rearrangements are Ru operation der moving the rearranged target container when another container on top of the relocated object container is located
Container terminal operation optimization method.
請求項11において、  In claim 11,
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’で前記荷繰りが実行されるときに、状態x+’と状態x+’で実行され得る前記荷繰りとに対応するQ値が割引を伴って伝播して、状態x+と荷繰りuとに対応するQ値が更新され、  When the state x + is changed to the state x + ′ by the unloading u and the unloading is executed in the state x + ′, the Q value corresponding to the unloading that can be executed in the state x + ′ and the state x + ′ is Propagating with a discount, the Q value corresponding to state x + and unloading u is updated,
状態x+から荷繰りuにより状態x+’に移る場合で、状態x+’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’と状態x’’で実行され得る前記動作とに対応するQ値が割引を伴って伝播して、状態x+と荷繰りuとに対応するQ値が更新され、  When the state x + is changed to the state x + ′ by the unloading u and the state x ″ is changed from the state x + ′ to the state x ″ by one or more rearrangements, the state x ″ and the state x ″ can be executed. The Q value corresponding to the action propagates with a discount, and the Q value corresponding to the state x + and the unloading u is updated,
状態xから配置替え対象コンテナ選択操作u’’’で状態x+に移る場合で、状態x+で前記荷繰りが実行されるときに、状態x+と状態x+で実行され得る前記荷繰りとに対応するQ値が割引を行うことなく伝播して、状態xと配置替え対象コンテナ選択操作u’’’とに対応するQ値が更新され、  When the state x + is changed from the state x to the state x + by the relocation target container selection operation u ′ ″ and the unloading is executed in the state x +, it corresponds to the unloading that can be executed in the state x + and the state x +. The Q value propagates without discounting, and the Q value corresponding to the state x and the relocation target container selection operation u ′ ″ is updated,
前記手順は、前記状態に対応するQ値のうちで最大の値を持つ動作を選択することにより、決定される  The procedure is determined by selecting the operation having the largest value among the Q values corresponding to the state.
コンテナターミナル運用最適化方法。  Container terminal operation optimization method.
請求項12において、
態xに対応し、かつ、荷繰りuに対応するQ値Q(x,u)は、
状態xから荷繰りuにより移る状態x’から前記荷繰りが実行されるときに、状態x’に対応し、かつ、状態x’で実行されうる荷繰りu’に対応するQ値Q(x’,u’)を用いて、次式:
Q(x,u)=(1−α)Q(x,u)+α[R+γmaxQ(x’,u’)]
により表現され、
状態x’から1回以上の前記配置替えにより状態x’’に移るときに、状態x’’に対応し、かつ、状態x’’で実行されうる動作u’’に対応するQ値Q(x’’,u’’)を用いて、次式:
Q(x,u)=(1−α)Q(x,u)+α[R+γmaxQ(x’’,u’’)]
により表現され、
xに対応し、かつ、配置替え対象コンテナ選択操作uに対応するQ値Q(x,u’’’)は、配置替え対象コンテナ選択操作u’’’により選択された配置替え対象コンテナを配置替えするときに前記荷繰りが必要であるときに、状態xから前記配置替え対象コンテナ選択操作uにより移る状態x+と状態x+で実行されうる荷繰りu’’’’とを用いて、次式:
Q(x,u’’’)=maxQ(x+,u’’’’
により表現される
コンテナターミナル運用最適化方法。
In claim 12,
Corresponding to state x +, and corresponds to the load repeatedly u Q value Q (x +, u) is
'When repeat the load from runs, state x' state x + state x + moving by load repeatedly u from corresponding to, and, Q values corresponding to 'load repeatedly u may be performed in' state x Using Q (x + ', u'), the following formula:
Q (x + , u) = (1- [alpha]) Q (x + , u) + [alpha] [R + [gamma] maxQ (x + ', u')]
Expressed by
When 'from the state x by one or more of the relocated' state x + moves to 'state x''corresponds to, and the state x' Q value corresponding to the 'operation u that may be performed by'' Using Q (x ″, u ″), the following formula:
Q (x + , u) = (1−α) Q (x + , u) + α [R + γmaxQ (x ″, u ″)]
Expressed by
Corresponding to state x, and, Q value Q (x, u ''') corresponding to rearrange target container selection operation u is rearranged target container selection operation u' selected rearranged target container by '' when it is necessary to repeat the load when rearranging and the state x or al the rearranged target container selection operation state proceeds by u x + a state x + luggage may be performed in repeated u '''' Use the following formula:
Q ( x, u ′ ″ ) = maxQ (x +, u ″ ″ )
The container terminal operation optimization method expressed by
JP2001388533A 2001-12-20 2001-12-20 Container terminal operation optimization system Expired - Fee Related JP4209109B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001388533A JP4209109B2 (en) 2001-12-20 2001-12-20 Container terminal operation optimization system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001388533A JP4209109B2 (en) 2001-12-20 2001-12-20 Container terminal operation optimization system

Publications (2)

Publication Number Publication Date
JP2003182854A JP2003182854A (en) 2003-07-03
JP4209109B2 true JP4209109B2 (en) 2009-01-14

Family

ID=27597001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001388533A Expired - Fee Related JP4209109B2 (en) 2001-12-20 2001-12-20 Container terminal operation optimization system

Country Status (1)

Country Link
JP (1) JP4209109B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4999296B2 (en) * 2005-08-05 2012-08-15 新日鉄ソリューションズ株式会社 Information processing apparatus, information processing method, and program
KR100993308B1 (en) 2008-09-30 2010-11-09 부산대학교 산학협력단 Planning Method for Remarshalling of Perpendicular type Container Yard in Automated Container Terminals
KR101099700B1 (en) 2009-11-26 2011-12-28 부산대학교 산학협력단 Method for Locating Container at a Container Yard respecting the Outflow job of a Container
JP5658085B2 (en) * 2011-05-16 2015-01-21 川崎重工業株式会社 Object rearrangement planning apparatus, method and program
KR101653341B1 (en) * 2013-09-03 2016-09-09 주식회사 엘지화학 An optimization method for a crane of charging-discharging device and the system using the same
JP7165902B2 (en) * 2017-12-11 2022-11-07 国土交通省港湾局長 Comprehensive container terminal system and operation method using artificial intelligence
CN110888903B (en) * 2019-11-21 2022-11-22 苏州大学应用技术学院 Method and system for automatic continuous carrying operation of crane
JP7109495B2 (en) * 2020-03-12 2022-07-29 株式会社三井E&Sマシナリー Container terminal and its operation method
KR102544350B1 (en) * 2021-11-30 2023-06-16 주식회사 컨테인어스 System and method for managing cargo storing and rehandling processes using artificial intellegience
CN116679726B (en) * 2023-08-01 2023-11-03 山东中建众力设备租赁有限公司 Unmanned tower crane autonomous decision-making system based on edge calculation
CN117787828A (en) * 2023-12-19 2024-03-29 苏州诀智科技有限公司 Intelligent yard control decision-making problem model for container terminal yard and application thereof

Also Published As

Publication number Publication date
JP2003182854A (en) 2003-07-03

Similar Documents

Publication Publication Date Title
Lin et al. Optimizing the freight train connection service network of a large-scale rail system
JP4209109B2 (en) Container terminal operation optimization system
Yue et al. Multi-route railroad blocking problem by improved model and ant colony algorithm in real world
US20080147473A1 (en) Core area territory planning for optimizing driver familiarity and route flexibility
Fügenschuh et al. Single-car routing in rail freight transport
Misir et al. A selection hyper-heuristic for scheduling deliveries of ready-mixed concrete
Wang et al. Tree based searching approaches for integrated vehicle dispatching and container allocation in a transshipment hub
CN113837628B (en) Metallurgical industry workshop crown block scheduling method based on deep reinforcement learning
Prodhon et al. Metaheuristics for vehicle routing problems
CN109711790A (en) Container Shipping method and device for planning
Caserta et al. Container rehandling at maritime container terminals: A literature update
Park et al. Mathematical modeling and solving procedure of the planar storage location assignment problem
Verma et al. A reinforcement learning framework for container selection and ship load sequencing in ports
Hirashima et al. A Q-learning for group-based plan of container transfer scheduling
Guo et al. A bi-population immune algorithm for weapon transportation support scheduling problem with pickup and delivery on aircraft carrier deck
Booyavi et al. An improved optimization method based on the intelligent water drops algorithm for the vehicle routing problem
Nehring et al. Simulation analysis of the impact of container wagon pin configuration on the train loading time in the intermodal terminal
Hosseini et al. A new soft computing algorithm based on cloud theory for dynamic facility layout problem
Vidal et al. Building agent-based models of seaport container terminals
Wang et al. A branch-and-price heuristic algorithm for the ART and external truck scheduling problem in an automated container terminal with a parallel layout
JP5658085B2 (en) Object rearrangement planning apparatus, method and program
Hamdy et al. Quantum computing and machine learning for efficiency of maritime container port operations
US11426871B1 (en) Automated robotic floor map generation
Tayachi et al. Optimising green vehicle routing problem-a real case study
Yazdani et al. Truck routing and scheduling for cross-docking in the supply chain: model and solution method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080522

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081007

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131031

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees