JP7379672B2

JP7379672B2 - フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法

Info

Publication number: JP7379672B2
Application number: JP2022515781A
Authority: JP
Inventors: ベーア，シーリーン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-11-14
Anticipated expiration: 2039-09-19
Also published as: EP4007942A1; KR20220066337A; JP2022548835A; WO2021052589A1; CN114430815A; US20220374002A1

Description

本発明は、フレキシブル生産システムおよび装置のための自己学習型製造スケジューリング方法に関する。

フレキシブル生産システム（flexible manufacturing system：ＦＭＳ）とは、予測されている、されていないに関わらず、変更があった場合にシステムが対応できるようにする、ある程度の柔軟性がある生産システムのことである。
経路設定（ルーティング）の柔軟性とは、新しい製品タイプを生産するために変更されるシステムの能力や、部品に対して実行される作業の順序を変更する能力をカバーすることである。また、機械の柔軟性とは、数量、生産力、性能などの大規模な変化を吸収するというシステムの能力ばかりでなく、複数の機械を使用して一つの部品に対して同じ操作を施すことができる能力をもいう。

ほとんどのＦＭＳは、３つの主要なシステムから構成されている。
作業機械は、自動化されることの多いＣＮＣ機械であり、部品の流れを最適化するためのマテリアルハンドリングシステムと、材料の動きと機械の流れを制御する中央制御コンピュータと、が接続されている。
ＦＭＳの主な利点は、新製品を製造するための時間や労力などの製造資源（リソース）を管理する際の柔軟性が高いことである。ＦＭＳの最良の用途は、大量生産される製品のような製品を少量生産する際に見られる。

Di Caro, G., and Dorigo, M.、Antnet distributed stigmergic control for communications networks.（AntNet：通信ネットワークのための分散スティグマージティック制御）、Journal of Artificial Intelligence Research 9(1998):317-365 Dorigo, M., and Stutzle, T.、Ant Colony Optimization（アントコロニー最適化）、The MIT Press.(2004) Sallez, Y.; Berger, T.; and Trentesaux, D.、A stigmergic approach for dynamic routing of active products in fms.（ＦＭＳにおけるアクティブ製品の動的ルーティングのための生物学的アプローチ）、Computers in Industry 60(2009):204-216. Pach, C.; Berger, T.; Bonte, T.; and Trentesaux, D.、Orca-fms: a dynamic architecture for the optimized and reactive control of flexible manufacturing scheduling（フレキシブル生産スケジューリングの最適化および反応制御のための動的アーキテクチャ）、Computers in Industry 65(2014):706-720. Frankovic, B., and Budinsk'a, I.、"Advantages and Disadvantages of Heuristic and Multi Agents Approaches to the Solution of Scheduling Problem（スケジューリング問題の解法に対するヒューリスティックおよびマルチエージェントアプローチの利点と欠点）"、IFAC Proceedings of the Conference IFAC Control Systems Design. Bratislava, Slovak Rep.: IFAC Proceeding Volumes 60, Issue 13. Leit~ao, P., and Rodrigues, N.、"Multi-agent system for on-demand production integrating production and quality control（生産と品質管理を統合したオンデマンド生産のためのマルチエージェントシステム）"、HoloMAS 2011, LNAI 6867: 84-93. Gabel T.、Multi-Agent Reinforcement Learning Approaches for Distributed Job-Shop Scheduling Problems（分散型ジョブショップ・スケジューリング問題に対するマルチエージェント強化学習アプローチ）、学位論文、June 2009 "Method for Flexible Manufacturing Systems Based on Timed Colored Petri Nets and Anytime Heuristic Search"（時限有色ペトリネットおよび任意時間ヒューリスティック探索に基づくフレキシブル生産システムのための方法）, IEEE Transactions on Systems, Man, and Cybernetics: Systems 45(5):831-846 ? May 2015

世の風潮がモジュール化されたフレキシブル生産システム（ＦＭＳ）に移行するにつれて、オフラインスケジューリングはもはや、効率的な製品ルーティングを可能にする唯一の手段ではなくなっている。製造モジュールの故障、材料の空積み、ＦＭＳの再構築など、予期せぬ事態を考慮しなければならない。したがって、（付加的な）オンラインスケジューリングおよび資源配分システムを有することは有用である。

第２の問題は、古典的なヒューリスティック手法のように、製品ルーティングシステムには高度な技術的労力が必要となことである。さらに、これらの解決策は、静的なものである。自己学習型の製品ルーティングシステムは、実行時に適用されるまで、シミュレーションで多くの状況に対する決定を自ら学習するため、技術的な労力を軽減すると考えられる。

もう一つのポイントは、ＦＭＳにおけるルールと制約を数学的に記述し、それを実装することであり、これは高度な技術的な負担につながる。
自己学習型エージェントのアイデアは、報酬関数で非公式に考慮される制約を理解することである。

製造実行システム（Manufacturing Execution Systems：ＭＥＳ）は、製品の計画とスケジューリングに使用される。しかし、これらの殆どが、顧客の固有のシステムを実装することは、極めて高い技術的労力となる。スケジューリング問題の古典的な解決法は、（メタ）ヒューリスティックな手法の使用である。初見のイベントにおいては、リスケジュールが行われる。一方で、これは時間がかかり、他方で、いつリスケジュールを行わなければならないかを決めるのは難しい。

自己学習型製品ルーティングシステムのコンセプトはいくつか知られており、計算コストが高く、製品が回答を待っている間にオンラインで最善の決定を計算する。
これらの概念の説明は、例えば、非特許文献１～４の開示に見ることができる。

もう一つのアプローチは、マルチエージェントシステムである。このシステムには、エージェントの入札を制御する中心的な実体（エンティティ）があるため、エージェントはこの実体と通信する必要がある。このシステムについては、非特許文献５または非特許文献６に記述されている。

強化学習とは、機械学習の一つの方法であり、報酬と懲罰のシステムを用いてエージェントを訓練（トレーニング）する。
一般的に、強化学習アルゴリズム、あるいはエージェントは、その環境と相互作用することによって学習する。エージェントは、正しく実行することで報酬を受け取り、間違って実行することでペナルティを受け取る。エージェントは、その報酬を最大化し、ペナルティを最小化することにより、人間からの介入なしに学習する。
また、分散ジョブショップスケジューリング問題に対するマルチエージェント強化学習（Reinforcement Learning：ＲＬ）の分野では、１つのエージェントが１つの製造モジュールを制御し、ジョブの発送の可否を決定する研究が行われている。

その例として、非特許文献７が挙げられる。
不利な点は、グローバルな決定をするために中央エンティティが必要であり、各エージェントはＦＭＳの状態に関する限られた見解しか得られないことであり、これは、学習期間の長期化をもたらす可能性がある。

本発明の目的は、ＦＭＳの製品計画およびスケジューリングのために、上述した問題に対する解決策を提供することである。

本課題は、請求項１に記載の特徴に係る方法によって解決され、さらに、請求項８に記載の特徴に係るシステムによって解決される。

本発明の有利な実施形態は、従属請求項に記載されている。
実施形態の説明は、本発明の実施の単なる例であり、本発明に対して制限的であることを意味するものではない。

提案される方法は、少なくとも製品を生産するために使用されるフレキシブル生産システムのための自己学習製造スケジューリングに使用される方法であって、製造システムは、ハンドリングエンティティを介して相互接続された処理エンティティからなり、製造スケジューリングは、フレキシブル生産システムのモデルに対して強化学習システムによって学習されるものであり、モデルは、少なくとも行動およびフレキシブル生産システムの意思決定を表し、モデルは、ペトリネットとして実現される。
処理エンティティおよび処理エンティティの配列は、交換可能であり、全体の配置に対してとても柔軟である。

ペトリネットは、ＰＴ（place/transition）ネットとも呼ばれ、分散システムを記述するための数学的モデリング言語である。ペトリネットは、動的な離散事象システムのクラスである。ペトリネットは有向二部グラフであり、ノードは、トランジション（すなわち、発生し得る事象。棒で表される。）と、プレース（すなわち、条件。円で表される。）と、を表す。有向アークは、どのプレースがトランジションの前条件および／または後条件であるかを記述する（矢印で示す）。

ペトリネットを用いて材料の流れをモデル化し、ペトリネットモデルとヒューリスティック探索を用いてＦＭＳのジョブスケジューリングを行う研究などが行われている。例えば、非特許文献８参照。

本発明は、オンラインスケジューリングのための自己学習システムを提案する。ここで、ＲＬエージェントは、ＦＭＳ内の多くの状況に対して、定義された行動の集合から最善の決定を学習するまで、ペトリネットに対して訓練される。ペトリネットは、ＦＭＳのシステム行動と意思決定点とを表現している。ペトリネットの状態は、ＦＭＳにおける状況を表し、モジュールのトポロジーや、製品の位置および種類とに関係する。

この自己学習システムの最初のアイデアは、ＲＬエージェントを訓練するためのプラント構造、その状態およびその行動、の表現としてペトリネットを使用することである。ペトリネットの現在の状態、つまりプラントの現在の状態は、ＲＬエージェントの入力として使用される。同時に、ペトリネットは、ＲＬエージェントが選択する行動ごとに更新されるため、ＦＭＳのシミュレーション(環境）として使用される。

訓練されたシステムを適用する場合、生産プロセス中にほぼリアルタイムで決定を下すことができ、エージェントは、異なる最適化目標を使用してさまざまな製品の製造モジュールに操作を発送（ディスパッチ）することを含むＦＭＳを通して、製品を制御する。本発明は、ルーティングおよびディスパッチングの柔軟性を有する製造システムでの使用において特に優れている。

このペトリネットは、ユーザが手動で作成することができるが、例えばＧＵＩを使用することによって、背後にロジックを有する図３に描かれているように、自動的に作成することもできる。このロジックは、ペトリネット内の構造の概略図を翻訳することができる。
各モジュールまたはマシンに対して、１つのプレースが生成される。
各意思決定点に対してもまた、１つのプレースが生成される。
２つの意思決定点の間のコンベヤ接続ごとに、トランジションが生成され、これにより、それぞれのプレースを接続する。これらのルールに従うことで、ペトリネットのトポロジーは自動的に、ユーザーが作成したプラントトポロジーと非常によく似たものになる。

ＭＥＳの計画およびスケジューリングの部分は、本発明のオンラインスケジューリングおよび配分システムに置き換えることができる。

以下では、発明を、図を用いて好ましい実施形態について例示する。

仮想レベル（ペトリネット）でのＲＬエージェントの訓練コンセプトと、物理レベル（実際のＦＭＳ）での訓練済みモデルの応用と、を示す。図２の上部は、ペトリネットによるＦＭＳの状態と行動の表現を示し、ＦＭＳ内の複数の製品を色分けしたペトリネットである。図２の下部のマトリックスは、ペトリネットのシステム行動が含まれている。ＦＭＳを模式的に設計するためのＧＵＩの、考慮可能なドラフトを示す。

図１は、実プラント５００をペトリネット１０２で表現した訓練システム３００からのシステム全体の概観を示す。ＲＬ技術として、ＳＡＲＳＡ、ＤＱＮなどを利用することができる。

１つのＲＬエージェントモデルは、後に正確に１つの製品を制御するために、ペトリネット１０２に対して訓練される。したがって、さまざまな製品に対して訓練されたさまざまなエージェントが存在し、同じエージェントが各製品に対して１つずつ存在する場合もある。プラントの状態には、モジュールのキュー（待ち行列）の長さと他の製品の位置の情報が含まれるため、製品同士が通信する必要はない。

図１に訓練の概念を示す。ＲＬエージェントは、仮想環境（ペトリネット）で訓練され、表示された様々な状況でどのように反応するかを学習する。有限の行動の集合から行動を選択した後、ランダムな選択を行うことから始めて、環境が更新され、ＲＬエージェントはその行動の評価として新しい状態と報酬を観測する。ＲＬエージェントの目標は、最良の制御ポリシー（方策）を見つけることにより、長期割引報酬を最大化することである。

訓練中に、ＲＬエージェントは多くの状況（非常に高い状態空間）を複数回遭遇し、ニューラルネットワークがＲＬエージェントと共に使用される場合には、まだ遭遇していないものに対して一般化できる。エージェントは、ペトリネットに対して訓練された後、オンラインスケジューリングのために実行時に適用される前に、実際のＦＭＳで微調整される。

行動３０２を実行した後、シミュレーションにおける結果が観測３０３され、フィードバック、報酬３０１、が与えられる。

プラントの状態には、モジュールのキューの長さと他の製品の位置との情報が含まれるため、製品同士が通信する必要はない。

有限の行動の集合から行動を選択した後、ランダムな選択を行うことから始めて、環境が更新され、ＲＬエージェントはその行動の評価として新しい状態と報酬を観測する。ＲＬエージェントの目標は、最良の制御ポリシーを見つけることにより、長期割引報酬を最大化することである。訓練中に、ＲＬエージェントは多くの状況（非常に高い状態空間）を複数回遭遇し、ニューラルネットワークがＲＬエージェントと共に使用される場合には、まだ遭遇していないものに対して一般化できる。エージェントは、ペトリネットに対して訓練された後、オンラインスケジューリングのために実行時に適用される前に、実際のＦＭＳで微調整される。

プラントの概略図１０１と、内容の意味についての一定の知識と、を併せ持つことにより、全ての図に概略的に描かれているように、ペトリ１０２を自動生成することができる。以下に、ペトリネット１０２の構造について説明する。

ペトリネット環境において、円は、プレースＭ１，…Ｍ６と呼ばれ、矢印１，２，…２４は、トランジション（遷移）と呼ばれている。図２のペトリネットの内側の六角形は、ベルトコンベア部（プレース７～１２）を表し、外側の箇所は製造モジュールが接続可能な箇所（プレース１～６）を表す。トランジション３、１１、１５、１９、２３は、製品を同じプレースにとどめる。残りの数字１，…２４はトランジションを示し、製品（トークン）をあるプレースから別のプレースに移動するために発火（起動）することができる。これらのトランジションは、１つ目の操作の後に２つ目の操作を同じモジュールで実行できる場合に便利である。ペトリネットの状態は、プレース上の製品ａ，ｂ，ｃ，ｄ，ｅ（トークン）によって定義される。ＦＭＳにおいて多くの異なる製品を検討するために、着色したトークンを複数の製品として持つ着色ペトリネットを使用することができる。色の代わりに、製品ＩＤを使用することもできる。

プラントの構造（プレース）とそのシステムの行動（トランジション）を記述するペトリネットは、図２の下部に示されている、１つの単一マトリックスで表すことができる。

このマトリックスは、トランジションを活性化することによる、あるプレースから別のプレースへのトークンの移動を記述する。行はプレースであり、列はトランジションである。たとえば、第２列，第１行目の＋１は、遷移２をアクティブにすることで、あるトークンが、プレース１に移動することを示している。図２のような行列を用いると、トランジションベクトルおよび行列の内積Ｃを、前の状態に加えることにより、ペトリネットの次の状態を容易に計算することができる。トランジションベクトルはＯｎｅ－Ｈｏｔ符号化（１ビット有効符号化）ベクトルであり、これは制御されたエージェントの発火すべきトランジションを記述する。

ＦＭＳのペトリネット表現は、ＲＬエージェントに十分適した訓練環境である。ＲＬエージェントは、ポリシー／Ｑ値（エピソードに対する長期割引報酬金）が収束するまで、例えばＱ－Ｌｅａｒｎｉｎｇとして知られるアルゴリズムによって、ペトリネットに対して訓練される。ペトリネットの状態は、ＦＭＳ内の状況を表現するための１つの要素であり、制御された製品と他の製品の製品位置が、それらの特性とともに含まれる。この状態は、単一のベクトルで表現でき、ＲＬエージェントに対する入力ベクトルの一つとして用いられる。このベクトルは、ペトリネットのすべてのプレースの状態を定義し、そこにはプレースに配置された製品のタイプも含まれる。

つまり、製品タイプａが、容量３を有するプレース１に配置されている場合、最初のベクトル入力は次のようになる。
［ａ，０，０］

製品タイプｂとｃとが、容量３を有するプレース２にある場合、１番目と２番目のベクトル入力は次のようになる。
［［ａ，０，０］［ｂ，ｃ，０］］

ＲＬエージェントの行動空間は、ペトリネットのすべてのトランジションによって定義される。したがって、ＲＬエージェントのタスクは、状態に応じてトランジションを発火することである。

発火されるトランジションｔ＝（001000000000000000）
状態Ｓ１での現在のマーキングＳ１＝（000000010000）
次の状態の計算Ｓ２＝Ｓ１＋Ｃ．ｔ
状態Ｓ２での現在のマーキングＳ２＝（010000000000）

そして次の状態は単一行のコードで非常に高速に計算され、報酬機能とエージェントとに逆方向に伝搬される。エージェントは、まず、無効なトランジションを点火したときに報酬が負になることで、プラントの行動を学習し、後に適切なトランジションを点火できるようになる。これにより、さまざまなエージェントによって制御されるすべての製品が効率的な方法で生産される。実行時のエージェントの行動は、決定を下す必要があるすべてのポイントで、制御対象の製品が進むべき方向に変換される。複数のエージェントが、追加のグローバル最適化目標を考慮しながら、最適化目標によってさまざまな製品を制御しているため、このシステムは、オンライン／リアクティブスケジューリングシステムとして使用することができる。

報酬関数は、エージェントが選択した行動、つまりモジュールのディスパッチ、およびエージェントが与えられた制約にどのように従ったか、を評価する（報酬機能は発明の一部ではなく、この段落は、報酬関数がＲＬエージェントのトレーニングにどのように関与しているかを理解するためのものである）。したがって、報酬関数には、これらのプロセス固有の制約、ローカル最適化目標、およびグローバル最適化目標が含まれている必要がある。これらの目標には、メイクスパン、処理時間、材料コスト、生産コスト、エネルギー需要、および品質、を含めることができる。

報酬関数は、考慮すべき最適化目標を数学的に定式化したものであるため、自動的に生成される。
プロセス固有の制約と最適化目標をＧＵＩなどで設定するのは、プラントオペレータの作業である。また、プラントオペレータの希望に応じて、組み合わせおよび重み付けされた最適化目標を検討することも可能である。実行時に、受け取った報酬を期待される報酬と比較することで、モデルを再トレーニングしたり、微調整したりするためのさらなる分析や決定を行うことができる。

モジュールはさまざまな製造プロセスに置き換えることができる。そのため、このコンセプトは、プラント内物流のあらゆるアプリケーションに転用することができる。本発明は、オンラインスケジューリングに有益であるが、オフラインスケジューリングについても、またはその組み合わせでも、使用することができる。

場合によっては、システムに認識されていない状況がある場合（新しい製造モジュールがある場合）、システムは、この状況での行動を探索し、行動がどのように実行されるかをオンラインで学習することができる。したがって、システムは、初期には準最適な決定を選択する可能性が高いが、未知の状況に対する最良の行動をオンラインで学習する。あるいは、ＧＵＩを使用するなどして、適合されたプラントトトポロジーを使用して、トレーニングセットアップでシステムを再度トレーニングすることも可能である。

図３の右側の例示的なＧＵＩ１１０は、ＦＭＳの表現である。モジュール方式で静的な生産モジュール用のボックスＭ１，…Ｍ６と、コンベヤベルトセクションを表す細いボックスＣ，Ｃ１，…Ｃ６がある。モジュールボックスＭ１，…Ｍ６内の数字は、特定の製造モジュール、例えば、穴あけ、整形、印刷等の処理機能Ｆ１，Ｆ５を表す。製造プロセスにおける１つのタスクは、異なる処理機能を実現しても、交換可能な異なる製造ステーションＭ１，…Ｍ６によって実行できる、と考えることができる。意思決定点Ｄ１，…Ｄ６は、目的の位置に配置される。ＧＵＩの背後には、意思決定点では意思決定が必要なこと（→ 後で：エージェント呼び出し）、製品は意思決定後に、コンベヤベルト上を意思決定点から次の意思決定点へ移動するか、モジュール内に滞在することができる、のような一般的な一定のルールが実装されている。例示のＧＵＩの第３＋ボックス１１３において、プラント内の製品の最大数、ジョブリスト内の操作の最大数、および、すべての可能な操作のようなジョブ順序制約１１７を、モジュールの特性（最大容量またはキュー長を含む）と同様に、設定することができる。行動も同様に設定することができ、当然のことながら、ペトリネット１０２のすべてのトランジションは行動である。

最適化目標の重要性は、例えばＧＵＩで、例えば以下のように値を設定する１１４ことによって、定義することができ、
５×生産時間，２×品質，１×エネルギー効率
そして、この情報は報酬関数１１６の数学的記述に直接変換されることとなり、この例においては、例えば以下のようになる。
０．６２５×生産時間＋０．２５×品質＋０．１２５×時間エネルギー

本発明は、不測の状況に対して非常に迅速にオンラインで反応する可能性を有するスケジューリングシステムを提供する。オンラインスケジューリングを自己学習することは、ルールベースまたは設計されるものではないので、技術的な負担を低減する結果をもたらす。ここに提案した解決策では、ペトリネットと相互作用することにより、例えばヒューリスティクスの定義などの技術的労力を必要とせずに、最適オンラインスケジュールを見出だすことができる。
次の状態を計算するために必要なものはたった一つの方程式だけであるため、「シミュレーション」時間は、既知のプラントシミュレーションツールと比較して、本当に高速である。シミュレーションツールとエージェントとの間の通信は必要ではない（「シミュレーション」は、エージェントの環境に統合されているため、応答時間も必要ではない）。

トレーニングのためのシミュレーションツールは必要ではない。
ペトリネットに対して訓練されるので、最善の決定を見つけるためのラベル付きデータは必要ではない。ＦＭＳ用ペトリネットは、自動的に生成することができる。

１つのＦＭＳで、異なる最適化目標を同時に使用し、さらに追加のグローバル最適化目標を使用することで、さまざまな製品を最適に製造することができる。
ＲＬによって、エンジニアがシステムのルールをモデル化するために、あらゆる普通でない（エキゾチックな）状況を過剰に考える必要はない。
適用されたシステムの意思決定は、オンラインでほぼリアルタイムに行われる。
例えば新しいトポロジーについて、エージェントをオフラインで再トレーニングすることと同様に、オンライントレーニングもまた可能である。

１０１…概略図、１０２…ペトリネット、１１０…ＧＵＩ、３００…訓練システム、５００…実プラント

Claims

少なくとも製品（ａ，ｂ，ｃ，ｄ，ｅ）を製造するために使用されるフレキシブル生産システム（５００）のための自己学習製造スケジュールを作成する方法であって、
前記フレキシブル生産システムは、ハンドリングエンティティ（Ｃ、Ｃ１，…）を介して相互接続される処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）を備え、
前記製造スケジュールの作成は、前記フレキシブル生産システムのモデル（４００）について強化学習システム（３００）によって学習されるものであって、
前記モデルは、少なくとも、前記フレキシブル生産システムの行動および意思決定を表し、
前記モデル（４００）は、ペトリネット（１０２）として実現され、
前記ペトリネット（１０２）は、
前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）のそれぞれに対応する第１のプレースと、
前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）のうちの１つと前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）のうちの他の１つとの間を接続する前記ハンドリングエンティティ（Ｃ、Ｃ１，…）上の意思決定点のそれぞれに対応する第２のプレースと、
前記第１のプレースのうちの１つと前記第２のプレースのうちの１つとの間の移動に関連する第１のトランジションと、
前記第１のプレースのうちの１つに製品が移動可能な前記第２のプレースのうちの１つと、当該第１のプレースのうちの１つから前記製品が移動可能な前記第２のプレースのうちの他の１つとの間での移動に関連する第２のトランジションと、
を備えている、
方法。
前記ペトリネット（１０２）の１つの状態は、前記フレキシブル生産システムにおける１つの状態を表す、
請求項１に記載の方法。
前記ペトリネットのプレース（ＰＭ１，…ＰＭ６）は、１つの前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）の状態を表し、
前記ペトリネットのトランジション（１，…２４）は、１つの前記ハンドリングエンティティを表す、
請求項１または２に記載の方法。
ペトリネットのトランジションは、前記フレキシブル生産システムの行動に対応する、
請求項１～３のいずれか１項に記載の方法。
前記フレキシブル生産システムは、既知のトポロジーを有し、
前記ペトリネット（１０２）からの情報に対応して、前記トランジションおよび前記プレースに関する情報を含む行列（１０３）を生成し、
前記行列（１０３）内の前記情報の位置は、前記フレキシブル生産システムの前記トポロジーに応じて順序付けされている、
請求項３に記載の方法。
前記行列（１０３）の本体は、前記フレキシブル生産システム内にある時点において位置するすべての製品（ａ，ｂ，ｃ，ｄ，ｅ）に関する入力を含み、前記フレキシブル生産システム内のそれぞれの前記製品（ａ，ｂ，ｃ，ｄ，ｅ）の、前記位置または１つの位置から別の位置への移動、を示す、
請求項５に記載の方法。
それぞれの前記製品（ａ，ｂ，ｃ，ｄ，ｅ）の特性を表すために、着色ペトリネットが使用される、
請求項１～６のいずれか１項に記載の方法。
前記強化学習システムの訓練のために、
前記行列（１０３）に含まれる前記情報は、ベクトルを計算することによって使用され、
前記ベクトルは、前記強化学習システムの入力情報として使用されるとともに、前記製品（ａ，ｂ，ｃ，ｄ，ｅ）の製造プロセスまたは前記フレキシブル生産システムの効率に関して付加的に入力されかつ優先順位付けされた最適化の基準に基づいて、前記強化学習システムの次のステップへのトランジションを選択するための基準として使用される、
請求項５または６に記載の方法。
前記第２のプレースは、前記第２のトランジションを介して一つの環状に接続されている、
請求項１～８のいずれか１項に記載の方法。
少なくとも製品（ａ，ｂ，ｃ，ｄ，ｅ）を製造するために使用される、フレキシブル生産システム（５００）のための自己学習製造スケジュールの作成のための強化学習システムであって、
前記フレキシブル生産システムは、ハンドリングエンティティ（Ｃ，Ｃ１，…）を介して相互接続された処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）を備え、
前記強化学習システムの入力は、前記フレキシブル生産システムのモデル（４００）を含み、
前記モデルは、少なくとも前記フレキシブル生産システムの行動および意思決定を表し、
前記モデル（４００）は、請求項１～８のいずれか１項に記載のペトリネット（１００）として実現され、
前記ペトリネット（１０２）は、
前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）のそれぞれに対応する第１のプレースと、
前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）のうちの１つと前記処理エンティティ（Ｍ１，Ｍ２，…Ｍ６）のうちの他の１つとの間を接続する前記ハンドリングエンティティ（Ｃ、Ｃ１，…）上の意思決定点のそれぞれに対応する第２のプレースと、
前記第１のプレースのうちの１つと前記第２のプレースのうちの１つとの間の移動に関連する第１のトランジションと、
前記第１のプレースのうちの１つに製品が移動可能な前記第２のプレースのうちの１つと、当該第１のプレースのうちの１つから前記製品が移動可能な前記第２のプレースのうちの他の１つとの間での移動に関連する第２のトランジションと、
を備える、
強化学習システム。