DE102020203296A1

DE102020203296A1 - Verfahren und Vorrichtung zur optimierten Produktion von Blechteilen

Info

Publication number: DE102020203296A1
Application number: DE102020203296.3A
Authority: DE
Inventors: Jens Ottnad; Frederick Struckmeier; Carina Mieth; Alexandru Rinciog
Original assignee: Trumpf Werkzeugmaschinen SE and Co KG
Current assignee: Trumpf Werkzeugmaschinen SE and Co KG
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2021-09-16
Also published as: EP4118493A1; US20230004880A1; US11586996B2; CN115335780A; WO2021180816A1

Abstract

Die Erfindung betrifft ein Verfahren zur Optimierung einer Fertigung von Blechteilen. Das Verfahren optimiert die Zuteilung von Blechteilen zur Bearbeitung an verschiedenen Produktionsmaschinen 14 und gibt einen optimierten Produktionsplan aus. Hierzu ist ein Algorithmus 20 vorgesehen, der einen Entscheidungsbaum in Form eines Monte-Carlo-tree-search-frameworks 22 und ein neuronales Netz 24 aufweist. Der Algorithmus 20 wird mit jeder neuen Abfrage durch self-play und reinforcement learning trainiert. Ein Vortraining des Algorithmus 20 wird durch supervised learning erzielt. Der Algorithmus 20 optimiert vorzugsweise den Produktionsplan primär hinsichtlich minimal verspäteter Produktionsfristen der Blechteile und sekundär hinsichtlich eines minimalen Verschnitts. Durch die Vergabe von Scores können beide Ziele gemeinsam bewertet werden. Das Verfahren kann den Empfang von Abfrage-auslösenden Ereignissen 46 und/oder den Betrieb von Produktionsmaschinen 14 gemäß dem Produktionsplan umfassen. Die Erfindung betrifft weiterhin eine Vorrichtung 18 zur Durchführung des Verfahrens.

Description

Hintergrund der Erfindung
Die Erfindung betrifft ein Verfahren zur Optimierung der Produktion von Blechteilen. Die Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung eines solchen Verfahrens.
Blechteile kommen in verschiedensten Produkten in verschiedensten Geometrien vor. Zur Herstellung von Produkten mit Blechteilen werden die Blechteile aus einer großen Blechtafel ausgeschnitten, vereinzelt, entgratet, gebogen, gefügt, beschichtet und/oder montiert.
Die Herstellung der Blechteile erfolgt dabei in sogenannten Aufträgen. Ein Auftrag beinhaltet

i) die Herstellung eines ausgeschnittenen, vereinzelten, gebogenen und/oder montierten Blechteils oder
ii) die Herstellung mehrerer ausgeschnittener, vereinzelter, gebogener und/oder montierter Blechteile.

Die einzelnen Blechteile sollten so aus der Blechtafel ausgeschnitten werden, dass möglichst wenig Restmaterial (Verschnitt) der Blechtafel als Abfall verbleibt. Da die Blechteile verschiedener Aufträge verschiedene Geometrien aufweisen können, kann es zur Verschnittoptimierung vorteilhaft sein, Blechteile verschiedener Aufträge platzsparend gemeinsam auf einer Blechtafel vorzusehen.
Die hierdurch entstehende zeitliche Vermischung der Aufträge erhöht jedoch die Komplexität bei der Produktionsplanung. Hinzu kommt, dass die Produktion der Blechteile auf mehreren gleichen oder ähnlichen Produktionsmaschinen erfolgen kann. Beispielsweise können zum Biegen der vereinzelten Blechteile mehrere gleiche oder ähnliche Biegemaschinen vorgesehen sein. Die Produktionsmaschinen sollten dabei mit möglichst hoher Auslastung betrieben werden.
Die Produktionsplanung, also die Planung, wann welches Blechteil auf welcher Produktionsmaschine bearbeitet wird, wird durch die beschriebenen Variablen sehr komplex, insbesondere im Fall von Ereignissen wie Produktionsmaschinenausfällen, Eilaufträgen und/oder freiwerdenden Produktionsmaschinenkapazitäten.
Die optimale Produktionsplanung wird als Lösung eines job-shop-scheduling-problems (JSSP) bezeichnet. Lösungen und Lösungsansätze hierzu finden sich in folgenden Veröffentlichungen:

[1]F. Pfitzer, J. Provost, C. Mieth, and W. Liertz, „Event-driven production rescheduling in job shop environments", in 2018 IEEE 14th International Conference on Automation Science and Engineering (CASE), IEEE, 2018, pp. 939-944;
[2] M. Putz and A. Schlegel, „Simulationsbasierte Untersuchung von Prioritäts- und Kommissionierregeln zur Steuerung des Materialflusses in der Blechindustrie";
[3] L. L. Li, C. B. Li, L. Li, Y. Tang, and Q. S. Yang, „An integrated approach for remanufacturing job shop scheduling with routing alternatives.", Mathematical biosciences and engineering: MBE, vol. 16, no. 4, pp. 2063-2085, 2019;
[4] M. Gondran, M.-J. Huguet, P. Lacomme, and N. Tchernev, „Comparison between two approaches to solve the job-shop scheduling problem with routing", 2019;
[5] J. J. van Hoorn, „The current state of bounds on benchmark instances of the job-shop scheduling problem", Journal of Scheduling, vol. 21, no. 1, pp. 127-128, 2018;
[6] S.-C. Lin, E. D. Goodman, and W. F. Punch III, „A genetic algorithm approach to dynamic job shop scheduling problem", in ICGA, 1997, pp. 481-488;
[7] T. Yamada and R. Nakano, „Scheduling by genetic local search with multistep crossover", in International Conference on Parallel Problem Solving from Nature, Springer, 1996, pp. 960- 969;
[8] B. M. Ombuki and M. Ventresca, „Local search genetic algorithms for the job shop scheduling problem", Applied Intelligence, vol. 21, no. 1, pp. 99-109, 2004;
[9] E. S. Nicoara, F. G. Filip, and N. Paraschiv, „Simulation-based optimization using genetic algorithms for multi-objective flexible jssp", Studies in Informatics and Control, vol. 20, no. 4, pp. 333-344, 2011;
[10] L. Asadzadeh, „A local search genetic algorithm for the job shop scheduling problem with intelligent agents", Computers & Industrial Engineering, vol. 85, pp. 376-383, 2015;
[11] B. Waschneck, A. Reichstaller, L. Belzner, T. Altenmüller, T. Bauernhansl, A. Knapp, and Kyek, „Optimization of global production scheduling with deep reinforcement learning", Procedia CIRP, vol. 72, pp. 1264-1269, 2018;
[12] M. Botvinick, S. Ritter, J. X. Wang, Z. Kurth-Nelson, C. Blundell, and D. Hassabis, „Reinforcement learning, fast and slow", Trends in cognitive sciences, 2019.

Weiterhin ist es aus der WO 2017/157809 A1 bekannt geworden, eine Produktionsplanung mit einer Optimiereinheit und einer davon getrennten Verteileinheit vorzusehen.
Trotz umfangreicher Bemühungen konnte aufgrund der Komplexität der Aufgabe eine zufriedenstellende Produktionsplanung jedoch bislang nicht erzielt werden.
Aufgabe der Erfindung
Es ist daher Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zur optimierten Produktion von Blechteilen bereit zu stellen.
Beschreibung der Erfindung
Diese Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren gemäß Anspruch 1 und eine Vorrichtung gemäß Anspruch 13. Die Unteransprüche geben bevorzugte Weiterbildungen wieder.
Die erfindungsgemäße Lösung umfasst somit ein Verfahren zur Optimierung der Produktion von Blechteilen. Das Verfahren umfasst zumindest folgende Prozessschritten (vor, nach und/oder zwischen den nachfolgenden Prozessschritten kann ein weiterer Prozessschritt oder können mehrere weitere Prozessschritte vorgesehen sein):

a) Ausschneiden und Vereinzeln der Blechteile (insbesondere mittels Stanzen oder Laserschneiden);
b) Biegen der Blechteile.

Das Verfahren weist zumindest folgende Verfahrensschritte auf (vor, nach und/oder zwischen den nachfolgenden Verfahrensschritten kann ein weiterer Verfahrensschritt oder können mehrere weitere Verfahrensschritte vorgesehen sein):

A) Training eines auf einem Monte-Carlo-tree-search-framework durchgeführten neuronalen Netzes mittels supervised-learning und self-play mit reinforcement-learning;
B) Erfassen von Randbedingungen der Blechteile, wobei die Randbedingungen zumindest geometrische Daten der Blechteile umfassen;
C) Erstellen eines optimierten Produktionsplans durch das neuronale Netz;
D) Ausgabe des Produktionsplans.

Erfindungsgemäß ist es somit vorgesehen, eine Optimierung mit einem neuronalen Netz (NN) vorzusehen. Neuronale Netze sind dem Fachmann beispielsweise bekannt aus:

[13] Günter Daniel Rey, Karl F. Wender, „Neuronale Netze“, 2. Auflage, 2010, Huber.

Das neuronale Netz weist über Kanten verbundene Entscheidungsknoten auf. Diese sind im vorliegenden Fall Teil eines Monte-Carlo-tree-search-(MCTS)-frameworks, also einem Algorithmus mit einem Entscheidungsbaum. Dabei wird in dem Entscheidungsbaum ein aussichtsreicher Pfad gewählt (selection), der Pfad erweitert (expansion), eine Simulation auf Grundlage des erweiterten Pfads (simulation) durchgeführt und auf Grundlage des Simulationsergebnisses eine Rückmeldung, insbesondere in Form einer Stärkung oder Schwächung, an den Entscheidungsbaum gegeben (backpropagation). Details zur Implementierung eines MCTSframework kann folgender Veröffentlichung entnommen werden:

[14] G. Chaslot, S. Bakkes, I. Szita, and P. Spronck, „Monte-carlo tree search: A new framework for game ai“, in AIIDE, 2008.

Im vorliegenden Fall wird die MCTS durch das neuronale Netz durchgeführt, wobei das neuronale Netz durch supervised-learning vortrainiert wird. Die Entscheidungsfindung und weiteres Training erfolgt mittels self-play und reinforcement learning.
Unter reinforcement-learning (RL) wird ein Rückmeldungs-basierter Lernprozess verstanden, der insbesondere die Stärkung bzw. Schwächung des Entscheidungsbaums des MCTS-frameworks umfasst. Reinforcement-learning steht allgemein für eine Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbstständig eine Strategie erlernt, um erhaltene Belohnungen (rewards) zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann. Anhand dieser Belohnungen approximiert er eine Nutzenfunktion, die beschreibt, welchen Wert ein bestimmter Zustand oder Aktion hat.
Details zur Implementierung können folgenden Veröffentlichungen entnommen werden:

[15] W. Zhang and T. G. Dietterich, „A reinforcement learning approach to job-shop scheduling", in IJCAI, Citeseer, vol. 95, 1995, pp. 1114-1120;
[16] R. S. Sutton, A. G. Barto, et al., Introduction to reinforcement learning, 4. MIT press Cam- bridge, 1998, vol. 2;
[17] S. Mahadevan and G. Theocharous, „Optimizing production manufacturing using reinforcement learning.", in FLAIRS Conference, 1998, pp. 372-377;
[18] S. J. Bradtke and M. O. Duff, „Reinforcement learning methods for continuous-time markov decision problems", in Advances in neural information processing systems, 1995, pp. 393-400;
[19] S. Riedmiller and M. Riedmiller, „A neural reinforcement learning approach to learn local dispatching policies in production scheduling", in IJCAI, vol. 2, 1999, pp. 764-771;
[20] C. D. Paternina-Arboleda and T. K. Das, „A multi-agent reinforcement learning approach to obtaining dynamic control policies for stochastic lot scheduling problem", Simulation Modelling Practice and Theory, vol. 13, no. 5, pp. 389-406, 2005;
[21] T. Gabel and M. Riedmiller, „Scaling adaptive agent-based reactive job-shop scheduling to large-scale problems", in 2007 IEEE Symposium on Computational Intelligence in Scheduling, IEEE, 2007, pp. 259-266;
[22] Y. C. F. Reyna, Y. M. Jim'enez, J. M. B. Cabrera, and B. M. M. Hernändez, „A reinforcement learning approach for scheduling problems", Investigación Operacional, vol. 36, no. 3, pp. 225-231, 2015;
[23] S. Qu, J. Wang, S. Govil, and J. O. Leckie, „Optimized adaptive scheduling of a manufacturing process system with multi-skill workforce and multiple machine types: An ontology-based, multi-agent reinforcement learning approach", Procedia CIRP, vol. 57, pp. 55-60, 2016;
[24] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Ried- miller, „Playing atari with deep reinforcement learning", arXiv preprint arXiv: 1312.5602, 2013;
[25] A. Kuhnie, L. Schäfer, N. Stricker, and G. Lanza, „Design, implementation and evaluation of reinforcement learning for an adaptive order dispatching in job shop manufacturing systems", Procedia CIRP, vol. 81, pp. 234-239, 2019;
[26] N. Stricker, A. Kuhnle, R. Sturm, and S. Friess, „Reinforcement learning for adaptive order dispatching in the semiconductor industry", CIRP Annals, vol. 67, no. 1, pp. 511-514, 2018;
[27] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, „Trust region policy optimization", in International conference on machine learning, 2015, pp. 1889-1897.

Unter supervised-learning wird ein Training mit vorgegebenen Lösungen verstanden. Dieses überwachte Lernen ist allgemein ein Teilgebiet des maschinellen Lernens. Mit Lernen ist dabei die Fähigkeit einer künstlichen Intelligenz gemeint, Gesetzmäßigkeiten nachzubilden. Die Ergebnisse sind durch Naturgesetze oder Expertenwissen bekannt und werden benutzt, um das System anzulernen. Ein Lernalgorithmus versucht, eine Hypothese zu finden, die möglichst zielsichere Voraussagen trifft. Unter Hypothese ist dabei eine Abbildung zu verstehen, die jedem Eingabewert den vermuteten Ausgabewert zuordnet. Die Methode richtet sich also nach einer im Vorhinein festgelegten zu lernenden Ausgabe, deren Ergebnisse bekannt sind. Die Ergebnisse des Lernprozesses können mit den bekannten, richtigen Ergebnissen verglichen, also „überwacht“, werden. Details zur Implementierung kann den folgenden Veröffentlichungen entnommen werden:

[28] M. Gombolay, R. Jensen, J. Stigile, S.-H. Son, and J. Shah, „Apprenticeship scheduling: Learning to schedule from human experts", AAAI Press/International Joint Conferences on Artificial Intelligence, 2016;
[29] H. Ingimundardottir and T. P. Runarsson, „Supervised learning linear priority dispatch rules for job-shop scheduling", in International conference on learning and intelligent optimization, Springer, 2011, pp. 263-277.

Die Ausführung des Algorithmus erfolgt vorzugsweise in Form eines single-playergames.
Die Kombination aus Monte-Carlo-tree-search-framework basiertem neuronalen Netz und Training dieses neuronalen Netzes mittels supervised-learning und self-play mit reinforcement-learning führt zu einer Optimierung, die die bekannten Optimierungen in der Blechbearbeitung signifikant übertreffen.
Bevorzugte Ausführungsformen
Die Ausgabe im Verfahrensschritt D) kann an ein manufacturing-execution-system (MES) erfolgen. Hierdurch kann der Produktionsplan direkt an den Produktionsmaschinen umgesetzt werden.
Das erfindungsgemäße Verfahren kann zusätzlich zu den bereits genannten einen oder mehrere der folgenden Prozessschritte aufweist:

c) Entgraten der Blechteile;
d) Fügen, insbesondere Schweißen und/oder Löten, der Blechteile;
e) Beschichten der Blechteile, insbesondere durch Lackieren und/oder Pulverbeschichten;
f) Montieren der Blechteile.

In bevorzugter Ausgestaltung der Erfindung wird das erfindungsgemäße Verfahren mit dem Algorithmus AlphaGo, in besonders bevorzugter Ausgestaltung mit dem Algorithmus AlphaGo Zero, durchgeführt. In diesem Fall umfasst der Algorithmus das zuvor beschriebene Monte-Carlo-tree-search-framework mit dem mittels supervised-learning und self-play mit reinforcement-learning trainierte neuronale Netz. AlphaGo bzw. AlphaGo Zero hat sich im Rahmen der Erfindungsumsetzung als ein sehr leistungsstarker Algorithmus bei der Optimierung der Fertigung von Blechteilen erwiesen.
Der Algorithmus AlphaGo Zero ist auf folgenden Webseiten einsehbar:

• https://tmoer.github.io/AlphaZero/
• https://towardsdatascience.com/alphazero-implementation-and-tutorial-f4324d65fdfc
• https://medium.com/applied-data-science/how-to-build-your-own-alpha-zero-ai-using-python-and-keras-7f664945c188

AlphaGo bzw. AlphaGo Zero ist vorzugsweise in Python und/oder Tensorflow implementiert. Weitere Details zur Implementierung von AlphaGo bzw. AlphaGo Zero sind folgenden Veröffentlichungen entnehmbar:

[30] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, et al., „Mastering the game of go with deep neural networks and tree search", nature, vol. 529, no. 7587, p. 484, 2016.
[31] G. Chaslot, S. Bakkes, I. Szita, and P. Spronck, „Monte-carlo tree search: A new framework for game ai.", in AIIDE, 2008.
[32] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, et al., „Mastering the game of go without human knowledge", Nature, vol. 550, no. 7676, p. 354, 2017.
[33] D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel, et al., „Mastering chess and shogi by self-play with a general reinforcement learning algorithm", arXiv preprint arXiv:1712.01815, 2017.

Die Offenbarung aller hier zitierten Veröffentlichungen und Websites wird vollumfänglich in die vorliegende Beschreibung aufgenommen (incorporated by reference).
Weiter bevorzugt wird das Training im Verfahrensschritt A) mit heuristisch ermittelten Lösungen optimierter Produktionspläne durchgeführt. Hierdurch erhält das neuronale Netz einen guten Ausgangspunkt für seine weitere Optimierung.
Insbesondere können dabei optimierte Produktionspläne in Form von earliest-due-date-(EDD)-Lösungen eingesetzt werden. Diese Lösungen haben sich als besonders vorteilhaft erwiesen, da in der Praxis oftmals Eilaufträge anfallen, die die vorherige Produktionsplanung obsolet machen.
Eine besonders bevorzugte Ausgestaltung des Verfahrens betrifft den Fall, dass die Optimierung sowohl die Verschnittminimierung als auch die Produktionszeitoptimierung umfasst. Dies ermöglicht sowohl eine schnelle als auch kostengünstige und ressourcenschonende Fertigung. Ziele der Produktionszeitoptimierung sind insbesondere die minimale gesamte Verspätung und/oder die minimale gesamte Produktionszeit.
Die Randbedingungen im Verfahrensschritt B) können die Produktionsfristen der Blechteile umfassen. Die Produktionszeitoptimierung kann dann die Einhaltung der Produktionsfristen berücksichtigen. Der Einhaltung der Produktionsfristen kann dabei eine höhere Priorität zukommen als anderen Zielen.
Alternativ oder zusätzlich dazu können die Randbedingungen im Verfahrensschritt B) die Werte, also die Geldwerte bzw. Preise, der Blechteile umfassen. Hierdurch kann die Produktion in Abhängigkeit der Werte der jeweiligen Blechteile optimiert werden. Allgemein kann hierdurch der Wert eines Blechteils, beispielsweise der Preis seiner verspäteten Fertigung, im Rahmen der erfindungsgemäßen Optimierung qualifiziert werden.
Weiter bevorzugt wird dem Verschnitt ein Verschnittscore zugeteilt und dem Erreichen der Produktionsfrist eine Produktionsfristscore zugeteilt, der auf dem Wert der Blechteile basiert, wobei die Optimierung sowohl den Verschnittscore als auch den Produktionsfristscore minimiert. Durch die Zuteilung der Scores kann die Produktionszeitminimierung auf derselben Skala wie die Verschnittminimierung behandelt bzw. optimiert werden.
Im Entscheidungsknoten wird in diesem Fall vorzugsweise der geschätzte maximal erreichbare Gesamtscore-Wert hinterlegt; auf den die Entscheidungsknoten verbindenden Kanten wird vorzugsweise die Wahrscheinlichkeit (= Gewichtung) hinterlegt, dass die jeweilige Entscheidung des Entscheidungsknotens die beste ist.
Der Verschnittscore und der Produktionsfristscore können beispielsweise in Form eines Preises eingesetzt werden. Dann kann der Preis für Verschnittmaterial gegen den Preis eines zu spät produzierten Blechteils abgewogen werden.
Im Rahmen des Verfahrens kann gemäß folgender Funktion optimiert werden: $r_{a b s} : = - c (W) + \sum_{i = 1}^{10} v_{i} - λ max {0, T_{i}}$
Wobei c(W) den Wert für das insgesamt eingesetzte Material darstellt (inclusive Verschnitt, also Abfall), T_i und v_i jeweils die Verspätung und den Wert des Auftragsteils i darstellen. λ ist ein Parameter, der Verspätung bestraft. r_abs spiegelt die Summe der Blechteile wider, jeweils proportional zu Produktionsfristen reduziert, minus die gesamten Materialkosten. Mit der Formel kann eine Belohnung des neuronalen Netzes generiert werden, insbesondere skaliert auf [0, 1], wobei der maximal mögliche Score rmax (ohne Verspätung und ohne Verschnitt) ist.
Die Verfahrensschritte B) bis D) können bedarfsgerecht durch Vorliegen eines Ereignisses getriggert werden, wobei das Einlesen des Ereignisses über eine Ereignisschnittstelle erfolgt.
Vorzugsweise liegt das Ereignis dabei in Form einer Anfrage zur weiteren Bearbeitung eines Blechteils, in Form freiwerdender Produktionsmaschinenkapazität, in Form eines Produktionsmaschinenausfalls und/oder in Form eines Eilauftrags vor.
Dabei kann das Ereignis automatisiert ausgelöst und über die Ereignisschnittstelle eingelesen werden. Besonders bevorzugt wird das Ereignis von einer Produktionsmaschine, einem Indoor-Lokalisierungssystem und/oder einem manufacturing execution system ausgelöst und über die Ereignisschnittstelle eingelesen. Im Fall eines Indoor-Lokalisierungssystems kann die Planung durch von den Tags des Indoor-Lokalisierungssystems übermittelte Ereignisse automatisiert weiter optimiert werden.
Zur weiteren Verbesserung des neuronalen Netzes kann in einem Verfahrensschritt E) eine Nutzerbewertung des im Verfahrensschritt D) ausgegebenen Produktionsplans eingelesen werden.
Die Erfindung betrifft weiterhin ein Verfahren zur Herstellung von Blechteilen, bei dem ein zuvor angeführtes Verfahren durchgeführt wird und anschließend die Prozessschritte a) und b) auf Grundlage des optimierten Produktionsplans durchgeführt werden.
Bei dem Verfahren zur Herstellung von Blechteilen kann/können nach den Prozessschritten a) und b) die Prozessschritte c), d), e) und/oder f) auf Grundlage des optimierten Produktionsplans durchgeführt werden.
Die erfindungsgemäße Aufgabe wird weiterhin gelöst durch eine Vorrichtung zur Durchführung eines hier beschriebenen Verfahrens, wobei die Vorrichtung einen Computer zum Speichern und Ausführen des neuronalen Netzes, eine Randbedingungsschnittstelle zum Einlesen der Randbedingungen und eine Produktionsplanschnittstelle zur Ausgabe des Produktionsplans aufweist.
Zum Einlesen der Nutzerbewertungen kann eine Nutzerbewertungsschnittstelle vorgesehen sein. Das neuronale Netz kann cloudbasiert ausgebildet sein, um das Training mit, insbesondere anonymisierten, Nutzerbewertungen zu erleichtern.
Die erfindungsgemäße Vorrichtung kann die Ereignisschnittstelle aufweisen und weiterhin eine Produktionsmaschine, ein Indoor-Lokalisierungssystem (mit mehreren Tags, die Ereignisse übermitteln) und/oder ein manufacturing execution system aufweisen, wobei ein von der Produktionsmaschine, dem Indoor-Lokalisierungssystem und/oder dem manufacturing execution system ausgelöstes Ereignis über die Ereignisschnittstelle einlesbar ist. Die Vorrichtung ist in diesem Fall automatisiert bzw. teilautomatisiert optimierbar.
Weitere Vorteile der Erfindung ergeben sich aus der Beschreibung und der Zeichnung. Ebenso können die vorstehend genannten und die noch weiter ausgeführten Merkmale erfindungsgemäß jeweils einzeln für sich oder zu mehreren in beliebigen Kombinationen Verwendung finden. Die gezeigten und beschriebenen Ausführungsformen sind nicht als abschließende Aufzählung zu verstehen, sondern haben vielmehr beispielhaften Charakter für die Schilderung der Erfindung.
Detaillierte Beschreibung der Erfindung und Zeichnung

1 zeigt schematisch den Produktionsablauf bei der Fertigung von Blechteilen.
2 zeigt schematisch die Optimierung des Produktionsablaufs.

1 zeigt schematisch die Fertigung verschiedener Aufträge. In 1 sind exemplarisch die Aufträge A₀₁ bis Aio gezeigt. Die Aufträge A₀₁-A₁₀ umfassen die Herstellung von Produkten P₀₁ bis P₁₀ , die aus mehreren, insbesondere verschiedenen, Blechteilen mit ihren jeweiligen geometrischen Daten gefertigt sind. Aus Gründen der Übersichtlichkeit sind in 1 nur die Blechteile B₁ und B₂ mit einem Bezugszeichen versehen.
Wie durch Uhrensymbole in 1 angedeutet ist, weisen die einzelnen Blechteile B₁ , B₂ verschiedene Fertigungszeiten auf. Weiterhin weisen die Aufträge A₀₁ bis A₁₀ verschiedene Produktionsfristen F₀₁ bis F₁₀ auf. Sparschweine deuten an, dass die Blechteile B₁ , B₂ verschiedene (Geld-)Werte aufweisen. Die beschriebenen Vorgaben stellen Randbedingungen 10 der Blechteile B₁ , B₂ dar.
Die Blechteile B₁ , B₂ werden auf einer Blechtafel 12 möglichst so angeordnet, dass der Verschnitt minimal ist. Wie aus 1 ersichtlich ist, kann dies zur Vermischung von Blechteilen B₁ , B₂ verschiedener Aufträge A₀₁-A₁₀ führen. Die Blechteile B₁ , B₂ werden auf Produktionsmaschinen 14 bearbeitet, von denen in 1 Produktionsmaschinen c₁ , c₂ (cut) zum Schneiden und Vereinzeln, Produktionsmaschinen b₁ , b₂ (bend) zum Biegen und Produktionsmaschinen a₁ , a₂ (assemble) zur Montage der Blechteile B₁ , B₂ dargestellt sind. Darüber hinaus können weitere, in 1 nicht gezeigte, Produktionsmaschinen 14 zur Bearbeitung der Blechteile B₁ , B₂ , beispielsweise zum Entgraten, Fügen und/oder Beschichten der Blechteile B₁ , B₂ vorgesehen sein. Die fertigen, die Blechteile B₁ , B₂ aufweisenden Produkte sind in 1 beim Bezugszeichen 16 dargestellt.
Die Aufteilung der Blechteile B₁ , B₂ auf die Produktionsmaschinen 14 stellt bei den verschiedenen Randbedingungen 10 der Blechteile B₁ , B₂ ein hochkomplexes Problem dar. Dies insbesondere, da die einzelnen Prozessschritte verschieden lang dauern, Produktionsmaschinen 14 ausfallen und/oder Eilaufträge eingehen können.
Die erfindungsgemäße Optimierung des Produktionsablaufs ist in 2 dargestellt. 2 zeigt eine Vorrichtung 18 zur optimierten Fertigung bzw. optimierten Fertigungsplanung der Blechteile B₁ , B₂ aus 1. Hierzu ist ein Algorithmus 20 vorgesehen. Der Algorithmus 20 liegt vorzugsweise als AlphaGo oderAlphaGo Zero vor. Der Algorithmus 20 umfasst ein Monte-Carlo-tree-search-framework 22. Das Monte-Carlo-tree-search-framework 22 wird von einem neuronalen Netz 24 modifiziert. Hierbei wird zunächst ein supervised learning durchgeführt, also ein Training anhand heuristisch ermittelter Problemlösungen.
Anschließend erfolgt self-play mit reinforcement-learning als single-player-game. Dies ist in 2 in den Schritten 26 (selection), 28 (expansion), 30 (simulation) und 32 (backpropagation) dargestellt. Dabei wird im Schritt 26 ein Entscheidungspfad über bestimmte Entscheidungsknoten gewählt, im Schritt 28 der Entscheidungsbaum mit den Entscheidungsknoten nach dem Zufallsprinzip erweitert, das Ergebnis hieraus im Schritt 30 simuliert und die Entscheidungsknoten auf Grundlage dieses Simulationsergebnisses im Schritt 32 neu gewichtet (gestärkt oder geschwächt). Die Schritte 26 bis 32 werden mehrfach wiederholt.
Das so durchgeführte Ermitteln einer möglichst optimalen Aufteilung der Fertigungsschritte erfolgt vorzugsweise sowohl im Hinblick auf Verschnittminimierung (nesting) als auch im Hinblick auf Produktionszeitoptimierung (scheduling). Dieser Vorgang kann als Optimierung durch einen nesting-Agenten und einen scheduling-Agenten beschrieben werden, bei dem die Agenten in einer Simulationsumgebung Entscheidungen treffen und dafür je nach Güte der Entscheidung eine Belohnung (reward) erhalten. Die Simulation ist dabei Abbild der Blechfertigung.
Der optimierte Produktionsplan wird über eine Produktionsplanschnittstelle 34, insbesondere an ein manufacturing-execution-system 36, ausgeben. Das manufacturing-execution-system 36 steuert die Produktionsmaschinen 14, also die reale Blechfertigung, mit dem optimierten Produktionsplan.
Dem Algorithmus 20 werden über eine Randbedingungsschnittstelle 38 die Randbedingungen 10 zugeführt. Nutzerbewertungen 40 können über eine Nutzerbewertungsschnittstelle 42 dem Algorithmus 20 zugeführt werden.
Alternativ oder zusätzlich dazu kann eine Ereignisschnittstelle 44 vorgesehen sein, über die ein Ereignis 46 einlesbar ist. Das Ereignis 46 kann von dem manufacturing-execution-system 36, einer oder mehreren Produktionsmaschinen 14 und/oder einem Indoor-Lokalisierungssystem 48 ausgelöst werden. Das Ereignis 46 kann dabei beispielsweise einen Ausfall einer Produktionsmaschine 14, freiwerdende Kapazität einer Produktionsmaschine 14, Fehler in der Produktion, Neuaufträge und/oder Auftragsänderungen umfassen. Insbesondere umfasst das Ereignis 46 die weitere Produktionsplanung für ein Blechteil B₁ , B₂ (siehe 1), das einen Produktionsschritt in einer Produktionsmaschine 14 gerade abgeschlossen hat.
Der Algorithmus 20 wird auf einem Computer 50 ausgeführt. Der Computer 50 kann cloudbasiert ausgebildet sein, um den Einsatz von Nutzerbewertungen 40 verschiedener Nutzer zu erleichtern. Das manufacturing-execution-system 36 kann (wie angedeutet) auf demselben Computer oder einem anderen Computer ausgeführt werden.
Unter Vornahme einer Zusammenschau aller Figuren der Zeichnung betrifft die Erfindung zusammenfassend ein Verfahren zur Optimierung einer Fertigung von Blechteilen B₁ , B₂ . Das Verfahren optimiert die Zuteilung von Blechteilen B₁ , B₂ zur Bearbeitung an verschiedenen Produktionsmaschinen 14 und gibt einen optimierten Produktionsplan aus. Hierzu ist ein Algorithmus 20 vorgesehen, der einen Entscheidungsbaum in Form eines Monte-Carlo-tree-search-frameworks 22 und ein neuronales Netz 24 aufweist. Der Algorithmus 20 wird mit jeder neuen Abfrage durch self-play und reinforcement learning trainiert. Ein Vortraining des Algorithmus 20 wird durch supervised learning erzielt. Der Algorithmus 20 optimiert vorzugsweise den Produktionsplan primär hinsichtlich minimal verspäteter Produktionsfristen F₀₁ bis F₁₀ der Blechteile B₁ , B₂ und sekundär hinsichtlich eines minimalen Verschnitts. Durch die Vergabe von Scores können beide Ziele gemeinsam bewertet werden. Das Verfahren kann den Empfang von Abfrage-auslösenden Ereignissen 46 und/oder den Betrieb von Produktionsmaschinen 14 gemäß dem Produktionsplan umfassen. Die Erfindung betrifft weiterhin eine Vorrichtung 18 zur Durchführung des Verfahrens.
Bezugszeichenliste

A01 bis A10: Aufträge
P01 bis P10: Produkte
B1, B2: Blechteile
F01 bis F10: Produktionsfristen
c1, c2: Schneide-Produktionsmaschinen
b1, b2: Biege-Produktionsmaschinen
a1, a2: Montage-Produktionsmaschinen
10: Randbedingungen
12: Blechtafel
14: Produktionsmaschinen
16: Produkte
18: Vorrichtung
20: Algorithmus
22: Monte-Carlo-tree-search-framework
24: neuronales Netz
26: Schritt - selection
28: Schritt - expansion
30: Schritt - simulation
32: Schritt - backpropagation
34: Produktionsplanschnittstelle
36: manufacturing-execution-system
38: Randbedingungsschnittstelle
40: Nutzerbewertungen
42: Nutzerbewertungsschnittstelle
44: Ereignisschnittstelle
46: Ereignis
48: Indoor-Lokalisierungssystem
50: Computer

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2017/157809 A1 [0008]

Zitierte Nicht-Patentliteratur

F. Pfitzer, J. Provost, C. Mieth, and W. Liertz, „Event-driven production rescheduling in job shop environments“, in 2018 IEEE 14th International Conference on Automation Science and Engineering (CASE), IEEE, 2018, pp. 939-944 [0007]
M. Putz and A. Schlegel, „Simulationsbasierte Untersuchung von Prioritäts- und Kommissionierregeln zur Steuerung des Materialflusses in der Blechindustrie” [0007]
L. L. Li, C. B. Li, L. Li, Y. Tang, and Q. S. Yang, „An integrated approach for remanufacturing job shop scheduling with routing alternatives.“, Mathematical biosciences and engineering: MBE, vol. 16, no. 4, pp. 2063-2085, 2019 [0007]
M. Gondran, M.-J. Huguet, P. Lacomme, and N. Tchernev, „Comparison between two approaches to solve the job-shop scheduling problem with routing“, 2019 [0007]
J. J. van Hoorn, „The current state of bounds on benchmark instances of the job-shop scheduling problem“, Journal of Scheduling, vol. 21, no. 1, pp. 127-128, 2018 [0007]
S.-C. Lin, E. D. Goodman, and W. F. Punch III, „A genetic algorithm approach to dynamic job shop scheduling problem“, in ICGA, 1997, pp. 481-488 [0007]
T. Yamada and R. Nakano, „Scheduling by genetic local search with multistep crossover“, in International Conference on Parallel Problem Solving from Nature, Springer, 1996, pp. 960- 969 [0007]
B. M. Ombuki and M. Ventresca, „Local search genetic algorithms for the job shop scheduling problem“, Applied Intelligence, vol. 21, no. 1, pp. 99-109, 2004 [0007]
E. S. Nicoara, F. G. Filip, and N. Paraschiv, „Simulation-based optimization using genetic algorithms for multi-objective flexible jssp“, Studies in Informatics and Control, vol. 20, no. 4, pp. 333-344, 2011 [0007]
L. Asadzadeh, „A local search genetic algorithm for the job shop scheduling problem with intelligent agents“, Computers & Industrial Engineering, vol. 85, pp. 376-383, 2015 [0007]
B. Waschneck, A. Reichstaller, L. Belzner, T. Altenmüller, T. Bauernhansl, A. Knapp, and Kyek, „Optimization of global production scheduling with deep reinforcement learning“, Procedia CIRP, vol. 72, pp. 1264-1269, 2018 [0007]
M. Botvinick, S. Ritter, J. X. Wang, Z. Kurth-Nelson, C. Blundell, and D. Hassabis, „Reinforcement learning, fast and slow“, Trends in cognitive sciences, 2019 [0007]
W. Zhang and T. G. Dietterich, „A reinforcement learning approach to job-shop scheduling“, in IJCAI, Citeseer, vol. 95, 1995, pp. 1114-1120 [0018]
R. S. Sutton, A. G. Barto, et al., Introduction to reinforcement learning, 4. MIT press Cam- bridge, 1998, vol. 2 [0018]
S. Mahadevan and G. Theocharous, „Optimizing production manufacturing using reinforcement learning.“, in FLAIRS Conference, 1998, pp. 372-377 [0018]
S. J. Bradtke and M. O. Duff, „Reinforcement learning methods for continuous-time markov decision problems“, in Advances in neural information processing systems, 1995, pp. 393-400 [0018]
S. Riedmiller and M. Riedmiller, „A neural reinforcement learning approach to learn local dispatching policies in production scheduling“, in IJCAI, vol. 2, 1999, pp. 764-771 [0018]
C. D. Paternina-Arboleda and T. K. Das, „A multi-agent reinforcement learning approach to obtaining dynamic control policies for stochastic lot scheduling problem“, Simulation Modelling Practice and Theory, vol. 13, no. 5, pp. 389-406, 2005 [0018]
T. Gabel and M. Riedmiller, „Scaling adaptive agent-based reactive job-shop scheduling to large-scale problems“, in 2007 IEEE Symposium on Computational Intelligence in Scheduling, IEEE, 2007, pp. 259-266 [0018]
Y. C. F. Reyna, Y. M. Jim'enez, J. M. B. Cabrera, and B. M. M. Hernändez, „A reinforcement learning approach for scheduling problems“, Investigación Operacional, vol. 36, no. 3, pp. 225-231, 2015 [0018]
S. Qu, J. Wang, S. Govil, and J. O. Leckie, „Optimized adaptive scheduling of a manufacturing process system with multi-skill workforce and multiple machine types: An ontology-based, multi-agent reinforcement learning approach“, Procedia CIRP, vol. 57, pp. 55-60, 2016 [0018]
V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Ried- miller, „Playing atari with deep reinforcement learning“, arXiv preprint arXiv: 1312.5602, 2013 [0018]
A. Kuhnie, L. Schäfer, N. Stricker, and G. Lanza, „Design, implementation and evaluation of reinforcement learning for an adaptive order dispatching in job shop manufacturing systems“, Procedia CIRP, vol. 81, pp. 234-239, 2019 [0018]
N. Stricker, A. Kuhnle, R. Sturm, and S. Friess, „Reinforcement learning for adaptive order dispatching in the semiconductor industry“, CIRP Annals, vol. 67, no. 1, pp. 511-514, 2018 [0018]
J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, „Trust region policy optimization“, in International conference on machine learning, 2015, pp. 1889-1897 [0018]
M. Gombolay, R. Jensen, J. Stigile, S.-H. Son, and J. Shah, „Apprenticeship scheduling: Learning to schedule from human experts“, AAAI Press/International Joint Conferences on Artificial Intelligence, 2016 [0019]
H. Ingimundardottir and T. P. Runarsson, „Supervised learning linear priority dispatch rules for job-shop scheduling“, in International conference on learning and intelligent optimization, Springer, 2011, pp. 263-277 [0019]
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, et al., „Mastering the game of go with deep neural networks and tree search“, nature, vol. 529, no. 7587, p. 484, 2016 [0026]
G. Chaslot, S. Bakkes, I. Szita, and P. Spronck, „Monte-carlo tree search: A new framework for game ai.“, in AIIDE, 2008 [0026]
D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, et al., „Mastering the game of go without human knowledge“, Nature, vol. 550, no. 7676, p. 354, 2017 [0026]
D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel, et al., „Mastering chess and shogi by self-play with a general reinforcement learning algorithm“, arXiv preprint arXiv:1712.01815, 2017 [0026]

Claims

Verfahren zur Optimierung der Produktion von Blechteilen (B₁, B₂) mit den Prozessschritten: a) Ausschneiden und Vereinzeln der Blechteile (B₁, B₂); b) Biegen der Blechteile (B₁, B₂); wobei das Verfahren folgende Verfahrensschritte aufweist: A) Training eines auf einem Monte-Carlo-tree-search-framework (22) ausgeführten neuronalen Netzes (24) mittels supervised-learning und self-play mit reinforcement-learning; B) Erfassen von Randbedingungen (10) der Blechteile (B₁, B₂), wobei die Randbedingungen (10) geometrische Daten der Blechteile (B₁, B2) umfassen; C) Erstellen eines optimierten Produktionsplans durch das neuronale Netz (24); D) Ausgabe des Produktionsplans.
Verfahren nach Anspruch 1, bei dem das Verfahren einen oder mehrere der folgenden Prozessschritte aufweist: c) Entgraten der Blechteile (B₁, B₂); d) Fügen der Blechteile (B₁, B₂); e) Beschichten der Blechteile (B₁, B₂); f) Montieren der Blechteile (B₁, B₂).
Verfahren nach Anspruch 1 oder 2, bei dem die Verfahrensschritte A) bis D) mit einem Algorithmus (20) durchgeführt wird, wobei der Algorithmus (20) auf AlphaGo oder AlphaGo Zero basiert und wobei der Algorithmus (20) das neuronale Netz aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Training im Verfahrensschritt A) mit heuristisch ermittelten Lösungen optimierter Produktionspläne durchgeführt wird.
Verfahren nach Anspruch 4, bei dem optimierte Produktionspläne in Form von earliest-due-date-Lösungen eingesetzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Optimierung sowohl die Verschnittminimierung als auch die Produktionszeitoptimierung umfasst.
Verfahren nach Anspruch 6, bei dem die Randbedingungen (10) im Verfahrensschritt B) zusätzlich die Produktionsfristen der Blechteile (B₁, B₂) umfassen.
Verfahren nach Anspruch 7, bei dem die Randbedingungen (10) im Verfahrensschritt B) zusätzlich die Werte der Blechteile (B₁, B₂) umfassen.
Verfahren nach Anspruch 8, bei dem dem Verschnitt ein Verschnittscore zugeteilt wird und dem Erreichen der Produktionsfrist eine Produktionsfristscore zugeteilt wird, der auf dem Wert der Blechteile (B₁, B₂) basiert, wobei die Optimierung sowohl den Verschnittscore als auch den Produktionsfristscore minimiert.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Verfahrensschritte B) bis D) Ereignis-getriggert durchgeführt werden, wobei das Einlesen des Ereignisses (46) über eine Ereignisschnittstelle (44) erfolgt.
Verfahren nach Anspruch 10, bei dem das Ereignis (46) in Form einer Anfrage zur weiteren Bearbeitung eines Blechteils (B₁, B₂), in Form freiwerdender Produktionsmaschinenkapazität, in Form eines Produktionsmaschinenausfalls und/oder in Form eines Eilauftrags vorliegt.
Verfahren nach Anspruch 10 oder 11, bei dem das Ereignis (46) von einer Produktionsmaschine (14), einem Indoor-Lokalisierungssystem (48) und/oder einem manufacturing execution system (36) ausgelöst und über die Ereignisschnittstelle (44) eingelesen wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem in einem Verfahrensschritt E) eine Nutzerbewertung (40) des im Verfahrensschritt D) ausgegebenen Produktionsplans eingelesen wird und das neuronale Netz (24) mit der Nutzerbewertung (40) weiter trainiert wird.
Vorrichtung (18) zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wobei die Vorrichtung (18) einen Computer (50) zum Speichern und Ausführen des neuronalen Netzes (24), eine Randbedingungsschnittstelle (38) zum Einlesen der Randbedingungen (10) und eine Produktionsplanschnittstelle (34) zur Ausgabe des Produktionsplans aufweist.
Vorrichtung nach Anspruch 14 in Verbindung mit Anspruch 12, bei dem die Vorrichtung (18) die Ereignisschnittstelle (44) aufweist und die die Vorrichtung (18) weiterhin eine Produktionsmaschine (14), ein Indoor-Lokalisierungssystem (48) und/oder ein manufacturing execution system (36) aufweist, wobei ein von der Produktionsmaschine (14), dem Indoor-Lokalisierungssystem (48) und/oder dem manufacturing execution system (36) ausgelöstes Ereignis (46) über die Ereignisschnittstelle (44) einlesbar ist.