DE102021212008A1 - Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells - Google Patents

Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells Download PDF

Info

Publication number
DE102021212008A1
DE102021212008A1 DE102021212008.3A DE102021212008A DE102021212008A1 DE 102021212008 A1 DE102021212008 A1 DE 102021212008A1 DE 102021212008 A DE102021212008 A DE 102021212008A DE 102021212008 A1 DE102021212008 A1 DE 102021212008A1
Authority
DE
Germany
Prior art keywords
controllable system
components
state
action
state model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021212008.3A
Other languages
English (en)
Inventor
Joel Oren
Felix Milo Richter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021212008.3A priority Critical patent/DE102021212008A1/de
Priority to US18/047,011 priority patent/US20230130032A1/en
Priority to CN202211300316.3A priority patent/CN116027658A/zh
Publication of DE102021212008A1 publication Critical patent/DE102021212008A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, wobei das Verfahren folgende Schritte aufweist: Bereitstellen von wenigstens einem Teil des Zustandsmodells, Auswählen einer Aktion aus einer Menge an Aktionen (3), ausgehend von dem zweiten Zustand der Komponenten, Simulieren von weiteren Zuständen der Komponenten durch sukzessives Anwenden von jeweils einer Aktion aus der Menge an Aktionen auf die Komponenten, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten jeweils eine Belohnung bestimmt wird (5), Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf den bestimmten Belohnungen, wobei das Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen erfolgt (6), und Hinzufügen der ausgewählten Aktion und des zweiten Zustandes zu dem wenigstens einen Teil des Zustandsmodells (7).

Description

  • Die Erfindung betrifft ein Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, ein Verfahren zum Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion basierend auf dem erzeugten Zustandsmodell, und ein Verfahren zum Steuern des steuerbaren Systems basierend auf der ausgewählten Aktion.
  • Unter einem steuerbaren System versteht man ein System, welches derart steuerbar ist, dass ein Zustand des Systems beziehungsweise von einer oder mehrerer Komponenten des Systems in endlicher Zeit durch Anwenden geeigneter Stellsignale beziehungsweise durch Anwenden geeigneter Tasks oder Aktionen in einen neuen Zustand überführt werden kann beziehungsweise können, insbesondere von einem ausgewählten Eingangszustand in einen ausgewählten Ausgangszustand.
  • Als Zustandsmodell beziehungsweise eine Systembeschreibung des steuerbaren Systems wird weiter ein Modell eines Verhaltens des steuerbaren Systems, bestehend aus Zuständen, Zustandsübergängen und Aktionen, bezeichnet. Bei den Zuständen kann es sich dabei beispielsweise um die Beschaffenheit einer oder mehrerer Komponenten des steuerbaren Systems oder andere, den Zustand der Komponenten kennzeichnende Informationen, beispielsweise Informationen über eine Auslastung von einer oder mehreren Komponenten des steuerbaren Systems handeln. Bei den Aktionen kann es sich ferner um durch das steuerbare System ausführbare Funktionen beziehungsweise Tasks zum Steuern des steuerbaren Systems handeln, wobei die Zustandsübergänge die Änderung des Zustandes von Komponenten des steuerbaren Systems nach Anwenden einer der Aktionen auf die Komponenten symbolisieren.
  • Ein derartiges Zustandsmodell dient unter anderem dazu, das Verhalten eines steuerbaren Systems bei Anwenden einer Aktion ausgehend von einem bestimmten Zustand der Komponenten des steuerbaren Systems zu erlernen beziehungsweise zu symbolisieren, wobei anschließend basierend auf dem Zustandsmodell beispielsweise eine oder mehrere Aktionen mit dem Ziel, einen ausgewählten Zustand zu erreichen, ausgewählt werden können.
  • Dabei kann es sich jedoch als schwierig erweisen, die Aktionen auszuwählen, welche ausgeführt werden müssen, damit sich ein ausgewählter beziehungsweise gewünschter Zustand einstellt. So kann der gewünschte Zustand oftmals durch verschiedene Kombinationen von Aktionen erreicht werden. Auch kann es zu Situationen kommen, bei denen während der Abarbeitung einer Zuordnung von Aktionen zu Komponenten des steuerbaren Systems weitere durch die Komponenten zu verarbeitende Tasks beziehungsweise Aktionen hinzukommen.
  • Dabei sind Verfahren bekannt, welche versuchen, das entsprechende Zuordnungsproblem basierend auf autodidaktischen Lernverfahren, beispielsweise Monte Carlo Simulationsverfahren zu lösen. Derartige Simulationsverfahren haben den Vorteil, dass das Verhalten des steuerbaren Systems beziehungsweise das Zustandsmodell ohne Vorgabe von Regeln erlernt werden kann. Als nachteilig erweist sich bei derartigen Verfahren jedoch, dass diese mit einer gewissen Unsicherheit verbunden sind, zumal die während der Anwendung des Lernverfahrens gewonnen Erkenntnisse von gewissen Zufallsbedingungen, beispielsweise aktuell vorliegenden Gegebenheiten abhängen. Folglich besteht Bedarf an verbesserten Verfahren zur Erzeugung eines derartigen Zustandsmodells.
  • Aus der Druckschrift US 9,047,423 B2 ist ein Verfahren zum Auswählen von Aktionen in einem Planungsproblemzustand bekannt, wobei, ausgehend vom aktuellen Zustand des Planungsproblems, eine oder mehrere Handlungssequenzen, Zustandsübergänge und Belohnungen symbolisiert werden. Während der Simulation des Ausführens einer gegebenen Aktion in einem gegebenen Zustand wird ein Datensatz mit beobachteten kontextbezogenen Zustandsinformationen und einer beobachteten kumulativen Belohnung, die sich aus der Aktion ergibt, geführt. Weiter wird eine Regressionsanpassung an den Datensätzen durchgeführt, die eine Schätzung der erwarteten Belohnung als Funktion des kontextuellen Zustands ermöglicht. Die Schätzungen der erwarteten Belohnungen werden verwendet, um die Auswahl der Aktionen während der Simulationen zu leiten. Nach Abschluss aller Simulationen kann die Aktion der obersten Ebene, die während der Simulationen die höchste durchschnittliche Belohnung erzielt hat, im aktuellen Zustand des Planungsproblems ausgeführt werden.
  • Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells anzugeben.
  • Diese Aufgabe wird durch ein Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells gemäß den Merkmalen des Patentanspruchs 1 gelöst.
  • Weiter wird die Aufgabe durch ein Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells mit den Merkmalen des Patentanspruchs 7 gelöst.
  • Auch wird die Aufgabe mit einem Computerprogramm mit den Merkmalen des Patentanspruchs 13 und einem computerlesbaren Datenträger mit den Merkmalen des Patentanspruchs 14 gelöst.
  • Offenbarung der Erfindung
  • Gemäß einer Ausführungsform der Erfindung wird diese Aufgabe gelöst durch ein Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, wobei Informationen über Zusammenhänge zwischen Zuständen von Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen bereitgestellt werden, wobei die Informationen wenigstens einen Teil des Zustandsmodells bilden, eine Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen ausgewählt wird, die ausgewählte Aktion auf die Komponenten des steuerbaren Systems angewendet wird, wobei sich die Komponenten des steuerbaren Systems vor dem Anwenden der ausgewählten Aktion in einem ersten Zustand befinden und nach dem Anwenden der ausgewählten Aktion in einem zweiten Zustand, wobei ausgehend von dem zweiten Zustand der Komponenten des steuerbaren Systems weitere Zustände der Komponenten des steuerbaren Systems simuliert werden, wobei das Simulieren von weiteren Zuständen ein sukzessives Anwenden von jeweils einer Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen aufweist, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten des steuerbaren Systems jeweils eine Belohnung bestimmt wird, der wenigstens eine Teil des Zustandsmodells basierend auf den bestimmten Belohnungen optimiert wird, und wobei die ausgewählte Aktion und der zweite Zustand zu dem wenigstens einen Teil des Zustandsmodells hinzugefügt wird, wobei das Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen erfolgt.
  • Unter einem steuerbaren System wird hierbei wiederum ein System verstanden, welches derart steuerbar ist, dass ein Zustand des Systems beziehungsweise einer oder mehrerer Komponenten des Systems in endlicher Zeit durch Anwenden geeigneter Stellsignale beziehungsweise durch Anwenden geeigneter Tasks oder Aktionen in einen neuen Zustand überführt werden kann, insbesondere von einem ausgewählten Eingangszustand in einen ausgewählten Ausgangszustand. Unter Komponenten des steuerbaren Systems werden dabei einzelne steuerbare Komponenten beziehungsweise Aktoren oder Maschinen verstanden, aus denen sich das System zusammensetzt. Beispielsweise kann es sich bei dem steuerbaren System dabei um ein Produktionssystem zur Herstellung von Bauteilen, beispielsweise Halbleiter-Wafern handeln, welches sich aus einzelnen Produktionsmaschinen zusammensetzt. Ferner kann es sich bei dem steuerbaren System aber beispielsweise auch um ein Datenübertragungssystem handeln, wobei die einzelnen Komponenten des Systems Kommunikationsteilnehmer, beispielsweise Clients oder Server darstellen.
  • Unter Zustand der Komponenten des steuerbaren Systems wird weiter die genaue Konfiguration der Komponenten des steuerbaren Systems zu einem bestimmten Zeitpunkt verstanden.
  • Unter den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen werden weiter Aktionen verstanden, deren Anwenden zu einer Änderung beziehungsweise Beeinflussung des Zustandes der Komponenten des steuerbaren Systems führen kann.
  • Bei der Belohnung handelt es sich ferner um einen Zahlenwert, der einer entsprechenden künstlichen Intelligenz beziehungsweise einem Agenten unmittelbar nach jeder ausgewählten Aktion beziehungsweise ausgewähltem Task von dem steuerbaren System übermittelt wird und die entsprechenden Erfolgsaussichten, welche das Ausführen der Aktion auf eine zugrundeliegende Problemstellung hat, symbolisiert. Wenn sich der Zustand der Komponenten des steuerbaren Systems nach der Aktion beispielsweise verbessert, erhöht sich die Summe der Belohnungen. Hat sich der Zustand verschlechtert, gibt es einen Abzug als Strafe.
  • Bei einem Verfahren zur Varianzreduktion handelt es sich dabei insbesondere um ein Verfahren zur Steigerung der Effizienz der Erzeugung des Zustandsmodells, wobei die Genauigkeit der Schätzung beziehungsweise Simulation des Zustandsmodells erhöht und die entsprechende Varianz in der Schätzung verkleinert, möglichst minimiert wird.
  • Somit wird ein Verfahren angegeben, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search. Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsmodells nur zufällig eingestellt haben, bei der Erzeugung des Zustandsraumes reduziert werden, da weiter Kontrollvariaten angewendet werden. Insgesamt wird somit ein verbessertes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells angegeben.
  • Dabei kann das Verfahren wiederholt ausgeführt werden, beispielsweise bis das Zustandsmodell alle möglichen Kombinationen von Aktionen und Zuständen der Komponenten des steuerbaren Systems abdeckt, oder bis das Zustandsmodell eine gewisse Anzahl von Knoten beziehungsweise jeweils aufeinanderfolgenden Aktionen abdeckt.
  • Bei den bereitgestellten Informationen über Zusammenhänge zwischen Zuständen von Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen kann es sich ferner um während vorheriger Anwendungen des Verfahrens gewonnene Teile des Zustandsmodells handeln. Ferner können die Informationen aber beispielsweis auch durch jeweiliges Erfassen von Zuständen der Komponenten des steuerbaren Systems nach Anwenden von Aktionen aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen gewonnen werden.
  • Der erzeugte Zustandsraum kann anschließend dazu genutzt werden, einen durch das steuerbare System auszuführenden technischen Prozess zu planen, beispielsweise einen optimalen Prozess aus durch das steuerbare System ausführbaren Prozessen auszuwählen, beziehungsweise zur Entwicklung und Herstellung des steuerbaren Systems selbst herangezogen werden.
  • Dabei kann das Verfahren weiter einen Schritt eines Detektierens des zweiten Zustandes der Komponenten des steuerbaren Systems aufweisen. Insbesondere können somit Gegebenheiten außerhalb der Datenverarbeitungsanlage, auf welcher die Erzeugung des Zustandsmodells ausgeführt wird, erfasst werden und die Erzeugung des Zustandsmodells auf diesen Gegebenheiten basiert werden.
  • In einer Ausführungsform weist das Optimieren des wenigstens einen Teils des Zustandsraumes basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Erfolgsaussichten zudem ein Optimieren des wenigstens einen Teils des Zustandsraumes basierend auf einer Kontrollvariate und dem Maximum der bestimmten Erfolgsaussichten auf.
  • Unter Kontrollvariaten oder Störvariablen werden allgemein Parameter verstanden, welche zusätzlich als Prädiktoren beziehungsweise unabhängige Variablen in ein statistisches Modell mit aufgenommen werden, um Störeinflüsse zu vermeiden. Allgemein bezeichnen Kontrollvariaten dabei Merkmale, welche eine abhängige, zu optimierende Variable beeinflussen beziehungsweise mit dieser korreliert sind und deren Verhalten beziehungsweise Erwartungswert bekannt ist. Falls es sich bei dem steuerbaren System beispielsweise um ein Produktionssystem zur Herstellung von Bauteilen, beispielsweise Halbleiter-Wafern handeln, welches sich aus einzelnen Produktionsmaschinen zusammensetzt, wobei einzelne Werkstücke auf die Produktionsmaschinen verteilt werden sollen, um einen möglichst hohe Auslastung der Maschinen zu erzielen, kann die Kontrollvariate angeben, wie viele weitere Werkstücke hinzukommen, nachdem die Produktion bereits gestartet wurde, wobei ein Zusammenhang zwischen der Auslastung der Produktionsmaschinen und der Anzahl der neu hinzukommenden Werkstücke bekannt ist.
  • Somit kann auf einfache und effektive Art und Weise die Genauigkeit der Schätzung beziehungsweise Simulation des Zustandsmodells weiter erhöht und die entsprechende Varianz in der Schätzung verkleinert werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird auch ein Verfahren zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen angegeben, wobei ein das steuerbare System beschreibendes Zustandsmodell durch ein obenstehend beschriebenes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells erzeugt wird und eine auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen basierend auf dem das steuerbare System beschreibenden Zustandsmodells und einem aktuellen Zustand der Komponente des steuerbaren Systems ausgewählt wird.
  • Unter einer auf Komponenten des steuerbaren Systems anzuwendenden Aktion wird dabei eine Aktion verstanden, welche basierend auf dem Zustandsmodell möglichst auf die Komponenten des steuerbaren Systems angewendet werden sollte, damit sich ein ausgewählter beziehungsweise vorgegebener, möglichst optimaler Zustand einstellt. Beispielsweise kann die Aktion dabei umfassen, dass Werkstücke auf die einzelnen Maschinen eines Produktionssystems derart verteilt werden, dass sich eine möglichst optimale Auslastung des Produktionssystems einstellt.
  • Ferner können durch die Aktion aber auch Bandbreiten und/oder Datenpakete auf einzelne Kanäle beziehungsweise Links in einem Kommunikationssystem derart verteilt werden, dass Vorgaben eines Providers eingehalten werden können beziehungsweise eine möglichst optimale Auslastung der Kanäle des Kommunikationssystems erreicht wird.
  • Insgesamt wird somit ein Verfahren zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen angegeben, welches auf einem verbesserten Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells basiert. Insbesondere basiert das Verfahren dabei auf einem Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search.
  • Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsraumes nur zufällig eingestellt haben, bei der Erzeugung des Zustandsmodells reduziert werden, da weiter Kontrollvariaten angewendet werden.
  • Dabei kann das Verfahren weiter einen Schritt des Erfassens des aktuellen Zustandes der Komponenten des steuerbaren Systems aufweisen. Somit können aktuelle Gegebenheiten, insbesondere aktuelle Gegebenheiten außerhalb der Datenverarbeitungsanlage, auf welcher das Verfahren ausgeführt wird, erfasst und das Verfahren zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf diesen aktuellen Gegebenheiten basiert werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird weiter auch ein Verfahren zum Steuern von Komponenten eines steuerbaren Systems angegeben, wobei eine auf die Komponenten des steuerbaren Systems anzuwendenden Aktion durch ein obenstehend beschriebenes Verfahren zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen ausgewählt wird, und die ausgewählte Aktion auf die Komponenten des steuerbaren Systems angewendet wird.
  • Insgesamt wird somit ein Verfahren zum Steuern von Komponenten eines steuerbaren Systems angegeben, welches auf einem verbesserten Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells basiert. Insbesondere basiert das Verfahren dabei auf einem Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search. Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsraumes nur zufällig eingestellt haben, bei der Erzeugung des Zustandsraumes reduziert werden, da weiter auch Kontrollvariaten angewendet werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird zudem auch ein Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells angegeben, wobei das Steuergerät eine Empfangseinheit zum Empfangen von Informationen über Zusammenhänge zwischen Zuständen von Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen, wobei die Informationen wenigstens einen Teil des Zustandsmodells bilden, eine Auswahleinheit, welche ausgebildet ist, aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen eine Aktion auszuwählen, eine Anwendungseinheit, welche ausgebildet ist, die ausgewählte Aktion auf die Komponenten des steuerbaren Systems anzuwenden, wobei sich die Komponenten des steuerbaren Systems vor dem Anwenden der ausgewählten Aktion in einem ersten Zustand befinden und nach dem Anwenden der ausgewählten Aktion in einem zweiten Zustand, eine Simulationseinheit, welche ausgebildet ist, ausgehend von dem zweiten Zustand der Komponenten des steuerbaren Systems weitere Zustände der Komponenten des steuerbaren Systems zu simulieren, wobei das Simulieren von weiteren Zuständen ein sukzessives Anwenden von jeweils einer Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf die Komponenten des steuerbaren Systems aufweist, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten des steuerbaren Systems jeweils eine Belohnung bestimmt wird, eine Optimierungseinheit, welche ausgebildet ist, wenigstens einen Teils des Zustandsmodells basierend auf den bestimmten Belohnungen zu optimieren, und eine Hinzufügeeinheit, welche ausgebildet ist, die ausgewählte Aktion und den zweiten Zustand zu dem wenigstens einen Teil des Zustandsmodells hinzuzufügen, aufweist, wobei die Optimierungseinheit ausgebildet ist, den wenigstens einen Teil des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen zu optimieren.
  • Somit wird ein Steuergerät angegeben, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search. Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsmodells nur zufällig eingestellt haben, bei der Erzeugung des Zustandsraumes reduziert werden, da weiter auch Kontrollvariaten angewendet werden. Insgesamt wird somit ein verbessertes Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells angegeben.
  • Dabei kann das Steuergerät weiter einen Detektor, welche ausgebildet ist, den zweiten Zustand der Komponenten des steuerbaren Systems zu detektieren, aufweisen. Insbesondere können somit Gegebenheiten außerhalb der Datenverarbeitungsanlage, auf welcher die Erzeugung des Zustandsmodells ausgeführt wird, erfasst werden und die Erzeugung des Zustandsmodells auf diesen Gegebenheiten basiert werden.
  • In einer Ausführungsform ist die Optimierungseinheit zudem ausgebildet, den wenigstens einen Teil des Zustandsmodells basierend auf einer Kontrollvariate und dem Maximum der bestimmten Belohnungen zu optimieren. Somit kann auf einfache und effektive Art und Weise die Genauigkeit der Schätzung beziehungsweise Simulation des Zustandsmodells erhöht und die entsprechende Varianz in der Schätzung verkleinert werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird zudem auch Steuergerät zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen angegeben, wobei das Steuergerät eine Empfangseinheit zum Empfangen eines durch ein obenstehend beschriebenes Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells erzeugten, das steuerbare System beschreibenden Zustandsmodells, und eine Auswahleinheit, welche ausgebildet ist, eine auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen basierend auf dem das steuerbare System beschreibenden Zustandsmodells und einem aktuellen Zustand der Komponente des steuerbaren Systems auszuwählen, aufweist.
  • Insgesamt wird somit ein Steuergerät zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen angegeben, welches auf einem verbesserten Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells basiert. Insbesondere basiert das Steuergerät dabei auf einem Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search.
  • Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsmodells nur zufällig eingestellt haben, bei der Erzeugung des Zustandsmodells reduziert werden, da weiter auch Kontrollvariaten angewendet werden.
  • Dabei kann das Steuergerät weiter eine Erfassungseinheit, welche ausgebildet ist, den aktuellen Zustand der Komponenten des steuerbaren Systems zu erfassen, aufweisen. Somit können aktuelle Gegebenheiten, insbesondere aktuelle Gegebenheiten außerhalb der Datenverarbeitungsanlage, auf welcher das Auswählen der Aktion ausgeführt wird, erfasst und das Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf diesen aktuellen Gegebenheiten basiert werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird Steuergerät zum Steuern von Komponenten eines steuerbaren Systems angegeben, wobei das Steuergerät eine Empfangseinheit, welche ausgebildet ist, eine durch ein Steuergerät zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen ausgewählte Aktion zu empfangen, und eine Anwendungseinheit, welche ausgebildet ist, die ausgewählte Aktion auf die Komponenten des steuerbaren Systems anzuwenden, aufweist.
  • Insgesamt wird somit ein Steuergerät zum Steuern von Komponenten eines steuerbaren Systems angegeben, welches auf einem verbesserten Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells basiert. Insbesondere basiert das Steuergerät dabei auf einem Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search. Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsmodells nur zufällig eingestellt haben, bei der Erzeugung des Zustandsmodells reduziert werden, da weiter auch Kontrollvariaten angewendet werden.
  • Mit einer weiteren Ausführungsform der Erfindung wird weiter auch Computerprogramm mit Programmcode, um ein obenstehend beschriebenes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird, angegeben.
  • Mit einer weiteren Ausführungsform der Erfindung wird zudem auch ein computerlesbarer Datenträger mit Programmcode eines Computerprogramms, um ein obenstehend beschriebenes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird, angegeben.
  • Das Computerprogramm sowie der computerlesbare Datenträger haben dabei jeweils den Vorteil, dass diese ausgebildet sind, ein Verfahren auszuführen, mit welchem das Verhalten des steuerbaren Systems autodidaktisch erlernt beziehungsweise das Zustandsmodell autodidaktisch erzeugt werden kann, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search.
  • Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden. Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsmodells nur zufällig eingestellt haben, bei der Erzeugung des Zustandsmodells reduziert werden, da weiter auch Kontrollvariaten angewendet werden.
  • Zusammenfassend ist festzustellen, dass mit der vorliegenden Erfindung ein verbessertes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells angegeben wird.
  • Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
  • Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.
  • Figurenliste
  • Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.
  • Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
  • Es zeigen:
    • 1 zeigt ein Flussdiagramm eines Verfahrens zum Steuern von Komponenten eines steuerbaren Systems gemäß Ausführungsformen der Erfindung; und
    • 2 zeigt ein schematisches Blockschaltbild eines Systems zum Steuern von Komponenten eines steuerbaren Systems gemäß Ausführungsformen der Erfindung.
  • In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
  • 1 zeigt ein Flussdiagramm eines Verfahrens 1 zum Steuern von Komponenten eines steuerbaren Systems gemäß Ausführungsformen der Erfindung.
  • Das zeitlich begrenzte Zuteilen von Ressourcen zu Prozessen beziehungsweise die entsprechende Erstellung eines Ablaufplanes wird allgemein als Scheduling bezeichnet. Ein optimales Scheduling kann dabei zu signifikanten Zeit- und Kosteneinsparungen bei der Abarbeitung von industriellen Prozessen führen.
  • Basierend auf dem Scheduling kann dabei beispielsweise ein Zustandsmodell eines entsprechenden steuerbaren Systems erstellt werden. Als Zustandsmodell beziehungsweise eine Systembeschreibung des steuerbaren Systems wird ein Modell eines Verhaltens des steuerbaren Systems, bestehend aus Zuständen, Zustandsübergängen und Aktionen, bezeichnet.
  • Bei den Zuständen kann es sich dabei um die Beschaffenheit einer oder mehrerer Komponenten des steuerbaren Systems oder andere, den Zustand der Komponenten kennzeichnende Informationen, beispielsweise Informationen über eine Auslastung von einer oder mehreren Komponenten des steuerbaren Systems handeln. Bei den Aktionen kann es sich ferner um durch das steuerbare System ausführbare Funktionen beziehungsweise Tasks zum Steuern des steuerbaren Systems handeln, wobei die Zustandsübergänge die Änderung des Zustandes von Komponenten des steuerbaren Systems nach Anwenden einer der Aktionen auf die Komponenten symbolisieren.
  • Ein derartiges Zustandsmodell dient somit unter anderem dazu, das Verhalten eines steuerbaren Systems bei Anwenden einer Aktion ausgehend von einem bestimmten Zustand der Komponenten des steuerbaren Systems zu erlernen beziehungsweise zu symbolisieren, wobei anschließend basierend auf dem Zustandsmodell beispielsweise eine oder mehrere Aktionen mit dem Ziel, einen ausgewählten Zustand zu erreichen, ausgewählt werden können. Dabei kann es sich jedoch als schwierig erweisen, die Aktionen auszuwählen, welche ausgeführt werden müssen, damit sich ein ausgewählter beziehungsweise gewünschter Zustand einstellt. So kann der gewünschte Zustand oftmals durch verschiedene Kombinationen von Aktionen erreicht werden. Auch kann es zu Situationen kommen, bei denen während der Abarbeitung einer Zuordnung von Aktionen zu Komponenten des steuerbaren Systems weitere durch die Komponenten zu verarbeitende Tasks beziehungsweise Aktionen hinzukommen.
  • Dabei sind Verfahren bekannt, welche versuchen, das entsprechende Zuordnungsproblem basierend auf autodidaktischen Lernverfahren, beispielsweise Monte Carlo Simulationsverfahren zu lösen. Derartige Simulationsverfahren haben den Vorteil, dass das Verhalten des steuerbaren Systems beziehungsweise das Zustandsmodell ohne Vorgabe von Regeln erlernt werden kann. Als nachteilig erweist sich bei derartigen Verfahren jedoch, dass diese mit einer gewissen Unsicherheit verbunden sind, zumal die während der Anwendung des Lernverfahrens gewonnen Erkenntnisse von gewissen Zufallsbedingungen, beispielsweise aktuell vorliegenden Gegebenheiten abhängen. Folglich besteht Bedarf an verbesserten Verfahren zur Erzeugung eines derartigen Zustandsmodells.
  • 1 zeigt dabei ein Verfahren 1 zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, wobei in einem Schritt 2 Informationen über Zusammenhänge zwischen Zuständen von Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen bereitgestellt werden, wobei die Informationen wenigstens einen Teil des Zustandsmodells bilden, in einem Schritt 3 eine Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen ausgewählt wird, die ausgewählte Aktion in einem Schritt 4 auf die Komponenten des steuerbaren Systems angewendet wird, wobei sich die Komponenten des steuerbaren Systems vor dem Anwenden der ausgewählten Aktion in einem ersten Zustand befinden und nach dem Anwenden der ausgewählten Aktion in einem zweiten Zustand, wobei ausgehend von dem zweiten Zustand der Komponenten des steuerbaren Systems in einem Schritt 5 weitere Zustände der Komponenten des steuerbaren Systems simuliert werden, wobei das Simulieren von weiteren Zuständen ein sukzessives Anwenden von jeweils einer Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen aufweist, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten des steuerbaren Systems jeweils eine Belohnung bestimmt wird, der wenigstens eine Teils des Zustandsmodells in einem Schritt 6 basierend auf den bestimmten Belohnungen optimiert wird, und wobei die ausgewählte Aktion und der zweite Zustand in einem Schritt 7 zu dem wenigstens einen Teil des Zustandsmodells hinzugefügt wird.
  • Gemäß den Ausführungsformen der 1 erfolgt das Erzeugen des Zustandsmodells somit basierend auf einem autodidaktischen Lernverfahren, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search.
  • Monte Carlo bezeichnet allgemein eine Klasse von Algorithmen, welche ein Zufallselement verwenden um eine Ergebnis ungefähr zu berechnen.
  • Zur Erzeugung des Zustandsmodells kann eine künstliche Intelligenz, beziehungsweise ein Agent dabei die bekannten Möglichkeiten basierend auf dem bekannten wenigstens einen Teil des Zustandsmodells durchspielen und anschließend zufällig weiterspielen.
  • Dabei wird zunächst die nächste Aktion anhand des aktuellen Zustands ausgewählt. Hierdurch wird ein neuer Knoten zu dem entsprechenden Baumdiagramm beziehungsweise dem wenigstens einen Teil des Zustandsmodells hinzugefügt, dieses somit erweitert, wobei dieser neue Knoten die Anwendung der ausgewählten Aktion symbolisiert, und wobei die Anwendung der ausgewählten Aktion die Komponenten des steuerbaren Systems in einen neuen Zustand überführt werden.
  • Ausgehend von diesem neuen Zustand wird dann simuliert, dass nach und nach beziehungsweise sukzessiv weitere Aktionen aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf die Komponenten angewendet werden, wobei die jeweils anzuwendenden Funktionen insbesondere jeweils zufällig aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen ausgewählt werden.
  • Dabei wir jeweils die Konsequenz der einzelnen, während des Simulierens simulierten Aktionen beobachtet und jeder dieser Aktionen eine entsprechende Belohnung zugeordnet. Bei der Belohnung handelt es sich dabei um einen Zahlenwert, der unmittelbar nach jeder ausgewählten Aktion von dem steuerbaren System übermittelt wird und die entsprechenden Erfolgsaussichten, welche das Ausführen der entsprechenden Aktion auf eine zugrundeliegende Problemstellung hat, symbolisiert. Wenn sich der Zustand der Komponenten des steuerbaren Systems nach der Aktion beispielsweise verbessert, erhöht sich die Summe der Belohnungen. Hat sich der Zustand verschlechtert, gibt es einen Abzug als Strafe.
  • Basierend auf den Belohnungen kann anschließend der wenigstens eine Teil des Zustandsmodells, das heißt die Kanten des bisher aufgestellte Baumdiagramms durch Anwenden eines Backpropagation-Verfahrens optimiert werden. Insbesondere kann dabei ein Backpropagation-Verfahren angewendet werden, welches funktionell rekursiv ist, wobei relevante Statistiken wie die Varianz der Kontrollvariate und die Kovarianz zwischen Kontrollvariate und Belohnung rekursiv aggregiert werden.
  • Das Verfahren kann dabei iterativ ausgebildet sein. Insbesondere kann das Verfahren wiederholt ausgeführt werden, wobei während jeder Wiederholung das während der vorherigen Wiederholung um einen Knoten ergänzte und optimierte Baumdiagramm herangezogen wird.
  • Dabei kann das Verfahren so oft wiederholt werden, bis ein aussagekräftiges Zustandsmodell des steuerbaren Systems vorliegt. Die Anzahl der Wiederholungen beziehungsweise Iterationen kann dabei ferner auch vorgegeben sein.
  • Gemäß den Ausführungsformen der 1 weist der Schritt 6 des Optimierens des wenigstens einen Teil s des Zustandsmodells basierend auf den während des Simulationsschrittes 5 gewonnen Belohnungen des wenigstens einen Teils des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der in Schritt 5 bestimmten Belohnungen, das heißt dem maximalen Wert aller in Schritt 5 bestimmten Belohnungen auf.
  • Somit wird ein Verfahren angegeben, welches ausgebildet ist, das Verhalten des steuerbaren Systems autodidaktisch zu erlernen beziehungsweise das Zustandsmodell autodidaktisch zu erzeugen, insbesondere basierend auf einem Monte Carlo Simulationsverfahren wie der Monte Carlo Tree Search. Durch Anwenden des Verfahrens zur Varianzreduktion kann dabei die Genauigkeit bei der Erzeugung des Zustandsmodells erhöht werden.
  • Dabei kann zudem auch der Einfluss von Zufall, das heißt von Belohnungen, welche auf Zuständen basieren, welche sich während der Erzeugung des Zustandsraumes nur zufällig eingestellt haben, bei der Erzeugung des Zustandsmodells reduziert werden, da weiter auch Kontrollvariaten angewendet werden. Insgesamt wird somit ein verbessertes Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells angegeben.
  • Wie 1 weiter zeigt, weist das Verfahren 1 dabei zudem einen Schritt 8 eines Detektierens des zweiten Zustandes der Komponenten des steuerbaren Systems auf.
  • Gemäß den Ausführungsformen der 1 weist der Schritt 6 des Optimierens des wenigstens einen Teils des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen ein Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf einer Kontrollvariate und dem Maximum der bestimmten Belohnungen auf.
  • Dabei, dass es sich bei dem Verfahren zur Varianzreduktion um das Anwenden einer Kontrollvariate handelt, handelt es sich jedoch nur um eine mögliche Ausführungsform. Vielmehr kann die Varianz beispielsweise auch durch entsprechende Gewichtung der einzelnen Stichproben beziehungsweise Samples reduziert werden.
  • 1 zeigt weiter einen Schritt 9 eines Auswählens einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen basierend auf dem das steuerbare System beschreibenden Zustandsmodells und einem aktuellen Zustand der Komponente des steuerbaren Systems.
  • Insbesondere kann dabei nach Erzeugung eines entsprechenden Zustandsmodells eine Aktion ausgewählt werden, welche basierend auf dem Zustandsmodell möglichst auf die Komponenten des steuerbaren Systems angewendet werden sollte, damit sich ein ausgewählter beziehungsweise vorgegebener, möglichst optimaler Zustand einstellt.
  • Das Auswählen der anzuwendenden Funktion erfolgt dabei basierend auf einem aktuellen Zustand der Komponenten des steuerbaren Systems, wobei in einem Schritt 10 der aktuell Zustand der Komponenten des steuerbaren Systems erfasst beziehungsweise detektiert wird.
  • Zudem zeigt 1 einen Schritt 11 eines Anwendens der ausgewählten Funktion auf die Komponenten des steuerbaren Systems.
  • Beispielsweise kann die Aktion dabei umfassen, dass Werkstücke auf die einzelnen Maschinen eines Produktionssystems derart verteilt werden, dass sich eine möglichst optimale Auslastung des Produktionssystems einstellt. Ferner könne durch die Aktion aber auch Bandbreiten und/oder Datenpakete auf einzelne Kanäle beziehungsweise Links in einem Kommunikationssystem derart verteilt werden, dass Vorgaben eines Providers eingehalten werden können beziehungsweise eine möglichst optimale Auslastung der Kanäle des Kommunikationssystems erreicht wird.
  • Ferner kann das Verfahren 1 aber auch in anderen Bereichen angewendet werden, beispielsweise zur Steuerung von einer Mehrzahl nebeneinander angeordneter Aufzüge oder auf ein System zur Verkehrssteuerung.
  • 2 zeigt ein schematisches Blockschaltbild eines Systems 20 zum Steuern von Komponenten eines steuerbaren Systems gemäß Ausführungsformen der Erfindung.
  • 2 zeigt dabei ein steuerbares System 21, welches mehrere Komponenten 22 aufweist. Gemäß den Ausführungsformen der 2 handelt es sich bei dem steuerbaren System 21 dabei um ein Produktionssystem, wobei die einzelnen Komponenten 22 des steuerbaren Systems jeweils eine Produktionsmaschine symbolisieren.
  • Wie 2 zeigt, weist das System 20 dabei ein Steuergerät 23 zur Erzeugung eines das steuerbare System beschreibenden Zustandsmodells, ein Steuergerät 24 zum Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen und ein Steuergerät 25 zum Steuern der Komponenten des steuerbaren Systems auf.
  • Gemäß den Ausführungsformen der 2 weist das das Steuergerät 23 zur Erzeugung eines das steuerbares System beschreibenden Zustandsmodells eine Empfangseinheit 26 zum Empfangen von Informationen über Zusammenhänge zwischen Zuständen der Komponenten 22 des steuerbaren Systems 21 und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen, wobei die Informationen wenigstens einen Teil des Zustandsmodells bilden, eine Auswahleinheit 27, welche ausgebildet ist, aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen eine Aktion auszuwählen, eine Anwendungseinheit 28, welche ausgebildet ist, die ausgewählte Aktion auf die Komponenten 22 des steuerbaren Systems 21 anzuwenden, wobei sich die Komponenten 22 des steuerbaren Systems 21 vor dem Anwenden der ausgewählten Aktion in einem ersten Zustand befinden und nach dem Anwenden der ausgewählten Aktion in einem zweiten Zustand, eine Simulationseinheit 29, welche ausgebildet ist, ausgehend von dem zweiten Zustand der Komponenten des steuerbaren Systems weitere Zustände der Komponenten 22 des steuerbaren Systems 21 zu simulieren, wobei das Simulieren von weiteren Zuständen ein sukzessives Anwenden von jeweils einer Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf die Komponenten 22 des steuerbaren Systems 21 aufweist, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten 22 des steuerbaren Systems 21 jeweils eine Belohnung bestimmt wird, eine Optimierungseinheit 30, welche ausgebildet ist, wenigstens einen Teils des Zustandsmodells basierend auf den bestimmten Belohnungen zu optimieren, und eine Hinzufügeeinheit 31, welche ausgebildet ist, die ausgewählte Aktion und den zweiten Zustand zu dem wenigstens einen Teil des Zustandsmodells hinzuzufügen, auf.
  • Dabei ist die Optimierungseinheit 30 ausgebildet, den wenigstens einen Teil des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen zu optimieren.
  • Bei der Empfangseinheit kann es sich dabei beispielsweise um einen Empfänger handeln, welcher ausgebildet ist, die Informationen über Zusammenhänge zwischen Zuständen der Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen zu empfangen. Bei der Anwendungseinheit kann es sich zudem beispielsweise um einen entsprechenden Aktor handeln. Die Auswahleinheit, die Simulationseinheit, die Optimierungseinheit und die Hinzufügeeinheit können ferner beispielsweise jeweils basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren code realisiert werden.
  • Gemäß den Ausführungsformen der 2 weist das Steuergerät 23 zur Erzeugung eines das steuerbares System beschreibenden Zustandsmodells weiter einen Detektor 32, insbesondere einen Sensor, welcher ausgebildet ist, den zweiten Zustand der Komponenten des steuerbaren Systems zu detektieren, auf.
  • Zudem ist die Optimierungseinheit 30 ausgebildet, den wenigstens einen Teil des Zustandsmodells basierend auf einer Kontrollvariate und dem Maximum der bestimmten Belohnungen zu optimieren.
  • Wie 2 weiter zeigt, weist das Steuergerät 24 zum Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen eine weitere Empfangseinheit 33 zum Empfangen eines durch das Steuergerät 23 zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells erzeugten, das steuerbare System beschreibenden Zustandsmodells, und eine Auswahleinheit 34, welche ausgebildet ist, eine auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen basierend auf dem das steuerbare System beschreibenden Zustandsmodells und einem aktuellen Zustand der Komponente des steuerbaren Systems auszuwählen, auf.
  • Bei der weiteren Empfangseinheit kann es sich dabei beispielsweise wiederum um einen Empfänger handeln, welcher ausgebildet ist, die entsprechenden Informationen zu empfangen. Die Auswahleinheit kann ferner wiederum beispielsweise basierend auf in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
  • Gemäß den Ausführungsformen der 2 weist das Steuergerät 24 zum Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen weiter eine Erfassungseinheit 35, welche ausgebildet ist, den aktuellen Zustand der Komponenten des steuerbaren Systems zu erfassen, auf.
  • Bei der Auswahleinheit kann es sich dabei wiederum beispielsweise um einen entsprechenden Sensor handeln.
  • Wie 2 zudem zeigt, weist Steuergerät 25 zum Steuern von Komponenten des steuerbaren Systems noch eine weitere Empfangseinheit 36, welche ausgebildet ist, eine durch das Steuergerät 24 zum Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen ausgewählte Aktion zu empfangen, und eine weitere Anwendungseinheit 37, welche ausgebildet ist, die ausgewählte Aktion auf die Komponenten 22 des steuerbaren Systems 21 anzuwenden, auf.
  • Bei der weiteren Empfangseinheit kann es sich dabei beispielsweise wiederum um einen Empfänger handeln, welcher ausgebildet ist, die entsprechenden Informationen zu empfangen. Bei der Anwendungseinheit kann es sich ferner beispielsweise um einen Aktor handeln, welcher ausgebildet ist, die entsprechende, ausgewählte Aktion zu initiieren.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 9047423 B2 [0007]

Claims (14)

  1. Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, wobei das Verfahren folgende Schritte aufweist: - Bereitstellen von Informationen über Zusammenhänge zwischen Zuständen von Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen, wobei die Informationen wenigstens einen Teil des Zustandsmodells bilden (2); - Auswählen einer Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen (3); - Anwenden der ausgewählten Aktion auf die Komponenten des steuerbaren Systems, wobei sich die Komponenten des steuerbaren Systems vor dem Anwenden der ausgewählten Aktion in einem ersten Zustand befinden und nach dem Anwenden der ausgewählten Aktion in einem zweiten Zustand (4); - Ausgehend von dem zweiten Zustand der Komponenten des steuerbaren Systems, Simulieren von weiteren Zuständen der Komponenten des steuerbaren Systems, wobei das Simulieren von weiteren Zuständen ein sukzessives Anwenden von jeweils einer Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf die Komponenten des steuerbaren Systems aufweist, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten des steuerbaren Systems jeweils eine Belohnung bestimmt wird (5); - Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf den bestimmten Belohnungen, wobei das Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen erfolgt (6); und - Hinzufügen der ausgewählten Aktion und des zweiten Zustandes zu dem wenigstens einen Teil des Zustandsmodells (7).
  2. Verfahren nach Anspruch 1, wobei das Verfahren weiter folgenden Schritt aufweist: - Detektieren des zweiten Zustandes der Komponenten des steuerbaren Systems (8).
  3. Verfahren nach Anspruch 1 oder 2, wobei das Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen (6) ein Optimieren des wenigstens einen Teils des Zustandsmodells basierend auf einer Kontrollvariate und dem Maximum der bestimmten Belohnungen aufweist.
  4. Verfahren zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen, wobei das Verfahren folgende Schritte aufweist: - Erzeugen eines das steuerbare System beschreibenden Zustandsmodells durch ein Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells nach einem der Ansprüche 1 bis 3; und - Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen basierend auf dem das steuerbare System beschreibenden Zustandsmodells und einem aktuellen Zustand der Komponente des steuerbaren Systems (9).
  5. Verfahren nach Anspruch 4, wobei das Verfahren weiter folgenden Schritt aufweist: - Erfassen des aktuellen Zustandes der Komponenten des steuerbaren Systems (10).
  6. Verfahren zum Steuern von Komponenten eines steuerbaren Systems, wobei das Verfahren (1) folgende Schritt aufweist: - Auswählen einer auf die Komponenten des steuerbaren Systems anzuwendenden Aktion durch ein Verfahren zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen nach Anspruch 4 oder 5; und - Anwenden der ausgewählten Aktion auf die Komponenten des steuerbaren Systems (11).
  7. Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells, wobei das Steuergerät (23) eine Empfangseinheit (26) zum Empfangen von Informationen über Zusammenhänge zwischen Zuständen von Komponenten des steuerbaren Systems und die Zustände der Komponenten des steuerbaren Systems beeinflussenden Aktionen, wobei die Informationen wenigstens einen Teil des Zustandsmodells bilden, eine Auswahleinheit (27), welche ausgebildet ist, aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen eine Aktion auszuwählen, eine Anwendungseinheit (28), welche ausgebildet ist, die ausgewählte Aktion auf die Komponenten des steuerbaren Systems anzuwenden, wobei sich die Komponenten des steuerbaren Systems vor dem Anwenden der ausgewählten Aktion in einem ersten Zustand befinden und nach dem Anwenden der ausgewählten Aktion in einem zweiten Zustand, eine Simulationseinheit (29), welche ausgebildet ist, ausgehend von dem zweiten Zustand der Komponenten des steuerbaren Systems weitere Zustände der Komponenten des steuerbaren Systems zu simulieren, wobei das Simulieren von weiteren Zuständen ein sukzessives Anwenden von jeweils einer Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen auf die Komponenten des steuerbaren Systems aufweist, wobei zu jeder der Anwendungen einer Aktion auf die Komponenten des steuerbaren Systems jeweils eine Belohnung bestimmt wird, eine Optimierungseinheit (30), welche ausgebildet ist, wenigstens einen Teils des Zustandsmodells basierend auf den bestimmten Belohnungen zu optimieren, und eine Hinzufügeeinheit (31), welche ausgebildet ist, die ausgewählte Aktion und den zweiten Zustand zu dem wenigstens einen Teil des Zustandsmodells hinzuzufügen, aufweist, wobei die Optimierungseinheit (30) ausgebildet ist, den wenigstens einen Teil des Zustandsmodells basierend auf einem Verfahren zur Varianzreduktion und einem Maximum der bestimmten Belohnungen zu optimieren.
  8. Steuergerät nach Anspruch 7, wobei das Steuergerät (23) weiter einen Detektor (32), welcher ausgebildet ist, den zweiten Zustand der Komponenten des steuerbaren Systems zu detektieren, aufweist.
  9. Steuergerät nach Anspruch 7 oder 8, wobei die Optimierungseinheit (30) ausgebildet ist, den wenigstens einen Teil des Zustandsmodells basierend auf einer Kontrollvariate und dem Maximum der bestimmten Belohnungen zu optimieren.
  10. Steuergerät zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen, wobei das Steuergerät (24) eine Empfangseinheit (33) zum Empfangen eines durch ein Steuergerät zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells nach einem der Ansprüche 7 bis 9 erzeugten, das steuerbare System beschreibenden Zustandsmodells, und eine Auswahleinheit (34), welche ausgebildet ist, eine auf die Komponenten des steuerbaren Systems anzuwendenden Aktion aus der Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen basierend auf dem das steuerbare System beschreibenden Zustandsmodells und einem aktuellen Zustand der Komponente des steuerbaren Systems auszuwählen, aufweist.
  11. Steuergerät nach Anspruch 10, wobei das Steuergerät weiter eine Erfassungseinheit (35), welche ausgebildet ist, den aktuellen Zustand der Komponenten des steuerbaren Systems zu erfassen, aufweist.
  12. Steuergerät zum Steuern von Komponenten eines steuerbaren Systems, wobei das Steuergerät (25) eine Empfangseinheit (36), welche ausgebildet ist, eine durch ein Steuergerät zum Auswählen einer auf Komponenten eines steuerbaren Systems anzuwendenden Aktion aus einer Menge an den Zustand der Komponenten des steuerbaren Systems beeinflussenden Aktionen nach Anspruch 10 oder 11 ausgewählte Aktion zu empfangen, und eine Anwendungseinheit (37), welche ausgebildet ist, die ausgewählte Aktion auf die Komponenten des steuerbaren Systems anzuwenden, aufweist.
  13. Computerprogramm mit Programmcode, um ein Verfahren nach einem der Ansprüche 1 bis 3 auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.
  14. Computerlesbarer Datenträger mit Programmcode eines Computerprogramms, um ein Verfahren nach einem der Ansprüche 1 bis 3 auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.
DE102021212008.3A 2021-10-25 2021-10-25 Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells Pending DE102021212008A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102021212008.3A DE102021212008A1 (de) 2021-10-25 2021-10-25 Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells
US18/047,011 US20230130032A1 (en) 2021-10-25 2022-10-17 Method for generating a state model describing a controllable system
CN202211300316.3A CN116027658A (zh) 2021-10-25 2022-10-24 用于产生描述可控系统的状态模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021212008.3A DE102021212008A1 (de) 2021-10-25 2021-10-25 Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells

Publications (1)

Publication Number Publication Date
DE102021212008A1 true DE102021212008A1 (de) 2023-04-27

Family

ID=85795764

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021212008.3A Pending DE102021212008A1 (de) 2021-10-25 2021-10-25 Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells

Country Status (3)

Country Link
US (1) US20230130032A1 (de)
CN (1) CN116027658A (de)
DE (1) DE102021212008A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006059829A1 (de) 2006-12-15 2008-06-19 Slawomir Suchy Universalcomputer
US9047423B2 (en) 2012-01-12 2015-06-02 International Business Machines Corporation Monte-Carlo planning using contextual information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006059829A1 (de) 2006-12-15 2008-06-19 Slawomir Suchy Universalcomputer
US9047423B2 (en) 2012-01-12 2015-06-02 International Business Machines Corporation Monte-Carlo planning using contextual information

Also Published As

Publication number Publication date
CN116027658A (zh) 2023-04-28
US20230130032A1 (en) 2023-04-27

Similar Documents

Publication Publication Date Title
DE19717716C5 (de) Verfahren zur automatischen Diagnose technischer Systeme
DE102019131291B4 (de) Gleichzeitige ausführung von dienstleistungen
DE102007029133A1 (de) Verfahren zum rechnergestützten Ermitteln der Abhängigkeiten einer Vielzahl von Modulen eines technischen Systems, insbesondere eines Softwaresystems
DE102018110020A1 (de) Verfahren zum Erzeugen eines auf einem Testgerät ausführbaren Modells eines technischen Systems und Testgerät
EP2306349A1 (de) Verfahren zur Prüfung der Echtzeitfähigkeit eines Systems
EP2648094B1 (de) Verfahren und system zum erzeugen eines quellcodes für ein computerprogramm zur ausführung und simulation eines prozesses
DE102018110018A1 (de) Verfahren zum Bereitstellen eines integrierten Prozesses für die Steuergerätentwicklung und Simulationsvorrichtung für die Steuergerätentwicklung
DE102021212008A1 (de) Verfahren zur Erzeugung eines ein steuerbares System beschreibenden Zustandsmodells
WO2016198046A1 (de) Verfahren für die auswahl eines simulationsmodells zur abbildung wenigstens eines funktionalen prozesses einer antriebsstrangkomponente aus einer optimierten modellmenge
EP3953865A1 (de) Verfahren, vorrichtung und computerprogramm zum betreiben eines tiefen neuronalen netzes
DE102020103854A1 (de) Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung
EP3901713A1 (de) Verfahren und system zum betrieb einer technischen anlage mit einem optimalen modell
WO2009127697A1 (de) Verfahren zum automatischen erzeugen eines zeitschemas für über einen zeitgesteuerten gemeinsamen datenbus kommunizierende verteilte anwendungen oder prozesse eines digitalen netzwerks
DE102018219852A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Systemkonfiguration für ein verteiltes System
EP3637354A1 (de) Verfahren zur suche eines programmcodes für ein elektronisches gerät in einer datenbank
EP3575976A1 (de) Verfahren zum bestimmen einer physikalischen verbindungstopologie eines für die steuergerätentwicklung eingerichteten, echtzeitfähigen testgeräts
DE102022210480A1 (de) Verfahren zum Trainieren eines Algorithmus des maschinellen Lernens durch ein bestärkendes Lernverfahren
WO2018141435A1 (de) Verfahren und vorrichtung zum zuweisen von geräteressourcen
WO2018121904A1 (de) Verfahren und vorrichtung zum rechnergestützten entwurf eines produktionsprozesses zum produzieren eines produkts
DE102004050293B3 (de) Verfahren zur Simulation des Betriebs eines Netzwerks
DE112020005639B4 (de) Zuweisungsvorrichtung, lernvorrichtung, ableitungsvorrichtung, zuweisungsverfahren und zuweisungsprogramm
DE202022105588U1 (de) Vorrichtung zum Trainieren eines Algorithmus des maschinellen Lernens durch ein bestärkendes Lernverfahren
DE102021206378A1 (de) Verfahren zum Trainieren eines Algorithmus des maschinellen Lernens
WO2023131450A1 (de) Verfahren zum optimieren eines prozesses
DE102022212902A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed