DE102007042440B3 - Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems - Google Patents

Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems Download PDF

Info

Publication number
DE102007042440B3
DE102007042440B3 DE102007042440A DE102007042440A DE102007042440B3 DE 102007042440 B3 DE102007042440 B3 DE 102007042440B3 DE 102007042440 A DE102007042440 A DE 102007042440A DE 102007042440 A DE102007042440 A DE 102007042440A DE 102007042440 B3 DE102007042440 B3 DE 102007042440B3
Authority
DE
Germany
Prior art keywords
technical system
state
neural network
action
states
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102007042440A
Other languages
English (en)
Inventor
Daniel Schneegass
Steffen Dr. Udluft
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102007042440A priority Critical patent/DE102007042440B3/de
Priority to PCT/EP2008/061115 priority patent/WO2009033944A1/de
Priority to ES08787465T priority patent/ES2426357T3/es
Priority to JP2010523474A priority patent/JP5243543B2/ja
Priority to EP08787465.7A priority patent/EP2185980B1/de
Priority to US12/675,555 priority patent/US8447706B2/en
Application granted granted Critical
Publication of DE102007042440B3 publication Critical patent/DE102007042440B3/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02CGAS-TURBINE PLANTS; AIR INTAKES FOR JET-PROPULSION PLANTS; CONTROLLING FUEL SUPPLY IN AIR-BREATHING JET-PROPULSION PLANTS
    • F02C9/00Controlling gas-turbine plants; Controlling fuel supply in air- breathing jet-propulsion plants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05DINDEXING SCHEME FOR ASPECTS RELATING TO NON-POSITIVE-DISPLACEMENT MACHINES OR ENGINES, GAS-TURBINES OR JET-PROPULSION PLANTS
    • F05D2270/00Control
    • F05D2270/70Type of control algorithm
    • F05D2270/707Type of control algorithm fuzzy logic
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05DINDEXING SCHEME FOR ASPECTS RELATING TO NON-POSITIVE-DISPLACEMENT MACHINES OR ENGINES, GAS-TURBINES OR JET-PROPULSION PLANTS
    • F05D2270/00Control
    • F05D2270/70Type of control algorithm
    • F05D2270/709Type of control algorithm with neural networks

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems. In dem Verfahren kommen ein bestärkendes Lernverfahren und künstliche neuronale Netze zum Einsatz. Hierbei werden Feed-Forward-Netze derart miteinander verknüpft, dass die Architektur insgesamt ein Optimalitätskriterium erfüllt. Das Netzwerk approximiert dabei die beobachteten Belohnungen als Schätzer an die erwarteten Belohnungen. Auf diese Weise werden ausschließlich tatsächlich gemachte Beobachtungen in optimaler Art und Weise genutzt, um eine Qualitätsfunktion zu bestimmen. In dem Netzwerk wird die in Bezug auf die Qualitätsfunktion optimale Aktion durch ein neuronales Netz modelliert, wobei dieses gelernte neuronale Netz die optimale Aktionsauswahlregel für das gegebene Steuerungsproblem liefert. Die Erfindung kann in beliebigen technischen Systemen zur Regelung bzw. Steuerung eingesetzt werden, ein bevorzugter Anwendungsbereich ist die Regelung bzw. Steuerung von Turbinen, insbesondere einer Gasturbine. Ferner hat die Erfindung den Vorteil, dass sie für Steuerungsverfahren mit kontinuierlichen Aktionen verwendet werden kann.

Description

  • Die Erfindung betrifft ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems und ein entsprechendes Computerprogrammprodukt.
  • Bei der Steuerung von komplexen technischen Systemen ist es oftmals wünschenswert, dass die am technischen System durchzuführenden Aktionen derart gewählt sind, dass ein vorteilhaftes gewünschtes dynamisches Verhalten des technischen Systems erhalten wird. Das dynamische Verhalten kann jedoch bei komplexen technischen Systemen oftmals nicht einfach vorhergesagt werden, so dass entsprechende rechnergestützte Vorhersageverfahren benötigt werden, um das zukünftige Verhalten des technischen Systems abzuschätzen und dementsprechend geeignete Aktionen zur Regelung bzw. Steuerung des technischen Systems zu wählen.
  • Heutzutage beruht die Steuerung von technischen Systemen oftmals auf Expertenwissen, d. h. die automatische Regelung des Systems wird auf der Basis dieses Expertenwissens erstellt. Es sind jedoch auch Ansätze bekannt, bei denen mit Hilfe von bekannten Methoden des sog. bestärkenden Lernens technische Systeme gesteuert werden. Die bekannten Verfahren sind jedoch nicht allgemein auf beliebige technische Systeme anwendbar und liefern oftmals keine ausreichend guten Ergebnisse.
  • Die Druckschrift „Schneegaß, D.; Udluft, St.; Martinez, Th.: Neural Rewards Regression for Near-optimal Policy Identification in Markovian and Partial Observable Environments, in: Verleysen, M.; Proc. of the ESANN, Seiten 301–306 (2007)" beschreibt ein bestärkendes Lernverfahren zum Ermitteln einer optimalen Aktionsauswahlregel, wobei beim Lernen eine Qualitätsfunktion berücksichtigt wird, welche durch ein oder mehrere neuronale Netze modelliert wird.
  • Die Druckschrift DE 699 17 711 T2 offenbart ein Verfahren zur Schätzung von Daten in einer Motorsteuerung basierend auf einem neuronalen Fuzzy-Netzwerk.
  • In dem Dokument EP 0 936 351 A2 ist ein Verfahren zur Optimalwertsteuerung einer Brennkraftmaschine beschrieben, bei dem unscharfe neuronale Netze (Fuzzy Logik) zur Ermittlung von Zustandsparametern der Maschine verwendet werden.
  • Das Dokument WO 2005/081076 A2 offenbart ein Verfahren zur Prognose eines Brennkammerzustandes einer Gasturbine unter Verwendung eines rekurrenten neuronalen Netzes.
  • In der Druckschrift US 5 857 321 A ist ein System zur Steuerung einer Gasturbine beschrieben, bei dem mit Hilfe wenigstens eines neuronalen Netzes Betriebsparameter der Turbine abgeschätzt werden.
  • Aufgabe der Erfindung ist es, ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems zu schaffen, welches allgemeingültig auf beliebige technische Systeme anwendbar ist und gute Ergebnisse liefert.
  • In dem erfindungsgemäßen Verfahren wird das dynamische Verhalten eines technischen Systems für mehrere Zeitpunkte betrachtet, wobei das dynamische Verhalten für jeden Zeitpunkt durch einen Zustand des technischen Systems und eine am technischen System durchgeführte Aktion charakterisiert wird, wobei eine jeweilige Aktion zu einem jeweiligen Zeitpunkt in einen Folgezustand des technischen Systems zum nächsten Zeitpunkt führt.
  • Um eine optimale Steuerung bzw. Regelung des technischen Systems zu erreichen, wird eine Aktionsauswahlregel auf der Basis von Datensätzen gelernt, wobei jeder Datensatz den Zustand des technischen Systems zu einem jeweiligen Zeitpunkt, die in dem Zeitpunkt durchgeführte Aktion sowie den Folgezustand umfasst und wobei jedem Datensatz eine Bewertung zugeordnet ist.
  • Ein Zustand des technischen Systems ist hierbei insbesondere ein Zustandsvektor mit einer oder mehreren Variablen, wobei die Variablen beispielsweise beobachtete Zustandsgrößen des technischen Systems sind. Analog kann auch eine am technischen System durchzuführende Aktion durch einen entsprechenden Vektor mit einer Mehrzahl von Aktionsvariablen bestehen, wobei die Aktionsvariablen insbesondere einstellbare Parameter am technischen System repräsentieren.
  • Das erfindungsgemäße Verfahren zeichnet sich durch eine spezielle Variante des Lernens der Aktionsauswahlregel aus, welche folgende Schritte umfasst:
    • i) Modellieren einer Qualitätsfunktion durch ein erstes neuronales Netz umfassend die Zustände und Aktionen des technischen Systems als Parameter;
    • ii) Lernen des ersten neuronalen Netzes auf der Basis eines Optimalitätskriteriums, welches von den Bewertungen der Datensätze und der Qualitätsfunktion abhängt, wobei eine in Bezug auf die Qualitätsfunktion optimale Aktion durch ein zweites neuronales Netz modelliert wird, welches basierend auf der Qualitätsfunktion gelernt wird.
  • Mit einem derartigen Verfahren wird durch geeignetes Lernen des ersten und zweiten neuronalen Netzes auf einfache und effektive Weise eine optimale Aktionsauswahlregel ermittelt, welche von den Bewertungen der Datensätze abhängt, wobei die Aktionsauswahlregel derart ausgestaltet ist, dass in einem Zustand immer möglichst die Aktion mit der besten Bewertung ausgewählt wird. Mit der gelernten Aktionsauswahlregel erfolgt dann die eigentliche Regelung bzw. Steuerung des technischen Systems dadurch, dass am technischen System durchzuführende Aktionen mit der gelernten Aktionswahlregelung basierend auf dem gelernten zweiten neuronalen Netz ausgewählt werden. Das erfindungsgemäße Verfahren wurde anhand von Testdatensätzen überprüft und es hat sich gezeigt, dass mit dem Verfahren sehr gute Ergebnisse erzielt werden.
  • Das erfindungsgemäße Verfahren stellt eine Erweiterung des in der deutschen Patentanmeldung 10 2007 017 259.3 beschriebenen Verfahrens dar, wobei diese Patentanmeldung von der gleichen Anmelderin wie die vorliegende Anmeldung eingereicht wurde. Der gesamte Inhalt dieser Patentanmeldung wird durch Verweis zum Inhalt der vorliegenden Anmeldung gemacht. Das Verfahren gemäß der vorliegenden Erfindung hat gegenüber dem Verfahren der deutschen Patentanmeldung 10 2007 017 259.3 den Vorteil, dass ein zweites neuronales Netz zum Einsatz kommt, welches die optimale Aktion basierend auf der Qualitätsfunktion lernt, so dass die mit dem Verfahren gelernte Aktionsauswahlregel in einfacher Weise durch ein gelerntes zweites neuronales Netz gegeben ist, mit dem ausgehend von einem Zustand des technischen Systems die optimale Aktion in diesem Zustand berechnet werden kann. Hierdurch ist das Verfahren nicht auf diskrete Aktionen beschränkt, sondern das zweite neuronale Netz kann insbesondere auch kontinuierliche Aktionen modellieren. Darüber hinaus kann mit dem erfindungsgemäßen Verfahren die Dateneffizienz erhöht werden, d. h. bereits mit einer geringeren Menge an Datensätzen können gute Ergebnisse zur geeigneten Steuerung bzw. Regelung des technischen Systems basierend auf einem Optimalitätskriterium erreicht werden.
  • In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens wird die Qualitätsfunktion durch das erste neuronale Netz derart modelliert, dass eine Bewertungsfunktion an die Bewertungen der Datensätze angepasst wird.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird die in Bezug auf die Qualitätsfunktion optimale Aktion, welche durch das zweite neuronale Netz modelliert wird, derart festgelegt, dass die optimale Aktion die Qualitätsfunktion maximiert.
  • In einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens bildet das erste neuronale Netz ein Feed-Forward-Netz mit einer Eingangsschicht umfassend einen jeweiligen Zustand des technischen Systems und die in dem jeweiligen Zustand durchführbare Aktion, einer oder mehreren versteckten Schichten sowie einer Ausgangsschicht umfassende Qualitätsfunktion. Analog ist das zweite neuronale Netz vorzugsweise ebenfalls als ein Feed-Forward-Netz ausgestaltet, wobei dieses Feed-Forward-Netz folgende Schichten umfasst:
    • – eine Eingangsschicht umfassend einen jeweiligen Folgezustand des technischen Systems;
    • – eine oder mehrere versteckte Schichten mit versteckten Variablen;
    • – eine Ausgangsschicht umfassend die im Folgezustand in Bezug auf die Qualitätsfunktion optimale Aktion.
  • Die oben genannten Feed-Forward-Netze werden auch als Mehrschicht-Perzeptronen bezeichnet und sind hinlänglich aus dem Stand der Technik bekannte Strukturen von künstlichen neuronalen Netzen.
  • Zum Lernen des ersten bzw. zweiten neuronalen Netzes in dem erfindungsgemäßen Verfahren wird vorzugsweise das hinlänglich aus dem Stand der Technik bekannte Backpropagation-Verfahren eingesetzt.
  • Das Optimalitätskriterium kann in dem erfindungsgemäßen Verfahren verschieden gewählt werden, wobei vorzugsweise dasjenige Optimalitätskriterium verwendet wird, das ein optimales dynamisches Verhalten des technischen Systems parametrisiert. Mögliche Optimalitätskriterien sind beispielsweise die Minimierung des Bellman-Residuums bzw. das Erreichen des Fixpunktes der Bellman-Iteration. Das Bellman-Residuum bzw. die Bellman-Iteration sind dem Fachmann auf dem Gebiet des bestärkenden Lernens (englisch Reinforcement Learning) bekannt und werden deshalb an dieser Stelle nicht mehr erläutert.
  • Anstatt bzw. neben dem Bellman-Residuum bzw. dem Erreichen des Fixpunktes der Bellman-Gleichung kann als Optimalitätskriterium auch die Minimierung eines modifizierten Bellman-Residuums verwendet werden, wobei das modifizierte Bellman-Residuum eine Hilfsfunktion umfasst, welche vom jeweiligen Zustand des technischen Systems und der im jeweiligen Zustand durchführbaren Aktionen abhängt. Eine mögliche Ausgestaltung dieses Bellman-Residuums ist in der detaillierten Beschreibung der Anmeldung beschrieben. Das modifizierte Bellman-Residuum ist dort als Laux bezeichnet. Um dieses modifizierte Bellman-Residuum in dem erfindungsgemäßen Verfahren zu verwenden, wird die Hilfsfunktion vorzugsweise durch ein drittes neuronales Netz modelliert, welches auf der Basis des Optimalitätskriteriums gelernt wird, wobei das dritte neuronale Netz ein Feed-Forward-Netz bildet mit einer Eingangsschicht umfassend einen jeweiligen Zustand des technischen Systems und die in dem jeweiligen Zustand durchführbare Aktion, einer oder mehreren versteckten Schichten sowie einer Ausgangsschicht umfassend die Hilfsfunktion. Das Lernen dieses dritten neuronalen Netzes erfolgt in dem erfindungsgemäßen Ver fahren hierbei parallel zum Lernen des ersten und zweiten neuronalen Netzes.
  • In einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens umfasst das Optimalitätskriterium einen einstellbaren Parameter, durch dessen Veränderung das Optimalitätskriterium angepasst wird. Hierdurch wird eine flexible Möglichkeit geschaffen, das erfindungsgemäße Verfahren auf das für den vorgegebenen Datensatz am besten geeignete Optimalitätskriterium anzupassen.
  • In einer weiteren Ausführungsform des erfindungsgemäßen Verfahrens kann auch die Historie von vergangenen Zuständen und Aktionen des technischen Systems in geeigneter Weise berücksichtigt werden. Dies erfolgt dadurch, dass die Zustände in den Datensätzen versteckte Zustände des technischen Systems sind, welche durch ein rekurrentes neuronales Netz mit Hilfe von Ursprungsdatensätzen generiert werden, wobei die Ursprungsdatensätze jeweils einen beobachteten Zustand des technischen Systems, eine in dem beobachteten Zustand durchgeführte Aktion sowie den daraus resultierenden Folgezustand umfassen. Mit dem rekurrenten neuronalen Netz wird insbesondere das dynamische Verhalten des technischen Systems modelliert, wobei das rekurrente neuronale Netz gebildet ist durch wenigstens eine Eingangsschicht umfassend die beobachteten Zustände des technischen Systems und die am technischen System durchgeführten Aktionen, wenigstens eine versteckte rekurrente Schicht umfassend die versteckten Zustände des technischen Systems und wenigstens eine Ausgangsschicht umfassend die beobachteten Zustände des technischen Systems. Das rekurrente neuronale Netz wird wiederum mit einem geeigneten Lernverfahren gelernt, insbesondere auch mit dem bekannten Backpropagation-Verfahren.
  • Mit dem erfindungsgemäßen Verfahren können beliebige technische Systeme gesteuert und geregelt werden, ein bevorzugter Anwendungsbereich sind jedoch Turbinen, insbesondere Gastur binen. Bei der Steuerung bzw. Regelung einer Gasturbine sind die Zustände des technischen Systems und/oder die in den jeweiligen Zuständen durchführbaren Aktionen eine oder mehrere der folgenden Größen:
    Gesamtleistung der Gasturbine; ein oder mehrere Drucke und/oder Temperaturen in der Gasturbine oder in der Umgebung der Gasturbine; Brennkammerbeschleunigungen in der Gasturbine; ein oder mehrere Einstellparameter in der Gasturbine, insbesondere Ventileinstellungen und/oder Kraftstoffverhältnisse und/oder Vorleitschaufelstellungen.
  • Neben dem oben beschriebenen Verfahren betrifft die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.
  • Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
  • Es zeigen:
  • 1 eine schematische Darstellung einer ersten Ausführungsform des erfindungsgemäßen Verfahrens; und
  • 2 eine schematische Darstellung einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens.
  • Die nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens beruhen auf einer Menge von Datensätzen, welche für ein beliebiges technisches System beobachtet, d. h. gemessen bzw. experimentell ermittelt wurden. Ein besonders bevorzugter Anwendungsfall eines technischen Systems ist dabei die Steuerung einer Gasturbine, für die Daten in der Form von Zustandsgrößen der Turbine vorliegen, beispielsweise die Gesamtleistung der Gasturbine, ein oder mehrere Drucke und/oder Temperaturen in der Gasturbine, Brennkammerbeschleu nigungen und dergleichen. Es liegen hierbei Datensätze zu einer Vielzahl von aufeinander folgenden Zeitpunkten vor, wobei jeder Datensatz charakterisiert ist durch einen Zustand, der üblicherweise ein Zustandsvektor mit einer Mehrzahl von Zustandsgrößen ist, durch eine Aktion, welche die Veränderung von Zustandsgrößen oder anderen einstellbaren Parametern des technischen Systems repräsentiert, sowie durch einen Folgezustand, der die Werte der Zustandsgrößen nach Durchführung der Aktion wiedergibt. Darüber hinaus liegt für jeden Datensatz eine Bewertung bzw. Belohnung vor, welche die Güte der Aktion zum jeweiligen Zeitpunkt für die Steuerung des technischen Systems wiedergibt. Die Bewertung ist hierbei vorzugsweise derart ausgestaltet, dass die beste bzw. optimale Steuerung des technischen Systems durch Aktionen mit hohen Bewertungen bzw. Belohnungen zu den verschiedenen Zeitpunkten während des Betriebs des technischen Systems erreicht wird.
  • In den nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens wird nunmehr anhand der beobachteten Datensätze des technischen Systems mit einem bestärkenden Lernverfahren (englisch Reinforcement Learning) eine Aktionsauswahlregel gelernt, mit der anschließend das technische System in geeigneter Weise betrieben werden kann. Die Aktionsauswahlregel gibt dabei für einen Zustand des technischen Systems an, welches die beste, in diesem Zustand durchzuführende Aktion ist. Das technische System wird hierbei als ein stochastisches dynamisches System betrachtet, wobei das bestärkende Lernverfahren zur Ermittlung der Aktionsauswahlregel als eine Regressionsaufgabe betrachtet wird, bei der eine Belohnungsfunktion an die beobachteten Datensätze angepasst wird.
  • In dem nachfolgend beschriebenen Lernverfahren wird nach der Aktionsauswahlregel gesucht, welche optimal zur Steuerung des technischen Systems eingesetzt werden kann. Mathematisch werden hierbei die Zustände, die Aktionen und die Folgezustände als Beobachtungen eines sog. Markov-Entscheidungsprozesses betrachtet. Ein Markov-Entscheidungsprozess ist allgemein gegeben durch einen Zustandsraum S, eine Menge von Aktionen A, die in den unterschiedlichen Zuständen ausgewählt werden können, und der Dynamik, welche als Übergangs-Wahrscheinlichkeits-Verteilung PT:S × A × S → [0, 1] betrachtet wird, die von dem momentanen Zustand s, der gewählten Aktion a und dem Folgezustand s' abhängt. Der Übergang von einem Zustand zum Folgezustand wird durch sog. Belohnungen R(s, a, s') charakterisiert, welche Funktionen des momentanen Zustands, der Aktion und des Folgezustands sind. Die Belohnungen werden durch eine Belohnungs-Wahrscheinlichkeits-Verteilung PR mit dem Erwartungswert der Belohnung
    Figure 00100001
    definiert.
  • Gemäß der nachfolgend beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens wird nach dem Maximum einer diskontierenden Q-Funktion gesucht, welche der Qualitätsfunktion im Sinne der Ansprüche entspricht und durch die hinlänglich aus dem Stand der Technik bekannte Bellman-Gleichung wie folgt definiert ist: Qπ(s, a) = Es'(R(s, a, s') + γQπ(s', π(s'))) (1).
  • Die Maximierung erfolgt hierbei im sog. Regelraum Π = (S → A) über alle möglichen Zustände s und Aktionen a, wobei 0 < γ < 1 der Diskontierungsfaktor ist, s' der Folgezustand von s ist und π ∊ Π die verwendete Aktionsauswahlregel ist. Die Maximierung wird gemäß der hier beschriebenen Erfindung mit einem auf neuronalen Netzen beruhenden Regressionsverfahren durchgeführt, welches einen auf der optimalen Aktionsauswahlregel (d. h. auf der Auswahlregel, welche die Q-Funktion maximiert) beruhenden Gradienten verwendet und auch als „Policy Gradient Neural Rewards Regression" bzw. Policy-Gradienten-Regression bezeichnet wird. Dabei wird nicht – wie in dem Verfahren gemäß der deutschen Patentanmeldung 10 2007 017 259.3 – explizit nach diskreten Aktionen gesucht, welche die Qualitäts funktion maximieren. Stattdessen wird die bereits zuvor als optimal angenommene Aktion als Eingabe für die Q-Funktion verwendet, wobei die optimale Aktion basierend auf einem neuronalen Feed-Forward-Netz berechnet wird. Die Architektur des verwendeten Verfahrens ist in 1 gezeigt und wird weiter unten näher erläutert.
  • In den nachfolgend beschriebenen Ausführungsformen des erfindungsgemäßen Verfahrens wird ein technisches System betrachtet, bei dem sowohl die Zustände des Systems als auch die in einem jeweiligen Zustand durchführbaren Aktionen kontinuierlich sind. Die Dynamik des Systems ist dabei probabilistisch.
  • In den Ausführungsformen der 1 und 2 wird die oben beschriebene Q-Funktion durch ein einzelnes Feed-Forward-Netz bzw. ein Mehrschicht-Perzeptron N(s, a) = Q(s, a) beschrieben, umfassend eine Eingangsschicht I mit dem Zustand s und der Aktion a, eine versteckte Schicht H sowie eine Ausgangsschicht O mit der Qualitätsfunktion Q. Zur Modellierung der Belohnungsfunktion nach Gleichung (1) wird der hinlänglich aus dem Stand der Technik bekannte Backpropagation-Algorithmus verwendet, wobei das Optimierungsproblem durch die Minimierung eines modifizierten (quadratischen) Bellman-Residuums über alle l beobachteten Übergänge gelöst wird. l ist somit die Anzahl an Datensätzen in den beobachteten Daten des technischen Systems. Das in der hier beschriebenen Ausführungsform verwendete modifizierte Bellman-Residuum beruht auf der Druckschrift „Andras Antos, Csaba Szepesvari, Remi Munos. Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a single sample path. In Proc. of the Conference an Learning Theory, Seiten 574–588, 2006" und ist eine bessere Approximation des wahren Bellman-Residuums. Es wird im Folgenden auch als Hilfs-Residuum Laux bezeichnet und lautet wie folgt:
    Figure 00120001
  • Dabei repräsentiert θ die Parameter des künstlichen neuronalen Feed-Forward-Netzes N(s, a) und umfasst insbesondere die Gewichtsmatrizen zwischen den einzelnen Neuronenschichten in dem Feed-Forward-Netz. Ω ist ein geeigneter Regularisierungsterm. ri stellt die beobachtete Belohnung bzw. Bewertung in einem Zustand si aus den Datensätzen dar, und si+1 sind erwartungstreue Schätzer der Zustandsgrößen des Folgezustands.
  • Es ist bekannt, dass die Minimierung des Bellman-Residuums einerseits den Vorteil hat, dass es ein gut steuerbares Lernproblem darstellt, da es mit dem Schema des überwachten Lernens verwandt ist. Andererseits neigt die Minimierung des Bellman-Residuums dazu, Terme höherer Ordnung der diskontierten Summe der zukünftige Belohnungen im stochastischen Fall zu minimieren, falls keine weiteren unkorrelierten Datensätze für jeden Übergang gegeben werden können. Im Allgemeinen sind die Lösungen für Q-Funktionen vorurteilsbehaftet, welche glatter für Folgezustände der stochastischen Übergänge sind. Wenn si+1 und ri erwartungstreue Abschätzungen für nachfolgende Zustände bzw. Belohnungen sind, ist der Ausdruck (Q(si, ai) – γV(si+1) – ri)2 keine erwartungstreue Abschätzung für das wahre quadratische Bellman-Residuum (Q(s, a) – (TQ)(s, a))2, sondern für (Q(s, a) – (TQ)(s, a))2 + (T'Q)(s, a)2. T und T' sind hierbei wie folgt definiert: (TQ)(s, a) = Es'(R(s, a, s') + γmaxa'Q(s', a')) (T'Q)(s, a)2 = Vars'(R(s, a, s') + γmaxa'Q(s', a'))
  • T wird auch als Bellman-Operator bezeichnet.
  • Als Alternative zu einer Verwendung von doppelten Trajektorien wird obiges modifiziertes Bellman-Residuum aus dem Dokument „Andras Antos, Csaba Szepesvari, Remi Munos. Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a single sample path. In Proc. of the Conference an Learning Theory, Seiten 574–588, 2006" als bessere Approximation des wahren Bellman-Residuums verwendet. Die Optimierungsaufgabe ist somit die Lösung
    Figure 00130001
  • Die Idee des modifizierten Bellman-Residuums ist das Auffinden eines h, welches den Bellman-Operator über die Beobachtungen approximiert.
  • Man erhält somit: Z = Es'(Q(s, a) – γV(s') – R(s, a, s'))2 – Es'(h(s, a) – γV(s') – R(s, a, s'))2 = (Q(s, a) – (TQ)(s, a))2 – Err(h(s, a), (TQ)(s, a)).
  • Es handelt sich hierbei um die wahre Verlustfunktion mit einem zusätzlichen Fehlerterm aufgrund der suboptimalen Approximation von h, falls Hh nicht in der Lage ist, den Bellman-Operator beliebig genau zu approximieren.
  • Diese Technik ermöglicht es, das wahre Bellman-Residuum nach oben zu begrenzen, falls der Fehler von h in Bezug auf TQ begrenzt werden kann. Man erkennt leicht, dass L ^ ≤ L gilt innerhalb eines Sattelpunkts von Laux, falls HQ = Hh. Ansonsten würde h nicht das Minimum von L ^ bereitstellen. Deshalb würde ein Optimum von Laux durch jeden Fixpunkt der Bellman-Iteration bereitgestellt werden, falls dieser Punkt existiert, da nur in diesem Fall Q den Bellman-Operator so gut wie h approximieren kann und Laux = 0 gilt. Im Unterschied zum Vorschlag der Druckschrift „Andras Antos, Csaba Szepesvari, Remi Munos. Learning near-optimal policies with bellman residual minimization based fitted policy iteration and a single sample path. In Proc. of the Conference an Learning Theory, Seiten 574–588, 2006" wurde in der hier beschriebenen Ausführungsform der Erfindung Hh entweder als eine deutlich mächtigere Funktionsklasse als HQ gewählt oder unter Berücksichtigung von Vorwissen über den wahren Bellman-Operator, so dass L ^ im Wesentlichen eine bessere Abschätzung von T'Q2 liefert. Da eine solche Abschätzung der Varianz immer noch nicht erwartungstreu ist, konvergiert das Verfahren auf einen nicht erwartungstreuen Abschätzer des wahren Bellman-Residuums, der die Funktion Q ^* ∊ HQ nur innerhalb des Funktionsraums minimiert, jedoch offensichtlich eine bessere Approximation als aus dem Stand der Technik bekannte Abschätzer liefern.
  • Aus dem obigen Bellman-Residiuum Laux gemäß Gleichung (2) ergeben sich folgende Gradienten Δθ, Δω und Δψ, welche die Ableitungen des Residuums Laux nach θ, ω bzw. ψ darstellen und deren Nullstelle zur Lösung der Optimierungsaufgabe zu bestimmen ist:
    Figure 00140001
  • ω sind hierbei die entsprechenden Parameter, welche die Hilfsfunktion h beschreiben, die als Feed-Forward-Netz modelliert wird, 0 ≤ β ≤ 1 dient zur Steuerung des Einflusses der Hilfsfunktion h und α ≥ 1 ist die Stärke der Optimierung von h im Vergleich zu Q. ψ stellt den Parameter eines Feed-Forward-Netzes π dar (1), welches zur Modellierung der optimalen Auswahlregel verwendet wird. Anstatt dieses modifizierten Bellman-Residuums Laux kann auch das normale Bellman-Residuum bzw. das Erreichen des Fixpunkts der Bellman-Gleichung zur Lösung des Optimierungsproblems verwendet werden. In diesem Fall entfällt die obige Gleichung (4) und in der Gleichung (3) tritt nicht mehr der mit den Faktoren βργ beginnende Term auf. Der Parameter β erlaubt auch einen gleitenden Übergang. Man erhält dann für ρ = 1 das Optimalitätskriterium gemäß der klassischen Minimalisierung des Bellman-Residuums, wohingegen man für ρ = 0 das Erreichen des Fixpunktes der Bellman-Iteration erhält.
  • In der hier beschriebenen Ausführungsform wird die Funktion h in die Architektur gemäß 1 durch Einfügen des Hilfsnetzes AN neben dem Hauptnetz MN erreicht. Das Hilfsnetz AN modelliert die Funktion h mit einem neuronalen Netz, welches analog zum Netz N(s, a) eine Eingangsschicht I umfassend den Zustand s und die Aktion a, eine versteckte Schicht H und eine Ausgangsschicht O umfassend die Funktion h aufweist. Das Hilfsnetz AN erfüllt zwei Aufgaben, es maximiert L ^ in Bezug auf θ und minimiert L ^ in Bezug auf ω. Das Hauptnetz MN sowie das Hilfsnetz AN werden hierbei gleichzeitig gelernt.
  • Die in 1 dargestellte Architektur des Hauptnetzes MN gibt die in der Erfindung verwendete Policy-Gradienten-Regression wieder. Das Hauptnetz MN besteht aus einem linken Teil, der die Qualitätsfunktion Q als ein einzelnes neuronales Netz N(s, a) modelliert. Die Zustände s und die Aktionen a sind hierbei kontinuierlich. Der linke Teil des Netzes ist mit dem rechten Teil über die Belohnungsfunktion R gekoppelt, wobei der Gradientenfluss durch die Parameter –γ und ρ gesteuert wird, welche in der obigen Gradienten-Gleichung (3) auftreten. Im rechten Teil des Hauptnetzes MN findet sich in den Zweigen 1 und 2 die optimale Aktionsauswahlregel P als neuronales Netz π mit entsprechenden Parametern ψ sowie das neuronale Netz N(s', a') für den Folgezustand. Die Parameter ψ des neuronalen Netzes π werden in Bezug auf die optimale Auswahlregel P gelernt. Die optimale Auswahlregel ist hierbei die Maximierung der Qualitätsfunktion Q. V' in 1 steht hierbei für V(s') = Q(s', π(s')) und spiegelt die maximale Q-Funktion für den Folgezustand s' und die Folgeaktion a' wieder. Der Zweig 2 des rechten Teils des Hauptnetzes MN zeigt die Maximierung der Q-Funktion in Bezug auf den ε-Term gemäß obiger Gleichung (5). Ein ausreichend kleines ε ermöglicht, dass die Regel P nur zur Maximierung der Q-Funktion beiträgt.
  • Gemäß 1 ergibt sich somit ein Verfahren, bei dem ein einzelnes neuronales Netz N(s, a) für kontinuierliche Zustände s und Aktionen a verwendet wird. Für die Folgezustände wird Q(s', π(s')) berechnet, wobei angenommen wird, dass π:S → A mit den Parametern ψ dazu neigt, die optimale Regel P durchzuführen, d. h. die Q-Funktion zu maximieren. Somit liegt Q(s', π(s')) in der Nähe von maxa'Q(s', a'). Dies wird durch die Maximierung der Q-Funktion für die Folgezustände gleichzeitig mit der Regression in Bezug auf die Belohnungen erreicht. Somit wird eine Art von Batch On-Policy-Iteration oder eine Batch Actor-Critic-Iteration durchgeführt, in denen die intrinsische Wechselwirkung zwischen der Q-Funktion und der Regel P verwendet wird. Es wird hierbei die aus dem Stand der Technik bekannte Gradientenfluss-Steuertechnik in Verbindung mit Shared Weights eingesetzt, wobei diese Technik ausreichend ist, um die geeignete Architektur zu konstruieren. Im Netzwerkteil für den Folgezustand, der in 1 mit dem Bezugszeichen 1 dargestellt ist, wird der Gradientenfluss durch das Netzwerk abgeschnitten, was mit der Zahl 0 bei dem gestrichelten, auf die Aktion a' weisenden Pfeil angedeutet ist. Somit beeinflusst die Regel P nicht die Regression bezüglich der Belohnungen. In einem erweiterten Netwerkteil, der in 1 mit dem Bezugszeichen 2 bezeichnet ist, wird durch ein ausreichend kleines ε ermöglicht, dass nur die Regel P zur Maximierung der Q-Funktion beiträgt. Zur Berechnung der optimalen Auswahlregel π wird ein hinlänglich aus dem Stand der Technik bekanntes Back-Propagation-Verfahren mit Shared Weights eingesetzt. Darüber hinaus kommt die Gradientenrückfluss-Sperrtechnik zum Einsatz, welche von den Erfindern entwickelt wurde und bereits publiziert wurde. Die Gradientenrückfluss-Sperrtechnik gehört somit zum Stand der Technik und ist dem Fachmann hinlänglich bekannt. Sie wird deshalb an dieser Stelle nicht näher erläutert. Nach der Konvergenz des Back-Propagation-Verfahrens kann die optimale Auswahlregel mit Hilfe des Feed-Forward-Netzes π bestimmt werden, ohne dass die Q-Funktion als Zwischenergebnis verwendet wird.
  • Das oben beschriebene Verfahren berücksichtigt nicht die Historie von vergangenen Zuständen, was dazu führt, dass die Funktionsweise nicht garantiert werden kann, falls kein Markov-Entscheidungsprozess vorliegt. In einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens kann diese Historie jedoch mitberücksichtigt werden. Dies geschieht dadurch, dass der Datensatz, der zum Lernen der neuronalen Netze verwendet wird, selbst wiederum aus einem Ursprungsdatensatz erzeugt wurde. Der Ursprungsdatensatz ist hierbei der Datensatz, der in der Ausführungsform der 1 direkt zum Lernen der neuronalen Netze eingeflossen ist. In der zweiten Ausführungsform, welche in 2 gezeigt ist, wird dieser Ursprungsdatensatz nunmehr zur Modellierung des dynamischen Verhaltens des technischen Systems mit einem rekurrenten neuronalen Netz RNN verwendet, welches eine Eingangsschicht I', eine verstreckte Schicht H' und eine Ausgangsschicht O' umfasst. Dieses neuronale Netz umfasst die internen Zustände xt, zt, t ∊ t – τ, ... t + 1 sowie die Gewichtsmatrizen F, G, H, J. Die Übergänge zwischen den Zuständen sind hierbei durch folgende Gleichungen definiert: xt = tanh(Fst + Jzt-1) zt = Gat + Hxt
  • Mittels einer Matrix M, welche den internen auf den externen Zustand abbildet, kann der Folgezustand durch Erfüllen folgender Bedingung erreicht werden: ∥Mzt – st+12 = min.
  • Mit bekannten Algorithmen werden gemäß den obigen Gleichungen die Parameter des rekurrenten neuronalen Netzes (d. h. die Gewichtsmatrizen des Netzes) derart bestimmt, dass das rekurrente neuronale Netz sehr gut die beobachteten Datensätze im jeweiligen Zeitpunkt generiert. Das rekurrente neuronale Netz wird dabei wiederum mit einem hinlänglich aus dem Stand der Technik bekannten Back-Propagation-Verfahren gelernt. Die Modellierung des dynamischen Verhaltens mittels des rekurrenten neuronalen Netzes RNN ist dem Fachmann hinlänglich bekannt und wird deshalb nicht im Detail erläutert. Im Unterschied zum Verfahren der 1 fließen nunmehr die versteckten Zustände xt bzw. xt+1 als Eingangsgrößen in die Eingangsschicht I anstatt der Zustände s bzw. s' ein. Ansonsten entspricht das Lernverfahren der 2 dem Lernverfahren der 1, was daraus ersichtlich wird, dass der Teil oberhalb des rekurrenten neuronalen Netzes RNN identisch mit 1 ist. Es wird deshalb auf eine nochmalige Beschreibung des Lernens der neuronalen Netze verzichtet. In dem rekurrenten neuronalen Netz gemäß 2 fließt ferner noch ein Parameter μ ein, mit dem die Lernrate des rekurrenten neuronalen Netzes im Vergleich zur Lernrate der einzelnen Feed-Forward-Netze angepasst wird. Darüber hinaus werden Matrizen N verwendet, welche weiter unten noch beschrieben werden.
  • Die in 2 gezeigte Architektur ermöglicht es, nur ein rekurrentes neuronales Netz sowohl für die Q-Funktion als auch für die Wertefunktion zu verwenden. Das rekurrente neuronale Netz ist hierbei in der Lage, ein deterministisches dynamisches System beliebig genau zu approximieren, was jedoch für ein stochastisches dynamisches System nicht möglich ist. Dies stellt jedoch keine Beschränkung dar, da die Konstruktion des internen versteckten Zustands als eine Transformation in einen geeigneten Merkmalsraum für das stochastische bestärkende Lernverfahren durch die Feed-Forward-Netze angesehen werden kann. Im deterministischen Fall ist dieser Merkmalsraum identisch mit der exakten Beschreibung aller Information, welche die Zukunft bestimmt, wohingegen im allgemeinen stochastischen Fall der interne Zustand derart generiert werden muss, dass die erwartete Zukunft vorhergesagt wird. Deshalb wird in dem rekurrenten neuronalen Netz aus 2 ein autonomer Zukunftsanteil verwendet, wenn interne Zustände ohne Beobachtungen aus dem Markov-Prozess vorhergesagt werden. In 2 sind dies die Zustände xt für t > i + 1 und es gilt: xt = tanh(Nzt-1), t > i + 1.
  • Dies ist ausreichend, da die Markov-Eigenschaft durch das Wissen über die erwarteten zukünftigen Zustände rekonstruiert werden kann. Durch die oben beschriebene rekurrente Architektur gemäß 2 wird die automatische Rekonstruktion eines zu Grunde liegenden Markov-Prozesses prinzipiell beliebiger Ordnung ermöglicht. Der Anwender des erfindungsgemäßen Verfahrens kann somit mehr Informationen aus den Daten nutzen und muss weniger Experteninformationen zur Verfügung stellen.
  • Die oben beschriebenen Ausführungsformen gemäß 1 und 2 des erfindungsgemäßen Verfahrens wurden anhand aus dem Stand der Technik bekannter Problemstellungen getestet. Es hat sich hierbei gezeigt, dass das Verfahren gute Ergebnisse liefert. Insbesondere wurde das Verfahren auch mit dem Verfahren gemäß der deutschen Patentanmeldung 10 2007 017 259.3 verglichen, wobei bessere Ergebnisse mit dem erfindungsgemäßen Verfahren erreicht werden konnten.
  • Das im Vorangegangenen beschriebene Verfahren bietet einen informationseffizienten Lösungsansatz für allgemeine Optimalsteuerungsprobleme auf beliebigen technischen Gebieten, wobei es möglich ist, mit wenig verfügbaren Datensätzen auch komplexe Steuerungsprobleme zu bewältigen, die sich mit klassischen Verfahren nicht zufriedenstellend lösen lassen.

Claims (23)

  1. Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems, bei dem: a) das dynamische Verhalten des technischen Systems für mehrere Zeitpunkte (t) jeweils durch einen Zustand (st, xt) des technischen Systems und eine am technischen System durchgeführte Aktion (at) charakterisiert wird, wobei eine jeweilige Aktion (at) zu einem jeweiligen Zeitpunkt (t) in einen Folgezustand (st+1, xt+1) des technischen Systems zum nächsten Zeitpunkt (t + 1) führt; b) eine Aktionsauswahlregel mit einer Mehrzahl von Datensätzen gelernt wird, wobei jeder Datensatz den Zustand (st, xt) des technischen Systems zu einem jeweiligen Zeitpunkt (t), die in dem Zustand (st, xt) durchgeführte Aktion (at) sowie den Folgezustand (st+1, xt+1) umfasst und jedem Datensatz eine Bewertung (ri) zugeordnet ist, wobei das Lernen der Aktionsauswahlregel folgende Schritte umfasst: i) Modellieren einer Qualitätsfunktion (Q(s, a)) durch ein erstes neuronales Netz (Na(s)) umfassend die Zustände (st, xt) und Aktionen (at) des technischen Systems als Parameter; ii) Lernen des ersten neuronalen Netzes (N(s, a)) auf der Basis eines Optimalitätskriteriums, welches von den Bewertungen (ri) der Datensätze und der Qualitätsfunktion (Q(s, a)) abhängt, wobei eine in Bezug auf die Qualitätsfunktion (Q(s, a)) optimale Aktion (a') durch ein zweites neuronales Netz (π) modelliert wird, welches basierend auf der Qualitätsfunktion gelernt wird; c) das technische System dadurch geregelt und/oder gesteuert wird, die am technischen System durchzuführenden Aktionen (at) mit der gelernten Aktionsauswahlregel basierend auf dem gelernten zweiten neuronalen Netz (π) ausgewählt werden.
  2. Verfahren nach Anspruch 1, bei dem die Qualitätsfunktion (Q(s, a)) durch das erste neuronale Netze (N(s, a)) derart modelliert wird, dass eine Bewertungsfunktion (R(s, a, s')) an die Bewertungen (ri) der Datensätze angepasst wird.
  3. Verfahren nach Anspruch 1 oder 2, bei dem die in Bezug auf die Qualitätsfunktion (Q(s, a)) optimale Aktion (a') diejenige Aktion ist, welche die Qualitätsfunktion (Q(s, a)) maximiert.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das erste neuronale Netz (N(s, a)) ein Feed-Forward-Netz bildet mit einer Eingangsschicht (I) umfassend einen jeweiligen Zustand (st, xt) des technischen Systems und die in dem jeweiligen Zustand (st, xt) durchführbare Aktion (at), einer oder mehreren versteckten Schichten (H) sowie einer Ausgangsschicht (O) umfassend die Qualitätsfunktion (Q(s, a)).
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das zweite neuronale Netz (π) ein Feed-Forward-Netz bildet mit einer Eingangsschicht umfassend einen jeweiligen Folgezustand (st+1, xt+1) des technischen Systems, einer oder mehreren versteckten Schichten (H) sowie einer Ausgangsschicht (O) umfassend die im Folgezustand (st+1, xt+1) in Bezug auf die Qualitätsfunktion (Q(s, a)) optimale Aktion (a').
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Backpropagation-Verfahren zum Lernen des ersten neuronalen Netzes (N(s, a)) sowie des zweiten neuronalen Netzes (π) verwendet wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Optimalitätskriterium derart gewählt ist, dass ein optimales dynamisches Verhalten des technischen Systems parametrisiert wird.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Optimalitätskriterium die Minimierung des Bellman-Residuums ist.
  9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Optimalitätskriterium das Erreichen des Fixpunktes der Bellman-Iteration ist.
  10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Optimalitätskriterium die Minimierung eines modifizierten Bellman-Residuums ist, wobei das modifizierte Bellman-Residuum eine Hilfsfunktion (h(s, a)) umfasst, welche vom Zustand (st, xt) des technischen Systems und der im jeweiligen Zustand (st, xt) durchführbaren Aktion (at) abhängt.
  11. Verfahren nach Anspruch 10, bei dem die Hilfsfunktion durch ein drittes neuronales Netz modelliert wird, welches auf der Basis des Optimalitätskriteriums gelernt wird, wobei das dritte neuronale Netz ein Feed-Forward-Netz bildet mit einer Eingangsschicht (I) umfassend einen jeweiligen Zustand (st, xt) des technischen Systems und die in dem jeweiligen Zustand (st, xt) durchführbare Aktion (at), einer oder mehreren versteckten Schichten (H) sowie einer Ausgangsschicht (O) umfassend die Hilfsfunktion (h(s, a)).
  12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Optimalitätskriterium einen einstellbaren Parameter (ρ) umfasst, durch dessen Veränderung das Optimalitätskriterium angepasst wird.
  13. Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Zustand (st, xt) des technischen Systems ein oder mehrere Variablen umfasst und/oder eine am technischen System durchzuführende Aktion (at) ein oder mehrere Aktionsvariablen umfasst.
  14. Verfahren nach Anspruch 13, bei dem die eine oder mehreren Variablen beobachtete Zustandsgrößen des technischen Systems sind.
  15. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Zustände (st, xt) in den Datensätzen versteckte Zustände (xt) des technischen Systems sind, welche durch ein rekurrentes neuronales Netz (RNN) mit Hilfe von Ursprungsdatensätzen generiert werden, wobei die Ursprungsdatensätze jeweils einen beobachteten Zustand (st) des technischen Systems, eine in dem beobachteten Zustand (st) durchgeführte Aktion (at) sowie den daraus resultierenden Folgezustand (st+1) umfassen.
  16. Verfahren nach Anspruch 15, bei dem durch das rekurrente neuronale Netz (RNN) das dynamische Verhalten des technischen Systems modelliert wird, wobei das rekurrente neuronale Netz (RNN) gebildet ist durch wenigstens eine Eingangsschicht (I') umfassend die beobachteten Zustände (st) des technischen Systems und die am technischen System durchgeführten Aktionen (at), wenigstens eine versteckte rekurrente Schicht (H) umfassend die versteckten Zustände (xt) und wenigstens eine Ausgangsschicht (O') umfassend die beobachteten Zustände (st) des technischen Systems.
  17. Verfahren nach Anspruch 16, bei dem das rekurrente neuronale Netz (RNN) mit einem Lernverfahren gelernt wird.
  18. Verfahren nach Anspruch 17, bei dem das Lernverfahren ein Backpropagation-Verfahren ist.
  19. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System eine Turbine ist.
  20. Verfahren nach Anspruch 19, bei dem die Turbine eine Gasturbine ist.
  21. Verfahren nach Anspruch 20, bei dem mit dem Verfahren eine Gasturbine geregelt und/oder gesteuert wird, wobei die Zustände (st, xt) des technischen Systems und/oder die in den jeweiligen Zuständen (st, xt) durchführbaren Aktionen (at) eine oder mehrere der folgenden Größen umfassen: Gesamtleistung der Gasturbine; ein oder mehrere Drucke und/oder Temperaturen in der Gasturbine oder in der Umgebung der Gasturbine; Brennkammerbeschleunigungen in der Gasturbine; ein oder mehrere Einstellparameter an der Gasturbine.
  22. Verfahren nach Anspruch 21, bei dem der oder die Einstellparameter an der Gasturbine Ventileinstellungen und/oder Kraftstoffverhältnisse und/oder Vorleitschaufelstellungen umfassen.
  23. Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.
DE102007042440A 2007-09-06 2007-09-06 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems Expired - Fee Related DE102007042440B3 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE102007042440A DE102007042440B3 (de) 2007-09-06 2007-09-06 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
PCT/EP2008/061115 WO2009033944A1 (de) 2007-09-06 2008-08-26 Verfahren zur rechnergestützten steuerung und/oder regelung mit hilfe neuronaler netze
ES08787465T ES2426357T3 (es) 2007-09-06 2008-08-26 Procedimiento para el control y/o regulación apoyados por ordenador con ayuda de redes neuronales
JP2010523474A JP5243543B2 (ja) 2007-09-06 2008-08-26 ニューラルネットワークを用いてコンピュータ支援によって閉ループ制御および/または開ループ制御を行う方法
EP08787465.7A EP2185980B1 (de) 2007-09-06 2008-08-26 Verfahren zur rechnergestützten steuerung und/oder regelung mit hilfe neuronaler netze
US12/675,555 US8447706B2 (en) 2007-09-06 2008-08-26 Method for computer-aided control and/or regulation using two neural networks wherein the second neural network models a quality function and can be used to control a gas turbine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007042440A DE102007042440B3 (de) 2007-09-06 2007-09-06 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Publications (1)

Publication Number Publication Date
DE102007042440B3 true DE102007042440B3 (de) 2009-01-29

Family

ID=39986234

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007042440A Expired - Fee Related DE102007042440B3 (de) 2007-09-06 2007-09-06 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Country Status (6)

Country Link
US (1) US8447706B2 (de)
EP (1) EP2185980B1 (de)
JP (1) JP5243543B2 (de)
DE (1) DE102007042440B3 (de)
ES (1) ES2426357T3 (de)
WO (1) WO2009033944A1 (de)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012164075A2 (de) 2011-06-03 2012-12-06 Siemens Aktiengesellschaft Verfahren zur rechnergestützten generierung eines datengetriebenen modells eines technischen systems, insbesondere einer gasturbine oder windturbine
WO2014154375A1 (de) * 2013-03-26 2014-10-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
US9043254B2 (en) 2010-04-12 2015-05-26 Siemens Aktiengesellschaft Method for computer-aided closed-loop and/or open-loop control of a technical system
US10107205B2 (en) 2013-09-25 2018-10-23 Siemens Aktiengesellschaft Computer-aided control and/or regulation of a technical system
DE102017210294A1 (de) * 2017-06-20 2018-12-20 Robert Bosch Gmbh Verfahren und Vorrichtung zum Steuern eines Betriebs zumindest eines hochautomatisierten Systems einer Mehrzahl von miteinander interaktionsfähigen, hochautomatisierten Systemen
DE102018108106A1 (de) 2018-04-05 2019-10-10 Nolden Regelsysteme GmbH Temperaturregelung in der Kunststoffverarbeitung
EP3623881A1 (de) * 2018-09-17 2020-03-18 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum abschätzen eines technischen verhaltens einer vorrichtung
DE102018216295B4 (de) 2018-09-25 2022-05-05 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln eines Ansteuersignals zum Ansteuern eines Aktors

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6977684B1 (en) 1998-04-30 2005-12-20 Canon Kabushiki Kaisha Arrangement of circuits in pixels, each circuit shared by a plurality of pixels, in image sensing apparatus
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
US10089443B2 (en) 2012-05-15 2018-10-02 Baxter International Inc. Home medical device systems and methods for therapy prescription and tracking, servicing and inventory
JP5391164B2 (ja) * 2010-08-23 2014-01-15 日本電信電話株式会社 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
EP2649567B1 (de) * 2010-12-10 2016-08-17 Siemens Aktiengesellschaft Verfahren zur rechnergestützten modellierung eines technischen systems
DE102011081197A1 (de) * 2011-08-18 2013-02-21 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Modellierung eines technischen Systems
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US20150301510A1 (en) * 2014-04-22 2015-10-22 Siegmund Düll Controlling a Target System
JP6591672B2 (ja) * 2015-11-12 2019-10-16 ディープマインド テクノロジーズ リミテッド デュエリングディープニューラルネットワーク
US10839302B2 (en) 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US10909450B2 (en) * 2016-03-29 2021-02-02 Microsoft Technology Licensing, Llc Multiple-action computational model training and operation
US11605304B2 (en) * 2017-03-06 2023-03-14 International Business Machines Corporation Learning of policy for selection of associative topic in dialog system
US11164077B2 (en) * 2017-11-02 2021-11-02 Siemens Aktiengesellschaft Randomized reinforcement learning for control of complex systems
CN110837223A (zh) * 2018-08-15 2020-02-25 大唐南京发电厂 一种燃气轮机燃烧优化控制方法及系统
CN111198714B (zh) * 2018-11-16 2022-11-18 寒武纪(西安)集成电路有限公司 重训练方法及相关产品
GB2602771A (en) 2020-01-14 2022-07-13 Dubai Electricity And Water Authority A system for monitoring and controlling a dynamic network
US11883746B2 (en) * 2021-02-23 2024-01-30 Electronic Arts Inc. Adversarial reinforcement learning for procedural content generation and improved generalization
CN113625753B (zh) * 2021-08-07 2023-07-07 中国航空工业集团公司沈阳飞机设计研究所 一种由专家规则引导神经网络学习无人机机动飞行的方法
US20230206254A1 (en) * 2021-12-23 2023-06-29 Capital One Services, Llc Computer-Based Systems Including A Machine-Learning Engine That Provide Probabilistic Output Regarding Computer-Implemented Services And Methods Of Use Thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857321A (en) * 1996-06-11 1999-01-12 General Electric Company Controller with neural network for estimating gas turbine internal cycle parameters
EP0936351A2 (de) * 1998-02-12 1999-08-18 Yamaha Hatsudoki Kabushiki Kaisha Verfahren und Einrichtung zur Optimalwertsteuerung eines Regelgegenstandes mit lernfähiger Steuerlogik
DE69917711T2 (de) * 1998-06-02 2005-06-16 Yamaha Hatsudoki K.K., Iwata Methode zur Schätzung von Daten in einer Motorsteuerung
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0362840B1 (de) * 1988-10-06 1995-05-10 Kabushiki Kaisha Toshiba Neuronales Netzwerksystem
AU3477397A (en) * 1996-06-04 1998-01-05 Paul J. Werbos 3-brain architecture for an intelligent decision and control system
US6216083B1 (en) * 1998-10-22 2001-04-10 Yamaha Motor Co., Ltd. System for intelligent control of an engine based on soft computing
US6882992B1 (en) * 1999-09-02 2005-04-19 Paul J. Werbos Neural networks for intelligent control
JP2007065929A (ja) * 2005-08-30 2007-03-15 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
DE102007017259B4 (de) 2007-04-12 2009-04-09 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5857321A (en) * 1996-06-11 1999-01-12 General Electric Company Controller with neural network for estimating gas turbine internal cycle parameters
EP0936351A2 (de) * 1998-02-12 1999-08-18 Yamaha Hatsudoki Kabushiki Kaisha Verfahren und Einrichtung zur Optimalwertsteuerung eines Regelgegenstandes mit lernfähiger Steuerlogik
DE69917711T2 (de) * 1998-06-02 2005-06-16 Yamaha Hatsudoki K.K., Iwata Methode zur Schätzung von Daten in einer Motorsteuerung
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Schneegaß, D.; Udluft, St.; Martinetz, Th.: "Neura l Rewards Regression for Near-optimal Policy Inden tification in Markovian and Partial Observable Env iroments", in: Verleysen. M. Proc. of the ESANN, p p. 301-306 (2007)
Schneegaß, D.; Udluft, St.; Martinetz, Th.: "Neural Rewards Regression for Near-optimal Policy Indentification in Markovian and Partial Observable Enviroments", in: Verleysen. M. Proc. of the ESANN, pp. 301-306 (2007); *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043254B2 (en) 2010-04-12 2015-05-26 Siemens Aktiengesellschaft Method for computer-aided closed-loop and/or open-loop control of a technical system
WO2012164075A2 (de) 2011-06-03 2012-12-06 Siemens Aktiengesellschaft Verfahren zur rechnergestützten generierung eines datengetriebenen modells eines technischen systems, insbesondere einer gasturbine oder windturbine
US9466032B2 (en) 2011-06-03 2016-10-11 Siemens Aktiengesellschaft Method for the computer-supported generation of a data-driven model of a technical system, in particular of a gas turbine or wind turbine
WO2014154375A1 (de) * 2013-03-26 2014-10-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
US9926853B2 (en) 2013-03-26 2018-03-27 Siemens Aktiengesellschaft Method for the computerized control and/or regulation of a technical system
US10107205B2 (en) 2013-09-25 2018-10-23 Siemens Aktiengesellschaft Computer-aided control and/or regulation of a technical system
DE102017210294A1 (de) * 2017-06-20 2018-12-20 Robert Bosch Gmbh Verfahren und Vorrichtung zum Steuern eines Betriebs zumindest eines hochautomatisierten Systems einer Mehrzahl von miteinander interaktionsfähigen, hochautomatisierten Systemen
DE102018108106A1 (de) 2018-04-05 2019-10-10 Nolden Regelsysteme GmbH Temperaturregelung in der Kunststoffverarbeitung
DE102018108106B4 (de) 2018-04-05 2020-01-23 Nolden Regelsysteme GmbH Verfahren zum Regeln einer Temperatur einer Spritzgießmaschine und Regelsystem
EP3623881A1 (de) * 2018-09-17 2020-03-18 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum abschätzen eines technischen verhaltens einer vorrichtung
WO2020057940A1 (de) * 2018-09-17 2020-03-26 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum abschätzen eines technischen verhaltens einer vorrichtung
DE102018216295B4 (de) 2018-09-25 2022-05-05 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln eines Ansteuersignals zum Ansteuern eines Aktors

Also Published As

Publication number Publication date
JP2010538381A (ja) 2010-12-09
JP5243543B2 (ja) 2013-07-24
WO2009033944A1 (de) 2009-03-19
EP2185980A1 (de) 2010-05-19
EP2185980B1 (de) 2013-07-31
ES2426357T3 (es) 2013-10-22
US8447706B2 (en) 2013-05-21
US20100205974A1 (en) 2010-08-19

Similar Documents

Publication Publication Date Title
DE102007042440B3 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007017259B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007001024B4 (de) Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine
DE102008020380B4 (de) Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
EP2296062B1 (de) Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
DE102010011221B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE10165123B3 (de) Integrierte Optimalmodell-Vorhersagesteuerung in einem Prozeßsteuerungssystem
DE4416364B4 (de) Verfahren und Regeleinrichtung zur Regelung eines Prozesses
DE602005002839T2 (de) Ablaufplanung von industriellen produktionsprozessen
DE69823049T2 (de) Modellfreie adaptive prozesssteuerung
DE4338608B4 (de) Verfahren und Vorrichtung zur Führung eines Prozesses in einem geregelten System
AT512251B1 (de) Verfahren zum Entwerfen eines nichtlinearen Reglers für nichtlineare Prozesse
DE102007001025A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007001026A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102018109835A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Netzkonfiguration eines neuronalen Netzes
WO2021259980A1 (de) Training eines künstlichen neuronalen netzwerkes, künstliches neuronales netzwerk, verwendung, computerprogramm, speichermedium und vorrichtung
EP3785178A1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102022112606B3 (de) Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems
DE202019103233U1 (de) Vorrichtung zum Einstellen eines Hyperparameters
DE102011076969A1 (de) Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
WO2022002652A1 (de) Verfahren zur regelung eines regelsystems, trainingsverfahren, computerprogramm, speichermedium und steuereinheit
DE19527521C1 (de) Lernverfahren für ein neuronales Netz
EP3623881A1 (de) Computerimplementiertes verfahren zum abschätzen eines technischen verhaltens einer vorrichtung
DE4323432A1 (de) Lernalgorithmus für neuronale Netzwerke sowie damit arbeitender Stromsystemspannungs- und Blindleistungsregler

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110401