DE102010011221A1 - Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems - Google Patents

Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems Download PDF

Info

Publication number
DE102010011221A1
DE102010011221A1 DE102010011221A DE102010011221A DE102010011221A1 DE 102010011221 A1 DE102010011221 A1 DE 102010011221A1 DE 102010011221 A DE102010011221 A DE 102010011221A DE 102010011221 A DE102010011221 A DE 102010011221A DE 102010011221 A1 DE102010011221 A1 DE 102010011221A1
Authority
DE
Germany
Prior art keywords
technical system
states
state
hidden
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102010011221A
Other languages
English (en)
Other versions
DE102010011221B4 (de
Inventor
Siegmund Düll
Volkmar Sterzing
Dr. Udluft Steffen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102010011221A priority Critical patent/DE102010011221B4/de
Priority to PCT/EP2011/052162 priority patent/WO2011110404A1/de
Priority to EP20110706782 priority patent/EP2519861B1/de
Priority to CN201180013618.6A priority patent/CN102792234B/zh
Priority to DK11706782.7T priority patent/DK2519861T3/en
Priority to US13/583,057 priority patent/US20130013543A1/en
Publication of DE102010011221A1 publication Critical patent/DE102010011221A1/de
Application granted granted Critical
Publication of DE102010011221B4 publication Critical patent/DE102010011221B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems. In dem Verfahren wird ein rekurrentes neuronales Netz zur Modellierung des dynamischen Verhaltens des technischen Systems eingesetzt, dessen Eingangsschicht Zustände des technischen Systems und am technischen System durchgeführte Aktionen enthält, die einer rekurrenten versteckten Schicht zugeführt werden. Die Ausgangsschicht des rekurrenten neuronalen Netzes wird dabei durch ein Bewertungssignal repräsentiert, welches die Dynamik des technischen Systems wiedergibt. Gegebenenfalls können als Zustände der Ausgangsschicht auch ausschließlich die das Bewertungssignal beeinflussenden Zustands- bzw. Aktionsvariablen der Zustände des technischen Systems bzw. der am technischen System ausgeführten Aktionen verwendet werden. Die mit diesem rekurrenten neuronalen Netz generierten versteckten Zustände werden zur Steuerung bzw. Regelung des technischen Systems basierend auf einem Lern- und/oder Optimierungsverfahren eingesetzt. Das erfindungsgemäße Verfahren hat den Vorteil, dass die Dimension des Zustandsraums der rekurrenten versteckten Schicht in geeigneter Weise reduziert werden kann und dennoch die Dynamik des technischen Systems gut modelliert wird. Hierdurch kann eine recheneffiziente und genaue Steuerung bzw. Regelung des technischen Systems erreicht werden.

Description

  • Die Erfindung betrifft ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt.
  • Heutzutage weisen technische Systeme in der Regel eine hohe Komplexität auf, d. h. sie werden durch Zustände mit einer Vielzahl von Zustandsvariablen beschrieben. Ferner können an dem technischen System viele unterschiedliche Aktionen basierend auf entsprechenden Aktionsvariablen durchgeführt werden. Die Zustandsvariablen sind hierbei insbesondere messbare Zustandsgrößen des technischen Systems, wie z. B. physikalische Größen, wie Druck, Temperatur, Leistung und dergleichen. Die Aktionsvariablen stellen insbesondere einstellbare Größen des technischen Systems dar, wie z. B. die Zufuhr von Brennstoff zu Brennkammern in Gasturbinen.
  • Bei der Steuerung von komplexen technischen Systemen werden oftmals rechnergestützte Verfahren verwendet, welche das dynamische zeitliche Verhalten des technischen Systems unter Berücksichtigung vorbestimmter Kriterien optimieren. Beispiele solcher Verfahren sind Lernverfahren, wie hinlänglich aus dem Stand der Technik bekannte bestärkende Lernverfahren (Reinforcement Learning). Eine Variante eines solchen Lernverfahrens ist in der Druckschrift DE 10 2007 001 025 B4 beschrieben. Die bekannten Verfahren optimieren das dynamische Verhalten eines technischen Systems durch Bestimmung von geeigneten, am technischen System durchzuführenden Aktionen, wobei diese Aktionen Veränderungen von bestimmten Stellgrößen im technischen System, wie z. B. Veränderung von Ventilstellungen, Erhöhung von Drucken und dergleichen, umfassen. Jede Aktion wird hierbei in geeigneter Weise durch ein Bewertungssignal in der Form einer Belohnung bzw. Bestrafung, beispielsweise unter Einbeziehung einer Kostenfunktion, bewertet, wodurch ein optimales dynamisches Verhalten des technischen Systems erzielt werden kann.
  • Bei den oben beschriebenen Standardverfahren zur Steuerung bzw. Optimierung des dynamischen Verhaltens von technischen Systemen besteht das Problem, dass solche Verfahren nur in begrenztem Umfang für technische Systeme mit einer Vielzahl von Zustandsvariablen und Aktionsvariablen (d. h. in einem hoch dimensionalen Zustandsraum aus Zuständen und Aktionen) eingesetzt werden können.
  • Zur Reduzierung der Zustandsvariablen ist es aus der Druckschrift DE 10 2007 001 026 B4 bekannt, ein technisches System basierend auf einem rekurrenten neuronalen Netz zu modellieren, bei dem die Anzahl der Zustände in der rekurrenten versteckten Schicht geringer ist als in der Eingangsschicht bzw. Ausgangsschicht. Die versteckten Zustände werden dabei als Eingaben für entsprechende Lern- bzw. Optimierungsverfahren zur Regelung und/oder Steuerung des technischen Systems verwendet. Das Verfahren dieser Druckschrift vermindert zwar die Dimension des Zustandsraums der versteckten Schicht, berücksichtigt jedoch nicht, welcher Informationsgehalt zur Modellierung des dynamischen Verhaltens des technischen Systems tatsächlich erforderlich ist. Insbesondere werden bei der dort modellierten Dynamik in der Ausgangsschicht immer alle Zustandsvariablen aus der Eingangsschicht prognostiziert, ohne zu analysieren, welche Zustandsvariablen tatsächlich für die Modellierung des dynamischen Verhaltens des technischen Systems erforderlich sind. Demzufolge arbeitet das Verfahren dieser Druckschrift zwar auf einem verkleinerten Zustandsraum, stellt jedoch nicht sicher, dass in dem verkleinerten Zustandsraum die Dynamik des technischen Systems richtig modelliert wird. Dies führt zu einem größeren Fehler bei der Modellierung bzw. bei der rechnergestützten Steuerung und/oder Regelung des technischen Systems.
  • Aufgabe der Erfindung ist es, ein Verfahren zur Steuerung und/oder Regelung eines technischen Systems zu schaffen, welches mit hoher Recheneffizienz und Genauigkeit das dynamische Verhalten des technischen Systems modelliert.
  • Diese Aufgabe wird durch das Verfahren gemäß Patentanspruch 1 bzw. das Computerprogrammprodukt gemäß Patentanspruch 15 gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
  • Das erfindungsgemäße Verfahren dient zur rechnergestützten Steuerung bzw. Regelung eines technischen Systems, welches für mehrere Zeitpunkte jeweils durch einen Zustand mit einer Anzahl von Zustandsvariablen und eine am technischen System durchgeführte Aktion mit einer Anzahl von Aktionsvariablen sowie ein Bewertungssignal für den Zustand und die Aktion charakterisiert wird.
  • In dem erfindungsgemäßen Verfahren wird das dynamische Verhalten des technischen Systems mit einem rekurrenten neuronalen Netz umfassend eine Eingangsschicht, eine rekurrente versteckte Schicht und eine Ausgangsschicht basierend auf Trainingsdaten aus bekannten Zuständen, Aktionen und Bewertungssignalen modelliert, wobei:
    • i) die Eingangsschicht durch einen ersten Zustandsraum mit einer ersten Dimension gebildet wird, der die Zustände des technischen Systems und die am technischen System durchgeführten Aktionen umfasst;
    • ii) die rekurrente versteckte Schicht durch einen zweiten Zustandsraum mit einer zweiten Dimension gebildet wird, der versteckte Zustände mit einer Anzahl von versteckten Zustandsvariablen umfasst;
    • iii) die Ausgangsschicht durch einen dritten Zustandsraum mit einer dritten Dimension gebildet wird, welcher derart festgelegt wird, dass seine Zustände die Bewertungssignale oder ausschließlich solche Zustands- und/oder Aktionsvariablen repräsentieren, welche die Bewertungssignale beeinflussen.
  • Die Dimension des ersten Zustandsraums entspricht somit der Anzahl an Zustands- und Aktionsvariablen in der Eingangsschicht. Die Dimension des zweiten Zustandsraums ist durch die Anzahl an versteckten Zustandsvariablen gegeben. Die Dimension des dritten Zustandsraums entspricht der Dimension des Bewertungssignals (in der Regel eindimensional) bzw. der Anzahl an Zustands- und/oder Aktionsvariablen, welche dieses Signal beeinflussen.
  • Nach der Modellierung des dynamischen Verhaltens des technischen Systems wird im erfindungsgemäßen Verfahren auf den versteckten Zuständen in dem zweiten Zustandsraum ein Lern- und/oder Optimierungsverfahren zur Steuerung und/oder Regelung des technischen Systems durch Ausführen von Aktionen am technischen System durchgeführt.
  • Das erfindungsgemäße Verfahren zeichnet sich dadurch aus, dass ein rekurrentes neuronales Netz verwendet wird, dessen Ausgangsschicht durch das Bewertungssignal bzw. ausschließlich das Bewertungssignal bestimmende Größen beeinflusst wird. Auf diese Weise wird sichergestellt, dass ausschließlich solche Größen im rekurrenten neuronalen Netz modelliert werden, welche tatsächlich die Dynamik des technischen Systems beeinflussen. Hierdurch kann selbst bei einer Reduzierung der zweiten Dimension des zweiten Zustandsraums das dynamische Verhalten des technischen Systems sehr gut modelliert werden. Es wird somit eine präzise und recheneffiziente Regelung und/oder Steuerung des technischen Systems basierend auf den versteckten Zuständen in der versteckten Schicht ermöglicht.
  • Vorzugsweise erfolgt in dem erfindungsgemäßen Verfahren die Modellierung des dynamischen Verhaltens des technischen Systems derart, dass das rekurrente neuronale Netz basierend auf den Trainingsdaten derart trainiert wird, dass die Zustände der Ausgangsschicht für einen oder mehrere zukünftige Zeitpunkte aus einem oder mehreren vergangenen Zeitpunkten prognostiziert werden. Dies wird z. B. dadurch erreicht, dass der Fehler zwischen den prognostizierten Zuständen und den Zuständen gemäß den Trainingsdaten minimiert wird. Vorzugsweise werden bei der Prognose der Erwartungswert der Zustände der Ausgangsschicht und besonders bevorzugt der Erwartungswert des Bewertungssignals prognostiziert.
  • Um eine geeignete Prognose mit dem rekurrenten neuronalen Netz der Erfindung zu erreichen, sind in einer bevorzugten Variante die versteckten Zustände in der versteckten Schicht über Gewichte derart verbunden, dass sich die Gewichte für zukünftige Zeitpunkte von den Gewichten für vergangene Zeitpunkte unterscheiden. Das heißt, es wird in dem rekurrenten neuronalen Netz zugelassen, dass die Gewichte für zukünftige Zeitpunkte anders gewählt werden als für vergangene Zeitpunkte. Die Gewichte können dabei Matrizen sein, jedoch gegebenenfalls auch durch neuronale Netze in der Form von Multi-Layer-Perzeptronen repräsentiert sein. Auch die Gewichte zwischen den einzelnen Schichten im neuronalen Netz können durch Matrizen oder gegebenenfalls auch durch Multi-Layer-Perzeptronen realisiert werden.
  • Das erfindungsgemäße Verfahren weist insbesondere den Vorteil auf, dass auch technische Systeme mit nicht-linearer Dynamik gesteuert bzw. geregelt werden können. Ferner kann in dem erfindungsgemäßen Verfahren ein rekurrentes neuronales Netz mit einer nicht-linearen Aktivierungsfunktion eingesetzt werden.
  • Als Lern- bzw. Optimierungsverfahren, welche auf die versteckten Zustände der rekurrenten versteckten Schicht des rekurrenten neuronalen Netzes angewendet werden, können beliebige, aus dem Stand der Technik bekannte Verfahren eingesetzt werden. Beispielsweise kann das in der oben erwähnten Druckschrift DE 10 2007 001 025 B4 beschriebene Verfahren verwendet werden. Allgemein wird für das Lern- bzw. Optimierungsverfahren ein maschinelles Lernverfahren und insbesondere ein bestärkendes Lernverfahren verwendet. Beispiele solcher Lernverfahren sind dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning.
  • Um die zweite Dimension des zweiten Zustandsraums in dem rekurrenten neuronalen Netz geeignet einzustellen, wird in einer weiteren bevorzugten Variante des erfindungsgemäßen Verfahrens die zweite Dimension des zweiten Zustandsraums variiert, bis eine zweite Dimension gefunden ist, welche ein oder mehrere vorgegebene Kriterien erfüllt. Diese aufgefundene zweite Dimension wird dann für den zweiten Zustandsraum der rekurrenten versteckten Schicht verwendet. In einer bevorzugten Variante wird dabei die zweite Dimension des zweiten Zustandsraums schrittweise solange vermindert, wie die Abweichung zwischen den mit dem rekurrenten neuronalen Netz bestimmten Zuständen der Ausgangsschicht und den bekannten Zuständen gemäß den Trainingsdaten kleiner als ein vorbestimmter Schwellwert ist. Hierdurch kann in geeigneter Weise ein zweiter Zustandsraum mit reduzierter Dimension gefunden werden, der eine gute Modellierung des dynamischen Verhaltens des technischen Systems ermöglicht.
  • In einer weiteren Variante des erfindungsgemäßen Verfahrens wird das Bewertungssignal durch eine Bewertungsfunktion repräsentiert, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängt. Dieser Teil der Zustands- und/oder Aktionsvariablen kann somit gegebenenfalls die Zustände der Ausgangsschicht bilden.
  • In einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens wird das im rekurrenten-neuronalen Netz verwendete Bewertungssignal auch in dem daran anschließenden Lern- und/oder Optimierungsverfahren eingesetzt, um die Aktionen im Hinblick auf ein optimales Bewertungssignal auszuführen. Optimal bedeutet dabei, dass die Aktion zu einer hohen Belohnung bzw. zu geringen Kosten gemäß dem Bewertungssignal führt.
  • Das erfindungsgemäße Verfahren kann in beliebigen technischen Systemen zu deren Steuerung bzw. Regelung eingesetzt werden. In einer besonders bevorzugten Variante wird das erfindungsgemäße Verfahren zur Steuerung einer Turbine, insbesondere einer Gasturbine oder Windturbine, verwendet. Für eine Gasturbine ist das Bewertungssignal beispielsweise zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Turbine und/oder die mechanischen Belastungen der Brennkammern der Turbine bestimmt. Ziel der Optimierung ist dabei ein hoher Wirkungsgrad bzw. eine geringe Schadstoffemission bzw. eine geringe mechanische Belastung der Brennkammern. Bei der Verwendung des Verfahrens zur Regelung bzw. Steuerung einer Windturbine kann das Bewertungssignal beispielsweise zumindest die (dynamischen) Kraftbelastung auf ein oder mehrere Rotorblätter der Windturbine und die erzeugte elektrische Leistung darstellen.
  • Neben dem oben beschriebenen Verfahren umfasst die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner läuft.
  • Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
  • Es zeigen:
  • 1 ein schematisches Diagramm, welches allgemein die Modellierung des dynamischen Verhaltens eines technischen Systems verdeutlicht;
  • 2 eine schematische Darstellung eines rekurrenten neuronalen Netzes, welches in einer Ausführungsform der Erfindung zur Berechnung von versteckten Zuständen verwendet wird;
  • 3 eine schematische Darstellung eines technischen Systems in der Form einer Windturbine, wobei basierend auf Daten dieses Systems eine Ausführungsform des erfindungsgemäßen Verfahrens getestet wurde;
  • 4 ein Diagramm, welches die Ergebnisse einer Ausführungsform des erfindungsgemäßen Verfahrens basierend auf Daten der Windturbine gemäß 3 verdeutlicht; und
  • 5 ein Diagramm, welches Ergebnisse einer Ausführungsform des erfindungsgemäßen Verfahrens basierend auf dem an sich bekannten Cart-Pole-Problem wiedergibt.
  • 1 zeigt schematisch die Dynamik eines in der Erfindung betrachteten technischen Systems, welches durch eine Box mit Bezugszeichen T angedeutet ist. Das technische System wird dabei zu einem jeweiligen Zeitpunkt t durch einen beobachtbaren Zustand bzw. eine Oberservable zt und eine am technischen System durchgeführte Aktion at beschrieben. Dabei enthält das System interne bzw. versteckte Zustände st, welche nicht beobachtbar sind. Der versteckte Zustand st ändert sich dabei durch eine Aktion at und geht in den Zustand st+1 über. Der Zustand st+1 von der Aktion at sowie dem vorhergehenden Zustand st ab. Das technische System T ist ferner durch ein geeignetes Bewertungssignal (nicht aus 1 ersichtlich) spezifiziert, welches definiert, inwieweit die in einem Zustand des technischen Systems durchgeführte Aktion im Hinblick auf einen optimalen Betrieb des technischen Systems als gut einzustufen ist. Beispiele solcher Bewertungssignale sind die Schadstoffemission des technischen Systems oder die mechanische Belastung und Wechselbelastung des technischen Systems im Betrieb, wobei die Zielsetzung einer Steuerung bzw. Regelung des technischen Systems eine geringe Emission bzw. eine geringe mechanische Belastung ist.
  • Im erfindungsgemäßen Verfahren wird unter Berücksichtigung des Bewertungssignals zunächst eine geeignete Modellierung des dynamischen Verhaltens des technischen Systems basierend auf Trainingsdaten umfassend Zustände und Aktionen zu einer Vielzahl von Zeitpunkten durchgeführt. Im Folgenden wird als Bewertungssignal ein Belohnungssignal betrachtet, welches häufig auch als Reward bezeichnet wird und welches im Betrieb des technischen Systems möglichst groß sein sollte. Es wird davon ausgegangen, dass die Beschreibung des technischen Systems basierend auf den Zuständen und Aktionen einen sog. Markov-Entscheidungsprozess darstellt, wobei für diesen Entscheidungsprozess nur das Belohnungssignal eine relevante Information darstellt. Markov-Entscheidungsprozesse sind aus dem Stand der Technik bekannt und z. B. in der Druckschrift DE 10 2007 001 025 B4 näher definiert.
  • Mit dem erfindungsgemäßen Verfahren wird die für den durch die Belohnung definierten Markov-Entscheidungsprozess relevante Information in den versteckten Zustand st codiert, wobei – im Gegensatz zu bekannten Verfahren – für den Markov-Entscheidungsprozess nicht relevante Informationen unberücksichtigt bleiben. Um dies zu erreichen, ist das rekurrente neuronale Netz, welches zur Modellierung des dynamischen Verhaltens des technischen Systems verwendet wird, derart ausgestaltet, dass es in der Ausgangsschicht das Belohnungssignal bzw. ausschließlich das Belohnungssignal beeinflussende Größen enthält, wie weiter unten noch näher beschrieben wird.
  • Wie oben erwähnt, wird zunächst eine Modellierung des dynamischen Verhaltens des technischen Systems durchgeführt, wodurch geeignete versteckte Zustände des technischen Systems erhalten werden. Auf diese Zustände können anschließend geeignete Lern- bzw. Optimierungsverfahren zur Steuerung bzw. Regelung des technischen Systems angewendet werden. Diese Verfahren liefern dann im Realbetrieb des technischen Systems die jeweils optimale Aktion in einem bestimmten Zustand des technischen Systems, wobei die Optimalität durch das oben erwähnte Belohnungssignal festgelegt ist.
  • Zum besseren Verständnis wird zunächst erläutert, wie in herkömmlicher Weise mittels eines rekurrenten neuronalen Netzes das dynamische Verhalten eines technischen Systems modelliert werden kann und hierdurch entsprechende versteckte Zustände erhalten werden können. Allgemein kann die Dynamik eines technischen Systems für aufeinander folgende Zeitpunkte (t = 1, ..., T, T ∊ N) wie folgt beschrieben werden: st+1 = f(st, zt, at) (1) zt = g(st) (2)
  • In herkömmlichen Verfahren wird ein dynamisch konsistentes rekurrentes neuronales Netz verwendet, um den Markov-Zustandsraum zu beschreiben. Das Ziel dieses Netzes ist dabei eine Minimierung des Fehlers der prognostizierten Zustände zt des technischen Systems gegenüber den gemessenen Zuständen z d / t . Mathematisch kann dies wie folgt beschrieben werden:
    Figure 00100001
  • Es wird somit nach einer geeigneten Parametrisierung der Funktionen f und g gesucht, so dass die Abweichung zwischen prognostizierten und tatsächlichen beobachteten Zuständen minimal ist. In den Dokumenten DE 10 2007 001 025 B4 und DE 10 2007 001 026 B4 sind solche Modellierungen des technischen Systems basierend auf rekurrenten neuronalen Netzen gezeigt. Dabei enthalten die Ausgangsschichten in diesen Netzen, wie bereits oben erwähnt, die zu prognostizierenden Observablen.
  • Die Observablen werden in der Regel durch einen Vektor zt aus einer Vielzahl von Zustandsvariablen beschrieben. Analog werden die Aktionen durch einen Vektor at mit einer Vielzahl von Aktionsvariablen beschrieben. Es wurde nunmehr erkannt, dass in vielen Fällen nicht alle Einträge der Vektoren zt bzw. at berücksichtigt werden müssen, um die Dynamik des technischen Systems zu modellieren. Dies wird durch das nachfolgend beschriebene Markov-Entscheidungsprozess-Extraktions-Netzwerk erreicht, welches im Folgenden auch als MPEN-Netz bezeichnet wird. Es werden dabei gegenüber einem herkömmlichen, dynamisch konsistenten rekurrenten neuronalen Netz einige Änderungen vorgenommen.
  • Eine spezielle Ausführungsform eines MPEN-Netzes ist in 2 gezeigt. Die Eingangsschicht des MPEN-Netzes dieser Figur ist dabei mit I, die versteckte Schicht mit V und die Ausgangsschicht mit O bezeichnet. Der aktuelle Zeitpunkt ist der Zeitpunkt t. Man erkennt, dass die Eingangsschicht die Zustände zt–2, zt–1, zt sowie die entsprechenden Aktionen at–3, at–2, at–1, umfasst, welche in geeigneter Weise in die entsprechenden versteckten Zustände in der versteckten Schicht V einfließen. In der Ausführungsform der 2 existieren für die Vergangenheit zwei Arten von versteckten Zuständen, nämlich s i / t–2 , s i / t–1 bzw. st–2, st–1. Darüber hinaus enthält das Netz zum aktuellen Zeitpunkt t die versteckten Zustände s * / t und s ** / t . An einen Zustand und eine in diesem Zustand ausgeführte Aktion ist ferner die bereits oben erwähnte Belohnung gekoppelt, welche für den Zeitpunkt t in 1 mit rt bezeichnet ist. In 2 ist dabei für die Ausgangsschicht eine zum aktuellen Zeitpunkt t zu prognostizierende Belohnung wiedergegeben. In der Regel enthält die Ausgangsschicht noch weitere, in der Zukunft liegende Belohnungen rt+1, rt+2 usw., welche durch das Netz prognostiziert werden.
  • Der gestrichelte Teil des Netzes der 2 verdeutlicht die Prognose der Belohnung rt zum Zeitpunkt t, welche an eine interne Belohnung r i / t gekoppelt ist. Im Unterschied zu bekannten Netzen wird nunmehr die Ausgangsschicht O durch Belohnungssignale und nicht durch Zustandsvektoren beschrieben. Dies macht es erforderlich, dass das Netz der 2 in zwei Teilnetze aufzuteilen ist, wobei das erste Teilnetz links von der Linie L der 2 liegt und die Vergangenheit und Gegenwart beschreibt, wohingegen das zweite Teilnetz rechts von der Linie L liegt und Informationen aus dem ersten Teilnetz für die Vorhersage von Belohnungen verwendet. Hierbei ist zu berücksichtigen, dass das Ziel des Netzwerks der 2 nicht die Vorhersage einer Sequenz von Aktionen ist, d. h. die dargestellte Aktion at und auch weitere (nicht gezeigte) zukünftige Aktionen sind vorgegeben. Lediglich die Belohnungen basierend auf den vorgegebenen Aktionen werden prognostiziert. Die einzelnen Zustände in den Schichten sind in geeigneter Weise über mit Großbuchstaben bezeichneten Gewichtsmatrizen miteinander verbunden, wobei sich die Dynamik des Netzes der 2 durch folgende Gleichungen beschreiben lässt: st–1 = f(A p / 2·s i / t–1 + Bp·zt–1 – θ p / s) (4) s i / t = f(A p / 1·s i / t–1 + Cp·at–1 – θip) (5) s * / t = f(A p / 2·s i / t + Bp·zt – θs) (6) s** = f(D·s * / t – θ**) (7) st = f(E·s ** / t – θE) (8) s i / t+1 = f(A f / 1·st–1 + Cf·at–1 – θif) (9) st+1 = f(A f / 2·s i / t–1 – θ f / s) (10) r i / t = f(F·st + G·at + H·st+1 – θ i / r) (11) rt = f(J·r i / t – θr) (12) wobei dick gedruckte Symbole reellwertige Vektoren darstellen, alle Großbuchstaben reellwertige Matrizen darstellen, alle θ reellwertige, skalare Schwellwerte darstellen und
    Figure 00130001
    eine beliebige, meistens sigmoidale, Aktivierungsfunktion ist.
  • Anstatt der Verwendung von Gewichtsmatrizen können gegebenenfalls auch Multi-Layer-Perzeptronen zur Beschreibung der Gewichtungen verwendet werden.
  • Ein wichtiger Aspekt in dem Netz der 2 besteht darin, dass für die Vergangenheit andere Gewichtsmatrizen (nämlich A p / 1 , A p / 2 ) als für die Zukunft (nämlich A f / 1 , A f / 2 ) verwendet werden. Dies wird durch die oben beschriebene Aufteilung in ein erstes und ein zweites Teilnetz erreicht. Allgemein kann diese Aufteilung in Teilnetze derart beschrieben werden, dass ein Teilnetz für vergangene Zustände und ein Teilnetz für zukünftige Zustände derart gebildet ist, dass für den vorherzusagenden versteckten Zustand folgende Bedingung gilt:
    Figure 00130002
  • Durch die entsprechenden Funktionen fpast, fpresent und ffuture werden allgemein die entsprechenden, in 2 über Matrizen wiedergegebenen Kopplungen beschrieben. Erfindungsgemäß wird nunmehr anstatt aller beobachteter Zustandsvariablen das Belohnungssignal selbst als Zielgröße verwendet. Das heißt, es wird folgende Zustandsgröße prognostiziert: rt = g(st, at), t ≥ 0 (14)
  • Hierbei ist zu beachten, dass der aktuelle versteckte Zustand st und die ausgeführte Aktion at ausreichend sind, um den Erwartungswert aller relevanter Belohnungsfunktionen zu beschreiben, da alle Informationen über den Nachfolgezustand st+1 in diesen Argumenten enthalten sein müssen. Mit dem Belohnungssignal als Zielgröße kann die durch das MPEN-Netzwerk durchgeführte Optimierung wie folgt beschrieben werden:
    Figure 00140001
  • Man erkennt, dass im Unterschied zu der Gleichung (3) nunmehr basierend auf bekannten Belohnungssignalen r d / t aus Trainingsdaten nach einer Parametrisierung für f, g gesucht wird, welche den Fehler zwischen prognostiziertem Belohnungssignal und bekanntem Belohnungssignal minimiert. Ein derartiges rekurrentes neuronales Netz akkumuliert alle Information, welche für die Markov-Eigenschaft erforderlich ist, aus einer Sequenz von vergangenen Beobachtungen in dem ersten Teilnetz, wohingegen das zweite Teilnetz die Zustandsübergänge optimiert.
  • Das im Vorangegangenen beschriebene MPEN-Netz beruht auf der bewiesenen Erkenntnis, dass ein rekurrentes neuronales Netz zur Approximation eines Markov-Entscheidungsprozesses verwendet werden kann, indem alle erwarteten zukünftigen Folgezustände basierend auf einer Historie von Beobachtungen vorhergesagt werden. Aufgrund der rekurrenten neuronalen Netzstruktur muss jeder Zustand alle erforderliche Information codieren, um einen Folgezustand abzuschätzen, der sich aus der Durchführung einer Aktion ergibt. Aus diesem Grund muss ein rekurrentes neuronales Netz in der Lage sein, die erwarteten Belohnungssignale für jeden zukünftigen Zustand abzuschätzen, da eine Belohnungsfunktion nur einen Zustand, eine Aktion und einen Folgezustand als Argumente verwenden kann. Hieraus folgt, dass es für ein bestärkendes Lernen mit einem rekurrenten neuronalen Netz ausreichend ist, eine Dynamik zu modellieren, welche in der Lage ist, das Belohnungssignal für alle zukünftigen Zeitpunkte vorherzusagen. Basierend auf dieser Aussage wurde das oben beschriebene und beispielhaft in 2 gezeigte MPEN-Netz konstruiert.
  • Ein entsprechend mit Trainingsdaten gelerntes MPEN-Netz wird im Rahmen der Erfindung als Zustandsschätzer für den versteckten Zustand st+1 Dieser Zustand dient dann als Eingabe für ein weiteres Lern- und/oder Optimierungsverfahren. In diesem Aspekt entspricht das erfindungsgemäße Verfahren dem in der Druckschrift DE 10 2007 001 026 B4 beschriebenen Verfahren, wobei erfindungsgemäß jedoch eine andere Modellierung für das dynamische Verhalten des technischen Systems verwendet wird. Als nachgeschaltete Lern- und/oder Optimierungsverfahren werden aus dem Stand der Technik bekannte maschinelle Lernverfahren eingesetzt, beispielsweise kann das bestärkende Lernverfahren aus der Druckschrift DE 10 2007 001 025 B4 verwendet werden. Ebenso können die bekannten Lernverfahren Dynamische Programmierung, Prioritized Sweeping und Q-Learning eingesetzt werden.
  • 3 verdeutlicht ein technisches System in der Form einer Windturbine, wobei basierend auf Betriebsdaten der Windturbine eine Ausführungsform des erfindungsgemäßen Verfahrens getestet wurde. Die Windturbine ist in 1 mit Bezugszeichen 1 bezeichnet und umfasst drei Rotorblätter 1a, 1b und 1c. Das dynamische Verhalten der Windturbine wurde sowohl mit einem herkömmlichen rekurrenten neuronalen Netz als auch mit dem erfindungsgemäßen MPEN-Netz modelliert, wobei als Belohnungssignal die auf die Rotorblätter wirkende Last verwendet wurde, welche zu minimieren ist. Eine an der Windturbine auszuführende Aktion ist dabei durch die Veränderung des Anstellwinkels der einzelnen Rotorblätter spezifiziert, wobei diese Veränderung durch entsprechende Kreise C in 3 angedeutet ist.
  • In den durchgeführten Experimenten wurden als Eingangsvariablen, d. h. als Zustände der Eingangsschicht, insgesamt 46 Variablen betrachtet. In dem herkömmlichen rekurrenten neuronalen Netz wurde auch die Ausgangsschicht mit diesen 46 Variablen beschrieben. Demgegenüber wurde in dem erfindungsgemäßen MPEN-Netz nur das Belohnungssignal als zu prognostizierende Ausgabe betrachtet. Es wurden dabei verschiedene rekurrente neuronale Netze mit unterschiedlich vielen vergangenen Zuständen sowie zukünftigen zu prognostizierenden Zuständen bzw. Belohnungen betrachtet. Ebenso wurde die Dimension der entsprechenden versteckten Zustände (d. h. die Anzahl der Zustandsvariablen eines versteckten Zustands) unterschiedlich gewählt.
  • 4 zeigt ein Diagramm, welches den durchschnittlichen Prognosefehler PE für die Last auf die Rotorblätter in Abhängigkeit von dem prognostizierten Zeitschritt TS in der Zukunft wiedergibt. Die Linien L1 und L2 zeigen dabei den Fehler für herkömmliche neuronale Netze, bei denen jeweils versteckte Zustände mit 20 Zustandsvariablen betrachtet wurden. Für das Netz gemäß der Linie L2 wurden ferner anstatt von 46 Variablen in der Eingangsschicht nur 26 Variablen verwendet. Demgegenüber zeigt die Linie L3 ein MPEN-Netz mit versteckten Zuständen aus vier Zustandsvariablen und die Linie L4 ein MPEN-Netz mit versteckten Zuständen aus 20 Zustandsvariablen. Man erkennt, dass die MPEN-Netze bessere Prognosen als die herkömmlichen rekurrenten neuronalen Netze liefern, obwohl sie einen versteckten Zustandsraum mit nur vier Variablen verwenden. Das erfindungsgemäße MPEN-Netz, bei dem Belohnungssignale prognostiziert werden, beschreibt somit sehr gut die Dynamik eines technischen Systems in der Form einer Windturbine. Dabei ist das Verfahren sehr recheneffizient, da bereits eine geringe Anzahl von versteckten Zustandsvariablen zur Modellierung des Systems ausreichend ist. Es kann somit davon ausgegangen werden, dass eine nachfolgende Steuerung bzw. Regelung einer Windturbine basierend auf mit dem MPEN-Netz prognostizierten versteckten Zuständen einen optimierten Betrieb der Windturbine mit möglichst geringer Last auf die Rotorblätter ermöglicht.
  • Das erfindungsgemäße Verfahren wurde ferner anhand des hinlänglich aus dem Stand der Technik bekannten Cart-Pole-Problems getestet. Dieses Problem ist z. B. in der Druckschrift DE 10 2007 001 025 B4 näher erläutert. Das klassische Cart-Pole-Problem betrifft einen Stab, der auf einem sich in der Ebene bewegenden Fahrzeug schwenkbar befestigt ist, wobei sich das Fahrzeug zwischen zwei Begrenzungen hin und her bewegen kann. Der Stab ist nach oben ausgerichtet und Ziel ist es, den Stab so lange wie möglich durch Verschieben des Fahrzeugs innerhalb der Begrenzungen zu balancieren, ohne dass die Begrenzungen erreicht werden oder sich der Stab mehr als 12° gegenüber der Vertikalen neigt. Das Problem ist dann gelöst, wenn der Stab für mehr als 100000 Schritte, welche jeweils eine vorbestimmte Bewegung des Fahrzeugs darstellen, balanciert wird. Ein entsprechendes Belohnungssignal wird dabei durch den Wert –1 definiert, wenn eine der Grenzen erreicht wird. Ansonsten ist das Belohungssignal 0. Der Markovsche Zustand des Cart-Pole-Problems zu jedem Zeitpunkt t wird vollkommen durch die Position des Fahrzeugs xt, die Geschwindigkeit des Fahrzeugs ẋt, den Winkel des Stabs senkrecht zum Fahrzeug αt und die Winkelgeschwindigkeit α .t des Stabs beschrieben. Mögliche Aktionen umfassen dabei eine Bewegung des Fahrzeugs nach links bzw. nach rechts mit einer konstanten Kraft F oder das Nichtanwenden einer Kraft.
  • Zum Test des erfindungsgemäßen Verfahrens wurden in der Eingangsschicht des MPEN-Netzes nur drei Observablen, nämlich die Position und Geschwindigkeit des Fahrzeugs und der Winkel des Stabs, betrachtet. Hierdurch wurde die Markov-Bedingung verletzt. Die mit dem MPEN-Netz erhaltenen versteckten Zustände wurden anschließend einem Lernverfahren basierend auf tabellenbasierter dynamischer Programmierung zugeführt. Obwohl die Markov-Bedingung durch die Betrachtung von nur drei Observablen verletzt ist, konnte mit dem MPEN-Netz trotzdem in geeigneter Weise ein Markov-Entscheidungsprozess extrahiert werden und das Cart-Pole-Problem zufriedenstellend gelöst werden.
  • Dies wird durch 5 veranschaulicht, welche ein Diagramm zeigt, das das die gelernten Aktionsauswahlregeln wiedergibt. Die Linie L' der 5 verdeutlicht die mit dem MPEN-Netz und der anschließenden dynamischen Programmierung erhaltene Anzahl von aufeinander folgenden Balancierungsschritten BS in Abhängigkeit von der Anzahl von Beobachtungen B, mit denen die dynamische Programmierung gelernt wurde. Demgegenüber repräsentiert die Linie L'' in 5 die Anzahl an aufeinander folgenden Balancierungsschritten für eine dynamische Programmierung basierend auf den ursprünglichen vier Observablen ohne vorgeschaltetes MPEN-Netz. Das MPEN-Netz wurde mit 25000 Trainingsdaten trainiert, wobei – wie oben erwähnt – nur drei Observablen berücksichtigt wurden. Man erkennt aus 5, dass trotz des Weglassens einer Observablen für das Cart-Pole-Problem sehr gute Ergebnisse mit einer hohen Anzahl von balancierten Schritten erreicht werden.
  • Wie sich aus den obigen Erläuterungen ergibt, weist das erfindungsgemäße Verfahren eine Reihe von Vorteilen auf. Insbesondere wird eine hohe Prognosegüte erreicht, welche wesentlich besser ist als bei herkömmlichen rekurrenten neuronalen Netzen. Ferner kann bei der Modellierung der Dynamik des technischen Systems ein kompakter interner Zustandsraum mit wenigen versteckten Zustandsvariablen verwendet werden. Dieser eröffnet die Möglichkeit, für die auf die versteckten Zustände angewendeten Lern- und/oder Optimierungsverfahren auch solche Verfahren zu verwenden, welche als Eingangsdaten einen Zustandsraum mit einer kleinen Dimension benötigen.
  • In dem erfindungsgemäßen Verfahren werden durch die Nutzung des Bewertungssignals bzw. der das Bewertungssignal ausschließlich beeinflussenden Größen als zu prognostizierende Zielwerte nur die für die Dynamik des Systems relevanten Aspekte berücksichtigt. Hierdurch kann ein Zustand mit minimaler Dimension in der versteckten Schicht eingesetzt werden, der anschließend als Zustand für ein entsprechendes Lern-Verfahren bzw. eine modellprädikative Regelung oder andere Optimierungsverfahren zur Suche im Raum der Aktionen genutzt werden kann, um somit ein auf dem Bewertungssignal basierendes Optimalsteuerungsproblem zu lösen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102007001025 B4 [0003, 0016, 0030, 0035, 0045, 0049]
    • DE 102007001026 B4 [0005, 0035, 0045]

Claims (15)

  1. Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems (T), bei dem: a) das technische System (T) für mehrere Zeitpunkte (t) jeweils durch einen Zustand (xt) mit einer Anzahl von Zustandsvariablen und eine am technischen System durchgeführte Aktion (at) mit einer Anzahl von Aktionsvariablen sowie ein Bewertungssignal (rt) für den Zustand (xt) und die Aktion (at) charakterisiert wird; b) das dynamische Verhalten des technischen Systems (T) mit einem rekurrenten neuronalen Netz umfassend eine Eingangsschicht (I), eine rekurrente versteckte Schicht (H) und eine Ausgangsschicht (O) basierend auf Trainingsdaten aus bekannten Zuständen (xt), Aktionen (at) und Bewertungssignalen (rt) modelliert wird, wobei: i) die Eingangsschicht (I) durch einen ersten Zustandsraum mit einer ersten Dimension gebildet wird, der die Zustände (xt) des technischen Systems (T) und die am technischen System (T) durchgeführten Aktionen (at) umfasst; ii) die rekurrente versteckte Schicht (V) durch einen zweiten Zustandsraum mit einer zweiten Dimension gebildet wird, der versteckte Zustände (st, st i, st*, st**) mit einer Anzahl von versteckten Zustandsvariablen umfasst; iii) die Ausgangsschicht (O) durch einen dritten Zustandsraum mit einer dritten Dimension gebildet wird, welcher derart festgelegt wird, dass seine Zustände die Bewertungssignale (rt) oder ausschließlich solche Zustands- und/oder Aktionsvariablen repräsentieren, welche die Bewertungssignale (rt) beeinflussen; c) auf den versteckten Zuständen (st) in dem zweiten Zustandsraum ein Lern- und/oder Optimierungsverfahren zur Steuerung und/oder Regelung des technischen Systems (T) durch Ausführen von Aktionen (at) am technischen System (T) durchgeführt wird.
  2. Verfahren nach Anspruch 1, bei dem bei der Modellierung des dynamischen Verhaltens des technischen System in Schritt b) das rekurrente neuronale Netz basierend auf den Trainingsdaten derart trainiert wird, dass die Zustände (rt) der Ausgangsschicht (O) für einen oder mehrere zukünftige Zeitpunkte aus einem oder mehreren vergangenen Zeitpunkten prognostiziert werden.
  3. Verfahren nach Anspruch 2, bei dem die versteckten Zustände (st, st i, st*, st**) in der versteckten Schicht (V) über Gewichte (A1 p, A1 p, A1 f, A1 f) derart verbunden sind, dass sich die Gewichte (A1 f, A1 f) für zukünftige Zeitpunkte von den Gewichten (A1 p, A1 p) für vergangene Zeitpunkte unterscheiden.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System eine nicht-lineare Dynamik aufweist.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Schritt b) das rekurrente neuronale Netz eine nichtlineare Aktivierungsfunktion verwendet.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Lern- und/oder Optimierungsverfahren in Schritt c) ein maschinelles Lernverfahren und insbesondere ein bestärkendes Lernverfahren ist.
  7. Verfahren nach Anspruch 6, bei dem das Lern- und/oder Optimierungsverfahren Dynamische Programmierung und/oder Prioritized Sweeping und/oder Q-Learning umfasst.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Schritt b) die zweite Dimension des zweiten Zustandsraums variiert wird, bis eine zweite Dimension gefunden ist, welche ein oder mehrere vorgegebene Kriterien erfüllt.
  9. Verfahren nach Anspruch 8, bei dem in Schritt b) die zweite Dimension des zweiten Zustandsraums schrittweise solange vermindert wird, wie die Abweichung zwischen den mit dem rekurrenten neuronalen Netz bestimmten Zuständen (rt) der Ausgangsschicht (O) und den bekannten Zuständen gemäß den Trainingsdaten kleiner als ein vorbestimmter Schwellwert ist.
  10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Bewertungssignal (rt) durch eine Bewertungsfunktion repräsentiert wird, welche von einem Teil der Zustands- und/oder Aktionsvariablen abhängt.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Lern- und/oder Optimierungsverfahren in Schritt c) die Bewertungssignale (rt) verwendet, um die Aktionen (at) im Hinblick auf ein optimales Bewertungssignal (rt) auszuführen.
  12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Turbine, insbesondere eine Gasturbine oder eine Windturbine, ist.
  13. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Gasturbine ist, wobei das Bewertungssignal (rt) zumindest durch den Wirkungsgrad und/oder die Schadstoffemission der Gasturbine und/oder die Wechseldrücke und/oder mechanischen Belastungen der Brennkammern der Gasturbine bestimmt ist.
  14. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System eine Windturbine ist, wobei das Bewertungssignal (rt) zumindest durch die Kraftbelastung und/oder Wechselbelastung auf ein oder mehrere Rotorblätter der Windturbine bestimmt ist.
  15. Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.
DE102010011221A 2010-03-12 2010-03-12 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems Expired - Fee Related DE102010011221B4 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE102010011221A DE102010011221B4 (de) 2010-03-12 2010-03-12 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
PCT/EP2011/052162 WO2011110404A1 (de) 2010-03-12 2011-02-15 Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP20110706782 EP2519861B1 (de) 2010-03-12 2011-02-15 Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
CN201180013618.6A CN102792234B (zh) 2010-03-12 2011-02-15 用于计算机辅助地控制和/或调节技术系统的方法
DK11706782.7T DK2519861T3 (en) 2010-03-12 2011-02-15 Method of computer-aided management and / or regulation of a technical system
US13/583,057 US20130013543A1 (en) 2010-03-12 2011-02-15 Method for the computer-aided control of a technical system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102010011221A DE102010011221B4 (de) 2010-03-12 2010-03-12 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Publications (2)

Publication Number Publication Date
DE102010011221A1 true DE102010011221A1 (de) 2011-09-15
DE102010011221B4 DE102010011221B4 (de) 2013-11-14

Family

ID=43923710

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102010011221A Expired - Fee Related DE102010011221B4 (de) 2010-03-12 2010-03-12 Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Country Status (6)

Country Link
US (1) US20130013543A1 (de)
EP (1) EP2519861B1 (de)
CN (1) CN102792234B (de)
DE (1) DE102010011221B4 (de)
DK (1) DK2519861T3 (de)
WO (1) WO2011110404A1 (de)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012076306A1 (de) 2010-12-10 2012-06-14 Siemens Aktiengesellschaft Verfahren zur rechnergestützten modellierung eines technischen systems
WO2012164075A2 (de) 2011-06-03 2012-12-06 Siemens Aktiengesellschaft Verfahren zur rechnergestützten generierung eines datengetriebenen modells eines technischen systems, insbesondere einer gasturbine oder windturbine
DE102011076969A1 (de) 2011-06-06 2012-12-06 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
WO2013160090A1 (de) * 2012-04-23 2013-10-31 Siemens Aktiengesellschaft Verfahren zur regelung einer turbine mit einem rekurrenten neuronalen netz
WO2014154374A1 (de) * 2013-03-26 2014-10-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
WO2015043806A1 (de) 2013-09-25 2015-04-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
WO2019057489A1 (de) * 2017-09-20 2019-03-28 Siemens Aktiengesellschaft Verfahren und trainingsdatengenerator zum konfigurieren eines technischen systems sowie steuereinrichtung zum steuern des technischen systems
EP3588211A1 (de) * 2018-06-27 2020-01-01 Siemens Aktiengesellschaft Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089443B2 (en) 2012-05-15 2018-10-02 Baxter International Inc. Home medical device systems and methods for therapy prescription and tracking, servicing and inventory
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN102562469B (zh) * 2011-12-27 2014-01-22 华北电力大学 基于校正算法的短期风力发电机输出功率预测方法
NZ710933A (en) * 2013-03-25 2019-06-28 Yuyama Mfg Co Ltd Pharmaceutical packaging apparatus, method of determining remaining quantity of pharmaceutical packaging paper, and pharmaceutical packaging paper roll
WO2014154375A1 (de) * 2013-03-26 2014-10-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
CN103410662A (zh) * 2013-08-06 2013-11-27 江苏科技大学 风电系统最大风能捕获神经网络补偿控制方法
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
DE102014212747A1 (de) 2014-07-01 2016-01-07 Siemens Aktiengesellschaft Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System
EP3012694A1 (de) * 2014-10-22 2016-04-27 Siemens Aktiengesellschaft Verfahren zur Bestimmung eines Emissionsverhaltens
JP6612716B2 (ja) 2016-11-16 2019-11-27 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
DE102016224207A1 (de) * 2016-12-06 2018-06-07 Siemens Aktiengesellschaft Verfahren und Steuereinrichtung zum Steuern eines technischen Systems
EP3710667B1 (de) * 2017-11-15 2023-04-26 Services Pétroliers Schlumberger Feldeinsatzsystem mit filter
EP3534278A1 (de) * 2018-02-28 2019-09-04 Siemens Aktiengesellschaft Verfahren und anordnung zum rechnergestützten entwerfen einer industriellen fertigungsanlage
JP6784722B2 (ja) * 2018-06-28 2020-11-11 ファナック株式会社 出力装置、制御装置、及び評価関数値の出力方法
CN113168499A (zh) * 2018-10-13 2021-07-23 伊普拉利技术有限公司 检索专利文档的方法
KR20210062838A (ko) * 2019-11-22 2021-06-01 엘지전자 주식회사 인공지능 기반의 음성처리 방법
US20220199078A1 (en) * 2020-12-22 2022-06-23 Samsung Electronics Co., Ltd. Electronic apparatus, system comprising electronic apparatus and server and controlling method thereof
US11883746B2 (en) * 2021-02-23 2024-01-30 Electronic Arts Inc. Adversarial reinforcement learning for procedural content generation and improved generalization
US20230111052A1 (en) * 2021-10-13 2023-04-13 International Business Machines Corporation Self-learning annotations to generate rules to be utilized by rule-based system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997036248A1 (de) * 1996-03-25 1997-10-02 Siemens Aktiengesellschaft Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes
DE102007001026B4 (de) 2007-01-02 2008-09-04 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007001025B4 (de) 2007-01-02 2008-11-20 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750010A (zh) * 2005-10-09 2006-03-22 万向钱潮股份有限公司 一种计算机辅助的汽车底盘选型方法
DE102007001024B4 (de) * 2007-01-02 2008-10-02 Siemens Ag Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine
DE102008020379A1 (de) * 2008-04-23 2009-10-29 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997036248A1 (de) * 1996-03-25 1997-10-02 Siemens Aktiengesellschaft Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
WO2005081076A2 (de) * 2004-02-24 2005-09-01 Siemens Aktiengesellschaft Verfahren, zur prognose eines brennkammerzustandes unter verwendung eines rekurrenten, neuronalen netzes
DE102007001026B4 (de) 2007-01-02 2008-09-04 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102007001025B4 (de) 2007-01-02 2008-11-20 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012076306A1 (de) 2010-12-10 2012-06-14 Siemens Aktiengesellschaft Verfahren zur rechnergestützten modellierung eines technischen systems
US9489619B2 (en) 2010-12-10 2016-11-08 Siemens Aktiengesellschaft Method for the computer-assisted modeling of a technical system
US9466032B2 (en) 2011-06-03 2016-10-11 Siemens Aktiengesellschaft Method for the computer-supported generation of a data-driven model of a technical system, in particular of a gas turbine or wind turbine
WO2012164075A2 (de) 2011-06-03 2012-12-06 Siemens Aktiengesellschaft Verfahren zur rechnergestützten generierung eines datengetriebenen modells eines technischen systems, insbesondere einer gasturbine oder windturbine
DE102011076969A1 (de) 2011-06-06 2012-12-06 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
WO2013160090A1 (de) * 2012-04-23 2013-10-31 Siemens Aktiengesellschaft Verfahren zur regelung einer turbine mit einem rekurrenten neuronalen netz
US9639070B2 (en) 2012-04-23 2017-05-02 Siemens Aktiengesellschaft Controlling a turbine with a recurrent neural network
WO2014154374A1 (de) * 2013-03-26 2014-10-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
WO2015043806A1 (de) 2013-09-25 2015-04-02 Siemens Aktiengesellschaft Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
US10107205B2 (en) 2013-09-25 2018-10-23 Siemens Aktiengesellschaft Computer-aided control and/or regulation of a technical system
WO2019057489A1 (de) * 2017-09-20 2019-03-28 Siemens Aktiengesellschaft Verfahren und trainingsdatengenerator zum konfigurieren eines technischen systems sowie steuereinrichtung zum steuern des technischen systems
EP3588211A1 (de) * 2018-06-27 2020-01-01 Siemens Aktiengesellschaft Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung
WO2020002447A1 (de) * 2018-06-27 2020-01-02 Siemens Aktiengesellschaft Steuereinrichtung zum steuern eines technischen systems und verfahren zum konfigurieren der steuereinrichtung

Also Published As

Publication number Publication date
US20130013543A1 (en) 2013-01-10
DK2519861T3 (en) 2015-07-20
DE102010011221B4 (de) 2013-11-14
EP2519861A1 (de) 2012-11-07
EP2519861B1 (de) 2015-05-20
CN102792234A (zh) 2012-11-21
WO2011110404A1 (de) 2011-09-15
CN102792234B (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
DE102010011221B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP3132317B1 (de) Verfahren zur rechnergestützten anlagensteuerungsoptimierung mittels einem simulationsmodul
EP2108139B1 (de) Verfahren zur rechnergestützten regelung und/oder steuerung eines technischen systems, insbesondere einer gasturbine
EP2106576B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP2649567B1 (de) Verfahren zur rechnergestützten modellierung eines technischen systems
EP2296062B1 (de) Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
EP2135140B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP2097793B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
AT512977B1 (de) Methode zur Ermittlung eines Modells einer Ausgangsgröße eines technischen Systems
EP2962161B1 (de) Verfahren zum entwerfen eines nichtlinearen reglers für nichtlineare prozesse
WO2009033944A1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung mit hilfe neuronaler netze
EP2112568A2 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
EP3662418A1 (de) Verfahren und vorrichtung für maschinelles lernen in einer recheneinheit
EP2422246B1 (de) Regelsystem
EP2943841B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
AT412678B (de) Verfahren zur rechnergestützten erstellung von prognosen für operative systeme sowie system zur erstellung von prognosen für operative systeme
WO2021259980A1 (de) Training eines künstlichen neuronalen netzwerkes, künstliches neuronales netzwerk, verwendung, computerprogramm, speichermedium und vorrichtung
DE102011076969B4 (de) Verfahren zum rechnergestützten Lernen einer Regelung und/oder Steuerung eines technischen Systems
EP3528063B1 (de) Verfahren zur rechnergestützten erstellung eines prognosemodells zur prognose von einer oder mehreren zielgrössen
EP4057482A1 (de) Verfahren und vorrichtung zur zustandsschätzung eines elektrischen netzes
DE19904974A1 (de) Verfahren zum Betreiben eines Dampferzeugers unter Einsatz eines Freilastrechners
DE102019214640A1 (de) Steuervorrichtung und steuerverfahren
EP3623881A1 (de) Computerimplementiertes verfahren zum abschätzen eines technischen verhaltens einer vorrichtung
EP3489773A1 (de) Verfahren zum rechnergestützten steuern eines technischen systems, insbesondere einer energieerzeugungsanlage
WO1996009573A2 (de) Einrichtung zur adaptiven regelung einer strecke

Legal Events

Date Code Title Description
R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20140215

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee