-
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Ansteuerung mindestens eines Rotorblatts einer Windturbine sowie eine entsprechende Windturbine.
-
Bekannte Steuerverfahren für Windturbinen verändern zyklisch den Anstellwinkel der Rotorblätter. Hierdurch kann in einigen Fällen eine Belastung der Rotorblätter verringert werden. Allerdings gibt es auch Situationen, in denen durch ebensolche Veränderungen der Anstellwinkel die Belastungen auf die Rotorblätter sogar deutlich erhöht werden.
-
Dies ist von Nachteil, weil durch derartige Belastungen die Lebensdauer des Rotorblatts, der Hauptwelle, des Antriebsstrangs und des Masten der Windturbine reduziert wird und der Wartungsaufwand steigt.
-
Die Aufgabe der Erfindung besteht darin, den vorstehend genannten Nachteil zu vermeiden und insbesondere eine Lösung zum effizienten Betrieb bzw. zur optimierten Einstellung einer Windturbine bzw. der Rotorblätter einer Windturbine anzugeben.
-
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesondere den abhängigen Ansprüchen entnehmbar.
-
Zur Lösung der Aufgabe wird ein Verfahren zur Ansteuerung mindestens eines Rotorblatts einer Windturbine vorgeschlagen,
- – bei dem Daten einer Windturbine ermittelt werden;
- – bei dem anhand der Daten ein Modell der Windturbine ermittelt wird;
- – bei dem eine Aktionssequenz bestimmt wird basierend auf dem Modell der Windturbine;
- – bei dem das mindestens eine Rotorblatt mittels der Aktionssequenz angesteuert wird.
-
Bei den Daten handelt es sich insbesondere um Beobachtungen der Windturbine, der Rotorblätter, des Antriebsstrangs oder des Turms. Die Daten können für eine vorgegebene Zeitdauer gespeichert und so in Form von zurückliegenden Beobachtungen berücksichtigt werden. Die Daten können reale Messungen als auch Simulationsdaten umfassen.
-
Insbesondere können unterschiedliche Sensoren (z.B. Temperatur, Feuchtigkeit, Luftdruck, Geschwindigkeit, Beschleunigung, etc.) dazu vorgesehen sein, die Daten von der Anlage zu erhalten.
-
Die hier vorgestellte Lösung ermöglicht einen effizienten Betrieb einer Windturbine. Basierend auf einer neuronalen Systemmodellierung und unter Verwendung neuronaler Last-Prognosen werden Maßnahmen zur Einstellung des Anstellwinkels der Rotorblätter abgeleitet.
-
Die vorliegende Lösung ermöglicht insbesondere eine Steuerung bzw. Regelung eines Anstellwinkels von Rotorblättern einer Windturbine. Hierdurch wird die Belastung der Rotorblätter reduziert und damit deren Lebensdauer verlängert. Es werden beispielsweise die Anstellwinkel der einzelnen Rotorblätter in Bezug auf deren Bewegungsebene (Rotorfläche) eingestellt, wodurch der aerodynamische Auftrieb des Rotorblatts verändert und damit die Belastung des Rotorblatts, der Hauptwelle, des Antriebsstrangs und des Turms erhöht oder verringert wird.
-
Sofern Spitzenbelastungen oder starke wechselnde Belastungen reduziert werden können, ist es möglich, nicht nur die Lebensdauer der Windturbine zu erhöhen sondern auch deren Wartungskosten deutlich zu vermindern.
-
Diese Lösung ermöglicht eine flexible Adaption. Die Definition einer generischen Kostenfunktion ermöglicht eine flexible Optimierung hinsichtlich unterschiedlicher Ziele, die allesamt mittels eines einheitlichen Ansatzes (z.B. zur Verminderung der Belastung des Rotorblatts, der Hauptwelle, des Antriebsstrangs und/oder des Masten) umgesetzt werden können.
-
Eine Weiterbildung ist es, dass die Aktionssequenz bestimmt wird basierend auf einer Prognose und basierend auf prognostizierten Kosten.
-
So kann basierend auf den Daten der Windturbine mittels eines Lernalgorithmus ein Modell der Anlage bestimmt oder modifiziert und basierend auf dem Modell eine Zustandsschätzung oder Prognose durchgeführt werden.
-
Das Modell kann einer Abbildung der Windturbine entsprechen. Aufgrund der Daten kann das Modell iterativ verfeinert bzw. geändert werden. Beispielsweise kann hierdurch flexibel auf Änderungen der Windturbine bzw. einen Einfluss auf die Windturbine reagiert werden und so Effizienzsteigerungen erreicht werden.
-
Somit kann das Modell als ein Prognosemodell eingesetzt werden zur Bestimmung eines Markov-Zustands. Hierbei kann eine Dynamik der Windturbine mitberücksichtigt werden.
-
Eine andere Weiterbildung ist es, dass die Kosten für die Prognose mittels mindestens einer Kostenfunktion bestimmt werden.
-
Insbesondere ist es eine Weiterbildung, dass die Prognose basierend auf dem Modell der Windturbine, insbesondere mittels eines MPEN-Verfahrens, durchgeführt wird.
-
Beispielsweise kann ein Markov-Zustand mittels eines MPEN-Verfahrens (
"Markov Decisions Process Extraktion Network" siehe z.B.: S. Duell, A. Hans, and S. Udluft: The Markov Decision Process Extraction Network. In Proc. of the European Symposium on Artificial Neural Networks, 2010) ermittelt werden. Insbesondere kann eine Zustandsschätzung einen Markov-Zustand basierend auf den Daten der Windturbine bestimmen.
-
Auch ist es eine Weiterbildung, dass der Anstellwinkel mindestens eines Rotorblatts anhand mindestens eines der folgenden Parameter eingestellt wird:
- – einer Amplitude;
- – einer Phase;
- – einer Änderungsgeschwindigkeit.
-
Ferner ist es eine Weiterbildung, dass die Daten für eine vorgegebene Zeitdauer erfasst werden.
-
Beispielsweise können die Daten in einer Datenbank gespeichert und z.B. über eine vorgegebene Zeitdauer gesammelt werden. Diese Datenbank kann für den Lernalgorithmus eine Wissensbasis darstellen.
-
Im Rahmen einer zusätzlichen Weiterbildung wird basierend auf den Daten der Windturbine mittels eines Lernalgorithmus das Modell bestimmt oder modifiziert und basierend auf dem Modell eine Zustandsschätzung durchgeführt.
-
Eine nächste Weiterbildung besteht darin, dass das Modell mittels eines neuronalen Netzes, einer Baumstruktur und/oder Gauß-Prozessen bestimmt wird.
-
Eine Ausgestaltung ist es, dass die Aktionssequenz bestimmt wird mittels einer vollständigen Suche.
-
Bei der vollständigen Suche kann es sich um eine erschöpfende Suche handeln. Insbesondere kann eine Suche in einer Baumstruktur durchgeführt werden.
-
Eine alternative Ausführungsform besteht darin, dass die Aktionssequenz bestimmt wird mittels einer stochastischen Suche, wobei insbesondere zufällige oder pseudozufällige Werte bestimmt werden.
-
Eine nächste Ausgestaltung ist es, dass die Aktionssequenz bestimmt wird mittels eines genetischen oder mittels eines evolutionären Algorithmus.
-
Auch ist es eine Ausgestaltung, dass die Aktionssequenz bestimmt wird mittels einer Gradienten-basierten Suche.
-
Beispielsweise kann ein neuronales Netzwerk eingesetzt werden, um eine Trajektorien-basierte Aktion auf der Grundlage eines aktuellen Zustands zu bestimmen.
-
Als Lernalgorithmus für die Control Policy kann beispielsweise
- – ein NFQ-Verfahren ("Neural Fitted Q Iteration", siehe: M. Riedmiller: Neural Fitted Q Iteration – First Experiences with a Data Efficient Neural Reinforcement Learning Method. In Proc. of the European Conf. on Machine Learning, 2005),
- – ein RCNN ("Recurrent Control Neural Network", siehe: A.M. Schaefer, S. Udluft, and H.-G. Zimmermann. A Recurrent Control Neural Network for Data Efficient Reinforcement Learning. In Proc. of the IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning, 2007; oder A. M. Schäfer, D. Schneegaß, V. Sterzing, and S. Udluft. A Neural Reinforcement Learning Approach to Gas Turbine Control. International Joint Conference on Neural Networks, 2007) und/oder
- – ein PGNRR-Verfahren ("Policy Gradient Neural Rewards Regression", siehe: D. Schneegaß, S. Udluft, and Th. Martinetz. Improving Optimality of Neural Rewards Regression for Data-Efficient Batch Near-Optimal Policy Identification. In Proc. of the International Conf. on Artificial Neural Networks, 2007)
eingesetzt werden.
-
Eine Weiterbildung besteht darin, dass das Modell ein nichtdifferenzierbares Simulationsmodell umfasst.
-
Insbesondere kann das neuronale Netz als Simulationsmodell zusammen mit einem weiteren Simulationsmodell kombiniert werden.
-
Die vorstehend genannte Aufgabe wird auch gelöst durch eine Vorrichtung zur Ansteuerung mindestens eines Rotorblatts einer Windturbine mit einer Verarbeitungseinheit, die derart eingerichtet ist, dass
- – Daten einer Windturbine ermittelbar sind;
- – anhand der Daten ein Modell der Windturbine ermittelbar ist;
- – eine Aktionssequenz bestimmbar ist basierend auf dem Modell der Windturbine;
- – das mindestens eine Rotorblatt mittels der Aktionssequenz ansteuerbar ist.
-
Die Verarbeitungseinheit kann insbesondere eine Prozessoreinheit und/oder eine zumindest teilweise fest verdrahtete oder logische Schaltungsanordnung sein, die beispielsweise derart eingerichtet ist, dass das Verfahren wie hierin beschrieben durchführbar ist. Besagte Verarbeitungseinheit kann jede Art von Prozessor oder Rechner oder Computer mit entsprechend notwendiger Peripherie (Speicher, Input/Output-Schnittstellen, Ein-Ausgabe-Geräte, etc.) sein oder umfassen.
-
Die vorstehenden Erläuterungen betreffend das Verfahren gelten für die Vorrichtung entsprechend. Die Vorrichtung kann in einer Komponente oder verteilt in mehreren Komponenten ausgeführt sein. Insbesondere kann auch ein Teil der Vorrichtung über eine Netzwerkschnittstelle (z.B. das Internet) angebunden sein.
-
Weiterhin wird die oben genannte Aufgabe gelöst mittels einer Windturbine mit mindestens einem Rotorblatt, die nach einem hier beschriebenen Verfahren betreibbar ist.
-
Die hierin vorgestellte Lösung umfasst ferner ein Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen.
-
Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z.B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z.B. in Form von Programmcode) die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt.
-
Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit den Zeichnungen näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleich wirkende Elemente mit gleichen Bezugszeichen versehen sein.
-
Es zeigen
-
1 beispielhaft anhand eines Diagramms eine mögliche Definition einer sogenannten Meta-Aktion;
-
2 ein beispielhaftes Diagramm zur Veranschaulichung einer Einstellung bzw. Optimierung eines hochdimensionalen Zustandsraums;
-
3 ein schematisches Blockdiagramm zur Visualisierung mehrerer Beobachtungen zu unterschiedlichen Zeitpunkten zur Bestimmung eines neuen bzw. angepassten Zustands, aus dem Ausgangswerte für unterschiedliche aktuelle oder spätere Zeitpunkte ermittelbar sind;
-
4 ein schematisches Blockdiagramm zur Veranschaulichung der Einstellung der Meta-Parameter Amplitude und Phase.
-
Eine Windturbine kann mehrere Rotorblätter aufweisen, wobei während einer Umdrehung der Anstellwinkel des einzelnen Rotorblatts eingestellt werden kann. Beispielsweise kann die Windgeschwindigkeit nichtlinear mit der Höhe über dem Boden zunehmen, so dass ein Rotorblatt mit maximalem Abstand über dem Boden eine deutlich höhere Windgeschwindigkeit erfährt als in der Nähe des Bodens. Damit ergeben sich während einer Drehung unterschiedliche Belastungen auf das Rotorblatt und damit auch auf die Hauptwelle, den Antriebsstrang und Turm der Windturbine. Dies gilt entsprechend für die Vielzahl von Rotorblättern der Windturbine.
-
Ergänzend sei angemerkt, dass die Windturbine abhängig von der bereitgestellten elektrischen Leistung auch unterschiedliche Belastungen erfährt. Beispielsweise wirkt auf die gerade mit Nennleistung operierende Windturbine aufgrund der Kombination von hoher Energieentnahme und schneller Drehung der Rotorblätter eine höhere mechanische Belastung.
-
Für die Windturbine mit mehreren Rotorblättern ergibt sich ein Aktionsraum, d.h. eine Menge beobachtbarer und verstellbarer Parameter, der meist komplex und hochdimensional ist.
-
1 veranschaulicht beispielhaft anhand eines Diagramms eine mögliche Definition einer sogenannten Meta-Aktion. Die Abszisse des in 1 dargestellten Diagramms zeigt einen Winkelbereich von 0° bis 360° entsprechend einer Umdrehung eines Rotorblatts. Die Ordinate zeigt eine Verschiebung ("Offset") oder Amplitude der Verstellung des Rotorblatts. Als sogenannte Meta-Parameter können die Amplitude, die Phase und die Anstelländerungsgeschwindigkeit des Rotorblatts modifiziert werden. Eine derartige Verstellung ist beispielhaft anhand eines Pfeils 101 für die Amplitude, eines Pfeils 102 für die Phase und eines Pfeils 103 für die Anstelländerungsgeschwindigkeit dargestellt. Somit ergeben sich Amplitude, Phase und Anstelländerungs-(Winkel-)Geschwindigkeit für das Rotorblatt in Abhängigkeit von der Position des Rotorblatts. Derartige Meta-Parameter können für jedes Rotorblatt einer Turbine einzeln bestimmt werden. Die Einstellung der Meta-Parameter kann zumindest teilweise auch unter Berücksichtigung einer Kostenfunktion erfolgen.
-
Beispielsweise kann die Amplitude 101 durch eine Größe der Verstellschritte von 0, 0.5, 1, 1.5 oder 2 Grad bestimmt sein. Die Phase 102 kann um 0, 30 oder –30 Grad gegenüber dem Standard-Azimutwinkel des umlaufenden Blattes verstellt werden.
-
Die Meta-Aktion kann für jede Umdrehung jedes Rotorblatts bestimmt werden. Amplituden und Phasen können angepasst werden, um die Kostenfunktion (als eine beispielhafte Zielfunktion) zu minimieren.
-
Somit können also Meta-Aktionen bestimmt werden, wobei eine Meta-Aktion z.B. eine Amplitude, eine Phase und eine Frequenz pro Rotorblatt definiert, die für eine vorgegebene Zeitdauer konstant ist (z.B. während einer Umdrehung eines einzelnen Rotorblatts).
-
2 zeigt ein beispielhaftes Diagramm zur Veranschaulichung einer Einstellung bzw. Optimierung eines hochdimensionalen Zustandsraums. Ein Agent 201 übermittelt eine Aktion 204 zu einem Zeitpunkt t an ein System 205; die Aktion 204 bewirkt dort einen Zustandsübergang von einem Zustand zum Zeitpunkt t in einen Nachfolgezustand für den Zeitpunkt t + 1. Eine Beobachtung 206 des Nachfolgezustands wird an einen Zustandsschätzer 202 des Agenten 201 übermittelt. Weiterhin wird eine Belohnung 207 basierend auf dem Nachfolgezustand an den Agenten 201 übermittelt. Der Zustandsschätzer 202 bestimmt einen neuen Zustand 203, basierend auf dem eine nachfolgende oder weitere (optimierte) Aktion 204 ermittelt werden kann.
-
Somit ist es möglich, basierend auf einer Reihe von Beobachtungen eine Optimierung des Systems durchzuführen. Vorzugsweise ist die Dimension als Ergebnis des Zustandsschätzers 202 geringer als die Menge der Beobachtungen und es wird die Dimension des Zustands minimiert.
-
3 zeigt mehrere Beobachtungen z zu unterschiedlichen Zeitpunkten t – n, ..., t – 2, t – 1, t zur Bestimmung eines neuen bzw. angepassten Zustands st (siehe Zustand 203 in 2), aus dem Ausgangswerte r (auch bezeichnet als Belohnung) für unterschiedliche Zeitpunkte t, t + 1, t + 2, ..., t + m ermittelbar sind. Insoweit kann eine Reihe vergangener Beobachtungen z benutzt werden um aktuelle und entsprechend zukünftige Ausgangswerte r zu bestimmen. Der Ansatz gemäß 3 kann verwendet werden, um mittels eines sog. MPEN-Ansatzes eine minimale Dynamik zu extrahieren.
-
Dabei wird mittels eines bestimmten neuronalen Netzes, eines sogenannten Markov Decisions Process Extraktion Networks aus einer Folge von vergangenen Beobachtungen der Markov-Zustand des Systems geschätzt.
-
Also kann ein Markov-Zustand mittels des MPEN-Verfahrens (
"Markov Decisions Process Extraktion Network" siehe z.B.: S. Duell, A. Hans, and S. Udluft: The Markov Decision Process Extraction Network. In Proc. of the European Symposium on Artificial Neural Networks, 2010) ermittelt werden.
-
4 zeigt ein schematisches Blockdiagramm zur Veranschaulichung der Einstellung der Meta-Parameter Amplitude und Phase. Zunächst liefert eine Windturbine 405 einen Zustand 410 (als initialen Zustand oder als angepassten Zustand st) an einen Block 403, dem vergangene Zustände bekannt sind. In einem Block 404 wird eine Prognose mittels des MPEN-Verfahrens durchgeführt und in einem Block 406 werden zukünftige Zustände prognostiziert. Die prognostizierten Zustände werden einer Kostenfunktion 401 bereitgestellt, die Kosten 407 basierend auf diesen prognostizierten Zuständen bestimmt und an einen Aktionssequenzgenerator 402 weitergeleitet. Die vergangenen Zustände werden von dem Block 403 auch dem Aktionssequenzgenerator 402 bereitgestellt. Somit bestimmt der Aktionssequenzgenerator 402 eine Aktionssequenz 408 und übermittelt diese an den Block 404 zur Berücksichtigung in dem MPEN-Verfahren. Auch ist der Aktionssequenzgenerator 402 in der Lage, eine aktuell beste Aktion 409 zu ermitteln und zur Einstellung der Windturbine 405 bzw. zur Einstellung eines Rotorblatts der Windturbine 405 zu verwenden.
-
Das beschriebene Verfahren wird vorzugsweise iterativ durchgeführt und ermöglicht somit eine zunehmend optimierte Einstellung der Windturbine anhand der Einstellung der einzelnen Rotorblätter.
-
Hierbei sei angemerkt, dass die in 4 dargestellten Blöcke zur Veranschaulichung von Funktionalitäten dienen, jedoch nicht als separate Einheiten vorgesehen bzw. implementiert werden müssen. Beispielsweise können alle gezeigten Blöcke oder ein Teil der Blöcke in einer Verarbeitungseinheit vorgesehen sein. Grundsätzlich ist es möglich, dass das beschriebene Verfahren auf einer oder auf mehreren Verarbeitungseinheiten durchgeführt wird.
-
Die Kostenfunktion kann wie folgt bestimmt werden:
wobei
- a
- eine Aktionsvektor,
- s
- einen Zustandsvektor,
- t
- eine Zeit,
- t0
- einen Initialzeitpunkt,
- k
- einen Index,
- N
- ein zu betrachtendes Zeitintervall,
- M
- eine Gesamtanzahl zu betrachtender Zustände
bezeichnen.
-
Basierend auf einer derartigen Kostenfunktion ist es möglich, eine Belastung der Rotorblätter zu optimieren. Auch (ggf. alternativ) kann die Belastung der Hauptwelle der Turbine optimiert werden. Grundsätzlich ist es möglich, das Ziel der Optimierung flexibel anhand der Kostenfunktion anzupassen bzw. vorzugeben.
-
Beispielsweise kann die Einstellung der Windturbine bzw. deren Rotorblätter auch wie folgt zusammengefasst werden:
- (1) Der Turbinenzustand wird ermittelt basierend auf einer Menge von Beobachtungen (Parameter)
st-m, ..., st
einer Windturbine (vergleiche Block 403).
- (2) Eine hypothetische Aktionssequenz 408 wird vorgeschlagen.
- (3) Kosten 407 für diese hypothetische Aktionssequenz 408 werden bestimmt basierend auf einer Prognose (bereitgestellt durch die Blöcke 404 und 406).
- (4) Die Schritte (2) und (3) werden wiederholt bis ein vorgegebenes Abbruchkriterium erfüllt ist.
- (5) Die erste Aktion 409 der Aktionssequenz, die als Ergebnis der Optimierung ermittelt wurde, wird eingesetzt.
-
Bei den Schritten (1) bis (4) handelt es sich um ein Lernverfahren. Die so erlernten Parameter können zur Einstellung des Rotorblatts und somit zum Betrieb der Windturbine verwendet werden. Vorzugsweise verläuft das Lernverfahren offline also unabhängig vom Betrieb der Windturbine. Die Aktionssequenz kann mehrere Meta-Parameter für jedes der Rotorblätter der Windturbine während einer Umdrehung der Windturbine enthalten.
-
Basierend auf späteren Beobachtungen der Windturbine kann das Verfahren mit dem Schritt (1) iterativ fortgesetzt werden, d.h. auch während des Betriebs der Windturbine können weitere Beobachtungen gesammelt werden und anhand dieser Beobachtungen können erneut die Schritte (2) bis (4) durchgeführt werden, um eine geänderte (optimierte oder angepasste) Aktionssequenz zu erhalten.
-
Beispielsweise kann eine hypothetische Aktionssequenz bestimmt werden
- (2a) mittels einer erschöpfenden oder vollständigen Suche (z.B. einer Suche in einer Baumstruktur), siehe z.B. [http://de.wikipedia.org/wiki/Suchverfahren].
- (2b) mittels einer stochastischen Suche (siehe z.B. [http://en.wikipedia.org/wiki/Stochastic_search]) (z.B. indem zufällig Werte bestimmt werden oder mittels eines genetischen oder evolutionären Algorithmus), siehe z.B. [http://de.wikipedia.org/wiki/Evolutionsstrategie].
- (2c) mittels einer Gradienten-basierten Suche (siehe z.B. http://en.wikipedia.org/wiki/Method_of_steepest_descent) (z.B. unter Verwendung eines neuronalen Netzwerks, um eine Trajektorien-basierte Aktion auf der Grundlage eines aktuellen Zustands zu ermitteln).
-
Eine vorteilhafte Lösung für die Steueraufgabe zur individuellen Einstellung der Neigung des Rotorblatts ist es, die hypothetische Aktionssequenz zu generieren mittels eines evolutionären Algorithmus.
-
Dieser Ansatz kann auch eingesetzt werden in Kombination mit einem nicht-neuronalen (d.h. nicht-differenzierbaren) Simulationsmodell einer Windturbine, vorausgesetzt, dass das Simulationsmodell schnell genug berechnet werden kann.
-
Im Vergleich zu anderen Ansätzen zur Einstellung der Neigung des Rotorblatts kann sich die vorliegende Lösung flexibel auf neue Bedingungen adaptieren. Der variable Zeit-Horizont und die Parametrisierung ermöglichen unterschiedliche Aktionen. Die Definition einer generischen Kostenfunktion ermöglicht eine flexible Optimierung hinsichtlich unterschiedlicher Ziele, die allesamt mittels eines einheitlichen Ansatzes (z.B. zur Verminderung der Belastung des Rotorblatts, der Hauptwelle, des Antriebsstrangs und/oder des Masten) adressiert werden können.
-
Obwohl die Erfindung im Detail durch das mindestens eine gezeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- "Markov Decisions Process Extraktion Network" siehe z.B.: S. Duell, A. Hans, and S. Udluft: The Markov Decision Process Extraction Network. In Proc. of the European Symposium on Artificial Neural Networks, 2010 [0019]
- "Neural Fitted Q Iteration", siehe: M. Riedmiller: Neural Fitted Q Iteration – First Experiences with a Data Efficient Neural Reinforcement Learning Method. In Proc. of the European Conf. on Machine Learning, 2005 [0031]
- "Recurrent Control Neural Network", siehe: A.M. Schaefer, S. Udluft, and H.-G. Zimmermann. A Recurrent Control Neural Network for Data Efficient Reinforcement Learning. In Proc. of the IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning, 2007 [0031]
- A. M. Schäfer, D. Schneegaß, V. Sterzing, and S. Udluft. A Neural Reinforcement Learning Approach to Gas Turbine Control. International Joint Conference on Neural Networks, 2007 [0031]
- "Policy Gradient Neural Rewards Regression", siehe: D. Schneegaß, S. Udluft, and Th. Martinetz. Improving Optimality of Neural Rewards Regression for Data-Efficient Batch Near-Optimal Policy Identification. In Proc. of the International Conf. on Artificial Neural Networks, 2007 [0031]
- "Markov Decisions Process Extraktion Network" siehe z.B.: S. Duell, A. Hans, and S. Udluft: The Markov Decision Process Extraction Network. In Proc. of the European Symposium on Artificial Neural Networks, 2010 [0057]
- http://de.wikipedia.org/wiki/Suchverfahren [0066]
- http://en.wikipedia.org/wiki/Stochastic_search [0066]
- http://de.wikipedia.org/wiki/Evolutionsstrategie [0066]
- http://en.wikipedia.org/wiki/Method_of_steepest_descent [0066]