-
Technisches Gebiet
-
Die vorliegende Erfindung betrifft Verfahren zum Auffinden einer geeigneten Regelungsstrategie für ein technisches System, insbesondere unter Nutzung eines Bayes'schen Optimierungsverfahrens. Insbesondere betrifft die vorliegende Erfindung ein computerimplementiertes Verfahren zur effizienteren Optimierung von Modellparametern eines Regelungsmodells zur Implementierung einer Regelungsstrategie für ein technisches System. Weiterhin betrifft die vorliegende Erfindung Maßnahmen zur Beschleunigung der Durchführung von Bayes'schen Optimierungsverfahren, um den Rechenaufwand für die Parametrisierung von Regelungsstrategien zu reduzieren.
-
Technischer Hintergrund
-
Die Ermittlung von Regelungsstrategien bzw. Regelungsmodellen zum Regeln bzw. Betreiben eines technischen Systems ist je nach Komplexität des technischen Systems aufwändig. Während bei einem linearen dynamischen Verhalten des technischen Systems eine optimale Regelung durch klassische Verfahren ermittelt werden kann, ist es jedoch insbesondere bei nichtlinearen physikalischen Systemen aufwendig, ein entsprechendes Regelungsmodell, das auf physikalischen Zusammenhängen basiert, zu erstellen bzw. zu parametrisieren.
-
Alternativ kann zum Auffinden einer geeigneten Regelungsstrategie das sogenannte Reinforcement Learning eingesetzt werden. Reinforcement Learning umfasst die Beobachtung der Wechselwirkung zwischen dem technischen System und der Umgebung und lernt daraus ein entsprechendes Funktionsmodell, das das Verhalten des technischen Systems bei seiner Interaktion mit der Umgebung beschreibt. Der Lernvorgang erfolgt durch Minimierung eines durch eine Kostenfunktion bzw. Qualitätsfunktion angegebenen Kostenwerts, der eine Leistungsfähigkeit des Regelungssystems bewertet, um Modellparameter für ein Regelungsmodell zum automatisierten geregelten Führen des technischen Systems in der Umgebung zu erhalten.
-
Insbesondere modellfreie Reinforcement Learning-Verfahren sind vorteilhaft, da keine Kenntnis über die Umgebung und das Zusammenwirken der Umgebung mit dem System erforderlich sind, jedoch ist die Interaktionszeit des Systems mit der Umgebung während des Lernprozesses sehr hoch. Dagegen wird bei herkömmlichen modellbasierten Verfahren initial eine Modellstruktur vorgegeben, die das Verhalten des Regelungssystems in der Umgebung grundsätzlich beschreibt. Dadurch können die Auswirkungen der Interaktion des Regelungssystems mit der Umgebung abgebildet werden. Die Anpassung der Modellstruktur durch eine Parameteranpassung ist einfach und effizient durchführbar. Jedoch hat das herkömmliche Verfahren Nachteile, da die gewählte Modellstruktur ungeeignet sein kann und dadurch die Parameteranpassung durch die Optimierung des Regelungsmodells nicht zu einem optimalen Ergebnis führt.
-
Die Erstellung und Optimierung eines Regelungsmodells in Verbindung mit Reinforcement Learning kann in Kombination mit einer Bayes'schen Optimierung durchgeführt werden, wobei die Qualitätsfunktion als Gaußprozessmodell modelliert wird. Dies ermöglicht die Erstellung eines effizienten Black-Box-Optimierers für Regelungsmodelle, die ansonsten aufwendig zu erstellen/parametrisieren wären. Jedoch ist aufgrund der hohen Anzahl von Modellparametern von derartigen Regelungsmodellen die Optimierung sehr aufwendig, so dass eine große Anzahl von Vermessungsvorgängen notwendig sind und durch die hohe Menge an Messdaten lange Trainingszeiten die Regel sind.
-
Offenbarung der Erfindung
-
Erfindungsgemäß sind ein Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System mithilfe eines Bayes'schen Optimierungsverfahrens gemäß Anspruch 1 sowie eine entsprechende Vorrichtung, ein Regelungssystem und ein Regelungsverfahren gemäß den nebengeordneten Ansprüchen vorgesehen.
-
Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.
-
Gemäß einem ersten Aspekt ist ein Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System mithilfe eines Bayes'schen Optimierungsverfahren vorgesehen, wobei die Regelungsstrategie basierend auf Modellparametern eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden:
- - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;
- - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern innerhalb einer Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparameter angibt, zu ermitteln;
- - Bestimmen der Modellparameterdomäne für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert der Qualitätsfunktion.
-
Zur Modellierung der Regelung eines Regelungssystems wird ein Regelungsmodell erstellt. Das Regelungsmodell definiert eine Regelungsstrategie und stellt eine funktionale Beziehung dar, mit der eine Stellgröße basierend auf einer oder mehrerer Eingangsgrößen der Regelung berechnet werden. Mindestens eine der Eingangsgrößen entspricht dabei einer Zustandsgröße des zu regelnden technischen Systems.
-
Die Form des Regelungsmodells kann in vielfältiger Weise vorgegeben werden. So kann das Regelungsmodell eine Formelbeziehung beinhalten, die auf physikalischen Gesetzmäßigkeiten basiert, wie z.B. Bewegungsgleichungen, Schwingungsgleichungen, Dämpfungsverhalten usw.. Auch kann das Regelungsmodell auf einer frei gewählten Formelbeziehung beruhen. Häufig muss die Formelbeziehung ein nichtlineares Verhalten des technischen Systems berücksichtigen.
-
Bayes'sche Optimierungsverfahren für die Ermittlung eines Regelungsmodells wenden verschiedene Regelungsstrategien iterativ mit einem technischen System an und optimieren die Regelung auf effiziente Weise. Dabei wird die Qualitätsfunktion mithilfe einer Gauß-Prozess-Regression modelliert, um die Leistungsfähigkeit des Systemmodells als Funktion der Modellparameter des Regelungsmodells zu modellieren, wobei die Gauß-Prozess-Regression basierend auf rauschbehafteten Zustandsgrößen erstellt wird. Grundsätzlich betrifft das Problem, eine Regelungsstrategie aufzufinden, die einen Systemzustand auf einen Eingangsgrößenvektor abbildet. Dazu wird eine von den Modellparametern der Regelungsstrategie abhängige Qualitätsfunktion (Kostenfunktion) über einen vorbestimmten Zeithorizont basierend auf den Zustandsgrößenvektoren (aus mehreren Zustandsgrößen) und Eingangsgrößenvektoren (aus mehreren Eingangsgrößen) ausgewertet.
-
Im Allgemeinen wird die Bayes'sche Optimierung angewendet, wenn eine unbekannte Funktion f, eine sogenannte „Black-Box“-Funktion, minimiert werden soll. Diese unbekannte Funktion f kann lediglich für einen Wert x ausgewertet und (möglicherweise durch Rauschen behaftet) beobachtet werden. Der beobachtete Wert y ergibt sich als y = f(x) + e, wobei e das Rauschen bezeichnet. Zudem wird angenommen, dass jede Auswertung der unbekannten Funktion f teuer ist, d.h. Kosten verursacht, in dem Sinne, dass die Auswertung der unbekannten Funktion einen hohen Aufwand verursacht/, wie es z.B. bei einer Ausführung eines Experiments auf einem Prüfstand der Fall ist. Aufgrund der teuren Auswertung der unbekannten Funktion, ist es erstrebenswert, dass während der Optimierung lediglich wenige Auswertungen vorgenommen werden müssen.
-
Unter gewissen Vorannahmen, wie z.B. der Stetigkeit der unbekannten Funktion, kann die unbekannte Funktion mit einer Gauß-Prozess-Regression in einem Funktionsmodell approximiert werden. Dazu kann nach einer Auswertung der unbekannten Funktion an mehreren Auswertungspunkten (x1, ..., xn) und Beobachtung der entsprechenden Funktionswerte (y1, ... yn) mithilfe des Gauß-Prozesses ein Modell der unbekannten Funktion faufstellen. Eine Eigenschaft des Gauß-Prozesses ist, dass in Bereichen um die Auswertungspunkte die Modellvorhersage sehr gut ist und die unbekannte Funktion gut approximiert wird. Dies spiegelt sich in einer geringen Unsicherheit des Funktionsmodells wieder. Fernab von Auswertungspunkten werden die Modellvorhersagen über die unbekannte Funktion f schlecht und die Unsicherheit nimmt mit zunehmenden Abstand zu den Auswertungspunkten zu.
-
Eine mögliche Strategie, um die unbekannte Funktion f zu optimieren, ist, die unbekannte Funktion an vielen verschiedenen Stellen (z.B. auf einem regelmäßigen Gitter) auszuwerten und den niedrigsten beobachteten Funktionswert als das Ergebnis der Optimierung anzunehmen. Dieses Vorgehen ist ineffizient und es sind viele Auswertungen mit entsprechend hohem Aufwand notwendig, das Optimum aufzufinden.
-
Anstelle dieses Ansatzes wird der Gauß-Prozess verwendet, um neue Auswertungspunkte auszuwählen. Dazu wird ein neuer Auswertungspunkt für das Auswerten der unbekannten Funktion so ausgewählt, dass dadurch zum einen das Modell verbessert wird, so dass die Unsicherheit des geschätzten Erwartungswerts der Qualitätsfunktion reduziert wird. Dazu werden in der Regel die Auswertungspunkte in Bereichen gewählt, in denen die unbekannte Funktion noch nicht ausgewertet wurde (Exploration). Zum anderen wird ein neuer Auswertungspunkt für das Auswerten der unbekannten Funktion so ausgewählt, dass das Ziel, die Funktion zu minimieren, schnellstmöglich bzw. mit einer geringen Zahl von Vermessungen an den Auswertungspunkten erreicht wird. Dafür werden Auswertungspunkte bevorzugt, die basierend auf dem Gauß-Prozess niedrige Funktionswerte versprechen (Exploitation). Diese zwei gegensätzlichen Kriterien werden durch eine sogenannte Akquisition-Funktion abgewägt.
-
Die Aquisitionsfunktion nutzt Parameter der Qualitätsfunktion, die durch ein Gauß-Prozess-Modell beschrieben wird, wie z.B. den Erwartungswert µ (x) und die diesem Erwartungswert zugeordnete Standardabweichung σ (x). Ein Beispiel ist die sogenannte Lower-Confidence-Bound (LCB) Aquisition-Funktion, die wie folgt beschrieben wird: LCB(x) = µ (x) - kσ (x). Der Faktor k wird in der Praxis oft konstant z.B. auf einen bestimmten Wert festgelegt, wie z.B. k = 2. Dieses neue Kriterium kann effizient mit gängigen gradienten-basierten Methoden minimiert werden und das Minimum von LCB(x) bildet dann den neuen Auswertungspunkt für die unbekannte Funktion f. Hierbei ist zu beachten, dass für die Optimierung der Akquisition-Funktion eine Optimierungsdomäne definiert werden muss, in der nach dem nächsten Auswertungspunkt gesucht wird. Diese Domäne wird typischerweise aufgrund von Erfahrungs- und/oder Expertenwissen gewählt.
-
Gemäß dem obigen Verfahren wird das Bayes'sche Optimierungsverfahren dazu verwendet, die Modellparameter der Regelungsstrategie durch eine Minimierung der zunächst unbekannten Qualitätsfunktion aufzufinden. Ziel ist es, das Regelungsmodell so zu erstellen, dass das Verhalten des technischen Systems möglichst genau den gewünschten Spezifikationen entspricht. Die Qualitätsfunktion kann ggfs. entsprechend der Leistungsfähigkeit des Regelungssystems abhängig von den jeweiligen Modellparametern stets aktualisiert werden. Für die Aktualisierung der Qualitätsfunktion ist eine Bewertung der jeweiligen Modellparameter erforderlich, was ein Betreiben des Regelungssystems mit den jeweiligen Modellparametern in der realen Umgebung notwendig macht. Durch die Notwendigkeit, dass Regelungssystem real zu betreiben, wird die Verbesserung der Bewertung der Kosten durch die kontinuierlich zu aktualisierende Qualitätsfunktion sehr aufwendig. Daher ist es wünschenswert, die Anzahl der Vermessungsvorgänge am realen technischen System möglichst zu minimieren.
-
Jeweils nach einem oder mehreren Vermessungsvorgängen kann die Qualitätsfunktion mit den zuletzt vermessenen Modellparametern und die resultierenden Kosten aktualisiert und ein neuer Satz von Testmodellparameter ausgewählt werden, in dem eine vorgegebene Akquisitionsfunktion, die Parameter der Qualitätsfunktion bewertet, minimiert oder maximiert wird. Die Akquisitionsfunktion ist vorgegeben, um unter Abwägung von Exploration und Exploitation einen neuen Testmodellparametersatz durch Minimierung /Maximierung zu ermitteln. Exploration bedeutet im Kontext des erfindungsgemäßen Verfahren, dass Bereiche des möglichen Modellparameterraums für die Auswahl eines neuen Testmodellparameters bevorzugt werden, in denen durch vorangehende Vermessungsvorgänge die Kosten noch nicht bewertet worden sind. Exploitation im Kontext des erfindungsgemäßen Verfahren bedeutet, dass ein Modellparametersatz für die nächste Kostenbewertung durch einen Vermessungsvorgang ausgewählt wird, der als ein Satz optimaler Modellparameter eingeschätzt wird.
-
Eine Idee des obigen Verfahrens besteht darin, die Modellparameter für das Regelungsmodell mithilfe eines Bayes'schen Optimierungsverfahrens in einer vorab eingeschränkten Optimierungsdomäne zu ermitteln. Während es bei einem herkömmlichen Bayes'schen Optimierungsverfahren nicht ohne weiteres möglich ist, die Modellparameterdomäne für einzelne Modellparameter, in der die Suche nach einer Regelungsstrategie durchgeführt werden soll, so zu bestimmen, dass die Optimierung effizienter, d.h. mit einer geringeren Anzahl von Auswertevorgängen/Vermessungen, ausgeführt wird, können anhand des zuvor bestimmten Maximum-a-Posteriori-Schätzwertes (MAP Estimate) aus der initial ausgeführten Systemidentifikation sinnvolle Wertebereiche für die Modellparameter zu deren Optimierung bestimmt werden.
-
Auf diese Weise kann die Modellparameterdomäne für die Bayes'sche Optimierung der Qualitätsfunktion automatisch, d.h. ohne manuelle Vorgabe von Wertebereichen für die Modellparameter, verkleinert werden, so dass die Anzahl der Messvorgänge für die Optimierung erheblich reduziert werden kann.
-
Weiterhin kann das parametrische Regressionsmodell einen Eingangsgrößenvektor und einen Systemzustand auf einen nachfolgenden Systemzustand abbilden und insbesondere entsprechend trainiert werden, um eine Gewichtungsmatrix zu erhalten.
-
Weiterhin können die Modellparameter mithilfe eines AB-Lernverfahrens für einen LQR-Regler ermittelt werden, wobei zu dem mindestens einen Maximum-a-Posteriori-Schätzwert jeweils ein Unsicherheitsmaß bestimmt wird, wobei der Wertebereich des mindestens einen Modellparameters um den Maximum-a-Posteriori-Schätzwert festgelegt wird.
-
Zusätzlich zu dem Maximum-a-Posteriori-Schätzwert können auch die Unsicherheitsmaße der Maximum-a-Posteriori-Schätzwerte bestimmt werden und diese die Größe des jeweiligen Wertebereichs für den zugeordneten Modellparameter bestimmen lassen. Dies ermöglicht es, den Suchbereich der Optimierung für Modellparameter individuell anzupassen, d.h. den Suchbereich für Modellparameter, die mit einer hohen Unsicherheit behaftet sind, größer festzulegen, als dies für Modellparameter der Fall ist, die mit einer geringeren Unsicherheit behaftet sind.
-
Es kann vorgesehen sein, dass die Modellparameter mithilfe eines K-Lernverfahrens für einen LQR-Regler ermittelt werden, wobei der Wertebereich des mindestens einen Modellparameters um den Maximum-a-Posteriori-Schätzwert festgelegt wird.
-
Weiterhin kann der Wertebereich des mindestens einen Modellparameters um den Maximum-a-Posteriori-Schätzwert mit einem Maß bestimmt werden, das als Produkt eines vorgegebenen Faktors zwischen 0 und 1 den betreffenden den Maximum-a-Posteriori-Schätzwert bestimmt wird.
-
Gemäß einer weiteren Ausführungsform kann das Optimierungsverfahren mit initialen Modellparametern gestartet werden, die sich durch eine Minimierung einer Prior-Mittelwertfunktion ergeben, wobei ein nicht parametrisches Näherungsmodell des technischen Systems trainiert wird, um die Prior-Mittelwertfunktion zu erhalten.
-
Gemäß einem weiteren Aspekt ist eine Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System mithilfe eines Bayes'schen Optimierungsverfahren vorgesehen, wobei die Regelungsstrategie basierend auf Modellparametern eines Regelungsmodells erstellt wird und ausführbar ist, wobei die Vorrichtung ausgebildet ist, um zur Optimierung der Regelung folgende Schritte auszuführen:
- - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;
- - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern innerhalb einer Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparameter angibt, zu ermitteln; und
- - Bestimmen der Modellparameterdomäne für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert der Qualitätsfunktion.
-
Gemäß einem weiteren Aspekt ist ein Regelungssystem mit einem technischen System und einer Regelungseinheit zum Regeln des technischen Systems, wobei in der Regelungseinheit ein Regelungsmodell zum Bereitstellen eines Eingangsgrößenvektors abhängig von Zustandsgrößen des technischen Systems implementiert ist, wobei ein Modellerstellungsblock vorgesehen ist, um Modellparameter für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock ausgeführten Bayes'schen Optimierungsverfahrens zu ermitteln, wobei die Regelungsstrategie basierend auf Modellparametern eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden:
- - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;
- - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern innerhalb einer Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparameter angibt, zu ermitteln;
- - Bestimmen der Modellparameterdomäne für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert der Qualitätsfunktion.
-
Figurenliste
-
Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
- 1 eine schematische Darstellung eines Regelungssystems mit einer Regelungseinheit und einem zu regelndem technischen System; und
- 2 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erstellen eines Regelungsmodells mithilfe eines Reinforcement-Learning-Verfahrens.
-
Beschreibung von Ausführungsformen
-
1 zeigt eine schematische Darstellung eines sich selbst anpassenden Regelungssystems 1, das zur Regelung eines technischen Systems 2 ausgebildet ist. Ein technisches System 2 kann beispielsweise ein Verbrennungsmotor eines Kraftfahrzeugs oder ein Teilsystem davon sein. Eine Regelungseinheit 3 regelt das technische System 2 mit einer Abfolge von Eingangsgrößen u als Stellgrößen an, die zu bestimmten Betriebspunkten des technischen Systems 2 führen. Die Eingangsgrößen u umfassen in der Regel eine Anzahl von mehreren Eingangsgrö-ßen, die in einem Eingangsgrößenvektor u ∈ ℝd zusammengefasst sind. Zudem gilt für jede der Eingangsgrößen (Elemente des Eingangsgrößenvektors u) ein zulässiger Wertebereich. Weiterhin resultiert die Ansteuerung des technischen Systems 2 in einer oder mehreren Zustandsgrößen, die an einem zu vermessenden Eingangsgrößenvektor u gemessen werden und die in Form eines Zustandsgrößenvektors x dargestellt sind.
-
Mithilfe eines oder mehrerer Sensoren 21, die Teil des technischen Systems 2 sind, können Verläufe einer oder mehrerer Messgrößen x1...xD erfasst werden, die jeweils entsprechende Zustandsgrößen x1 (t)... xD (t) , die jeweils die Systemzustände x des technischen Systems 2 angeben, repräsentieren. D entspricht dabei der Anzahl von Zustandsgrößen. Somit wird der Systemzustand des technischen Systems 2 mithilfe des einen oder der mehreren Sensoren 21 erfasst und als Zustandsgrößen eines Zustandsgrößenvektors x an die Regelungseinheit 3 übermittelt.
-
Eingangsgrößen u entsprechen Stellgrößen der Regelungseinheit 3 die basierend auf den Zustandsgrößen x und der Regelungsstrategie πθ (x) ermittelt werden. Der Betrieb des technischen Systems 2 erfolgt abhängig von den Eingangsgrößen u(t) mithilfe eines oder mehrerer Aktoren 22 des technischen Systems 2. Beispielsweise so kann eine Bewegung eines Roboters oder Fahrzeugs gesteuert werden oder eine Steuerung einer Antriebseinheit oder eines Fahrerassistenzsystems eines Fahrzeugs erfolgen. Eine Eingangsgröße u kann beispielsweise einer elektrischen Spannung entsprechen, die an einen elektromechanischen Stellgeber als Aktor 22 angelegt wird. Der Aktor 22 wird entsprechend der einen oder der mehreren Eingangsgrößen u angesteuert und führt eine entsprechende Aktion aus. Der Aktor 22 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus der Eingangsgrößen u eine Ansteuergröße ermittelt, mit der der betreffende Aktor 22 angesteuert wird.
-
In einem Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung eines Verbrennungsmotors als technisches System eingesetzt. Dazu können eine Drosselklappenstellung, eine Kraftstoffzufuhr, und/oder der gleichen als Eingangsgrößen dem Drosselklappensteller bzw. der Ansteuerung für Einspritzventile vorgeben werden und entsprechende Zustandsgrößen, wie beispielsweise eine Drehzahl, eine Last, eine Motortemperatur empfangen werden.
-
In einem Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung eines wenigstens teilautonomen Roboters, insbesondere eines wenigstens teilautonomen Kraftfahrzeugs, als technisches System 2 eingesetzt. Bei dem Sensor 21 kann es sich beispielsweise um einen oder mehrere vorzugsweise im Kraftfahrzeug angeordnete Videosensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere LiDAR-Sensoren und/oder einen oder mehrere Positionssensoren (beispielsweise GPS) handeln. Alternativ oder zusätzlich kann der Sensor 21 auch ein Informationssystem umfassen, das eine Information über einen Zustand des technischen Systems (Kraftfahrzeug) ermittelt, wie beispielsweise ein Wetterinformationssystem, das einen aktuellen oder zukünftigen Zustand des Wetters in einer Umgebung des Kraftfahrzeugs ermittelt.
-
In einem weiteren Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung einer Funktion in einem Kraftfahrzeug als technisches System eingesetzt. Dazu können eine Fahrpedalstellung, ein Lenkeingriff in Form eines Handgelenkmoments oder einer Lenkstellung, Umgebungsinformationen, wie zum Beispiel Position von Umgebungsobjekten, ein Bremseingriff und/oder dergleichen als Eingangsgrößen vorgegeben werden und entsprechende Zustandsgrößen, die das Fahrverhalten des Kraftfahrzeugs angeben, wie beispielsweise Fahrzeuggeschwindigkeit, Kurvenlage, Abstand zu Umgebungsobjekten und dergleichen empfangen werden.
-
Die Regelungseinheit 3 kann mit den mehreren Messgrößen x1 ...xD beispielsweise Zustände bzw. Zustandsverläufe des wenigstens teilautonomen Roboters detektieren, wie beispielsweise eine Motordrehzahl, eine Fahrzeuggeschwindigkeit, einen Kraftstoffverbrauch, eine Motortemperatur, eine Längsgeschwindigkeit und/oder eine Quergeschwindigkeit, einen Lenkwinkel, eine Gierrate, und dergleichen. Bei dem vorzugsweise im Kraftfahrzeug angeordneten Aktor 32 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs handeln.
-
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln.
-
In noch weiteren Alternativen kann es sich bei dem wenigstens teilautonomen Roboter auch um ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, einen Herd, einen Backofen, eine Mikrowelle oder eine Spülmaschine handeln. Mit dem Sensor 21, beispielsweise einem optischen Sensor, kann ein Zustand eines mit dem Haushaltsgerät behandelten Objekts erfasst werden, beispielsweise im Falle der Waschmaschine ein Zustand von Wäsche, die in der Waschmaschine befindlich ist. Mit der Regelungseinheit 3 kann dann eine Art oder ein Zustand dieses Objekts ermittelt und durch die Messgrößen x1 ...xD charakterisiert werden. Die Eingangsgrößen können dann derart ermittelt werden, dass das Haushaltsgerät abhängig von der ermittelten Art oder dem ermittelten Zustand des Objekts angesteuert wird. Beispielsweise kann im Falle der Waschmaschine diese abhängig davon angesteuert werden, aus welchem Material die darin befindliche Wäsche ist. Die Eingangsgrößen u(t) können dann abhängig davon gewählt werden, welches Material der Wäsche ermittelt wurde.
-
In einer weiteren Ausführungsform kann die Regelungseinheit 3 zur Ansteuerung einer Fertigungsmaschine (technisches System 3) eines Fertigungssystems verwendet werden, indem ein diese Fertigungsmaschine steuernder Aktor 22 durch Eingangsgrößen angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren, Fräsen, Drehen und/oder Schneiden handeln.
-
Bei dem Sensor 21 dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen erfasst. Es ist möglich, dass der die Fertigungsmaschine steuernde Aktor 32 abhängig von den ermittelten Eigenschaften des Fertigungserzeugnisses angesteuert wird, damit die Fertigungsmaschine entsprechend einen nachfolgenden Bearbeitungsschritt dieses Fertigungserzeugnisses ausführt. Es ist auch möglich, dass der Sensor 31 die Eigenschaften des von der Fertigungsmaschine bearbeiteten Fertigungserzeugnisses ermittelt, und abhängig davon eine Ansteuerung der Fertigungsmaschine für ein nachfolgendes Fertigungserzeugnis anpasst.
-
Die Regelung der Regelungseinheit 3 folgt einer Regelungsstrategie. Durch einen dynamischen Prozess soll die Regelungsstrategie angepasst werden, sodass das Systemverhalten bezüglich einer Qualitätsfunktion optimal wird. Dazu wird ein Optimierungsverfahren ausgeführt, dass Modellparameter des der Regelungsstrategie zugrundeliegenden Regelungsmodell so optimiert, dass die Leistungsfähigkeit des geregelten technischen Systems 2 optimiert wird. Dazu wird ein Regelungsmodell (Dynamikmodell) in einem Modellerstellungsblock 4 erstellt, das Grundlage für die Regelungsstrategie der Regelungseinheit 3 ist. Der Modellerstellungsblock 4 ermittelt die Modellparameter für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock 5 ausgeführten Bayes'schen Optimierungsverfahrens. Dies erfolgt basierend auf einer vorgegebenen Qualitätsfunktion, die in einem Qualitätsfunktionsblock 6 bestimmt bzw. vorgegebene wird.
-
In weiteren bevorzugten Ausführungsformen sind die Regelungseinheit 3, der Modellerstellungsblock 4, der Optimierungsblock 5 und der Kostenfunktionsblock 6 in einer Recheneinheit implementiert. Die Recheneinheit umfasst das Steuergerät 2 eine Ein- oder Mehrzahl von Prozessoren und wenigstens ein maschinenlesbares Speichermedium, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren ausgeführt werden, die Recheneinheit veranlassen, das erfindungsgemäße Verfahren auszuführen.
-
Das technische System 2 entspricht einem dynamischen System, das mithilfe einer Regelungseinheit 3 mit einer geeigneten Regelungsstrategie, die entsprechend mithilfe eines Bayes'schen Optimierungsverfahrens erstellt werden soll, in optimierter Weise geregelt wird. Das Bayes'sche Optimierungsverfahren wird verwendet, um das Regelungsmodell zu ermitteln, indem während des Optimierungsverfahrens verschiedene Test-Modellparametersätze iterativ zur Regelung des technischen Systems 2 angewendet und die Modellparameter basierend auf den resultierenden Zustandsgrößen angepasst werden. Dabei wird eine Qualitätsfunktion mithilfe einer Gauß-Prozess-Regression modelliert, durch die die Leistungsfähigkeit der Regelung des technischen Systems als Funktion der Modellparameter definiert wird. Die Leistungsfähigkeit der Regelung ergibt sich aus einem vorgegebenen Qualitätskriterium, das den resultierenden Zustandsgrößen eine Güte der Regelung zuweist. Die Zustandsgrößen sind toleranzbehaftet, so dass die Qualitätsfunktion vorzugsweise durch eine Gauß-Prozess-Regression erstellt wird.
-
Grundsätzlich betrifft das Problem, eine Regelungsstrategie aufzufinden, das einen Systemzustand x auf einen Eingangsgrößenvektor u = π
θ(x) mit π
θ: ℝ
n
x → ℝ
n
u abbildet, wobei θ ∈ Θ ⊂ ℝ
n
θ Modellparameter der Regelungsstrategie in der Modellparameterdomäne Θ darstellen. Eine von den Modellparametern θ abhängige Qualitätsfunktion J wird über einen vorbestimmten Zeithorizont t=0... T basierend auf den Zustandsvektoren x und Eingangsgrößenvektoren u vorgegeben, wobei die Modellparameter θ durch das Optimierungsverfahren optimiert werden sollen
, wobei
einem Erwartungswert entspricht, c(x
t,u
t) die Kosten des durch den Zustandsvektor x
t gegebenen Zustands bei anliegender Eingangsgrößenvektor u
t und f: ℝ
n
x ×ℝ
n
u → ℝ
n
x das Zustandsübergangsmodell darstellen, das die Dynamiken des technischen Systems
2 beschreibt und das weiterhin durch die Rauschgröße v~N(0, Σ
v) beaufschlagt ist.
-
Das Bayes'sche Optimierungsverfahren dient dazu, die optimierten Modellparameter θ* einer Regelungsstrategie durch eine Minimierung der Qualitätsfunktion aufzufinden. Ziel ist es, dass die Regelungsstrategie eine möglichst optimale Regelung des technischen Systems 2 mit der Regelungseinheit 3 ermöglicht, wobei „optimal“ eine Minimierung der Kosten, die durch die Qualitätsfunktion bestimmt sind, bezogen auf eine vorgegebene Leistungsfähigkeit des Gesamtsystems aus Regelungseinheit 3 und technisches System 2 bezeichnet.
-
Die Qualitätsfunktion versieht also die Abweichung des Verhaltens des realen technischen System 2 während des Zeitfensters t=0..T bezogen auf eine vorgegebene Leistungsfähigkeit entsprechend mit Kosten J. Die Bewertung der Qualitätsfunktion erfordert also das Betreiben des technischen Systems 2 in der realen Umgebung in einem Vermessungsvorgang. Durch die Notwendigkeit, das Regelungssystem, das das technische System 2 und die Regelungseinheit 3 umfasst, real zu betreiben, wird die Bewertung der Kosten J sehr aufwendig, so dass die Anzahl der Vermessungsvorgänge am realen technischen System 2 zur Bewertung einer bestimmten Regelungsstrategie möglichst minimiert werden sollte.
-
Die Erstellung einer Regelung kann mithilfe eines LQR-Reglers, der ein lineares Dynamikmodell des zu regelnden Systems benötigt, ausgeführt werden. Dieser LQR-Regler wird kann durch eine Rückkopplungsmatrix K beschrieben werden, während Elemente der Rückkopplungsmatrix als Modellparameter ganz oder teilweise für die Optimierung angepasst werden können.
-
Es wird im Folgenden angenommen, dass die Regelungsstrategie einer Linearzustandsregelungsstrategie von πθ(x) = -K(θ)x entspricht.
-
Lineare Regelungsstrategien haben den Vorteil, dass sie eine geringe Dimensionalität im Vergleich zu anderen Regelungsmodellen aufweisen. Weiterhin ermöglicht die lineare Regelungsstrategie, dass diese in einfacher Weise in Reglern umgesetzt werden kann und so die Effizienz der Bayes'schen Optimierung erhöht wird.
-
In Verbindung mit der Bayes'schen Optimierung kann ein Linear Quadratic Regulator, ein sogenannter LQR-Regler, verwendet werden, wie im Bereich der Erstellung von Regelungsstrategien bekannt ist. Beim LQR-Regler werden das Systemverhalten und die Interaktion mit der Umgebung bei Vermessungsvorgängen durch einen gesteuerten Betrieb mit einem Satz variierender Eingangsgrößenvektoren und der Erfassung resultierender Zustandsgrößenvektoren ermittelt. Dabei wird die Systemdynamik gemäß
linearisiert und die Kosten entsprechend quadriert
-
Durch diese Näherungen kann in dem Modellerstellungsblock 4 eine LQR-Rückkopplungsmatrix erstellt werden, die das Dynamikmodell darstellt und die allgemein als K = dlqr(A, B, Q, R) bezeichnet wird. Die Regelungsstrategie-Optimierung wird durchgeführt, indem direkt die Rückkopplungsmatrix (K-Learning) angepasst wird, wobei ein Teil der Einträge bzw. jeder Eintrag der Rückkopplungsmatrix einem Modellparameter für die Optimierung entspricht. Weiterhin können auch nur die Bestandteile der Rückkopplungsmatrix K, die den Systemmatrizen A und B entsprechen, als zu optimierende Modellparameter angenommen werden, wobei jeder Eintrag der Matrizen A und B einem Modellparameter entspricht.
-
Alternativ kann in der Rückkopplungsmatrix K ohne die Matrizen Q und R (Gewichtungsmatrizen) als zu optimierende Modellparameter angenommen werden. Dabei ist es ausreichend, nur die diagonalen Einträge der Gewichtungsmatrizen anzupassen, die die folgende Form haben:
-
Diese Verfahren werden entsprechend der Zugehörigkeit der Modellparameter zu den obigen Matrizen K-Learning, AB-Learning und QR-Learning genannt. Bei der Bayes'schen Optimierung muss der Parameterraum ausreichend hinsichtlich der Längenskalen der Qualitätsfunktion abgedeckt werden, um eine gute Schätzung der optimierten Modellparameter zu finden.
-
Ohne Vorwissen ist es jedoch schwierig, die Wertebereiche für die einzelnen Modellparameter, d.h. die Modellparameterdomäne, für die Optimierung auszuwählen. Dies ist jedoch für ein effizientes Optimierungsverfahren ohne eine übermäßige Anzahl von Vermessungsvorgängen wesentlich. Das obige Verfahren sieht daher vor, einen geeigneten Suchbereich für die Modellparameter auszuwählen, so dass die Anzahl der Vermessungsvorgänge reduziert werden kann. Dies ist insbesondere bei hoher Dimensionalität erforderlich, da dort eine manuelle Einstellung der Wertebereiche jedes der Modellparameter nicht ohne Weiteres möglich ist. Daher werden die Wertebereiche der Modellparameter zunächst durch Lernen einer Verteilung über Dynamikmodelle ermittelt und nachfolgend diese Verteilung verwendet, um die Wertebereiche für jeden der Modellparameter auszuwählen. Die Verteilung erhält man durch die Bayes'sche Lineare Regression durch aufgezeichnete Datenwerte der Zustandsgrößenvektoren und Eingangsgrößenvektoren, um ein angenähertes lineares Modell der Systemdynamik zu erhalten. Dies führt zu einer Gauß-Verteilung über den Modellen
wobei µ
AB der Maximum-Posterior-(MAP-)Schätzwert wobei die Notation vec(.,.) angibt, dass die Matrizen A und B in einen Vektor umgeformt sind.
-
Nachdem die Wertebereiche der Modellparameter ausgewählt sind, ist es möglich, dass in bestimmten Dimensionen die Wertebereiche der Modellparameter zu konservativ gewählt sind. Das kann beispielsweise vorkommen, wenn der Skalierungsparameter β zu klein ist, oder aufgrund einer Modellabweichung. Damit kann es vorkommen, dass der optimale Modellparametervektor nicht innerhalb der ausgewählten Modellparameterdomäne liegt. Daher kann die Modellparameterdomäne dynamisch während der Optimierung angepasst werden.
-
Während des Ablaufs der Bayes'schen Optimierung liegt ein Schätzwert des Optimums der Modellparameterwerte vor, d. h. das Minimum der angenäherten Qualitätsfunktion in der aktuellen Modellparameterdomäne. Wenn sich aus der Bayes'schen Optimierung ergibt, dass der Ort des geschätzten Optimums an einer Bereichsgrenze der Modellparameterdomäne liegt, ist es wahrscheinlich, dass bessere Modellparameter außerhalb der aktuellen Modellparameterdomäne liegen. Daher wird vorgeschlagen, den Wertebereich desjenigen Modellparameters, dessen Wert an der Grenze der Modellparameterdomäne liegt, zu erweitern. Diese dynamische Anpassung der Modellparameterdomäne kann auf verschiedene Weise ausgeführt werden.
-
Die Anpassung der Wertebereiche für Modellparameter ermöglicht es, ausgehend von einem begrenzten Wertebereich diesen während der Optimierung dynamisch nur für diejenigen Dimensionen des Modellparametervektors anzupassen, bei denen die Optimierung einen Grenzbereich der Modellparameterdomäne trifft. Dadurch kann die Optimierung insgesamt effizienter vorgenommen werden, so dass die Konvergenz erheblich verbessert wird. Weiterhin können potenzielle Modellfehler besser ausgeglichen werden, so dass das optimierte Systemmodell leistungsfähiger wird. Durch die Verbesserung der Effizienz ist es möglich, die Bayes'sche Optimierung zu hochdimensionalen Regelungsstrategien zu skalieren.
-
Zur Erstellung der Qualitätsfunktion für Leistungsfähigkeit des Regelungssystems bezogen auf Modellparametersätze werden zunächst Daten bereitgestellt.
-
Damit wird ein initiales Gaußprozessmodell als die Qualitätsfunktion trainiert, das die Testmodellparameter auf Kosten abbildet.
wobei K der Kovarianzmatrix entspricht mit
-
Dadurch liefert das Gaußprozessmodell sowohl den Erwartungswert, d.h. die Kosten J als auch die Unsicherheit dieses Erwartungswerts.
-
Daraus kann nun die initiale Modellparameterdomäne ermittelt werden, da es ohne Vorwissen schwierig ist, die Wertebereiche für die einzelnen Modellparameter, d.h. die Modellparameterdomäne, für die Optimierung auszuwählen. Die Wahl einer geeigneten Modellparameterdomäne ist für ein effizientes Optimierungsverfahren ohne eine übermäßige Anzahl von Vermessungsvorgängen wesentlich. In Schritt S3 wird daher ein geeigneter Suchbereich für die Modellparameter ausgewählt, so dass die Anzahl der Vermessungsvorgänge reduziert werden kann. Dies ist insbesondere bei hoher Dimensionalität erforderlich, da dort eine manuelle Einstellung der Wertebereiche jedes der Modellparameter nicht ohne Weiteres möglich ist. Daher werden die Wertebereiche der Modellparameter basierend auf dem zuvor trainierten Gaußprozessmodell ermittelt und nachfolgend diese Verteilung verwendet, um die Wertebereiche für jeden der Modellparameter auszuwählen.
-
Die Verteilung erhält man durch die Bayes'sche Lineare Regression durch aufgezeichnete Datenwerte der Zustandsgrößenvektoren und Eingangsgrößenvektoren, um ein angenähertes lineares Modell der Systemdynamik zu erhalten. Dies führt zu einer Gauß-Verteilung über den Modellen
wobei µ
AB der Maximum-Posterior-(MAP-)Schätzwert und die Notation vec(.,.) angibt, dass die Matrizen A und B in einen Vektor umgeformt sind.
-
Die Anordnung
1 der
1 umfasst weiterhin eine Optimierungseinheit
22. Die Optimierungseinheit
22 kann in dem Steuergerät
2 oder alternativ separat hierzu vorgesehen sein. Die Optimierungseinheit
22 hat das Ziel, für den Regler
21 ein Regelungsmodell zu ermitteln, durch das das dynamische technische System
3 geregelt werden kann. Die Optimierungseinheit
22 führt dazu ein iteratives Optimierungsverfahren durch, durch das das Regelungsmodell erstellt wird, indem eine Qualitätsfunktion minimiert wird. Die Minimierung der Qualitätsfunktion kann ausgedrückt werden als:
wobei die Anfangsbedingung durch x
0 vorgegeben ist. x
t entspricht dabei einem Zustandsvektor für einen Systemzustand zum Zeitpunkt t und u
t einem Eingangsgrößenvektor zum Zeitpunkt t. Die Kostenmatrizen Q und R werden als positiv semidefinit bzw. positiv definit angenommen. Basierend auf der linearen Näherung des Dynamikverhaltens f(x
t, u
t) = Ax
t + Bu
t und unter der Annahme eines Linear State Feedback Controllers u
t = π(x
t) = -Kx
t e mit einer Regelungsstrategie π ergibt sich eine näherungsweise statische Lösung des obigen Minimierungsproblems mit
und
wobei die letztgenannte Gleichung der zeitdiskreten algebraischen Riccati-Gleichung (DARE) entspricht, die effizient nach P durch das Kleinman-Verfahren gelöst werden kann. Der Linear State Feedback Controller wird im Folgenden durch die Kurznotation dlqr (A, B, Q, R) beschrieben.
-
Die Lösung der letztgenannten Gleichung ist in der Regelungstheorie als LQR-Regler (LQR: Linear Quadratic Regulator) bekannt. Häufig führt die Modellierung eines LQR-Reglers aufgrund der linearen Näherung der Systemdynamik, die oft nur eine ausreichend genaue Näherung in der unmittelbaren Umgebung des Betriebspunkts ist, zu unzufriedenstellenden Ergebnissen.
-
Im Folgenden soll eine Regelungsstrategiesuche basierend auf einem Bayes'schen Optimierungsverfahren durchgeführt werden. Dieses sieht eine Gauß-Prozess-Regression vor. Eine Gauß-Prozess-Regression ist ein nichtparametrisches Verfahren, um eine a priori unbekannte Funktion J(θ): Θ→ℝ zu modellieren. Mithilfe der Gauß-Prozess-Regression kann bei rauschbehafteten Beobachtungen des Systemverhaltens sowohl der Verlauf der Funktionswerte als auch die Unsicherheit der Vorhersage jedes der Funktionswerte bestimmt werden. Der Gauß-Prozess kann als Verteilung über Funktionen verstanden werden und ist durch eine Prior-Mittelwertfunktion m(0) und eine Kovarianzfunktion k (θ, θ') definiert. Die Mittelwertfunktion gibt das a-priori-Wissen über die abzubildende Qualitätsfunktion J(θ) an und wird oft als null angenommen. Die Kovarianzfunktion wird auch Kernel genannt und definiert die Korrelation zwischen jeweils zwei Funktionswerten J(θ) und J(θ') mit θ, θ' ∈ Θ.
-
Unter der Annahme von n rauschbehafteten Beobachtungswerten:
kann die Prior-Verteilung über die Vorhersagen auf die gemessenen Daten erstellt werden, um die Posterior-Vorhersage der Qualitätsfunktion an jedem Punkt θ* ∈ Θ zu erhalten. Der Posterior-Mittelwert und Kovarianz sind gegeben durch
wobei
und die symmetrische Gram-Matrix K
n ∈ ℝ
n×n die Einträge
aufweist.
-
Die Gauß-Prozess-Regression wird verwendet, um das Verhalten des technischen Systems 2 zu modellieren und deren Optimalität zu bewerten. Das Verhalten der Anordnung aus dem Regler und dem technischen System 2 wird durch eine Qualitätsfunktion dargestellt, die eine funktionale Beziehung zwischen den Modellparametern und den resultierenden Kosten des basierend auf einer durch die Modellparameter definierten Regelungsstrategie geregelten technischen Systems darstellt. Das Bayes'sche Optimierungsverfahren wird dann angewendet, um die Qualitätsfunktion zu optimieren. Dieses ist nicht analytisch möglich und muss daher iterativ durchgeführt werden. Der Aufwand für die Optimierung soll daher auf eine möglichst geringe Anzahl von Iterationen beschränkt werden.
-
Eine Iteration entspricht einem Messvorgang einer Anwendung einer Regelungsstrategie, die durch zu betrachtende Modellparameter θ* definiert ist, auf das reale technische System
2. Daraus ergibt sich ein neues Datenpaar
, das den Trainingsdate für den Gaußprozess hinzugefügt wird.
-
Nach jedem Messvorgang wird ein neuer Bewertungspunkt durch Maximieren einer Akquisitionsfunktion α(θn, Dn) ausgewählt, was effizient durch numerische Optimierungstechnik, wie L-BFGS, durchgeführt werden kann. Alternativen für die Akquisitionsfunktionen können beispielsweise die Wahrscheinlichkeit von Verbesserungen (probability of improvement, PI), erwartete Verbesserungen (expected improvement, El) und obere Konfidenzgrenze (upper confidence bound, UCB) verwendet werden. All diese Funktionen bieten einen Trade-off zwischen Exploration, d. h. Bevorzugen von Bereichen der Eingangsgrößenvektoren, in denen die Qualitätsfunktion noch nicht bewertet worden ist, und Exploitation, d. h. Bevorzugen eines Bereichs in dem ein geschätztes Optimum (Minimum) der Qualitätsfunktion liegt.
-
Für die Bayes'sche Optimierung wird nur das Gesamtverhalten eines durch einen Messvorgang betriebenen technischen Systems bewertet, während die Trajektoriendaten bzw. die Verlaufsdaten in der Regel verworfen werden. Für die Systemidentifikation mithilfe einer Bayes'schen linearen Regression können die Zustandsgrößen mit hoher Frequenz abgetastet werden, um ein Unsicherheitsmaß für das zu schätzende Modell zu erhalten.
-
Bei der klassischen parametrischen Regression wird ein Modell y(x, w) mit einem Eingang x und Gewichten oder Parametern w angenommen, die verwendet werden, um eine rauschbehaftete Zielvariable t zu schätzen.
-
Unter der Annahme, dass das Rauschen einer Gauß-Verteilung mit der Präzision (inverse Varianz) y folgt, entspricht die Posterior-Verteilung der Gewichte für n Messungen, die in einer Matrix
und jeweiligen Zielwerten, die in einem Vektor t
n = [t
1, ..., tn]
Tangegeben sind:
wobei n der Anzahl der Datenpunkte, γ einer vorgegebenen Konstante, die das Rauschen in den Daten beschreibt, m
0 einem A-priori Mittelwert der zu schätzenden Modellparameter (den Mittelwerten des Gaußschen Priors auf die Modellparameter), S
0 einer a-priori Kovarianz der zu schätzenden Modellparameter (den Kovarianzen des Gaußschen Priors auf die Modellparameter), X den Orten der Datenpunkte (in einer Matrix zusammengefasst), t den Funktionswerten der Datenpunkte (in einem Vektor zusammengefasst), m
n den a-posteriori Erwartungswerten (Mittelwerten) der zu schätzenden Modellparameter und S
n der a-posteriori Kovarianz der zu schätzenden Modellparameter entsprechen.
-
Der Maximum-Posterior-Schätzwert (MAP-Schätzwert) der Gewichte w entspricht dem Mittelwert der Posterior-Verteilung, d. h. w
MAP = m
n und seine Kovarianz entspricht
-
Die Ermittlung des Regelungsmodells erfolgt durch Reinforcement Learning zur Ermittlung einer Parametrierung für einen Linear State Feedback Controller mithilfe eines Bayes'schen Optimierungsverfahren.
-
Nachfolgend werden Maßnahmen zur Beschleunigung des Konvergierens des Optimierungsverfahrens vorgeschlagen.
-
Es wird als Vorannahme angenommen, dass das nichtlineare technische System
2 durch ein lineares Modell angenähert wird und das Bayes'sche Optimierungsverfahren verwendet wird, um die Einträge der Systemmatrizen A, B zu optimieren. Das resultierende Regelungsmodell π
AB kann dann geschrieben werden als:
-
Dieses Verfahren wird AB-Lernverfahren genannt.
-
Ein alternatives Lernverfahren stellt das sogenannte K-Lernverfahren dar, bei dem in die Rückkopplungsverstärkungsmatrix direkt optimiert wird. Hier entspricht das Regelungsmodell
, das im Gegensatz zu dem zuvor beschriebenen Ansatz die obige nicht verwendet und daher ein modellfreier Ansatz ist.
-
Anhand des Flussdiagramms der 2 wird nun das Verfahren zum Erstellen eines Regelungsmodells mithilfe eines Bayes'schen Optimierungsverfahrens beschrieben.
-
In Schritt
S1 werden zunächst die MAP-Gewichtungsmatrizen A
MAP, B
MAP ermittelt. Dies kann ohne Vorwissen über das Regelungsmodell erfolgen. In dem Identifikationsprozess für technische Systeme ist es ein Ziel, den Nachfolgezustand x
t+1 des technischen Systems
2 basierend auf einem gegebenen aktuellen Zustand x
t und einem Eingangsgrößenvektor u
t zu ermitteln. Somit gilt:
-
Der Maximum-Posterior-Schätzwert (MAP-Schätzwert) der Gewichte θMAP entspricht
-
Der Vorteil der Verwendung einer Bayes'schen linearen Regression besteht darin, dass er nicht nur den MAP-Schätzwert des Mittelwerts θMAP, sondern auch eine Schätzung der Unsicherheit σMAP erhält. Diese entsprechen den Einträgen der Diagonalen der Matrix Sn.
-
In Schritt S2 werden die Wertebereiche für die zu bestimmenden Modellparameter für das Regelungsmodell festgelegt. Die Bayes'sche Optimierung muss die Wertebereiche der Modellparameter auch hinsichtlich der Längenskalen der Qualitätsfunktion möglichst ausreichend überdecken. A priori ist es oftmals schwierig zu bestimmen, in welchen Wertebereichen die Modellparameter, d.h. die Einträge der Matrix K, optimiert werden müssen, so dass ein gutes Regelungsverhalten erreicht wird.
-
Hierzu werden mithilfe der MAP-Schätzwerte WMAP, σMAPaus der Systemidentifikation des Schritts S1 sinnvolle Wertebereiche, in denen nachfolgend die Modellparameter optimiert werden, für jeden der Modellparameter ausgewählt.
-
Für das AB-Lernverfahren entspricht die Wahl der Wertebereiche Θ (Modellparameterdomäne) ausgehend von den MAP-Schätzwerten θ
MAP, σ
MAP der Matrix K und den Varianzen der Parameterschätzwerte. So kann die iσ-Varianz um die MAP-Schätzwerte als Wertebereiche für die Parameter angenommen werden, so dass gilt:
wobei i bevorzugt zwischen 1 und 4, insbesondere als 2 angenommen werden kann.
-
Dadurch werden Modellparametern, die eine höhere Unsicherheit aufweisen, ein größerer Wertebereich für die Optimierung während des Bayes'schen Optimierungsverfahrens zugewiesen und umgekehrt wird gut identifizierten Modellparametern, d. h. Modellparametern mit einer niedrigen Unsicherheit, ein kleinerer Wertebereich zugewiesen.
-
Beim K-Lernverfahren werden die Wertebereiche mithilfe des LQR-Reglers für das geschätzte System konstruiert:
-
Die Wertebereiche der Modellparameter des Regelungsmodells können hierbei zwischen 0 und einem Doppelten des MAP-Schätzwerts des jeweiligen Modellparameters vorgesehen sein.
-
Allgemein können die Wertebereiche der Modellparameter des Regelungsmodells vorgegeben sein:
-
Mit
-
In Schritt S3 wird eine Prior-Mittelwertfunktion ermittelt. Dies verwendet das Näherungsmodell des technischen Systems 2, um einen einfachen Simulator des technischen Systems 2 zu ermitteln. Dieser wird verwendet, um die Form der Qualitätsfunktion zu schätzen. Das Näherungsmodell des technischen Systems 2 wird beispielsweise mithilfe eines Gauß-Prozesses basierend auf wenigen Messpunkten bestimmt. Die Anzahl der dafür verwendeten Messpunkte kann zwischen 10 und 100 liegen. Anschließend kann eine angenäherte Prior-Mittelwertfunktion der Kosten z.B. durch die Gaußprozess-Regression konstruiert werden.
-
Anschließend werden initiale Modellparameter θ0 in Schritt S4 durch Minimieren der Prior-Mittelwertfunktion bestimmt.
-
Mithilfe der initialen Modellparameter θ0 kann in Schritt S5 das dadurch definierte Regelungsmodell in einem Messvorgang evaluiert werden und entsprechende minimale Kosten Ĵ(θ0) gemäß der Qualitätsfunktion bestimmt werden.
-
Anschließend werden in Schritt S6 die nächsten Modellparameter θn+1 für die nächste Iteration des Optimierungsverfahrens aus der Maximierung der Akquisitionsfunktion α(θn, Dn) unter Berücksichtigung des zuletzt bestimmten Datenpaares θn, Ĵ(θn) bestimmt.
-
Mithilfe der aktuellen Modellparameter θn+1 kann in Schritt S7 das dadurch definierte Regelungsmodell in einem nächsten Messvorgang evaluiert werden und entsprechende minimale Kosten Ĵ(θn+1) bestimmt werden.
-
Anschließend werden in Schritt
S8 den Trainingsdaten das zuletzt ermittelte Datenpaar hinzugefügt.
-
Anschließend wird in Schritt S9 ein Abbruchkriterium überprüft, das beispielsweise angibt, ob eine ausreichende Leistung des Regelungsmodells erreicht worden ist oder ob eine ausreichende Konvergenz vorliegt. Ist das Abbruchkriterium erfüllt (Alternative: Ja), so wird das Verfahren mit Schritt S10 beendet, anderenfalls (Alternative: Nein) wird zu Schritt S6 zurückgesprungen.
-
In Schritt S10 werden die zuletzt ermittelten Modellparameter für die Regelungsstrategie angewendet.