DE102019208262A1 - Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens - Google Patents

Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens Download PDF

Info

Publication number
DE102019208262A1
DE102019208262A1 DE102019208262.9A DE102019208262A DE102019208262A1 DE 102019208262 A1 DE102019208262 A1 DE 102019208262A1 DE 102019208262 A DE102019208262 A DE 102019208262A DE 102019208262 A1 DE102019208262 A1 DE 102019208262A1
Authority
DE
Germany
Prior art keywords
model
model parameters
function
control
technical system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019208262.9A
Other languages
English (en)
Inventor
Edgar Klenske
Christian Daniel
Lukas Froehlich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102019208262.9A priority Critical patent/DE102019208262A1/de
Priority to CN202080041182.0A priority patent/CN113874865A/zh
Priority to US17/611,549 priority patent/US20220236698A1/en
Priority to PCT/EP2020/064676 priority patent/WO2020244987A1/de
Publication of DE102019208262A1 publication Critical patent/DE102019208262A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25298System identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung betrifft Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System (2) mithilfe eines Bayes'schen Optimierungsverfahren, wobei die Regelungsstrategie basierend auf Modellparametern (θ) eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden:- Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems (2) basierend auf Modellparametern (θ) bewertet;- Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern (θ) innerhalb einer Modellparameterdomäne (Θ), die die zulässigen Wertebereiche für die Modellparameter (θ) angibt, zu ermitteln; und- Bestimmen der Modellparameterdomäne (Θ) für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert (θMAP) der Qualitätsfunktion.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft Verfahren zum Auffinden einer geeigneten Regelungsstrategie für ein technisches System, insbesondere unter Nutzung eines Bayes'schen Optimierungsverfahrens. Insbesondere betrifft die vorliegende Erfindung ein computerimplementiertes Verfahren zur effizienteren Optimierung von Modellparametern eines Regelungsmodells zur Implementierung einer Regelungsstrategie für ein technisches System. Weiterhin betrifft die vorliegende Erfindung Maßnahmen zur Beschleunigung der Durchführung von Bayes'schen Optimierungsverfahren, um den Rechenaufwand für die Parametrisierung von Regelungsstrategien zu reduzieren.
  • Technischer Hintergrund
  • Die Ermittlung von Regelungsstrategien bzw. Regelungsmodellen zum Regeln bzw. Betreiben eines technischen Systems ist je nach Komplexität des technischen Systems aufwändig. Während bei einem linearen dynamischen Verhalten des technischen Systems eine optimale Regelung durch klassische Verfahren ermittelt werden kann, ist es jedoch insbesondere bei nichtlinearen physikalischen Systemen aufwendig, ein entsprechendes Regelungsmodell, das auf physikalischen Zusammenhängen basiert, zu erstellen bzw. zu parametrisieren.
  • Alternativ kann zum Auffinden einer geeigneten Regelungsstrategie das sogenannte Reinforcement Learning eingesetzt werden. Reinforcement Learning umfasst die Beobachtung der Wechselwirkung zwischen dem technischen System und der Umgebung und lernt daraus ein entsprechendes Funktionsmodell, das das Verhalten des technischen Systems bei seiner Interaktion mit der Umgebung beschreibt. Der Lernvorgang erfolgt durch Minimierung eines durch eine Kostenfunktion bzw. Qualitätsfunktion angegebenen Kostenwerts, der eine Leistungsfähigkeit des Regelungssystems bewertet, um Modellparameter für ein Regelungsmodell zum automatisierten geregelten Führen des technischen Systems in der Umgebung zu erhalten.
  • Insbesondere modellfreie Reinforcement Learning-Verfahren sind vorteilhaft, da keine Kenntnis über die Umgebung und das Zusammenwirken der Umgebung mit dem System erforderlich sind, jedoch ist die Interaktionszeit des Systems mit der Umgebung während des Lernprozesses sehr hoch. Dagegen wird bei herkömmlichen modellbasierten Verfahren initial eine Modellstruktur vorgegeben, die das Verhalten des Regelungssystems in der Umgebung grundsätzlich beschreibt. Dadurch können die Auswirkungen der Interaktion des Regelungssystems mit der Umgebung abgebildet werden. Die Anpassung der Modellstruktur durch eine Parameteranpassung ist einfach und effizient durchführbar. Jedoch hat das herkömmliche Verfahren Nachteile, da die gewählte Modellstruktur ungeeignet sein kann und dadurch die Parameteranpassung durch die Optimierung des Regelungsmodells nicht zu einem optimalen Ergebnis führt.
  • Die Erstellung und Optimierung eines Regelungsmodells in Verbindung mit Reinforcement Learning kann in Kombination mit einer Bayes'schen Optimierung durchgeführt werden, wobei die Qualitätsfunktion als Gaußprozessmodell modelliert wird. Dies ermöglicht die Erstellung eines effizienten Black-Box-Optimierers für Regelungsmodelle, die ansonsten aufwendig zu erstellen/parametrisieren wären. Jedoch ist aufgrund der hohen Anzahl von Modellparametern von derartigen Regelungsmodellen die Optimierung sehr aufwendig, so dass eine große Anzahl von Vermessungsvorgängen notwendig sind und durch die hohe Menge an Messdaten lange Trainingszeiten die Regel sind.
  • Offenbarung der Erfindung
  • Erfindungsgemäß sind ein Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System mithilfe eines Bayes'schen Optimierungsverfahrens gemäß Anspruch 1 sowie eine entsprechende Vorrichtung, ein Regelungssystem und ein Regelungsverfahren gemäß den nebengeordneten Ansprüchen vorgesehen.
  • Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.
  • Gemäß einem ersten Aspekt ist ein Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System mithilfe eines Bayes'schen Optimierungsverfahren vorgesehen, wobei die Regelungsstrategie basierend auf Modellparametern eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden:
    • - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;
    • - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern innerhalb einer Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparameter angibt, zu ermitteln;
    • - Bestimmen der Modellparameterdomäne für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert der Qualitätsfunktion.
  • Zur Modellierung der Regelung eines Regelungssystems wird ein Regelungsmodell erstellt. Das Regelungsmodell definiert eine Regelungsstrategie und stellt eine funktionale Beziehung dar, mit der eine Stellgröße basierend auf einer oder mehrerer Eingangsgrößen der Regelung berechnet werden. Mindestens eine der Eingangsgrößen entspricht dabei einer Zustandsgröße des zu regelnden technischen Systems.
  • Die Form des Regelungsmodells kann in vielfältiger Weise vorgegeben werden. So kann das Regelungsmodell eine Formelbeziehung beinhalten, die auf physikalischen Gesetzmäßigkeiten basiert, wie z.B. Bewegungsgleichungen, Schwingungsgleichungen, Dämpfungsverhalten usw.. Auch kann das Regelungsmodell auf einer frei gewählten Formelbeziehung beruhen. Häufig muss die Formelbeziehung ein nichtlineares Verhalten des technischen Systems berücksichtigen.
  • Bayes'sche Optimierungsverfahren für die Ermittlung eines Regelungsmodells wenden verschiedene Regelungsstrategien iterativ mit einem technischen System an und optimieren die Regelung auf effiziente Weise. Dabei wird die Qualitätsfunktion mithilfe einer Gauß-Prozess-Regression modelliert, um die Leistungsfähigkeit des Systemmodells als Funktion der Modellparameter des Regelungsmodells zu modellieren, wobei die Gauß-Prozess-Regression basierend auf rauschbehafteten Zustandsgrößen erstellt wird. Grundsätzlich betrifft das Problem, eine Regelungsstrategie aufzufinden, die einen Systemzustand auf einen Eingangsgrößenvektor abbildet. Dazu wird eine von den Modellparametern der Regelungsstrategie abhängige Qualitätsfunktion (Kostenfunktion) über einen vorbestimmten Zeithorizont basierend auf den Zustandsgrößenvektoren (aus mehreren Zustandsgrößen) und Eingangsgrößenvektoren (aus mehreren Eingangsgrößen) ausgewertet.
  • Im Allgemeinen wird die Bayes'sche Optimierung angewendet, wenn eine unbekannte Funktion f, eine sogenannte „Black-Box“-Funktion, minimiert werden soll. Diese unbekannte Funktion f kann lediglich für einen Wert x ausgewertet und (möglicherweise durch Rauschen behaftet) beobachtet werden. Der beobachtete Wert y ergibt sich als y = f(x) + e, wobei e das Rauschen bezeichnet. Zudem wird angenommen, dass jede Auswertung der unbekannten Funktion f teuer ist, d.h. Kosten verursacht, in dem Sinne, dass die Auswertung der unbekannten Funktion einen hohen Aufwand verursacht/, wie es z.B. bei einer Ausführung eines Experiments auf einem Prüfstand der Fall ist. Aufgrund der teuren Auswertung der unbekannten Funktion, ist es erstrebenswert, dass während der Optimierung lediglich wenige Auswertungen vorgenommen werden müssen.
  • Unter gewissen Vorannahmen, wie z.B. der Stetigkeit der unbekannten Funktion, kann die unbekannte Funktion mit einer Gauß-Prozess-Regression in einem Funktionsmodell approximiert werden. Dazu kann nach einer Auswertung der unbekannten Funktion an mehreren Auswertungspunkten (x1, ..., xn) und Beobachtung der entsprechenden Funktionswerte (y1, ... yn) mithilfe des Gauß-Prozesses ein Modell der unbekannten Funktion faufstellen. Eine Eigenschaft des Gauß-Prozesses ist, dass in Bereichen um die Auswertungspunkte die Modellvorhersage sehr gut ist und die unbekannte Funktion gut approximiert wird. Dies spiegelt sich in einer geringen Unsicherheit des Funktionsmodells wieder. Fernab von Auswertungspunkten werden die Modellvorhersagen über die unbekannte Funktion f schlecht und die Unsicherheit nimmt mit zunehmenden Abstand zu den Auswertungspunkten zu.
  • Eine mögliche Strategie, um die unbekannte Funktion f zu optimieren, ist, die unbekannte Funktion an vielen verschiedenen Stellen (z.B. auf einem regelmäßigen Gitter) auszuwerten und den niedrigsten beobachteten Funktionswert als das Ergebnis der Optimierung anzunehmen. Dieses Vorgehen ist ineffizient und es sind viele Auswertungen mit entsprechend hohem Aufwand notwendig, das Optimum aufzufinden.
  • Anstelle dieses Ansatzes wird der Gauß-Prozess verwendet, um neue Auswertungspunkte auszuwählen. Dazu wird ein neuer Auswertungspunkt für das Auswerten der unbekannten Funktion so ausgewählt, dass dadurch zum einen das Modell verbessert wird, so dass die Unsicherheit des geschätzten Erwartungswerts der Qualitätsfunktion reduziert wird. Dazu werden in der Regel die Auswertungspunkte in Bereichen gewählt, in denen die unbekannte Funktion noch nicht ausgewertet wurde (Exploration). Zum anderen wird ein neuer Auswertungspunkt für das Auswerten der unbekannten Funktion so ausgewählt, dass das Ziel, die Funktion zu minimieren, schnellstmöglich bzw. mit einer geringen Zahl von Vermessungen an den Auswertungspunkten erreicht wird. Dafür werden Auswertungspunkte bevorzugt, die basierend auf dem Gauß-Prozess niedrige Funktionswerte versprechen (Exploitation). Diese zwei gegensätzlichen Kriterien werden durch eine sogenannte Akquisition-Funktion abgewägt.
  • Die Aquisitionsfunktion nutzt Parameter der Qualitätsfunktion, die durch ein Gauß-Prozess-Modell beschrieben wird, wie z.B. den Erwartungswert µ (x) und die diesem Erwartungswert zugeordnete Standardabweichung σ (x). Ein Beispiel ist die sogenannte Lower-Confidence-Bound (LCB) Aquisition-Funktion, die wie folgt beschrieben wird: LCB(x) = µ (x) - kσ (x). Der Faktor k wird in der Praxis oft konstant z.B. auf einen bestimmten Wert festgelegt, wie z.B. k = 2. Dieses neue Kriterium kann effizient mit gängigen gradienten-basierten Methoden minimiert werden und das Minimum von LCB(x) bildet dann den neuen Auswertungspunkt für die unbekannte Funktion f. Hierbei ist zu beachten, dass für die Optimierung der Akquisition-Funktion eine Optimierungsdomäne definiert werden muss, in der nach dem nächsten Auswertungspunkt gesucht wird. Diese Domäne wird typischerweise aufgrund von Erfahrungs- und/oder Expertenwissen gewählt.
  • Gemäß dem obigen Verfahren wird das Bayes'sche Optimierungsverfahren dazu verwendet, die Modellparameter der Regelungsstrategie durch eine Minimierung der zunächst unbekannten Qualitätsfunktion aufzufinden. Ziel ist es, das Regelungsmodell so zu erstellen, dass das Verhalten des technischen Systems möglichst genau den gewünschten Spezifikationen entspricht. Die Qualitätsfunktion kann ggfs. entsprechend der Leistungsfähigkeit des Regelungssystems abhängig von den jeweiligen Modellparametern stets aktualisiert werden. Für die Aktualisierung der Qualitätsfunktion ist eine Bewertung der jeweiligen Modellparameter erforderlich, was ein Betreiben des Regelungssystems mit den jeweiligen Modellparametern in der realen Umgebung notwendig macht. Durch die Notwendigkeit, dass Regelungssystem real zu betreiben, wird die Verbesserung der Bewertung der Kosten durch die kontinuierlich zu aktualisierende Qualitätsfunktion sehr aufwendig. Daher ist es wünschenswert, die Anzahl der Vermessungsvorgänge am realen technischen System möglichst zu minimieren.
  • Jeweils nach einem oder mehreren Vermessungsvorgängen kann die Qualitätsfunktion mit den zuletzt vermessenen Modellparametern und die resultierenden Kosten aktualisiert und ein neuer Satz von Testmodellparameter ausgewählt werden, in dem eine vorgegebene Akquisitionsfunktion, die Parameter der Qualitätsfunktion bewertet, minimiert oder maximiert wird. Die Akquisitionsfunktion ist vorgegeben, um unter Abwägung von Exploration und Exploitation einen neuen Testmodellparametersatz durch Minimierung /Maximierung zu ermitteln. Exploration bedeutet im Kontext des erfindungsgemäßen Verfahren, dass Bereiche des möglichen Modellparameterraums für die Auswahl eines neuen Testmodellparameters bevorzugt werden, in denen durch vorangehende Vermessungsvorgänge die Kosten noch nicht bewertet worden sind. Exploitation im Kontext des erfindungsgemäßen Verfahren bedeutet, dass ein Modellparametersatz für die nächste Kostenbewertung durch einen Vermessungsvorgang ausgewählt wird, der als ein Satz optimaler Modellparameter eingeschätzt wird.
  • Eine Idee des obigen Verfahrens besteht darin, die Modellparameter für das Regelungsmodell mithilfe eines Bayes'schen Optimierungsverfahrens in einer vorab eingeschränkten Optimierungsdomäne zu ermitteln. Während es bei einem herkömmlichen Bayes'schen Optimierungsverfahren nicht ohne weiteres möglich ist, die Modellparameterdomäne für einzelne Modellparameter, in der die Suche nach einer Regelungsstrategie durchgeführt werden soll, so zu bestimmen, dass die Optimierung effizienter, d.h. mit einer geringeren Anzahl von Auswertevorgängen/Vermessungen, ausgeführt wird, können anhand des zuvor bestimmten Maximum-a-Posteriori-Schätzwertes (MAP Estimate) aus der initial ausgeführten Systemidentifikation sinnvolle Wertebereiche für die Modellparameter zu deren Optimierung bestimmt werden.
  • Auf diese Weise kann die Modellparameterdomäne für die Bayes'sche Optimierung der Qualitätsfunktion automatisch, d.h. ohne manuelle Vorgabe von Wertebereichen für die Modellparameter, verkleinert werden, so dass die Anzahl der Messvorgänge für die Optimierung erheblich reduziert werden kann.
  • Weiterhin kann das parametrische Regressionsmodell einen Eingangsgrößenvektor und einen Systemzustand auf einen nachfolgenden Systemzustand abbilden und insbesondere entsprechend trainiert werden, um eine Gewichtungsmatrix zu erhalten.
  • Weiterhin können die Modellparameter mithilfe eines AB-Lernverfahrens für einen LQR-Regler ermittelt werden, wobei zu dem mindestens einen Maximum-a-Posteriori-Schätzwert jeweils ein Unsicherheitsmaß bestimmt wird, wobei der Wertebereich des mindestens einen Modellparameters um den Maximum-a-Posteriori-Schätzwert festgelegt wird.
  • Zusätzlich zu dem Maximum-a-Posteriori-Schätzwert können auch die Unsicherheitsmaße der Maximum-a-Posteriori-Schätzwerte bestimmt werden und diese die Größe des jeweiligen Wertebereichs für den zugeordneten Modellparameter bestimmen lassen. Dies ermöglicht es, den Suchbereich der Optimierung für Modellparameter individuell anzupassen, d.h. den Suchbereich für Modellparameter, die mit einer hohen Unsicherheit behaftet sind, größer festzulegen, als dies für Modellparameter der Fall ist, die mit einer geringeren Unsicherheit behaftet sind.
  • Es kann vorgesehen sein, dass die Modellparameter mithilfe eines K-Lernverfahrens für einen LQR-Regler ermittelt werden, wobei der Wertebereich des mindestens einen Modellparameters um den Maximum-a-Posteriori-Schätzwert festgelegt wird.
  • Weiterhin kann der Wertebereich des mindestens einen Modellparameters um den Maximum-a-Posteriori-Schätzwert mit einem Maß bestimmt werden, das als Produkt eines vorgegebenen Faktors zwischen 0 und 1 den betreffenden den Maximum-a-Posteriori-Schätzwert bestimmt wird.
  • Gemäß einer weiteren Ausführungsform kann das Optimierungsverfahren mit initialen Modellparametern gestartet werden, die sich durch eine Minimierung einer Prior-Mittelwertfunktion ergeben, wobei ein nicht parametrisches Näherungsmodell des technischen Systems trainiert wird, um die Prior-Mittelwertfunktion zu erhalten.
  • Gemäß einem weiteren Aspekt ist eine Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System mithilfe eines Bayes'schen Optimierungsverfahren vorgesehen, wobei die Regelungsstrategie basierend auf Modellparametern eines Regelungsmodells erstellt wird und ausführbar ist, wobei die Vorrichtung ausgebildet ist, um zur Optimierung der Regelung folgende Schritte auszuführen:
    • - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;
    • - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern innerhalb einer Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparameter angibt, zu ermitteln; und
    • - Bestimmen der Modellparameterdomäne für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert der Qualitätsfunktion.
  • Gemäß einem weiteren Aspekt ist ein Regelungssystem mit einem technischen System und einer Regelungseinheit zum Regeln des technischen Systems, wobei in der Regelungseinheit ein Regelungsmodell zum Bereitstellen eines Eingangsgrößenvektors abhängig von Zustandsgrößen des technischen Systems implementiert ist, wobei ein Modellerstellungsblock vorgesehen ist, um Modellparameter für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock ausgeführten Bayes'schen Optimierungsverfahrens zu ermitteln, wobei die Regelungsstrategie basierend auf Modellparametern eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden:
    • - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;
    • - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern innerhalb einer Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparameter angibt, zu ermitteln;
    • - Bestimmen der Modellparameterdomäne für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert der Qualitätsfunktion.
  • Figurenliste
  • Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
    • 1 eine schematische Darstellung eines Regelungssystems mit einer Regelungseinheit und einem zu regelndem technischen System; und
    • 2 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Erstellen eines Regelungsmodells mithilfe eines Reinforcement-Learning-Verfahrens.
  • Beschreibung von Ausführungsformen
  • 1 zeigt eine schematische Darstellung eines sich selbst anpassenden Regelungssystems 1, das zur Regelung eines technischen Systems 2 ausgebildet ist. Ein technisches System 2 kann beispielsweise ein Verbrennungsmotor eines Kraftfahrzeugs oder ein Teilsystem davon sein. Eine Regelungseinheit 3 regelt das technische System 2 mit einer Abfolge von Eingangsgrößen u als Stellgrößen an, die zu bestimmten Betriebspunkten des technischen Systems 2 führen. Die Eingangsgrößen u umfassen in der Regel eine Anzahl von mehreren Eingangsgrö-ßen, die in einem Eingangsgrößenvektor u ∈ ℝd zusammengefasst sind. Zudem gilt für jede der Eingangsgrößen (Elemente des Eingangsgrößenvektors u) ein zulässiger Wertebereich. Weiterhin resultiert die Ansteuerung des technischen Systems 2 in einer oder mehreren Zustandsgrößen, die an einem zu vermessenden Eingangsgrößenvektor u gemessen werden und die in Form eines Zustandsgrößenvektors x dargestellt sind.
  • Mithilfe eines oder mehrerer Sensoren 21, die Teil des technischen Systems 2 sind, können Verläufe einer oder mehrerer Messgrößen x1...xD erfasst werden, die jeweils entsprechende Zustandsgrößen x1 (t)... xD (t) , die jeweils die Systemzustände x des technischen Systems 2 angeben, repräsentieren. D entspricht dabei der Anzahl von Zustandsgrößen. Somit wird der Systemzustand des technischen Systems 2 mithilfe des einen oder der mehreren Sensoren 21 erfasst und als Zustandsgrößen eines Zustandsgrößenvektors x an die Regelungseinheit 3 übermittelt.
  • Eingangsgrößen u entsprechen Stellgrößen der Regelungseinheit 3 die basierend auf den Zustandsgrößen x und der Regelungsstrategie πθ (x) ermittelt werden. Der Betrieb des technischen Systems 2 erfolgt abhängig von den Eingangsgrößen u(t) mithilfe eines oder mehrerer Aktoren 22 des technischen Systems 2. Beispielsweise so kann eine Bewegung eines Roboters oder Fahrzeugs gesteuert werden oder eine Steuerung einer Antriebseinheit oder eines Fahrerassistenzsystems eines Fahrzeugs erfolgen. Eine Eingangsgröße u kann beispielsweise einer elektrischen Spannung entsprechen, die an einen elektromechanischen Stellgeber als Aktor 22 angelegt wird. Der Aktor 22 wird entsprechend der einen oder der mehreren Eingangsgrößen u angesteuert und führt eine entsprechende Aktion aus. Der Aktor 22 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus der Eingangsgrößen u eine Ansteuergröße ermittelt, mit der der betreffende Aktor 22 angesteuert wird.
  • In einem Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung eines Verbrennungsmotors als technisches System eingesetzt. Dazu können eine Drosselklappenstellung, eine Kraftstoffzufuhr, und/oder der gleichen als Eingangsgrößen dem Drosselklappensteller bzw. der Ansteuerung für Einspritzventile vorgeben werden und entsprechende Zustandsgrößen, wie beispielsweise eine Drehzahl, eine Last, eine Motortemperatur empfangen werden.
  • In einem Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung eines wenigstens teilautonomen Roboters, insbesondere eines wenigstens teilautonomen Kraftfahrzeugs, als technisches System 2 eingesetzt. Bei dem Sensor 21 kann es sich beispielsweise um einen oder mehrere vorzugsweise im Kraftfahrzeug angeordnete Videosensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere LiDAR-Sensoren und/oder einen oder mehrere Positionssensoren (beispielsweise GPS) handeln. Alternativ oder zusätzlich kann der Sensor 21 auch ein Informationssystem umfassen, das eine Information über einen Zustand des technischen Systems (Kraftfahrzeug) ermittelt, wie beispielsweise ein Wetterinformationssystem, das einen aktuellen oder zukünftigen Zustand des Wetters in einer Umgebung des Kraftfahrzeugs ermittelt.
  • In einem weiteren Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung einer Funktion in einem Kraftfahrzeug als technisches System eingesetzt. Dazu können eine Fahrpedalstellung, ein Lenkeingriff in Form eines Handgelenkmoments oder einer Lenkstellung, Umgebungsinformationen, wie zum Beispiel Position von Umgebungsobjekten, ein Bremseingriff und/oder dergleichen als Eingangsgrößen vorgegeben werden und entsprechende Zustandsgrößen, die das Fahrverhalten des Kraftfahrzeugs angeben, wie beispielsweise Fahrzeuggeschwindigkeit, Kurvenlage, Abstand zu Umgebungsobjekten und dergleichen empfangen werden.
  • Die Regelungseinheit 3 kann mit den mehreren Messgrößen x1 ...xD beispielsweise Zustände bzw. Zustandsverläufe des wenigstens teilautonomen Roboters detektieren, wie beispielsweise eine Motordrehzahl, eine Fahrzeuggeschwindigkeit, einen Kraftstoffverbrauch, eine Motortemperatur, eine Längsgeschwindigkeit und/oder eine Quergeschwindigkeit, einen Lenkwinkel, eine Gierrate, und dergleichen. Bei dem vorzugsweise im Kraftfahrzeug angeordneten Aktor 32 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs handeln.
  • Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln.
  • In noch weiteren Alternativen kann es sich bei dem wenigstens teilautonomen Roboter auch um ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, einen Herd, einen Backofen, eine Mikrowelle oder eine Spülmaschine handeln. Mit dem Sensor 21, beispielsweise einem optischen Sensor, kann ein Zustand eines mit dem Haushaltsgerät behandelten Objekts erfasst werden, beispielsweise im Falle der Waschmaschine ein Zustand von Wäsche, die in der Waschmaschine befindlich ist. Mit der Regelungseinheit 3 kann dann eine Art oder ein Zustand dieses Objekts ermittelt und durch die Messgrößen x1 ...xD charakterisiert werden. Die Eingangsgrößen können dann derart ermittelt werden, dass das Haushaltsgerät abhängig von der ermittelten Art oder dem ermittelten Zustand des Objekts angesteuert wird. Beispielsweise kann im Falle der Waschmaschine diese abhängig davon angesteuert werden, aus welchem Material die darin befindliche Wäsche ist. Die Eingangsgrößen u(t) können dann abhängig davon gewählt werden, welches Material der Wäsche ermittelt wurde.
  • In einer weiteren Ausführungsform kann die Regelungseinheit 3 zur Ansteuerung einer Fertigungsmaschine (technisches System 3) eines Fertigungssystems verwendet werden, indem ein diese Fertigungsmaschine steuernder Aktor 22 durch Eingangsgrößen angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren, Fräsen, Drehen und/oder Schneiden handeln.
  • Bei dem Sensor 21 dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen erfasst. Es ist möglich, dass der die Fertigungsmaschine steuernde Aktor 32 abhängig von den ermittelten Eigenschaften des Fertigungserzeugnisses angesteuert wird, damit die Fertigungsmaschine entsprechend einen nachfolgenden Bearbeitungsschritt dieses Fertigungserzeugnisses ausführt. Es ist auch möglich, dass der Sensor 31 die Eigenschaften des von der Fertigungsmaschine bearbeiteten Fertigungserzeugnisses ermittelt, und abhängig davon eine Ansteuerung der Fertigungsmaschine für ein nachfolgendes Fertigungserzeugnis anpasst.
  • Die Regelung der Regelungseinheit 3 folgt einer Regelungsstrategie. Durch einen dynamischen Prozess soll die Regelungsstrategie angepasst werden, sodass das Systemverhalten bezüglich einer Qualitätsfunktion optimal wird. Dazu wird ein Optimierungsverfahren ausgeführt, dass Modellparameter des der Regelungsstrategie zugrundeliegenden Regelungsmodell so optimiert, dass die Leistungsfähigkeit des geregelten technischen Systems 2 optimiert wird. Dazu wird ein Regelungsmodell (Dynamikmodell) in einem Modellerstellungsblock 4 erstellt, das Grundlage für die Regelungsstrategie der Regelungseinheit 3 ist. Der Modellerstellungsblock 4 ermittelt die Modellparameter für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock 5 ausgeführten Bayes'schen Optimierungsverfahrens. Dies erfolgt basierend auf einer vorgegebenen Qualitätsfunktion, die in einem Qualitätsfunktionsblock 6 bestimmt bzw. vorgegebene wird.
  • In weiteren bevorzugten Ausführungsformen sind die Regelungseinheit 3, der Modellerstellungsblock 4, der Optimierungsblock 5 und der Kostenfunktionsblock 6 in einer Recheneinheit implementiert. Die Recheneinheit umfasst das Steuergerät 2 eine Ein- oder Mehrzahl von Prozessoren und wenigstens ein maschinenlesbares Speichermedium, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren ausgeführt werden, die Recheneinheit veranlassen, das erfindungsgemäße Verfahren auszuführen.
  • Das technische System 2 entspricht einem dynamischen System, das mithilfe einer Regelungseinheit 3 mit einer geeigneten Regelungsstrategie, die entsprechend mithilfe eines Bayes'schen Optimierungsverfahrens erstellt werden soll, in optimierter Weise geregelt wird. Das Bayes'sche Optimierungsverfahren wird verwendet, um das Regelungsmodell zu ermitteln, indem während des Optimierungsverfahrens verschiedene Test-Modellparametersätze iterativ zur Regelung des technischen Systems 2 angewendet und die Modellparameter basierend auf den resultierenden Zustandsgrößen angepasst werden. Dabei wird eine Qualitätsfunktion mithilfe einer Gauß-Prozess-Regression modelliert, durch die die Leistungsfähigkeit der Regelung des technischen Systems als Funktion der Modellparameter definiert wird. Die Leistungsfähigkeit der Regelung ergibt sich aus einem vorgegebenen Qualitätskriterium, das den resultierenden Zustandsgrößen eine Güte der Regelung zuweist. Die Zustandsgrößen sind toleranzbehaftet, so dass die Qualitätsfunktion vorzugsweise durch eine Gauß-Prozess-Regression erstellt wird.
  • Grundsätzlich betrifft das Problem, eine Regelungsstrategie aufzufinden, das einen Systemzustand x auf einen Eingangsgrößenvektor u = πθ(x) mit πθ: ℝn x → ℝn u abbildet, wobei θ ∈ Θ ⊂ ℝn θ Modellparameter der Regelungsstrategie in der Modellparameterdomäne Θ darstellen. Eine von den Modellparametern θ abhängige Qualitätsfunktion J wird über einen vorbestimmten Zeithorizont t=0... T basierend auf den Zustandsvektoren x und Eingangsgrößenvektoren u vorgegeben, wobei die Modellparameter θ durch das Optimierungsverfahren optimiert werden sollen min θ   J   ( θ ) = min θ t = 0 T E [ c ( x t , π θ ( x t ) ) ] s . t . x t + 1 = f ( x t , π θ ( x t ) ) + ν
    Figure DE102019208262A1_0001
    , wobei E
    Figure DE102019208262A1_0002
    einem Erwartungswert entspricht, c(xt,ut) die Kosten des durch den Zustandsvektor xt gegebenen Zustands bei anliegender Eingangsgrößenvektor ut und f: ℝn x ×ℝn u → ℝn x das Zustandsübergangsmodell darstellen, das die Dynamiken des technischen Systems 2 beschreibt und das weiterhin durch die Rauschgröße v~N(0, Σv) beaufschlagt ist.
  • Das Bayes'sche Optimierungsverfahren dient dazu, die optimierten Modellparameter θ* einer Regelungsstrategie durch eine Minimierung der Qualitätsfunktion aufzufinden. Ziel ist es, dass die Regelungsstrategie eine möglichst optimale Regelung des technischen Systems 2 mit der Regelungseinheit 3 ermöglicht, wobei „optimal“ eine Minimierung der Kosten, die durch die Qualitätsfunktion bestimmt sind, bezogen auf eine vorgegebene Leistungsfähigkeit des Gesamtsystems aus Regelungseinheit 3 und technisches System 2 bezeichnet.
  • Die Qualitätsfunktion versieht also die Abweichung des Verhaltens des realen technischen System 2 während des Zeitfensters t=0..T bezogen auf eine vorgegebene Leistungsfähigkeit entsprechend mit Kosten J. Die Bewertung der Qualitätsfunktion erfordert also das Betreiben des technischen Systems 2 in der realen Umgebung in einem Vermessungsvorgang. Durch die Notwendigkeit, das Regelungssystem, das das technische System 2 und die Regelungseinheit 3 umfasst, real zu betreiben, wird die Bewertung der Kosten J sehr aufwendig, so dass die Anzahl der Vermessungsvorgänge am realen technischen System 2 zur Bewertung einer bestimmten Regelungsstrategie möglichst minimiert werden sollte.
  • Die Erstellung einer Regelung kann mithilfe eines LQR-Reglers, der ein lineares Dynamikmodell des zu regelnden Systems benötigt, ausgeführt werden. Dieser LQR-Regler wird kann durch eine Rückkopplungsmatrix K beschrieben werden, während Elemente der Rückkopplungsmatrix als Modellparameter ganz oder teilweise für die Optimierung angepasst werden können.
  • Es wird im Folgenden angenommen, dass die Regelungsstrategie einer Linearzustandsregelungsstrategie von πθ(x) = -K(θ)x entspricht.
  • Lineare Regelungsstrategien haben den Vorteil, dass sie eine geringe Dimensionalität im Vergleich zu anderen Regelungsmodellen aufweisen. Weiterhin ermöglicht die lineare Regelungsstrategie, dass diese in einfacher Weise in Reglern umgesetzt werden kann und so die Effizienz der Bayes'schen Optimierung erhöht wird.
  • In Verbindung mit der Bayes'schen Optimierung kann ein Linear Quadratic Regulator, ein sogenannter LQR-Regler, verwendet werden, wie im Bereich der Erstellung von Regelungsstrategien bekannt ist. Beim LQR-Regler werden das Systemverhalten und die Interaktion mit der Umgebung bei Vermessungsvorgängen durch einen gesteuerten Betrieb mit einem Satz variierender Eingangsgrößenvektoren und der Erfassung resultierender Zustandsgrößenvektoren ermittelt. Dabei wird die Systemdynamik gemäß f ( x t , u t ) A x t + B u t
    Figure DE102019208262A1_0003
    linearisiert und die Kosten entsprechend quadriert c ( x t , u t ) x t T Q x t + u t T R u t
    Figure DE102019208262A1_0004
  • Durch diese Näherungen kann in dem Modellerstellungsblock 4 eine LQR-Rückkopplungsmatrix erstellt werden, die das Dynamikmodell darstellt und die allgemein als K = dlqr(A, B, Q, R) bezeichnet wird. Die Regelungsstrategie-Optimierung wird durchgeführt, indem direkt die Rückkopplungsmatrix (K-Learning) angepasst wird, wobei ein Teil der Einträge bzw. jeder Eintrag der Rückkopplungsmatrix einem Modellparameter für die Optimierung entspricht. Weiterhin können auch nur die Bestandteile der Rückkopplungsmatrix K, die den Systemmatrizen A und B entsprechen, als zu optimierende Modellparameter angenommen werden, wobei jeder Eintrag der Matrizen A und B einem Modellparameter entspricht.
  • Alternativ kann in der Rückkopplungsmatrix K ohne die Matrizen Q und R (Gewichtungsmatrizen) als zu optimierende Modellparameter angenommen werden. Dabei ist es ausreichend, nur die diagonalen Einträge der Gewichtungsmatrizen anzupassen, die die folgende Form haben: K Q R ( θ ) = d l q r ( A , B , Q ( θ ) , R ( θ ) ) mit Q ( θ ) = diag ( 10 θ 1 , ,10 θ n x ) und  R ( θ ) = d i a g ( 10 θ n x + 1 , ,10 θ n x + n u )
    Figure DE102019208262A1_0005
  • Diese Verfahren werden entsprechend der Zugehörigkeit der Modellparameter zu den obigen Matrizen K-Learning, AB-Learning und QR-Learning genannt. Bei der Bayes'schen Optimierung muss der Parameterraum ausreichend hinsichtlich der Längenskalen der Qualitätsfunktion abgedeckt werden, um eine gute Schätzung der optimierten Modellparameter zu finden.
  • Ohne Vorwissen ist es jedoch schwierig, die Wertebereiche für die einzelnen Modellparameter, d.h. die Modellparameterdomäne, für die Optimierung auszuwählen. Dies ist jedoch für ein effizientes Optimierungsverfahren ohne eine übermäßige Anzahl von Vermessungsvorgängen wesentlich. Das obige Verfahren sieht daher vor, einen geeigneten Suchbereich für die Modellparameter auszuwählen, so dass die Anzahl der Vermessungsvorgänge reduziert werden kann. Dies ist insbesondere bei hoher Dimensionalität erforderlich, da dort eine manuelle Einstellung der Wertebereiche jedes der Modellparameter nicht ohne Weiteres möglich ist. Daher werden die Wertebereiche der Modellparameter zunächst durch Lernen einer Verteilung über Dynamikmodelle ermittelt und nachfolgend diese Verteilung verwendet, um die Wertebereiche für jeden der Modellparameter auszuwählen. Die Verteilung erhält man durch die Bayes'sche Lineare Regression durch aufgezeichnete Datenwerte der Zustandsgrößenvektoren und Eingangsgrößenvektoren, um ein angenähertes lineares Modell der Systemdynamik zu erhalten. Dies führt zu einer Gauß-Verteilung über den Modellen p ( v e c ( A , B ) | D a t a ) = N ( v e c ( A , B ) | μ A B , A B )
    Figure DE102019208262A1_0006
    wobei µAB der Maximum-Posterior-(MAP-)Schätzwert wobei die Notation vec(.,.) angibt, dass die Matrizen A und B in einen Vektor umgeformt sind.
  • Nachdem die Wertebereiche der Modellparameter ausgewählt sind, ist es möglich, dass in bestimmten Dimensionen die Wertebereiche der Modellparameter zu konservativ gewählt sind. Das kann beispielsweise vorkommen, wenn der Skalierungsparameter β zu klein ist, oder aufgrund einer Modellabweichung. Damit kann es vorkommen, dass der optimale Modellparametervektor nicht innerhalb der ausgewählten Modellparameterdomäne liegt. Daher kann die Modellparameterdomäne dynamisch während der Optimierung angepasst werden.
  • Während des Ablaufs der Bayes'schen Optimierung liegt ein Schätzwert des Optimums der Modellparameterwerte vor, d. h. das Minimum der angenäherten Qualitätsfunktion in der aktuellen Modellparameterdomäne. Wenn sich aus der Bayes'schen Optimierung ergibt, dass der Ort des geschätzten Optimums an einer Bereichsgrenze der Modellparameterdomäne liegt, ist es wahrscheinlich, dass bessere Modellparameter außerhalb der aktuellen Modellparameterdomäne liegen. Daher wird vorgeschlagen, den Wertebereich desjenigen Modellparameters, dessen Wert an der Grenze der Modellparameterdomäne liegt, zu erweitern. Diese dynamische Anpassung der Modellparameterdomäne kann auf verschiedene Weise ausgeführt werden.
  • Die Anpassung der Wertebereiche für Modellparameter ermöglicht es, ausgehend von einem begrenzten Wertebereich diesen während der Optimierung dynamisch nur für diejenigen Dimensionen des Modellparametervektors anzupassen, bei denen die Optimierung einen Grenzbereich der Modellparameterdomäne trifft. Dadurch kann die Optimierung insgesamt effizienter vorgenommen werden, so dass die Konvergenz erheblich verbessert wird. Weiterhin können potenzielle Modellfehler besser ausgeglichen werden, so dass das optimierte Systemmodell leistungsfähiger wird. Durch die Verbesserung der Effizienz ist es möglich, die Bayes'sche Optimierung zu hochdimensionalen Regelungsstrategien zu skalieren.
  • Zur Erstellung der Qualitätsfunktion für Leistungsfähigkeit des Regelungssystems bezogen auf Modellparametersätze werden zunächst Daten bereitgestellt. D = { θ i ; J ( θ i ) } mit i = 1 n
    Figure DE102019208262A1_0007
  • Damit wird ein initiales Gaußprozessmodell als die Qualitätsfunktion trainiert, das die Testmodellparameter auf Kosten abbildet. μ ( θ * ) = k K - 1 J   σ 2 ( θ * ) = k ( θ * , θ * ) k K 1 k T
    Figure DE102019208262A1_0008
    wobei K der Kovarianzmatrix entspricht mit K i j = k ( θ i , θ j ) , k = [ k ( θ 1 , θ * ) , , k ( θ n , θ * ) ] u n d   J = [ J ( θ 1 ) , , J ( θ n ) ]
    Figure DE102019208262A1_0009
  • Dadurch liefert das Gaußprozessmodell sowohl den Erwartungswert, d.h. die Kosten J als auch die Unsicherheit dieses Erwartungswerts.
  • Daraus kann nun die initiale Modellparameterdomäne ermittelt werden, da es ohne Vorwissen schwierig ist, die Wertebereiche für die einzelnen Modellparameter, d.h. die Modellparameterdomäne, für die Optimierung auszuwählen. Die Wahl einer geeigneten Modellparameterdomäne ist für ein effizientes Optimierungsverfahren ohne eine übermäßige Anzahl von Vermessungsvorgängen wesentlich. In Schritt S3 wird daher ein geeigneter Suchbereich für die Modellparameter ausgewählt, so dass die Anzahl der Vermessungsvorgänge reduziert werden kann. Dies ist insbesondere bei hoher Dimensionalität erforderlich, da dort eine manuelle Einstellung der Wertebereiche jedes der Modellparameter nicht ohne Weiteres möglich ist. Daher werden die Wertebereiche der Modellparameter basierend auf dem zuvor trainierten Gaußprozessmodell ermittelt und nachfolgend diese Verteilung verwendet, um die Wertebereiche für jeden der Modellparameter auszuwählen.
  • Die Verteilung erhält man durch die Bayes'sche Lineare Regression durch aufgezeichnete Datenwerte der Zustandsgrößenvektoren und Eingangsgrößenvektoren, um ein angenähertes lineares Modell der Systemdynamik zu erhalten. Dies führt zu einer Gauß-Verteilung über den Modellen p ( v e c ( A , B ) | D a t a ) = N ( v e c ( A , B ) | μ A B , Σ A B )
    Figure DE102019208262A1_0010
    wobei µAB der Maximum-Posterior-(MAP-)Schätzwert und die Notation vec(.,.) angibt, dass die Matrizen A und B in einen Vektor umgeformt sind.
  • Die Anordnung 1 der 1 umfasst weiterhin eine Optimierungseinheit 22. Die Optimierungseinheit 22 kann in dem Steuergerät 2 oder alternativ separat hierzu vorgesehen sein. Die Optimierungseinheit 22 hat das Ziel, für den Regler 21 ein Regelungsmodell zu ermitteln, durch das das dynamische technische System 3 geregelt werden kann. Die Optimierungseinheit 22 führt dazu ein iteratives Optimierungsverfahren durch, durch das das Regelungsmodell erstellt wird, indem eine Qualitätsfunktion minimiert wird. Die Minimierung der Qualitätsfunktion kann ausgedrückt werden als: J = lim  T   min u 0 : T E [ 1 T t = 0 T x t T   Q x t + u t T R u t ]    s . t . x t + 1 = f ( x t , u t ) + ν , ν N ( 0, ν )
    Figure DE102019208262A1_0011
    wobei die Anfangsbedingung durch x0 vorgegeben ist. xt entspricht dabei einem Zustandsvektor für einen Systemzustand zum Zeitpunkt t und ut einem Eingangsgrößenvektor zum Zeitpunkt t. Die Kostenmatrizen Q und R werden als positiv semidefinit bzw. positiv definit angenommen. Basierend auf der linearen Näherung des Dynamikverhaltens f(xt, ut) = Axt + But und unter der Annahme eines Linear State Feedback Controllers ut = π(xt) = -Kxt e mit einer Regelungsstrategie π ergibt sich eine näherungsweise statische Lösung des obigen Minimierungsproblems mit K = ( R + B T P B ) 1 B T P A
    Figure DE102019208262A1_0012
    und 0 = A T ( P 1 + B R 1 B ) 1 A P + Q
    Figure DE102019208262A1_0013
    wobei die letztgenannte Gleichung der zeitdiskreten algebraischen Riccati-Gleichung (DARE) entspricht, die effizient nach P durch das Kleinman-Verfahren gelöst werden kann. Der Linear State Feedback Controller wird im Folgenden durch die Kurznotation dlqr (A, B, Q, R) beschrieben.
  • Die Lösung der letztgenannten Gleichung ist in der Regelungstheorie als LQR-Regler (LQR: Linear Quadratic Regulator) bekannt. Häufig führt die Modellierung eines LQR-Reglers aufgrund der linearen Näherung der Systemdynamik, die oft nur eine ausreichend genaue Näherung in der unmittelbaren Umgebung des Betriebspunkts ist, zu unzufriedenstellenden Ergebnissen.
  • Im Folgenden soll eine Regelungsstrategiesuche basierend auf einem Bayes'schen Optimierungsverfahren durchgeführt werden. Dieses sieht eine Gauß-Prozess-Regression vor. Eine Gauß-Prozess-Regression ist ein nichtparametrisches Verfahren, um eine a priori unbekannte Funktion J(θ): Θ→ℝ zu modellieren. Mithilfe der Gauß-Prozess-Regression kann bei rauschbehafteten Beobachtungen des Systemverhaltens sowohl der Verlauf der Funktionswerte als auch die Unsicherheit der Vorhersage jedes der Funktionswerte bestimmt werden. Der Gauß-Prozess kann als Verteilung über Funktionen verstanden werden und ist durch eine Prior-Mittelwertfunktion m(0) und eine Kovarianzfunktion k (θ, θ') definiert. Die Mittelwertfunktion gibt das a-priori-Wissen über die abzubildende Qualitätsfunktion J(θ) an und wird oft als null angenommen. Die Kovarianzfunktion wird auch Kernel genannt und definiert die Korrelation zwischen jeweils zwei Funktionswerten J(θ) und J(θ') mit θ, θ' ∈ Θ.
  • Unter der Annahme von n rauschbehafteten Beobachtungswerten: D n = { ( θ i , J ^ ( θ i ) ) } mit  J ^ ( θ ) = J ( θ ) + ω , ω N ( 0, σ ω 2 )
    Figure DE102019208262A1_0014
    kann die Prior-Verteilung über die Vorhersagen auf die gemessenen Daten erstellt werden, um die Posterior-Vorhersage der Qualitätsfunktion an jedem Punkt θ* ∈ Θ zu erhalten. Der Posterior-Mittelwert und Kovarianz sind gegeben durch μ n ( θ * ) = m ( θ * ) + k n ( θ * ) K n 1 y ^ n ,   σ n 2 ( θ * ) = k ( θ * , θ * ) k n ( θ * ) K n 1 k n T ( θ * )
    Figure DE102019208262A1_0015
    wobei y ^ = [ J ^ ( θ 1 ) m ( θ 1 ) , , J ^ ( θ n ) m ( θ n ) ] T , k n ( θ * ) = [ k ( θ * , θ 1 ) , , k ( θ * , θ n ) ]
    Figure DE102019208262A1_0016
    und die symmetrische Gram-Matrix Kn ∈ ℝn×n die Einträge [ K n ] ( i . j ) = k ( θ i , θ j ) + δ i , j σ ω 2
    Figure DE102019208262A1_0017
    aufweist.
  • Die Gauß-Prozess-Regression wird verwendet, um das Verhalten des technischen Systems 2 zu modellieren und deren Optimalität zu bewerten. Das Verhalten der Anordnung aus dem Regler und dem technischen System 2 wird durch eine Qualitätsfunktion dargestellt, die eine funktionale Beziehung zwischen den Modellparametern und den resultierenden Kosten des basierend auf einer durch die Modellparameter definierten Regelungsstrategie geregelten technischen Systems darstellt. Das Bayes'sche Optimierungsverfahren wird dann angewendet, um die Qualitätsfunktion zu optimieren. Dieses ist nicht analytisch möglich und muss daher iterativ durchgeführt werden. Der Aufwand für die Optimierung soll daher auf eine möglichst geringe Anzahl von Iterationen beschränkt werden.
  • Eine Iteration entspricht einem Messvorgang einer Anwendung einer Regelungsstrategie, die durch zu betrachtende Modellparameter θ* definiert ist, auf das reale technische System 2. Daraus ergibt sich ein neues Datenpaar θ n + 1 , J ^ ( θ n + 1 )
    Figure DE102019208262A1_0018
    , das den Trainingsdate für den Gaußprozess hinzugefügt wird. D n + 1 = D n   ( θ n + 1 , J ( θ n + 1 ) )
    Figure DE102019208262A1_0019
  • Nach jedem Messvorgang wird ein neuer Bewertungspunkt durch Maximieren einer Akquisitionsfunktion α(θn, Dn) ausgewählt, was effizient durch numerische Optimierungstechnik, wie L-BFGS, durchgeführt werden kann. Alternativen für die Akquisitionsfunktionen können beispielsweise die Wahrscheinlichkeit von Verbesserungen (probability of improvement, PI), erwartete Verbesserungen (expected improvement, El) und obere Konfidenzgrenze (upper confidence bound, UCB) verwendet werden. All diese Funktionen bieten einen Trade-off zwischen Exploration, d. h. Bevorzugen von Bereichen der Eingangsgrößenvektoren, in denen die Qualitätsfunktion noch nicht bewertet worden ist, und Exploitation, d. h. Bevorzugen eines Bereichs in dem ein geschätztes Optimum (Minimum) der Qualitätsfunktion liegt.
  • Für die Bayes'sche Optimierung wird nur das Gesamtverhalten eines durch einen Messvorgang betriebenen technischen Systems bewertet, während die Trajektoriendaten bzw. die Verlaufsdaten in der Regel verworfen werden. Für die Systemidentifikation mithilfe einer Bayes'schen linearen Regression können die Zustandsgrößen mit hoher Frequenz abgetastet werden, um ein Unsicherheitsmaß für das zu schätzende Modell zu erhalten.
  • Bei der klassischen parametrischen Regression wird ein Modell y(x, w) mit einem Eingang x und Gewichten oder Parametern w angenommen, die verwendet werden, um eine rauschbehaftete Zielvariable t zu schätzen.
  • Unter der Annahme, dass das Rauschen einer Gauß-Verteilung mit der Präzision (inverse Varianz) y folgt, entspricht die Posterior-Verteilung der Gewichte für n Messungen, die in einer Matrix X n = [ x 1 T , , x n T ] T ,
    Figure DE102019208262A1_0020
    und jeweiligen Zielwerten, die in einem Vektor tn = [t1, ..., tn]Tangegeben sind: p ( w | t ) = N ( w | m n , S n ) , θ M A P = m n = S n ( S 0 1 m 0 + γ X T t ) , S n 1 = S 0 1 + γ X T X
    Figure DE102019208262A1_0021
    wobei n der Anzahl der Datenpunkte, γ einer vorgegebenen Konstante, die das Rauschen in den Daten beschreibt, m0 einem A-priori Mittelwert der zu schätzenden Modellparameter (den Mittelwerten des Gaußschen Priors auf die Modellparameter), S0 einer a-priori Kovarianz der zu schätzenden Modellparameter (den Kovarianzen des Gaußschen Priors auf die Modellparameter), X den Orten der Datenpunkte (in einer Matrix zusammengefasst), t den Funktionswerten der Datenpunkte (in einem Vektor zusammengefasst), mn den a-posteriori Erwartungswerten (Mittelwerten) der zu schätzenden Modellparameter und Sn der a-posteriori Kovarianz der zu schätzenden Modellparameter entsprechen.
  • Der Maximum-Posterior-Schätzwert (MAP-Schätzwert) der Gewichte w entspricht dem Mittelwert der Posterior-Verteilung, d. h. wMAP = mn und seine Kovarianz entspricht S n 1 .
    Figure DE102019208262A1_0022
  • Die Ermittlung des Regelungsmodells erfolgt durch Reinforcement Learning zur Ermittlung einer Parametrierung für einen Linear State Feedback Controller mithilfe eines Bayes'schen Optimierungsverfahren.
  • Nachfolgend werden Maßnahmen zur Beschleunigung des Konvergierens des Optimierungsverfahrens vorgeschlagen.
  • Es wird als Vorannahme angenommen, dass das nichtlineare technische System 2 durch ein lineares Modell angenähert wird und das Bayes'sche Optimierungsverfahren verwendet wird, um die Einträge der Systemmatrizen A, B zu optimieren. Das resultierende Regelungsmodell πAB kann dann geschrieben werden als: π A B ( x t ; θ ) = K A B ( θ ) x t , K A B ( θ ) = P = dlqr ( A ( θ ) , B ( θ ) , Q , R )
    Figure DE102019208262A1_0023
  • Dieses Verfahren wird AB-Lernverfahren genannt.
  • Ein alternatives Lernverfahren stellt das sogenannte K-Lernverfahren dar, bei dem in die Rückkopplungsverstärkungsmatrix direkt optimiert wird. Hier entspricht das Regelungsmodell π K ( x t ; θ ) = K K ( θ ) x t ,
    Figure DE102019208262A1_0024
    , das im Gegensatz zu dem zuvor beschriebenen Ansatz die obige nicht verwendet und daher ein modellfreier Ansatz ist.
  • Anhand des Flussdiagramms der 2 wird nun das Verfahren zum Erstellen eines Regelungsmodells mithilfe eines Bayes'schen Optimierungsverfahrens beschrieben.
  • In Schritt S1 werden zunächst die MAP-Gewichtungsmatrizen AMAP, BMAP ermittelt. Dies kann ohne Vorwissen über das Regelungsmodell erfolgen. In dem Identifikationsprozess für technische Systeme ist es ein Ziel, den Nachfolgezustand xt+1 des technischen Systems 2 basierend auf einem gegebenen aktuellen Zustand xt und einem Eingangsgrößenvektor ut zu ermitteln. Somit gilt: y ( x , w ) A x t + B u t ,   x ( x t , u t ) ,   w ( A , B ) ,   t x t + 1
    Figure DE102019208262A1_0025
  • Der Maximum-Posterior-Schätzwert (MAP-Schätzwert) der Gewichte θMAP entspricht
  • Der Vorteil der Verwendung einer Bayes'schen linearen Regression besteht darin, dass er nicht nur den MAP-Schätzwert des Mittelwerts θMAP, sondern auch eine Schätzung der Unsicherheit σMAP erhält. Diese entsprechen den Einträgen der Diagonalen der Matrix Sn.
  • In Schritt S2 werden die Wertebereiche für die zu bestimmenden Modellparameter für das Regelungsmodell festgelegt. Die Bayes'sche Optimierung muss die Wertebereiche der Modellparameter auch hinsichtlich der Längenskalen der Qualitätsfunktion möglichst ausreichend überdecken. A priori ist es oftmals schwierig zu bestimmen, in welchen Wertebereichen die Modellparameter, d.h. die Einträge der Matrix K, optimiert werden müssen, so dass ein gutes Regelungsverhalten erreicht wird.
  • Hierzu werden mithilfe der MAP-Schätzwerte WMAP, σMAPaus der Systemidentifikation des Schritts S1 sinnvolle Wertebereiche, in denen nachfolgend die Modellparameter optimiert werden, für jeden der Modellparameter ausgewählt.
  • Für das AB-Lernverfahren entspricht die Wahl der Wertebereiche Θ (Modellparameterdomäne) ausgehend von den MAP-Schätzwerten θMAP, σMAP der Matrix K und den Varianzen der Parameterschätzwerte. So kann die iσ-Varianz um die MAP-Schätzwerte als Wertebereiche für die Parameter angenommen werden, so dass gilt: Θ A B = [ θ 1 M A P i σ 1 , θ 1 M A P + i σ 1 ] × × [ θ n θ M A P i σ n θ , θ n θ M A P + i σ n θ ]
    Figure DE102019208262A1_0026
    wobei i bevorzugt zwischen 1 und 4, insbesondere als 2 angenommen werden kann.
  • Dadurch werden Modellparametern, die eine höhere Unsicherheit aufweisen, ein größerer Wertebereich für die Optimierung während des Bayes'schen Optimierungsverfahrens zugewiesen und umgekehrt wird gut identifizierten Modellparametern, d. h. Modellparametern mit einer niedrigen Unsicherheit, ein kleinerer Wertebereich zugewiesen.
  • Beim K-Lernverfahren werden die Wertebereiche mithilfe des LQR-Reglers für das geschätzte System konstruiert: K M A P = d l q r ( A M A P , B M A P , Q , R )
    Figure DE102019208262A1_0027
  • Die Wertebereiche der Modellparameter des Regelungsmodells können hierbei zwischen 0 und einem Doppelten des MAP-Schätzwerts des jeweiligen Modellparameters vorgesehen sein. Θ K = [ 0,2   θ 1 M A P ] × × [ 0,   2   0 n θ M A P ]
    Figure DE102019208262A1_0028
  • Allgemein können die Wertebereiche der Modellparameter des Regelungsmodells vorgegeben sein: Θ K = [ θ 1 M A P k , θ 1 M A P + k ] × × [ θ n θ M A P k , θ n θ M A P + k ]
    Figure DE102019208262A1_0029
  • Mit 0 < k = < θ n θ M A P
    Figure DE102019208262A1_0030
  • In Schritt S3 wird eine Prior-Mittelwertfunktion ermittelt. Dies verwendet das Näherungsmodell des technischen Systems 2, um einen einfachen Simulator des technischen Systems 2 zu ermitteln. Dieser wird verwendet, um die Form der Qualitätsfunktion zu schätzen. Das Näherungsmodell des technischen Systems 2 wird beispielsweise mithilfe eines Gauß-Prozesses basierend auf wenigen Messpunkten bestimmt. Die Anzahl der dafür verwendeten Messpunkte kann zwischen 10 und 100 liegen. Anschließend kann eine angenäherte Prior-Mittelwertfunktion der Kosten z.B. durch die Gaußprozess-Regression konstruiert werden.
  • Anschließend werden initiale Modellparameter θ0 in Schritt S4 durch Minimieren der Prior-Mittelwertfunktion bestimmt.
  • Mithilfe der initialen Modellparameter θ0 kann in Schritt S5 das dadurch definierte Regelungsmodell in einem Messvorgang evaluiert werden und entsprechende minimale Kosten Ĵ(θ0) gemäß der Qualitätsfunktion bestimmt werden.
  • Anschließend werden in Schritt S6 die nächsten Modellparameter θn+1 für die nächste Iteration des Optimierungsverfahrens aus der Maximierung der Akquisitionsfunktion α(θn, Dn) unter Berücksichtigung des zuletzt bestimmten Datenpaares θn, Ĵ(θn) bestimmt.
  • Mithilfe der aktuellen Modellparameter θn+1 kann in Schritt S7 das dadurch definierte Regelungsmodell in einem nächsten Messvorgang evaluiert werden und entsprechende minimale Kosten Ĵ(θn+1) bestimmt werden.
  • Anschließend werden in Schritt S8 den Trainingsdaten das zuletzt ermittelte Datenpaar hinzugefügt. D n + 1 = D n ( θ n + 1 , J ^ ( θ n + 1 ) )
    Figure DE102019208262A1_0031
  • Anschließend wird in Schritt S9 ein Abbruchkriterium überprüft, das beispielsweise angibt, ob eine ausreichende Leistung des Regelungsmodells erreicht worden ist oder ob eine ausreichende Konvergenz vorliegt. Ist das Abbruchkriterium erfüllt (Alternative: Ja), so wird das Verfahren mit Schritt S10 beendet, anderenfalls (Alternative: Nein) wird zu Schritt S6 zurückgesprungen.
  • In Schritt S10 werden die zuletzt ermittelten Modellparameter für die Regelungsstrategie angewendet.

Claims (11)

  1. Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System (2) mithilfe eines Bayes'schen Optimierungsverfahren, wobei die Regelungsstrategie basierend auf Modellparametern (θ) eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden: - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems (2) basierend auf Modellparametern (θ) bewertet; - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern (θ) innerhalb einer Modellparameterdomäne (0), die die zulässigen Wertebereiche für die Modellparameter (θ) angibt, zu ermitteln; und - Bestimmen der Modellparameterdomäne (Θ) für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert (θMAP) der Qualitätsfunktion.
  2. Verfahren nach Anspruch 1, wobei das parametrische Regressionsmodell einen Eingangsgrößenvektor und einen Systemzustand des technischen Systems (2) auf einen nachfolgenden Systemzustand abbildet und insbesondere entsprechend trainiert wird, um eine Gewichtungsmatrix (wMAP) zu erhalten.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Modellparameter (θ) mithilfe eines AB-Lernverfahrens für einen LQR-Regler ermittelt werden, wobei zu dem mindestens einen Maximum-a-Posteriori-Schätzwert (θMAP) jeweils ein Unsicherheitsmaß bestimmt wird, wobei der Wertebereich des mindestens einen Modellparameters (θ) um den Maximum-a-Posteriori-Schätzwert (θMAP) festgelegt wird.
  4. Verfahren nach Anspruch 3, wobei der Wertebereich des mindestens einen Modellparameters (θ) um den Maximum-a-Posteriori-Schätzwert (θMAP) unter Vorgabe einer Unsicherheit (σMAP) des Erwartungswerts bestimmt wird.
  5. Verfahren nach Anspruch 1 oder 2, wobei die Modellparameter (θ) mithilfe eines K-Lernverfahrens für einen LQR-Regler ermittelt werden, wobei der Wertebereich des mindestens einen Modellparameters (θ) um den Maximum-a-Posteriori-Schätzwert (θMAP) festgelegt wird.
  6. Verfahren nach Anspruch 5, wobei der Wertebereich des mindestens einen Modellparameters (θ) um den Maximum-a-Posteriori-Schätzwert (θMAP) mit einem Maß bestimmt wird, das als Produkt eines vorgegebenen Faktors zwischen 0 und 1 den betreffenden den Maximum-a-Posteriori-Schätzwert (θMAP) bestimmt wird.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei das Optimierungsverfahren mit initialen Modellparametern gestartet wird, die sich durch eine Minimierung einer Prior-Mittelwertfunktion ergeben, wobei ein nicht parametrisches Näherungsmodell des technischen Systems (2) trainiert wird, um die Prior-Mittelwertfunktion zu erhalten.
  8. Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System (2) mithilfe eines Bayes'schen Optimierungsverfahren, wobei die Regelungsstrategie basierend auf Modellparametern (θ) eines Regelungsmodells erstellt wird und ausführbar ist, wobei die Vorrichtung ausgebildet ist, um zur Optimierung der Regelung folgende Schritte auszuführen: - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems (2) basierend auf Modellparametern (θ) bewertet; - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern (θ) innerhalb einer Modellparameterdomäne (0), die die zulässigen Wertebereiche für die Modellparameter (θ) angibt, zu ermitteln; - Bestimmen der Modellparameterdomäne (0) für mindestens einen der Modellparameter abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert (θMAP) der Qualitätsfunktion.
  9. Regelungssystem (1) mit einem technischen System (2) und einer Regelungseinheit (3) zum Regeln des technischen Systems (2), wobei in der Regelungseinheit (3) ein Regelungsmodell zum Bereitstellen eines Eingangsgrößenvektors abhängig von Zustandsgrößen des technischen Systems (2) implementiert ist, wobei ein Modellerstellungsblock (4) vorgesehen ist, um Modellparameter (θ) für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock (5) ausgeführten Bayes'schen Optimierungsverfahrens zu ermitteln, wobei die Regelungsstrategie basierend auf Modellparametern (θ) eines Regelungsmodells erstellt wird und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden: - Bereitstellen einer Qualitätsfunktion, deren Form einer Regressionsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems (2) basierend auf Modellparametern (θ) bewertet; - Durchführen eines Bayes'schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparametern (θ) innerhalb einer Modellparameterdomäne (0), die die zulässigen Wertebereiche für die Modellparameter (θ) angibt, zu ermitteln; - Bestimmen der Modellparameterdomäne (0) für mindestens einen der Modellparameter (θ) abhängig von einem zugehörigen Maximum-a-Posteriori-Schätzwert (θMAP) der Qualitätsfunktion.
  10. Computerprogramm mit Programmcodemitteln, das dazu eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen, wenn das Computerprogramm auf einer Recheneinheit ausgeführt wird.
  11. Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm nach Anspruch 10.
DE102019208262.9A 2019-06-06 2019-06-06 Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens Pending DE102019208262A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102019208262.9A DE102019208262A1 (de) 2019-06-06 2019-06-06 Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens
CN202080041182.0A CN113874865A (zh) 2019-06-06 2020-05-27 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置
US17/611,549 US20220236698A1 (en) 2019-06-06 2020-05-27 Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method
PCT/EP2020/064676 WO2020244987A1 (de) 2019-06-06 2020-05-27 Verfahren und vorrichtung zur ermittlung von modellparametern für eine regelungsstrategie eines technischen systems mithilfe eines bayes'schen optimierungsverfahrens

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019208262.9A DE102019208262A1 (de) 2019-06-06 2019-06-06 Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens

Publications (1)

Publication Number Publication Date
DE102019208262A1 true DE102019208262A1 (de) 2020-12-10

Family

ID=70861495

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019208262.9A Pending DE102019208262A1 (de) 2019-06-06 2019-06-06 Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens

Country Status (4)

Country Link
US (1) US20220236698A1 (de)
CN (1) CN113874865A (de)
DE (1) DE102019208262A1 (de)
WO (1) WO2020244987A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023057084A1 (de) * 2021-10-07 2023-04-13 Linde Gmbh Verfahren zum betreiben einer verfahrenstechnischen anlage, verfahrenstechnische anlage und verfahren zum umrüsten einer verfahrenstechnischen anlage
DE102022104313A1 (de) 2022-02-23 2023-08-24 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs
DE102022124791A1 (de) 2022-09-27 2024-03-28 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren und Vorrichtung zur Abstimmung der Parameter eines Antriebsstranges

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018215061A1 (de) * 2018-09-05 2020-03-05 Robert Bosch Gmbh Verfahren zum sicheren Trainieren eines dynamischen Modells
US11915181B2 (en) * 2019-11-14 2024-02-27 Schlumberger Technology Corporation Upper confidence bound algorithm for oilfield logic
CN113469561B (zh) * 2021-07-19 2024-09-24 交叉信息核心技术研究院(西安)有限公司 连接到电网的氢能的环境价值评估方法和系统
CN113962654B (zh) * 2021-10-21 2023-10-31 天津大学 基于仿真的公交排班优化方法、系统及可存储介质
CN115755606B (zh) * 2022-11-16 2023-07-07 上海友道智途科技有限公司 基于贝叶斯优化的运载体控制器自动优化方法、介质及设备
WO2024182977A1 (zh) * 2023-03-06 2024-09-12 浙江大学 基于变分贝叶斯高斯-泊松混合回归模型的计数型质量变量预测方法
CN117909886B (zh) * 2024-03-18 2024-05-24 南京海关工业产品检测中心 一种基于优化随机森林模型的锯齿棉品级分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108508856A (zh) * 2018-03-28 2018-09-07 西安西电电气研究院有限责任公司 一种工业设备智能控制系统及方法
WO2018219943A1 (en) * 2017-05-29 2018-12-06 Franka Emika Gmbh System and method for controlling actuators of an articulated robot

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE413736T1 (de) * 2001-10-03 2008-11-15 Alcatel Lucent Verfahren und vorrichtung zum messen des übersprechens in einem xdsl-netz
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
US20180349158A1 (en) * 2017-03-22 2018-12-06 Kevin Swersky Bayesian optimization techniques and applications
CN109740757A (zh) * 2019-01-25 2019-05-10 电子科技大学 一种基于序贯蒙特卡罗方法的贝叶斯优化方法
US20200327435A1 (en) * 2019-04-12 2020-10-15 General Electric Company Systems and methods for sequential power system model parameter estimation
DE102019208263A1 (de) * 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018219943A1 (en) * 2017-05-29 2018-12-06 Franka Emika Gmbh System and method for controlling actuators of an articulated robot
CN108508856A (zh) * 2018-03-28 2018-09-07 西安西电电气研究院有限责任公司 一种工业设备智能控制系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023057084A1 (de) * 2021-10-07 2023-04-13 Linde Gmbh Verfahren zum betreiben einer verfahrenstechnischen anlage, verfahrenstechnische anlage und verfahren zum umrüsten einer verfahrenstechnischen anlage
DE102022104313A1 (de) 2022-02-23 2023-08-24 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs
DE102022124791A1 (de) 2022-09-27 2024-03-28 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren und Vorrichtung zur Abstimmung der Parameter eines Antriebsstranges

Also Published As

Publication number Publication date
US20220236698A1 (en) 2022-07-28
WO2020244987A1 (de) 2020-12-10
CN113874865A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
DE102019208262A1 (de) Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes&#39;schen Optimierungsverfahrens
EP1626317B1 (de) Verfahren zur Erstellung eines nichtlinearen, stationären oder dynamischen Modells einer Steuergrösse einer Arbeitsmaschine
DE102016117773B4 (de) Werkzeugmaschine, die eine optimale Beschleunigung/Verlangsamung erzeugt, Simulationsvorrichtung und Maschinenlernvorrichtung
EP3785177B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102016008994A1 (de) Werkzeugmaschine, simulationsvorrichtung und maschineneinlerngerät
EP3748556A1 (de) Verfahren und vorrichtung zum ermitteln einer regelungsstrategie für ein techni-sches system
EP3646122B1 (de) Verfahren und vorrichtung zum einstellen mindestens eines parameters eines aktorregelungssystems und aktorregelungssystem
DE102016117560A1 (de) Werkzeugmaschine zum erzeugen einer geschwindigkeitsverteilung
DE102021204943A1 (de) Meta-gelehrte evolutionsstrategie-blackbox-optimierungsklassifizierer
WO2020245218A1 (de) Verfahren und vorrichtung zum ermitteln einer regelungsstrategie für ein technisches system
DE202018102632U1 (de) Vorrichtung zum Erstellen einer Modellfunktion für ein physikalisches System
EP3746850B1 (de) Verfahren zum ermitteln eines zeitlichen verlaufs einer messgrösse, prognosesystem, aktorsteuerungssystem, verfahren zum trainieren des aktorsteuerungssystems, trainingssystem, computerprogramm und maschinenlesbares speichermedium
DE102018008685A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes, künstliches neuronales Netz, Verwendung eines künstlichen neuronalen Netzes sowie entsprechendes Computerprogramm maschinenlesbares Speichermedium und entsprechende Vorrichtung
EP3698222B1 (de) Verfahren und vorrichtung zum einstellen mindestens eines parameters eines aktorregelungssystems und aktorregelungssystem
DE102020211648B4 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102019002644A1 (de) Steuerung und Steuerverfahren
DE102020214177A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
WO2021259980A1 (de) Training eines künstlichen neuronalen netzwerkes, künstliches neuronales netzwerk, verwendung, computerprogramm, speichermedium und vorrichtung
DE102020210376A1 (de) Vorrichtung und Verfahren zum Steuern eines Hardware-Agenten in einer Steuersituation mit mehreren Hardware-Agenten
DE102020205532A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie für eine Steuereinrichtung über mehrere Iterationen
DE102020206916A1 (de) Steuereinrichtung und Verfahren zum Auswählen von Auswertungspunkten für ein Bayessches Optimierungsverfahren
DE102020200849A1 (de) Verfahren und Vorrichtung zur Prozessoptimierung einer Fertigungsprozesskette
DE102022209845A1 (de) Verfahren zum Trainieren eines Agenten
DE102021210533A1 (de) Einrichtung und Verfahren zum Steuern eines Agenten

Legal Events

Date Code Title Description
R163 Identified publications notified