DE102022112606B3

DE102022112606B3 - Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems

Info

Publication number: DE102022112606B3
Application number: DE102022112606.4A
Authority: DE
Inventors: Thomas Rudolf; Matteo Skull
Original assignee: Dr Ing HCF Porsche AG
Current assignee: Dr Ing HCF Porsche AG
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-07-27
Anticipated expiration: 2042-05-20

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems, umfassend die Schritte:S1): Bereitstellen eines maschinellen Meta-Lernverstärkungsagenten, der dazu ausgebildet ist, eine Lernfunktion des verstärkenden Lernens auszuführen,S2): Definieren eines übergeordneten Kalibrierungsproblems des technischen Systems mit einer Mehrzahl n ≥ 2 von Teilproblemen, Definieren möglicher Lösungsverfahren zur Lösung der Teilprobleme und Definieren von Metriken in Bezug auf den Erfolg, die Teilprobleme und das übergeordnete Kalibrierungsproblem zu lösen,S3): Beobachten einer initialen Kalibrierungsgenauigkeit des übergeordneten Kalibrierungsproblems mittels des maschinellen Meta-Lernverstärkungsagenten,S4): Ausführen einer Aktion des maschinellen Meta-Lernverstärkungsagenten, die zumindest das Auswählen eines der Teilprobleme und eines Lösungsverfahrens zur Lösung des Teilproblems umfasst,S5): Bearbeiten des Teilproblems mittels des im vorhergehenden Schritt ausgewählten Lösungsverfahrens, wobei aus einer fortgeschrittenen Metrik des Teilproblems eine Änderung der Metrik des übergeordneten Kalibrierungsproblems resultiert und der maschinelle Meta-Lernverstärkungsagent in Abhängigkeit von seinen neuen Zuständen und vom Fortschritt der Metrik des übergeordneten Kalibrierungsproblems eine Belohnung erhält,S6): Wiederholen der Schritte S3) bis S5) für jedes der Teilprobleme, bis das übergeordnete Kalibrierungsproblem gelöst ist.

Description

Die vorliegende Erfindung bezieht sich auf ein computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems.
Unter einem computerimplementierten Verfahren wird im Rahmen der vorliegenden Erfindung insbesondere verstanden, dass das Verfahren durch einen Computer ausgeführt wird. Der Computer kann beispielsweise einen digitalen Datenspeicher und einen Prozessor umfassen. Im digitalen Datenspeicher können Instruktionen gespeichert sein, die bei ihrer Ausführung durch den Prozessor den Prozessor dazu veranlassen, das computerimplementierte Verfahren auszuführen.
Technische Systeme, wie zum Beispiel Steuerungseinrichtungen für Antriebsvorrichtungen, insbesondere Brennkraftmaschinen oder elektrische Maschinen, Einrichtungen zur Bereitstellung autonomer beziehungsweiser teilautonomer Fahrfunktionen eines Fahrzeugs oder auch industrielle Feedback-Regler müssen zunächst kalibriert werden, bevor sie in einem Produktivbetrieb eingesetzt werden können.
Aus dem Stand der Technik sind ganz unterschiedliche Verfahren zur Lösung von Kalibrierungsproblemen technischer Systeme bekannt. Weit verbreitete Verfahren sind zum Beispiel die Kalibrierung durch menschliches Expertenwissen, nichtlineare Optimierungsverfahren mit Nebenbedingungen für bekannte Modelle, Gaußsche Prozesse für datengesteuerte Ansätze sowie Approximationen durch neuronale Netzwerke. Die Lösungen von Kalibrierungsproblemen sind üblicherweise recht monotone, aber dennoch sehr anspruchsvolle, iterative Aufgaben für menschliche Experten.
Neuartige Kalibrierungsverfahren nutzen bereits Verfahren des so genannten verstärkenden Lernens (englisch: „Reinforcement Learning). Dabei wird ein maschineller Lernverstärkungsagent verwendet, der dazu ausgebildet ist, eine Lernfunktion des verstärkenden Lernens auszuführen. Verstärkendes Lernen basiert auf dem allgemeinen Grundprinzip, dass der Lernverstärkungsagent mit seiner Umwelt interagiert, indem er Aktionen ausführt, welche den Zustand der Umwelt beeinflussen. Der Lernverstärkungsagent beobachtet seine Umwelt und erhält Belohnungen in Abhängigkeit davon, wie sich seine Aktionen auf den Zustand der Umwelt auswirken. Wenn sich Aktionen des Lernverstärkungsagenten positiv auf den Zustand seiner Umwelt auswirken, erhält er eine positive Belohnung. Wenn sich Aktionen des Lernverstärkungsagenten negativ auf den Zustand seiner Umwelt auswirken, erhält er dementsprechend eine negative Belohnung. In Abhängigkeit von den erhaltenen Belohnungen richtet der Lernverstärkungsagent seine Entscheidungsstrategie - die so genannte „Policy“ - neu aus, um seine Belohnungen möglichst zu maximieren.
Es hat sich gezeigt, dass Ansätze des verstärkenden Lernens bei bestimmten Kalibrierungsaufgaben gut funktionieren, bei manchen jedoch eher weniger. Während sich maschinelle Lernverfahren bei ähnlichen, immer wiederkehrenden Problemen und in datenfreundlichen Umgebungen auszeichnen, können herkömmliche Verfahren in Nischenanwendungen immer noch gute Ergebnisse erzielen. Dieses ist vor allem dann der Fall, wenn zum Beispiel die Kalibrierungsziele nur sehr schwer zu quantifizieren sind, die verfügbaren Daten für neue technische Systeme oder für eine noch nicht etablierte Datenbasis noch sehr spärlich sind oder wenn es sich um speziell optimierte Prozesse für Nischenkalibrierungsprobleme handelt. Bislang existieren keine herkömmlichen Kalibrierungsverfahren, die alle auftretenden Kalibrierungsaufgaben lösen können.
Die bislang verwendeten maschinellen Lernverfahren verfügen nicht immer über das erforderliche Training für jedes Teilproblem der Kalibrierung. Überdies kann der Problemraum sehr groß sein und zum Beispiel eine Vielzahl zweidimensionaler oder dreidimensionaler Kalibrierungskarten umfassen, so dass die Verwendung so genannter „Teile-und-Herrsche“-Verfahren („Divide-and-Conquer“-Verfahren) erforderlich ist. Die derzeit verwendeten Lösungsverfahren weisen eine Unterteilung in eine feste Anzahl von Teilproblemen auf, da sie nicht mehr verarbeiten können. Es fehlt somit eine übergeordnete Strategie, die erkennen kann, welches Lösungsverfahren für die verschiedenen Teilprobleme am besten geeignet ist und daher angewendet werden sollte.
Die US 2022/0036179 A1 offenbart ein KI-basiertes Verfahren zur Online-Aufgabeninferenz für (aus Teilaufgaben) zusammengesetzte Aufgaben mit einer Kontextanpassung, wobei ein oder mehrere neuronale Netzwerke mittels Meta-Verstärkungslernen dahingehend trainiert werden, globale und lokale Kontexte einer Aufgabe zu erkennen und darauf basierend Aktionen zum Lösen der Aufgabe auszuwählen.
Die CN 113156900 A stellt ein Verfahren zur Steuerung der Deformation eines Werkstücks während der Werkstückbearbeitung bereit, welches das Prinzip der maschinellen Meta-Lernverstärkung nutzt.
Die DE 10 2020 120 367 A1 bezieht sich auf ein Verfahren zur Steuerung eines elektrifizierten Fahrzeugs auf einer Fahrtroute, wobei die Steuerung basierend auf einer Betriebsstrategie zur Erreichung eines Steuerziels erfolgt und die Kalibrierung der Betriebsstrategie mithilfe von Lernverstärkungs-Hauptagenten sowie ein oder mehreren Lernverstärkungs-Unteragenten erfolgt.
Die US 2022/0036179 A1 beschreibt ein Verfahren zum Erledigen einer Aufgabe, bei dem Lernverstärkungsagenten verwendet werden.
Die Erfindung macht es sich zur Aufgabe, ein computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems zu schaffen, mittels dessen die Kalibrierung auch bei komplexen Kalibrierungsproblemen weiter verbessert werden kann.
Die Lösung dieser Aufgabe liefert ein computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems mit den Merkmalen des Anspruchs 1. Die Unteransprüche betreffen vorteilhafte Weiterbildungen der Erfindung.
Ein erfindungsgemäßes Verfahren zur Kalibrierung eines technischen Systems umfasst die Schritte:

S1): Bereitstellen eines maschinellen Meta-Lernverstärkungsagenten, der dazu ausgebildet ist, eine Lernfunktion des verstärkenden Lernens auszuführen,
S2): Definieren eines übergeordneten Kalibrierungsproblems des technischen Systems mit einer Mehrzahl n ≥ 2 von Teilproblemen, Definieren möglicher Lösungsverfahren zur Lösung der Teilprobleme und Definieren von Metriken in Bezug auf den Erfolg, die Teilprobleme und das übergeordnete Kalibrierungsproblem zu lösen,
S3): Beobachten einer initialen Kalibrierungsgenauigkeit des übergeordneten Kalibrierungsproblems mittels des maschinellen Meta-Lernverstärkungsagenten, S4): Ausführen einer Aktion des maschinellen Meta-Lernverstärkungsagenten, die zumindest das Auswählen eines der Teilprobleme und eines Lösungsverfahrens zur Lösung des Teilproblems umfasst,
S5): Bearbeiten des Teilproblems mittels des im vorhergehenden Schritt ausgewählten Lösungsverfahrens, wobei aus einer fortgeschrittenen Metrik des Teilproblems eine Änderung der Metrik des übergeordneten Kalibrierungsproblems resultiert und der maschinelle Meta-Lernverstärkungsagent in Abhängigkeit von seinen neuen Zuständen und vom Fortschritt der Metrik des übergeordneten Kalibrierungsproblems eine Belohnung erhält,
S6): Wiederholen der Schritte S3) bis S5) für jedes der Teilprobleme, bis das übergeordnete Kalibrierungsproblem gelöst ist.

Das hier vorgestellte Verfahren stellt eine übergeordnete, automatisierte Überprüfungsstrategie zur Verfügung, welche mittels des Meta-Lernverstärkungsagenten selbständig das aktuelle Kalibrierungsproblem erkennt, und iterativ jeweils das am besten geeignete Lösungsverfahren für die Lösung der verschiedenen Teilprobleme der Kalibrierung des technischen Systems auswählt, bis das übergeordnete Kalibrierungsproblem gelöst ist.
In einer Ausführungsform wird vorgeschlagen, dass die Lösungsverfahren zur Lösung der Teilaufgaben mittels des maschinellen Meta-Lernverstärkungsagenten aus einer Gruppe von Lösungsverfahren ausgewählt werden, die lineare oder nichtlineare Lösungs- und Optimierungsverfahren mit möglichen Nebenbedingungen, statistische Verfahren, insbesondere Gaußsche Verfahren, überwachte maschinelle Lernverfahren und verstärkende Lernverfahren umfasst oder aus diesen besteht.
In einer Ausführungsform kann vorgesehen sein, dass das Ausführen der Aktion des maschinellen Meta-Lernverstärkungsagenten zumindest bei der ersten Ausführung des Verfahrensschritts S4) eine Auswahl der Anzahl der auszuführenden Iterationsschleifen des ausgewählten Lösungsverfahrens oder der zu erreichenden Metrik umfasst.
In einer Ausführungsform besteht die Möglichkeit, dass die Belohnungen des maschinellen Meta-Lernverstärkungsagenten auf Basis von Metriken des Fortschritts und des Erfolgs bei der Lösung des übergeordneten Kalibrierungsproblems bestimmt werden.
Es kann vorgesehen sein, dass der maschinelle Lernagent positive Belohnungen erhält, wenn die Abweichungen vom Kalibrierungsziel reduziert werden oder ein Teilproblem gelöst wird.
Ferner kann vorgesehen sein, dass der maschinelle Lernagent negative Belohnungen erhält, wenn ein für die Lösung eines der Teilprobleme gewähltes Lösungsverfahren kein Zwischenergebnis (Fehlschlag) oder einen Misserfolg aufgrund einer nicht ausreichenden Metrik liefert.
Der Meta-Lernverstärkungsagent wird in einer Ausführungsform anhand von Trainingsdatensätzen durch überwachtes Lernen auf eine Vielzahl von Kalibrierungsproblemen, Teilproblemen des technischen Systems und möglichen Daten-, Lösungsverfahrens- und Metrikkombinationen zu deren Lösung trainiert. Durch das Training lernt der Meta-Lernverstärkungsagent anhand von Mustern, welches Lösungsverfahren am besten zu welchem Teilproblem der Kalibrierung passt. Der auf diese Weise trainierte Meta-Lernverstärkungsagent beobachtet das übergeordnete Problem und wählt durch seine Aktionen die jeweils am besten passenden Kombination der oben genannten aus. Während des Trainings werden die Verfahrensschritte S2) bis S6) mittels der für diesen Zweck zur Verfügung gestellten Trainingsdatensätze durchgeführt.
In einer alternativen Ausführungsform kann auch vorgesehen sein, dass der Meta-Lernverstärkungsagent durch unüberwachtes Lernen auf eine Vielzahl von Kalibrierungsproblemen und Teilproblemen des technischen Systems und möglichen Daten-, Lösungsverfahrens- und Metrikkombinationen zu deren Lösung trainiert wird. Während des Trainings werden die Verfahrensschritte S2) bis S6) ausgeführt. Der Meta-Lernverstärkungsagent lernt also durch wiederholtes Ausführen der Verfahrensschritte S2) bis S6) für unterschiedliche Teilprobleme.
Vorzugsweise können Erfahrungsdaten des Meta-Lernverstärkungsagenten in einem Speichermittel abrufbar gespeichert werden. Dadurch wird erreicht, dass der Meta-Lernverstärkungsagent auf seine eigenen Erfahrungsdaten zugreifen kann. Das Speichermittel kann insbesondere eine Datenbank sein.
Somit wird ein Verfahren mit einem übergeordneten Meta-Lernverstärkungsagenten für die Lösung des übergeordneten Kalibrierungsproblems des technischen Systems zur Verfügung gestellt, wobei das Verfahren insbesondere Folgendes bietet:

A) Ansätze zur automatischen Lösung übergeordneter, größerer Kalibrierungsprobleme, was bisher nicht möglich war,
B) Training von Mustern, welches Lösungsverfahren am besten zu welchem Teilproblem der Kalibrierung passt,
C) Anwendung der erlernten Muster der Problem-, Lösungsverfahrens-, Informations- und Metrikkombinationen zur Kalibrierung realer technischer Systeme, die zu einem zufriedenstellenden Systembetrieb führen,
D) Übergang von einem Teilproblem zu einem anderen Teilproblem in intelligenten Mustern, bis die übergeordnete Kalibrierungsaufgabe gelöst ist, wobei
- - der aktuelle Zustand im Kalibrierungsprozess mit verschiedenen zu lösenden Teilproblemen der Kalibrierung erfasst werden kann,
- - eine Auswahl eines Teilproblems für die nächste Kalibrierung und des am besten geeigneten Lösungsverfahrens für die Lösung dieses Teilproblems erfolgen kann,
- - (optional) eine Auswahl der für das gewählte Verfahren und das zu lösende Teilproblem zu erforderlichen Informationen/Daten und Metriken erfolgen kann, die auch vorbekannt und festgelegt sein können,
- - eine Festlegung der Anzahl der Iterationen der Lösungsverfahren, der Zwischengenauigkeit der Kalibrierung, der zu erfüllenden Metriken sowie der zu verwendenden Informationen/Daten erfolgen kann,
- - eine sequentielle Entscheidungsfindung des Meta-Lernverstärkungsagenten erfolgen kann, bis das übergeordnete Kalibrierungsproblem gelöst ist und
- - Entscheidungen getroffen werden können, wann Teilprobleme als endgültig gelöst anzusehen sind und somit in ihrem aktuellen Zustand eingefroren werden können und wann die Lösungsverfahren für ein endgültiges Ergebnis zu beenden sind.

Weitere Merkmale und Vorteile der vorliegenden Erfindung werden deutlich anhand der nachfolgenden Beschreibung eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beiliegende 1, die eine schematische Darstellung eines Verfahrensablaufs eines computerimplementierten Verfahrens zur Kalibrierung eines technischen Systems veranschaulicht.
Unter Bezugnahme auf 1 wird in einem ersten Schritt S1) zumindest ein maschineller Meta-Lernverstärkungsagent bereitgestellt, der zur Lösung eines übergeordneten Kalibrierungsproblems des technischen Systems verwendet wird und der insbesondere als künstliches neuronales Netzwerk ausgeführt sein kann. Der Meta-Lernverstärkungsagent ist dazu ausgebildet, eine Lernfunktion des verstärkenden Lernens auszuführen.
Vor dem Einsatz des Meta-Lernverstärkungsagenten im Produktivbetrieb kann dieser in geeigneter Weise zum Beispiel mithilfe geeigneter Trainingsdaten durch überwachtes Lernen trainiert werden. Alternativ ist auch ein unüberwachtes Lernen möglich. Um die Ergebnisse des Trainings im späteren Produktivbetrieb verwenden zu können, ist ein Speichermittel vorgesehen, auf den der Meta-Lernverstärkungsagent zugreifen kann und in dem die durch ein entsprechendes Training erhaltenen Erfahrungsdaten des Meta-Lernverstärkungsagenten abrufbar gespeichert sind. Während des Trainings werden - wie auch im späteren Produktivbetrieb - die nachfolgend erläuterten Verfahrensschritte S2) bis S6) ausgeführt. Das Speichermittel kann insbesondere eine Datenbank sein.
In einem zweiten Schritt S2) wird ein übergeordnetes Kalibrierungsproblems des technischen Systems mit einer Mehrzahl n ≥ 2 von Teilproblemen definiert. Das technische System verfügt über eine Mehrzahl zu kalibrierender Teilfunktionen, die zu kalibrieren sind und somit Teilprobleme des übergeordneten Kalibrierungsproblems bilden. Die Kalibrierung sämtlicher Teilfunktionen bildet das übergeordnete Kalibrierungsproblem. Für jede dieser Teilfunktionen existiert zum Beispiel eine Vielzahl von Kalibrierungskarten, die während des Kalibrierungsprozesses kalibriert werden müssen. Bei diesen Kalibrierungskarten kann es sich insbesondere um zweidimensionale oder dreidimensionale Matrizen handeln.
Ferner werden in diesem Verfahrensschritt S2) mögliche Lösungsverfahren, die zur Lösung der Teilprobleme geeignet sind, sowie Metriken in Bezug auf den Erfolg, die Teilprobleme und das übergeordnete Kalibrierungsproblem zu lösen, definiert. Dadurch wird insbesondere erreicht, dass der Meta-Lernverstärkungsagent sowie die von diesem auswählbaren Lösungsverfahren, die für die Lösung der Teilprobleme vorgesehen sind, den Unterschied zwischen der zu erreichenden Zielkalibrierung und der aktuellen Kalibrierung des technischen Systems kennen.
In einem Verfahrensschritt S3) wird eine initiale Kalibrierungsgenauigkeit des übergeordneten Kalibrierungsproblems mittels des maschinellen Meta-Lernverstärkungsagenten beobachtet. Genauer gesagt, beobachtet der maschinelle Meta-Lernverstärkungsagent die Metrik des übergeordneten Kalibrierungsproblems und die Metriken der Teilprobleme, die Funktionskomplexität des technischen Systems und dessen gegenwärtigen Zustand, den Teilproblemzustand in Bezug auf die Kalibrierungskarten sowie - sofern es sich nicht um die erste Iterationsschleife des Verfahrens handelt - die zuletzt verwendeten Lösungsverfahren.
In einem Verfahrensschritt S4) führt der maschinelle Meta-Lernverstärkungsagent eine Aktion aus, die zumindest das Auswählen eines der Teilprobleme und eines Lösungsverfahrens, das zur Lösung des Teilproblems geeignet ist, umfasst. Ferner kann der maschinelle Meta-Lernverstärkungsagent in diesem Verfahrensschritt die Anzahl der Iterationen für die Lösung des Teilproblems oder die zu erreichende Metrik auswählen. Dabei ist eine zusätzliche Flexibilität in Bezug auf die gewählte Metrik für das Teilproblem und die gewählten Daten für die Kalibrierung des Teilproblems möglich. Beispielsweise wählt der maschinelle Lernverstärkungsagent neben dem Teilproblem und dem Lösungsverfahren auch eine Anzahl von Teilparameterkalibrierungskarten. Vorzugsweise können die Lösungsverfahren zur Lösung der Teilprobleme mittels des maschinellen Meta-Lernverstärkungsagenten aus einer Gruppe von Lösungsverfahren ausgewählt werden, die lineare oder nichtlineare Lösungs- und Optimierungsverfahren mit möglichen Nebenbedingungen, statistische Verfahren, insbesondere Gaußsche Verfahren, überwachte maschinelle Lernverfahren und verstärkende Lernverfahren umfasst oder aus diesen besteht.
In einem Schritt S5) wird das Teilproblem mittels des im vorhergehenden Schritt ausgewählten Lösungsverfahrens bearbeitet, wobei aus einer fortgeschrittenen Metrik des Teilproblems eine Änderung der Metrik des übergeordneten Kalibrierungsproblems resultiert und der maschinelle Meta-Lernverstärkungsagent in Abhängigkeit von seinen neuen Zuständen und vom Fortschritt der Metrik des übergeordneten Kalibrierungsproblems eine Belohnung erhält. Der Fortschritt bei der Lösung des Teilproblems führt zu einer Rückmeldung an den maschinellen Lernverstärkungsagenten.
Die Metrik der fortgeschrittenen (also weiter vorangetriebenen) Lösung des Teilproblems führt zu einer Änderung der Metrik des übergeordneten Kalibrierungsproblems. Auf der Grundlage der neuen Zustände und des Fortschritts in der Metrik des übergeordneten Kalibrierungsproblems kann eine Belohnung für den maschinellen Lernverstärkungsagenten berechnet werden. Das Belohnungsfeedback stimuliert den maschinellen Lernverstärkungsagenten, besser zu werden. Das gewählte Lösungsverfahren bearbeitet das ausgewählte Teilproblem so lange, bis die im Verfahrensschritt S4) festgelegte maximale Anzahl von Iterationen oder das Ziel der Lösung des Teilproblems erreicht ist. Die Lösung des ausgewählten Teilproblems wird durch das Lösungsverfahren somit also entweder vorangetrieben oder das Teilproblem wird durch das gewählte Lösungsverfahren vollständig gelöst.
Mögliche Zustände des Meta-Lernverstärkungsagenten sind insbesondere:

- Metriken in Bezug auf den Zustand und den Fortschritt des übergeordneten Kalibrierungsproblems, wie zum Beispiel die Abweichung vom Ziel,
- Informationen über die zu kalibrierende Funktion des technischen Systems, d. h. alle beteiligten Kalibrierungskarten, Kurven, Variablen, Bezeichnungen,
- Metrik der Kalibrierungsergebnisse von Teilproblemen, verfügbare Daten zur Verwendung,
- ausgewählte Kombinationen von Teilproblemen, Lösungsverfahren, optional ausgewählter Metrik und ausgewählten Daten für die Teilproblem-Kalibrierung,
- der Arbeitspunkt des technischen Systems, der durch Systemzustände dargestellt wird, in denen Teilprobleme kalibriert werden müssen.

Mögliche Belohnungen des Meta-Lernverstärkungsagenten sind:

- Metriken des Fortschritts oder des Erfolgs in Bezug auf die Lösung des übergeordneten Kalibrierungsproblems,
- Fortschritte bei den zuvor ausgewählten Teilproblemen in Bezug auf ihre Erfolgsmetriken,
- positive Belohnungen, wenn Zielabweichungen reduziert oder Teilprobleme gelöst werden,
- negative Belohnungen, wenn ein für die Lösung eines der Teilprobleme gewähltes Lösungsverfahren kein Zwischenergebnis (Fehlschlag) oder einen Misserfolg aufgrund einer nicht ausreichenden Metrik liefert.

Die Verfahrensschritte S3) bis S5) werden iterativ für jedes der Teilprobleme der Kalibrierung durchgeführt, bis das übergeordnete Kalibrierungsproblem schließlich gelöst ist (Schritt S6)).
Das hier vorgestellte Verfahren löst das Problem der Kalibrierungsaufgaben technischer Systeme mit einer Komplexität, die sehr hoch ist und von den einzelnen Lösungsverfahren zur Lösung der Teilprobleme nicht auf einmal gelöst werden kann. Die Idee schlägt einen Ansatz mit einem maschinellen Meta-Lernverstärkungsagenten auf hoher Ebene vor, um die Komplexität des übergeordneten Kalibrierungsproblems selbsttätig zu erkennen und das übergeordnete Kalibrierungsproblem in mehrere Teilprobleme aufzuteilen, die einzeln, aber in einer gelernten Reihenfolge durch eine sequentielle Auswahl von Kombinationen aus Teilproblemen, Lösungsverfahren, relevanten Metriken und Daten kalibriert werden können.
Der vorgeschlagene Ansatz ist somit ein entscheidender Schritt zur vollständigen Automatisierung der Lösung sehr komplexer Kalibrierungsprobleme und kann rekursiv auf noch höhere Komplexitätsdimensionen erweitert werden.
Mögliche Anwendungsbereiche des hier beschriebenen Verfahrens sind insbesondere:

- Antriebsstränge und die Kalibrierung der Komponenten von Antriebssträngen,
- Systemdynamikregelung und Parameterkalibrierung,
- Parameterkalibrierung für Steuergeräte von Brennkraftmaschinen oder elektrischen Maschinen, Kalibrierung teilautonomer oder vollautonomer Fahrfunktionen,
- Anwendungen zur Fahrwerksregelung, Kalibrierung des Thermomanagements.

Claims

Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems, umfassend die Schritte: S1): Bereitstellen eines maschinellen Meta-Lernverstärkungsagenten, der dazu ausgebildet ist, eine Lernfunktion des verstärkenden Lernens auszuführen, S2): Definieren eines übergeordneten Kalibrierungsproblems des technischen Systems mit einer Mehrzahl n ≥ 2 von Teilproblemen, Definieren möglicher Lösungsverfahren zur Lösung der Teilprobleme und Definieren von Metriken in Bezug auf den Erfolg, die Teilprobleme und das übergeordnete Kalibrierungsproblem zu lösen, S3): Beobachten einer initialen Kalibrierungsgenauigkeit des übergeordneten Kalibrierungsproblems mittels des maschinellen Meta-Lernverstärkungsagenten, S4): Ausführen einer Aktion des maschinellen Meta-Lernverstärkungsagenten, die zumindest das Auswählen eines der Teilprobleme und eines Lösungsverfahrens zur Lösung des Teilproblems umfasst, S5): Bearbeiten des Teilproblems mittels des im vorhergehenden Schritt ausgewählten Lösungsverfahrens, wobei aus einer fortgeschrittenen Metrik des Teilproblems eine Änderung der Metrik des übergeordneten Kalibrierungsproblems resultiert und der maschinelle Meta-Lernverstärkungsagent in Abhängigkeit von seinen neuen Zuständen und vom Fortschritt der Metrik des übergeordneten Kalibrierungsproblems eine Belohnung erhält, S6): Wiederholen der Schritte S3) bis S5) für jedes der Teilprobleme, bis das übergeordnete Kalibrierungsproblem gelöst ist.
Computerimplementiertes Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Lösungsverfahren zur Lösung der Teilprobleme mittels des maschinellen Meta-Lernverstärkungsagenten aus einer Gruppe von Lösungsverfahren ausgewählt werden, die lineare oder nichtlineare Lösungs- und Optimierungsverfahren mit möglichen Nebenbedingungen, statistische Verfahren, insbesondere Gaußsche Verfahren, überwachte maschinelle Lernverfahren und verstärkende Lernverfahren umfasst oder aus diesen besteht.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass das Ausführen der Aktion des maschinellen Meta-Lernverstärkungsagenten zumindest bei der ersten Ausführung des Verfahrensschritts S4) eine Auswahl der Anzahl der auszuführenden Iterationsschleifen des ausgewählten Lösungsverfahrens oder der zu erreichenden Metrik umfasst.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Belohnungen des maschinellen Meta-Lernverstärkungsagenten auf Basis von Metriken des Fortschritts und des Erfolgs bei der Lösung des übergeordneten Kalibrierungsproblems bestimmt werden.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der maschinelle Lernagent positive Belohnungen erhält, wenn die Abweichungen vom Kalibrierungsziel reduziert werden oder ein Teilproblem gelöst wird.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der maschinelle Lernagent negative Belohnungen erhält, wenn ein für die Lösung eines der Teilprobleme gewähltes Lösungsverfahren kein Zwischenergebnis oder einen Misserfolg aufgrund einer nicht ausreichenden Metrik liefert.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Meta-Lernverstärkungsagent anhand von Trainingsdatensätzen durch überwachtes Lernen auf eine Vielzahl von Kalibrierungsproblemen und Teilproblemen des technischen Systems und möglichen Daten-, Lösungsverfahrens- und Metrikkombinationen zu deren Lösung trainiert wird.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Meta-Lernverstärkungsagent durch unüberwachtes Lernen auf eine Vielzahl von Kalibrierungsproblemen und Teilproblemen des technischen Systems und möglichen Daten-, Lösungsverfahrens- und Metrikkombinationen zu deren Lösung trainiert wird.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass Erfahrungsdaten des Meta-Lernverstärkungsagenten in einem Speichermittel abrufbar gespeichert werden.