-
Die Erfindung betrifft ein Verfahren, ein System und ein Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs.
-
Die Kalibrierung von Steuervorrichtungen für elektrische Antriebsstränge mit Methoden der künstlichen Intelligenz, insbesondere mit Verfahren des verstärkenden Lernens (engl. reinforcement learning), ist bekannt. Ein elektrischer Antriebsstrang verfügt über einen oder mehrere Elektromotoren, die von einer elektrischen Energieversorgung wie insbesondere einer Batterie oder auch einer Brennstoffzelle mit Energie versorgt werden. Mittels einer Leistungselektronik wie einem Wechselrichter wird die Ausgangsspannung der elektrischen Energieversorgung in Wechselspannung umgewandelt, um den Elektromotor mit der erforderlichen Strom -und Spannungsstärke entsprechend der jeweiligen Antriebssituation zu versorgen. Elektrische Antriebe werden für eine Vielzahl von Funktionen und Aufgaben eingesetzt als Fahrantriebe bei Kraftfahrzeugen, Flurförderfahrzeugen, Bahnen, oder in der Industrie bei Montagemaschinen, oder als Hubantriebe, oder im Bereich der Robotik sowie für eine Vielzahl von Geräten im Haushalt. Ein elektrischer Antrieb hat gegenüber anderen Antriebsarten wie hydraulisch oder pneumatisch den Vorteil einer effizienten Steuerbarkeit des elektrischen Motors als elektromechanischen Energiewandler hinsichtlich des Drehmoments und der Drehzahl durch eine steuerbare Leistungselektronik. Durch Steuerung der Leistungselektronik wird die Leistung des Motors an die jeweilige Aufgabenstellung angepasst, beispielsweise für eine gewünschte Beschleunigung beim Fahren eines Kraftfahrzeugs. Die Steuerung der Leistungselektronik hängt wiederum von der Konfiguration des Motors und anderen Parametern, wie beispielsweise dem Gewicht eines Kraftfahrzeugs ab.
-
Allerdings wird bei den bekannten Reinforcement-Learning-Verfahren zur Kalibrierung eines elektrischen Antriebsstrangs ein Modell eines real existierenden elektrischen Antriebsstrangs einem Lernverstärkungs-Agenten vorgegeben, das von dem Lernverstärkungs-Agenten nicht verändert wird. Das Modell kann beispielsweise mittels physikalisch-mathematischer Gleichungen beschrieben werden oder auf einer datengesteuerten Grundlage beispielsweise mittels neuronaler Netze erstellt werden. Ein weiterer Ansatz ist die Erstellung eines Modells auf der Basis von Markov-Entscheidungsprozessen. Unabhängig von der Art des zugrundeliegenden Modells für einen elektrischen Antriebsstrang, wird das Modell dem Lernverstärkungs-Agenten jeweils vorgegeben. Dies bedeutet, dass der Lernverstärkungs-Agent das vorgegebene Modell verwendet, um seine Aktionen zu planen. Der Lernverstärkungs-Agent agiert somit nicht gänzlich unabhängig, da die Auswahl seiner Aktionen von dem verwendeten Modell abhängt.
-
Das Modell wird üblicherweise von Experten wie Ingenieuren erstellt und bildet eine Umgebung ab, auf die der Lernverstärkungs-Agent zurückgreift. Die Erstellung des Modells, das im Fall eines Antriebsstrangs dessen dynamisches Verhalten beispielsweise hinsichtlich der verwendeten Spannung und der Stromstärke in Abhängigkeit von einer Verkehrssituation widerspiegelt, ist jedoch aufwendig und auch schwierig, so dass das Modell teilweise nicht das tatsächliche Verhalten eines elektrischen Antriebsstrangs abbildet und daher ungenau ist. Zudem ist die Erstellung eines Modells für eine Umgebung innerhalb eines Lernverstärkungsverfahrens mit einem erheblichen Zeit- und damit Kostenaufwand verbunden. Dies führt jedoch dazu, dass auch die Lernergebnisse des Lernverstärkungs-Agenten von dem zugrundliegenden Modell abhängig sind und daher nur eine eingeschränkte Gültigkeit haben.
-
Die
CN 112632860 A offenbart ein Verfahren zur Identifizierung von Modellparametern eines Energieübertragungssystems, das auf verstärktem Lernen basiert. Das Verstärkungslernverfahren für die Identifikation von Modellparametern des Energieübertragungssystems vermeidet lokale Optimierungen und weist eine hohe Konvergenzrate auf, da es auf einem stufenweisen Identifizierungsprozess beruht.
-
Die
US 2019/0378036 A1 offenbart ein Steuerungsverfahren für Kraftfahrzeuge, welches auf Verfahren des verstärkenden Lernens basiert. Eine Steuereinheit für verstärkendes Lernen wird sowohl auf der Grundlage einer simulierten Bodenfahrzeugumgebung während eines Simulationsmodus und auf der Grundlage einer Kraftfahrzeugumgebung während eines Betriebsmodus eines Kraftfahrzeugs trainiert.
-
Die
DE 10 2019 215 530 A1 offenbart eine Betriebsstrategie für ein Hybridfahrzeug mit einem Elektromotor und einem Verbrennungsmotor, die auf Verfahren des verstärkenden Lernens basiert.
-
Die
DE 10 2019 208 262 A1 offenbart ein Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System. Die Regelungsstrategie wird basierend auf Modellparameter eines Regelungsmodels erstellt und ausgeführt, wobei zum Auffinden der Regelungsstrategie Reinforcement Learning eingesetzt wird.
-
Die
EP 3 825 263 A1 offenbart ein Verfahren zur computer-implementierten Konfiguration einer geregelten Antriebskonfiguration eines Logistiksystems, wobei eine Regelfunktion mittels Reinforcement Learning bestimmt wird.
-
Die der Erfindung zu Grunde liegende Aufgabe besteht nun darin, ein Verfahren, ein System und ein Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs zu schaffen, das sich durch eine hohe Zuverlässigkeit, Sicherheit und Genauigkeit auszeichnet und sich einfach implementieren lässt.
-
Gemäß der vorliegenden Erfindung werden ein Verfahren, ein System und ein Computerprogrammprodukt vorgeschlagen, durch das eine autonome Kalibrierung eines elektrischen Antriebsstrangs ermöglicht wird, um hierdurch die Grundlage für eine zuverlässige und genaue Steuerung des elektrischen Antriebsstrangs zu schaffen.
-
Diese Aufgabe wird hinsichtlich eines Verfahrens durch die Merkmale des Patentanspruchs 1, hinsichtlich eines Systems durch die Merkmale des Patentanspruchs 10, und hinsichtlich eines Computerprogrammprodukts durch die Merkmale des Patentanspruchs 15 erfindungsgemäß gelöst. Die weiteren Ansprüche betreffen bevorzugte Ausgestaltungen der Erfindung.
-
Gemäß einem ersten Aspekt stellt die Erfindung ein Verfahren zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs bereit. Das Verfahren umfasst die folgenden Verfahrensschritte:
- - Erstellen eines Trainingsmodells für einen elektrischen Antriebsstrang von einem Lernverstärkungs-Agenten mittels simulierter Beobachtungen, wobei der Lernverstärkungs-Agent einen Algorithmus des verstärkenden Lernens verwendet;
- - Modifizieren des Trainingsmodells von dem Lernverstärkungs-Agenten mittels realer Beobachtungen eines realen idealtypischen Antriebsstrangs zur Erstellung eines simulierten Modells für den realen idealtypischen elektrischen Antriebsstrang, wobei das simulierte Modell Zielzustände enthält;
- - Bestimmen zumindest eines Zustands eines individuellen realen elektrischen Antriebsstrangs durch ein Zustandsmodul, wobei ein Zustand durch Parameter wie Daten und/oder Messwerte von zumindest einer Eigenschaft des elektrischen Antriebsstrangs definiert wird,
- - Übermitteln des Zustands an den Lernverstärkungs-Agenten;
- - Ermitteln von Kalibrierungsergebnissen für den individuellen realen elektrischen Antriebsstrang von dem Lernverstärkungs-Agenten durch Vergleichen des Zustands mit zumindest einem Zielzustand des simulierten Modells.
-
In einer vorteilhaften Ausführungsform ist vorgesehen, dass für das Erstellen eines Trainingsmodells für einen elektrischen Antriebsstrang von einem Lernverstärkungs-Agenten mittels simulierter Beobachtungen ein Umgebungsmodul vorgesehen ist, welches zumindest ein Zustandsuntermodul, ein Belohnungsuntermodul und ein Strategieuntermodul umfasst.
-
In einer Weiterbildung ist vorgesehen, dass von dem Zustandsuntermodul Zustände generiert werden, die auf den simulierten Beobachtungen beruhen, wobei die simulierten Beobachtungen insbesondere die Stromstärke, die Spannung, das Drehmoment und/oder die Drehzahl eines Elektromotors oder/oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs umfassen.
-
Insbesondere ist vorgesehen, dass die realen Beobachtungen gemessene Werte von Parametern von einer Eigenschaft des realen idealtypischen Antriebsstrangs darstellen, die von Sensoren ermittelt werden oder in einer Datenbank gespeichert sind.
-
In einer weiteren Ausführungsform umfasst das Ermitteln von Kalibrierungsergebnissen die folgenden Verfahrensschritte:
- - Auswählen einer Berechnungsfunktion und/oder einer Aktion basierend auf einer Richtlinie für einen Zustand für die Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten;
- - Berechnen eines modellierten Wertes für die Eigenschaft mittels des modifizierten Parameters;
- - Berechnen eines neuen Zustands von einem Umgebungsmodul aufgrund des modellierten Wertes für die Eigenschaft;
- - Vergleichen des neuen Zustands mit dem Zielzustand und Zuordnen einer Abweichung für das Vergleichsergebnis in dem Zustandsmodul;
- - Ermitteln einer Belohnung von einem Belohnungsmodul für das Vergleichsergebnis;
- - Anpassen der Richtlinie des Lernverstärkung-Agenten basierend auf der Belohnung, wobei
bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion und/oder eine weitere Aktion für einen Zustand mit einer Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand erreicht ist.
-
Insbesondere sind Sensoren und/oder Messvorrichtungen zur Bestimmung der Parameter von den Eigenschaften des individuellen elektrischen Antriebsstrangs vorgesehen.
-
Vorteilhafterweise sind eine positive Aktion A+, die den Wert für einen Parameter erhöht, eine neutrale Aktion A0, bei der der Wert des Parameters gleichbleibt, und eine negative Aktion A-, bei der sich der Wert des Parameters verringert, vorgesehen sind.
-
In einer Ausführungsform ist vorgesehen, dass das Belohnungsmodul eine Datenbank oder Matrix für die Bewertung der Aktionen umfasst.
-
Insbesondere ist der zumindest eine Algorithmus des Lernverstärkungs-Agenten als Markow-Entscheidungsprozess, Temporal Difference Learning (TD-Learning), Q-Learning, SARSA, Monte-Carlo-Simulation oder Actor-Critic ausgebildet.
-
Gemäß einem zweiten Aspekt stellt die Erfindung ein System zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs bereit. Das System um fasst ein Eingabemodul, ein Lernverstärkungsmodul und ein Ausgabemodul. Das Lernverstärkungsmodul umfasst einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet, ein Aktionsmodul, ein Umgebungsmodul, ein Zustandsmodul und ein Belohnungsmodul. Der Lernverstärkungs-Agent ist ausbildet, ein Trainingsmodell für einen elektrischen Antriebsstrang mittels simulierter Beobachtungen zu erstellen, und das Trainingsmodell mittels realer Beobachtungen eines realen idealtypischen Antriebsstrangs zu modifizieren zur Erstellung eines simulierten Modells für den realen idealtypischen elektrischen Antriebsstrang, wobei das simulierte Modell Zielzustände enthält. Das Zustandsmodul ist ausgebildet, zumindest einen Zustand eines individuellen realen elektrischen Antriebsstrangs zu bestimmen, wobei ein Zustand durch Parameter wie Daten und/oder Messwerte von zumindest einer Eigenschaft des elektrischen Antriebsstrangs definiert wird, und den Zustand an den Lernverstärkungs-Agenten zu übermitteln. Der Lernverstärkungs-Agent ist ausgebildet, Kalibrierungsergebnisse für den individuellen realen elektrischen Antriebsstrang durch Vergleichen des Zustands mit zumindest einem Zielzustand des simulierten Modells zu ermitteln.
-
In einer Weiterentwicklung ist vorgesehen, dass das Umgebungsmodul zumindest ein Zustandsuntermodul, ein Belohnungsuntermodul und ein Strategieuntermodul umfasst.
-
In einer weiteren Ausführungsform ist vorgesehen, dass das Zustandsuntermodul ausgebildet ist, Zustände zu generieren, die auf den simulierten Beobachtungen beruhen, wobei die simulierten Beobachtungen insbesondere die Stromstärke, die Spannung, das Drehmoment und/oder die Drehzahl eines Elektromotors und/oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs umfassen.
-
Insbesondere ist vorgesehen, dass die realen Beobachtungen gemessene Werte von Parametern von einer Eigenschaft darstellen, die von Sensoren ermittelt werden oder die in einer Datenbank gespeichert sind.
-
Vorteilhafterweise sind Sensoren und/oder Messvorrichtungen zur Bestimmung der Parameter von den Eigenschaften des individuellen elektrischen Antriebsstrangs vorgesehen sind.
-
Gemäß einem dritten Aspekt stellt die Erfindung ein Computerprogrammprodukt bereit, das einen ausführbaren Programmcode umfasst, der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren gemäß dem ersten Aspekt ausführt.
-
Nachfolgend wird die Erfindung anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert.
-
Dabei zeigt:
- 1 ein Blockdiagramm zur Erläuterung eines Ausführungsbeispiels eines erfindungsgemäßen Systems;
- 2 ein Flussdiagramm zur Erläuterung der einzelnen Verfahrensschritte eines erfindungsgemäßen Verfahrens;
- 3 ein Blockdiagramm eines Computerprogrammprodukt gemäß einer Ausführungsform des dritten Aspekts der Erfindung.
-
Zusätzliche Kennzeichen, Aspekte und Vorteile der Erfindung oder ihrer Ausführungsbeispiele werden durch die ausführliche Beschreibung in Verbindung mit den Ansprüchen ersichtlich.
-
1 zeigt ein erfindungsgemäßes System 100 zum autonomen Kalibrieren eines elektrischen Antriebsstrangs 10. Ein elektrischer Antriebsstrang 10 verfügt über einen oder mehrere Elektromotoren, die von einer elektrischen Energieversorgung wie insbesondere einer Batterie oder auch einer Brennstoffzelle mit Energie versorgt werden. Mittels einer Leistungselektronik wie einem Wechselrichter wird die Ausgangsspannung der elektrischen Energieversorgung in Wechselspannung umgewandelt, um den Elektromotor mit der erforderlichen Strom -und Spannungsstärke entsprechend der jeweiligen Antriebssituation zu versorgen. Elektrische Antriebe werden für eine Vielzahl von Funktionen und Aufgaben eingesetzt als Fahrantriebe bei Kraftfahrzeugen, Flurförderfahrzeugen, Bahnen, oder in der Industrie bei Montagemaschinen, oder als Hubantriebe, oder im Bereich der Robotik sowie für eine Vielzahl von Geräten im Haushalt. Ein elektrischer Antrieb hat gegenüber anderen Antriebsarten wie hydraulisch oder pneumatisch den Vorteil einer effizienten Steuerbarkeit des elektrischen Motors als elektromechanischen Energiewandler hinsichtlich des Drehmoments und der Drehzahl durch eine steuerbare Leistungselektronik. Durch Steuerung der Leistungselektronik an die jeweilige Aufgabenstellung wird die Leistung des Motors angepasst, beispielsweise für eine gewünschte Beschleunigung beim Fahren eines Kraftfahrzeugs. Die Steuerung der Leistungselektronik hängt wiederum von der Konfiguration des Motors und anderen Parametern, wie beispielsweise dem Gewicht eines Kraftfahrzeugs ab.
-
Das erfindungsgemäße System 100 beruht auf Methoden des verstärkenden Lernens (engl. reinforcement learning) und umfasst ein Eingabemodul 200, ein Lernverstärkungsmodul 300 und ein Ausgabemodul 400. Das Lernverstärkungsmodul 300 umfasst einen Lernverstärkungs-Agenten (LV-Agenten) 320, ein Aktionsmodul 330, ein Umgebungsmodul 340, ein Zustandsmodul 350 und ein Belohnungsmodul 370.
-
Das Eingabemodul 200, das Lernverstärkungsmodul 300 und das Ausgabemodul 400 können jeweils mit einem Prozessor und/oder einer Speichereinheit versehen sein.
-
Unter einem „Prozessor“ kann im Zusammenhang mit der Erfindung beispielsweise eine Maschine oder eine elektronische Schaltung verstanden werden. Bei einem Prozessor kann es sich insbesondere um einen Hauptprozessor (engl. Central Processing Unit, CPU), einen Mikroprozessor oder einen Mikrocontroller, beispielsweise eine anwendungsspezifische integrierte Schaltung oder einen digitalen Signalprozessor, möglicherweise in Kombination mit einer Speichereinheit zum Speichern von Programmbefehlen, etc. handeln. Auch kann unter einem Prozessor ein virtualisierter Prozessor, eine virtuelle Maschine oder eine Soft-CPU verstanden werden. Es kann sich beispielsweise auch um einen programmierbaren Prozessor handeln, der mit Konfigurationsschritten zur Ausführung des genannten erfindungsgemäßen Verfahrens ausgerüstet wird oder mit Konfigurationsschritten derart konfiguriert ist, dass der programmierbare Prozessor die erfindungsgemäßen Merkmale des Verfahrens, der Komponente, der Module, oder anderer Aspekte und/oder Teilaspekte der Erfindung realisiert.
-
Unter einer „Speichereinheit“ oder einem „Speichermodul“ und dergleichen kann im Zusammenhang mit der Erfindung beispielsweise ein flüchtiger Speicher in Form eines Arbeitsspeichers (engl. Random-Access Memory, RAM) oder ein dauerhafter Speicher wie eine Festplatte oder ein Datenträger oder beispielsweise ein wechselbares Speichermodul verstanden werden. Es kann sich bei dem Speichermodul aber auch um eine cloudbasierte Speicherlösung handeln.
-
Unter einem „Modul“ kann im Zusammenhang mit der Erfindung beispielsweise ein Prozessor und/oder eine Speichereinheit zum Speichern von Programmbefehlen verstanden werden. Beispielsweise ist der Prozessor speziell dazu eingerichtet, die Programmbefehle derart auszuführen, damit der Prozessor und/oder die Steuereinheit Funktionen ausführt, um das erfindungsgemäße Verfahren oder einen Schritt des erfindungsgemäßen Verfahrens zu implementieren oder realisieren.
-
Unter „Daten“ sind im Zusammenhang mit der Erfindung sowohl Rohdaten als auch bereits aufbereitete Daten beispielsweise aus Messergebnissen von Sensoren oder aus Simulationsergebnissen zu verstehen.
-
Das verstärkende Lernen beruht darauf, dass der LV-Agent 320 für einen bestimmten Zustand si ∈ S aus einer Menge verfügbarer Zustände zumindest eine Aktion ai ∈ A aus einer Menge verfügbarer Aktionen auswählt. Die Wahl der ausgewählten Aktion ai basiert auf einer Strategie bzw. Richtlinie (engl.: policy). Für die ausgewählte Aktion ai erhält der LV-Agent 320 eine Belohnung (engl.: reward) ri ∈ R von dem Belohnungsmodul 370. Die Zustände si ∈ S erhält der Agent 320 von dem Zustandsmodul 350, auf das der LV-Agent 320 zugreifen kann. Die Strategie wird auf der Grundlage der erhaltenen Belohnungen ri von dem LV-Agenten 320 angepasst. In der Strategie ist festgelegt, welche Aktion ai ∈ A aus der Menge verfügbarer Aktionen für einen bestimmten Zustand si ∈ S aus der Menge verfügbarer Zustände ausgewählt werden soll. Hierdurch wird ein neuer Zustand si+1 erzeugt, für den der LV-Agent 320 eine Belohnung ri+1 erhält. Eine Strategie legt somit die Zuordnung zwischen einem Zustand si und einer Aktion ai fest, so dass die Strategie die Wahl der auszuführenden Aktion ai für einen Zustand si angibt. Das Ziel des LV-Agenten 320 besteht darin, die erzielten Belohnungen ri, ri+1, ...,ri+n zu maximieren.
-
Im Aktionsmodul 330 werden die vom LV-Agenten 320 ausgewählten Aktionen ai durchgeführt. Durch eine Aktion ai wird beispielsweise eine Anpassung eines Wertes eines Parameters pi ∈ P aus der Menge von Parametern für zumindest eine Eigenschaft ei einer technischen Komponente des elektrischen Antriebsstrangs vorgenommen. Vorzugsweise handelt es sich bei der Aktion ai um eine der Aktionen A(+), A(0) und A(-), Bei einer positiven Aktion A(+) handelt es sich um eine Aktion, die den Wert für einen Parameter pi erhöht, bei einer neutralen Aktion A(0) handelt es sich um ein Aktion, bei der der Wert des Parameters pi gleichbleibt, während sich bei einer negativen Aktion A(-) der Wert des Parameters pi verringert.
-
Das Umgebungsmodul 340 berechnet aufgrund der gewählten Aktion ai und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) die Zustände si ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
-
Ein Zustand si ∈ S ist somit durch die Auswahl von bestimmten Werten für Parameter pi von Eigenschaften ei des elektrischen Antriebsstrangs 10 definiert. Bei den Eigenschaften ei kann es sich beispielsweise um ein Spannungsverhalten, einen elektrischen Widerstand oder eine Kennlinie zum Drehmoment/Drehzahl-Verhalten eines Elektromotors des elektrischen Antriebsstrangs handeln. Ein Parameterwert pi gibt die konkrete Spannung oder das konkrete Drehmoment für diese Eigenschaft ei wieder.
-
In dem Zustandsmodul 350 wird eine Abweichung Δ zwischen einem Zielzustand st und dem berechneten Zustand si berechnet. Der Endzustand ist erreicht, wenn die berechneten Zustände si gleich oder größer als die Ziel-Zustände st sind.
-
In dem Belohnungsmodul 370 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand si und dem Zielwert des Zustands st eine Belohnung ri zugeordnet. Da der Grad der Abweichung Δ von der Auswahl der jeweiligen Aktion A(+), A(0), A(-) abhängig ist, wird vorzugsweise in einer Matrix oder einer Datenbank der jeweiligen ausgewählten Aktion A(+), A(0), A(-) die Belohnung ri zugeordnet. Eine Belohnung ri weist vorzugsweise die Werte +1 und -1 auf, wobei eine geringe oder positive Abweichung Δ zwischen dem berechneten Zustand si und dem Zielzustand st mit +1 belohnt wird und somit verstärkt wird, während eine erhebliche negative Abweichung Δ mit -1 belohnt wird und somit negativ bewertet wird. Es ist aber auch denkbar, dass Werte > 1 und Werte < 1 Verwendung finden.
-
Vorzugsweise wird als Algorithmus für den LV-Agenten 320 ein Markov-Entscheidungsprozess verwendet. Es kann aber auch vorgesehen sind, einen Temporal Difference Learning (TD-Learning) Algorithmus zu verwenden. Ein LV-Agent 320 mit einem TD-Learning-Algorithmus nimmt die Anpassung der Aktionen A(+), A(0), A(-) nicht erst dann vor, wenn er die Belohnung erhält, sondern nach jeder Aktion ai auf Basis einer geschätzten erwarteten Belohnung. Des Weiteren sind auch Algorithmen wie Q-Learning und SARSA denkbar oder Actor-Critic oder auch Monte-Carlo-Simulationen. Mit diesen Algorithmen ist eine dynamische Programmierung und eine Anpassung der Strategie durch Iterationsverfahren möglich.
-
Darüber hinaus enthält/enthalten der LV-Agent 320 und/oder das Aktionsmodul 330 und/oder das Umgebungsmodul 340 und/oder das Zustandsmodul 350 und/oder das Belohnungsmodul 370 Berechnungsverfahren und Algorithmen fi für mathematische Regressionsverfahren oder physikalische Modellberechnungen, die eine Korrelation zwischen ausgewählten Parametern pi ∈ P aus einer Menge von Parametern und den Ziel-Zuständen st beschreiben. Bei den mathematischen Funktionen ft kann es sich um statistische Verfahren wie Mittelwerte, Minimal- und Maximalwerte, Lookup Tabellen, Modelle zu Erwartungswerten, lineare Regressionsverfahren oder Gauß-Prozesse handeln, um Fast Fourier Transformationen, Integral- und Differentialrechnungen, Markov-Verfahren, Wahrscheinlichkeitsverfahren wie Monte Carlo-Verfahren, Temporal Difference Learning, aber auch um erweiterte Kalman-Filter, radiale Basisfunktionen, Datenfelder, oder auch um konvergente neuronale Netze, tiefe neuronale Netze, rückgekoppelte/rekurrente neuronale Netze oder gefaltete Netze (engl. convolutional neural network) handeln. Basierend auf den Aktionen ai und den Belohnungen ri wählt/wählen der LV-Agent 320 und/oder das Aktions-Modul 330 und/oder das Umgebungsmodul 340 und/oder das Zustandsmodul 350 und/oder das Belohnungsmodul 370 für einen Zustand si eine oder mehrere dieser Berechnungsfunktionen fi aus.
-
Ein neuronales Netzwerk besteht aus Neuronen, die in mehreren Schichten angeordnet und unterschiedlich miteinander verbunden sind. Ein Neuron ist in der Lage, an seinem Eingang Informationen von außerhalb oder von einem anderen Neuron entgegenzunehmen, die Information in einer bestimmten Art zu bewerten und sie in veränderter Form am Neuronen-Ausgang an ein weiteres Neuron weiterzuleiten oder als Endergebnis auszugeben. Hidden-Neuronen sind zwischen den Input-Neuronen und Output-Neuronen angeordnet. Je nach Netzwerktyp können mehrere Schichten von Hidden-Neuronen vorhanden sein. Sie sorgen für die Weiterleitung und Verarbeitung der Informationen. Output-Neuronen liefern schließlich ein Ergebnis und geben dieses an die Außenwelt aus. Durch die Anordnung und die Verknüpfung der Neuronen entstehen verschiedene Typen von neuronalen Netzwerken wie Feedforward-Netzwerke, Rekurrente Netzwerke oder gefaltete neuronale Netze (engl. Convolutional Neural Networks). Ein gefaltetes neuronales Netzwerk (engl. Convolutional Neural Network) besitzt mehrere Faltungsschichten und ist für maschinelles Lernen und Anwendungen mit Künstlicher Intelligenz (KI) im Bereich der Mustererkennung sehr gut geeignet. Die Netzwerke lassen sich durch unbeaufsichtigtes oder überwachtes Lernen trainieren.
-
Während in einem klassischen Umgebungsmodul 340 ein Modell eines elektrischen Antriebsstrangs 10 vorgegeben ist, welches die Zielzustände st1, st2, .... , stn enthält, entwickelt der Lernverstärkungs-Agent 320 gemäß der vorliegenden Erfindung das Modell des elektrischen Antriebsstrangs 10 selbstständig und autonom. Dabei wird das Modell des elektrischen Antriebsstrangs 10 durch eine Vielzahl von Aktionen ai ∈ A von dem Lernverstärkungs-Agenten 320 gelernt und bildet dann die Basis für die Kalibrierung eines realen elektrischen Antriebsstrangs 10 durch das Lernverstärkungsmodul 300.
-
Der erfindungsgemäße Gedanke besteht somit darin, einen realen elektrischen Antriebsstrang 10 mit Hilfe eines modellbasierten verstärkenden Lernens zu kalibrieren, bei dem das Modell des elektrischen Antriebsstrangs 10 nicht vorliegen muss, sondern von dem LV-Agenten 320 selbst modelliert wird. Dabei simuliert das vom LV-Agenten 320 erstellte Modell des elektrischen Antriebsstrangs 10 nicht im Detail die Physik oder Dynamik des elektrischen Antriebsstrangs 10, sondern das Modell wird mittels einer Vielzahl von Interaktionen zwischen Aktionen, Zuständen und Belohnungen, die vom LV-Agenten 320 ausgeführt werden, entwickelt. Die Fragestellung des LV-Agenten 320 lautet daher immer, welche Zustände es gibt und was passiert, wenn er für einen bestimmten Zustand eine Aktion ausführt, und wie die Belohnung aussieht, wenn er für diesen bestimmten Zustand eine Aktion ausführt.
-
Um ein Modell eines elektrischen Antriebsstrangs 10 zu erstellen, ist erfindungsgemäß vorgesehen, dass das Umgebungsmodul 340 zumindest drei Untermodule aufweist. Das erste Untermodul ist als Zustandsuntermodul 342, das zweite Untermodul als Belohnungsuntermodul 343 und das dritte Untermodul ist als Strategieuntermodul 344 ausgebildet.
-
Das Zustandsuntermodul 342 repräsentiert Zustände su1, su2 ..., sun, die der LV-Agent 320 auswählen kann, wobei der ausgewählte Zustand suj dann der Zustand ist, in dem sich der LV-Agent 320 aktuell befindet. Ein Zustand suj wird simuliert und beruht auf simulierten Beobachtungen b1, b2, .... bn, die dem Zustandsuntermodul 342 in Form von Eingangsdaten 220 von dem Eingabemodul 200 zugeführt werden. Der LV-Agent 320 lernt die Zustände su1, su2 ..., sun des Zustandsuntermoduls 342 durch das Sammeln der Beobachtungen b1, b2, .... bn. Für die gesammelten Beobachtungen b1, b2, .... bn entwirft er ein Modell, das die Zustände su1, su2 ..., sun, in denen er sich befindet kann, definiert und das eine Funktion der gesammelten Beobachtungen b1, b2, .... bn darstellt. Für die Entwicklung des Modells verwendet er insbesondere neuronale Netze. Bei den Beobachtungen b1,b2, .... bn kann es sich beispielsweise um die Stromstärke, die Spannung, das Drehmoment und die Drehzahl eines Elektromotors oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs 10 handeln. Mögliche Zustände su1, su2 ..., sun des Zustandsuntermoduls 342 leiten sich somit aus diesen simulierten Beobachtungen b1, b2, .... bn, wie einem Drehmoment oder einer Drehzahl eines Elektromotors, ab.
-
Das Belohnungsuntermodul 343 ordnet den ermittelten Zuständen su1, su2 ..., sun Belohnungen ru1,ru2, ...., run zu.
-
Das Strategieuntermodul 344 entwickelt eine Strategie zur Ermittlung von neuen Zuständen su1+1, su2+1 ..., sun+1, indem es vorschlägt, welche Aktionen aj von den a1, a2, ..., an Aktionen aus dem Aktionsuntermodul 330 auf die alten Zustände su1, su2 ..., sun angewendet werden sollen. Durch die Anwendung der mittels der Strategie ausgewählten Aktionen a1, a2, ..., an werden neue Zustände su1+1, su2+1 ..., sun+1generiert, die dann wieder dem Zustandsuntermodul 342 zugeführt werden. In dem Belohnungsuntermodul 343 werden den neu ermittelten Zuständen su1+1, su2+1 ..., sun+1wiederum Belohnungen ru1+1,ru2+1, ...., run+1 zugeordnet.
-
Das Umgebungsmodul 340 führt die Berechnungen so lange durch, bis sich ein stabiles Zustandsniveau eingependelt hat. Dieses Zustandsniveau kann einen Zielzustand sutj oder eine Vielzahl von Zielzuständen sut1,sut2 ..., sutn für den LV-Agenten 320 umfassen. Das Ergebnis des Umgebungsmodul 340 besteht somit in den berechneten Zielzuständen sut1,sut2 ..., sutn, die ein Trainingsmodell TM des elektrischen Antriebsstrangs 10 darstellen.
-
Für die Trainingsphase werden an das Zustandsuntermodul 342 von dem Eingabemodul 200 somit beliebige oder ausgewählte simulierte Beobachtungen b1, b2, .... bn als Eingangsdaten 220 übermittelt. Aus diesen Eingangsdaten 220 entwickelt der LV-Agent 320 autonom ein erstes Trainingsmodell TM des elektrischen Antriebsstrangs 10. Dieses Modell wird durch die Zielzustände sut1,sut2 ..., sutn und die angewandte Strategie beschrieben.
-
An die Trainingsphase schließt sich die Modellierungsphase an, in der das Trainingsmodell TM in ein Modell M eines realen elektrischen Antriebsstrangs 10 transformiert wird. Bei dem realen elektrischen Antriebsstrang 10 handelt es sich um eine idealtypische Ausprägung, bei der eine gewünschte Dynamik beispielsweise hinsichtlich des Verhältnisses von Drehmoment und Drehzahl gegeben ist. In der Modellierungsphase werden dem Zustandsuntermodul 342 von dem Eingabemodul 200 reale Beobachtungen br1, br2, .... brn als Daten 230 zugeführt, aus denen die realen Zustände sur1, sur2, ..., surn generiert werden. Die realen Beobachtungen br1, br2, .... brn können gemessene Parameterwerte pi von einer Eigenschaft ei darstellen, die von hier nicht näher beschriebenen Sensoren ermittelt worden sind. Vorzugsweise sind die Parameterwerte in einer Datenbank 250 gespeichert, die mit dem Eingabemodul 200 in Verbindung steht.
-
In dem Belohnungsmodul 343 wird nun eine Abweichung Δ zwischen den realen Zuständen sur1, sur2, ..., surn und den während der Trainingsphase generierten Zielzuständen sut1, sut2, ..., sutn berechnet. Zudem wird in dem Belohnungsmodul 343 wird dem Grad der Abweichung Δ zwischen dem realen Zustand suri und dem Zielwert des Zielzustands suti eine Belohnung ri+1 zugeordnet.
-
Das Strategieuntermodul 344 entwickelt aufgrund der neuen Belohnungen r1+1, r2+1, ..., rn+1 eine geänderte Strategie zur Ermittlung von neuen Zuständen su1+1,su2+1 ..., sun+1, indem es vorschlägt, welche Aktionen aj von den a1, a2, ..., an aus dem Aktionsuntermodul 330 auf die alten Zielzustände sut1, sut2 ..., sutn angewendet werden sollen. Der Endzustand ist erreicht, wenn die generierten Zustände sut1+1, sut2+1, ..., sutn+1 gleich oder größer als die realen Zustände sur1, sur2, ...,surn sind, da dann das Trainingsmodell TM in ein Modell M transformiert wurde, das einen realen idealtypischen elektrischen Antriebsstrang wiedergibt.
-
Dieses Modell M eines realen elektrischen Antriebsstrang 10 stellt nun die Zielzustände smt1, smt2, ...., smtn zur Verfügung, mit denen eine Kalibrierung eines individuellen realen elektrischen Antriebsstrangs 10 durch den LV-Agenten 320 durchgeführt werden kann.
-
Hierzu werden dem Zustandsmodul 350 Werte von Parametern pi von Eigenschaften ei eines individuellen elektrischen Antriebsstrangs 10 von dem Eingabemodul 200 in Form von realen Daten 240 zugeführt. Die Parameterwerte pi können durch hier nicht näher beschriebene Sensoren gemessen werden. Bei den Sensoren handelt es sich insbesondere um Drucksensoren, Drehmomentsensoren, Drehzahlsensoren, Beschleunigungssensoren, Geschwindigkeitssensoren, kapazitive Sensoren, induktive Sensoren und Temperatursensoren.
-
Ein Zustand si ∈ S eines individuellen elektrischen Antriebsstrangs 10 ist somit durch die Auswahl von Werten von Parametern pi von Eigenschaften ei definiert. Bei den Eigenschaften ei kann es sich beispielsweise um ein Spannungsverhalten, einen elektrischen Widerstand oder eine Kennlinie zum Drehmoment/Drehzahl-Verhalten eines Elektromotors des elektrischen Antriebsstrangs handeln. Ein Parameterwert pi gibt die konkrete Spannung oder das konkrete Drehmoment für diese Eigenschaft ei wieder.
-
Der LV-Agent wählt für diese Zustände s1, s2, ..., sn wie im Obigen beschrieben Aktionen (A+), (A0) und (A-) aus, um eine Anpassung an die Zielzustände smt1, smt2, ....,smtn des generierten Modells M vorzunehmen. Das UmgebungsModul 340 berechnet aufgrund der gewählten Aktion ai und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) neue Zustände si+1 ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
-
In dem Zustandsmodul 350 wird eine Abweichung Δ zwischen einem Zielzustand st und dem berechneten Zustand si+1 berechnet. In dem Belohnungsmodul 370 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand si+1 und dem Zielwert des Zustands smt eine Belohnung ri zugeordnet.
-
Dann beginnt ein zweiter Zyklus, bei dem der LV-Agent 320 eine andere Aktion ai+1 und/oder eine andere Berechnungsfunktion fi+1 und/oder einen anderen Parameter pi+1 ausgewählt entsprechend der definierten Strategie bzw. Richtlinie. Das Ergebnis wird wiederum dem Zustandsmodul 350 zugeführt und das Ergebnis des Vergleichs im Belohnungsmodul 370 bewertet. Der LV-Agent 320 wiederholt den Kalibrierungsvorgang für alle vorgesehenen Aktionen ai,ai+1, ..., ai+n, Berechnungsfunktionen fi, fi+1,..., fi+n und Parameter pi, pi+1 ..., pi+n solange, bis eine größtmögliche Übereinstimmung zwischen einem berechneten Zustand si+1, si+2, ..., si+n und einem Ziel-Zustand smti erreicht ist. Vorzugsweise ist der Endzustand der Kalibrierung erreicht, wenn die Abweichung Δ im Bereich von +/-5% liegt. Der LV-Agent 320 optimiert somit sein Verhalten und damit die Strategie, nach der eine Aktion ai ausgewählt wird, solange, bis die berechneten Zustände si+1, si+2, ..., si+n konvergieren. Der Endzustand ist erreicht, wenn die berechneten Zustände si+1, si+2, ..., si+n gleich oder größer als die Ziel-Zustände sm1, sm2, ..., smn sind. Das Kalibrierungsergebnis kann in Form von Ausgabedaten 450 auf dem Ausgabemodul 400 ausgegeben werden. Das Eingabemodul 200 und das Ausgabemodul 400 können in einem Hardwaregerät wie einem Computer, einem Tablet, einem Smartphone, etc. integriert sein.
-
Insbesondere kann vorgesehen sein, dass die Berechnungsergebnisse in Form von Zuständen, Aktionen, Belohnungen und Strategien in einer Cloud-Computing-Infrastruktur gespeichert werden und jeweils über das Internet verfügbar sind. Der LV-Agent 320, das Aktionsmodul330, das Umgebungsmodul 340, das Zustandsmodul 350 und das Belohnungsmodul 370 verfügen hierzu über die erforderlichen technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Infrastruktur. Hierdurch kann die Recheneffizienz gesteigert werden, da die Zugriffsmöglichkeiten und die Zugriffsgeschwindigkeiten zu bereits berechneten Zuständen, Aktionen, Belohnungen und Strategien vereinfacht ist.
-
In 2 sind die Verfahrensschritte zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs 10 dargestellt.
-
In einem Schritt S10 wird ein Trainingsmodells TM für einen elektrischen Antriebsstrangs 10 von einem Lernverstärkungs-Agenten 320 mittels simulierter Beobachtungen b1, b2, ..., bn erstellt, wobei der Lernverstärkungs-Agent 320 einen Algorithmus des verstärkenden Lernens verwendet.
-
In einem Schritt S20 wird das Trainingsmodell TM von dem Lernverstärkungs-Agenten 320 modifiziert mittels realer Beobachtungen br1, br2, ..., brn eines realen idealtypischen Antriebsstrangs 10 zur Erstellung eines simulierten Modells M für den realen idealtypischen elektrischen Antriebsstrang 10, wobei das simulierte Modell M Zielzustände sm1, sm2, ..., smn enthält.
-
In einem Schritt S30 wird zumindest ein Zustand si eines individuellen realen elektrischen Antriebsstrangs 10 durch ein Zustandsmodul 350 bestimmt, wobei ein Zustand si durch Parameter pi wie Daten und/oder Messwerte von zumindest einer Eigenschaft ei des elektrischen Antriebsstrangs 10 definiert wird.
-
In einem Schritt S40 wird der Zustand si an den Lernverstärkungs-Agenten 320 übermittelt.
-
In einem Schritt S50 werden Kalibrierungsergebnisse 450 für den individuellen realen elektrischen Antriebsstrang 10 von dem Lernverstärkungs-Agenten 320 durch Vergleichen des Zustands si mit zumindest einem Zielzustand smti des simulierten Modells M ermittelt.
-
3 stellt schematisch ein Computerprogrammprodukt 900 dar, das einen ausführbaren Programmcode 950 umfasst, der konfiguriert ist, um das Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung auszuführen, wenn es ausgeführt wird.
-
Mit dem Verfahren und dem System 100 gemäß der vorliegenden Erfindung kann somit zuverlässig ein elektrischer Antriebsstrang 10 mittels Methoden des verstärkenden Lernens kalibriert werden, ohne dass ein detailliertes Modell eines realen elektrischen Antriebsstrangs 10 in dem Umgebungsmodul 340 des Lernverstärkungsmoduls 300 vorliegen muss. Die Modellierung eines realen elektrischen Antriebsstrangs wird vielmehr von dem LV-Agenten 320 selbstständig und autonom durchgeführt. Dadurch werden die Zielzustände, die bei einer Kalibrierung erreicht werden sollen, durch das von dem LV-Agenten erstellte Modell vorgegeben. Die Zielzustände sind genauer und ermöglichen daher eine verbesserte Kalibrierung. Mit der vorliegenden Erfindung kann somit in kurzer Zeit und mit verringerten Kosten eine zuverlässige Kalibrierung von elektrischen Antriebsträngen durchgeführt werden.
-
Bezugszeichenliste
-
- 10
- elektrischer Antriebsstrang
- 100
- System
- 200
- Eingabemodul
- 220
- simulierte Daten
- 230
- reale Daten
- 240
- reale Daten
- 250
- Datenbank
- 300
- Lernverstärkungsmodul
- 320
- Lernverstärkungs-Agent
- 330
- Aktionsmodul
- 340
- Umgebungsmodul
- 342
- Zustandsuntermodul
- 343
- Belohnungsuntermodul
- 344
- Strategieuntermodul
- 350
- Zustandsmodul
- 370
- Belohnungsmodul
- 400
- Ausgabemodul
- 450
- Kalibrierungsergebnisse
- 900
- Computerprogrammprodukt
- 950
- Programmcode
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- CN 112632860 A [0005]
- US 20190378036 A1 [0006]
- DE 102019215530 A1 [0007]
- DE 102019208262 A1 [0008]
- EP 3825263 A1 [0009]