DE102022104313A1 - Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs - Google Patents

Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs Download PDF

Info

Publication number
DE102022104313A1
DE102022104313A1 DE102022104313.4A DE102022104313A DE102022104313A1 DE 102022104313 A1 DE102022104313 A1 DE 102022104313A1 DE 102022104313 A DE102022104313 A DE 102022104313A DE 102022104313 A1 DE102022104313 A1 DE 102022104313A1
Authority
DE
Germany
Prior art keywords
state
module
learning
real
simulated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022104313.4A
Other languages
English (en)
Inventor
Matteo Skull
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dr Ing HCF Porsche AG
Original Assignee
Dr Ing HCF Porsche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dr Ing HCF Porsche AG filed Critical Dr Ing HCF Porsche AG
Priority to DE102022104313.4A priority Critical patent/DE102022104313A1/de
Publication of DE102022104313A1 publication Critical patent/DE102022104313A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L15/00Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles
    • B60L15/20Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles for control of the vehicle or its driving motor to achieve a desired performance, e.g. speed, torque, programmed variation of speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2260/00Operating Modes
    • B60L2260/40Control modes
    • B60L2260/44Control modes by parameter estimation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2260/00Operating Modes
    • B60L2260/40Control modes
    • B60L2260/46Control modes by self learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2260/00Operating Modes
    • B60L2260/40Control modes
    • B60L2260/50Control modes by future state prediction

Abstract

Die Erfindung betrifft Verfahren zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs (10), umfassend:- Erstellen (S10) eines Trainingsmodells (TM) für einen elektrischen Antriebsstrang (10) von einem Lernverstärkungs-Agenten (320) mittels simulierter Beobachtungen (b1, b2, ..., bn), wobei der Lernverstärkungs-Agent (320) einen Algorithmus des verstärkenden Lernens verwendet;- Modifizieren (S20) des Trainingsmodells (TM) von dem Lernverstärkungs-Agenten (320) mittels realer Beobachtungen (br1, br2, ..., brn) eines realen idealtypischen Antriebsstrangs (10) zur Erstellung eines simulierten Modells (M), wobei das simulierte Modell (M) Zielzustände (sm1, sm2, ..., smn) enthält;- Bestimmen (S30) zumindest eines Zustands (si) eines individuellen realen elektrischen Antriebsstrangs (10) durch ein Zustandsmodul (350), wobei ein Zustand (si) durch Parameter (pi) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (ei) des elektrischen Antriebsstrangs (10) definiert wird,- Übermitteln (S40) des Zustands (si) an den Lernverstärkungs-Agenten (320);- Ermitteln (S50) von Kalibrierungsergebnissen (450) für den individuellen realen elektrischen Antriebsstrang (10) von dem Lernverstärkungs-Agenten (320) durch Vergleichen des Zustands (si) mit zumindest einem Zielzustand (smti) des simulierten Modells (M).

Description

  • Die Erfindung betrifft ein Verfahren, ein System und ein Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs.
  • Die Kalibrierung von Steuervorrichtungen für elektrische Antriebsstränge mit Methoden der künstlichen Intelligenz, insbesondere mit Verfahren des verstärkenden Lernens (engl. reinforcement learning), ist bekannt. Ein elektrischer Antriebsstrang verfügt über einen oder mehrere Elektromotoren, die von einer elektrischen Energieversorgung wie insbesondere einer Batterie oder auch einer Brennstoffzelle mit Energie versorgt werden. Mittels einer Leistungselektronik wie einem Wechselrichter wird die Ausgangsspannung der elektrischen Energieversorgung in Wechselspannung umgewandelt, um den Elektromotor mit der erforderlichen Strom -und Spannungsstärke entsprechend der jeweiligen Antriebssituation zu versorgen. Elektrische Antriebe werden für eine Vielzahl von Funktionen und Aufgaben eingesetzt als Fahrantriebe bei Kraftfahrzeugen, Flurförderfahrzeugen, Bahnen, oder in der Industrie bei Montagemaschinen, oder als Hubantriebe, oder im Bereich der Robotik sowie für eine Vielzahl von Geräten im Haushalt. Ein elektrischer Antrieb hat gegenüber anderen Antriebsarten wie hydraulisch oder pneumatisch den Vorteil einer effizienten Steuerbarkeit des elektrischen Motors als elektromechanischen Energiewandler hinsichtlich des Drehmoments und der Drehzahl durch eine steuerbare Leistungselektronik. Durch Steuerung der Leistungselektronik wird die Leistung des Motors an die jeweilige Aufgabenstellung angepasst, beispielsweise für eine gewünschte Beschleunigung beim Fahren eines Kraftfahrzeugs. Die Steuerung der Leistungselektronik hängt wiederum von der Konfiguration des Motors und anderen Parametern, wie beispielsweise dem Gewicht eines Kraftfahrzeugs ab.
  • Allerdings wird bei den bekannten Reinforcement-Learning-Verfahren zur Kalibrierung eines elektrischen Antriebsstrangs ein Modell eines real existierenden elektrischen Antriebsstrangs einem Lernverstärkungs-Agenten vorgegeben, das von dem Lernverstärkungs-Agenten nicht verändert wird. Das Modell kann beispielsweise mittels physikalisch-mathematischer Gleichungen beschrieben werden oder auf einer datengesteuerten Grundlage beispielsweise mittels neuronaler Netze erstellt werden. Ein weiterer Ansatz ist die Erstellung eines Modells auf der Basis von Markov-Entscheidungsprozessen. Unabhängig von der Art des zugrundeliegenden Modells für einen elektrischen Antriebsstrang, wird das Modell dem Lernverstärkungs-Agenten jeweils vorgegeben. Dies bedeutet, dass der Lernverstärkungs-Agent das vorgegebene Modell verwendet, um seine Aktionen zu planen. Der Lernverstärkungs-Agent agiert somit nicht gänzlich unabhängig, da die Auswahl seiner Aktionen von dem verwendeten Modell abhängt.
  • Das Modell wird üblicherweise von Experten wie Ingenieuren erstellt und bildet eine Umgebung ab, auf die der Lernverstärkungs-Agent zurückgreift. Die Erstellung des Modells, das im Fall eines Antriebsstrangs dessen dynamisches Verhalten beispielsweise hinsichtlich der verwendeten Spannung und der Stromstärke in Abhängigkeit von einer Verkehrssituation widerspiegelt, ist jedoch aufwendig und auch schwierig, so dass das Modell teilweise nicht das tatsächliche Verhalten eines elektrischen Antriebsstrangs abbildet und daher ungenau ist. Zudem ist die Erstellung eines Modells für eine Umgebung innerhalb eines Lernverstärkungsverfahrens mit einem erheblichen Zeit- und damit Kostenaufwand verbunden. Dies führt jedoch dazu, dass auch die Lernergebnisse des Lernverstärkungs-Agenten von dem zugrundliegenden Modell abhängig sind und daher nur eine eingeschränkte Gültigkeit haben.
  • Die CN 112632860 A offenbart ein Verfahren zur Identifizierung von Modellparametern eines Energieübertragungssystems, das auf verstärktem Lernen basiert. Das Verstärkungslernverfahren für die Identifikation von Modellparametern des Energieübertragungssystems vermeidet lokale Optimierungen und weist eine hohe Konvergenzrate auf, da es auf einem stufenweisen Identifizierungsprozess beruht.
  • Die US 2019/0378036 A1 offenbart ein Steuerungsverfahren für Kraftfahrzeuge, welches auf Verfahren des verstärkenden Lernens basiert. Eine Steuereinheit für verstärkendes Lernen wird sowohl auf der Grundlage einer simulierten Bodenfahrzeugumgebung während eines Simulationsmodus und auf der Grundlage einer Kraftfahrzeugumgebung während eines Betriebsmodus eines Kraftfahrzeugs trainiert.
  • Die DE 10 2019 215 530 A1 offenbart eine Betriebsstrategie für ein Hybridfahrzeug mit einem Elektromotor und einem Verbrennungsmotor, die auf Verfahren des verstärkenden Lernens basiert.
  • Die DE 10 2019 208 262 A1 offenbart ein Verfahren zum Ermitteln einer Regelungsstrategie für ein technisches System. Die Regelungsstrategie wird basierend auf Modellparameter eines Regelungsmodels erstellt und ausgeführt, wobei zum Auffinden der Regelungsstrategie Reinforcement Learning eingesetzt wird.
  • Die EP 3 825 263 A1 offenbart ein Verfahren zur computer-implementierten Konfiguration einer geregelten Antriebskonfiguration eines Logistiksystems, wobei eine Regelfunktion mittels Reinforcement Learning bestimmt wird.
  • Die der Erfindung zu Grunde liegende Aufgabe besteht nun darin, ein Verfahren, ein System und ein Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs zu schaffen, das sich durch eine hohe Zuverlässigkeit, Sicherheit und Genauigkeit auszeichnet und sich einfach implementieren lässt.
  • Gemäß der vorliegenden Erfindung werden ein Verfahren, ein System und ein Computerprogrammprodukt vorgeschlagen, durch das eine autonome Kalibrierung eines elektrischen Antriebsstrangs ermöglicht wird, um hierdurch die Grundlage für eine zuverlässige und genaue Steuerung des elektrischen Antriebsstrangs zu schaffen.
  • Diese Aufgabe wird hinsichtlich eines Verfahrens durch die Merkmale des Patentanspruchs 1, hinsichtlich eines Systems durch die Merkmale des Patentanspruchs 10, und hinsichtlich eines Computerprogrammprodukts durch die Merkmale des Patentanspruchs 15 erfindungsgemäß gelöst. Die weiteren Ansprüche betreffen bevorzugte Ausgestaltungen der Erfindung.
  • Gemäß einem ersten Aspekt stellt die Erfindung ein Verfahren zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs bereit. Das Verfahren umfasst die folgenden Verfahrensschritte:
    • - Erstellen eines Trainingsmodells für einen elektrischen Antriebsstrang von einem Lernverstärkungs-Agenten mittels simulierter Beobachtungen, wobei der Lernverstärkungs-Agent einen Algorithmus des verstärkenden Lernens verwendet;
    • - Modifizieren des Trainingsmodells von dem Lernverstärkungs-Agenten mittels realer Beobachtungen eines realen idealtypischen Antriebsstrangs zur Erstellung eines simulierten Modells für den realen idealtypischen elektrischen Antriebsstrang, wobei das simulierte Modell Zielzustände enthält;
    • - Bestimmen zumindest eines Zustands eines individuellen realen elektrischen Antriebsstrangs durch ein Zustandsmodul, wobei ein Zustand durch Parameter wie Daten und/oder Messwerte von zumindest einer Eigenschaft des elektrischen Antriebsstrangs definiert wird,
    • - Übermitteln des Zustands an den Lernverstärkungs-Agenten;
    • - Ermitteln von Kalibrierungsergebnissen für den individuellen realen elektrischen Antriebsstrang von dem Lernverstärkungs-Agenten durch Vergleichen des Zustands mit zumindest einem Zielzustand des simulierten Modells.
  • In einer vorteilhaften Ausführungsform ist vorgesehen, dass für das Erstellen eines Trainingsmodells für einen elektrischen Antriebsstrang von einem Lernverstärkungs-Agenten mittels simulierter Beobachtungen ein Umgebungsmodul vorgesehen ist, welches zumindest ein Zustandsuntermodul, ein Belohnungsuntermodul und ein Strategieuntermodul umfasst.
  • In einer Weiterbildung ist vorgesehen, dass von dem Zustandsuntermodul Zustände generiert werden, die auf den simulierten Beobachtungen beruhen, wobei die simulierten Beobachtungen insbesondere die Stromstärke, die Spannung, das Drehmoment und/oder die Drehzahl eines Elektromotors oder/oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs umfassen.
  • Insbesondere ist vorgesehen, dass die realen Beobachtungen gemessene Werte von Parametern von einer Eigenschaft des realen idealtypischen Antriebsstrangs darstellen, die von Sensoren ermittelt werden oder in einer Datenbank gespeichert sind.
  • In einer weiteren Ausführungsform umfasst das Ermitteln von Kalibrierungsergebnissen die folgenden Verfahrensschritte:
    • - Auswählen einer Berechnungsfunktion und/oder einer Aktion basierend auf einer Richtlinie für einen Zustand für die Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten;
    • - Berechnen eines modellierten Wertes für die Eigenschaft mittels des modifizierten Parameters;
    • - Berechnen eines neuen Zustands von einem Umgebungsmodul aufgrund des modellierten Wertes für die Eigenschaft;
    • - Vergleichen des neuen Zustands mit dem Zielzustand und Zuordnen einer Abweichung für das Vergleichsergebnis in dem Zustandsmodul;
    • - Ermitteln einer Belohnung von einem Belohnungsmodul für das Vergleichsergebnis;
    • - Anpassen der Richtlinie des Lernverstärkung-Agenten basierend auf der Belohnung, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion und/oder eine weitere Aktion für einen Zustand mit einer Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand erreicht ist.
  • Insbesondere sind Sensoren und/oder Messvorrichtungen zur Bestimmung der Parameter von den Eigenschaften des individuellen elektrischen Antriebsstrangs vorgesehen.
  • Vorteilhafterweise sind eine positive Aktion A+, die den Wert für einen Parameter erhöht, eine neutrale Aktion A0, bei der der Wert des Parameters gleichbleibt, und eine negative Aktion A-, bei der sich der Wert des Parameters verringert, vorgesehen sind.
  • In einer Ausführungsform ist vorgesehen, dass das Belohnungsmodul eine Datenbank oder Matrix für die Bewertung der Aktionen umfasst.
  • Insbesondere ist der zumindest eine Algorithmus des Lernverstärkungs-Agenten als Markow-Entscheidungsprozess, Temporal Difference Learning (TD-Learning), Q-Learning, SARSA, Monte-Carlo-Simulation oder Actor-Critic ausgebildet.
  • Gemäß einem zweiten Aspekt stellt die Erfindung ein System zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs bereit. Das System um fasst ein Eingabemodul, ein Lernverstärkungsmodul und ein Ausgabemodul. Das Lernverstärkungsmodul umfasst einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet, ein Aktionsmodul, ein Umgebungsmodul, ein Zustandsmodul und ein Belohnungsmodul. Der Lernverstärkungs-Agent ist ausbildet, ein Trainingsmodell für einen elektrischen Antriebsstrang mittels simulierter Beobachtungen zu erstellen, und das Trainingsmodell mittels realer Beobachtungen eines realen idealtypischen Antriebsstrangs zu modifizieren zur Erstellung eines simulierten Modells für den realen idealtypischen elektrischen Antriebsstrang, wobei das simulierte Modell Zielzustände enthält. Das Zustandsmodul ist ausgebildet, zumindest einen Zustand eines individuellen realen elektrischen Antriebsstrangs zu bestimmen, wobei ein Zustand durch Parameter wie Daten und/oder Messwerte von zumindest einer Eigenschaft des elektrischen Antriebsstrangs definiert wird, und den Zustand an den Lernverstärkungs-Agenten zu übermitteln. Der Lernverstärkungs-Agent ist ausgebildet, Kalibrierungsergebnisse für den individuellen realen elektrischen Antriebsstrang durch Vergleichen des Zustands mit zumindest einem Zielzustand des simulierten Modells zu ermitteln.
  • In einer Weiterentwicklung ist vorgesehen, dass das Umgebungsmodul zumindest ein Zustandsuntermodul, ein Belohnungsuntermodul und ein Strategieuntermodul umfasst.
  • In einer weiteren Ausführungsform ist vorgesehen, dass das Zustandsuntermodul ausgebildet ist, Zustände zu generieren, die auf den simulierten Beobachtungen beruhen, wobei die simulierten Beobachtungen insbesondere die Stromstärke, die Spannung, das Drehmoment und/oder die Drehzahl eines Elektromotors und/oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs umfassen.
  • Insbesondere ist vorgesehen, dass die realen Beobachtungen gemessene Werte von Parametern von einer Eigenschaft darstellen, die von Sensoren ermittelt werden oder die in einer Datenbank gespeichert sind.
  • Vorteilhafterweise sind Sensoren und/oder Messvorrichtungen zur Bestimmung der Parameter von den Eigenschaften des individuellen elektrischen Antriebsstrangs vorgesehen sind.
  • Gemäß einem dritten Aspekt stellt die Erfindung ein Computerprogrammprodukt bereit, das einen ausführbaren Programmcode umfasst, der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren gemäß dem ersten Aspekt ausführt.
  • Nachfolgend wird die Erfindung anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert.
  • Dabei zeigt:
    • 1 ein Blockdiagramm zur Erläuterung eines Ausführungsbeispiels eines erfindungsgemäßen Systems;
    • 2 ein Flussdiagramm zur Erläuterung der einzelnen Verfahrensschritte eines erfindungsgemäßen Verfahrens;
    • 3 ein Blockdiagramm eines Computerprogrammprodukt gemäß einer Ausführungsform des dritten Aspekts der Erfindung.
  • Zusätzliche Kennzeichen, Aspekte und Vorteile der Erfindung oder ihrer Ausführungsbeispiele werden durch die ausführliche Beschreibung in Verbindung mit den Ansprüchen ersichtlich.
  • 1 zeigt ein erfindungsgemäßes System 100 zum autonomen Kalibrieren eines elektrischen Antriebsstrangs 10. Ein elektrischer Antriebsstrang 10 verfügt über einen oder mehrere Elektromotoren, die von einer elektrischen Energieversorgung wie insbesondere einer Batterie oder auch einer Brennstoffzelle mit Energie versorgt werden. Mittels einer Leistungselektronik wie einem Wechselrichter wird die Ausgangsspannung der elektrischen Energieversorgung in Wechselspannung umgewandelt, um den Elektromotor mit der erforderlichen Strom -und Spannungsstärke entsprechend der jeweiligen Antriebssituation zu versorgen. Elektrische Antriebe werden für eine Vielzahl von Funktionen und Aufgaben eingesetzt als Fahrantriebe bei Kraftfahrzeugen, Flurförderfahrzeugen, Bahnen, oder in der Industrie bei Montagemaschinen, oder als Hubantriebe, oder im Bereich der Robotik sowie für eine Vielzahl von Geräten im Haushalt. Ein elektrischer Antrieb hat gegenüber anderen Antriebsarten wie hydraulisch oder pneumatisch den Vorteil einer effizienten Steuerbarkeit des elektrischen Motors als elektromechanischen Energiewandler hinsichtlich des Drehmoments und der Drehzahl durch eine steuerbare Leistungselektronik. Durch Steuerung der Leistungselektronik an die jeweilige Aufgabenstellung wird die Leistung des Motors angepasst, beispielsweise für eine gewünschte Beschleunigung beim Fahren eines Kraftfahrzeugs. Die Steuerung der Leistungselektronik hängt wiederum von der Konfiguration des Motors und anderen Parametern, wie beispielsweise dem Gewicht eines Kraftfahrzeugs ab.
  • Das erfindungsgemäße System 100 beruht auf Methoden des verstärkenden Lernens (engl. reinforcement learning) und umfasst ein Eingabemodul 200, ein Lernverstärkungsmodul 300 und ein Ausgabemodul 400. Das Lernverstärkungsmodul 300 umfasst einen Lernverstärkungs-Agenten (LV-Agenten) 320, ein Aktionsmodul 330, ein Umgebungsmodul 340, ein Zustandsmodul 350 und ein Belohnungsmodul 370.
  • Das Eingabemodul 200, das Lernverstärkungsmodul 300 und das Ausgabemodul 400 können jeweils mit einem Prozessor und/oder einer Speichereinheit versehen sein.
  • Unter einem „Prozessor“ kann im Zusammenhang mit der Erfindung beispielsweise eine Maschine oder eine elektronische Schaltung verstanden werden. Bei einem Prozessor kann es sich insbesondere um einen Hauptprozessor (engl. Central Processing Unit, CPU), einen Mikroprozessor oder einen Mikrocontroller, beispielsweise eine anwendungsspezifische integrierte Schaltung oder einen digitalen Signalprozessor, möglicherweise in Kombination mit einer Speichereinheit zum Speichern von Programmbefehlen, etc. handeln. Auch kann unter einem Prozessor ein virtualisierter Prozessor, eine virtuelle Maschine oder eine Soft-CPU verstanden werden. Es kann sich beispielsweise auch um einen programmierbaren Prozessor handeln, der mit Konfigurationsschritten zur Ausführung des genannten erfindungsgemäßen Verfahrens ausgerüstet wird oder mit Konfigurationsschritten derart konfiguriert ist, dass der programmierbare Prozessor die erfindungsgemäßen Merkmale des Verfahrens, der Komponente, der Module, oder anderer Aspekte und/oder Teilaspekte der Erfindung realisiert.
  • Unter einer „Speichereinheit“ oder einem „Speichermodul“ und dergleichen kann im Zusammenhang mit der Erfindung beispielsweise ein flüchtiger Speicher in Form eines Arbeitsspeichers (engl. Random-Access Memory, RAM) oder ein dauerhafter Speicher wie eine Festplatte oder ein Datenträger oder beispielsweise ein wechselbares Speichermodul verstanden werden. Es kann sich bei dem Speichermodul aber auch um eine cloudbasierte Speicherlösung handeln.
  • Unter einem „Modul“ kann im Zusammenhang mit der Erfindung beispielsweise ein Prozessor und/oder eine Speichereinheit zum Speichern von Programmbefehlen verstanden werden. Beispielsweise ist der Prozessor speziell dazu eingerichtet, die Programmbefehle derart auszuführen, damit der Prozessor und/oder die Steuereinheit Funktionen ausführt, um das erfindungsgemäße Verfahren oder einen Schritt des erfindungsgemäßen Verfahrens zu implementieren oder realisieren.
  • Unter „Daten“ sind im Zusammenhang mit der Erfindung sowohl Rohdaten als auch bereits aufbereitete Daten beispielsweise aus Messergebnissen von Sensoren oder aus Simulationsergebnissen zu verstehen.
  • Das verstärkende Lernen beruht darauf, dass der LV-Agent 320 für einen bestimmten Zustand si ∈ S aus einer Menge verfügbarer Zustände zumindest eine Aktion ai ∈ A aus einer Menge verfügbarer Aktionen auswählt. Die Wahl der ausgewählten Aktion ai basiert auf einer Strategie bzw. Richtlinie (engl.: policy). Für die ausgewählte Aktion ai erhält der LV-Agent 320 eine Belohnung (engl.: reward) ri ∈ R von dem Belohnungsmodul 370. Die Zustände si ∈ S erhält der Agent 320 von dem Zustandsmodul 350, auf das der LV-Agent 320 zugreifen kann. Die Strategie wird auf der Grundlage der erhaltenen Belohnungen ri von dem LV-Agenten 320 angepasst. In der Strategie ist festgelegt, welche Aktion ai ∈ A aus der Menge verfügbarer Aktionen für einen bestimmten Zustand si ∈ S aus der Menge verfügbarer Zustände ausgewählt werden soll. Hierdurch wird ein neuer Zustand si+1 erzeugt, für den der LV-Agent 320 eine Belohnung ri+1 erhält. Eine Strategie legt somit die Zuordnung zwischen einem Zustand si und einer Aktion ai fest, so dass die Strategie die Wahl der auszuführenden Aktion ai für einen Zustand si angibt. Das Ziel des LV-Agenten 320 besteht darin, die erzielten Belohnungen ri, ri+1, ...,ri+n zu maximieren.
  • Im Aktionsmodul 330 werden die vom LV-Agenten 320 ausgewählten Aktionen ai durchgeführt. Durch eine Aktion ai wird beispielsweise eine Anpassung eines Wertes eines Parameters pi ∈ P aus der Menge von Parametern für zumindest eine Eigenschaft ei einer technischen Komponente des elektrischen Antriebsstrangs vorgenommen. Vorzugsweise handelt es sich bei der Aktion ai um eine der Aktionen A(+), A(0) und A(-), Bei einer positiven Aktion A(+) handelt es sich um eine Aktion, die den Wert für einen Parameter pi erhöht, bei einer neutralen Aktion A(0) handelt es sich um ein Aktion, bei der der Wert des Parameters pi gleichbleibt, während sich bei einer negativen Aktion A(-) der Wert des Parameters pi verringert.
  • Das Umgebungsmodul 340 berechnet aufgrund der gewählten Aktion ai und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) die Zustände si ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
  • Ein Zustand si ∈ S ist somit durch die Auswahl von bestimmten Werten für Parameter pi von Eigenschaften ei des elektrischen Antriebsstrangs 10 definiert. Bei den Eigenschaften ei kann es sich beispielsweise um ein Spannungsverhalten, einen elektrischen Widerstand oder eine Kennlinie zum Drehmoment/Drehzahl-Verhalten eines Elektromotors des elektrischen Antriebsstrangs handeln. Ein Parameterwert pi gibt die konkrete Spannung oder das konkrete Drehmoment für diese Eigenschaft ei wieder.
  • In dem Zustandsmodul 350 wird eine Abweichung Δ zwischen einem Zielzustand st und dem berechneten Zustand si berechnet. Der Endzustand ist erreicht, wenn die berechneten Zustände si gleich oder größer als die Ziel-Zustände st sind.
  • In dem Belohnungsmodul 370 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand si und dem Zielwert des Zustands st eine Belohnung ri zugeordnet. Da der Grad der Abweichung Δ von der Auswahl der jeweiligen Aktion A(+), A(0), A(-) abhängig ist, wird vorzugsweise in einer Matrix oder einer Datenbank der jeweiligen ausgewählten Aktion A(+), A(0), A(-) die Belohnung ri zugeordnet. Eine Belohnung ri weist vorzugsweise die Werte +1 und -1 auf, wobei eine geringe oder positive Abweichung Δ zwischen dem berechneten Zustand si und dem Zielzustand st mit +1 belohnt wird und somit verstärkt wird, während eine erhebliche negative Abweichung Δ mit -1 belohnt wird und somit negativ bewertet wird. Es ist aber auch denkbar, dass Werte > 1 und Werte < 1 Verwendung finden.
  • Vorzugsweise wird als Algorithmus für den LV-Agenten 320 ein Markov-Entscheidungsprozess verwendet. Es kann aber auch vorgesehen sind, einen Temporal Difference Learning (TD-Learning) Algorithmus zu verwenden. Ein LV-Agent 320 mit einem TD-Learning-Algorithmus nimmt die Anpassung der Aktionen A(+), A(0), A(-) nicht erst dann vor, wenn er die Belohnung erhält, sondern nach jeder Aktion ai auf Basis einer geschätzten erwarteten Belohnung. Des Weiteren sind auch Algorithmen wie Q-Learning und SARSA denkbar oder Actor-Critic oder auch Monte-Carlo-Simulationen. Mit diesen Algorithmen ist eine dynamische Programmierung und eine Anpassung der Strategie durch Iterationsverfahren möglich.
  • Darüber hinaus enthält/enthalten der LV-Agent 320 und/oder das Aktionsmodul 330 und/oder das Umgebungsmodul 340 und/oder das Zustandsmodul 350 und/oder das Belohnungsmodul 370 Berechnungsverfahren und Algorithmen fi für mathematische Regressionsverfahren oder physikalische Modellberechnungen, die eine Korrelation zwischen ausgewählten Parametern pi ∈ P aus einer Menge von Parametern und den Ziel-Zuständen st beschreiben. Bei den mathematischen Funktionen ft kann es sich um statistische Verfahren wie Mittelwerte, Minimal- und Maximalwerte, Lookup Tabellen, Modelle zu Erwartungswerten, lineare Regressionsverfahren oder Gauß-Prozesse handeln, um Fast Fourier Transformationen, Integral- und Differentialrechnungen, Markov-Verfahren, Wahrscheinlichkeitsverfahren wie Monte Carlo-Verfahren, Temporal Difference Learning, aber auch um erweiterte Kalman-Filter, radiale Basisfunktionen, Datenfelder, oder auch um konvergente neuronale Netze, tiefe neuronale Netze, rückgekoppelte/rekurrente neuronale Netze oder gefaltete Netze (engl. convolutional neural network) handeln. Basierend auf den Aktionen ai und den Belohnungen ri wählt/wählen der LV-Agent 320 und/oder das Aktions-Modul 330 und/oder das Umgebungsmodul 340 und/oder das Zustandsmodul 350 und/oder das Belohnungsmodul 370 für einen Zustand si eine oder mehrere dieser Berechnungsfunktionen fi aus.
  • Ein neuronales Netzwerk besteht aus Neuronen, die in mehreren Schichten angeordnet und unterschiedlich miteinander verbunden sind. Ein Neuron ist in der Lage, an seinem Eingang Informationen von außerhalb oder von einem anderen Neuron entgegenzunehmen, die Information in einer bestimmten Art zu bewerten und sie in veränderter Form am Neuronen-Ausgang an ein weiteres Neuron weiterzuleiten oder als Endergebnis auszugeben. Hidden-Neuronen sind zwischen den Input-Neuronen und Output-Neuronen angeordnet. Je nach Netzwerktyp können mehrere Schichten von Hidden-Neuronen vorhanden sein. Sie sorgen für die Weiterleitung und Verarbeitung der Informationen. Output-Neuronen liefern schließlich ein Ergebnis und geben dieses an die Außenwelt aus. Durch die Anordnung und die Verknüpfung der Neuronen entstehen verschiedene Typen von neuronalen Netzwerken wie Feedforward-Netzwerke, Rekurrente Netzwerke oder gefaltete neuronale Netze (engl. Convolutional Neural Networks). Ein gefaltetes neuronales Netzwerk (engl. Convolutional Neural Network) besitzt mehrere Faltungsschichten und ist für maschinelles Lernen und Anwendungen mit Künstlicher Intelligenz (KI) im Bereich der Mustererkennung sehr gut geeignet. Die Netzwerke lassen sich durch unbeaufsichtigtes oder überwachtes Lernen trainieren.
  • Während in einem klassischen Umgebungsmodul 340 ein Modell eines elektrischen Antriebsstrangs 10 vorgegeben ist, welches die Zielzustände st1, st2, .... , stn enthält, entwickelt der Lernverstärkungs-Agent 320 gemäß der vorliegenden Erfindung das Modell des elektrischen Antriebsstrangs 10 selbstständig und autonom. Dabei wird das Modell des elektrischen Antriebsstrangs 10 durch eine Vielzahl von Aktionen ai ∈ A von dem Lernverstärkungs-Agenten 320 gelernt und bildet dann die Basis für die Kalibrierung eines realen elektrischen Antriebsstrangs 10 durch das Lernverstärkungsmodul 300.
  • Der erfindungsgemäße Gedanke besteht somit darin, einen realen elektrischen Antriebsstrang 10 mit Hilfe eines modellbasierten verstärkenden Lernens zu kalibrieren, bei dem das Modell des elektrischen Antriebsstrangs 10 nicht vorliegen muss, sondern von dem LV-Agenten 320 selbst modelliert wird. Dabei simuliert das vom LV-Agenten 320 erstellte Modell des elektrischen Antriebsstrangs 10 nicht im Detail die Physik oder Dynamik des elektrischen Antriebsstrangs 10, sondern das Modell wird mittels einer Vielzahl von Interaktionen zwischen Aktionen, Zuständen und Belohnungen, die vom LV-Agenten 320 ausgeführt werden, entwickelt. Die Fragestellung des LV-Agenten 320 lautet daher immer, welche Zustände es gibt und was passiert, wenn er für einen bestimmten Zustand eine Aktion ausführt, und wie die Belohnung aussieht, wenn er für diesen bestimmten Zustand eine Aktion ausführt.
  • Um ein Modell eines elektrischen Antriebsstrangs 10 zu erstellen, ist erfindungsgemäß vorgesehen, dass das Umgebungsmodul 340 zumindest drei Untermodule aufweist. Das erste Untermodul ist als Zustandsuntermodul 342, das zweite Untermodul als Belohnungsuntermodul 343 und das dritte Untermodul ist als Strategieuntermodul 344 ausgebildet.
  • Das Zustandsuntermodul 342 repräsentiert Zustände su1, su2 ..., sun, die der LV-Agent 320 auswählen kann, wobei der ausgewählte Zustand suj dann der Zustand ist, in dem sich der LV-Agent 320 aktuell befindet. Ein Zustand suj wird simuliert und beruht auf simulierten Beobachtungen b1, b2, .... bn, die dem Zustandsuntermodul 342 in Form von Eingangsdaten 220 von dem Eingabemodul 200 zugeführt werden. Der LV-Agent 320 lernt die Zustände su1, su2 ..., sun des Zustandsuntermoduls 342 durch das Sammeln der Beobachtungen b1, b2, .... bn. Für die gesammelten Beobachtungen b1, b2, .... bn entwirft er ein Modell, das die Zustände su1, su2 ..., sun, in denen er sich befindet kann, definiert und das eine Funktion der gesammelten Beobachtungen b1, b2, .... bn darstellt. Für die Entwicklung des Modells verwendet er insbesondere neuronale Netze. Bei den Beobachtungen b1,b2, .... bn kann es sich beispielsweise um die Stromstärke, die Spannung, das Drehmoment und die Drehzahl eines Elektromotors oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs 10 handeln. Mögliche Zustände su1, su2 ..., sun des Zustandsuntermoduls 342 leiten sich somit aus diesen simulierten Beobachtungen b1, b2, .... bn, wie einem Drehmoment oder einer Drehzahl eines Elektromotors, ab.
  • Das Belohnungsuntermodul 343 ordnet den ermittelten Zuständen su1, su2 ..., sun Belohnungen ru1,ru2, ...., run zu.
  • Das Strategieuntermodul 344 entwickelt eine Strategie zur Ermittlung von neuen Zuständen su1+1, su2+1 ..., sun+1, indem es vorschlägt, welche Aktionen aj von den a1, a2, ..., an Aktionen aus dem Aktionsuntermodul 330 auf die alten Zustände su1, su2 ..., sun angewendet werden sollen. Durch die Anwendung der mittels der Strategie ausgewählten Aktionen a1, a2, ..., an werden neue Zustände su1+1, su2+1 ..., sun+1generiert, die dann wieder dem Zustandsuntermodul 342 zugeführt werden. In dem Belohnungsuntermodul 343 werden den neu ermittelten Zuständen su1+1, su2+1 ..., sun+1wiederum Belohnungen ru1+1,ru2+1, ...., run+1 zugeordnet.
  • Das Umgebungsmodul 340 führt die Berechnungen so lange durch, bis sich ein stabiles Zustandsniveau eingependelt hat. Dieses Zustandsniveau kann einen Zielzustand sutj oder eine Vielzahl von Zielzuständen sut1,sut2 ..., sutn für den LV-Agenten 320 umfassen. Das Ergebnis des Umgebungsmodul 340 besteht somit in den berechneten Zielzuständen sut1,sut2 ..., sutn, die ein Trainingsmodell TM des elektrischen Antriebsstrangs 10 darstellen.
  • Für die Trainingsphase werden an das Zustandsuntermodul 342 von dem Eingabemodul 200 somit beliebige oder ausgewählte simulierte Beobachtungen b1, b2, .... bn als Eingangsdaten 220 übermittelt. Aus diesen Eingangsdaten 220 entwickelt der LV-Agent 320 autonom ein erstes Trainingsmodell TM des elektrischen Antriebsstrangs 10. Dieses Modell wird durch die Zielzustände sut1,sut2 ..., sutn und die angewandte Strategie beschrieben.
  • An die Trainingsphase schließt sich die Modellierungsphase an, in der das Trainingsmodell TM in ein Modell M eines realen elektrischen Antriebsstrangs 10 transformiert wird. Bei dem realen elektrischen Antriebsstrang 10 handelt es sich um eine idealtypische Ausprägung, bei der eine gewünschte Dynamik beispielsweise hinsichtlich des Verhältnisses von Drehmoment und Drehzahl gegeben ist. In der Modellierungsphase werden dem Zustandsuntermodul 342 von dem Eingabemodul 200 reale Beobachtungen br1, br2, .... brn als Daten 230 zugeführt, aus denen die realen Zustände sur1, sur2, ..., surn generiert werden. Die realen Beobachtungen br1, br2, .... brn können gemessene Parameterwerte pi von einer Eigenschaft ei darstellen, die von hier nicht näher beschriebenen Sensoren ermittelt worden sind. Vorzugsweise sind die Parameterwerte in einer Datenbank 250 gespeichert, die mit dem Eingabemodul 200 in Verbindung steht.
  • In dem Belohnungsmodul 343 wird nun eine Abweichung Δ zwischen den realen Zuständen sur1, sur2, ..., surn und den während der Trainingsphase generierten Zielzuständen sut1, sut2, ..., sutn berechnet. Zudem wird in dem Belohnungsmodul 343 wird dem Grad der Abweichung Δ zwischen dem realen Zustand suri und dem Zielwert des Zielzustands suti eine Belohnung ri+1 zugeordnet.
  • Das Strategieuntermodul 344 entwickelt aufgrund der neuen Belohnungen r1+1, r2+1, ..., rn+1 eine geänderte Strategie zur Ermittlung von neuen Zuständen su1+1,su2+1 ..., sun+1, indem es vorschlägt, welche Aktionen aj von den a1, a2, ..., an aus dem Aktionsuntermodul 330 auf die alten Zielzustände sut1, sut2 ..., sutn angewendet werden sollen. Der Endzustand ist erreicht, wenn die generierten Zustände sut1+1, sut2+1, ..., sutn+1 gleich oder größer als die realen Zustände sur1, sur2, ...,surn sind, da dann das Trainingsmodell TM in ein Modell M transformiert wurde, das einen realen idealtypischen elektrischen Antriebsstrang wiedergibt.
  • Dieses Modell M eines realen elektrischen Antriebsstrang 10 stellt nun die Zielzustände smt1, smt2, ...., smtn zur Verfügung, mit denen eine Kalibrierung eines individuellen realen elektrischen Antriebsstrangs 10 durch den LV-Agenten 320 durchgeführt werden kann.
  • Hierzu werden dem Zustandsmodul 350 Werte von Parametern pi von Eigenschaften ei eines individuellen elektrischen Antriebsstrangs 10 von dem Eingabemodul 200 in Form von realen Daten 240 zugeführt. Die Parameterwerte pi können durch hier nicht näher beschriebene Sensoren gemessen werden. Bei den Sensoren handelt es sich insbesondere um Drucksensoren, Drehmomentsensoren, Drehzahlsensoren, Beschleunigungssensoren, Geschwindigkeitssensoren, kapazitive Sensoren, induktive Sensoren und Temperatursensoren.
  • Ein Zustand si ∈ S eines individuellen elektrischen Antriebsstrangs 10 ist somit durch die Auswahl von Werten von Parametern pi von Eigenschaften ei definiert. Bei den Eigenschaften ei kann es sich beispielsweise um ein Spannungsverhalten, einen elektrischen Widerstand oder eine Kennlinie zum Drehmoment/Drehzahl-Verhalten eines Elektromotors des elektrischen Antriebsstrangs handeln. Ein Parameterwert pi gibt die konkrete Spannung oder das konkrete Drehmoment für diese Eigenschaft ei wieder.
  • Der LV-Agent wählt für diese Zustände s1, s2, ..., sn wie im Obigen beschrieben Aktionen (A+), (A0) und (A-) aus, um eine Anpassung an die Zielzustände smt1, smt2, ....,smtn des generierten Modells M vorzunehmen. Das UmgebungsModul 340 berechnet aufgrund der gewählten Aktion ai und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) neue Zustände si+1 ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
  • In dem Zustandsmodul 350 wird eine Abweichung Δ zwischen einem Zielzustand st und dem berechneten Zustand si+1 berechnet. In dem Belohnungsmodul 370 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand si+1 und dem Zielwert des Zustands smt eine Belohnung ri zugeordnet.
  • Dann beginnt ein zweiter Zyklus, bei dem der LV-Agent 320 eine andere Aktion ai+1 und/oder eine andere Berechnungsfunktion fi+1 und/oder einen anderen Parameter pi+1 ausgewählt entsprechend der definierten Strategie bzw. Richtlinie. Das Ergebnis wird wiederum dem Zustandsmodul 350 zugeführt und das Ergebnis des Vergleichs im Belohnungsmodul 370 bewertet. Der LV-Agent 320 wiederholt den Kalibrierungsvorgang für alle vorgesehenen Aktionen ai,ai+1, ..., ai+n, Berechnungsfunktionen fi, fi+1,..., fi+n und Parameter pi, pi+1 ..., pi+n solange, bis eine größtmögliche Übereinstimmung zwischen einem berechneten Zustand si+1, si+2, ..., si+n und einem Ziel-Zustand smti erreicht ist. Vorzugsweise ist der Endzustand der Kalibrierung erreicht, wenn die Abweichung Δ im Bereich von +/-5% liegt. Der LV-Agent 320 optimiert somit sein Verhalten und damit die Strategie, nach der eine Aktion ai ausgewählt wird, solange, bis die berechneten Zustände si+1, si+2, ..., si+n konvergieren. Der Endzustand ist erreicht, wenn die berechneten Zustände si+1, si+2, ..., si+n gleich oder größer als die Ziel-Zustände sm1, sm2, ..., smn sind. Das Kalibrierungsergebnis kann in Form von Ausgabedaten 450 auf dem Ausgabemodul 400 ausgegeben werden. Das Eingabemodul 200 und das Ausgabemodul 400 können in einem Hardwaregerät wie einem Computer, einem Tablet, einem Smartphone, etc. integriert sein.
  • Insbesondere kann vorgesehen sein, dass die Berechnungsergebnisse in Form von Zuständen, Aktionen, Belohnungen und Strategien in einer Cloud-Computing-Infrastruktur gespeichert werden und jeweils über das Internet verfügbar sind. Der LV-Agent 320, das Aktionsmodul330, das Umgebungsmodul 340, das Zustandsmodul 350 und das Belohnungsmodul 370 verfügen hierzu über die erforderlichen technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Infrastruktur. Hierdurch kann die Recheneffizienz gesteigert werden, da die Zugriffsmöglichkeiten und die Zugriffsgeschwindigkeiten zu bereits berechneten Zuständen, Aktionen, Belohnungen und Strategien vereinfacht ist.
  • In 2 sind die Verfahrensschritte zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs 10 dargestellt.
  • In einem Schritt S10 wird ein Trainingsmodells TM für einen elektrischen Antriebsstrangs 10 von einem Lernverstärkungs-Agenten 320 mittels simulierter Beobachtungen b1, b2, ..., bn erstellt, wobei der Lernverstärkungs-Agent 320 einen Algorithmus des verstärkenden Lernens verwendet.
  • In einem Schritt S20 wird das Trainingsmodell TM von dem Lernverstärkungs-Agenten 320 modifiziert mittels realer Beobachtungen br1, br2, ..., brn eines realen idealtypischen Antriebsstrangs 10 zur Erstellung eines simulierten Modells M für den realen idealtypischen elektrischen Antriebsstrang 10, wobei das simulierte Modell M Zielzustände sm1, sm2, ..., smn enthält.
  • In einem Schritt S30 wird zumindest ein Zustand si eines individuellen realen elektrischen Antriebsstrangs 10 durch ein Zustandsmodul 350 bestimmt, wobei ein Zustand si durch Parameter pi wie Daten und/oder Messwerte von zumindest einer Eigenschaft ei des elektrischen Antriebsstrangs 10 definiert wird.
  • In einem Schritt S40 wird der Zustand si an den Lernverstärkungs-Agenten 320 übermittelt.
  • In einem Schritt S50 werden Kalibrierungsergebnisse 450 für den individuellen realen elektrischen Antriebsstrang 10 von dem Lernverstärkungs-Agenten 320 durch Vergleichen des Zustands si mit zumindest einem Zielzustand smti des simulierten Modells M ermittelt.
  • 3 stellt schematisch ein Computerprogrammprodukt 900 dar, das einen ausführbaren Programmcode 950 umfasst, der konfiguriert ist, um das Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung auszuführen, wenn es ausgeführt wird.
  • Mit dem Verfahren und dem System 100 gemäß der vorliegenden Erfindung kann somit zuverlässig ein elektrischer Antriebsstrang 10 mittels Methoden des verstärkenden Lernens kalibriert werden, ohne dass ein detailliertes Modell eines realen elektrischen Antriebsstrangs 10 in dem Umgebungsmodul 340 des Lernverstärkungsmoduls 300 vorliegen muss. Die Modellierung eines realen elektrischen Antriebsstrangs wird vielmehr von dem LV-Agenten 320 selbstständig und autonom durchgeführt. Dadurch werden die Zielzustände, die bei einer Kalibrierung erreicht werden sollen, durch das von dem LV-Agenten erstellte Modell vorgegeben. Die Zielzustände sind genauer und ermöglichen daher eine verbesserte Kalibrierung. Mit der vorliegenden Erfindung kann somit in kurzer Zeit und mit verringerten Kosten eine zuverlässige Kalibrierung von elektrischen Antriebsträngen durchgeführt werden.
  • Bezugszeichenliste
  • 10
    elektrischer Antriebsstrang
    100
    System
    200
    Eingabemodul
    220
    simulierte Daten
    230
    reale Daten
    240
    reale Daten
    250
    Datenbank
    300
    Lernverstärkungsmodul
    320
    Lernverstärkungs-Agent
    330
    Aktionsmodul
    340
    Umgebungsmodul
    342
    Zustandsuntermodul
    343
    Belohnungsuntermodul
    344
    Strategieuntermodul
    350
    Zustandsmodul
    370
    Belohnungsmodul
    400
    Ausgabemodul
    450
    Kalibrierungsergebnisse
    900
    Computerprogrammprodukt
    950
    Programmcode
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • CN 112632860 A [0005]
    • US 20190378036 A1 [0006]
    • DE 102019215530 A1 [0007]
    • DE 102019208262 A1 [0008]
    • EP 3825263 A1 [0009]

Claims (15)

  1. Verfahren zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs (10), umfassend: - Erstellen (S10) eines Trainingsmodells (TM) für einen elektrischen Antriebsstrang (10) von einem Lernverstärkungs-Agenten (320) mittels simulierter Beobachtungen (b1, b2, ..., bn), wobei der Lernverstärkungs-Agent (320) einen Algorithmus des verstärkenden Lernens verwendet; - Modifizieren (S20) des Trainingsmodells (TM) von dem Lernverstärkungs-Agenten (320) mittels realer Beobachtungen (br1, br2, ..., brn) eines realen idealtypischen Antriebsstrangs (10) zur Erstellung eines simulierten Modells (M) für den realen idealtypischen elektrischen Antriebsstrang (10), wobei das simulierte Modell (M) Zielzustände (sm1, sm2, ..., smn) enthält; - Bestimmen (S30) zumindest eines Zustands (si) eines individuellen realen elektrischen Antriebsstrangs (10) durch ein Zustandsmodul (350), wobei ein Zustand (si) durch Parameter (pi) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (ei) des elektrischen Antriebsstrangs (10) definiert wird, - Übermitteln (S40) des Zustands (si) an den Lernverstärkungs-Agenten (320); - Ermitteln (S50) von Kalibrierungsergebnissen (450) für den individuellen realen elektrischen Antriebsstrang (10) von dem Lernverstärkungs-Agenten (320) durch Vergleichen des Zustands (si) mit zumindest einem Zielzustand (smti) des simulierten Modells (M).
  2. Verfahren nach Anspruch 1, wobei für das Erstellen eines Trainingsmodells (TM) für einen elektrischen Antriebsstrang (10) von einem Lernverstärkungs-Agenten (320) mittels simulierter Beobachtungen (b1, b2, ..., bn) ein Umgebungsmodul (340) vorgesehen ist, welches zumindest ein Zustandsuntermodul (342), ein Belohnungsuntermodul (343) und ein Strategieuntermodul (344) umfasst.
  3. Verfahren nach Anspruch 2, wobei von dem Zustandsuntermodul (342) Zustände (su1, su2 ..., sun) generiert werden, die auf den simulierten Beobachtungen (b1,b2, .... bn) beruhen, wobei die simulierten Beobachtungen (b1, b2, .... bn) insbesondere die Stromstärke, die Spannung, das Drehmoment und/oder die Drehzahl eines Elektromotors oder/oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs (10) umfassen.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die realen Beobachtungen (br1, br2, .... brn) gemessene Werte von Parametern (pi) von einer Eigenschaft (ei) des realen idealtypischen Antriebsstrangs (10) darstellen, die von Sensoren ermittelt werden oder n einer Datenbank (250) gespeichert sind.
  5. Verfahren nach Anspruch 1, wobei das Ermitteln von Kalibrierungsergebnissen die folgenden Verfahrensschritte umfasst: - Auswählen einer Berechnungsfunktion (fi) und/oder einer Aktion (ai) basierend auf einer Richtlinie für einen Zustand (si) für die Modifizierung zumindest eines Parameters (pi) von dem Lernverstärkungs-Agenten (320); - Berechnen eines modellierten Wertes für die Eigenschaft (ei) mittels des modifizierten Parameters (pi); - Berechnen eines neuen Zustands (si+1) von einem Umgebungsmodul (340) aufgrund des modellierten Wertes für die Eigenschaft (ei); - Vergleichen des neuen Zustands (si+1) mit dem Zielzustand (smt) und Zuordnen einer Abweichung (Δ) für das Vergleichsergebnis in dem Zustandsmodul (350); - Ermitteln einer Belohnung (ri) von einem Belohnungsmodul (370) für das Vergleichsergebnis; - Anpassen der Richtlinie des Lernverstärkung-Agenten (320) basierend auf der Belohnung (ri), wobei bei einer Konvergenz der Richtlinie die optimale Aktion (aj) für den berechneten Zustand (sj) zurückgeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion (fj) und/oder eine weitere Aktion (aj+1) für einen Zustand (sj+1) mit einer Modifizierung zumindest eines Parameters (pj) von dem Lernverstärkungs-Agenten (320) ausgewählt wird, solange bis der Zielzustand (smt) erreicht ist.
  6. Verfahren nach einem der Ansprüche 1 bis 5, wobei Sensoren und/oder Messvorrichtungen zur Bestimmung der Parameter (pi) von den Eigenschaften (ei) des individuellen elektrischen Antriebsstrangs (10) vorgesehen sind.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei eine positive Aktion (A+), die den Wert für einen Parameter (pi) erhöht, eine neutrale Aktion (A0), bei der der Wert des Parameters (pi) gleichbleibt, und eine negative Aktion (A-), bei der sich der Wert des Parameters (pi) verringert, vorgesehen sind.
  8. Verfahren nach einem der vorangehenden Ansprüche 1 bis 7, wobei das Belohnungsmodul (370) eine Datenbank oder Matrix für die Bewertung der Aktionen (ai) umfasst.
  9. Verfahren nach einem der Ansprüche 1 bis 8, wobei der zumindest eine Algorithmus des Lernverstärkungs-Agenten (320) als Markow-Entscheidungsprozess, Temporal Difference Learning (TD-Learning), Q-Learning, SARSA, Monte-Carlo-Simulation oder Actor-Critic ausgebildet ist.
  10. Ein System (100) zum autonomen Kalibrieren eines individuellen elektrischen Antriebsstrangs (10), mit einem Eingabemodul (200), einem Lernverstärkungsmodul (300) und einem Ausgabemodul (400), wobei das Lernverstärkungsmodul (300) einen Lernverstärkungs-Agenten (320), der einen Algorithmus des verstärkenden Lernens verwendet, ein Aktionsmodul (330), ein Umgebungsmodul (340), ein Zustandsmodul (350) und ein Belohnungsmodul (370) umfasst; wobei der Lernverstärkungs-Agent (320) ausbildet ist, ein Trainingsmodell (TM) für einen elektrischen Antriebsstrang (10) mittels simulierter Beobachtungen (b1, b2, ..., bn) zu erstellen, und das Trainingsmodell (TM) mittels realer Beobachtungen (br1, br2, ..., brn) eines realen idealtypischen Antriebsstrangs (10) zu modifizieren zur Erstellung eines simulierten Modells (M) für den realen idealtypischen elektrischen Antriebsstrang (10), wobei das simulierte Modell (M) Zielzustände (sm1, sm2, ..., smn) enthält; wobei das Zustandsmodul (350) ausgebildet ist, zumindest einen Zustand (si) eines individuellen realen elektrischen Antriebsstrangs (10) zu bestimmen, wobei ein Zustand (si) durch Parameter (pi) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (ei) des elektrischen Antriebsstrangs (10) definiert wird, und den Zustand (si) an den Lernverstärkungs-Agenten (320) zu übermitteln; und wobei der Lernverstärkungs-Agent (320) ausgebildet ist, Kalibrierungsergebnisse (450) für den individuellen realen elektrischen Antriebsstrang (10) durch Vergleichen des Zustands (si) mit zumindest einem Zielzustand (smti) des simulierten Modells (M) zu ermitteln.
  11. System (100) nach Anspruch 10, wobei das Umgebungsmodul (340) zumindest ein Zustandsuntermodul (342), ein Belohnungsuntermodul (343) und ein Strategieuntermodul (344) umfasst.
  12. System (100) nach Anspruch 11, wobei das Zustandsuntermodul (342) ausgebildet ist, Zustände (su1, su2 ..., sun) zu generieren, die auf den simulierten Beobachtungen (b1,b2, .... bn) beruhen, wobei die simulierten Beobachtungen (b1, b2, .... bn) insbesondere die Stromstärke, die Spannung, das Drehmoment und/oder die Drehzahl eines Elektromotors und/oder den Ladezustand einer Batterie des elektrischen Antriebsstrangs (10) umfassen.
  13. System (100) nach einem der Ansprüche 10 bis 12, wobei die realen Beobachtungen (br1,br2, .... brn) gemessene Werte von Parametern (pi) von einer Eigenschaft (ei) darstellen, die von Sensoren ermittelt werden oder die in einer Datenbank (250) gespeichert sind.
  14. System (100) nach einem der Ansprüche 10 bis 13, wobei Sensoren und/oder Messvorrichtungen zur Bestimmung der Parameter (pi) von den Eigenschaften (ei) des individuellen elektrischen Antriebsstrangs (10) vorgesehen sind.
  15. Computerprogrammprodukt (900), umfassend einen ausführbaren Programmcode (950), der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren nach einem der Ansprüche 1 bis 9 ausführt.
DE102022104313.4A 2022-02-23 2022-02-23 Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs Pending DE102022104313A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022104313.4A DE102022104313A1 (de) 2022-02-23 2022-02-23 Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022104313.4A DE102022104313A1 (de) 2022-02-23 2022-02-23 Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs

Publications (1)

Publication Number Publication Date
DE102022104313A1 true DE102022104313A1 (de) 2023-08-24

Family

ID=87518608

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022104313.4A Pending DE102022104313A1 (de) 2022-02-23 2022-02-23 Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs

Country Status (1)

Country Link
DE (1) DE102022104313A1 (de)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190378036A1 (en) 2018-06-11 2019-12-12 Traxen Inc. Reinforcement Learning Based Ground Vehicle Control Techniques
DE102019208262A1 (de) 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens
CN112632860A (zh) 2021-01-04 2021-04-09 华中科技大学 一种基于强化学习的动力传动系统模型参数辨识方法
DE102019215530A1 (de) 2019-10-10 2021-04-15 Vitesco Technologies GmbH System und Verfahren zum Betrieb eines Antriebsstrangs
EP3825263A1 (de) 2019-11-20 2021-05-26 Siemens Aktiengesellschaft Verfahren zur computer-implementierten konfiguration einer geregelten antriebsapplikation eines logistiksystems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190378036A1 (en) 2018-06-11 2019-12-12 Traxen Inc. Reinforcement Learning Based Ground Vehicle Control Techniques
DE102019208262A1 (de) 2019-06-06 2020-12-10 Robert Bosch Gmbh Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens
DE102019215530A1 (de) 2019-10-10 2021-04-15 Vitesco Technologies GmbH System und Verfahren zum Betrieb eines Antriebsstrangs
EP3825263A1 (de) 2019-11-20 2021-05-26 Siemens Aktiengesellschaft Verfahren zur computer-implementierten konfiguration einer geregelten antriebsapplikation eines logistiksystems
CN112632860A (zh) 2021-01-04 2021-04-09 华中科技大学 一种基于强化学习的动力传动系统模型参数辨识方法

Similar Documents

Publication Publication Date Title
DE102019126244A1 (de) System und Verfahren zur Kalibrierung einer Steuereinheit eines Elektromotors zur Bestimmung von Kenngrößen des Elektromotors
DE102011081346A1 (de) Verfahren zum Erstellen einer Funktion für ein Steuergerät
WO2020187591A1 (de) Verfahren und vorrichtung zum ansteuern eines roboters
DE102019125974A1 (de) System und Verfahren zur Kalibrierung einer Steuervorrichtung zur Steuerung einer Leerlaufdrehzahl
DE102021002318A1 (de) Verfahren zur Erstellung eines Simulationsmodells, Verwendung eines Simulationsmodells, Computerprogrammprodukt, Verfahren zur Kalibrierung eines Steuergeräts
DE102020202350A1 (de) Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter
WO2022028935A1 (de) Computerimplementiertes verfahren zum bereitstellen eines test-verlaufs zu testender verkehrsszenarien
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE102013014667A1 (de) Verfahren zur Applikation der Steuerung des Antriebes eines Hybridfahrzeuges
DE102018103113A1 (de) Verfahren zum Betreiben eines Hybridsystems für ein Fahrzeug
EP3940596A1 (de) Verfahren zum konfigurieren eines steuerungsagenten für ein technisches system sowie steuereinrichtung
DE102019134053A1 (de) Verfahren zur kontinuierlichen Absicherung im Fahrversuch applizierter automatisierter Fahrfunktionen
DE102019126245A1 (de) System und Verfahren zur Bestimmung des Funktionszustandes und/oder Gesundheitszustandes einer elektrischen Batterie
DE102020118805A1 (de) System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil
DE102020107001A1 (de) Verfahren und Vorrichtung zur Ermittlung des Zustands eines elektrischen Bordnetzes eines Fahrzeugs
DE102022104313A1 (de) Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs
WO2020207789A1 (de) Verfahren und vorrichtung zum ansteuern einer technischen einrichtung
DE102019220196A1 (de) Verfahren zum Betreiben eines Fahrzeugs
EP0919036B1 (de) Verfahren zur automatischen maschinellen erzeugung von fertigungsunterlagen
WO2023072528A1 (de) Verfahren und steuereinrichtung zum steuern eines technischen systems
DE102011075337A1 (de) Verfahren und Vorrichtung zur Ansteuerung einer Anlage
DE102020120367A1 (de) Verfahren und System zur Steuerung eines elektrifizierten Fahrzeugs
DE102013206274A1 (de) Verfahren und Vorrichtung zum Anpassen eines nicht parametrischen Funktionsmodells
AT521927B1 (de) Verfahren zur Kalibirierung eines technischen Systems
DE102020210465A1 (de) Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein zumindest teilautomatisiert fahrendes Fahrzeug oder einen Roboter

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication