DE102020107003A1

DE102020107003A1 - Verfahren und Vorrichtung zur Überwachung eines elektrischen Bordnetzes eines Fahrzeugs

Info

Publication number: DE102020107003A1
Application number: DE102020107003.9A
Authority: DE
Inventors: Andreas Heimrath; Joachim Froeschl
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2021-09-16
Also published as: WO2021180428A1; US20230090528A1; CN115135526A

Abstract

Es wird eine Vorrichtung (450) zur Überwachung eines Energiebordnetzes (100) beschrieben, das unterschiedliche Bordnetz-Komponenten (105, 106, 107) umfasst und das anhand eines Maschine-erlernten Energiemanagementsystems (101) betrieben wird. Die Vorrichtung (450) umfasst eine Referenzeinheit (400), die eingerichtet ist, für einen Zustand (306) des Energiebordnetzes (100) und für eine basierend auf dem Zustand (306) von dem Energiemanagementsystem (101) bewirkte Aktion (304) eine Referenz-Belohnung (302) zu ermitteln, die sich bei Betrieb eines Referenz-Bordnetzes ergeben würde. Des Weiteren umfasst die Vorrichtung (450) eine Belohnungseinheit (410), die eingerichtet ist, für den Zustand (306) und für die Aktion (304) eine tatsächliche Belohnung (402) zu ermitteln, die sich bei Betrieb des Energiebordnetzes (100) ergibt. Die Vorrichtung (450) umfasst ferner einer Überwachungseinheit (420), die eingerichtet ist, das Energiebordnetz (100) auf Basis der tatsächlichen Belohnung (402) und auf Basis der Referenz-Belohnung (302) zu überwachen.

Description

Die Erfindung betrifft ein Verfahren und eine entsprechende Vorrichtung, mit denen die Komponenten eines elektrischen Bordnetzes in zuverlässiger und effizienter überwacht werden können, insbesondere um bereits frühzeitig den Ausfall einer Bordnetz-Komponente vorhersagen zu können.
Ein Fahrzeug umfasst ein elektrisches (Energie-) Bordnetz, über das mehrere elektrische Verbraucher des Fahrzeugs mit elektrischer Energie versorgt werden können. Das Bordnetz umfasst typischerweise einen elektrischen Energiespeicher zur Speicherung von elektrischer Energie und zur Stützung der Bordnetzspannung. Des Weiteren umfasst das Bordnetz typischerweise einen Generator (der z.B. durch einen Verbrennungsmotor des Fahrzeugs angetrieben wird), der eingerichtet ist, elektrische Energie für das Bordnetz zu erzeugen. Ferner umfasst das Bordnetz eines Hybrid- oder Elektrofahrzeugs typischerweise einen Gleichspannungswandler (der z.B. durch eine Traktionsbatterie des Fahrzeugs versorgt wird), der eingerichtet ist, elektrische Energie für das Bordnetz zu erzeugen bzw. bereitzustellen.
Das Bordnetz kann mittels eines Energiemanagementsystems betrieben werden. Das Energiemanagementsystem kann dabei eingerichtet sein, die Energieversorgung der elektrischen Verbraucher durch das Bordnetz abzusichern. Zu diesem Zweck kann das Energiemanagementsystem ein oder mehrere Regler umfassen, die eingerichtet sind, ein oder mehrere Regelgrößen des Bordnetzes (wie z.B. die Bordnetzspannung) auf einen jeweiligen Sollwert zu regeln.
Das Energiemanagementsystem kann ein Machine-Learning basiertes Energiemanagementsystem umfassen bzw. sein. Insbesondere kann das Energiemanagementsystem ein oder mehrere Regler umfassen, die anhand von Machine-Learning angelernt wurden.
Der Ausfall einer Bordnetz-Komponente (z.B. des Energiespeichers oder des Generators oder des Gleichspannungswandlers oder eines Verbrauchers) des elektrischen Bordnetzes kann zu einer Beeinträchtigung des Betriebs eines Fahrzeugs führen, was insbesondere bei einem automatisiert fahrenden Fahrzeug zu einer sicherheitskritischen Situation führen kann.
Das vorliegende Dokument befasst sich mit der technischen Aufgabe, in effizienter und präziser Weise einen zukünftigen und/oder drohenden Ausfall einer Komponente eines elektrischen Bordnetzes zu prädizieren.
Die Aufgabe wird jeweils durch die unabhängigen Ansprüche gelöst. Vorteilhafte Ausführungsformen werden u.a. in den abhängigen Ansprüchen beschrieben. Es wird darauf hingewiesen, dass zusätzliche Merkmale eines von einem unabhängigen Patentanspruch abhängigen Patentanspruchs ohne die Merkmale des unabhängigen Patentanspruchs oder nur in Kombination mit einer Teilmenge der Merkmale des unabhängigen Patentanspruchs eine eigene und von der Kombination sämtlicher Merkmale des unabhängigen Patentanspruchs unabhängige Erfindung bilden können, die zum Gegenstand eines unabhängigen Anspruchs, einer Teilungsanmeldung oder einer Nachanmeldung gemacht werden kann. Dies gilt in gleicher Weise für in der Beschreibung beschriebene technische Lehren, die eine von den Merkmalen der unabhängigen Patentansprüche unabhängige Erfindung bilden können.
Gemäß einem Aspekt wird eine Vorrichtung (in diesem Dokument auch als Diagnosemodul bezeichnet) zur Überwachung eines Energiebordnetzes, insbesondere eines Energiebordnetzes eines (Kraft-) Fahrzeugs, beschrieben. Das Energiebordnetz umfasst unterschiedliche Bordnetz-Komponenten, wie z.B. ein oder mehrere elektrische Energiespeicher, ein oder mehrere elektrische Verbraucher und/oder ein oder mehrere Generatoren oder Gleichspannungswandler (die eingerichtet sind, elektrische Energie von extern in dem Energiebordnetz bereitzustellen).
Das Energiebordnetz wird anhand eines Machine Learning-basierten (auf Deutsch Maschine-erlernten) Energiemanagementsystems betrieben, wobei das Energiemanagementsystem mittels Reinforcement Learning angelernt wurde. Im Rahmen des Reinforcement Learning kann einer Aktion, die durch das Energiemanagementsystem ausgehend von einem bestimmten Zustand des Energiebordnetzes bewirkt wird, jeweils eine Belohnung zugewiesen werden. Die Belohnung kann dabei auf Basis einer bestimmten Belohnungsfunktion berechnet werden, wobei die Belohnungsfunktion von ein oder mehreren messbaren Größen, insbesondere Zustandsgrößen, des Bordnetzes abhängt. Das Energiemanagementsystem kann im Rahmen des Reinforcement Learning derart angelernt werden, dass das Energiemanagementsystem befähigt wird, ausgehend von einem Zustand des Energiebordnetzes jeweils eine Aktion zu bewirken, durch die die kumulierte Summe von zukünftigen (ggf. diskontierten) Belohnungen möglichst groß, insbesondere maximal, wird.
Der Zustand des Energiebordnetzes kann durch ein oder mehrere (messbare) Zustandsgrößen beschrieben werden. Beispielhafte Zustandsgrößen sind:

• der Strom und/oder die Spannung in dem Bordnetz und/oder an einer Bordnetz-Komponente;
• der Ladezustand eines Energiespeichers; und/oder
• die Last an einem Generator und/oder an einem Gleichspannungswandler und/oder an einem elektrischen Verbraucher.

Das Energiemanagementsystem kann ausgebildet sein, an einem bestimmten Zeitpunkt Messwerte in Bezug auf ein oder mehrere Zustandsgrößen zu ermitteln. Aus den Messwerten ergibt sich dann der Zustand des Energiebordnetzes an dem bestimmten Zeitpunkt. Es kann dann basierend auf dem Zustand an dem bestimmten Zeitpunkt eine Aktion ermittelt und bewirkt werden. Beispielhafte Aktionen sind:

• das Verändern (insbesondere das Erhöhen oder das Reduzieren) des Stroms und/oder der Spannung in dem Bordnetz und/oder an einer Bordnetz-Komponente; und/oder
• das Verändern (insbesondere das Erhöhen oder das Reduzieren) der Last an einem Generator und/oder an einem Gleichspannungswandler und/oder an einem elektrischen Verbraucher.

Das Energiemanagementsystem kann ein (mittels Reinforcement Learning) angelerntes neuronales Netz umfassen, das als Eingangswerte die Messwerte der ein oder mehreren Zustandsgrößen aufnimmt und das als Ausgangswert die zu bewirkende Aktion bereitstellt. Alternativ oder ergänzend kann das neuronale Netz ausgebildet sein, für ein Paar aus Messwerten der ein oder mehreren Zustandsgrößen und einer Aktion einen (mittels Q-Learning ermittelten) Q-Wert bereitzustellen. Es kann dann auf Basis der Q-Werte für eine Vielzahl von unterschiedlichen möglichen Aktionen die Aktion ausgewählt werden, die den optimalen (z.B. den größten) Q-Wert ergibt.
Der o.g. Prozess kann an einer Sequenz von Zeitpunkten wiederholt werden, um dauerhaft das Energiebordnetz zu steuern und/oder zu regeln. Dabei kann an jedem Zeitpunkt der jeweils aktuelle Zustand gemessen und basierend darauf eine Aktion ermittelt werden (die z.B. den jeweils optimalen Q-Wert ergibt).
Das Energiemanagementsystem kann für ein Referenz-Bordnetz angelernt worden sein, wobei das Referenz-Bordnetz dem Energiebordnetz mit fehlerfreien und/oder nicht-beeinträchtigten Bordnetz-Komponenten entsprechen kann.
Das Machine Learning-basierte Energiemanagementsystem kann zumindest einen Regler umfassen, der ausgebildet ist, eine messbare (Zustands-) Größe des Energiebordnetzes auf einen Sollwert zu regeln. Die Belohnung bzw. die Belohnungsfunktion, die beim Anlernen des Energiemanagementsystems (insbesondere des neuronalen Netzes des Energiemanagementsystems) verwendet wird, kann von einer Abweichung des (gemessenen) Istwertes der messbaren Größe von dem Sollwert bei Betrieb des Referenz-Bordnetzes bzw. bei Betrieb des Energiebordnetzes abhängen. Dabei kann die Belohnung umso größer sein, je kleiner die Abweichung des Istwertes von dem Sollwert ist. So kann eine präzise Einstellung von ein oder mehreren Zustandsgrößen des Energiebordnetzes bewirkt werden.
Die Vorrichtung umfasst eine Referenzeinheit, die eingerichtet ist, für einen Zustand des Bordnetzes und für eine basierend auf dem Zustand von dem Energiemanagementsystem bewirkte Aktion eine Referenz-Belohnung zu ermitteln, die sich bei Betrieb des Referenz-Bordnetzes ergeben würde. Dabei kann die Referenzeinheit im Rahmen des Anlernvorgangs des Maschine-erlernten Energiemanagementsystems angelernt worden sein, insbesondere anhand der Belohnungen, die sich im Rahmen des Anlernvorgangs des Maschine-erlernten Energiemanagementsystems für unterschiedliche Kombinationen von Zuständen und Aktionen ergeben haben.
Es kann somit eine Referenzeinheit bereitgestellt werden, die für ein Zustands-Aktions-Paar die Belohnung anzeigt, die sich bei Betrieb des Referenz-Bordnetzes (mit den nicht-beeinträchtigten Bordnetz-Komponenten) ergeben würde. Die Referenzeinheit kann zumindest ein (im Rahmen des Anlernvorgang des Energiemanagementsystems angelerntes) neuronales Netz umfassen.
Die Vorrichtung umfasst ferner eine Belohnungseinheit, die eingerichtet ist, für den Zustand und für die Aktion (d.h. für das Zustands-Aktions-Paar) eine tatsächliche Belohnung zu ermitteln, die sich bei Betrieb des Energiebordnetzes (tatsächlich) ergibt. Dabei können die tatsächliche Belohnung und die Referenz-Belohnung auf Basis der gleichen Belohnungsfunktion ermittelt werden.
Wie bereits oben dargelegt können die Belohnung bzw. die Belohnungsfunktion, insbesondere die tatsächliche Belohnung und die Referenz-Belohnung, von ein oder mehreren messbaren (Zustands-) Größen des Bordnetzes abhängen. Insbesondere können die Belohnung bzw. die Belohnungsfunktion, und somit die tatsächliche Belohnung und die Referenz-Belohnung, ein oder mehrere Belohnungskomponenten für die entsprechenden ein oder mehreren messbaren (Zustands-) Größen des Bordnetzes umfassen.
Die Belohnungseinheit kann eingerichtet sein, Messwerte für die ein oder mehreren messbaren (Zustands-) Größen zu ermitteln, die sich infolge der bewirkten Aktion bei Betrieb des Energiebordnetzes ergeben. Die tatsächliche Belohnung kann dann auf Basis der Messwerte für die ein oder mehreren messbaren Größen ermittelt werden. In entsprechender Weise können auch die Belohnungen während des Anlernens des Energiemanagementsystems und der Referenzeinheit ermittelt werden (bei Betrieb des Referenz-Bordnetzes).
Die Vorrichtung umfasst ferner eine Überwachungseinheit, die eingerichtet ist, das Energiebordnetz auf Basis der tatsächlichen Belohnung und auf Basis der Referenz-Belohnung, insbesondere auf Basis eines Vergleichs der tatsächlichen Belohnung und der Referenz-Belohnung, zu überwachen. Die Überwachungseinheit kann insbesondere eingerichtet sein, auf Basis der tatsächlichen Belohnung und auf Basis der Referenz-Belohnung zu bestimmen, ob eine Bordnetz-Komponente des Energiebordnetzes beeinträchtigt ist oder nicht. Des Weiteren kann die Vorrichtung eingerichtet sein, einen Hinweis (z.B. eine Fehlermeldung) in Bezug auf die Bordnetz-Komponente auszugeben, wenn bestimmt wird, dass die Bordnetz-Komponente beeinträchtigt ist.
Die in diesem Dokument beschriebene Vorrichtung ermöglicht es, die (tatsächliche) Belohnung, die sich für ein Zustands-Aktions-Paar bei Betrieb des Energiebordnetzes ergibt, mit der (Referenz-) Belohnung zu vergleichen, die sich für das Zustands-Aktions-Paar bei Betrieb eines entsprechenden fehlerfreien Referenz-Bordnetzes ergibt. So kann eine effiziente und präzise Überwachung des Energiebordnetzes ermöglicht werden. Insbesondere kann so in präziser Weise ein vorausliegender und/oder drohender Ausfall einer Bordnetz-Komponente prädiziert werden.
Wie bereits oben dargelegt, können die Referenz-Belohnung und/oder die tatsächliche Belohnung jeweils ein oder mehrere Belohnungskomponenten umfassen. Beispielhafte Belohnungskomponenten sind: eine Belohnungskomponente in Bezug auf einen Strom und/oder in Bezug auf eine Spannung innerhalb des Bordnetzes und/oder an einer Bordnetz-Komponente; eine Belohnungskomponente in Bezug auf eine Last und/oder in Bezug auf eine Belastung einer Bordnetz-Komponente; und/oder eine Belohnungskomponente in Bezug auf einen Ladezustand eines Energiespeichers des Bordnetzes.
Durch die Berücksichtigung von unterschiedlichen Belohnungskomponenten für unterschiedliche Bordnetz-Komponenten kann die Genauigkeit der Überwachung des Energiebordnetzes weiter erhöht werden. Insbesondere kann in präziser Weise eine bestimmte Bordnetz-Komponente identifiziert werden, die auszufallen droht.
Die Überwachungseinheit kann eingerichtet sein, eine Abweichung der tatsächlichen Belohnung von der Referenz-Belohnung, insbesondere eine Abweichung einer Belohnungskomponente der tatsächlichen Belohnung von einer entsprechenden Belohnungskomponente der Referenz-Belohnung, zu ermitteln. Es kann dann in präziser Weise auf Basis der Abweichung, insbesondere durch Vergleich der Abweichung mit einem Abweichungs-Schwellenwert, bestimmt werden, ob eine Bordnetz-Komponente beeinträchtigt ist oder nicht. Dabei kann der Abweichungs-Schwellenwert durch Simulation und/oder durch Tests im Vorfeld ermittelt worden sein, insbesondere spezifisch für eine Mehrzahl von unterschiedlichen Bordnetz-Komponenten des Bordnetzes und/oder für eine entsprechende Mehrzahl von unterschiedlichen Belohnungskomponenten.
Die tatsächliche Belohnung und die Referenz-Belohnung (d.h. insbesondere die gemeinsame Belohnungsfunktion) können jeweils eine Belohnungskomponente für eine bestimmte Bordnetz-Komponente umfassen. Die Überwachungseinheit kann eingerichtet sein, auf Basis der Abweichung der Belohnungskomponenten der tatsächlichen Belohnung und der Referenz-Belohnung für die bestimmte Bordnetz-Komponente zu bestimmen, ob die bestimmte Bordnetz-Komponente beeinträchtigt ist oder nicht. Durch einen Vergleich von einzelnen Belohnungskomponenten kann somit in besonders präziser Weise eine beeinträchtigte Bordnetz-Komponente des Energiebordnetzes (die droht auszufallen) identifiziert werden.
Gemäß einem weiteren Aspekt wird ein (Straßen-) Kraftfahrzeug (insbesondere ein Personenkraftwagen oder ein Lastkraftwagen oder ein Bus oder ein Motorrad) beschrieben, das die in diesem Dokument beschriebene Vorrichtung umfasst.
Gemäß einem weiteren Aspekt wird ein Verfahren zur Überwachung eines Energiebordnetzes beschrieben, das unterschiedliche Bordnetz-Komponenten umfasst und das anhand eines Maschine-erlernten Energiemanagementsystems betrieben wird, wobei das Energiemanagementsystem mittels Reinforcement Learning für ein Referenz-Bordnetz angelernt wurde. Das Verfahren umfasst das Ermitteln, für einen Zustand des Bordnetzes und für eine basierend auf dem Zustand von dem Energiemanagementsystem bewirkte Aktion, einer Referenz-Belohnung, die sich bei Betrieb des Referenz-Bordnetzes ergeben würde. Des Weiteren umfasst das Verfahren das Ermitteln, für den Zustand und für die Aktion, einer tatsächlichen Belohnung, die sich bei Betrieb des Energiebordnetzes ergibt. Das Verfahren umfasst ferner das Überwachen des Energiebordnetzes auf Basis der tatsächlichen Belohnung und auf Basis der Referenz-Belohnung, insbesondere auf Basis eines Vergleichs der tatsächlichen Belohnung und der Referenz-Belohnung.
Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem Prozessor (z.B. auf einem Steuergerät eines Fahrzeugs) ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.
Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem Prozessor ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren auszuführen.
Es ist zu beachten, dass die in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systeme sowohl alleine, als auch in Kombination mit anderen in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen verwendet werden können. Des Weiteren können jegliche Aspekte der in diesem Dokument beschriebenen Verfahren, Vorrichtungen und Systemen in vielfältiger Weise miteinander kombiniert werden. Insbesondere können die Merkmale der Ansprüche in vielfältiger Weise miteinander kombiniert werden.
Im Weiteren wird die Erfindung anhand von Ausführungsbeispielen näher beschrieben. Dabei zeigen

1a ein beispielhaftes elektrisches Bordnetz;
1b einen beispielhaften Regelkreis;
2a ein beispielhaftes neuronales Netz;
2b ein beispielhaftes Neuron;
3 eine beispielhafte Vorrichtung zum Anlernen eines Reglers;
4 eine beispielhafte Vorrichtung zur Ermittlung des Zustands eines elektrischen Bordnetzes eines Fahrzeugs; und
5 ein Ablaufdiagramm eines beispielhaften Verfahrens zur Ermittlung des Zustands eines elektrischen Bordnetzes eines Fahrzeugs.

Wie eingangs dargelegt, befasst sich das vorliegende Dokument mit der zuverlässigen und präzisen Vorhersage des Zustands von Komponenten eines elektrischen Bordnetzes eines Fahrzeugs. In diesem Zusammenhang zeigt 1 ein Blockdiagramm eines Bordnetzes 100, das einen elektrischen Energiespeicher 105 (z.B. eine Lithium-Ionen Batterie), ein oder mehrere elektrische Verbraucher 106 und/oder einen Generator 107 umfasst. Des Weiteren umfasst das Bordnetz 100 ein Energiemanagementsystem 101, das eingerichtet ist, ein oder mehrere (Zustands-) Größen des Bordnetzes 100 einzustellen, insbesondere auf einen jeweiligen Sollwert zu regeln. Eine beispielhafte (Zustands-) Größe des Bordnetzes 100 ist die Bordnetzspannung 111, die z.B. auf einen bestimmten Zielwert eingestellt, insbesondere geregelt, werden kann.
Zur Einstellung einer Regelgröße (z.B. der Bordnetzspannung 111) auf einen (sich mit der Zeit ändernden) Sollwert kann ein Regler verwendet werden. 1b zeigt einen beispielhaften Regelkreis 150, bei dem die Regelgröße 156 mittels eines Reglers 153 auf einen Sollwert 151 eingestellt wird. Der Regler 153 ist eingerichtet, auf Basis des Regelfehlers 152 (d.h. der Differenz) aus Regelgröße 156 und (dem jeweils aktuellen) Sollwert 151 eine Stellgröße 154 zu ermitteln. Ein oder mehrere Aktoren des Bordnetzes 100 (z.B. der Generator 107 und/oder ein oder mehrere elektrische Verbraucher 106) können in Abhängigkeit von der Stellgröße 154 betrieben werden. Eine beispielhafte Stellgröße 154 ist die Drehzahl, mit der der Generator 107 (z.B. durch einen Verbrennungsmotor eines Fahrzeugs) betrieben wird. Innerhalb der Regelstrecke 155, die von Eigenschaften des Bordnetzes 100 abhängig ist, ergibt sich aus der Stellgröße 154 die Regelgröße 156 (z.B. der Wert einer Zustandsgröße des Bordnetzes 100).
Eine Möglichkeit zur effizienten und flexiblen Einstellung und/oder Anpassung eines Reglers 153 ist das Anlernen des Reglers 153 bzw. das Anlernen einer Reglerfunktion mittels ein oder mehrerer neuronaler Netze. 2a und 2b zeigen beispielhafte Komponenten eines neuronalen Netzes 200, insbesondere eines Feedforward-Netzes. Das Netz 200 umfasst in dem dargestellten Beispiel zwei Eingangs-Neuronen bzw. Eingabe-Knoten 202, die zu einem bestimmten Zeitpunkt t jeweils einen aktuellen Wert einer Eingangsgröße als Eingangswert 201 aufnehmen. Die ein oder mehrere Eingangs-Knoten 202 sind Teil einer Eingangs-Schicht 211.
Das neuronale Netz 200 umfasst ferner Neuronen 220 in ein oder mehreren verdeckten Schichten 212 des neuronalen Netzes 200. Jedes der Neuronen 220 kann als Eingangswerte die einzelnen Ausgangswerte der Neuronen der vorhergehenden Schicht 212, 211 aufweisen (oder zumindest einen Teil davon). In jedem der Neuronen 220 erfolgt eine Verarbeitung, um in Abhängigkeit von den Eingangswerten einen Ausgangswert des Neurons 220 zu ermitteln. Die Ausgangswerte der Neuronen 220 der letzten verdeckten Schicht 212 können in einem Ausgangs-Neuron bzw. Ausgabe-Knoten 220 einer Ausgangs-Schicht 213 verarbeitet werden, um die ein oder mehreren Ausgangswerte 203 des neuronalen Netzes 200 zu ermitteln.
2b veranschaulicht die beispielhafte Signalverarbeitung innerhalb eines Neurons 220, insbesondere innerhalb der Neuronen 202 der ein oder mehreren verdeckten Schichten 212 und/oder der Ausgangs-Schicht 213. Die Eingangswerte 221 des Neurons 220 werden mit individuellen Gewichten 222 gewichtet, um in einer Summeneinheit 223 eine gewichtete Summe 224 der Eingangswerte 221 zu ermitteln (ggf. unter Berücksichtigung eines Bias bzw. Offsets 227). Durch eine Aktivierungsfunktion 225 kann die gewichtete Summe 224 auf einen Ausgangswert 226 des Neurons 220 abgebildet werden. Dabei kann durch die Aktivierungsfunktion 225 z.B. eine Begrenzung des Wertebereichs erfolgen. Für ein Neuron 220 kann z.B. eine Sigmoid-Funktion oder eine Tangens hyperbolicus (tanh)-Funktion oder eine Rectified Linear Unit (ReLU), z.B. f(x) = max(0, x) als Aktivierungsfunktion 225 verwendet werden. Ggf. kann der Wert der gewichteten Summe 224 mit einem Offset 227 verschoben werden.
Ein Neuron 220 weist somit Gewichte 222 und/oder ggf. einen Offset 227 als Neuron-Parameter auf. Die Neuron-Parameter der Neuronen 220 eines neuronalen Netzes 200 können in einer Trainingsphase angelernt werden, um zu bewirken, dass das neuronale Netz 200 eine bestimmte Funktion approximiert und/oder ein bestimmtes Verhalten modelliert.
Das Anlernen eines neuronalen Netzes 200 kann z.B. anhand des Backpropagation-Algorithmus erfolgen. Zu diesem Zweck können in einer ersten Phase einer q^ten Epoche eines Lern-Algorithmus für die Eingangswerte 201 an den ein oder mehreren Eingangs-Knoten 202 des neuronalen Netzes 200 entsprechende Ausgangswerte 203 an dem Ausgang der ein oder mehreren Ausgangs-Neuronen 220 ermittelt werden. Auf Basis der Ausgangswerte 203 kann der Wert einer Optimierungs- bzw. Fehlerfunktion ermittelt werden. In dem vorliegenden Fall kann ein Temporal-Differenz (TD) Fehler als Optimierungs- bzw. Fehlerfunktion dienen, wie weiter unten dargelegt.
In einer zweiten Phase der q^ten Epoche des Lern-Algorithmus erfolgt eine Rückpropagation des Fehlers bzw. des Fehlerwertes von dem Ausgang zum Eingang des neuronalen Netzes, um schichtweise die Neuron-Parameter der Neuronen 220 zu verändern. Dabei kann die ermittelte Fehlerfunktion am Ausgang partiell nach jedem einzelnen Neuron-Parameter des neuronalen Netzes 200 abgeleitet werden, um ein Ausmaß und/oder eine Richtung zur Anpassung der einzelnen Neuron-Parameter zu ermitteln. Dieser Lern-Algorithmus kann iterativ für eine Vielzahl von Epochen wiederholt werden, bis ein vordefiniertes Konvergenz- und/oder Abbruchkriterium erreicht wird.
Zum Anlernen eines Reglers 153 bzw. einer Reglerfunktion, die eingerichtet ist, auf Basis des Regelfehlers 152 die Stellgröße 154 zu ermitteln, kann beispielsweise das sogenannte (Actor-Critic) Reinforcement Learning verwendet werden. Als weiteres Beispiel kann Q-Learning verwendet werden. Im Rahmen des Q-Learning kann eine Q-Funktion erlernt (und z.B. durch ein neuronales Netz 200 approximiert werden), wobei die Q-Funktion dazu genutzt werden kann, für einen bestimmten Zustand eine optimale Aktion auszuwählen.
3 veranschaulicht eine beispielhafte Vorrichtung 300 zum Anlernen einer Reglerfunktion 303 für einen Regler 153, insbesondere für ein Energiemanagementsystem 101. Die Reglerfunktion 303 kann z.B. durch ein neuronales Netz 200 approximiert werden. Alternativ oder ergänzend kann die Reglerfunktion 303 durch eine analytische Funktion mit ein oder mehreren Reglerparametern beschrieben werden. Eine beispielhafte Reglerfunktion ist $u_{t} = π (x_{t}) = k x_{t}$
wobei k ein Vektor mit ein oder mehreren Reglerparametern ist und wobei x der Wert eines Zustandsvektors an dem Zeitpunkt t ist, mit den Werten von ein oder mehreren Zustandsgrößen 306 des Zustands des Bordnetzes 100 ist. Beispielhafte Zustandsgrößen 306 sind der Ladezustand des Energiespeichers 105, die Bordnetzspannung 111, die Last des Generators 107, die Last eines elektrischen Verbrauchers 106, etc.
Die Werte der ein oder mehreren Zustandsgrößen 306 können die Abweichung der einzelnen Zustandsgrößen von einem jeweiligen Sollwert 301 anzeigen. In diesem Fall zeigen die Werte x_t die Werte von ein oder mehreren Regelfehlern an.
Die Reglerfunktion 303 wird im Rahmen von (Actor-Critic) Reinforcement Learning als „Actor“ bezeichnet. Die Reglerfunktion 303 kann dazu genutzt werden, auf Basis der aktuellen Werte der ein oder mehreren Zustandsgrößen 306 die aktuellen Werte u_t von ein oder mehreren Stell- bzw. Aktionsgrößen bzw. Aktionen 304 zu ermitteln. Eine beispielhafte Stell- bzw. Aktionsgröße bzw. Aktion 304 ist die angeforderte Last des Generators 107 und/oder die durch einen Verbraucher 106 bewirkte Last.
Die aktuellen Werte u_t der ein oder mehreren Stell- bzw. Aktionsgrößen 304 können dazu verwendet werden, das zu regelnde System bzw. die Regelstrecke 305 zu betreiben. Insbesondere können ein oder mehrere Komponenten 106, 107 des Bordnetzes 100 in Abhängigkeit von den aktuellen Werten u_t der ein oder mehreren Stell- bzw. Aktionsgrößen 304 betrieben werden. Dies bewirkt Werte x_t+1 der ein oder mehreren messbaren Zustandsgrößen 306 an einem nachfolgenden Zeitpunkt t + 1.
Auf Basis der aktuellen Werte x_t der ein oder mehreren messbaren Zustandsgrößen 306 und auf Basis der aktuellen Werte u_t der ein oder mehreren Stell- bzw. Aktionsgrößen 304 kann der Wert einer Wertefunktion ermittelt werden. Die Wertefunktion kann dabei der diskontierten Summe von (zukünftigen) Belohnungen entsprechen. Zu jedem Zeitpunkt t kann eine Belohnung r(x_t, u_t) in Abhängigkeit von einer bestimmten Belohnungsfunktion vergeben werden. Die Belohnung kann z.B. davon abhängen,

• wie gut der Ladezustand des Energiespeichers 105 auf einen bestimmten Ziel-Ladezustand eingestellt ist; und/oder
• wie nah die von den Generator 107 bewirkte Last an einer bestimmten Ziel-Last liegt.

Die Belohnung r(x_t, u_t) kann unterschiedliche Belohnungsterme bzw. Belohnungskomponenten für unterschiedliche Regelgrößen und/oder Zustandsgrößen 306 aufweisen. Die einzelnen Belohnungskomponenten können zu einem Belohnungsvektor zusammengefasst werden. Der aktuelle Wert 302 der Belohnung r(x_t, u_t) (d.h. der Belohnungsfunktion) an einem bestimmten Zeitpunkt t kann durch die Einheit 307 berechnet werden.
Die Reglerfunktion 303 kann derart angelernt werden, dass die Summe der über der Zeit diskontierten Belohnungen vergrößert, insbesondere maximiert, wird. Da aufgrund der unbekannten Regelstrecke 305 nicht bekannt ist, wie sich Aktionen bzw. Stellgrößen 304 auf die Werte x_t der ein oder mehreren (messbaren) Zustandsgrößen 306 (d.h. die Werte der Regelfehler) aufweisen, kann als „Critic“ eine Zustands-Aktions-Wertefunktion 308 angelernt werden, die für jede Kombination aus einem Zustand x_t des zu regelnden Systems 305 (d.h. des Bordnetzes 100) und einer Aktion u_t 304 einen Wert Q^π(x_t, u_t) 310 der Summe der über der Zeit diskontierten Belohnungen anzeigt.
Andererseits kann eine Zustands-Wertefunktion definiert werden, die für einen bestimmten Zustand x_t die Summe der über der Zeit i diskontierten Belohnungen r(x_i, u_i) anzeigt, $V^{π} (x_{t}) = \sum_{i = 1}^{\infty} γ^{i} r (x_{i}, u_{i})$
mit dem Diskontierungsfaktor γ ∈ [0,1]. Dabei kann nach Konvergenz der Wertefunktionen angenommen werden, $V^{π} (x_{t + 1}) = Q^{π} (x_{t + 1}, u_{t + 1})$
wobei u_t+1 = π(x_t+1) mit der angelernten Reglerfunktion π() 303 ist.
Die Wertefunktionen können iterativ mit der Zeit angelernt werden, wobei nach Konvergenz gelten sollte $Q^{π} (x_{t}, u_{t}) = r (x_{t}, u_{t}) + γ V^{π} (x_{t + 1}) .$
Solange noch keine Konvergenz erreicht ist, kann auf Basis der o.g. Gleichung ein sogenannter Temporal-Differenz (TD) Fehler δ 311 errechnet werden (z.B. in der Einheit 309), als $δ = r (x_{t}, u_{t}) + γ V^{π} (x_{t + 1}) - Q^{π} (x_{t}, u_{t})$
wobei der TD-Fehler δ 311 unter der Annahme $V^{π} (x_{t + 1}) = Q^{π} (x_{t + 1}, u_{t + 1})$
aus dem Wert r(x_t, u_t) 302 der Belohnung an dem Zeitpunkt t und aus den Werten Q^π(x_t, u_t), Q^π(x_t+1, u_t+1) 310 der Zustands-Aktions-Wertefunktion 308 an den Zeitpunkten t und t + 1 berechnet werden kann. Der Wert 302 der Belohnung kann zu diesem Zweck in der Einheit 309 bereitgestellt werden (nicht dargestellt). Der TD-Fehler δ 311 kann dazu verwendet werden, iterativ die Zustands-Aktions-Wertefunktion 308 und ggf. die Reglerfunktion 303 anzulernen. Insbesondere kann der TD-Fehler δ 311 dazu verwendet werden, die Zustands-Aktions-Wertefunktion 308 anzulernen. Die angelernte Zustands-Aktions-Wertefunktion 308 kann dann dazu verwendet werden, die Reglerfunktion 303 anzulernen.
Die Zustands-Aktions-Wertefunktion 308 kann durch ein neuronales Netz 200 approximiert und/oder modelliert werden, und auf Basis des TD-Fehlers δ 311 angepasst werden. Nach Anpassen der Zustands-Aktions-Wertefunktion 308 kann die Reglerfunktion 303 angepasst werden. Die Vorrichtung 300 kann eingerichtet sein, die Reglerfunktion 303 und/oder die Zustands-Aktions-Wertefunktion 308 iterativ für eine Vielzahl von Zeitpunkten t anzupassen, bis ein Konvergenzkriterium erreicht ist. So kann in effizienter und präziser Weise eine Reglerfunktion 303 für einen Regler 153 ermittelt werden.
In entsprechender Weise können mehrere Regler 153 für mehrere Regel- bzw. Zustandsgrößen 106 eines Machine-Learning basierten Energiemanagementsystems 101 angelernt werden.
Wie bereits oben dargelegt, ist das in Zusammenhang mit 3 beschriebene Verfahren nur ein Beispiel zum Anlernen eines Energiemanagementsystems 101 anhand von reinforcement learning. Ein weiteres Beispiel ist Q-Learning. In diesem Fall kann eine Q-Funktion bzw. eine Zustands-Aktions-Wertefunktion 308 angelernt werden, die ausgebildet ist, für ein Zustands-Aktions-Paar einen Q-Wert bereitzustellen (wobei der Q-Wert z.B. die Summe der diskontierten zukünftigen Belohnungen anzeigt). Ausgehend von einem aktuellen Zustand können anhand der angelernten Q-Funktion für mehrere unterschiedliche mögliche Aktionen entsprechende Q-Werte ermittelt werden. Es kann dann die Aktion ausgewählt werden, für die sich der optimale (z.B. der maximale) Q-Wert ergibt.
4 zeigt eine Vorrichtung 450, die es ermöglicht, den Zustand der unterschiedlichen Komponenten 105, 106, 107 eines Bordnetzes 100 zu überwachen, insbesondere um frühzeitig einen Ausfall einer Komponente 105, 106, 107 vorhersagen zu können. Die Vorrichtung 400 umfasst eine Referenzeinheit 400, die eingerichtet ist, auf Basis des aktuellen Zustands x_t 306 des Bordnetzes 100 und auf Basis einer durch das Energiemanagementsystem 101 bewirkten Aktion u_t 304 die (Referenz-) Belohnung r(x_t, u_t) 302, insbesondere den (Referenz-) Belohnungsvektor, zu ermitteln, die sich bei einem einwandfrei funktionierenden Bordnetz 100 ergeben würde. Die Referenzeinheit 400 kann während des Anlernvorgangs (der Regler 153) des Energiemanagementsystems 101 angelernt werden. Zu diesem Zweck kann die Referenzeinheit 400 ein neuronales Netz 200 umfassen.
Die Vorrichtung 450 umfasst ferner eine Belohnungseinheit 410, die eingerichtet ist, auf Basis des aktuellen Zustands x_t 306 des Bordnetzes 100 und auf Basis der durch das Energiemanagementsystem 101 bewirkten Aktion u_t 304 die tatsächliche Belohnung r(x_t, u_t) 402, insbesondere den tatsächlichen Belohnungsvektor, zu ermitteln, der sich bei Betrieb des Bordnetzes 100 tatsächlich ergibt (unter Verwendung der Belohnungsfunktion).
Die Referenz-Belohnung 302 und die tatsächliche Belohnung 402 können in einer Vergleichs- und/oder Überprüfungseinheit 420 miteinander verglichen werden. Insbesondere können die einzelnen Vektorgrößen des Referenz-Belohnungsvektors mit den entsprechenden Vektorgrößen des tatsächlichen Belohnungsvektors verglichen werden. Basierend auf dem Vergleich kann dann der Zustand 405 des Bordnetzes 100 ermittelt werden. Insbesondere kann basierend auf dem Vergleich eine Vorhersage darüber getroffen werden, ob eine Komponente 105, 106, 107 des Bordnetzes 100 innerhalb eines bestimmten vorausliegenden Zeitintervalls ausfallen wird. Ggf. kann auch die Komponente 105, 106,107 identifiziert werden, die ausfallen wird.
In diesem Dokument wird somit die Diagnose und/oder die Ausfallvorhersage von Komponenten 105, 106, 107 in einem Fahrzeug beschrieben, das ein mit Machine Learning-basiertes Energiemanagement aufweist. Das Energiemanagementsystem 101 kann z.B. anhand von Reflex-Augmented Reinforcement Learning (RARL) oder anhand von Reinforcement Learning angelernt worden sein. RARL wird z.B. in Heimrath et al., „Reflex-Augmented Reinforcement Learning for Operating Strategies in Automotive Electrical Energy Management‟, Proceeding of the 2019 International Conference on Computing, Electronics & Communications Engineering, IEEE, 2019, pp. 62-67, beschrieben. Der Inhalt dieses Dokument wird hiermit durch Bezugnahme vollständig in das vorliegende Dokument aufgenommen.
Der Agent, z.B. ein tiefes neuronales Netz 200, lernt dabei, welche Aktionen 304 in einem bestimmten Normalzustand 306 des Fahrzeug-Bordnetzes 100 auszuführen sind. Eine Aktion 304 kann z.B. das Erhöhen der Bordnetzspannung 111 umfassen. Nach dem Ausführen einer Aktion 304 ändert sich der Zustand 306 des Bordnetzes 100 und der Agent erhält in Form des Rewards (d.h. in Form einer Belohnung 302) eine Rückmeldung über die Qualität seiner Entscheidung (d.h. der bewirkten Aktion 304). Diese Belohnung 302 fließt in den Lernvorgang des Energiemanagementsystems 101 ein. Der Zustand des Bordnetzes 100 kann mehrere Zustandsgrößen 306 umfassen, wie z.B. die Auslastung des Generators 107, den (normalisierten) Strom in oder aus dem Energiespeicher 105, den Ladezustands (insbesondere den State of Charge, SOC) des Energiespeichers 105, die Temperatur des Energiespeichers 105, etc.).
In diesem Dokument wird ein Diagnosemodul 450 beschrieben, das zumindest teilweise in den Lernvorgang des Energiemanagementsystems 101 integriert wird. Insbesondere kann dabei die Referenzeinheit 400 während des Lernvorgangs des Energiemanagementsystems 101 angelernt werden. Dadurch wird das Diagnosemodul 450 befähigt, ein Fehlverhalten und/oder den Ausfall einer Komponente 105, 106, 107 des Bordnetzes 100 zu prädizieren und/oder zu quantifizieren. Das Diagnosemodul 450 kann ausgebildet sein (anhand der Referenzeinheit 400), die erwartete Auswirkung der Ausführung einer Aktion 304 in dem Bordnetz 100 vorherzusagen. Des Weiteren kann das Diagnosemodul 450 ausgebildet sein, das erwartete Verhalten des Bordnetzes 100 mit dem tatsächlichen Verhalten des Bordnetzes 100 zu vergleichen (innerhalb der Vergleich- bzw. Überprüfungseinheit 420).
Während des Trainings des Energiemanagementsystems 101 in einem (Referenz-) Bordnetz 100 mit funktionsfähigen Komponenten 105, 106, 107 wird parallel dazu und unabhängig die Referenzeinheit 400 (mit einem separaten neuronalen Netz 200) angelernt. Während des Trainings des Energiemanagementsystems 101 führt der Agent ausgehend von einem bestimmten Zustand 306 eine Aktion 304 aus und erhält dafür eine Belohnung 302. Diese Informationen werden für das Training der Referenzeinheit 400 verwendet, um die Referenzeinheit 400 zu befähigen, die erwartete Auswirkung der Ausführung einer Aktion 304 in einem funktionsfähigen (Referenz-) Bordnetz 100 als Belohnung 302 vorherzusagen.
Nach dem Training des Energiemanagementsystems 101 und/oder beim Einsatz während einer Fahrt in einem Fahrzeug ist auch das Training der Referenzeinheit 400 beendet. Während des Betriebs des Energiemanagementsystems 101 wählt das Energiemanagementsystem 101 ausgehend von einem bestimmten Zustand 306 jeweils eine Aktion 304 aus und führt diese Aktion 304 aus. Es kann dann basierend auf den tatsächlich gemessenen Größen des Bordnetzes 100 eine tatsächlich gemessene Belohnung 402 ermittelt werden (innerhalb der Belohnungseinheit 420).
Die von der Referenzeinheit 400 vorhergesagte Belohnung 302 (des fehlerfreien (Referenz-) Bordnetzes 100) kann dann mit der tatsächlichen gemessenen Belohnung 402 (des Bordnetzes 100) verglichen werden. Dabei können die jeweiligen Belohnungen 302, 402 unterschiedliche Belohnungskomponenten aufweisen, die jeweils paarweise verglichen werden können. Der Vergleich der tatsächlich gemessenem Belohnung 402 und der vorhergesagten Belohnung 302 zeigt an, ob ein oder mehrere Komponenten 105, 106, 107 des Energiebordnetzes 100 ein von einem Sollverhalten abweichendes Ist-Verhalten aufweisen.
Für die Differenz der Werte der Belohnungen 302, 402 und/oder der einzelnen Belohnungskomponenten können Toleranzen und/oder Schwellenwerte festgelegt werden, ab denen ein Fehlerfall detektiert wird. Die Toleranzen und/oder Schwellenwerte können im Rahmen einer Simulation und/oder auf Basis von Tests an Fahrzeugen (z.B. im Rahmen der Entwicklung) ermittelt werden.
Wenn auf Basis des Vergleichs der Belohnungen 302, 402 ein Fehler detektiert wird, so kann ein Hinweis an den Fahrer des Fahrzeugs und/oder an eine Wartungs-Organisation zur Wartung des Fahrzeugs ausgegeben werden. Ggf. kann veranlasst werden, dass der Fahrer des Fahrzeugs manuell die Führung des Fahrzeugs übernimmt, wenn erkannt wird, dass aufgrund des detektierten Fehlers (z.B. eines Fehlers des Energiespeichers 105) kein automatisierter Fahrbetrieb mehr möglich ist.
Die Belohnungen 302, 402 können z.B. eine Funktion des Batteriestroms in den oder aus dem Energiespeicher 105 und/oder der Auslastung des Generators 107 sein. Wenn beispielsweise die Belohnungen 302, 402 eine Funktion des Batteriestroms sind und wenn der Funktionsfähigkeitszustand des Generators 107 (z.B. aufgrund der Sensordaten eines dedizierten Sensors) bekannt ist, so kann die berechnete Abweichung der vorhergesagten Belohnung 302 von der tatsächlichen Belohnung 402 als quantitativer Indikator auf die Funktionsfähigkeit des Energiespeichers 105 verwendet werden. Andererseits kann aus der Abweichung der Belohnungen 402, 402 in Bezug auf die Auslastung des Generators 107 auf die Funktionsfähigkeit des Generators 107 geschlossen werden.
Wenn die Belohnung 302, 402 eine Funktion des Batteriestroms und der Generatorauslastung ist, so kann die Gewichtung der beiden Einflussgrößen innerhalb der Belohnung 302, 402 für die Interpretation der Abweichung der vorhergesagten Belohnung 302 von der tatsächlichen Belohnung 402 verwendet werden. Insbesondere können die Gewichte der einzelnen Belohnungskomponenten dafür verwendet werden, zu entscheiden, welche Bordnetz-Komponente 105, 106, 107 beeinträchtigt ist.
5 zeigt ein Ablaufdiagramm eines beispielhaften (ggf. Computerimplementierten) Verfahrens 500 zur Überwachung eines Energiebordnetzes 100 (eines Kraftfahrzeugs), das unterschiedliche Bordnetz-Komponenten 105, 106, 107 (z.B. einen elektrischen Energiespeicher 105, ein oder mehrere elektrische Verbraucher 106 und/oder einen Generator 107) umfasst und das anhand eines Maschine-erlernten Energiemanagementsystems 101 betrieben wird. Das Energiemanagementsystem 101 kann dabei mittels Reinforcement Learning für ein Referenz-Bordnetz angelernt worden sein. Dabei kann das Referenz-Bordnetz dem Energiebordnetz 100 für den Fall entsprechen, dass das Energiebordnetz 100 ausschließlich fehlerfreie und/oder nicht beeinträchtigte Bordnetz-Komponenten 105, 106, 107 aufweist.
Das Verfahren 500 umfasst das Ermitteln 501, für einen Zustand 306 des Bordnetzes 100 und für eine basierend auf dem Zustand 306 von dem Energiemanagementsystem 101 bewirkte Aktion 304, einer Referenz-Belohnung 302, die sich bei Betrieb des Referenz-Bordnetzes ergeben würde. Dabei kann eine Referenzeinheit 400 verwendet werden, die ausgebildet ist, für ein Zustands-Aktions-Paar jeweils die Referenz-Belohnung bereitzustellen. Die Referenzeinheit 400 kann beim Anlernen des Energiemanagementsystems 101 mittels Reinforcement Learning mit angelernt worden sein.
Des Weiteren umfasst das Verfahren 500 das Ermitteln 502, für den Zustand 306 und für die Aktion 304, einer tatsächlichen Belohnung 402, die sich bei Betrieb des Energiebordnetzes 100 ergibt. Die tatsächliche Belohnung 402 kann dabei auf Basis von Messwerten für ein oder mehrere Messgrößen des Energiebordnetzes 100 ermittelt werden.
Das Verfahren 500 umfasst ferner das Überwachen 503 des Energiebordnetzes 100 auf Basis der tatsächlichen Belohnung 402 und auf Basis der Referenz-Belohnung 302, insbesondere auf Basis eines Vergleichs der tatsächlichen Belohnung 402 und der Referenz-Belohnung 302. Dabei kann insbesondere auf Basis der tatsächlichen Belohnung 402 und auf Basis der Referenz-Belohnung 302 eine beeinträchtigte Bordnetz-Komponente 105, 106, 107 identifiziert werden.
Durch die in diesem Dokument beschriebenen Maßnahmen können der Komfort und die Sicherheit eines Energiebordnetzes 100 (für ein Fahrzeug) erhöht werden. Dabei kann es ermöglicht werden, vorherzusagen, ob das Energiebordnetz 100 oder Teile 105, 106, 107 des Energiebordnetzes 100 die an das Bordnetz 100 gestellten Anforderungen nicht mehr erfüllen. So können Komponenten 105, 106, 107, für die eine Verschlechterung vorhergesagt wird, frühzeitig repariert oder ausgetauscht werden, bevor eine spürbare Beeinträchtigung des Bordnetzes 100 vorliegt. Ferner kann durch die beschriebenen Maßnahmen eine sichere Energieversorgung für ein automatisiert fahrendes Fahrzeugs bereitgestellt werden. Des Weiteren können Qualitätsschwankungen bei den Komponenten 105, 106, 107 eines Bordnetzes 100 erkannt werden.
Die vorliegende Erfindung ist nicht auf die gezeigten Ausführungsbeispiele beschränkt. Insbesondere ist zu beachten, dass die Beschreibung und die Figuren nur das Prinzip der vorgeschlagenen Verfahren, Vorrichtungen und Systeme veranschaulichen sollen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Heimrath et al., „Reflex-Augmented Reinforcement Learning for Operating Strategies in Automotive Electrical Energy Management‟, Proceeding of the 2019 International Conference on Computing, Electronics & Communications Engineering, IEEE, 2019, pp. 62-67 [0058]

Claims

Vorrichtung (450) zur Überwachung eines Energiebordnetzes (100), das unterschiedliche Bordnetz-Komponenten (105, 106, 107) umfasst und das anhand eines Maschine-erlernten Energiemanagementsystems (101) betrieben wird; wobei das Energiemanagementsystem (101) mittels Reinforcement Learning für ein Referenz-Bordnetz angelernt wurde; wobei die Vorrichtung (450) umfasst, - eine Referenzeinheit (400), die eingerichtet ist, für einen Zustand (306) des Energiebordnetzes (100) und für eine basierend auf dem Zustand (306) von dem Energiemanagementsystem (101) bewirkte Aktion (304) eine Referenz-Belohnung (302) zu ermitteln, die sich bei Betrieb des Referenz-Bordnetzes ergeben würde; - eine Belohnungseinheit (410), die eingerichtet ist, für den Zustand (306) und für die Aktion (304) eine tatsächliche Belohnung (402) zu ermitteln, die sich bei Betrieb des Energiebordnetzes (100) ergibt; und - eine Überwachungseinheit (420), die eingerichtet ist, das Energiebordnetz (100) auf Basis der tatsächlichen Belohnung (402) und auf Basis der Referenz-Belohnung (302), insbesondere auf Basis eines Vergleichs der tatsächlichen Belohnung (402) und der Referenz-Belohnung (302), zu überwachen.
Vorrichtung (450) gemäß Anspruch 1, wobei die Referenzeinheit (400) im Rahmen eines Anlernvorgangs des Maschine-erlernten Energiemanagementsystems (101) angelernt wurde, insbesondere anhand von Belohnungen (302), die sich im Rahmen eines Anlernvorgangs des Maschine-erlernten Energiemanagementsystems (101) für unterschiedliche Kombinationen von Zuständen (306) und Aktionen (304) ergeben haben.
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei - die Referenz-Belohnung (302) und/oder die tatsächliche Belohnung (402) jeweils ein oder mehrere Belohnungskomponenten umfassen; und - die ein oder mehreren Belohnungskomponenten umfassen, - eine Belohnungskomponente in Bezug auf einen Strom und/oder in Bezug auf eine Spannung innerhalb des Energiebordnetzes (100) und/oder an einer Bordnetz-Komponente (105, 106, 107); - eine Belohnungskomponente in Bezug auf eine Last und/oder in Bezug auf eine Belastung einer Bordnetz-Komponente (105, 106, 107); und/oder - eine Belohnungskomponente in Bezug auf einen Ladezustand eines Energiespeichers (105) des Energiebordnetzes (100).
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (450), insbesondere die Überwachungseinheit (420), eingerichtet ist, - eine Abweichung der tatsächlichen Belohnung (402) von der Referenz-Belohnung (302), insbesondere eine Abweichung einer Belohnungskomponente der tatsächlichen Belohnung (402) von einer entsprechenden Belohnungskomponente der Referenz-Belohnung (302), zu ermitteln; und - auf Basis der Abweichung, insbesondere durch Vergleich mit einem Abweichungs-Schwellenwert, zu bestimmen, ob eine Bordnetz-Komponente (105, 106, 107) beeinträchtigt ist oder nicht.
Vorrichtung (450) gemäß Anspruch 4, wobei - die tatsächliche Belohnung (402) und die Referenz-Belohnung (302) jeweils eine Belohnungskomponente für eine bestimmte Bordnetz-Komponente (105, 106, 107) umfassen; und - die Vorrichtung (450), insbesondere die Überwachungseinheit (420), eingerichtet ist, auf Basis der Abweichung der Belohnungskomponenten der tatsächlichen Belohnung (402) und der Referenz-Belohnung (302) für die bestimmte Bordnetz-Komponente (105, 106, 107) zu bestimmen, ob die bestimmte Bordnetz-Komponente (105, 106, 107) beeinträchtigt ist oder nicht.
Vorrichtung (450) gemäß einem der Ansprüche 4 bis 5, wobei der Abweichungs-Schwellenwert durch Simulation und/oder durch Tests im Vorfeld ermittelt wurde, insbesondere spezifisch für eine Mehrzahl von unterschiedlichen Bordnetz-Komponenten (105, 106, 107) des Energiebordnetzes (100) und/oder für eine entsprechende Mehrzahl von unterschi edli chen Belohnungskomponenten.
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei - die tatsächliche Belohnung (402) und die Referenz-Belohnung (302) von ein oder mehreren messbaren Größen des Energiebordnetzes (100) abhängen; - die tatsächliche Belohnung (402) und die Referenz-Belohnung (302) insbesondere ein oder mehrere Belohnungskomponenten für die entsprechenden ein oder mehreren messbaren Größen des Energiebordnetzes (100) umfassen; und - die Belohnungseinheit (410) eingerichtet ist, - Messwerte für die ein oder mehreren messbaren Größen zu ermitteln, die sich infolge der bewirkten Aktion (304) bei Betrieb des Energiebordnetzes (100) ergeben; und - die tatsächliche Belohnung (402) auf Basis der Messwerte für die ein oder mehreren messbaren Größen zu ermitteln.
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei - das Maschine-erlernte Energiemanagementsystem (101) zumindest einen Regler (150) umfasst, der ausgebildet ist, eine messbare Größe des Energiebordnetzes (100) auf einen Sollwert zu regeln; und - die tatsächliche Belohnung (402) und die Referenz-Belohnung (302) von einer Abweichung eines Istwertes der messbaren Größe von dem Sollwert bei Betrieb des Referenz-Bordnetzes bzw. bei Betrieb des Energiebordnetzes (100) abhängen.
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei die Referenzeinheit (400) zumindest ein neuronales Netz (200) umfasst.
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei die Vorrichtung (450), insbesondere die Überwachungseinheit (420), eingerichtet ist, - auf Basis der tatsächlichen Belohnung (402) und auf Basis der Referenz-Belohnung (302) zu bestimmen, ob eine Bordnetz-Komponente (105, 106, 107) beeinträchtigt ist oder nicht; und - einen Hinweis in Bezug auf die Bordnetz-Komponente (105, 106, 107) auszugeben, wenn bestimmt wird, dass die Bordnetz-Komponente (105, 106, 107) beeinträchtigt ist.
Vorrichtung (450) gemäß einem der vorhergehenden Ansprüche, wobei das Referenz-Bordnetz dem Energiebordnetz (100) mit fehlerfreien und/oder nicht-beeinträchtigten Bordnetz-Komponenten (105, 106, 107) entspricht.
Verfahren (500) zur Überwachung eines Energiebordnetzes (100), das unterschiedliche Bordnetz-Komponenten (105, 106, 107) umfasst und das anhand eines Maschine-erlernten Energiemanagementsystems (101) betrieben wird; wobei das Energiemanagementsystem (101) mittels Reinforcement Learning für ein Referenz-Bordnetz angelernt wurde; wobei das Verfahren (500) umfasst, - Ermitteln (501), für einen Zustand (306) des Energiebordnetzes (100) und für eine basierend auf dem Zustand (306) von dem Energiemanagementsystem (101) bewirkte Aktion (304), einer Referenz-Belohnung (302), die sich bei Betrieb des Referenz-Bordnetzes ergeben würde; - Ermitteln (502), für den Zustand (306) und für die Aktion (304), einer tatsächlichen Belohnung (402), die sich bei Betrieb des Energiebordnetzes (100) ergibt; und - Überwachen (503) des Energiebordnetzes (100) auf Basis der tatsächlichen Belohnung (402) und auf Basis der Referenz-Belohnung (302), insbesondere auf Basis eines Vergleichs der tatsächlichen Belohnung (402) und der Referenz-Belohnung (302).