DE102021208722A1

DE102021208722A1 - Konfigurieren eines neuronalen Netzwerks auf äquivariantes oder invariantes Verhalten

Info

Publication number: DE102021208722A1
Application number: DE102021208722.1A
Authority: DE
Inventors: Elise van der Pol; Frans A. Oliehoek; Herke van Hoof; Max Welling; Michael Herman
Original assignee: Robert Bosch GmbH; Technische Universiteit Delft
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-02-16
Also published as: US20230050283A1; CN115705718A

Abstract

Verfahren (100) zum Konfigurieren eines neuronalen Netzwerks (1), das dazu ausgebildet ist, Messdaten (2) auf eine oder mehrere Ausgangsgrößen (3) abzubilden, mit den Schritten:• es werden eine oder mehrere Transformationen (2a) der Messdaten (2) benannt (110), bei deren Anwendung auf die Messdaten (2) sich die von dem neuronalen Netzwerk (1) gelieferten Ausgangsgrößen (3) invariant oder äquivariant verhalten sollen;• es wird mindestens eine Gleichung (4) aufgestellt (120), die eine Bedingung dafür, dass die gewünschte Invarianz oder Äquivarianz gegeben ist, mit der Architektur (1a) des neuronalen Netzwerks (1) verknüpft;• durch Lösen (130) der mindestens einen Gleichung (4) wird mindestens ein Merkmal (5) erhalten, das die gesuchte Architektur (1a), und/oder eine Verteilung von Gewichten des neuronalen Netzwerks (1) an mindestens einem Ort in dieser Architektur (1a), charakterisiert;• mindestens ein neuronales Netzwerk (1) wird so konfiguriert (140), dass seine Architektur (1a), und/oder seine Verteilung von Gewichten an mindestens einem Ort in dieser Architektur, alle so ermittelten Merkmale (5) aufweist.

Description

Die vorliegende Erfindung betrifft neuronale Netzwerke, die beispielsweise für die Verarbeitung von an Bord eines Fahrzeugs gesammelten Sensordaten verwendet werden können.
Stand der Technik
Wenn ein menschlicher Fahrer das Führen eines Fahrzeugs erlernt, sitzt er im Verlauf seiner Ausbildung typischerweise weniger als 100 Stunden hinter dem Steuer und legt weniger als 1000 km zurück. Anschließend wird von ihm erwartet, dass er auch ungesehene Situationen bewältigt, also beispielsweise das Fahrzeug auch dann im Winter führen kann, wenn er seine sämtlichen Fahrstunden im Sommer absolviert hat.
Beim zumindest teilweise automatisierten Führen von Fahrzeugen wird dieser Lernprozess mit neuronalen Netzwerken abgebildet. Nach einem Training mit Messdaten aus einer Vielzahl von Situationen mit hinreichender Variabilität wird von dem neuronalen Netzwerk erwartet, dass es auch auf ungesehene Situationen generalisiert.
Der größte Kostenfaktor hierbei ist das „Einfahren“ von Trainingsdaten auf Testfahrten sowie das größtenteils manuelle „Labeln“ dieser Trainingsdaten mit Soll-Ausgaben, die das neuronale Netzwerk ausgeben soll, wenn ihm diese Trainingsdaten zugeführt werden. Daher werden auch synthetische Trainingsdaten mit vorab bekannten Soll-Ausgaben verwendet. Die DE 10 2018 204 494 B3 offenbart ein derartiges Verfahren für Radardaten.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Konfigurieren eines neuronalen Netzwerks entwickelt. Dieses neuronale Netzwerk ist dazu ausgebildet, Messdaten auf eine oder mehrere Ausgangsgrößen abzubilden.
Bei diesem Verfahren werden eine oder mehrere Transformationen der Messdaten benannt, bei deren Anwendung auf die Messdaten sich die von dem neuronalen Netzwerk gelieferten Ausgangsgrößen invariant oder äquivariant verhalten sollen. Äquivariant bedeutet, dass sich die Ausgangsgrößen in Abhängigkeit der Transformation in vorhersehbarer Weise ändern.
Wenn das neuronale Netzwerk beispielsweise verwendet wird, um in Bildern sichtbare Objekte zu klassifizieren, dann sollte ein und dasselbe Objekt unabhängig von seiner Größe im Bild oder von der Perspektive, unter der das Objekt betrachtet wird, immer gleich klassifiziert werden. Die Klassifikation sollte also gegenüber einer Skalierung des Bildes oder einer Änderung der Perspektive invariant sein.
Wenn das neuronale Netzwerk beispielsweise verwendet wird, um die Position von Objekten in einem Bild zu ermitteln, dann sollte sich die ermittelte Position bei einer Verschiebung des eingegebenen Bildes analog zu dieser Verschiebung ändern.
Es wird mindestens eine Gleichung aufgestellt, die eine Bedingung dafür, dass die gewünschte Invarianz oder Äquivarianz gegeben ist, mit der Architektur des neuronalen Netzwerks verknüpft. Dies kann insbesondere beispielsweise beinhalten, dass die Gleichung mindestens einen Parameter und/oder Hyperparameter, von dem der Aufbau und/oder das grundsätzliche Verhalten des neuronalen Netzwerks oder eines Teils hiervon abhängen, mit der Bedingung für die Invarianz oder Äquivarianz verknüpft.
Durch Lösen der mindestens einen Gleichung wird mindestens ein Merkmal erhalten, das die gesuchte Architektur, und/oder eine Verteilung von Gewichten des neuronalen Netzwerks an mindestens einem Ort in dieser Architektur, charakterisiert. Mindestens ein neuronales Netzwerk wird so konfiguriert, dass seine Architektur, und/oder seine Verteilung von Gewichten an mindestens einem Ort in dieser Architektur, alle so ermittelten Merkmale aufweist.
Die Verteilung der Gewichte kann beispielsweise als eine Gleichung angegeben werden, in der die Gewichte auf beiden Seiten vorkommen. Für alle Konfigurationen von Gewichten, die zu der Verteilung gehören, ist die Gleichung erfüllt.
Es wurde erkannt, dass auf diese Weise das neuronale Netzwerk von vornherein so konfiguriert werden kann, dass seine Ausgabe unter vorgegebenen gewünschten Transformationen äquivariant oder invariant ist. Entsprechendes Vorwissen, wie auch etwa Wissen über Symmetrien der vorliegenden Anwendung, kann also bereits direkt in die Architektur des neuronalen Netzwerks eingebracht werden und muss von diesem Netzwerk also nicht mehr gelernt werden. Die Invarianz bzw. Äquivarianz hat zur Folge, dass mindestens an einem bestimmten Punkt im neuronalen Netzwerk immer eine Repräsentation der Messdaten entsteht, die sich beim Transformieren der Messdaten nicht oder nur in vorhersehbarer Weise ändert.
Das Einbringen des Vorwissens auf diese Weise ist viel spezifischer und eindeutiger als beispielsweise dem neuronalen Netzwerk eine große Zahl von Ansichten eines Objekts aus verschiedenen Perspektiven zu präsentieren, damit das neuronale Netzwerk daraus lernen möge, dass alle diese Ansichten das gleiche Objekt zeigen. Zugleich wird der Aufwand, entsprechende Trainingsdaten zu beschaffen, eingespart. Der Aufwand für die Beschaffung von Trainingsdaten kann also auf die Kernaufgabe fokussiert werden, für deren Bewältigung das neuronale Netzwerk trainiert werden soll.
Somit kann das neuronale Netzwerk nach dem Konfigurieren in der für die jeweilige Aufgabe üblichen Weise trainiert werden.
Beispielsweise können im Rahmen eines überwachten Trainings mit Lern-Messdaten und Lern-Ausgangsgrößen die Gewichte des neuronalen Netzwerks auf das Ziel optimiert werden, dass das neuronale Netzwerk die Lern-Messdaten möglichst gut auf die Lern-Ausgangsgrößen abbildet.
Die Gewichte des neuronalen Netzwerks können aber auch beispielsweise im Rahmen eines Reinforcement Learnings in einem Markow-Entscheidungsprozess auf das Ziel optimiert werden, dass bei Heranziehung der Ausgangsgrößen des neuronalen Netzwerks für die Entscheidung mindestens eines Akteurs dieses Markow-Entscheidungsprozesses eine erzielte Belohnung (Reward) maximiert wird.
In einer besonders vorteilhaften Ausgestaltung beinhaltet die mindestens eine Gleichung

• eine Funktion ϕ_u, die eine Fortentwicklung der Merkmale von Schichten des neuronalen Netzwerks beim Übergang von einer Schicht zur nächsten beschreibt, und/oder
• eine Funktion ϕ_m, die einen Informationsfluss innerhalb des neuronalen Netzwerks in Abhängigkeit der Architektur des neuronalen Netzwerks beschreibt.

Die Funktionen ϕ_u und ϕ_m, können insbesondere beispielsweise als lineare Schichten mit anschließender nichtlinearer Aktivierungsfunktion ausgebildet sein. Mit ihnen können zwei für das Konfigurieren des Netzwerks besonders einsichtige Aspekte modelliert werden.
Die Funktionen ϕ_u und ϕ_m, eignen sich insbesondere beispielsweise zum Modellieren eines als Graph ausgebildeten neuronalen Netzwerks, in dem mit Merkmalen hi belegte Knoten durch Kanten e_ij verbunden sind. Mit derartigen Netzwerken können insbesondere Daten verarbeitet werden, die mit Graphen beschreibbare Zusammenhänge zwischen ihren Bestandteilen enthalten.
Die Funktion ϕ_m kann dann beispielsweise modellieren, dass Nachrichten $m_{j \to i}^{l}$
in einer Schicht I vom Knoten j zum Knoten i geschickt werden: $m_{j \to i}^{l} = ϕ_{m} (e_{i j}, h_{j}^{l}),$
worin e_ij die Kante zwischen den Knoten i und j bezeichnet. Als Rechengröße für diese Kante e_ij kann beispielsweise die Beschreibung einer Kante e_ij als Differenzvektor zwischen Orten der Knoten i und j, verwendet werden.
Somit verknüpft die Funktion ϕ_m vorteilhaft den Informationsfluss $m_{j \to i}^{l}$
vom Knoten j zum Knoten i in der Schicht I mit einer Kante(nlänge) e_ij zwischen den Knoten i und j sowie mit Merkmalen $h_{j}^{l}$
des j-ten Knotens in der Schicht I.
Alle Nachrichten, die ein Knoten i von anderen Knoten j empfängt, können mit einer permutationsinvarianten Aggregationsfunktion, wie etwa der Summe oder dem Maximum aggregiert werden: $m_{i}^{l} = \sum_{j = i}^{| N_{i} |} m_{j \to i} .$
Hierin bezeichnet N_i die Menge der Nachbarn des Knoten i.
Die Fortentwicklung von einer Schicht zur nächsten kann dann beispielsweise geschrieben werden als: $h_{i}^{l + 1} = ϕ_{u} (h_{i}^{l}, m_{i}^{l}) .$
Somit verknüpft die Funktion ϕ_u vorteilhaft Merkmale $k_{i}^{l + 1}$
des i-ten Knotens in der Schicht I+1 mit Merkmalen hi des i-ten Knotens in der Schicht I sowie dem von diesem Knoten insgesamt empfangenen Informationsfluss $m_{i}^{l} .$
In einer besonders vorteilhaften Ausgestaltung wird mindestens eine Gruppe G von Transformationen g benannt, für die die gewünschte Invarianz oder Äquivarianz der Ausgangsgrößen gelten soll. Die Invarianz oder Äquivarianz ist dann für unendlich viele Abwandlungen der Transformationen g gültig, die ebenfalls wieder zu der Gruppe gehören. Beispielsweise können Äquivarianzbedingungen in der Form $P_{g} [m_{j \to i}^{l}] = ϕ_{m} (R_{g} [e_{i j}], K_{g} [h_{j}^{l}]) \forall g \in G,$
$L_{g} [h_{i}^{l + 1}] = ϕ_{u} (K_{g} [h_{i}^{l}], P_{g} [m_{i}^{l}]) \forall g \in G,$
geschrieben werden. Hierin repräsentieren K_g, P_g und L_g Permutationen der Gruppe G, die auf den Gruppenkanälen $h_{j}^{l}, m_{j \to i}^{l} bzw . h_{i}^{l + 1}$
wirken. In der Praxis kann häufig K_g=P_g=L_g gewählt werden. R_g repräsentiert eine Rotationsmatrix, die auf die Kante e_ij wirkt.
In einer weiteren vorteilhaften Ausgestaltung wird die mindestens eine Gleichung in Hyperparametern ausgedrückt, die die Architektur des neuronalen Netzwerks charakterisieren, und wobei das Lösen der mindestens einen Gleichung auf Werte der Hyperparameter als Merkmale führt. Hierbei kann der Fall eintreten, dass beispielsweise nur ganzzahlige Werte für die Hyperparameter möglich sind (etwa für eine Anzahl von Knoten oder Schichten im neuronalen Netzwerk), die exakte Lösung der Gleichung aber eine nicht-ganze Zahl ist. Die Rundung auf die nächste ganze Zahl liefert dann zumindest eine gute Näherung für das äquivariante bzw. invariante Verhalten. Was dann noch an der vollständigen Äquivarianz bzw. Invarianz fehlt, kann das neuronale Netzwerk aus den Trainingsdaten lernen.
In einer weiteren vorteilhaften Ausgestaltung werden Beobachtungen mehrerer Akteure eines zentralisierten oder dezentralisierten Markow-Entscheidungsprozesses als Messdaten gewählt. Ein dezentralisierter Markow-Entscheidungsprozess kann beispielsweise definiert sein durch:

• eine Menge von N Akteuren α = {α₁, ... , α_N};
• einen gemeinsamen Zustandsraum S = {S_i}_=1,...,N;
• einen gemeinsamen Aktionsraum A = (A}_i=1,...,N;
• eine Übergangsfunktion T: S × A × S → [0,1], die für einen Anfangszustand, eine durchgeführte Aktion und einen Endzustand jeweils angibt, mit welcher Wahrscheinlichkeit die durchgeführte Aktion ausgehend vom Anfangszustand in den Endzustand führt; und
• eine Belohnungsfunktion (Reward-Funktion) R:S × A → ℝ.

Der dezentrale Charakter eines derartigen Prozesses liegt darin, dass jeder einzelne Akteur nur einen Teil des Zustands beobachtet, aber alle Akteure gemeinsam den kompletten Zustand beobachten. Die Akteure können sich gegenseitig Nachrichten zusenden wie zuvor für Knoten eines Graphen beschrieben, während es zugleich keine allwissende globale Instanz gibt, die die Aktionen der einzelnen Akteure koordiniert.
Eine bei Vornahme einer vorgegebenen Aktion in einem gewissen Zustand des Markow-Entscheidungsprozesses zu erwartende Belohnung, und/oder eine Policy für mindestens einen Akteur, die einen vorgegebenen Zustand auf eine vorzunehmende Aktion abbildet, wird als Ausgangsgröße gewählt. Diese Ausgangsgröße wird dann äquivariant bzw. invariant bezüglich der vorgegebenen einen oder mehreren Transformationen. Es kann also festgelegt werden, dass diese Transformationen die auf der Grundlage der Ausgangsgröße getroffene Entscheidung nicht oder nur in vorhersehbarer Weise abändern.
Eine Policy repräsentiert die Strategie, nach der ein oder mehrere Akteure des Markow-Entscheidungsprozesses handeln. Eine einfache Policy für ein Fahrzeug wäre beispielsweise, unter Beachtung von Haltgeboten durch Ampeln und der Vorfahrt anderer Verkehrsteilnehmer immer möglichst die erlaubte Geschwindigkeit zu fahren.
Das invariante bzw. äquivariante Verhalten ist im Zusammenhang mit Markow-Entscheidungsprozessen besonders vorteilhaft, weil das bestärkte Lernen vergleichsweise „daten-ineffizient“ ist. Das heißt, dass für das Training im Vergleich zu anderen Aufgaben, wie etwa der Klassifikation von Messdaten, besonders viele Trainingsdaten benötigt werden, um ein brauchbares Resultat zu erzielen.
Das bestärkte Lernen innerhalb eines Markow-Entscheidungsprozesses kann beispielsweise mit dem „Q-Learning“ erfolgen, das für eine Kombination aus einem Zustand S und einer Aktion A den Erwartungswert Q des kumulierten Rewards R ermittelt. Dieser Erwartungswert Q beinhaltet die Folgewirkungen der Aktion A auf längere Sicht unter der aktuellen Policy. Der Q-Wert beschreibt die Güte einer Aktion und kann daher direkt als Strategie verwendet werden, indem in einem Zustand stets die Aktion mit dem größten Q-Wert ausgeführt wird.
Beispielsweise können die Beobachtungen Positionen x_i von Akteuren umfassen. Damit kann der Markow-Entscheidungsprozess insbesondere für die Modellierung von Verkehrssituationen eingesetzt werden. Die Positionen der anderen Verkehrsteilnehmer sind hiermit die wichtigsten Informationen, die ein jeder Verkehrsteilnehmer aufnehmen muss. Gleichwohl sind längst nicht alle an einer Verkehrssituation beteiligten Verkehrsteilnehmer in der Lage, die Positionen aller anderen Verkehrsteilnehmer zu beobachten, da die Sicht auf einen oder mehrere andere Verkehrsteilnehmer verdeckt sein kann und/oder ein oder mehrere andere Verkehrsteilnehmer für eine genaue Bestimmung ihrer Position zu weit entfernt sein können. Es können also im Rahmen der Verkehrssituation Verkehrsteilnehmer, die sich nicht direkt gegenseitig beobachten können, dennoch direkt oder indirekt zumindest dahingehend miteinander wechselwirken, dass die Anwesenheit des einen Verkehrsteilnehmers einen Einfluss auf Entscheidungen des anderen Verkehrsteilnehmers hat.
Somit wird in einer weiteren besonders vorteilhaften Ausgestaltung aus der zu erwartenden Belohnung, und/oder aus der Policy, ein Ansteuersignal für mindestens einen Roboter und/oder für mindestens ein Fahrzeug, und/oder für mindestens ein unbemanntes Fluggerät, ermittelt. Der Roboter, und/oder das Fahrzeug, und/oder das unbemannte Fluggerät, mit diesem Ansteuersignal angesteuert. Auf diese Weise ist die Wahrscheinlichkeit erhöht, dass das jeweils angesteuerte System auf die durch den Zustand im Zustandsraum S beschriebene Situation im Kontext der vorliegenden Anwendung im Verkehr angemessen reagiert.
In einer weiteren vorteilhaften Ausgestaltung wird ein Klassifikatornetzwerk, das die Messdaten auf Klassifikations-Scores bezüglich einer oder mehrerer Klassen einer vorgegebenen Klassifikation abbildet, als zu konfigurierendes neuronales Netzwerk gewählt. Wie zuvor erläutert, kann dann beliebiges Vorwissen dahingehend, welche Transformationen der Messdaten die Klassifikations-Scores nicht beeinflussen sollen, direkt in die Architektur des Klassifikatornetzwerks eingebracht werden.
In einer weiteren vorteilhaften Ausgestaltung wird aus den Klassifikations-Scores ein Ansteuersignal für mindestens einen Roboter und/oder für mindestens ein Fahrzeug, und/oder für mindestens ein unbemanntes Fluggerät, ermittelt. Der Roboter, und/oder das Fahrzeug, und/oder das unbemannte Fluggerät, wird mit diesem Ansteuersignal angesteuert. Auf diese Weise ist die Wahrscheinlichkeit erhöht, dass das jeweils angesteuerte System auf die durch die Messdaten beschriebene und in Form der Klassifikations-Scores ausgewertete Situation im Kontext der vorliegenden Anwendung im Verkehr angemessen reagiert.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Konfigurieren eines neuronalen Netzwerks 1;
2 Skizze eines Markow-Entscheidungsprozesses für die Videoüberwachung mit Drohnen;
3 Wirkung des Verfahrens 100 zum Konfigurieren eines neuronalen Netzwerks 1 in der in 2 gezeigten Anwendung.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Konfigurieren eines neuronalen Netzwerks 1, das Messdaten 2 auf eine oder mehrere Ausgangsgrößen 3 abbildet.
In Schritt 105 können Beobachtungen mehrerer Akteure eines zentralisierten oder dezentralisierten Markow-Entscheidungsprozesses als Messdaten 2 gewählt werden. Eine bei Vornahme einer vorgegebenen Aktion in einem gewissen Zustand des Markow-Entscheidungsprozesses zu erwartende Belohnung, und/oder eine Policy für mindestens einen Akteur, die einen vorgegebenen Zustand auf eine vorzunehmende Aktion abbildet, kann dann in Schritt 6 als Ausgangsgröße 3 des neuronalen Netzwerks 1 gewählt werden.
In Schritt 107 kann ein Klassifikatornetzwerk, das die Messdaten 2 auf Klassifikations-Scores bezüglich einer oder mehrerer Klassen einer vorgegebenen Klassifikation abbildet, als zu konfigurierendes neuronales Netzwerk 1 gewählt werden.
In Schritt 110 werden eine oder mehrere Transformationen 2a der Messdaten 2 benannt, bei deren Anwendung auf die Messdaten 2 sich die von dem neuronalen Netzwerk 1 gelieferten Ausgangsgrößen 3 invariant oder äquivariant verhalten sollen.
Gemäß Block 111 kann hierbei mindestens eine Gruppe G von Transformationen 2a benannt werden, für die die gewünschte Invarianz oder Äquivarianz der Ausgangsgrößen (3) gelten soll.
In Schritt 120 wird mindestens eine Gleichung 4 aufgestellt, die eine Bedingung dafür, dass die gewünschte Invarianz oder Äquivarianz gegeben ist, mit der Architektur 1a des neuronalen Netzwerks 1 verknüpft.
Diese mindestens eine Gleichung 4 kann gemäß Block 121 insbesondere beispielsweise eine Funktion ϕ_u beinhalten, die eine Fortentwicklung der Merkmale von Schichten des neuronalen Netzwerks 1 beim Übergang von einer Schicht zur nächsten beschreibt.
Alternativ oder in Kombination hierzu kann die mindestens eine Gleichung 4 gemäß Block 122 insbesondere beispielsweise eine Funktion ϕ_m beinhalten, die einen Informationsfluss innerhalb des neuronalen Netzwerks 1 in Abhängigkeit der Architektur 1a des neuronalen Netzwerks 1 beschreibt.
Insoweit das neuronale Netzwerk als Graph ausgebildet ist, in dem mit Merkmalen hi belegte Knoten durch Kanten e_ij verbunden sind, kann gemäß Block 121a die Funktion ϕ_u insbesondere beispielsweise Merkmale $h_{i}^{l + 1}$
des i-ten Knotens in der Schicht I+1 mit Merkmalen $h_{i}^{l}$
des i-ten Knotens in der Schicht I sowie dem von diesem Knoten insgesamt empfangenen Informationsfluss $m_{i}^{l}$
verknüpfen.
Alternativ oder auch in Kombination hierzu kann gemäß Block 122a die Funktion ϕ_m den Informationsfluss $m_{j \to i}^{l}$
vom Knoten j zum Knoten i in der Schicht I mit einer Kante e_ij zwischen den Knoten i und j sowie mit Merkmalen $h_{j}^{l}$
des j-ten Knotens in der Schicht I verknüpfen.
Gemäß Block 123 kann die mindestens eine Gleichung 4 in Hyperparametern ausgedrückt werden, die die Architektur 1a des neuronalen Netzwerks 1 charakterisieren. Die Hyperparameter können beispielsweise Anzahl, Größe und Typen von Schichten des neuronalen Netzwerks 1, und/oder von Neuronen oder anderen Verarbeitungseinheiten, aus denen diese Schichten zusammengesetzt sind, umfassen.
In Schritt 130 wird durch Lösen der mindestens einen Gleichung 4 mindestens ein Merkmal 5 erhalten, das die gesuchte Architektur 1a, und/oder eine Verteilung von Gewichten des neuronalen Netzwerks 1 an mindestens einem Ort in dieser Architektur 1a, charakterisiert.
Insoweit die Gleichung 4 von Hyperparametern abhängt, kann gemäß Block 131 das Lösen der mindestens einen Gleichung 4 auf Werte der Hyperparameter als Merkmale 5 führen.
In Schritt 140 wird mindestens ein neuronales Netzwerk 1 so konfiguriert, dass seine Architektur 1a, und/oder seine Verteilung von Gewichten an mindestens einem Ort in dieser Architektur, alle in Schritt 130 ermittelten Merkmale 5 aufweist.
In Schritt 150 kann, beispielswiese nach zwischenzeitlichem Training des konfigurierten neuronalen Netzwerks 1 und Beschickung dieses Netzwerks 1 mit Messdaten 2, aus einer zu erwartenden Belohnung, und/oder aus einer Policy, als Ausgangsgröße 3 im Rahmen eines Markow-Entscheidungsprozesses ein Ansteuersignal 6 für mindestens einen Roboter 50 und/oder für mindestens ein Fahrzeug 60, und/oder für mindestens ein unbemanntes Fluggerät 11-13, ermittelt werden.
In Schritt 160 kann, beispielsweise nach zwischenzeitlichem Training des konfigurierten neuronalen Netzwerks 1 und Beschickung dieses Netzwerks 1 mit Messdaten 2, aus durch das neuronale Netzwerk 1 ermittelten Klassifikations-Scores für die Messdaten 2 als Ausgangsgrößen 3 ebenfalls ein Ansteuersignal 6 für mindestens einen Roboter 50 und/oder für mindestens ein Fahrzeug 60, und/oder für mindestens ein unbemanntes Fluggerät 11-13, ermittelt werden.
Unabhängig davon, aus welcher Quelle das Ansteuersignal 6 bezogen wird, kann in Schritt 170 der Roboter 50, und/oder das Fahrzeug 60, und/oder das unbemannte Fluggerät 11-13, mit diesem Ansteuersignal 6 angesteuert werden.
In 2 ist beispielhaft ein Markow-Entscheidungsprozess für die Videoüberwachung mit Drohnen skizziert, in dem ein mit dem zuvor beschriebenen Verfahren 100 konfiguriertes neuronales Netzwerk 1 genutzt werden kann. Bei der Videoüberwachung müssen sich mehrere (in diesem Beispiel: drei) Drohnen 11-13 koordinieren, um einen Straftäter 14 ausfindig zu machen. Jede Drohne 11-13 hat eine senkrecht nach unten gerichtete Kamera und nimmt Bilder eines jeweiligen überwachten Bereichs 11a-13a auf. Damit der Straftäter 14 zuverlässig erkannt werden kann, muss er aus zwei verschiedenen Perspektiven erfasst werden. Er muss sich also im Überlappungsbereich U der Erfassungsbereiche 11a, 12a mindestens zweier Drohnen 11, 12 befinden. Jede Drohne 11-13, die in dieser Weise in einem Team von mindestens zwei Drohnen mithilft und einen Straftäter fasst, erhält im Rahmen des Markow-Entscheidungsprozesses eine Belohnung von +1. Auf der anderen Seite können sich zu keiner Zeit zwei Drohnen 11-13 am gleichen Ort befinden. Zudem ist bekannt, dass die gewählten Aktionen der Drohnen idealerweise äquivariant bezüglich Rotationen sein sollten. Wenn für eine gegebene Bildaufnahme die optimale Aktion zweier Drohnen die Vergrößerung ihrer Distanz in x-Richtung ist, dann sollte bei Rotation der aufgenommenen Bilder um 90° eine Vergrößerung der Distanz in y-Richtung folgen. Dies ist ein Beispiel für eine mögliche benannte Transformation in Schritt 110 des Verfahrens 100.
Da die Kameras senkrecht nach unten gerichtet sind, können sich die Drohnen 11-13 gegenseitig nicht sehen. Sie können nur ihre jeweiligen aktuellen Beobachtungen aus dem jeweiligen Erfassungsbereich 11a-13a übermitteln. Wenn der Markow-Entscheidungsprozess zentralisiert geführt wird, können diese Beobachtungen an eine zentrale Instanz übermittelt werden, die den Einsatz der Drohen 11-13 koordiniert. Wenn der Markow-Entscheidungsprozess dezentralisiert geführt wird, können die Beobachtungen einer Drohne 11-13 an andere Drohnen 11-13 in einem begrenzten räumlichen Umkreis übermittelt werden.
3a zeigt mittlere Belohnungen R, die im Rahmen des in 2 skizzierten Markow-Entscheidungsprozesses in der zentralisierten Variante erhalten wurden, über der Zeit t. Kurve a wurde für ein herkömmliches neuronales Netzwerk 1 erhalten. Kurve b wurde für ein mit dem zuvor beschriebenen Verfahren 100 konfiguriertes Netzwerk 1 erhalten, das gegenüber bestimmten Transformationen 2a der Beobachtungen (etwa Anpassen von Helligkeit oder Kontrast) von vornherein invariant und gegenüber anderen Transformationen 2a (etwa Rotationen) von vornherein äquivariant ist. Es ist deutlich sichtbar, dass die Leistung für das mit dem Verfahren 100 konfigurierte Netzwerk 1 sehr schnell zunimmt, während das herkömmliche neuronale Netzwerk 1 zunächst viel Energie darauf verwenden muss, die gewünschten Invarianzen und Äquivarianzen zu lernen.
3b wurde analog zu 3a erstellt mit dem Unterschied, dass der Markow-Entscheidungsprozess hier dezentralisiert geführt wurde. Im dezentralen Fall ist die Leistung des herkömmlichen neuronalen Netzwerks 1 insbesondere am Anfang deutlich besser als im zentralisierten Fall. Jedoch ist das mit dem Verfahren 100 konfigurierte neuronale Netzwerk 1 immer noch deutlich besser.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018204494 B3 [0004]

Claims

Verfahren (100) zum Konfigurieren eines neuronalen Netzwerks (1), das dazu ausgebildet ist, Messdaten (2) auf eine oder mehrere Ausgangsgrößen (3) abzubilden, mit den Schritten: • es werden eine oder mehrere Transformationen (2a) der Messdaten (2) benannt (110), bei deren Anwendung auf die Messdaten (2) sich die von dem neuronalen Netzwerk (1) gelieferten Ausgangsgrößen (3) invariant oder äquivariant verhalten sollen; • es wird mindestens eine Gleichung (4) aufgestellt (120), die eine Bedingung dafür, dass die gewünschte Invarianz oder Äquivarianz gegeben ist, mit der Architektur (1a) des neuronalen Netzwerks (1) verknüpft; • durch Lösen (130) der mindestens einen Gleichung (4) wird mindestens ein Merkmal (5) erhalten, das die gesuchte Architektur (1a), und/oder eine Verteilung von Gewichten des neuronalen Netzwerks (1) an mindestens einem Ort in dieser Architektur (1a), charakterisiert; • mindestens ein neuronales Netzwerk (1) wird so konfiguriert (140), dass seine Architektur (1a), und/oder seine Verteilung von Gewichten an mindestens einem Ort in dieser Architektur, alle so ermittelten Merkmale (5) aufweist.
Verfahren (100) nach Anspruch 1, wobei die mindestens eine Gleichung (4) • eine Funktion ϕ_u beinhaltet (121), die eine Fortentwicklung der Merkmale von Schichten des neuronalen Netzwerks (1) beim Übergang von einer Schicht zur nächsten beschreibt, und/oder • eine Funktion ϕ_m beinhaltet (122), die einen Informationsfluss innerhalb des neuronalen Netzwerks (1) in Abhängigkeit der Architektur (1a) des neuronalen Netzwerks (1) beschreibt.
Verfahren (100) nach Anspruch 2, wobei ein als Graph ausgebildetes neuronales Netzwerk (1), in dem mit Merkmalen $h_{i}^{l}$
belegte Knoten durch Kanten e_ij verbunden sind, gewählt wird.
Verfahren (100) nach Anspruch 3, wobei die Funktion ϕ_u Merkmale $h_{i}^{l + 1}$
des i-ten Knotens in der Schicht I+1 mit Merkmalen $h_{i}^{l}$
des i-ten Knotens in der Schicht I sowie dem von diesem Knoten insgesamt empfangenen Informationsfluss $m_{i}^{l}$
verknüpft (121a).
Verfahren (100) nach einem der Ansprüche 3 bis 4, wobei die Funktion ϕ_m den Informationsfluss $m_{j \to i}^{l}$
vom Knoten j zum Knoten i in der Schicht I mit einer Kante e_ij zwischen den Knoten i und j sowie mit Merkmalen $h_{j}^{l}$
des j-ten Knotens in der Schicht I verknüpft (122a).
Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei mindestens eine Gruppe G von Transformationen (2a, g) benannt wird (111), für die die gewünschte Invarianz oder Äquivarianz der Ausgangsgrößen (3) gelten soll.
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei die mindestens eine Gleichung (4) in Hyperparametern ausgedrückt wird (123), die die Architektur (1a) des neuronalen Netzwerks (1) charakterisieren, und wobei das Lösen (130) der mindestens einen Gleichung auf Werte der Hyperparameter als Merkmale (5) führt (131).
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei • Beobachtungen mehrerer Akteure eines zentralisierten oder dezentralisierten Markow-Entscheidungsprozesses als Messdaten (2) gewählt werden (105) und • eine bei Vornahme einer vorgegebenen Aktion in einem gewissen Zustand des Markow-Entscheidungsprozesses zu erwartende Belohnung, und/oder eine Policy für mindestens einen Akteur, die einen vorgegebenen Zustand auf eine vorzunehmende Aktion abbildet, als Ausgangsgröße (3) gewählt wird (106).
Verfahren (100) nach Anspruch 8, wobei die Beobachtungen Positionen x_i von Akteuren umfassen.
Verfahren (100) nach einem der Ansprüche 8 bis 9, wobei aus der zu erwartenden Belohnung, und/oder aus der Policy, ein Ansteuersignal (6) für mindestens einen Roboter (50) und/oder für mindestens ein Fahrzeug (60), und/oder für mindestens ein unbemanntes Fluggerät (11-13), ermittelt wird (150) und der Roboter (50), und/oder das Fahrzeug (60), und/oder das unbemannte Fluggerät (11-13), mit diesem Ansteuersignal (6) angesteuert wird (170).
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei ein Klassifikatornetzwerk, das die Messdaten (2) auf Klassifikations-Scores bezüglich einer oder mehrerer Klassen einer vorgegebenen Klassifikation abbildet, als zu konfigurierendes neuronales Netzwerk (1) gewählt wird (107).
Verfahren (100) nach Anspruch 11, wobei aus den Klassifikations-Scores ein Ansteuersignal (6) für mindestens einen Roboter (50) und/oder für mindestens ein Fahrzeug (60), und/oder für mindestens ein unbemanntes Fluggerät (11-13), ermittelt wird (160) und der Roboter (50), und/oder das Fahrzeug (60), und/oder das unbemannte Fluggerät (11-13), mit diesem Ansteuersignal (6) angesteuert wird (170).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100) nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.