DE102021208197A1

DE102021208197A1 - Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems

Info

Publication number: DE102021208197A1
Application number: DE102021208197.5A
Authority: DE
Inventors: Jan Hendrik Metzen; Benedikt Sebastian Staffler
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-02-02
Also published as: CN117836781A; WO2023006597A1

Abstract

Verfahren zum Erstellen eines maschinellen Lernsystems, umfassend folgende Schritte: Bereitstellen eines gerichteten Graphen mit einem Eingangs- und Ausgangsknoten, wobei jeder Kante jeweils eine Wahrscheinlichkeit zugeordnet ist, welche charakterisiert mit welcher Wahrscheinlichkeit eine Kante gezogen wird. Die Wahrscheinlichkeiten werden abhängig von einer Kodierung der aktuell gezogenen Kanten ermittelt.

Description

Die Erfindung betrifft ein Verfahren zum Erstellen eines maschinellen Lernsystems unter Verwendung eines Graphen, der eine Vielzahl von möglichen Architekturen des maschinellen Lernsystems beschreibt, ein Computerprogramm und ein maschinenlesbares Speichermedium.
Stand der Technik
Das Ziel einer Architektursuche insbesondere für neuronale Netzwerke ist, eine möglichst gute Netzwerkarchitektur im Sinne einer Leistungskennzahl/Metrik für einen vorgegebenen Datensatz vollautomatisch zu finden.
Um die automatische Architektursuche recheneffizient zu gestalten, können sich verschiedene Architekturen in dem Suchraum die Gewichte ihrer Operationen teilen, wie z.B. bei einem One-Shot NAS Modell, gezeigt durch Pham, H., Guan, M. Y., Zoph, B., Le, Q. V., & Dean, J. (2018). Efficient neural architecture search via parameter sharing. arXiv preprint arXiv:1802.03268.
Das One-Shot Modell wird dabei typischerweise als gerichteter Graph konstruiert, bei dem die Knoten Daten darstellen und die Kanten Operationen, welche eine Berechnungsvorschrift darstellen, die Daten des Eingangsknoten in Daten des Ausgangsknoten überführen. Der Suchraum besteht dabei aus Subgraphen (z.B. Pfade) in dem One-Shot Modell. Da das One-Shot Modell sehr groß sein kann, können einzelne Architekturen aus dem One-Shot Modell für das Training gezogen werden, wie z. B. gezeigt durch Cai, H., Zhu, L., & Han, S. (2018). ProxylessNAS: Direct neural architecture search on target task and hardware. arXiv preprint arXiv:1812.00332. Dies geschieht typischerweise in dem ein einzelner Pfad von einem festgelegten Eingangsknoten zu einem Ausgangsknoten des Netzwerkes gezogen wird, wie z.B. gezeigt durch Guo, Z., Zhang, X., Mu, H., Heng, W., Liu, Z., Wei, Y., & Sun, J. (2019). Single path one-shot neural architecture search with uniform sampling. arXiv preprint arXiv:1904.00420.
Die Autoren Cai et al. offenbaren in ihrer Veröffentlichung ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware, online abrufbar: https://arxiv.org/abs/1812.00332, eine Architektursuche, welche Hardwareeigenschaften berücksichtigt.
Vorteile der Erfindung
Wie oben beschrieben, werden aus einem One-Shot Modell Pfade zwischen Eingangs- und Ausgangsknoten gezogen. Dazu wird für jeden Knoten eine Wahrscheinlichkeitsverteilung über die ausgehenden Kanten definiert. Die Erfinder schlagen eine neuartige Parametrierung der Wahrscheinlichkeitsverteilung vor, die hinsichtlich Abhängigkeiten zwischen bereits gezogenen Kanten aussagekräftiger ist als die bisherig verwendeten Wahrscheinlichkeitsverteilungen. Der Zweck dieser neuartigen Parametrisierung ist es, Abhängigkeiten zwischen verschiedenen Entscheidungspunkten im Suchraum in die Wahrscheinlichkeitsverteilungen einfließen zu lassen. Eine solche Entscheidung kann beispielsweise die Auswahl eines neuronalen Netzbetriebes sein (wie Entscheidungen zwischen Faltungs- und Pooling-Operationen). Damit können zum Beispiel allgemeine Muster wie „zwei Faltungsschichten sollten von einer Pooling-Operation gefolgt werden“ erlernt werden. Die bisherigen Wahrscheinlichkeitsverteilungen konnten nur einfache Entscheidungsregeln erlernen, wie „eine bestimmte Faltung sollte an einem bestimmten Entscheidungspunkt gewählt werden“, da sie eine voll faktorisierte Parametrisierung der Architekturverteilung verwendeten.
Zusammenfassend kann also gesagt werden, dass die Erfindung den Vorteil hat, dass über die vorgeschlagene Parametrisierung der Wahrscheinlichkeitsverteilungen bessere Architekturen für eine gegebene Aufgabe aufgefunden werden können.
Offenbarung der Erfindung
In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum Erstellen eines maschinellen Lernsystems, welches vorzugsweise für eine Bildverarbeitung verwendet wird.
Das Verfahren umfasst zumindest folgende Schritte: Bereitstellen eines gerichteten Graphen mit mindestens einem Eingangs- und Ausgangsknoten, die über eine Mehrzahl von Kanten und Knoten verbunden sind. Der Graph, insbesondere das One-Shot Modell, beschreibt ein Supermodel umfassend eine Vielzahl von möglichen Architekturen des maschinellen Lernsystems.
Daraufhin folgt ein zufälliges Ziehen einer Mehrzahl von Pfaden durch den gerichteten Graphen, insbesondere von Subgraphen des gerichteten Graphen, wobei den Kanten jeweils eine Wahrscheinlichkeit zugeordnet ist, welche charakterisiert mit welcher Wahrscheinlichkeit die jeweilige Kante gezogen wird. Die Besonderheit hierbei ist, dass die Wahrscheinlichkeiten abhängig von einer Reihenfolge bisherig gezogener Kanten des jeweiligen Pfades ermittelt werden. Die Wahrscheinlichkeiten der möglichen nachfolgenden zu ziehenden Kanten werden also abhängig von einem bis dahin gezogenen Abschnitt des Pfads durch den gerichteten Graphen ermittelt. Der bisher gezogene Abschnitt kann als Teilpfad bezeichnet werden und kann die bisherig gezogenen Kanten aufweisen, wobei iterativ nachfolgend gezogene Kanten hinzugefügt werden können, bis der Eingangsknoten mit dem Ausgangsknoten verbunden ist, also dann der gezogene Pfad vorliegt. Vorzugsweise werden die Wahrscheinlichkeiten auch abhängig von den Operationen, die den jeweiligen Kanten zugeordnet sind, ermittelt.
Es sei angemerkt, dass das Ziehen des Pfades iterativ erfolgen kann. Also ein schrittweises Erstellen des Pfades durch ein nacheinander folgendes Ziehen der Kanten erfolgt, wobei an jedem erreichten Knoten des Pfades die nachfolgende Kante zufällig aus den möglichen nachfolgenden Kanten, die mit diesem Knoten verbunden sind, abhängig von deren zugeordneten Wahrscheinlichkeiten ausgewählt werden können.
Ferner sei angemerkt, dass ein Pfad als ein Subgraph des gerichteten Graphen verstanden kann werden, welcher eine Untermenge der Kanten und Knoten des gerichteten Graphen aufweist, und wobei dieser Subgraph den Eingangsknoten mit dem Ausgangsknoten des gerichteten Graphen verbindet.
Anschließend folg ein Anlernen der den gezogenen Pfaden korrespondierenden maschinellen Lernsysteme, wobei beim Anlernen Parameter des maschinellen Lernsystems und insbesondere die Wahrscheinlichkeiten der Kanten des Pfades angepasst werden, sodass eine Kostenfunktion optimiert wird.
Daraufhin folg ein letztes Ziehen eines Pfades abhängig von den angepassten Wahrscheinlichkeiten und Erstellen des diesem Pfad korrespondierenden maschinellen Lernsystems. Das letzte Ziehen des Pfades in dem letzten Schritt kann zufällig erfolgen oder es werden gezielt die Kanten mit den höchsten Wahrscheinlichkeiten gezogen.
Es wird vorgeschlagen, dass eine Funktion die Wahrscheinlichkeiten der Kanten abhängig von der Reihenfolge der bisherigen gezogenen Kanten ermittelt, wobei die Funktion parametrisiert ist und die Parametrisierung der Funktion beim Anlernen abhängig von der Kostenfunktion optimiert wird. Vorzugsweise ist einer jeden Kante eine eigene Funktion zugeordnet, welche abhängig von der Reihenfolge der bisherig gezogenen Kanten des Teilpfades eine Wahrscheinlichkeit ermittelt.
Ferner wird vorgeschlagen, dass den bisherig gezogenen Kanten und/oder Knoten eine eindeutige Kodierung zugeordnet wird und die Funktion abhängig von dieser Kodierung die Wahrscheinlichkeit ermittelt. Vorzugsweise wird hierfür jeder Kante ein eindeutiger Index zugeordnet.
Ferner wird vorgeschlagen, dass die Funktion eine Wahrscheinlichkeitsverteilung über die möglichen Kanten, aus einer Menge von Kanten, die als nächstes gezogen werden können, ermittelt. Besonders bevorzugt ist jedem Knoten eine eigene Funktion zugeordnet, wobei die Funktionen für alle Kanten, die den jeweiligen Knoten mit unmittelbaren nachfolgende Nachbarknoten des Graphen verbinden, die Wahrscheinlichkeitsverteilung über diese Kanten ermittelt.
Ferner wird vorgeschlagen, dass die Funktion eine affine Transformation oder ein neuronales Netz (wie z.B. ein Transformer) ist.
Ferner wird vorgeschlagen, dass die Parametrisierung der affinen Transformation eine lineare Transformation und eine Verschiebung der eindeutigen Kodierung beschreibt. Um die lineare Transformation parametereffizienter zu gestalten, kann die lineare Transformation eine sog. Low-Rank Approximierung der linearen Transformation sein.
Ferner wird vorgeschlagen, dass jedem Knoten ein neuronales Netz zum Ermitteln der Wahrscheinlichkeiten zugeordnet ist und eine Parametrisierung der ersten Schichten der neuronalen Netze zwischen allen neuronalen Netzen geteilt werden kann. Besonders bevorzugt teilen sich die neuronalen Netze alle Parameter bis auf die Parameter der letzten Schicht.
Ferner wird vorgeschlagen, dass die Kostenfunktion eine erste Funktion aufweist, die eine Leistungsfähigkeit des maschinellen Lernsystems hinsichtlich dessen Performance bewertet, bspw. eine Genauigkeit einer Segmentierung, Objekterkennung oder ähnliches und optional eine zweite Funktion aufweist, welche abhängig von einer Länge des Pfades und den Operationen der Kanten eine Latenzzeit des maschinellen Lernsystems schätzt. Alternativ oder zusätzlich kann die zweite Funktion auch einen Computerressourcenverbrauch des Pfades schätzen.
Vorzugsweise ist das erstellte maschinelle Lernsystem ein künstliches neuronales Netz, welches zur Segmentierung und Objektdetektion in Bildern eingerichtet sein kann.
Weiterhin wird vorgeschlagen, dass abhängig von einer Ausgabe des maschinellen Lernsystem ein technisches System angesteuert wird. Beispiele für das technische System sind in der nachfolgenden Figurenbeschreibung aufgezeigt.
In weiteren Aspekten betrifft die Erfindung ein Computerprogramm, das eingerichtet ist, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

1 schematische Darstellung eines Flussdiagramms einer Ausführungsform der Erfindung;
2 schematische Darstellung eines Aktor-Steuerungssystems;
3 ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
4 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
5 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
6 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
7 schematisch ein Ausführungsbeispiel zur Steuerung eines persönlichen Assistenten;
8 schematisch ein Ausführungsbeispiel zur Steuerung eines medizinisch bildgebenden Systems;
9 einen möglichen Aufbau einer Trainingsvorrichtung;

Um gute Architekturen von tiefen neuronalen Netzwerke für einen vorgegebenen Datensatz zu finden, können automatische Methoden zur Architektursuche angewandt werden, sogenannte Neural Architecture Search-Methoden. Dazu wird ein Suchraum von möglichen Architekturen neuronaler Netzwerke explizit oder implizit definiert.
Im Folgenden soll zur Beschreibung eines Suchraums ein Berechnungsgraph (das sogenannte One-Shot Modell) definiert werden, welcher eine Vielzahl von möglichen Architekturen in dem Suchraum als Subgraphen enthält. Da das One-Shot Modell sehr groß sein kann, können einzelne Architekturen aus dem One-Shot Modell für das Training gezogen werden. Dies geschieht typischerweise in dem einzelne Pfade von einem festgelegten Eingangsknoten zu einem festgelegten Ausgangsknoten des Netzwerkes gezogen werden.
Im einfachsten Fall, wenn der Berechnungsgraph aus einer Kette von Knoten besteht, die jeweils über verschiedene Operationen verbunden sein können, genügt es, für jeweils zwei aufeinander folgende Knoten die Operation zu ziehen welche sie verbindet.
Falls das One-Shot Modell allgemeiner ein gerichteter Graph ist, kann ein Pfad iterativ gezogen werden, in dem bei dem Input begonnen wird, dann der nächste Knoten und die verbindende Kante gezogen wird, wobei dieses Vorgehen iterativ bis zum Zielknoten fortgesetzt wird.
Das One-Shot Modell mit Ziehen kann dann trainiert werden, indem für jeden Mini-Batch eine Architektur gezogen wird und die Gewichte der Operationen in der gezogenen Architektur mittels eines Standard-Gradientenschrittverfahrens angepasst werden. Das Finden der besten Architektur kann entweder als separater Schritt nach dem Training der Gewichte stattfinden, oder abwechselnd mit dem Training der Gewichte durchgeführt werden.
Formalistisch kann das One-Shot Modell als ein sogenannter Supergraph S = (V_S,E_S) bezeichnet werden. Hierbei kann jeder Kante E dieses Supergraphen S einer Netzwerkoperation, wie einer Faltung, und jedem Knoten V ein Datentensor, der Ein- und Ausgängen von Operationen darstellt, zugewiesen sein. Denkbar ist auch, dass die Knoten des Supergraphen einer bestimmten neuronalen Netzoperation wie einer Faltung und jede Kante einem Datentensor entsprechen. Das Ziel der Architektursuche ist es, einige Pfade G = (V_G,E_G) ≤ S zu identifizieren, die ein oder mehrere Leistungskriterien wie Genauigkeit auf einem Testset und/oder Latenz auf einem Zielgerät optimieren.
Das oben erläuterte Ziehen des Pfades kann formalistisch wie folgt definiert werden. Es werden iterativ Knoten v ∈ V_i ≤ V_S und/oder Kanten e ∈ E_j ≤ E_S gezogen, die zusammen den Pfad G ergeben.
Das Ziehen der Knoten/Kanten kann abhängig von Wahrscheinlichkeitsverteilungen, insbesondere kategorischen Verteilungen, durchgeführt werden. Dabei kann die Wahrscheinlichkeitsverteilung p_αi(v ∈ V_i) und/oder p_αj(e ∈ E_j) von einem optimierbaren Parameter α abhängen, wobei die Wahrscheinlichkeitsverteilungen die gleiche Kardinalität wie V_i oder E_j aufweisen.
Dieses iterative Ziehen der Kanten/Knoten resultiert in einer Sequenz von Teilpfaden G₀, G₁, ..., G_k ..., G_T, wobei G_T der ,finale‘ Pfad ist, welcher den Eingang mit dem Ausgang des Graphen verbindet.
Eine wesentliche Einschränkung der Definition der Wahrscheinlichkeitsverteilung durch kategorische Verteilungen ist, dass diese Wahrscheinlichkeitsverteilungen p_αi(v ∈ V_i) und p_αj(e ∈ E_j) unabhängig vom aktuellen gezogenen Pfad G_k sind. Dies ermöglicht es nicht, insbesondere komplexere, Abhängigkeiten zwischen verschiedenen Knoten und Kanten zu erlernen. Es wird daher vorgeschlagen, die Wahrscheinlichkeitsverteilungen abhängig von den bisher gezogenen Pfad G_k zu formulieren: p_αi(v ∈ V_i| G_k) und p_αj (e ∈ E_j | G_k).
Genauer gesagt, wird eine eindeutige Kodierung der bisherig gezogenen Teilpfade G_k vorgeschlagen. Vorzugsweise wird hierfür jedem v ∈ V_S und jeder e ∈ E_S ein eindeutiger Index zugewiesen, der im Folgenden als n(v) und n(e) bezeichnet wird. Die eindeutige Kodierung von G_k ist dann h = H(G_k) mit h_i = ∃ e ∈ E_K n(e) = i or ∃ v ∈ V_K n(v) = i gegeben.
Gegeben dieser eindeutigen Kodierung, p_αi(v ∈ V_i|G_k) (und entsprechend p_αj(e ∈ E_j | G_k)) können dann durch eine Funktion / die Wahrscheinlichkeiten ermittelt werden: p_αj(e ∈ E_j | G_k) = f_αj(H(G_k)). Die Ausgänge dieser Funktion werden weiterhin als Wahrscheinlichkeiten für z.B. eine kategorische Verteilung verwendet, aus der der Knoten/Kanten abgetastet wird. Die Wahrscheinlichkeiten hängen jedoch nun von G_k ab.
Folgende Ausführungsformen der Funktion f_αj sind denkbar:

Im einfachsten Fall ist die Funktion f_αj eine affine Transformation, z.B. f_αj(h) = W_jh + b_j. In diesem Fall entspricht α_j den Parametern W_j und b_j der affinen Transformation. Eine lineare Parametrierung mit weniger Parametern kann durch eine Low-Rank-Approximation $W_{j} = W_{j}^{'} W_{j}^{''}$
erreicht werden. Darüber hinaus kann $W_{j}^{'}$
über alle j geteilt werden und somit als niederdimensionale (nicht-eindeutige) Kodierung basierend auf der eindeutigen Kodierung h fungieren.

Eine ausdrucksmächtigere Wahl ist eine Implementierung der Funktion f_αj durch ein mehrschichtiges Perzeptron (engl. a multi-layer perceptron, MLP), wobei α_j Parameter des MLP darstellt. Auch hier können die Parameter des MLP bis auf die letzte Schicht optional über j geteilt werden.
Auch eine Transformer-basierte Implementierung der Funktion t_αj kann verwendet werden, bestehend aus einer Mehrzahl von Schichten mit ,multi-headed selfattention‘ und einer finalen linearen Schicht. Parameter von allen außer der letzten Schicht können optional über alle j geteilt werden.
Die Optimierung der Parameter der Funktion kann über ein Gradientenabstiegsverfahren erfolgen. Alternativ können die Gradienten hierfür über einen Black-Box Optimierer geschätzt werden, z.B. unter Verwendung des REINFORCE-Tricks (siehe hierzu zum Beispiel die oben zitierte Literatur „ProxylessNAS“). D.h. die Optimierung der Architektur kann auf die gleiche Weise durchgeführt werden wie bei der Verwendung bekannter kategorischer Wahrscheinlichkeitsverteilungen.
1 zeigt schematisch zeigt schematisch ein Flussdiagramm (20) des verbesserten Verfahrens zur Architektursuche mit einem One-Shot Modell.
Die automatische Architektursuche kann wie folgt durchgeführt werden. Die automatische Architektursuche benötigt zuerst ein Bereitstellen eines Suchraums (S21), welcher hier in der Form eines One-Shot Modells gegeben sein kann.
Anschließend kann jede Form der Architektursuche verwendet werden, welche Pfade aus einem One-Shot Modell zieht (S22). Die hierbei gezogenen Pfade werden abhängig von einem Ergebnis der Funktion p_αi(v ∈ V_i|G_k) und/oder p_αj (e ∈ E_j | G_k) gezogen.
Im nachfolgenden Schritt (S23) werden dann die gezogenen maschinellen Lernsysteme, die den Pfaden entsprechen, angelernt und auch die Parameter α_j der Funktion werden beim Anlernen angepasst.
Es sei angemerkt, dass eine Optimierung der Parameter beim Anlernen nicht nur bezüglich der Genauigkeit, sondern auch für spezielle Hardware (z.B. Hardwarebeschleuniger) geschehen kann. Bspw. indem beim Training die Kostenfunktion einen weiteren Term enthält, der die Kosten zum Ausführen des maschinellen Lernsystems mit seiner Konfiguration auf der Hardware charakterisiert.
Die Schritte S22 bis S23 können mehrmals hintereinander wiederholt werden. Anschließend kann basierend auf dem Supergraph ein finaler Pfad gezogen werden (S24) und ein korrespondierendes maschinelles Lernsystem gemäß diesem Pfad initialisiert werden.
Vorzugsweise ist das erstelle maschinelle Lernsystem nach Schritt S24 ein künstliches neuronales Netz 60 (abgebildet in 2) und wird verwendet wie im nachfolgenden erläutert.
2 zeigt einen Aktor 10 in seiner Umgebung 20 in Interaktion mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung 20 in einem Sensor 30, insbesondere einem bildgebenden Sensor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Auch andere bildgebende Sensoren sind denkbar, wie beispielsweise Radar, Ultraschall oder Lidar. Auch eine Wärmebildkamera ist denkbar. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an den Aktor 10 übertragen werden.
Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von Eingangsbildern x wird einem maschinellen Lernsystem, im Ausführungsbeispiel einem künstlichen neuronalen Netz 60, zugeführt.
Das künstliche neuronale Netz 60 wird vorzugsweise parametriert durch Parameter ϕ, die in einem Parameterspeicher P hinterlegt sind und von diesem bereitgestellt werden.
Das künstliche neuronale Netz 60 ermittelt aus den Eingangsbildern x Ausgangsgrößen y. Diese Ausgangsgrößen y können insbesondere eine Klassifikation und semantische Segmentierung der Eingangsbilder x umfassen. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden, um den Aktor 10 entsprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Sensor 30 erfasst hat.
Der Aktor 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor 10 angesteuert wird.
In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktor 10.
In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf den Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor 10 eine Anzeigeeinheit 10a vorgesehen.
3 zeigt, wie das Steuerungssystem 40 zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.
Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.
Das künstliche neuronale Netz 60 ist eingerichtet, aus den Eingangsbildern x Objekte sicher zu identifizieren.
Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom künstlichen neuronalen Netz 60 sicher identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom künstlichen neuronalen Netz 60 identifizierten Objekten verhindert.
Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der sicher identifizierten Objekte zu kollidieren.
4 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objektidentifikationssystem 60 kann dieses erfasste Bild interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektidentifikationssystem 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom künstlichen neuronalen Netz 60 zuverlässig eine Identität der vom Videosensor 30 aufgenommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines persönlichen Assistenten 250 eingesetzt wird. Der Sensor 30 ist bevorzugt ein optischer Sensor, der Bilder einer Geste eines Nutzers 249 empfängt.
Abhängig von den Signalen des Sensors 30 ermittelt das Steuerungssystem 40 ein Ansteuersignal A des persönlichen Assistenten 250, beispielsweise, indem das neuronale Netz eine Gestenerkennung durchführt. Dem persönlichen Assistenten 250 wird dann dieses ermittelte Ansteuersignal A übermittelt und er somit entsprechend angesteuert. Dieses ermittelte Ansteuersignal A ist kann insbesondere derart gewählt werden, dass es einer vermuteten gewünschten Ansteuerung durch den Nutzer 249 entspricht. Diese vermutete gewünschte Ansteuerung kann abhängig von der vom künstlichen neuronalen Netz 60 erkannten Geste ermittelt werden. Das Steuerungssystem 40 kann dann abhängig von der vermuteten gewünschten Ansteuerung das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten 250 wählen und/oder das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten entsprechend der vermuteten gewünschten Ansteuerung 250 wählen.
Diese entsprechende Ansteuerung kann beispielsweise beinhalten, dass der persönliche Assistent 250 Informationen aus einer Datenbank abruft und sie für den Nutzer 249 rezipierbar wiedergibt.
Anstelle des persönlichen Assistenten 250 kann auch ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine vorgesehen sein, um entsprechend angesteuert zu werden.
8 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines medizinischen bildgebenden System 500, beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor 30 kann beispielsweise durch einen bildgebenden Sensor gegeben sein, durch das Steuerungssystem 40 wird die Anzeigeeinheit 10a angesteuert. Beispielsweise kann vom neuronalen Netz 60 ermittelt werden, ob ein vom bildgebenden Sensor aufgenommener Bereich auffällig ist, und das Ansteuersignal A dann derart gewählt werden, dass dieser Bereich von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
9 zeigt eine beispielhafte Trainingsvorrichtung 140 zum Trainieren eines der gezogenen maschinellen Lernsystems aus dem Multigraphen, insbesondere des neuronalen Netzes 60. Trainingsvorrichtung 140 umfasst einen Bereitsteller 71, der Eingangsgrößen x, wie z.B. Eingangsbilder, und Soll-Ausgangsgrößen ys, beispielsweise Soll-Klassifikationen, bereitstellt. Die Eingangsgröße x wird dem zu trainierenden künstlichen neuronalen Netz 60 zugeführt, das hieraus Ausgangsgrößen y ermittelt. Ausgangsgrößen y und Soll-Ausgangsgrößen ys werden einem Vergleicher 75 zugeführt, der hieraus abhängig von einer Übereinstimmung den jeweiligen Ausgangsgrößen y und Soll-Ausgangsgrößen ys neue Parameter ϕ' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter ϕ ersetzen.
Die vom Trainingssystem 140 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 147 hinterlegt sein und von einem Prozessor 148 ausgeführt werden.
Selbstverständlich müssen nicht ganze Bilder klassifiziert werden. Es ist möglich, dass mit einem Detektionsalgorithmus z.B. Bildausschnitte als Objekte klassifiziert werden, dass diese Bildausschnitte dann ausgeschnitten werden, ggf. ein neuer Bildausschnitt erzeugt wird und an Stelle des ausgeschnittenen Bildausschnitts in das zugehörige Bild eingesetzt wird.
Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.

Claims

Computerimplementiertes Verfahren (20) zum Erstellen eines maschinellen Lernsystems, umfassend folgende Schritte: Bereitstellen (S21) eines gerichteten Graphen mit einem Eingangs- und Ausgangsknoten, die über eine Mehrzahl von Kanten und Knoten verbunden sind, Zufälliges Ziehen (S22) einer Mehrzahl von Pfaden durch den gerichteten Graphen, wobei den Kanten jeweils eine Wahrscheinlichkeit zugeordnet ist, welche charakterisiert mit welcher Wahrscheinlichkeit die jeweilige Kante gezogen wird, wobei die Wahrscheinlichkeiten abhängig von einer Reihenfolge bisherig gezogener Kanten des jeweiligen Pfades ermittelt werden; Anlernen der den gezogenen Pfaden korrespondierenden maschinellen Lernsysteme (S23), wobei beim Anlernen Parameter des maschinellen Lernsystems angepasst werden, sodass eine Kostenfunktion optimiert wird; und Ziehen (S24) eines Pfades abhängig von den angepassten Wahrscheinlichkeiten und Erstellen des diesem Pfad korrespondierenden maschinellen Lernsystems.
Verfahren nach Anspruch 1, wobei eine parametrisierte Funktion die Wahrscheinlichkeiten der Kanten abhängig von der Reihenfolge der bisherig gezogener Kanten des Pfades ermittelt, wobei die Parametrisierung (α) der Funktion beim Anlernen hinsichtlich der Kostenfunktion angepasst wird.
Verfahren nach Anspruch 2, wobei den bisherig gezogenen Kanten und/oder Knoten eine eindeutige Kodierung deren Reihenfolge zugeordnet wird und die Funktion abhängig von dieser Kodierung die Wahrscheinlichkeiten ermittelt.
Verfahren nach Anspruch 2, oder 3 wobei die Funktion eine Wahrscheinlichkeitsverteilung über die möglichen Kanten, aus einer Menge von Kanten, die als nächstes gezogen werden können, ermittelt.
Verfahren nach Anspruch 2 bis 4, wobei die Funktion eine affine Transformation oder ein neuronales Netz ist.
Verfahren nach Anspruch 5 und Anspruch 3, wobei die Parametrisierung der affinen Transformation eine lineare Transformation und eine Verschiebung der eindeutigen Kodierung beschreibt, und insbesondere sich die Skalierung aus einer Low-Rank Approximierung und einer Skalierung abhängig von der Anzahl der Kanten zusammensetzt.
Verfahren nach Anspruch 5, wobei eine Mehrzahl von Funktionen verwendet werden und die Funktionen jeweils durch ein neuronales Netz gegeben sind, wobei eine Parametrisierung von einer Mehrzahl von Schichten der neuronalen Netze zwischen allen neuronalen Netzen geteilt werden.
Computerprogramm, welches Befehle umfasst, welche eingerichtet sind, wenn diese auf einem Computer ausgeführt werden, den Computer veranlassen, das Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
Maschinenlesbares Speicherelement auf welchem das Computerprogramm nach Anspruch 8 hinterlegt ist.
Vorrichtung, welche eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.