DE202022101997U1 - Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes - Google Patents

Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes Download PDF

Info

Publication number
DE202022101997U1
DE202022101997U1 DE202022101997.5U DE202022101997U DE202022101997U1 DE 202022101997 U1 DE202022101997 U1 DE 202022101997U1 DE 202022101997 U DE202022101997 U DE 202022101997U DE 202022101997 U1 DE202022101997 U1 DE 202022101997U1
Authority
DE
Germany
Prior art keywords
candidate
gaussian process
neural network
training
hyperparameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202022101997.5U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Albert Ludwigs Universitaet Freiburg
Original Assignee
Robert Bosch GmbH
Albert Ludwigs Universitaet Freiburg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH, Albert Ludwigs Universitaet Freiburg filed Critical Robert Bosch GmbH
Priority to DE202022101997.5U priority Critical patent/DE202022101997U1/de
Publication of DE202022101997U1 publication Critical patent/DE202022101997U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)

Abstract

Vorrichtung zum Ermitteln einer optimalen Architektur eines neuronalen Netzes für einen gegebenen Datensatz umfassend Trainingsdaten und Validierungsdaten und von optimalen Hyperparametern zum Anlernen des neuronalen Netzes, wobei die Vorrichtung ein maschinenlesbares Speichermedium umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirkten, dass der Computer ein Verfahren mit folgenden Schritte ausführt:
Definieren eines gemeinsamen Suchraumes (S21), welcher mögliche Architekturen des neuronalen Netzes und mögliche Hyperparameterkonfigurationen charakterisiert, wobei der gemeinsame Suchraum drei Untersuchräume (DG, Dnum, Dcat) aufweist, wobei ein erster Untersuchraum (DG) die möglichen Architekturen durch Graphen charakterisiert, wobei ein zweiter Untersuchraum (Dnum) einen Suchraum umfassend kontinuierliche und/oder diskrete Hyperparameter charakterisiert und ein dritter Untersuchraum (Dcat) kategorische Hyperparameter charakterisiert;
Zufälliges Ziehen (S22) einer Mehrzahl von Kandidaten aus dem Suchraum, wobei die Kandidaten eine Kandidatenarchitektur und eine Kandidatenhyperparameterkonfiguration umfassen;
Anlernen von neuronalen Netzen mit den Kandidatenarchitekturen und Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren der angelernten neuronalen Netzen auf den Validierungsdaten;
Initialisieren (S23) eines Gauß Prozesses, wobei der Gauß Prozess für jeden der Untersuchräume jeweils ein Kernel aufweist, wobei die Kernel zu einem gemeinsamen Kernel durch eine Gewichtung der einzelnen Kernel aufsummiert werden;
Anpassen des Gauß Prozesses (GP) derart, dass der Gauß Prozess gegeben den Kandidaten die mit diesen Kandidatenarchitekturen und Kandidatenhyperparameterkonfiguration erzielte Validierung vorhergesagt;
mehrmaliges Wiederhohlen (S24) der Schritte i.-iii.:
iv. Ermitteln der nächsten zu evaluierenden Kandidaten abhängig von einer Akquisitionsfunktion (engl. acquisition function), die von dem Gauß Prozess abhängig ist, wobei die Akquisitionsfunktion mittels einem Evolutionären Algorithmus optimiert wird,
v. Anlernen eines weiteren neuronalen Netzes mit der zu evaluierenden Kandidatenarchitektur und der zu evaluierenden Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren des weiteren angelernten neuronalen Netzes auf den Validierungsdaten, und
vi. Anpassen des Gauß Prozesses derart, dass der Gauß Prozess gegeben den bisherig verwendeten Kandidaten die erzielten Validierungen vorhergesagt;
Ausgeben der Kandidatenarchitektur (S25), die die beste Performance auf den Validierungsdaten erzielt hat.

Description

  • Die Erfindung betrifft eine Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes anhand einer Bayes'schen Optimierung.
  • Stand der Technik
  • Unter einer gemeinsamen Architektur- und Hyperparameter-suche für neuronale Netze (engl. Joint Architecture and Hyperparameter Search, JAHS) wird bekannterweise verstanden, dass automatisiert eine optimale Architektur und Hyperparameter aufgefunden werden, welche folgende Gleichung minimieren: min λ , G L ( G , w λ , G , D v a l i d ) s . t w λ , G A λ ( G , D t r a i n )
    Figure DE202022101997U1_0001
    wobei L eine Kostenfunktion (bspw. cross-entropy) ist, welche eine Performance des Models mit Gewichten wλ ermittelt, wobei die Gewichte unter Verwendung des Hyperparametersetting λ zum Parametrisieren des Algorithmus Aλ, ermittelt wurden, welche auf den Trainingsdaten Dtrain angelernt wurde und auf den Validierungsdaten Dval evaluiert wurde, wobei G ein Graph ist, welcher das Modell, insbesondere die Architektur beschreibt.
  • Dong, Xuanyi, et al. „AutoHAS: Efficient hyperparameter and architecture search.“ arXiv preprint arXiv:2006.03656 (2020) schlagen eine effiziente Methode sowohl für die Suche nach Hyperparametern als auch nach Architekturen gemäß der eben genannten Gleichung vor.
  • Vorteile der Erfindung
  • Die Erfindung mit den Merkmalen des unabhängigen Anspruchs 1 hat den Vorteil, dass diese die eben genannte Gleichung löst und damit in der Lage ist, optimale Architekturen für einen gegeben Datensatz aufzufinden.
  • Weitere Aspekte der Erfindung sind Gegenstand der nebengeordneten Ansprüche. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche.
  • Offenbarung der Erfindung
  • In einem ersten Aspekt betrifft die Erfindung ein computerimplementiertes Verfahren zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes für einen gegebenen Datensatz umfassend Trainingsdaten und Validierungsdaten und von optimalen Hyperparametern zum Anlernen des neuronalen Netzes.
  • Das Verfahren beginnt mit einem Definieren eines gemeinsamen Suchraumes, welcher mögliche Architekturen des neuronalen Netzes und mögliche Hyperparameterkonfigurationen charakterisiert, wobei der gemeinsame Suchraum drei Untersuchräume (DG,Dnum,Dcat) aufweist, wobei ein erster Untersuchraum (DG) die möglichen Architekturen durch Graphen charakterisiert, wobei ein zweiter Untersuchraum (Dnum) einen Suchraum umfassend kontinuierliche und/oder diskrete Hyperparameter charakterisiert und ein dritter Untersuchraum (Dcat) kategorische Hyperparameter charakterisiert.
  • Daraufhin folgt ein zufälliges Ziehen einer Mehrzahl von Kandidaten aus dem Suchraum, wobei die Kandidaten jeweils eine Kandidatenarchitektur und eine Kandidatenhyperparameterkonfiguration umfassen.
  • Daraufhin folgt ein Anlernen von neuronalen Netzen mit den Kandidatenarchitekturen und Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren der angelernten neuronalen Netzen auf den Validierungsdaten. Das Anlernen kann hinsichtlich einem vorgegebenen Kriterium erfolgen: bspw. eine Genauigkeit.
  • Daraufhin folgt ein Initialisieren eines Gauß Prozesses, wobei der Gauß Prozess für jeden der Untersuchräume jeweils ein Kernel aufweist, wobei die Kernel zu einem gemeinsamen Kernel durch eine Gewichtung der einzelnen Kernel aufsummiert werden.
  • Daraufhin folgt ein Anpassen des Gauß Prozesses (GP) derart, dass der Gauß Prozess gegeben den Kandidaten die mit diesen Kandidatenarchitekturen und Kandidatenhyperparameterkonfiguration erzielte Validierung vorhergesagt.
  • Daraufhin folgt ein mehrmaliges Wiederhohlen der Schritte i.-iii.
    1. i. Ermitteln der nächsten zu evaluierenden Kandidaten abhängig von einer Akquisitionsfunktion (engl. acquisition function), die von dem Gauß Prozess abhängig ist, wobei die Akquisitionsfunktion mittels einem Evolutionären Algorithmus optimiert wird. Als Akquisitionsfunktion wird vorzugweise ein ,expected improvement‘-Akquisitionsfunktion verwendet. Es sei angemerkt, dass die Ermittlung der nächsten auszuwertenden Kandidatenarchitektur alternativ mit einer zufälligen Suche (engl. random Search) und/oder mit Mutationen ausgeführt werden kann.
    2. ii. Anlernen eines weiteren neuronalen Netzes mit der zu evaluierenden Kandidatenarchitektur und der zu evaluierenden Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren des weiteren angelernten neuronalen Netzes auf den Validierungsdaten.
    3. iii. Anpassen des Gauß Prozesses derart, dass der Gauß Prozess gegeben den bisherig verwendeten Kandidaten die erzielten Validierungen vorhergesagt.
  • Abschließend folgt ein Ausgeben der Kandidatenarchitektur, die die beste Performance auf den Validierungsdaten erzielt hat.
  • Es wird vorgeschlagen, dass der Evolutionäre Algorithmus eine Mutation und Crossover anwendet, wobei die Mutation und Crossover auf den Graphen und eine Mutation der Hyperparameterkonfigurationen erfolgt. Für den Evolutionäre Algorithmus wird vorzugweise folgender Algorithmus verwendet: Noor Awad, Neeratyoy Mallik, and Frank Hutter. DEHB: Evolutionary hyperband for scalable, robust and efficient hyperparameter optimization. arXiv preprint arXiv:2105.09821, 2021.
  • Ferner wird vorgeschlagen, dass der Kernel des Gauß Prozesses für den ersten Untersuchraum ein Weisfeiler-Lehman Graph Kernel ist. Der Weisfeiler-Lehman Graph Kernel ist aus der Veröffentlichung von Ru, Binxin, et al. „Interpretable neural architecture search via bayesian optimisation with weisfeiler-lehman kernels.“ arXiv preprint arXiv:2006.07556 (2020) bekannt. Ferner wird vorgeschlagen, dass der Kernel des Gauß Prozesses für den zweiten Untersuchraum ein Matern-Kernel ist, wobei der Kernel des Gauß Prozesses für den dritten Untersuchraum ein ,1-in-K encoding‘ oder eine gewichtete Hamming Distanz (engl. weighted Hamming distance) ist. Das ,1-in-K encoding‘ als Kernel ist bspw. hier erläutert: Frank Hutter, Lin Xu, Holger H. Hoos, and Kevin Leyton-Brown. Algorithm runtime prediction: Methods & evaluation.
  • Ferner wird vorgeschlagen, dass für zumindest einen Hyperparameter eine vorgegebene Wahrscheinlichkeitsverteilung über Hyperparameterwerte gegeben ist, wobei die Akquisitionsfunktion mit der vorgegeben Wahrscheinlichkeitsverteilung gewichtet ist (engl. Decaying prior-weighted acquisition function). Es hat sich herausgestellt, dass mit diesem Ansatz die die besten Ergebnis erzielt wurden.
  • Ferner wird vorgeschlagen, dass beim Anlernen der neuronalen Netze eine Kostenfunktion eine erste Funktion aufweist, die eine Leistungsfähigkeit des maschinellen Lernsystems hinsichtlich dessen Performance bewertet, bspw. eine Genauigkeit einer Segmentierung, Objekterkennung oder ähnliches und optional eine zweite Funktion aufweist, welche abhängig von einer Länge des Pfades und den Operationen der Kanten eine Latenzzeit des maschinellen Lernsystems schätzt. Alternativ oder zusätzlich kann die zweite Funktion auch eine Computerressourcenverbrauch des Pfades schätzen.
  • In einem weiteren Aspekt der Erfindung wird ein computer-implementiertes Verfahren zur Verwendung des ausgegebenen neuronalen Netzes des ersten Aspektes als Klassifikator zur Klassifizierung von Sensorsignalen vorgeschlagen. Zusätzlich zu den Schritten des ersten Aspektes werden hier folgende weitere Schritte ausgeführt: Empfangen eines Sensorsignals, das Daten von dem Bildsensor umfasst, Bestimmen eines Eingangssignals, das von dem Sensorsignal abhängt, und Einspeisen des Eingangssignals in den Klassifikator, um ein Ausgangssignal zu erhalten, das eine Klassifizierung des Eingangssignals charakterisiert.
  • Der Bildklassifikator ordnet ein Eingabebild einer oder mehreren Klassen einer vorgegebenen Klassifikation zu. Als Eingabebilder können beispielsweise Bilder von in Serie gefertigten, nominell identischen Produkten verwendet werden. Der Bildklassifikator kann beispielsweise darauf trainiert sein, die Eingabebilder einer oder mehreren von mindestens zwei möglichen Klassen zuzuordnen, die eine Qualitätsbeurteilung des jeweiligen Produkts repräsentieren.
  • Der Bildklassifikator, z. B. ein neuronales Netz, kann mit einer solchen Struktur ausgestattet sein, dass er trainierbar ist, um z. B. Fußgänger und/oder Fahrzeuge und/oder Verkehrszeichen und/oder Ampeln und/oder Straßenoberflächen und/oder menschliche Gesichter und/oder medizinische Anomalien in bildgebenden Sensorbildern zu identifizieren und zu unterscheiden. Alternativ kann der Klassifikator, z. B. ein neuronales Netz, mit einer solchen Struktur ausgestattet sein, die trainierbar ist, um gesprochene Befehle in Audiosensorsignalen zu identifizieren.
  • Weiterhin wird vorgeschlagen, dass das ausgegebene neuronale Netz, abhängig von einer erfassten Sensorgröße eines Sensors eine Ausgangsgröße ermittelt, abhängig von welcher daraufhin eine Steuergröße mittels z.B. einer Steuereinheit ermittelt werden kann.
  • Die Steuergröße kann zum Steuern eines Aktors eines technischen Systems verwendet werden. Das technische System kann zum Beispiel eine zumindest teilautonome Maschine, ein zumindest teilautonomes Fahrzeug, ein Roboter, ein Werkzeug, eine Werkmaschine oder ein Flugobjekt wie eine Drohne sein. Die Eingangsgröße kann bspw. abhängig von erfassten Sensordaten ermittelt und dem maschinellen Lernsystem bereitgestellt werden. Die Sensordaten können von einem Sensor, wie z.B. einer Kamera, des technischen Systems erfasst oder alternativ von extern empfangen werden.
  • In weiteren Aspekten betrifft die Erfindung eine Vorrichtung sowie ein Computerprogramm, die jeweils eingerichtet sind, die obigen Verfahren auszuführen und ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.
  • Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:
    • 1 schematisch ein Flussdiagramm einer Ausführungsform der Erfindung;
    • 2 schematisch ein Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
    • 3 schematisch ein Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
    • 4 schematisch ein Ausführungsbeispiel zur Steuerung eines Zugangssystems;
    • 5 schematisch ein Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
    • 6 schematisch ein Ausführungsbeispiel zur Steuerung eines persönlichen Assistenten;
    • 7 schematisch ein Ausführungsbeispiel zur Steuerung eines medizinisch bildgebenden Systems;
    • 8 schematisch eine Trainingsvorrichtung.
  • Eine neuronale Architektur ist eine Funktionskomposition von Operationen, z. B. Faltungen oder andere Funktionen. Es ist bekannt, neuronale Architekturen als Berechnungsgraphen mit einem kantenattributierten DAG mit einer einzigen Quelle und einer einzigen Senke darstellen, wobei wir die Kanten mit den Operationen und die Knoten mit den latenten Repräsentationen assoziieren.
  • 1 zeigt ein Flussdiagramm 20 einer Ausführungsform der Erfindung zum Ermitteln einer optimalen Architektur und optimalen Hyperparameter eines neuronalen Netzes für einen gegebenen Datensatz.
  • Das Verfahren beginnt mit einem Definieren eines Suchraumes (S21), welcher mögliche Architekturen und Hyperparameterkonfigurationen des neuronalen Netzes charakterisiert.
  • Daraufhin folgt ein zufälliges Ziehen (S22) einer Mehrzahl von Kandidatenarchitekturen und Kandidatenhyperparameterkonfigurationen aus dem Suchraum. Sowie ein Anlernen von neuronalen Netzen mit den Kandidatenarchitekturen auf den Trainingsdaten sowie Validieren der angelernten neuronalen Netzen auf den Validierungsdaten.
  • Daraufhin folgt ein Initialisieren (S23) eines Gauß Prozesses, wobei der Gauß Prozess eine Mehrzahl von Kernel aufweist, die jeweils einem Untersuchraum für die Architektur oder einem oder mehreren Untersuchräume für Hyperparameterkonfigurationen zugeordnet sind. Daraufhin folgt in Schritt S23 ein Anpassen des Gauß Prozesses (GP) derart, dass der Gauß Prozess gegeben den Kandidatenarchitekturen die mit diesen Kandidatenarchitekturen erzielte Validierung vorhergesagt.
  • In Schritt S24 werden die Unterschritte mehrmals wiederholt:
    • Ermitteln der nächsten zu evaluierenden Kandidatenarchitektur und Kandidatenhyperparameterkonfiguration abhängig von einer Akquisitionsfunktion (engl. acquisition function), die von dem Gauß Prozess abhängig ist, wobei die Akquisitionsfunktion mittels einem Evolutionären Algorithmus optimiert wird,
    • Anlernen eines weiteren neuronalen Netzes mit der zu evaluierenden Kandidatenarchitektur und Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren des weiteren angelernten neuronalen Netzes auf den Validierungsdaten, und
    • Anpassen des Gauß Prozesses derart, dass der Gauß Prozess gegeben den bisherig verwendeten Kandidatenarchitekturen und Kandidatenhyperparameterkonfigurationen die mit diesen Kandidatenarchitekturen und Kandidatenhyperparameterkonfigurationen erzielte Validierung vorhergesagt.
  • Nachdem die Wiederholungen in Schritt S24 beendet wurde, folgt abschließend ein Ausgeben (S25) der Kandidatenarchitektur, insbesondere zugehörige angelernte neuronale Netz, die die beste Performance auf den Validierungsdaten erzielt hat.
  • 2 zeigt schematisch einen Aktor mit einem Steuerungssystem 40. In vorzugsweise regelmäßigen zeitlichen Abständen wird eine Umgebung 20 des Aktors 10 mit einem Sensor 30, insbesondere einem bildgebenden Sensor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Auch andere bildgebende Sensoren sind denkbar, wie beispielsweise Radar, Ultraschall oder Lidar. Auch eine Wärmebildkamera ist denkbar. Das Sensorsignal S - bzw. im Fall mehrerer Sensoren je ein Sensorsignal S - des Sensors 30 wird an das Steuerungssystem 40 übermittelt. Das Steuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Steuerungssystem 40 ermittelt hieraus Ansteuersignale A, welche an einen Aktuator 10 übertragen werden. Der Aktuator 10 kann empfangene Steuerbefehle in mechanische Bewegungen oder Änderungen von physikalischen Größen umsetzt. Der Aktuator 10 kann z. B. den Steuerbefehl A in eine elektrische, hydraulische, pneumatische, thermische, magnetische und/oder mechanische Bewegung umsetzen oder Veränderung hervorrufen. Spezifische, aber nicht einschränkende Beispiele sind Elektromotoren, elektroaktive Polymere, Hydraulikzylinder, piezoelektrische Aktoren, pneumatische Aktoren, Servomechanismen, Solenoide, Schrittmotoren usw.
  • Das Steuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Eingangsbildern x umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Eingangsbild x übernommen werden). Das Eingangsbild x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Das Eingangsbild x umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild x abhängig von Sensorsignal S ermittelt. Die Folge von Eingangsbildern x wird dem aus Schritt S25 ausgegebenen neuronalen Netz 60, zugeführt.
  • Das ausgegebene neuronale Netz 60 wird vorzugsweise parametriert durch Parameter, die in einem Parameterspeicher hinterlegt sind und von diesem bereitgestellt werden.
  • Das ausgegebene neuronale Netz 60 ermittelt aus den Eingangsbildern x Ausgangsgrößen y. Diese Ausgangsgrößen y können insbesondere eine Klassifikation und/oder semantische Segmentierung der Eingangsbilder x umfassen. Ausgangsgrößen y werden einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktuator 10 zugeführt werden, um den Aktuator 10 entsprechend anzusteuern. Ausgangsgröße y umfasst Informationen über Objekte, die der Sensor 30 erfasst hat.
  • Der Aktuator 10 empfängt die Ansteuersignale A, wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktuator 10 kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal A ein zweites Ansteuersignal ermittelt, mit dem dann der Aktuator 10 angesteuert wird.
  • In weiteren Ausführungsformen umfasst das Steuerungssystem 40 den Sensor 30. In noch weiteren Ausführungsformen umfasst das Steuerungssystem 40 alternativ oder zusätzlich auch den Aktuator 10.
  • In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Speichermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren 45 ausgeführt werden, das Steuerungssystem 40 veranlassen, das erfindungsgemäße Verfahren auszuführen.
  • In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktuator 10 eine Anzeigeeinheit 10a vorgesehen, welche eine Ausgangsgröße des Steuerungssystems 40 anzeigen kann.
  • In einer bevorzugten Ausführungsform der 2 wird das Steuerungssystem 40 zur Steuerung des Aktors, welcher hier ein eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, ist, eingesetzt. Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.
  • Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktuator 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom künstlichen neuronalen Netz 60 sicher identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
  • Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom künstlichen neuronalen Netz 60 identifizierten Objekten verhindert.
  • 3 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktuator 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren, Fräßen und/oder Schneiden handeln.
  • Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktuator 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
  • 4 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objektidentifikationssystem 60 kann dieses erfasste Bild interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktuator 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektidentifikationssystem 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. Anstelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
  • 5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom künstlichen neuronalen Netz 60 zuverlässig eine Identität, der vom Videosensor 30 aufgenommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
  • 6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines persönlichen Assistenten 250 eingesetzt wird. Der Sensor 30 ist bevorzugt ein optischer Sensor, der Bilder einer Geste eines Nutzers 249 empfängt.
  • Abhängig von den Signalen des Sensors 30 ermittelt das Steuerungssystem 40 ein Ansteuersignal A des persönlichen Assistenten 250, beispielsweise, indem das neuronale Netz eine Gestenerkennung durchführt. Dem persönlichen Assistenten 250 wird dann dieses ermittelte Ansteuersignal A übermittelt und er somit entsprechend angesteuert. Dieses ermittelte Ansteuersignal A ist kann insbesondere derart gewählt werden, dass es einer vermuteten gewünschten Ansteuerung durch den Nutzer 249 entspricht. Diese vermutete gewünschte Ansteuerung kann abhängig von der vom künstlichen neuronalen Netz 60 erkannten Geste ermittelt werden. Das Steuerungssystem 40 kann dann abhängig von der vermuteten gewünschten Ansteuerung das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten 250 wählen und/oder das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten entsprechend der vermuteten gewünschten Ansteuerung 250 wählen.
  • Diese entsprechende Ansteuerung kann beispielsweise beinhalten, dass der persönliche Assistent 250 Informationen aus einer Datenbank abruft und sie für den Nutzer 249 rezipierbar wiedergibt.
  • Anstelle des persönlichen Assistenten 250 kann auch ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine vorgesehen sein, um entsprechend angesteuert zu werden.
  • 7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines medizinischen bildgebenden System 500, beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor 30 kann beispielsweise durch einen bildgebenden Sensor gegeben sein, durch das Steuerungssystem 40 wird die Anzeigeeinheit 10a angesteuert. Beispielsweise kann vom neuronalen Netz 60 ermittelt werden, ob ein vom bildgebenden Sensor aufgenommener Bereich auffällig ist, und das Ansteuersignal A dann derart gewählt werden, dass dieser Bereich von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
  • 8 zeigt schematisch eine Trainingsvorrichtung 500 umfasst einen Bereitsteller 51, der aus einem Trainingsdatensatz Eingangsbilder bereitstellt. Eingangsbilder werden dem zu trainierenden neuronalen Netz 52 zugeführt, das hieraus Ausgangsgrößen ermittelt. Ausgangsgrößen und Eingangsbilder werden einem Beurteiler 53 zugeführt, der hieraus aktualisierte Parameter ermittelt, die dem Parameterspeicher P übermittelt werden und dort die gegenwärtigen Parameter ersetzen. Der Beurteiler 53 ist eingerichtet, die Schritte S23 und/oder S24 des Verfahren nach 1 auszuführen.
  • Die vom Trainingsvorrichtung 500 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 54 hinterlegt sein und von einem Prozessor 55 ausgeführt werden.
  • Der Begriff „Computer“ umfasst beliebige Geräte zur Abarbeitung vorgebbarer Rechenvorschriften. Diese Rechenvorschriften können in Form von Software vorliegen, oder in Form von Hardware, oder auch in einer Mischform aus Software und Hardware.

Claims (6)

  1. Vorrichtung zum Ermitteln einer optimalen Architektur eines neuronalen Netzes für einen gegebenen Datensatz umfassend Trainingsdaten und Validierungsdaten und von optimalen Hyperparametern zum Anlernen des neuronalen Netzes, wobei die Vorrichtung ein maschinenlesbares Speichermedium umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirkten, dass der Computer ein Verfahren mit folgenden Schritte ausführt: Definieren eines gemeinsamen Suchraumes (S21), welcher mögliche Architekturen des neuronalen Netzes und mögliche Hyperparameterkonfigurationen charakterisiert, wobei der gemeinsame Suchraum drei Untersuchräume (DG, Dnum, Dcat) aufweist, wobei ein erster Untersuchraum (DG) die möglichen Architekturen durch Graphen charakterisiert, wobei ein zweiter Untersuchraum (Dnum) einen Suchraum umfassend kontinuierliche und/oder diskrete Hyperparameter charakterisiert und ein dritter Untersuchraum (Dcat) kategorische Hyperparameter charakterisiert; Zufälliges Ziehen (S22) einer Mehrzahl von Kandidaten aus dem Suchraum, wobei die Kandidaten eine Kandidatenarchitektur und eine Kandidatenhyperparameterkonfiguration umfassen; Anlernen von neuronalen Netzen mit den Kandidatenarchitekturen und Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren der angelernten neuronalen Netzen auf den Validierungsdaten; Initialisieren (S23) eines Gauß Prozesses, wobei der Gauß Prozess für jeden der Untersuchräume jeweils ein Kernel aufweist, wobei die Kernel zu einem gemeinsamen Kernel durch eine Gewichtung der einzelnen Kernel aufsummiert werden; Anpassen des Gauß Prozesses (GP) derart, dass der Gauß Prozess gegeben den Kandidaten die mit diesen Kandidatenarchitekturen und Kandidatenhyperparameterkonfiguration erzielte Validierung vorhergesagt; mehrmaliges Wiederhohlen (S24) der Schritte i.-iii.: iv. Ermitteln der nächsten zu evaluierenden Kandidaten abhängig von einer Akquisitionsfunktion (engl. acquisition function), die von dem Gauß Prozess abhängig ist, wobei die Akquisitionsfunktion mittels einem Evolutionären Algorithmus optimiert wird, v. Anlernen eines weiteren neuronalen Netzes mit der zu evaluierenden Kandidatenarchitektur und der zu evaluierenden Kandidatenhyperparameterkonfiguration auf den Trainingsdaten sowie Validieren des weiteren angelernten neuronalen Netzes auf den Validierungsdaten, und vi. Anpassen des Gauß Prozesses derart, dass der Gauß Prozess gegeben den bisherig verwendeten Kandidaten die erzielten Validierungen vorhergesagt; Ausgeben der Kandidatenarchitektur (S25), die die beste Performance auf den Validierungsdaten erzielt hat.
  2. Vorrichtung nach Anspruch 1, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass der Evolutionäre Algorithmus eine Mutation und Crossover anwendet, wobei die Mutation und Crossover auf den Graphen und eine Mutation der Hyperparameterkonfigurationen erfolgt.
  3. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass der Kernel des Gauß Prozesses für den ersten Untersuchraum ein Weisfeiler-Lehman Graph Kernel ist, wobei der Kernel des Gauß Prozesses für den zweiten Untersuchraum ein Matern-Kernel ist, wobei der Kernel des Gauß Prozesses für den dritten Untersuchraum ein 1-in-K encoding oder eine gewichtete Hamming Distanz (engl. weighted Hamming distance) ist.
  4. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass für zumindest einen Hyperparameter eine vorgegebene Wahrscheinlichkeitsverteilung über Hyperparameterwerte gegeben ist, wobei die Akquisitionsfunktion mit der vorgegeben Wahrscheinlichkeitsverteilung gewichtet ist.
  5. Vorrichtung nach Anspruch 4, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass beim zufälligen Ziehen und Ermitteln der Kandidatenhyperparameterkonfiguration zusätzlich abhängig von der vorgegeben Wahrscheinlichkeitsverteilung erfolgt.
  6. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass die Eingangsgrößen Bilder sind und das maschinelle Lernsystem ein Bildklassifikator ist.
DE202022101997.5U 2022-04-13 2022-04-13 Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes Active DE202022101997U1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202022101997.5U DE202022101997U1 (de) 2022-04-13 2022-04-13 Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202022101997.5U DE202022101997U1 (de) 2022-04-13 2022-04-13 Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes

Publications (1)

Publication Number Publication Date
DE202022101997U1 true DE202022101997U1 (de) 2022-06-02

Family

ID=82116132

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202022101997.5U Active DE202022101997U1 (de) 2022-04-13 2022-04-13 Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes

Country Status (1)

Country Link
DE (1) DE202022101997U1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115493592A (zh) * 2022-08-08 2022-12-20 厦门大学 基于多目标进化算法的室内定位方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115493592A (zh) * 2022-08-08 2022-12-20 厦门大学 基于多目标进化算法的室内定位方法及系统
CN115493592B (zh) * 2022-08-08 2024-05-03 厦门大学 基于多目标进化算法的室内定位方法及系统

Similar Documents

Publication Publication Date Title
DE102020210352A1 (de) Verfahren und Vorrichtung zum Transferlernen zwischen modifizierten Aufgaben
DE202019105282U1 (de) Vorrichtung zum Optimieren eines System für das maschinelle Lernen
EP3853778B1 (de) Verfahren und vorrichtung zum betreiben eines steuerungssystems
DE102020212515A1 (de) Verfahren und Vorrichtung zum Trainieren eines maschinellen Lernsystems
DE202020101012U1 (de) Vorrichtung zum Vorhersagen einer geeigneten Konfiguration eines maschinellen Lernsystems für einen Trainingsdatensatz
DE202022101997U1 (de) Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes
DE102019214625A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Erstellen eines künstlichen neuronalen Netzes
DE102019209566A1 (de) Verfahren und Vorrichtung zum Trainieren eines maschinellen Lernsystems
DE102020208828A1 (de) Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems
DE102020216188A1 (de) Vorrichtung und Verfahren zum Trainieren eines Klassifizierers
DE202020104238U1 (de) Vorrichtung zum Lernen einer Strategie und Betreiben der Strategie
DE102022203728A1 (de) Verfahren und Vorrichtung zum gemeinsamen Ermitteln einer optimalen Architektur eines neuronalen Netzes und optimalen Hyperparametern zum Anlernen des neuronalen Netzes
DE102020212108A1 (de) Verfahren und Vorrichtung zum Anlernen eines maschinellen Lernsystems
DE102018211875A1 (de) Verfahren und Vorrichtung zum Betreiben eines Steuerungssystems
DE102022206063A1 (de) System und verfahren zum vorschalten von robustifiziereren für vortrainierte modelle gegen feindliche angriffe
DE102022201679A1 (de) Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes
DE202020104005U1 (de) Vorrichtung zum Erstellen eines Systems zum automatisierten Erstellen von maschinellen Lernsystemen
DE102020212514A1 (de) Verfahren zur Ermittlung eines Ausgabesignals mittels eines maschinellen Lernsystems
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
DE102022202845A1 (de) Verfahren und Vorrichtung zum Ermitteln einer optimalen Architektur eines neuronalen Netzes
DE202022105263U1 (de) Vorrichtung zum Ermitteln einer optimalen Architektur eines neuronalen Netzes
DE102020213527A1 (de) Verfahren zum Optimieren einer Strategie für einen Roboter
DE102020209281A1 (de) Verfahren und Vorrichtung zum Lernen einer Strategie und Betreiben der Strategie
DE202019103046U1 (de) Vorrichtung zur Vorhersage einer Lernkurve
DE202020105509U1 (de) Vorrichtung zum Anlernen eines maschinellen Lernsystems

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BEE, JOACHIM, DIPL.-ING., DE

R207 Utility model specification