DE102021208637A1 - Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks - Google Patents

Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks Download PDF

Info

Publication number
DE102021208637A1
DE102021208637A1 DE102021208637.3A DE102021208637A DE102021208637A1 DE 102021208637 A1 DE102021208637 A1 DE 102021208637A1 DE 102021208637 A DE102021208637 A DE 102021208637A DE 102021208637 A1 DE102021208637 A1 DE 102021208637A1
Authority
DE
Germany
Prior art keywords
artificial neural
neural network
determined
hyperparameters
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021208637.3A
Other languages
English (en)
Inventor
Armin Runge
Bharath Ramachandraiah
Dayo Oshinubi
Falk Rehm
Michael Klaiber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021208637.3A priority Critical patent/DE102021208637A1/de
Publication of DE102021208637A1 publication Critical patent/DE102021208637A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Computerimplementiertes Verfahren, Vorrichtung und Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks, wobei Sätze von Hyperparametern für eine Vielzahl von künstlichen neuronalen Netzwerken bereitgestellt werden, wobei je Satz ein gemäß der Hyperparameter des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert wird, wobei mit einer Metrik, mit der eine erste Zielgröße, insbesondere eine Genauigkeit einer Vorhersage durch künstliche neuronale Netzwerke bestimmbar ist, die erste Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird, wobei mit einem Systemmodell (208), mit dem eine zweite Zielgröße, insbesondere Kosten, die bei einer Ausführung eines künstlichen neuronalen Netzwerks entstehen, bestimmbar ist, die zweite Zielgröße für die Ausführung wenigstens einer Komponente des trainierten künstlichen neuronalen Netzwerks bestimmt wird, und wobei die Hyperparameter für das künstliche neuronale Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen bestimmt werden, die für die Sätze bestimmt werden.

Description

  • Stand der Technik
  • Die Erfindung geht aus von einem computerimplementierten Verfahren, einer Vorrichtung, und einem Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks.
  • Die stetig steigende Verfügbarkeit von Daten und Rechenleistung hat dazu geführt, dass sich Algorithmen, die tiefe neuronale Netze, englisch Deep Neural Networks, DNNs, implementieren in verschiedensten Domänen sehr erfolgreich etablieren konnten. Aufgrund der Komplexität und der Größe des Suchraums, ist für das Design dieser Algorithmen allerdings ein hohes Maß an Expertenwissen und Rechenzeit nötig. Dies gilt insbesondere dann, wenn diese Algorithmen in einem eingebetteten System eingesetzt werden sollen, da dort durch eine Architektur des eingebetteten Systems fest vorgegebene Ressourcenlimitierungen existieren.
  • Offenbarung der Erfindung
  • Das computerimplementierte Verfahren, die Vorrichtung und das Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks gemäß den unabhängigen Ansprüchen ermöglichen es, automatisch oder teilautomatisch eine Architektur eines insbesondere tiefen künstlichen neuronalen Netzwerks zu bestimmen.
  • Das computerimplementierte Verfahren zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks sieht vor, dass Sätze von Hyperparametern für eine Vielzahl von künstlichen neuronalen Netzwerken bereitgestellt werden, wobei je Satz ein gemäß der Hyperparameter des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert wird, wobei mit einer Metrik, mit der eine erste Zielgröße, insbesondere eine Genauigkeit einer Vorhersage durch künstliche neuronale Netzwerke bestimmbar ist, die erste Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird, wobei mit einem Systemmodell, mit dem eine zweite Zielgröße, insbesondere Kosten, die bei einer Ausführung eines künstlichen neuronalen Netzwerks entstehen, bestimmbar ist, die zweite Zielgröße für die Ausführung wenigstens einer Komponente des trainierten künstlichen neuronalen Netzwerks bestimmt wird, und wobei die Hyperparameter für das künstliche neuronale Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen bestimmt werden, die für die Sätze bestimmt werden.
  • Typischerweise handelt es sich bei einer Netzwerkarchitektursuche, NAS, um ein Mehrzieloptimierungsproblem und entsprechende NAS Algorithmen berücksichtigen neben der Genauigkeit auch noch weitere Zielfunktionen, die im Kontext dieser Beschreibung als Kostenfunktion bezeichnet werden.
  • Das Ergebnis einer solchen Architektursuche im Falle mehrerer Zielfunktionen ist daher immer eine Menge an Lösungen die im Kontext dieser Beschreibung als Paretofront bezeichnet wird. Innerhalb dieser Front wird eine Abwägung und/oder Auswahl von Genauigkeit und den entsprechenden Zielgrößen vorgenommen. Durch die (Teil-)Automatisierung werden sowohl Architekturen mit einer höheren Genauigkeit als auch mit geringeren Kosten für weitere Zielgrößen gefunden.
  • Vorzugsweise wird abhängig von den ersten Zielgrößen und den zweiten Zielgrößen für die Sätze eine erste Paretofront bestimmt wird, wobei abhängig von wenigstens einem der Sätze von Hyperparametern ein weiterer Satz von Hyperparameter bestimmt wird, wobei mit einem Wahrscheinlichkeitsmodell, mit dem eine Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein künstliches neuronales Netzwerk, das durch einen Satz von Hyperparametern definiert ist, vorhersagbar ist, für den weiteren Satz von Hyperparametern die Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein durch den weiteren Satz definiertes künstliches neuronales Netzwerk bestimmt wird, wobei abhängig von der Vorhersage für die erste Zielgröße und der Vorhersage für die zweite Zielgröße eine zweite Paretofront bestimmt wird, und wobei die Hyperparameter abhängig von der ersten Paretofront und der zweiten Paretofront aus einem Suchraum ausgewählt werden. Aus der vorgeschlagenen zweiten Paretofront und der tatsächlich trainierten und simulierten ersten Paretofront werden neue vielversprechende Lösungen für die Hyperparameter ausgewählt.
  • Vorzugsweise wird in Iterationen eine Vielzahl von Sätzen von Hyperparametern bestimmt, wobei die Hyperparameter aus der Vielzahl von Sätzen von Hyperparametern ausgewählt werden. Dadurch werden die vielversprechenden Hyperparameter bereitgestellt.
  • Es kann vorgesehen sein, dass ein Wahrscheinlichkeitsmodell mit den Genauigkeiten, den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront bestimmt wird, wobei die zweite Paretofront mit dem Wahrscheinlichkeitsmodell abhängig von ersten Zielgrößen, insbesondere den Genauigkeiten und den zweiten Zielgrößen, insbesondere den Kosten für die Sätze bestimmt wird. Es kann vorgesehen sein, dass ein tiefes künstliches neuronales Netzwerk mit den ersten Zielgrößen, insbesondere den Genauigkeiten, zweiten Zielgrößen, insbesondere den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront trainiert wird, wobei die zweiten Paretofront mit dem tiefen künstlichen neuronalen Netzwerk abhängig von den Genauigkeiten und den Kosten für die Sätze bestimmt wird. Dadurch lassen sich die Kosten besonders gut vorhersagen.
  • Es kann vorgesehen sein, dass abhängig von den Kosten, insbesondere mit dem Systemmodell, eine Stützstelle des Suchraums bestimmt wird, die wenigstens eine Entscheidungsvariable der zweiten Paretofront definiert, wobei mit dem Wahrscheinlichkeitsmodell oder mit dem tiefen künstlichen neuronalen Netzwerk abhängig von der Stützstelle wenigstens eine andere Stützstelle des Suchraums bestimmt wird, die wenigstens eine andere Entscheidungsvariable der zweiten Paretofront definiert. Das bedeutet, es wird eine Kombination zurückgegriffen in der insbesondere weit entferne Stützstellen des Suchraums auf dem Systemmodell ermittelt werden und Stützstellen mit ähnlichen Entscheidungsvariablen abgeschätzt werden. Dadurch wird eine Rechengeschwindigkeit der NAS erhöht.
  • Vorzugsweise wird wenigstens eine Randbedingung vorgegeben, die den Suchraum definiert. Das bedeutet, der Suchraum oder die Randbedingungen, in welche sich der Suchraum oder die Suche ausbreiten kann, wird initial definiert. Dies beschleunigt die NAS. Dadurch werden bestimmte Eigenschaften des Systems gezielt berücksichtigt.
  • Es kann vorgesehen sein, dass das Systemmodell ein Wahrscheinlichkeitsmodell oder ein tiefes künstliches neuronales Netzwerk umfasst, wobei das Systemmodell mit einer vorgegebenen Architektur der Recheneinrichtung trainiert wird, wobei die Kosten mit dem trainierten Systemmodell bestimmt werden. Das Systemmodell wird dadurch im Verfahren auf eine Zielhardwarearchitektur trainiert. Damit wird eine noch genauere Approximation der Hardwarekosten erreicht. Es kann vorgesehen sein, dass das Systemmodell anhand einer generischen Hardwarearchitektur vortrainiert ist.
  • Vorzugsweise wird wenigstens ein Hyperparameter bereitgestellt oder bestimmt, der eine insbesondere fixe oder variable Tiefe des künstlichen neuronalen Netzwerks oder eine Kernelgröße oder mehrere Kernelgrößen für Faltungsoperationen definiert. Dadurch wird ein Zustand des wenigstens eines Hyperparameters initialisiert oder der Suchraum beschränkt.
  • Die Vorrichtung zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks ist ausgebildet, Schritte im Verfahren auszuführen.
  • Das Computerprogramm umfasst computerlesbare Instruktionen, bei deren Ausführung durch einen Computer Schritte im Verfahren ablaufen.
  • Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt:
    • 1 eine schematische Darstellung einer Vorrichtung zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks,
    • 2 eine schematische Darstellung von Modellen zur Bestimmung von Hyperparametern des künstlichen neuronalen Netzwerks,
    • 3 Schritte in einem Verfahren zur Bestimmung von Hyperparametern des künstlichen neuronalen Netzwerks.
  • In 1 ist eine Vorrichtung 100 zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks 102 schematisch dargestellt. In der Beschreibung wird eine beispielhafte Umsetzung einer Suche nach einer Architektur des künstlichen neuronalen Netzwerks 102 beschrieben. Die Hyperparameter definieren die Architektur.
  • Durch den Suchraum bzw. die Methodik wie neue Lösungen gefunden werden, kann bestimmt werden, welche Parameter bei der Netzarchitektur verändert werden können. Es können beispielsweise Hyperparameter vorgesehen sein, die eine insbesondere fixe oder variable Tiefe des künstlichen neuronalen Netzwerks oder eine Kernelgröße oder mehrere Kernelgrößen für Faltungsoperationen definieren. Es kann vorgesehen sein, dass die Hyperparameter je Schicht des künstlichen neuronalen Netzwerks bestimmt werden. Die Parameter können auch je nach Layer Typen, die im Suchraum enthalten sind, unterschiedlich ausfallen.
  • Die Vorrichtung 100 umfasst wenigstens einen Prozessor 104 und wenigstens einen Speicher 106.
  • Im wenigstens einen Speicher 106 sind im Beispiel Hyperparameter H, z.B. der Architektur des künstlichen neuronalen Netzwerks 102, und Parameter, z.B. Gewichte, des künstlichen neuronalen Netzwerks 102 gespeichert. Im wenigstens einen Speicher 106 sind im Beispiel Trainingsdaten und Testdaten für ein Training des künstlichen neuronalen Netzwerks 102 gespeichert. Im wenigstens einen Speicher 106 ist im Beispiel ein Computerprogramm gespeichert, bei dessen Ausführung durch den wenigstens einen Prozessor 104 ein im Folgenden beschriebenes Verfahren abläuft. Der wenigstens eine Prozessor 104 ist im Beispiel ausgebildet, über eine Datenleitung 108 auf den wenigstens einen Speicher 106 zuzugreifen, um Daten zu lesen oder zu schreiben.
  • In 2 sind Modelle zur Bestimmung von Hyperparametern H' des künstlichen neuronalen Netzwerks 102 schematisch dargestellt.
  • Sätze von Hyperparametern H werden im Beispiel aus einem Suchraum 202 abhängig von Paretofronten 204 bestimmt. Eine Vielzahl von mit je einem der Sätze ausgebildeten künstlichen neuronalen Netzwerke wird in einer Trainingseinrichtung 206 mit den Trainingsdaten trainiert. Mit der Trainingseinrichtung 206 ist eine erste Zielgröße, insbesondere eine Genauigkeit P der jeweiligen trainierten Netzwerke bestimmbar. Mit einem Systemmodell 208 ist eine zweite Zielgröße, insbesondere die Kosten K, die bei einer Ausführung des jeweiligen trainierten künstlichen neuronalen Netzwerks auftreten, bestimmbar. Abhängig von der ersten Zielgröße und der zweiten Zielgröße, insbesondere abhängig von den Kosten K und der Genauigkeit P, der jeweiligen trainierten künstlichen neuronalen Netzwerke ist eine erste Paretofront 210 bestimmbar.
  • Das Systemmodell 208 ist beispielsweise ein virtuelles Hardwaremodell, VHM, oder ein virtuelles Systemmodell, AVSM.
  • Das VHM oder das AVSM basiert im Beispiel auf Information über eine Topologie des künstlichen neuronalen Netzwerks und über Rechenressourcen zur Ausführung von Instruktionen, in Verbindung mit dem künstlichen neuronalen Netzwerk unter Verwendung der Rechenressourcen. Die Rechenressourcen umfassten beispielsweise Rechenzeit- oder Speicher-Ressourcen oder Speicherbandbreite. Das VHM ermöglicht es, effizient die Rechenressourcen zu bestimmen, die zur Implementierung des künstlichen neuronalen Netzwerks erforderlich sind, ohne dass dafür Simulation auf der Registertransferebene aufgeführt werden. Das ASVM kann einen top-down oder bottom-up Ansatz vorsehen. Wenn beispielsweise eine Sollperformanz des künstlichen neuronalen Netzwerks bekannt ist, werden dazu passende physikalische Eigenschaften von Komponenten ausgewertet oder bestimmt. Wenn beispielsweise physikalische Eigenschaften von Komponenten bekannt sind, wird darauf basierend eine Performanz des Systems auf Systemebene oder eine Skalierbarkeit des Systems bestimmt.
  • Eine Vorhersage für die erste Zielgröße, insbesondere eine Genauigkeit, eines künstlichen neuronalen Netzwerks kann mit einem ersten Teil 212-1 eines Wahrscheinlichkeitsmodells 212 bestimmt werden.
  • Eine Vorhersage für die zweite Zielgröße, insbesondere die Kosten, eines künstlichen neuronalen Netzwerks kann mit einem zweiten Teil 212-2 des Wahrscheinlichkeitsmodells 212 bestimmt werden.
  • Abhängig von wenigstens einer Vorhersage für die erste Zielgröße aus dem ersten Teil 212-1 und wenigstens einer Vorhersage für die zweite Zielgröße aus dem zweiten Teil 212-2 ist eine zweite Paretofront 214 bestimmbar.
  • Abhängig von der ersten Paretofront 210 und der zweiten Paretofront 214 sind im Beispiel die Hyperparameter H' aus dem Suchraum 202 bestimmbar.
  • Das Wahrscheinlichkeitsmodell 212 ist optional um ein Erzeugen neuer Lösungen zu beschleunigen. Anstatt des Wahrscheinlichkeitsmodells 212 können auch die Trainingseinrichtung 206 und das Systemmodell 208 herangezogen werden, um die zweite Paretofront 214 zu bestimmen.
  • Es kann vorgesehen sein, dass bei einer Bewertung von neuen vorgeschlagenen Lösungen auf die Trainingseinrichtung 206 und das Systemmodell 208 zurückgegriffen wird, wenn erkannt wird das das Wahrscheinlichkeitsmodell 212 keine passenden Vorhersagen liefert, z.B., weil eine Entfernung zu einer nächsten Stützstelle des ersten Teils 212-1 oder des zweiten Teils 212-2 des Wahrscheinlichkeitsmodells 212 ist zu groß ist. Zurückgegriffen bedeutet in diesem Kontext beispielweise, dass die zweite Paretofront 214 mit der Trainingseinrichtung 206 und dem Systemmodell 208 bestimmt wird.
  • Im Beispiel ist vorgesehen, dass der erste Teil 212-1 des Wahrscheinlichkeitsmodells 212 abhängig von der ersten Zielgröße, insbesondere der Genauigkeit P, aktualisiert wird, die mit der Trainingseinrichtung 206 bestimmt wird. Aktualisiert bedeutet beispielsweise, dass eine neue Stützstelle zum ersten Teil 212-1 hinzugefügt wird.
  • Im Beispiel ist vorgesehen, dass der zweite Teil 212-2 des Wahrscheinlichkeitsmodells 212 abhängig von der zweiten Zielgröße, insbesondere den Kosten K, aktualisiert wird, die mit dem Systemmodell 208 bestimmt werden. Aktualisiert bedeutet beispielsweise, dass eine neue Stützstelle zum zweiten Teil 212-2 hinzugefügt wird.
  • Nach einem Aktualisieren des ersten Teils 212-1 des Wahrscheinlichkeitsmodells 212 und des zweiten Teils 212-2 des Wahrscheinlichkeitsmodells 212 wird der Satz von Hyperparametern H, d.h. mindestens 1 bis X Sätze von Hyperparametern, als Basis verwendet um neue vielversprechende Hyperparameter zu generieren. Dies kann z.B. durch einen evolutionären Algorithmus erfolgen. Der evolutionäre Algorithmus erzeugt z.B. durch Mutation und Selektion Abwandlungen von den ursprünglichen Hyperparametern. Für die Abwandlungen können durch den ersten Teil 212-1 und den zweiten Teil 212-2 des Wahrscheinlichkeitsmodells 212 die Vorhersagen der ersten und zweiten Zielgröße, z.B. von Genauigkeit und Kosten, abgeschätzt werden. Nach X Iterationen des evolutionären Algorithmus ist eine neue Population von Hyperparametersätzen verfügbar. Diese weisen basierend auf den ursprünglichen Hyperparametern verbesserte Werte für die Vorhersagen für erste und zweite Zielgröße, z.B. Genauigkeit und Kosten auf. Diese Population stellt die zweite, abgeschätzte, Paretofront 214 dar.
  • Zur Bestimmung der Kosten K kann eine Kostenfunktion, d.h. eine Metrik, vorgesehen sein. Die Kosten K können mit einer Proxy-Metrik, wie z.B. einer Anzahl der Parameter oder einer Anzahl der Operationen, oder mit einer Metrik für direkte Hardwarekosten bestimmt werden. Hardwarekosten sind beispielsweise Kosten für eine Ausführung des künstlichen neuronalen Netzwerks auf einer bestimmten Recheneinrichtung. Direkte Hardwarekosten sind beispielsweise eine Latenz, eine Bandbreite oder eine benötigte Energie. Die Proxy-Metrik bestimmt eine Eigenschaft eines Algorithmus. Das bedeutet, die Proxy-Metrik ist eine Approximation der eigentlichen Hardwarekosten. Die Proxy-Metrik ist beispielsweise aus einer Netzarchitektur insbesondere eines tiefen künstlichen neuronalen Netzwerks, DNN, ableitbar. Daher ist eine Proxy-Metrik einfach ermittelbar.
  • Die Metrik für die direkten Hardwarekosten ist für eine spezifische Hardwareplattform ermittelbar. Es kann vorgesehen sein, dass die Metrik eine Eigenschaft dieser Hardwareplattform umfasst.
  • Ein Aufwand zur Ermittlung einer solchen Kostenfunktion ist immens, insbesondere, wenn sehr viele Architekturen von während einer Netzwerkarchitektursuche, NAS, bewertet werden müssen oder wenn eine einzelne Bewertung sehr langwierig und teuer ist. Beispielsweise ist eine Bewertung langwierig und teuer, wenn eine Messung der Latenz auf der echten Hardware oder einem Simulator / Emulator durchgeführt werden muss.
  • Zur Reduzierung dieses Aufwands kann ein Zerlegen der Netzarchitektur in mögliche Einzeloperationen und ein Bewerten dieser Einzeloperationen vorgesehen sein. Dieser Ansatz wird auch als operationsbasiertes Profiling bezeichnet. Vorteil dieser Methode ist eine Reduzierung der zu bewertenden Operationen bzw. DNN Architekturen. Optimierungen über Operationen hinweg sind mit dieser Methode nicht berücksichtigbar.
  • Insbesondere finden bei dedizierten Hardwarebeschleunigern solche Optimierungen häufig statt, was zu einer hohen Ungenauigkeit der ermittelten Hardwarekosten führen kann. Ein konkretes Beispiel für eine solche Optimierung ist Layer Fusion, bei der aufeinanderfolgende Operationen bei der Ausführung in der Recheneinheit verschmolzen werden.
  • Das Systemmodell 208 umfasst im Beispiel ein Ersatzmodell zur Approximation von Hardwarekosten, insbesondere durch Simulation auf einem vereinfachten Software-Modell der Hardware. Das Verfahren sieht eine Kopplung von NAS und statt einer direkten Bewertung der Hardware-Architektur bzw. einer Simulation der Hardware-Architektur zur Bewertung der Hardware-Architektur eine Bewertung mit dem Systemmodell 208 vor.
  • Dies ermöglicht eine effiziente NAS unter Berücksichtigung von Hardwarekosten. Dadurch wird eine Ausführungszeit für die NAS reduziert. Konkret werden dadurch folgende Vorteile erreicht:
    • • Effiziente Approximation von direkten Hardwarekosten z.B. Latenz, Energie, Speicherverbrauch.
    • • Kopplung von Hardwaresimulatoren oder auch realen Hardwarearchitekturen mit der NAS. Dadurch ist eine Kooperative Entwicklung von Hardware, Software und Algorithmen der künstlichen Intelligenz durchführbar.
    • • Berücksichtigung von Interaktion von Hardwarekomponenten auf System-Level. Dadurch ist z.B. eine Last auf Kommunikationsverbindungen durch eine CPU berücksichtigbar.
    • • Einbeziehen von anderen Applikationen und deren Implikationen auf ein Gesamtsystem. Dies trägt zu realistischeren Randbedingungen für die Netzwerkarchitektursuche und deren Metriken bei.
  • Mit dem im Folgenden beschriebenen Verfahren wird eine Kostenfunktion durch die Verwendung des Systemmodells 208 umgesetzt.
  • Das Systemmodell 208 ist vorzugsweise eine nicht funktionale Simulation einer Performanz einer Implementierung eines zu bewertenden künstlichen neuronalen Netzwerks auf einer zu bewertenden Recheneinrichtung.
  • Das Systemmodell 208 ermöglicht es, die Hardwarekosten mit hohen Güte vorherzusagen. Es kann vorgesehen sein, die Bewertung der Hardwarekosten auszuführen, wenn verschiedene Design-Entscheidungen der Hardware verfügbar und noch nicht vollständig getroffen sind, um so ein Zusammenspiel zwischen Hardwareauslegung und Netzarchitektur ideal aufeinander abzustimmen.
  • Die Ablaufstruktur des Verfahrens ermöglicht es, nur vielversprechende Lösungen bezüglich teuer zu ermittelnden Hardwarekosten zu evaluieren. Eine nächste vielversprechende Lösung wird durch Iteratives Ausführen des Verfahrens bewertet.
  • Die Güte des Systemmodells 208 ist im Beispiel eine Referenz mit der die Vorhersagen ausgewertet werden.
  • Das Systemmodell 208 eignet sich im Beispiel für eine Abschätzung von Hardwarekosten für eine Netzarchitektur eignet. Das Systemmodell 208 kann mit dem Ersatzmodell ergänzt werden, das eine Laufzeit der NAS auch für größere Suchräume und Netzarchitekturen zu verkürzen.
  • Das Systemmodell 208 ist insbesondere ein nicht funktionales Modell für die Performanz, welches eine generelle Arbeitsweise der Komponenten der Recheneinrichtung, d.h. der Hardware, abbildet und eine gewünschte Zielgröße z.B. Latenz oder Bandbreite durch Simulation ermittelt. Hierbei werden vorzugsweise andere Eigenschaften, wie z.B. die genaue funktionale Abarbeitung, abstrahiert und einen möglichst hohe Simulationsgeschwindigkeit für die zu erwartenden Zielgrößen erreicht.
  • Das Wahrscheinlichkeitsmodell 212, insbesondere der zweite Teil 212-2 des Wahrscheinlichkeitsmodells 212, ist insbesondere ein mathematisches Wahrscheinlichkeitsmodell, das zur Approximation von NAS Zielgrößen, wie eine Genauigkeit und Hardwarekosten eines künstlichen neuronalen Netzwerks ausgebildet ist. Beispielsweise ist das Wahrscheinlichkeitsmodell 212 gemäß eines der folgenden Beispiele umgesetzt
  • H.Benmeziane, K.Maghraoui, H.Ouarnoughi, S Niar, M.Wistuba, N.Wang, A comprehensive Survey on Hardware-Aware Neural Architecture Search, 2021 https://arxiv.org/pdf/2101.09336.pdf.
  • Md I. M. Shahriar, J. Su, L. Kotthoff, and P. Jamshidi. Flexibo: Cost-aware multiobjective optimization of deep neural networks. arXiv, 2020
    https://arxiv.org/pdf/2001.06588.pdf.
    J. Snoek, H. Larochelle, and R. P. Adams. Practical bayesian optimization of machine learning algorithms. In Advances in Neural Information Processing Systems, pages 2951-2959, 2012 https://arxiv.org/pdf/1206.2944.pdf.
  • Das Wahrscheinlichkeitsmodell 212 kann auch ein angelerntes tiefes künstliches neuronales Netzwerk, DNN, oder ein angelerntes graphisches neuronales Netzwerk, GNN sein.
  • Das Wahrscheinlichkeitsmodell 212 ist beispielsweise ein mathematisches Modell, das ausgebildet ist, eine Vorhersage für eine Genauigkeit P und/oder eine Ausführungszeit t auf einer bestimmten Recheneinrichtung T eines veränderten künstlichen neuronalen Netzwerks mit Hyperparametern H' vorauszusagen.
  • Das Wahrscheinlichkeitsmodell 212 ist beispielsweise ein mathematisches Modell, das ausgebildet ist, die Ausführungszeit t auf einer veränderten Recheneinrichtung T' für ein künstliches neuronales Netzwerk mit dem Satz von Hyperparametern H vorauszusagen.
  • Das Systemmodell 208 kann ausgebildet sein, mit Hilfe der Einbindung von Hardware- oder System-Simulationsmodellen relevante Stellen oder Stützstellen des Ersatzmodells in weniger Iterationen zu finden als durch eine Rastersuche. Dies erlaubt eine effiziente Hardware-/System Optimierung.
  • Das Verfahren zur Bestimmung der Hyperparameter H' ist in 3 dargestellt. Das Verfahren wird anhand des Beispiels Genauigkeit P und Kosten K beschreiben. Für andere Zielgrößen wird das Verfahren mit diesen anderen Zielgrößen statt der Genauigkeit P und den Kosten K ausgeführt.
  • Das Verfahren läuft im Beispiel in Iterationen ab, in denen eine Vielzahl von Hyperparametern H' bestimmt wird.
  • In einem Schritt 300 wird aus einem Suchraum 202 ein Satz von Hyperparametern H für ein künstliches neuronales Netzwerk 102 bereitgestellt.
  • Der Suchraum 202 umfasst im Beispiel mögliche Lösungen. Die Paretofronten 204 umfassen Hyperparameter, die im Suchraum 202 enthalten sind. Die Lösungen sind z.B. durch die Randbedingungen oder eine Definition des Suchraumes 202 vorgegeben. Im Beispiel wird in der ersten Iteration auch eine Randbedingung vorgegeben, die den Suchraum 202 definiert.
  • Anschließend wird ein Schritt 302 ausgeführt.
  • Im Schritt 302 wird für den Satz ein gemäß der Hyperparameter H des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert.
  • Im Beispiel wird das Training in einer Iteration des Verfahrens für ein künstliches neuronales Netzwerk durchgeführt, das durch den in dieser Iteration neu hinzugekommenen Satz von Hyperparametern definiert ist. Bereits in einer vorherigen Iteration trainierte künstliche neuronale Netzwerke werden in diesem Beispiel nicht erneut trainiert.
  • In einem Schritt 304 wird mit einer Metrik die Genauigkeit P der Vorhersage des trainierten künstlichen neuronalen Netzwerks bestimmt.
  • Die Metrik ist eine Metrik, mit der eine Genauigkeit einer Vorhersage durch das künstliche neuronale Netzwerk bestimmbar ist. Beispielweise wird eine Güte einer Vorhersage des künstlichen neuronalen Netzwerks mit den Testdaten bestimmt.
  • In einem Schritt 306 werden mit dem Systemmodell 208 die Kosten K für die Ausführung wenigstens einer Komponente des trainierten künstlichen neuronalen Netzwerks bestimmt. Schritt 306 kann auch parallel oder zeitlich überlappend mit Schritt 304 ausgeführt werden.
  • Das Systemmodell 208 ist im Beispiel ein Modell, mit dem Kosten, insbesondere eine Latenz, eine Anzahl an Parametern des künstlichen neuronalen Netzwerks, eine Rechenlast auf einen Prozessor (CPU), eine Rechenlast für einen Speicherdirektzugriff (DMA), eine Bandbreite, eine benötigte Energie, für eine Ausführung wenigstens eines Teils des künstlichen neuronalen Netzwerks auf wenigstens einer Komponente einer Recheneinrichtung bei einer Ausführung des künstlichen neuronalen Netzwerks bestimmbar sind.
  • Die Kosten K werden im Beispiel mit dem Systemmodell 208 bestimmt.
  • In einem Schritt 308 wird abhängig von den Genauigkeiten P für die Sätze die erste Paretofront 210 bestimmt.
  • In einem Schritt 310 wird ein weiterer Satz von Hyperparameter bestimmt. Der weitere Satz von Hyperparametern wird im Beispiel abhängig von einem der Sätze von Hyperparametern bestimmt, mit dem in den bisherigen Iterationen des Verfahrens bereits ein künstliches neuronales Netzwerk trainiert wurde.
  • Es kann vorgesehen sein, das eine Vielzahl von weiteren Sätzen von Hyperparametern iterativ, insbesondere bis zu einem vorher definierten Abbruchkriterium, bestimmt werden. Beispielsweise wird der evolutionäre Algorithmus verwendet. Beispielsweise werden Hyperparameter aus einem der Sätze von Hyperparametern verändert oder durch andere Parameter ersetzt um einen von diesem verschiedenen weiteren Satz von Hyperparameter zu bestimmen.
  • In einem Schritt 312 wird abhängig von den Kosten K die zweite Paretofront 214 bestimmt.
  • Die zweite Paretofront 214 wird im Beispiel mit dem Wahrscheinlichkeitsmodell 212 abhängig von den Hyperparametern des weiteren Satzes bestimmt.
  • Das Wahrscheinlichkeitsmodell 212 wird im Beispiel abhängig von den Genauigkeiten P und den Kosten K für die Sätze bereits trainierter künstlicher neuronaler Netzwerke bestimmt, insbesondere aktualisiert.
  • Mit dem Wahrscheinlichkeitsmodell 212 wird eine Vorhersage für die Genauigkeit und die Kosten für ein künstliches neuronales Netzwerk vorhergesagt, das durch den weiteren Satz von Hyperparametern definiert ist.
  • Es kann vorgesehen sein, dass statt dem Wahrscheinlichkeitsmodell 212 ein tiefes künstliches neuronales Netzwerk trainiert und zur Bestimmung der Genauigkeiten P und den Kosten K verwendet wird.
  • Es kann vorgesehen sein, dass geprüft wird, ob mit dem Wahrscheinlichkeitsmodell 212 eine Vorhersage für die Genauigkeit und die Kosten des durch den weiteren Satz von Hyperparametern definierten künstlichen neuronalen Netzwerks möglich ist. Es kann vorgesehen sein, dass die Vorhersage für den weiteren Satz von Parametern statt mit dem Wahrscheinlichkeitsmodell 212 durch Training des künstlichen neuronalen Netzwerks und durch Bestimmen der Genauigkeit P des trainierten künstlichen neuronalen Netzwerks und Bestimmen der Kosten K mit dem Systemmodell 208 bestimmt wird, wenn die Vorhersage für die Genauigkeit oder die Vorhersage für die Kosten mit dem Wahrscheinlichkeitsmodell 212 nicht möglich ist.
  • Beispielsweise wird festgestellt, dass die Vorhersage für die Genauigkeit mit dem Wahrscheinlichkeitsmodell 212 nicht möglich ist, wenn die Entfernung der Hyperparameter aus dem weiteren Satz von Hyperparametern zu einer Stützstelle des ersten Teils 212-1 größer als eine vorgegebene Entfernung ist. Beispielsweise wird festgestellt, dass die Vorhersage für die Kosten mit dem Wahrscheinlichkeitsmodell 212 nicht möglich ist, wenn die Entfernung der Hyperparameter aus dem weiteren Satz von Hyperparametern zu einer Stützstelle des zweiten Teils 212-2 größer als eine vorgegebene Entfernung ist.
  • Anschließend wird ein Schritt 314 ausgeführt. Im Schritt 314 werden die Hyperparameter H' für das künstliche neuronale Netzwerk abhängig von den Genauigkeiten P und den Kosten K für die Sätze bestimmt.
  • Im Beispiel werden die Hyperparameter H' abhängig von der ersten Paretofront 210 und der zweiten Paretofront 214 aus dem Suchraum 202 ausgewählt.
  • Hier sind verschiedene Methoden möglich, die beispielsweise auf einer minimalen Distanz oder einer Größe eines Volumens im Suchraum basieren. Beispielsweise werden Hyperparameter H' bestimmt, die eine möglichst kleine Distanz zu den Hyperparametern H aus einer vorherigen Iteration oder zu den Sätzen von Hyperparametern aus vorherigen Iterationen aufweisen. Es kann auch vorgesehen sein, die Hyperparameter H' aus einem Volumen im Suchraum 202 zu bestimmen, das durch die Sätze von Hyperparametern vorgegeben ist.
  • Durch eine Definition des Suchraums 202 oder durch eine Methodik, wie neue Lösungen gefunden werden, wird beispielsweise bestimmt, welche Hyperparameter H' einer Architektur des künstlichen neuronalen Netzwerks verändert werden können. Die Parameter können auch je nach Schichttyp des künstlichen neuronalen Netzwerks, der im Suchraum 202 enthalten ist, unterschiedlich gewählt werden.
  • Anschließend wird ein optionaler Schritt 316 ausgeführt.
  • Im Schritt 316 werden die Hyperparameter H' bereitgestellt. In den Iterationen wird eine Vielzahl von Sätzen von Hyperparametern bestimmt. Es kann vorgesehen sein, dass Hyperparameter H' aus den Sätzen von Hyperparametern ausgewählt werden. Die folgende Iteration beginnt im Beispiel mit Schritt 300.
  • Das Verfahren endet beispielsweise, wenn eine vorgegebene Anzahl von Iterationen ausgeführt ist.
  • Die Bestimmung der Hyperparameter und die Bewertung kann auf verschiedenen Daten arbeiten.
  • Im Folgenden werden die zwei Anwendungsfälle beschrieben.
  • Es kann vorgesehen sein, dass die Architektur für eine Objekterkennung bestimmt wird. Die Objekterkennung basiert im Beispiel auf Radardaten bzw. Radarspektren, welche von einem Radarsystem oder Radarsensor zur Verfügung gestellt werden. Die Trainingsdaten und Testdaten basieren in diesem Beispiel auf den Radardaten bzw. Radarspektern. Es kann vorgesehen sein, dass die Objekterkennung für ein Fahrzeug eingesetzt wird.
  • Es kann vorgesehen sein, dass die Architektur für eine Aktivitätserkennung von Personen mit Hilfe von Daten eines Beschleunigungssensors und optional eines Gyroskops bestimmt wird.
  • Es kann vorgesehen sein, dass die Aktivitätserkennung für ein sogenanntes „Wearable“ z.B. Fitnesstracker, oder eine Smartwatch eingesetzt wird
  • Für Anwendungsfälle der Aktivitätserkennung von Personen, sowie für die Objekterkennung anhand von Radardaten ist die automatisierte NAS für die Generierung von neuronalen Netzarchitekturen besonders wichtig, da die NAS eine Einbeziehung anderer Applikationen für eine Interaktion zwischen diesen und für eine Interaktion von Hardwarekomponenten zur Ausführung der Applikationen in einem beispielsweise bezüglich Laufzeit, Energie und/oder Speicher stark Ressourcen beschränkten Umfeld betreffen.
  • Es kann vorgesehen sein, dass Applikationen, welche sich eine Hardwareverarbeitungseinheit, z.B. einen Prozessor, einen Graphikprozessor, einen digitalen Signalprozessor und/oder einen dedizierten Beschleuniger, teilen, mit in die Architektursuche eingebunden werden. Es kann vorgesehen sein, dass Applikationen auf anderen Hardwareverarbeitungseinheiten welche sich geteilte Ressourcen, z.B. Interconnect oder Speicher, teilen, mit in die Architektursuche eingebunden werden.
  • Ein Verfahren des maschinellen Lernens, das dieses Verfahren umfasst, ermöglicht es, automatisiert und unter Berücksichtigung der vorhandenen anderen Applikationen eines gegebenen Systems eine Netzarchitektur für das System zu finden, insbesondere eine Netzarchitektur, die ein effizientes Ausnutzen von verfügbaren Rechenressourcen ermöglicht.
  • Optional wird nach dem Training in einem Schritt 318 ein tiefes Neuronales Netzwerk mit den Hyperparametern H' aus der letzten Iteration auf die Recheneinrichtung übertragen und auf der Recheneinrichtung ausgeführt, beispielsweise zur Objekterkennung oder Aktivitätserkennung.

Claims (11)

  1. Computerimplementiertes Verfahren zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks (102), dadurch gekennzeichnet, dass Sätze von Hyperparametern für eine Vielzahl von künstlichen neuronalen Netzwerken (102) bereitgestellt werden (300), wobei je Satz ein gemäß der Hyperparameter des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert wird (302), wobei mit einer Metrik, mit der eine erste Zielgröße, insbesondere eine Genauigkeit einer Vorhersage durch künstliche neuronale Netzwerke, bestimmbar ist, die erste Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird (304), wobei mit einem Systemmodell (208), mit dem eine zweite Zielgröße, insbesondere Kosten, die bei einer Ausführung eines künstlichen neuronalen Netzwerks entstehen, bestimmbar sind, die zweite Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird (306), und wobei die Hyperparameter für das künstliche neuronale Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen bestimmt werden (314), die für die Sätze bestimmt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Kosten bestimmt werden, die eine Latenz, eine Anzahl an Parametern eines künstlichen neuronalen Netzwerks, eine Rechenlast auf einen Prozessor, eine Rechenlast für einen Speicherdirektzugriff, eine Bandbreite, und/oder eine benötigte Energie, für eine Ausführung wenigstens eines Teils eines künstlichen neuronalen Netzwerks auf wenigstens einer Komponente einer Recheneinrichtung charakterisieren.
  3. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig von den ersten Zielgrößen und abhängig von den zweiten Zielgrößen für die Sätze eine erste Paretofront (210) bestimmt wird (308), wobei abhängig von wenigstens einem der Sätze von Hyperparametern ein weiterer Satz von Hyperparameter bestimmt wird (310), wobei mit einem Wahrscheinlichkeitsmodell (212), mit dem eine Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein künstliches neuronales Netzwerk, das durch einen Satz von Hyperparametern definiert ist, vorhersagbar ist, für den weiteren Satz von Hyperparametern die Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein durch den weiteren Satz definiertes künstliches neuronales Netzwerk bestimmt wird, wobei abhängig von der Vorhersage für die erste Zielgröße und der Vorhersage für die zweite Zielgröße eine zweite Paretofront (214) bestimmt wird (312), und wobei die Hyperparameter abhängig von der ersten Paretofront (210) und der zweiten Paretofront (214) aus einem Suchraum (202) ausgewählt werden (314).
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass in Iterationen eine Vielzahl von Sätzen von Hyperparametern bestimmt wird, wobei die Hyperparameter aus den Sätzen von Hyperparametern ausgewählt werden (316).
  5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass das Wahrscheinlichkeitsmodell (212) mit den ersten Zielgrößen, insbesondere den Genauigkeiten, den zweiten Zielgrößen, insbesondere den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront (214) bestimmt wird, wobei die zweite Paretofront (214) mit dem Wahrscheinlichkeitsmodell (212) abhängig von der ersten Zielgröße und der zweiten Zielgröße für die Sätze bestimmt wird (312), oder dass ein tiefes künstliches neuronales Netzwerk mit den ersten Zielgrößen, insbesondere den Genauigkeiten, den zweiten Zielgrößen, insbesondere den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront (214) trainiert wird, wobei die zweite Paretofront (214) mit dem tiefen künstlichen neuronalen Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen für die Sätze bestimmt wird (312).
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass abhängig von der zweiten Zielgröße, insbesondere den Kosten, insbesondere mit dem Systemmodell (208), eine Stützstelle des Suchraums (202) bestimmt wird, die wenigstens eine Entscheidungsvariable der zweiten Paretofront (214) definiert, wobei mit dem Wahrscheinlichkeitsmodell (212) oder mit dem tiefen künstlichen neuronalen Netzwerk abhängig von der Stützstelle wenigstens eine andere Stützstelle des Suchraums (202) bestimmt wird, die wenigstens eine andere Entscheidungsvariable der zweiten Paretofront (214) definiert.
  7. Verfahren nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass wenigstens eine Randbedingung vorgegeben wird (300), die den Suchraum (202) definiert.
  8. Verfahren nach einem der Ansprüche 3 bis 7, dadurch gekennzeichnet, dass die Vorhersage für den weiteren Satz von Parametern statt mit dem Wahrscheinlichkeitsmodell (212) durch Training eines durch den weiteren Satz von Hyperparametern definierten künstlichen neuronalen Netzwerks und durch Bestimmen der ersten Zielgröße des trainierten künstlichen neuronalen Netzwerks und Bestimmen der zweiten Zielgröße mit dem Systemmodell (208) bestimmt wird, wenn festgestellt wird, dass eine Entfernung wenigstens eines Hyperparameters aus dem weiteren Satz von Hyperparametern zu einer Stützstelle des Wahrscheinlichkeitsmodells (212) größer als eine vorgegebene Entfernung ist.
  9. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass, wenigstens ein Hyperparameter bereitgestellt (300) oder bestimmt (314) wird, der eine insbesondere fixe oder variable Tiefe des künstlichen neuronalen Netzwerks oder eine Kernelgröße oder mehrere Kernelgrößen für Faltungsoperationen definiert.
  10. Vorrichtung (100) zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks (102), dadurch gekennzeichnet, dass die Vorrichtung (100) ausgebildet ist, Schritte im Verfahren nach einem der Ansprüche 1 bis 9 auszuführen.
  11. Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführung durch einen Computer Schritte im Verfahren nach einem der Ansprüche 1 bis 10 ablaufen.
DE102021208637.3A 2021-08-09 2021-08-09 Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks Pending DE102021208637A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021208637.3A DE102021208637A1 (de) 2021-08-09 2021-08-09 Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021208637.3A DE102021208637A1 (de) 2021-08-09 2021-08-09 Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks

Publications (1)

Publication Number Publication Date
DE102021208637A1 true DE102021208637A1 (de) 2023-02-09

Family

ID=84975210

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021208637.3A Pending DE102021208637A1 (de) 2021-08-09 2021-08-09 Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks

Country Status (1)

Country Link
DE (1) DE102021208637A1 (de)

Similar Documents

Publication Publication Date Title
DE202017106532U1 (de) Suche nach einer neuronalen Architektur
DE112021004908T5 (de) Computerbasierte systeme, rechenkomponenten und rechenobjekte, die eingerichtet sind, dynamische ausreisser-verzerrungs-verringerung bei maschinenlernmodellen zu implementieren
DE102018202497A1 (de) Technologien für optimiertes Maschinenlerntraining
DE112018005227T5 (de) Merkmalsextraktion mithilfe von multi-task-lernen
DE112016004534T5 (de) Nicht überwachtes Abgleichen in feinkörnigen Datensätzen zur Einzelansicht-Objektrekonstruktion
DE112018006189T5 (de) Robuste gradienten-gewichtskomprimierungsschemata für deep-learning-anwendungen
DE112018004693T5 (de) Verbessern der effizienz eines neuronalen netzes
DE112020005610T5 (de) Identifizieren von optimalen gewichtungen zum verbessern einervorhersagegenauigkeit bei methoden für maschinelles lernen
DE112019002737T5 (de) Computersystemvorhersagemodelle mit maschinellem lernen
DE112019000340T5 (de) Epistemische und aleatorische tiefe plastizität auf grundlage vontonrückmeldungen
DE102019003851A1 (de) Systeme und Verfahren zum automatischen Realisieren von Modellen zu Co-Simulation
CN110383298A (zh) 用于连续控制任务的数据高效强化学习
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112021001566T5 (de) Ermitteln von abhängigkeiten multivariater zeitreihendaten
CN111126668A (zh) 基于图卷积网络的Spark作业时间预测方法和装置
DE112020004031T5 (de) Systembezogene selektive quantisierung für in der leistungsfähigkeit optimiertes verteiltes deep learning
DE102019115320A1 (de) Analysevorrichtung unter Verwendung eines erlernten Modells und Verfahren dafür
CN112561031A (zh) 基于人工智能的模型搜索方法、装置及电子设备
EP2442248A1 (de) Kopplungsmethodik für nicht-iterative Co-Simulation
DE102012204167A1 (de) Vorauslaufende genäherte Berechnungen
DE102020205959A1 (de) Algorithmen zum berechnen von kraftfeldern in neuronalen graphennetzwerken für molekulardynamische computersimulationen
DE112021005910T5 (de) Schnellere abdeckungskonvergenz mit automatischer testparameterabstimmung bei eingeschränkter zufallsverifikation
DE102019203634A1 (de) Verfahren und Vorrichtung zum Ansteuern eines Roboters
Robati et al. Inflation rate modeling: adaptive neuro-fuzzy inference system approach and particle swarm optimization algorithm (ANFIS-PSO)
DE112021006640T5 (de) Automatisiertes maschinelles mehrebenen- und mehrziel-lernen

Legal Events

Date Code Title Description
R083 Amendment of/additions to inventor(s)
R163 Identified publications notified