DE102021208637A1

DE102021208637A1 - Computerimplementiertes Verfahren, Vorrichtung, Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks

Info

Publication number: DE102021208637A1
Application number: DE102021208637.3A
Authority: DE
Inventors: Armin Runge; Bharath Ramachandraiah; Dayo Oshinubi; Falk Rehm; Michael Klaiber
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-02-09

Abstract

Computerimplementiertes Verfahren, Vorrichtung und Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks, wobei Sätze von Hyperparametern für eine Vielzahl von künstlichen neuronalen Netzwerken bereitgestellt werden, wobei je Satz ein gemäß der Hyperparameter des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert wird, wobei mit einer Metrik, mit der eine erste Zielgröße, insbesondere eine Genauigkeit einer Vorhersage durch künstliche neuronale Netzwerke bestimmbar ist, die erste Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird, wobei mit einem Systemmodell (208), mit dem eine zweite Zielgröße, insbesondere Kosten, die bei einer Ausführung eines künstlichen neuronalen Netzwerks entstehen, bestimmbar ist, die zweite Zielgröße für die Ausführung wenigstens einer Komponente des trainierten künstlichen neuronalen Netzwerks bestimmt wird, und wobei die Hyperparameter für das künstliche neuronale Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen bestimmt werden, die für die Sätze bestimmt werden.

Description

Stand der Technik
Die Erfindung geht aus von einem computerimplementierten Verfahren, einer Vorrichtung, und einem Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks.
Die stetig steigende Verfügbarkeit von Daten und Rechenleistung hat dazu geführt, dass sich Algorithmen, die tiefe neuronale Netze, englisch Deep Neural Networks, DNNs, implementieren in verschiedensten Domänen sehr erfolgreich etablieren konnten. Aufgrund der Komplexität und der Größe des Suchraums, ist für das Design dieser Algorithmen allerdings ein hohes Maß an Expertenwissen und Rechenzeit nötig. Dies gilt insbesondere dann, wenn diese Algorithmen in einem eingebetteten System eingesetzt werden sollen, da dort durch eine Architektur des eingebetteten Systems fest vorgegebene Ressourcenlimitierungen existieren.
Offenbarung der Erfindung
Das computerimplementierte Verfahren, die Vorrichtung und das Computerprogramm zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks gemäß den unabhängigen Ansprüchen ermöglichen es, automatisch oder teilautomatisch eine Architektur eines insbesondere tiefen künstlichen neuronalen Netzwerks zu bestimmen.
Das computerimplementierte Verfahren zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks sieht vor, dass Sätze von Hyperparametern für eine Vielzahl von künstlichen neuronalen Netzwerken bereitgestellt werden, wobei je Satz ein gemäß der Hyperparameter des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert wird, wobei mit einer Metrik, mit der eine erste Zielgröße, insbesondere eine Genauigkeit einer Vorhersage durch künstliche neuronale Netzwerke bestimmbar ist, die erste Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird, wobei mit einem Systemmodell, mit dem eine zweite Zielgröße, insbesondere Kosten, die bei einer Ausführung eines künstlichen neuronalen Netzwerks entstehen, bestimmbar ist, die zweite Zielgröße für die Ausführung wenigstens einer Komponente des trainierten künstlichen neuronalen Netzwerks bestimmt wird, und wobei die Hyperparameter für das künstliche neuronale Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen bestimmt werden, die für die Sätze bestimmt werden.
Typischerweise handelt es sich bei einer Netzwerkarchitektursuche, NAS, um ein Mehrzieloptimierungsproblem und entsprechende NAS Algorithmen berücksichtigen neben der Genauigkeit auch noch weitere Zielfunktionen, die im Kontext dieser Beschreibung als Kostenfunktion bezeichnet werden.
Das Ergebnis einer solchen Architektursuche im Falle mehrerer Zielfunktionen ist daher immer eine Menge an Lösungen die im Kontext dieser Beschreibung als Paretofront bezeichnet wird. Innerhalb dieser Front wird eine Abwägung und/oder Auswahl von Genauigkeit und den entsprechenden Zielgrößen vorgenommen. Durch die (Teil-)Automatisierung werden sowohl Architekturen mit einer höheren Genauigkeit als auch mit geringeren Kosten für weitere Zielgrößen gefunden.
Vorzugsweise wird abhängig von den ersten Zielgrößen und den zweiten Zielgrößen für die Sätze eine erste Paretofront bestimmt wird, wobei abhängig von wenigstens einem der Sätze von Hyperparametern ein weiterer Satz von Hyperparameter bestimmt wird, wobei mit einem Wahrscheinlichkeitsmodell, mit dem eine Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein künstliches neuronales Netzwerk, das durch einen Satz von Hyperparametern definiert ist, vorhersagbar ist, für den weiteren Satz von Hyperparametern die Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein durch den weiteren Satz definiertes künstliches neuronales Netzwerk bestimmt wird, wobei abhängig von der Vorhersage für die erste Zielgröße und der Vorhersage für die zweite Zielgröße eine zweite Paretofront bestimmt wird, und wobei die Hyperparameter abhängig von der ersten Paretofront und der zweiten Paretofront aus einem Suchraum ausgewählt werden. Aus der vorgeschlagenen zweiten Paretofront und der tatsächlich trainierten und simulierten ersten Paretofront werden neue vielversprechende Lösungen für die Hyperparameter ausgewählt.
Vorzugsweise wird in Iterationen eine Vielzahl von Sätzen von Hyperparametern bestimmt, wobei die Hyperparameter aus der Vielzahl von Sätzen von Hyperparametern ausgewählt werden. Dadurch werden die vielversprechenden Hyperparameter bereitgestellt.
Es kann vorgesehen sein, dass ein Wahrscheinlichkeitsmodell mit den Genauigkeiten, den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront bestimmt wird, wobei die zweite Paretofront mit dem Wahrscheinlichkeitsmodell abhängig von ersten Zielgrößen, insbesondere den Genauigkeiten und den zweiten Zielgrößen, insbesondere den Kosten für die Sätze bestimmt wird. Es kann vorgesehen sein, dass ein tiefes künstliches neuronales Netzwerk mit den ersten Zielgrößen, insbesondere den Genauigkeiten, zweiten Zielgrößen, insbesondere den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront trainiert wird, wobei die zweiten Paretofront mit dem tiefen künstlichen neuronalen Netzwerk abhängig von den Genauigkeiten und den Kosten für die Sätze bestimmt wird. Dadurch lassen sich die Kosten besonders gut vorhersagen.
Es kann vorgesehen sein, dass abhängig von den Kosten, insbesondere mit dem Systemmodell, eine Stützstelle des Suchraums bestimmt wird, die wenigstens eine Entscheidungsvariable der zweiten Paretofront definiert, wobei mit dem Wahrscheinlichkeitsmodell oder mit dem tiefen künstlichen neuronalen Netzwerk abhängig von der Stützstelle wenigstens eine andere Stützstelle des Suchraums bestimmt wird, die wenigstens eine andere Entscheidungsvariable der zweiten Paretofront definiert. Das bedeutet, es wird eine Kombination zurückgegriffen in der insbesondere weit entferne Stützstellen des Suchraums auf dem Systemmodell ermittelt werden und Stützstellen mit ähnlichen Entscheidungsvariablen abgeschätzt werden. Dadurch wird eine Rechengeschwindigkeit der NAS erhöht.
Vorzugsweise wird wenigstens eine Randbedingung vorgegeben, die den Suchraum definiert. Das bedeutet, der Suchraum oder die Randbedingungen, in welche sich der Suchraum oder die Suche ausbreiten kann, wird initial definiert. Dies beschleunigt die NAS. Dadurch werden bestimmte Eigenschaften des Systems gezielt berücksichtigt.
Es kann vorgesehen sein, dass das Systemmodell ein Wahrscheinlichkeitsmodell oder ein tiefes künstliches neuronales Netzwerk umfasst, wobei das Systemmodell mit einer vorgegebenen Architektur der Recheneinrichtung trainiert wird, wobei die Kosten mit dem trainierten Systemmodell bestimmt werden. Das Systemmodell wird dadurch im Verfahren auf eine Zielhardwarearchitektur trainiert. Damit wird eine noch genauere Approximation der Hardwarekosten erreicht. Es kann vorgesehen sein, dass das Systemmodell anhand einer generischen Hardwarearchitektur vortrainiert ist.
Vorzugsweise wird wenigstens ein Hyperparameter bereitgestellt oder bestimmt, der eine insbesondere fixe oder variable Tiefe des künstlichen neuronalen Netzwerks oder eine Kernelgröße oder mehrere Kernelgrößen für Faltungsoperationen definiert. Dadurch wird ein Zustand des wenigstens eines Hyperparameters initialisiert oder der Suchraum beschränkt.
Die Vorrichtung zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks ist ausgebildet, Schritte im Verfahren auszuführen.
Das Computerprogramm umfasst computerlesbare Instruktionen, bei deren Ausführung durch einen Computer Schritte im Verfahren ablaufen.
Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt:

1 eine schematische Darstellung einer Vorrichtung zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks,
2 eine schematische Darstellung von Modellen zur Bestimmung von Hyperparametern des künstlichen neuronalen Netzwerks,
3 Schritte in einem Verfahren zur Bestimmung von Hyperparametern des künstlichen neuronalen Netzwerks.

In 1 ist eine Vorrichtung 100 zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks 102 schematisch dargestellt. In der Beschreibung wird eine beispielhafte Umsetzung einer Suche nach einer Architektur des künstlichen neuronalen Netzwerks 102 beschrieben. Die Hyperparameter definieren die Architektur.
Durch den Suchraum bzw. die Methodik wie neue Lösungen gefunden werden, kann bestimmt werden, welche Parameter bei der Netzarchitektur verändert werden können. Es können beispielsweise Hyperparameter vorgesehen sein, die eine insbesondere fixe oder variable Tiefe des künstlichen neuronalen Netzwerks oder eine Kernelgröße oder mehrere Kernelgrößen für Faltungsoperationen definieren. Es kann vorgesehen sein, dass die Hyperparameter je Schicht des künstlichen neuronalen Netzwerks bestimmt werden. Die Parameter können auch je nach Layer Typen, die im Suchraum enthalten sind, unterschiedlich ausfallen.
Die Vorrichtung 100 umfasst wenigstens einen Prozessor 104 und wenigstens einen Speicher 106.
Im wenigstens einen Speicher 106 sind im Beispiel Hyperparameter H, z.B. der Architektur des künstlichen neuronalen Netzwerks 102, und Parameter, z.B. Gewichte, des künstlichen neuronalen Netzwerks 102 gespeichert. Im wenigstens einen Speicher 106 sind im Beispiel Trainingsdaten und Testdaten für ein Training des künstlichen neuronalen Netzwerks 102 gespeichert. Im wenigstens einen Speicher 106 ist im Beispiel ein Computerprogramm gespeichert, bei dessen Ausführung durch den wenigstens einen Prozessor 104 ein im Folgenden beschriebenes Verfahren abläuft. Der wenigstens eine Prozessor 104 ist im Beispiel ausgebildet, über eine Datenleitung 108 auf den wenigstens einen Speicher 106 zuzugreifen, um Daten zu lesen oder zu schreiben.
In 2 sind Modelle zur Bestimmung von Hyperparametern H' des künstlichen neuronalen Netzwerks 102 schematisch dargestellt.
Sätze von Hyperparametern H werden im Beispiel aus einem Suchraum 202 abhängig von Paretofronten 204 bestimmt. Eine Vielzahl von mit je einem der Sätze ausgebildeten künstlichen neuronalen Netzwerke wird in einer Trainingseinrichtung 206 mit den Trainingsdaten trainiert. Mit der Trainingseinrichtung 206 ist eine erste Zielgröße, insbesondere eine Genauigkeit P der jeweiligen trainierten Netzwerke bestimmbar. Mit einem Systemmodell 208 ist eine zweite Zielgröße, insbesondere die Kosten K, die bei einer Ausführung des jeweiligen trainierten künstlichen neuronalen Netzwerks auftreten, bestimmbar. Abhängig von der ersten Zielgröße und der zweiten Zielgröße, insbesondere abhängig von den Kosten K und der Genauigkeit P, der jeweiligen trainierten künstlichen neuronalen Netzwerke ist eine erste Paretofront 210 bestimmbar.
Das Systemmodell 208 ist beispielsweise ein virtuelles Hardwaremodell, VHM, oder ein virtuelles Systemmodell, AVSM.
Das VHM oder das AVSM basiert im Beispiel auf Information über eine Topologie des künstlichen neuronalen Netzwerks und über Rechenressourcen zur Ausführung von Instruktionen, in Verbindung mit dem künstlichen neuronalen Netzwerk unter Verwendung der Rechenressourcen. Die Rechenressourcen umfassten beispielsweise Rechenzeit- oder Speicher-Ressourcen oder Speicherbandbreite. Das VHM ermöglicht es, effizient die Rechenressourcen zu bestimmen, die zur Implementierung des künstlichen neuronalen Netzwerks erforderlich sind, ohne dass dafür Simulation auf der Registertransferebene aufgeführt werden. Das ASVM kann einen top-down oder bottom-up Ansatz vorsehen. Wenn beispielsweise eine Sollperformanz des künstlichen neuronalen Netzwerks bekannt ist, werden dazu passende physikalische Eigenschaften von Komponenten ausgewertet oder bestimmt. Wenn beispielsweise physikalische Eigenschaften von Komponenten bekannt sind, wird darauf basierend eine Performanz des Systems auf Systemebene oder eine Skalierbarkeit des Systems bestimmt.
Eine Vorhersage für die erste Zielgröße, insbesondere eine Genauigkeit, eines künstlichen neuronalen Netzwerks kann mit einem ersten Teil 212-1 eines Wahrscheinlichkeitsmodells 212 bestimmt werden.
Eine Vorhersage für die zweite Zielgröße, insbesondere die Kosten, eines künstlichen neuronalen Netzwerks kann mit einem zweiten Teil 212-2 des Wahrscheinlichkeitsmodells 212 bestimmt werden.
Abhängig von wenigstens einer Vorhersage für die erste Zielgröße aus dem ersten Teil 212-1 und wenigstens einer Vorhersage für die zweite Zielgröße aus dem zweiten Teil 212-2 ist eine zweite Paretofront 214 bestimmbar.
Abhängig von der ersten Paretofront 210 und der zweiten Paretofront 214 sind im Beispiel die Hyperparameter H' aus dem Suchraum 202 bestimmbar.
Das Wahrscheinlichkeitsmodell 212 ist optional um ein Erzeugen neuer Lösungen zu beschleunigen. Anstatt des Wahrscheinlichkeitsmodells 212 können auch die Trainingseinrichtung 206 und das Systemmodell 208 herangezogen werden, um die zweite Paretofront 214 zu bestimmen.
Es kann vorgesehen sein, dass bei einer Bewertung von neuen vorgeschlagenen Lösungen auf die Trainingseinrichtung 206 und das Systemmodell 208 zurückgegriffen wird, wenn erkannt wird das das Wahrscheinlichkeitsmodell 212 keine passenden Vorhersagen liefert, z.B., weil eine Entfernung zu einer nächsten Stützstelle des ersten Teils 212-1 oder des zweiten Teils 212-2 des Wahrscheinlichkeitsmodells 212 ist zu groß ist. Zurückgegriffen bedeutet in diesem Kontext beispielweise, dass die zweite Paretofront 214 mit der Trainingseinrichtung 206 und dem Systemmodell 208 bestimmt wird.
Im Beispiel ist vorgesehen, dass der erste Teil 212-1 des Wahrscheinlichkeitsmodells 212 abhängig von der ersten Zielgröße, insbesondere der Genauigkeit P, aktualisiert wird, die mit der Trainingseinrichtung 206 bestimmt wird. Aktualisiert bedeutet beispielsweise, dass eine neue Stützstelle zum ersten Teil 212-1 hinzugefügt wird.
Im Beispiel ist vorgesehen, dass der zweite Teil 212-2 des Wahrscheinlichkeitsmodells 212 abhängig von der zweiten Zielgröße, insbesondere den Kosten K, aktualisiert wird, die mit dem Systemmodell 208 bestimmt werden. Aktualisiert bedeutet beispielsweise, dass eine neue Stützstelle zum zweiten Teil 212-2 hinzugefügt wird.
Nach einem Aktualisieren des ersten Teils 212-1 des Wahrscheinlichkeitsmodells 212 und des zweiten Teils 212-2 des Wahrscheinlichkeitsmodells 212 wird der Satz von Hyperparametern H, d.h. mindestens 1 bis X Sätze von Hyperparametern, als Basis verwendet um neue vielversprechende Hyperparameter zu generieren. Dies kann z.B. durch einen evolutionären Algorithmus erfolgen. Der evolutionäre Algorithmus erzeugt z.B. durch Mutation und Selektion Abwandlungen von den ursprünglichen Hyperparametern. Für die Abwandlungen können durch den ersten Teil 212-1 und den zweiten Teil 212-2 des Wahrscheinlichkeitsmodells 212 die Vorhersagen der ersten und zweiten Zielgröße, z.B. von Genauigkeit und Kosten, abgeschätzt werden. Nach X Iterationen des evolutionären Algorithmus ist eine neue Population von Hyperparametersätzen verfügbar. Diese weisen basierend auf den ursprünglichen Hyperparametern verbesserte Werte für die Vorhersagen für erste und zweite Zielgröße, z.B. Genauigkeit und Kosten auf. Diese Population stellt die zweite, abgeschätzte, Paretofront 214 dar.
Zur Bestimmung der Kosten K kann eine Kostenfunktion, d.h. eine Metrik, vorgesehen sein. Die Kosten K können mit einer Proxy-Metrik, wie z.B. einer Anzahl der Parameter oder einer Anzahl der Operationen, oder mit einer Metrik für direkte Hardwarekosten bestimmt werden. Hardwarekosten sind beispielsweise Kosten für eine Ausführung des künstlichen neuronalen Netzwerks auf einer bestimmten Recheneinrichtung. Direkte Hardwarekosten sind beispielsweise eine Latenz, eine Bandbreite oder eine benötigte Energie. Die Proxy-Metrik bestimmt eine Eigenschaft eines Algorithmus. Das bedeutet, die Proxy-Metrik ist eine Approximation der eigentlichen Hardwarekosten. Die Proxy-Metrik ist beispielsweise aus einer Netzarchitektur insbesondere eines tiefen künstlichen neuronalen Netzwerks, DNN, ableitbar. Daher ist eine Proxy-Metrik einfach ermittelbar.
Die Metrik für die direkten Hardwarekosten ist für eine spezifische Hardwareplattform ermittelbar. Es kann vorgesehen sein, dass die Metrik eine Eigenschaft dieser Hardwareplattform umfasst.
Ein Aufwand zur Ermittlung einer solchen Kostenfunktion ist immens, insbesondere, wenn sehr viele Architekturen von während einer Netzwerkarchitektursuche, NAS, bewertet werden müssen oder wenn eine einzelne Bewertung sehr langwierig und teuer ist. Beispielsweise ist eine Bewertung langwierig und teuer, wenn eine Messung der Latenz auf der echten Hardware oder einem Simulator / Emulator durchgeführt werden muss.
Zur Reduzierung dieses Aufwands kann ein Zerlegen der Netzarchitektur in mögliche Einzeloperationen und ein Bewerten dieser Einzeloperationen vorgesehen sein. Dieser Ansatz wird auch als operationsbasiertes Profiling bezeichnet. Vorteil dieser Methode ist eine Reduzierung der zu bewertenden Operationen bzw. DNN Architekturen. Optimierungen über Operationen hinweg sind mit dieser Methode nicht berücksichtigbar.
Insbesondere finden bei dedizierten Hardwarebeschleunigern solche Optimierungen häufig statt, was zu einer hohen Ungenauigkeit der ermittelten Hardwarekosten führen kann. Ein konkretes Beispiel für eine solche Optimierung ist Layer Fusion, bei der aufeinanderfolgende Operationen bei der Ausführung in der Recheneinheit verschmolzen werden.
Das Systemmodell 208 umfasst im Beispiel ein Ersatzmodell zur Approximation von Hardwarekosten, insbesondere durch Simulation auf einem vereinfachten Software-Modell der Hardware. Das Verfahren sieht eine Kopplung von NAS und statt einer direkten Bewertung der Hardware-Architektur bzw. einer Simulation der Hardware-Architektur zur Bewertung der Hardware-Architektur eine Bewertung mit dem Systemmodell 208 vor.
Dies ermöglicht eine effiziente NAS unter Berücksichtigung von Hardwarekosten. Dadurch wird eine Ausführungszeit für die NAS reduziert. Konkret werden dadurch folgende Vorteile erreicht:

• Effiziente Approximation von direkten Hardwarekosten z.B. Latenz, Energie, Speicherverbrauch.
• Kopplung von Hardwaresimulatoren oder auch realen Hardwarearchitekturen mit der NAS. Dadurch ist eine Kooperative Entwicklung von Hardware, Software und Algorithmen der künstlichen Intelligenz durchführbar.
• Berücksichtigung von Interaktion von Hardwarekomponenten auf System-Level. Dadurch ist z.B. eine Last auf Kommunikationsverbindungen durch eine CPU berücksichtigbar.
• Einbeziehen von anderen Applikationen und deren Implikationen auf ein Gesamtsystem. Dies trägt zu realistischeren Randbedingungen für die Netzwerkarchitektursuche und deren Metriken bei.

Mit dem im Folgenden beschriebenen Verfahren wird eine Kostenfunktion durch die Verwendung des Systemmodells 208 umgesetzt.
Das Systemmodell 208 ist vorzugsweise eine nicht funktionale Simulation einer Performanz einer Implementierung eines zu bewertenden künstlichen neuronalen Netzwerks auf einer zu bewertenden Recheneinrichtung.
Das Systemmodell 208 ermöglicht es, die Hardwarekosten mit hohen Güte vorherzusagen. Es kann vorgesehen sein, die Bewertung der Hardwarekosten auszuführen, wenn verschiedene Design-Entscheidungen der Hardware verfügbar und noch nicht vollständig getroffen sind, um so ein Zusammenspiel zwischen Hardwareauslegung und Netzarchitektur ideal aufeinander abzustimmen.
Die Ablaufstruktur des Verfahrens ermöglicht es, nur vielversprechende Lösungen bezüglich teuer zu ermittelnden Hardwarekosten zu evaluieren. Eine nächste vielversprechende Lösung wird durch Iteratives Ausführen des Verfahrens bewertet.
Die Güte des Systemmodells 208 ist im Beispiel eine Referenz mit der die Vorhersagen ausgewertet werden.
Das Systemmodell 208 eignet sich im Beispiel für eine Abschätzung von Hardwarekosten für eine Netzarchitektur eignet. Das Systemmodell 208 kann mit dem Ersatzmodell ergänzt werden, das eine Laufzeit der NAS auch für größere Suchräume und Netzarchitekturen zu verkürzen.
Das Systemmodell 208 ist insbesondere ein nicht funktionales Modell für die Performanz, welches eine generelle Arbeitsweise der Komponenten der Recheneinrichtung, d.h. der Hardware, abbildet und eine gewünschte Zielgröße z.B. Latenz oder Bandbreite durch Simulation ermittelt. Hierbei werden vorzugsweise andere Eigenschaften, wie z.B. die genaue funktionale Abarbeitung, abstrahiert und einen möglichst hohe Simulationsgeschwindigkeit für die zu erwartenden Zielgrößen erreicht.
Das Wahrscheinlichkeitsmodell 212, insbesondere der zweite Teil 212-2 des Wahrscheinlichkeitsmodells 212, ist insbesondere ein mathematisches Wahrscheinlichkeitsmodell, das zur Approximation von NAS Zielgrößen, wie eine Genauigkeit und Hardwarekosten eines künstlichen neuronalen Netzwerks ausgebildet ist. Beispielsweise ist das Wahrscheinlichkeitsmodell 212 gemäß eines der folgenden Beispiele umgesetzt
H.Benmeziane, K.Maghraoui, H.Ouarnoughi, S Niar, M.Wistuba, N.Wang, A comprehensive Survey on Hardware-Aware Neural Architecture Search, 2021 https://arxiv.org/pdf/2101.09336.pdf.
Md I. M. Shahriar, J. Su, L. Kotthoff, and P. Jamshidi. Flexibo: Cost-aware multiobjective optimization of deep neural networks. arXiv, 2020
https://arxiv.org/pdf/2001.06588.pdf.
J. Snoek, H. Larochelle, and R. P. Adams. Practical bayesian optimization of machine learning algorithms. In Advances in Neural Information Processing Systems, pages 2951-2959, 2012 https://arxiv.org/pdf/1206.2944.pdf.
Das Wahrscheinlichkeitsmodell 212 kann auch ein angelerntes tiefes künstliches neuronales Netzwerk, DNN, oder ein angelerntes graphisches neuronales Netzwerk, GNN sein.
Das Wahrscheinlichkeitsmodell 212 ist beispielsweise ein mathematisches Modell, das ausgebildet ist, eine Vorhersage für eine Genauigkeit P und/oder eine Ausführungszeit t auf einer bestimmten Recheneinrichtung T eines veränderten künstlichen neuronalen Netzwerks mit Hyperparametern H' vorauszusagen.
Das Wahrscheinlichkeitsmodell 212 ist beispielsweise ein mathematisches Modell, das ausgebildet ist, die Ausführungszeit t auf einer veränderten Recheneinrichtung T' für ein künstliches neuronales Netzwerk mit dem Satz von Hyperparametern H vorauszusagen.
Das Systemmodell 208 kann ausgebildet sein, mit Hilfe der Einbindung von Hardware- oder System-Simulationsmodellen relevante Stellen oder Stützstellen des Ersatzmodells in weniger Iterationen zu finden als durch eine Rastersuche. Dies erlaubt eine effiziente Hardware-/System Optimierung.
Das Verfahren zur Bestimmung der Hyperparameter H' ist in 3 dargestellt. Das Verfahren wird anhand des Beispiels Genauigkeit P und Kosten K beschreiben. Für andere Zielgrößen wird das Verfahren mit diesen anderen Zielgrößen statt der Genauigkeit P und den Kosten K ausgeführt.
Das Verfahren läuft im Beispiel in Iterationen ab, in denen eine Vielzahl von Hyperparametern H' bestimmt wird.
In einem Schritt 300 wird aus einem Suchraum 202 ein Satz von Hyperparametern H für ein künstliches neuronales Netzwerk 102 bereitgestellt.
Der Suchraum 202 umfasst im Beispiel mögliche Lösungen. Die Paretofronten 204 umfassen Hyperparameter, die im Suchraum 202 enthalten sind. Die Lösungen sind z.B. durch die Randbedingungen oder eine Definition des Suchraumes 202 vorgegeben. Im Beispiel wird in der ersten Iteration auch eine Randbedingung vorgegeben, die den Suchraum 202 definiert.
Anschließend wird ein Schritt 302 ausgeführt.
Im Schritt 302 wird für den Satz ein gemäß der Hyperparameter H des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert.
Im Beispiel wird das Training in einer Iteration des Verfahrens für ein künstliches neuronales Netzwerk durchgeführt, das durch den in dieser Iteration neu hinzugekommenen Satz von Hyperparametern definiert ist. Bereits in einer vorherigen Iteration trainierte künstliche neuronale Netzwerke werden in diesem Beispiel nicht erneut trainiert.
In einem Schritt 304 wird mit einer Metrik die Genauigkeit P der Vorhersage des trainierten künstlichen neuronalen Netzwerks bestimmt.
Die Metrik ist eine Metrik, mit der eine Genauigkeit einer Vorhersage durch das künstliche neuronale Netzwerk bestimmbar ist. Beispielweise wird eine Güte einer Vorhersage des künstlichen neuronalen Netzwerks mit den Testdaten bestimmt.
In einem Schritt 306 werden mit dem Systemmodell 208 die Kosten K für die Ausführung wenigstens einer Komponente des trainierten künstlichen neuronalen Netzwerks bestimmt. Schritt 306 kann auch parallel oder zeitlich überlappend mit Schritt 304 ausgeführt werden.
Das Systemmodell 208 ist im Beispiel ein Modell, mit dem Kosten, insbesondere eine Latenz, eine Anzahl an Parametern des künstlichen neuronalen Netzwerks, eine Rechenlast auf einen Prozessor (CPU), eine Rechenlast für einen Speicherdirektzugriff (DMA), eine Bandbreite, eine benötigte Energie, für eine Ausführung wenigstens eines Teils des künstlichen neuronalen Netzwerks auf wenigstens einer Komponente einer Recheneinrichtung bei einer Ausführung des künstlichen neuronalen Netzwerks bestimmbar sind.
Die Kosten K werden im Beispiel mit dem Systemmodell 208 bestimmt.
In einem Schritt 308 wird abhängig von den Genauigkeiten P für die Sätze die erste Paretofront 210 bestimmt.
In einem Schritt 310 wird ein weiterer Satz von Hyperparameter bestimmt. Der weitere Satz von Hyperparametern wird im Beispiel abhängig von einem der Sätze von Hyperparametern bestimmt, mit dem in den bisherigen Iterationen des Verfahrens bereits ein künstliches neuronales Netzwerk trainiert wurde.
Es kann vorgesehen sein, das eine Vielzahl von weiteren Sätzen von Hyperparametern iterativ, insbesondere bis zu einem vorher definierten Abbruchkriterium, bestimmt werden. Beispielsweise wird der evolutionäre Algorithmus verwendet. Beispielsweise werden Hyperparameter aus einem der Sätze von Hyperparametern verändert oder durch andere Parameter ersetzt um einen von diesem verschiedenen weiteren Satz von Hyperparameter zu bestimmen.
In einem Schritt 312 wird abhängig von den Kosten K die zweite Paretofront 214 bestimmt.
Die zweite Paretofront 214 wird im Beispiel mit dem Wahrscheinlichkeitsmodell 212 abhängig von den Hyperparametern des weiteren Satzes bestimmt.
Das Wahrscheinlichkeitsmodell 212 wird im Beispiel abhängig von den Genauigkeiten P und den Kosten K für die Sätze bereits trainierter künstlicher neuronaler Netzwerke bestimmt, insbesondere aktualisiert.
Mit dem Wahrscheinlichkeitsmodell 212 wird eine Vorhersage für die Genauigkeit und die Kosten für ein künstliches neuronales Netzwerk vorhergesagt, das durch den weiteren Satz von Hyperparametern definiert ist.
Es kann vorgesehen sein, dass statt dem Wahrscheinlichkeitsmodell 212 ein tiefes künstliches neuronales Netzwerk trainiert und zur Bestimmung der Genauigkeiten P und den Kosten K verwendet wird.
Es kann vorgesehen sein, dass geprüft wird, ob mit dem Wahrscheinlichkeitsmodell 212 eine Vorhersage für die Genauigkeit und die Kosten des durch den weiteren Satz von Hyperparametern definierten künstlichen neuronalen Netzwerks möglich ist. Es kann vorgesehen sein, dass die Vorhersage für den weiteren Satz von Parametern statt mit dem Wahrscheinlichkeitsmodell 212 durch Training des künstlichen neuronalen Netzwerks und durch Bestimmen der Genauigkeit P des trainierten künstlichen neuronalen Netzwerks und Bestimmen der Kosten K mit dem Systemmodell 208 bestimmt wird, wenn die Vorhersage für die Genauigkeit oder die Vorhersage für die Kosten mit dem Wahrscheinlichkeitsmodell 212 nicht möglich ist.
Beispielsweise wird festgestellt, dass die Vorhersage für die Genauigkeit mit dem Wahrscheinlichkeitsmodell 212 nicht möglich ist, wenn die Entfernung der Hyperparameter aus dem weiteren Satz von Hyperparametern zu einer Stützstelle des ersten Teils 212-1 größer als eine vorgegebene Entfernung ist. Beispielsweise wird festgestellt, dass die Vorhersage für die Kosten mit dem Wahrscheinlichkeitsmodell 212 nicht möglich ist, wenn die Entfernung der Hyperparameter aus dem weiteren Satz von Hyperparametern zu einer Stützstelle des zweiten Teils 212-2 größer als eine vorgegebene Entfernung ist.
Anschließend wird ein Schritt 314 ausgeführt. Im Schritt 314 werden die Hyperparameter H' für das künstliche neuronale Netzwerk abhängig von den Genauigkeiten P und den Kosten K für die Sätze bestimmt.
Im Beispiel werden die Hyperparameter H' abhängig von der ersten Paretofront 210 und der zweiten Paretofront 214 aus dem Suchraum 202 ausgewählt.
Hier sind verschiedene Methoden möglich, die beispielsweise auf einer minimalen Distanz oder einer Größe eines Volumens im Suchraum basieren. Beispielsweise werden Hyperparameter H' bestimmt, die eine möglichst kleine Distanz zu den Hyperparametern H aus einer vorherigen Iteration oder zu den Sätzen von Hyperparametern aus vorherigen Iterationen aufweisen. Es kann auch vorgesehen sein, die Hyperparameter H' aus einem Volumen im Suchraum 202 zu bestimmen, das durch die Sätze von Hyperparametern vorgegeben ist.
Durch eine Definition des Suchraums 202 oder durch eine Methodik, wie neue Lösungen gefunden werden, wird beispielsweise bestimmt, welche Hyperparameter H' einer Architektur des künstlichen neuronalen Netzwerks verändert werden können. Die Parameter können auch je nach Schichttyp des künstlichen neuronalen Netzwerks, der im Suchraum 202 enthalten ist, unterschiedlich gewählt werden.
Anschließend wird ein optionaler Schritt 316 ausgeführt.
Im Schritt 316 werden die Hyperparameter H' bereitgestellt. In den Iterationen wird eine Vielzahl von Sätzen von Hyperparametern bestimmt. Es kann vorgesehen sein, dass Hyperparameter H' aus den Sätzen von Hyperparametern ausgewählt werden. Die folgende Iteration beginnt im Beispiel mit Schritt 300.
Das Verfahren endet beispielsweise, wenn eine vorgegebene Anzahl von Iterationen ausgeführt ist.
Die Bestimmung der Hyperparameter und die Bewertung kann auf verschiedenen Daten arbeiten.
Im Folgenden werden die zwei Anwendungsfälle beschrieben.
Es kann vorgesehen sein, dass die Architektur für eine Objekterkennung bestimmt wird. Die Objekterkennung basiert im Beispiel auf Radardaten bzw. Radarspektren, welche von einem Radarsystem oder Radarsensor zur Verfügung gestellt werden. Die Trainingsdaten und Testdaten basieren in diesem Beispiel auf den Radardaten bzw. Radarspektern. Es kann vorgesehen sein, dass die Objekterkennung für ein Fahrzeug eingesetzt wird.
Es kann vorgesehen sein, dass die Architektur für eine Aktivitätserkennung von Personen mit Hilfe von Daten eines Beschleunigungssensors und optional eines Gyroskops bestimmt wird.
Es kann vorgesehen sein, dass die Aktivitätserkennung für ein sogenanntes „Wearable“ z.B. Fitnesstracker, oder eine Smartwatch eingesetzt wird
Für Anwendungsfälle der Aktivitätserkennung von Personen, sowie für die Objekterkennung anhand von Radardaten ist die automatisierte NAS für die Generierung von neuronalen Netzarchitekturen besonders wichtig, da die NAS eine Einbeziehung anderer Applikationen für eine Interaktion zwischen diesen und für eine Interaktion von Hardwarekomponenten zur Ausführung der Applikationen in einem beispielsweise bezüglich Laufzeit, Energie und/oder Speicher stark Ressourcen beschränkten Umfeld betreffen.
Es kann vorgesehen sein, dass Applikationen, welche sich eine Hardwareverarbeitungseinheit, z.B. einen Prozessor, einen Graphikprozessor, einen digitalen Signalprozessor und/oder einen dedizierten Beschleuniger, teilen, mit in die Architektursuche eingebunden werden. Es kann vorgesehen sein, dass Applikationen auf anderen Hardwareverarbeitungseinheiten welche sich geteilte Ressourcen, z.B. Interconnect oder Speicher, teilen, mit in die Architektursuche eingebunden werden.
Ein Verfahren des maschinellen Lernens, das dieses Verfahren umfasst, ermöglicht es, automatisiert und unter Berücksichtigung der vorhandenen anderen Applikationen eines gegebenen Systems eine Netzarchitektur für das System zu finden, insbesondere eine Netzarchitektur, die ein effizientes Ausnutzen von verfügbaren Rechenressourcen ermöglicht.
Optional wird nach dem Training in einem Schritt 318 ein tiefes Neuronales Netzwerk mit den Hyperparametern H' aus der letzten Iteration auf die Recheneinrichtung übertragen und auf der Recheneinrichtung ausgeführt, beispielsweise zur Objekterkennung oder Aktivitätserkennung.

Claims

Computerimplementiertes Verfahren zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks (102), dadurch gekennzeichnet, dass Sätze von Hyperparametern für eine Vielzahl von künstlichen neuronalen Netzwerken (102) bereitgestellt werden (300), wobei je Satz ein gemäß der Hyperparameter des Satzes ausgebildetes künstliches neuronales Netzwerk trainiert wird (302), wobei mit einer Metrik, mit der eine erste Zielgröße, insbesondere eine Genauigkeit einer Vorhersage durch künstliche neuronale Netzwerke, bestimmbar ist, die erste Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird (304), wobei mit einem Systemmodell (208), mit dem eine zweite Zielgröße, insbesondere Kosten, die bei einer Ausführung eines künstlichen neuronalen Netzwerks entstehen, bestimmbar sind, die zweite Zielgröße für das trainierte künstliche neuronale Netzwerk bestimmt wird (306), und wobei die Hyperparameter für das künstliche neuronale Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen bestimmt werden (314), die für die Sätze bestimmt werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Kosten bestimmt werden, die eine Latenz, eine Anzahl an Parametern eines künstlichen neuronalen Netzwerks, eine Rechenlast auf einen Prozessor, eine Rechenlast für einen Speicherdirektzugriff, eine Bandbreite, und/oder eine benötigte Energie, für eine Ausführung wenigstens eines Teils eines künstlichen neuronalen Netzwerks auf wenigstens einer Komponente einer Recheneinrichtung charakterisieren.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig von den ersten Zielgrößen und abhängig von den zweiten Zielgrößen für die Sätze eine erste Paretofront (210) bestimmt wird (308), wobei abhängig von wenigstens einem der Sätze von Hyperparametern ein weiterer Satz von Hyperparameter bestimmt wird (310), wobei mit einem Wahrscheinlichkeitsmodell (212), mit dem eine Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein künstliches neuronales Netzwerk, das durch einen Satz von Hyperparametern definiert ist, vorhersagbar ist, für den weiteren Satz von Hyperparametern die Vorhersage für die erste Zielgröße und die zweite Zielgröße für ein durch den weiteren Satz definiertes künstliches neuronales Netzwerk bestimmt wird, wobei abhängig von der Vorhersage für die erste Zielgröße und der Vorhersage für die zweite Zielgröße eine zweite Paretofront (214) bestimmt wird (312), und wobei die Hyperparameter abhängig von der ersten Paretofront (210) und der zweiten Paretofront (214) aus einem Suchraum (202) ausgewählt werden (314).
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass in Iterationen eine Vielzahl von Sätzen von Hyperparametern bestimmt wird, wobei die Hyperparameter aus den Sätzen von Hyperparametern ausgewählt werden (316).
Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass das Wahrscheinlichkeitsmodell (212) mit den ersten Zielgrößen, insbesondere den Genauigkeiten, den zweiten Zielgrößen, insbesondere den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront (214) bestimmt wird, wobei die zweite Paretofront (214) mit dem Wahrscheinlichkeitsmodell (212) abhängig von der ersten Zielgröße und der zweiten Zielgröße für die Sätze bestimmt wird (312), oder dass ein tiefes künstliches neuronales Netzwerk mit den ersten Zielgrößen, insbesondere den Genauigkeiten, den zweiten Zielgrößen, insbesondere den Kosten, und den Hyperparametern von trainierten künstlichen neuronalen Netzwerken zur Vorhersage der zweiten Paretofront (214) trainiert wird, wobei die zweite Paretofront (214) mit dem tiefen künstlichen neuronalen Netzwerk abhängig von den ersten Zielgrößen und den zweiten Zielgrößen für die Sätze bestimmt wird (312).
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass abhängig von der zweiten Zielgröße, insbesondere den Kosten, insbesondere mit dem Systemmodell (208), eine Stützstelle des Suchraums (202) bestimmt wird, die wenigstens eine Entscheidungsvariable der zweiten Paretofront (214) definiert, wobei mit dem Wahrscheinlichkeitsmodell (212) oder mit dem tiefen künstlichen neuronalen Netzwerk abhängig von der Stützstelle wenigstens eine andere Stützstelle des Suchraums (202) bestimmt wird, die wenigstens eine andere Entscheidungsvariable der zweiten Paretofront (214) definiert.
Verfahren nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass wenigstens eine Randbedingung vorgegeben wird (300), die den Suchraum (202) definiert.
Verfahren nach einem der Ansprüche 3 bis 7, dadurch gekennzeichnet, dass die Vorhersage für den weiteren Satz von Parametern statt mit dem Wahrscheinlichkeitsmodell (212) durch Training eines durch den weiteren Satz von Hyperparametern definierten künstlichen neuronalen Netzwerks und durch Bestimmen der ersten Zielgröße des trainierten künstlichen neuronalen Netzwerks und Bestimmen der zweiten Zielgröße mit dem Systemmodell (208) bestimmt wird, wenn festgestellt wird, dass eine Entfernung wenigstens eines Hyperparameters aus dem weiteren Satz von Hyperparametern zu einer Stützstelle des Wahrscheinlichkeitsmodells (212) größer als eine vorgegebene Entfernung ist.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass, wenigstens ein Hyperparameter bereitgestellt (300) oder bestimmt (314) wird, der eine insbesondere fixe oder variable Tiefe des künstlichen neuronalen Netzwerks oder eine Kernelgröße oder mehrere Kernelgrößen für Faltungsoperationen definiert.
Vorrichtung (100) zur Bestimmung von Hyperparametern eines künstlichen neuronalen Netzwerks (102), dadurch gekennzeichnet, dass die Vorrichtung (100) ausgebildet ist, Schritte im Verfahren nach einem der Ansprüche 1 bis 9 auszuführen.
Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführung durch einen Computer Schritte im Verfahren nach einem der Ansprüche 1 bis 10 ablaufen.