DE112021003274T5 - Ressourcenzuordnung zum optimieren von hyperparametern bei umfangreichen deep-learning-arbeitslasten - Google Patents

Ressourcenzuordnung zum optimieren von hyperparametern bei umfangreichen deep-learning-arbeitslasten Download PDF

Info

Publication number
DE112021003274T5
DE112021003274T5 DE112021003274.7T DE112021003274T DE112021003274T5 DE 112021003274 T5 DE112021003274 T5 DE 112021003274T5 DE 112021003274 T DE112021003274 T DE 112021003274T DE 112021003274 T5 DE112021003274 T5 DE 112021003274T5
Authority
DE
Germany
Prior art keywords
hyperparameter
accelerator
cluster
workload
resource allocator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021003274.7T
Other languages
English (en)
Inventor
Saritha Vinod
Anto Ajay Raj John
Asis Kumar Patra
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112021003274T5 publication Critical patent/DE112021003274T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/505Clust
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Ein Verfahren, ein Computersystem und ein Computerprogrammprodukt können ein Optimieren von Hyperparametern durchführen. Es können Eingabedaten für die Hyperparametersuche empfangen werden. Es kann ein Suchalgorithmus zum Generieren eines Satzes von Hyperparametern aufgerufen werden. Ein Hyperparameter-Optimierungsressourcenzuordner kann Daten zu physischen Ressourcen bezüglich eines Clusters empfangen. Der Hyperparameter-Optimierungsressourcenzuordner kann eine erforderliche Arbeitslast bestimmen und eine empfangene Anzahl von parallelen Experimenten verwenden, um die erforderliche Arbeitslast zu bestimmen. Der Hyperparameter-Optimierungsressourcenzuordner kann feststellen, ob eine Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde. Der Cluster kann die Anzahl von parallelen Experimenten durchführen, um den Satz von Hyperparametern zu suchen und zu optimieren. Der Hyperparameter-Optimierungsressourcenzuordner kann den Cluster entsprechend den Daten zu physischen Ressourcen und der erforderlichen Arbeitslast und unter Verwendung von Tensorauslagerung verwalten.

Description

  • HINTERGRUND
  • Die vorliegende Erfindung betrifft allgemein das Gebiet der Datenverarbeitung und insbesondere Deep Learning.
  • Deep Learning als Technologie hat geholfen, viele Probleme zu lösen, deren Lösung zuvor als schwierig galt. Die neueren Techniken des Deep Learning erfordern auch die Verfügbarkeit größerer Datensätze, mit denen das Lernen stattfinden kann. Die größeren Datensätze, die benötigt werden, führen in diesem Bereich zu einer Nutzung einer großen Anzahl von Beschleunigern auf einem einzelnen Server oder auf mehreren Servern. Die Genauigkeit von Deep-Learning-Problemen ist empfindlich gegenüber den Hyperparametern, die zum Optimieren des Modells verwendet werden. Wenn Hyperparameter für ein größeres Deep-Learning-Problem optimiert werden müssen, muss ein Datenverarbeitungscluster für das Optimieren zur Verfügung stehen.
  • KURZDARSTELLUNG
  • Gemäß einer beispielhaften Ausführungsform können ein Verfahren, ein Computersystem und ein Computerprogrammprodukt ein Optimieren von Hyperparametern durchführen. Es können Eingabedaten für eine Hyperparametersuche empfangen werden, die eine Anzahl von parallelen Experimenten und eine Option zum Vorschreiben einer Arbeitslast-Stapelgröße für eine Hyperparametersuche umfassen. Es kann ein Suchalgorithmus zum Generieren eines Satzes von Hyperparametern aufgerufen werden. Ein Hyperparameter-Optimierungsressourcenzuordner kann Daten zu physischen Ressourcen bezüglich eines Clusters empfangen. Der Hyperparameter-Optimierungsressourcenzuordner kann eine erforderliche Arbeitslast bestimmen. Der Hyperparameter-Optimierungsressourcenzuordner kann die empfangene Anzahl von parallelen Experimenten verwenden, um die erforderliche Arbeitslast zu bestimmen. Der Hyperparameter-Optimierungsressourcenzuordner kann feststellen, ob die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde. Der Cluster kann die Anzahl von parallelen Experimenten durchführen, so dass der Satz von Hyperparametern gesucht wird und so dass der Satz von Hyperparametern optimiert wird. Der Hyperparameter-Optimierungsressourcenzuordner kann den Cluster während des Durchführens entsprechend den Daten zu physischen Ressourcen und der erforderlichen Arbeitslast und durch Verwendung von Tensorauslagerung (tensor swapping) verwalten.
  • Figurenliste
  • Diese und weitere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung ergeben sich aus der folgenden ausführlichen Beschreibung von veranschaulichenden Ausführungsformen davon, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Die verschiedenen Merkmale der Zeichnungen sind nicht maßstabsgetreu, da die Veranschaulichungen dem Fachmann ein klares Verständnis der Erfindung in Verbindung mit der ausführlichen Beschreibung ermöglichen sollen. Es zeigen:
    • 1 veranschaulicht eine vernetzte Computerumgebung gemäß mindestens einer Ausführungsform;
    • 2 ist ein Betriebsablaufplan, der einen durchgängigen Prozess für einen Deep-Learning-Arbeitsablauf gemäß mindestens einer Ausführungsform veranschaulicht;
    • 3 ist ein Betriebsablaufplan, der einen Prozess zum Optimieren von Hyperparametern gemäß mindestens einer Ausführungsform veranschaulicht;
    • 4 zeigt ein Beispiel eines Hyperparameter-Optimierungsprogramms und dessen Interaktion mit einem Cluster;
    • 5 zeigt ein Beispiel eines Datenverarbeitungsknotens, der in dem Hyperparameter-Optimierungsprozess verwendet werden kann;
    • 6 zeigt ein Beispiel eines Datenverarbeitungsknotens mit virtuellen Beschleunigern, der in dem Hyperparameter-Optimierungsprozess verwendet werden kann;
    • 7 ist ein Blockschaubild von internen und externen Komponenten von in 1 dargestellten Computern und Servern gemäß mindestens einer Ausführungsform;
    • 8 ist ein Blockschaubild einer veranschaulichenden Cloud-Computing-Umgebung, die das in 1 dargestellte Computersystem umfasst, gemäß einer Ausführungsform der vorliegenden Offenbarung; und
    • 9 ist ein Blockschaubild von funktionalen Schichten der veranschaulichenden Cloud-Computing-Umgebung aus 7 gemäß einer Ausführungsform der vorliegenden Offenbarung.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Ausführliche Ausführungsformen der beanspruchten Strukturen und Verfahren werden hierin offenbart; jedoch wird darauf hingewiesen, dass die offenbarten Ausführungsformen lediglich die beanspruchten Strukturen und Verfahren veranschaulichen, die in verschiedenen Formen ausgeführt sein können. Die Erfindung kann jedoch in vielen verschiedenen Formen ausgeführt werden und darf nicht als beschränkt auf die hierin dargestellten beispielhaften Ausführungsformen angesehen werden. Vielmehr werden diese beispielhaften Ausführungsformen bereitgestellt, damit diese Offenbarung genau und vollständig ist und dem Fachmann der Umfang dieser Erfindung vermittelt wird. In der Beschreibung können Einzelheiten allgemein bekannter Eigenschaften und Techniken weggelassen sein, um zu vermeiden, dass die vorliegenden Ausführungsformen unnötig unklar gemacht werden.
  • Die nachfolgend beschriebenen beispielhaften Ausführungsformen stellen ein System, ein Verfahren und ein Programmprodukt zum Optimieren von Hyperparametern bereit. Die vorliegenden Ausführungsformen sind in der Lage, den technischen Bereich des Deep Learning zu verbessern, indem sie die Nutzung begrenzter Datenverarbeitungsressourcen zum Suchen von Hyperparametern für umfangreiche Deep-Learning-Arbeitslasten ermöglichen. Dadurch wird die Notwendigkeit vermieden, über umfangreiche Beschleunigercluster verfügen zu müssen oder auf diese zugreifen zu müssen.
  • Insbesondere Datenwissenschaftler und Forscher haben im Allgemeinen keinen Zugang zu großen Clustern von Beschleunigern, z.B. großen Clustern von grafischen Verarbeitungseinheiten (GPUs, graphic processing units). Die meisten Deep-Learning-Experimente werden in einer gemeinsam genutzten Cloud-Umgebung durchgeführt. In der gemeinsam genutzten Cloud-Umgebung sind große Cluster von Beschleunigern entweder nicht verfügbar oder für viele Datenwissenschaftler und Forscher aus Kostengründen unerschwinglich.
  • Daher kann es unter anderem vorteilhaft sein, eine Möglichkeit bereitzustellen, die es Datenwissenschaftlern und Forschern z.B. aus dem akademischen Bereich, ermöglicht, eine Hyperparametersuche in einer Cloud-Umgebung unter Verwendung der üblichen, ihnen zur Verfügung stehenden Beschleuniger-Cluster-Ressourcen durchzuführen, so dass die Hyperparametersuche in einer wirtschaftlich vertretbaren Weise durchgeführt werden kann.
  • Die nachfolgend beschriebenen beispielhaften Ausführungsformen ermöglichen es begrenzten Datenverarbeitungsressourcen, Hyperparameter für umfangreiche Deep-Learning-Arbeitslasten zu suchen und zu optimieren, und ermöglichen es auch Datenwissenschaftlern und Forschern z.B. aus dem akademischen Bereich, ein Suchen und Optimieren von Hyperparametern in einer Datenverarbeitungsumgebung in einer wirtschaftlich vertretbaren Weise durchzuführen. Die beispielhaften Ausführungsformen ermöglichen es, Infrastrukturkosten zu vermeiden, die ein Erwerben von oder Zugreifen auf große(n) Beschleunigercluster(n) betreffen. Die beispielhaften Ausführungsformen ermöglichen eine verbesserte Ressourcenverwaltung und erzielen eine dynamische Anpassung der Beschleunigernutzung entsprechend den Anforderungen der Hyperparameter-Suchaufträge. Die beispielhaften Ausführungsformen ermöglichen es Organisationen, die für das Suchen und Optimieren von Hyperparametern in einer Modellentwicklungsphase erforderlichen Ressourcen zu verringern, so dass umfangreiche Beschleunigercluster speziell für Produktionsarbeitslasten vorgesehen werden können.
  • Unter Bezugnahme auf 1 ist eine beispielhafte vernetzte Computerumgebung 100 gemäß einer Ausführungsform dargestellt. Die vernetzte Computerumgebung 100 kann einen Computer 102 mit einem Prozessor 104 und einer Datenspeichereinheit 106 umfassen, die in der Lage ist, ein Softwareprogramm 108 und ein Hyperparameter-Optimierungsprogramm 110a auszuführen. Die vernetzte Computerumgebung 100 kann auch einen Server 112 umfassen, der in der Lage ist, ein Hyperparameter-Optimierungsprogramm 110b auszuführen, das mit einer Datenbank 114 und einem Datenübertragungsnetzwerk 116 interagieren kann. Die vernetzte Computerumgebung 100 kann eine Mehrzahl von Computern 102 und Servern 112 umfassen, von denen nur einer gezeigt ist. Das Datenübertragungsnetzwerk 116 kann verschiedene Arten von Datenübertragungsnetzwerken umfassen, wie zum Beispiel ein Weitverkehrsnetzwerk (WAN), ein lokales Netzwerk (LAN), ein Telekommunikationsnetz, ein drahtloses Netzwerk, ein öffentliches Vermittlungsnetzwerk und/oder ein Satellitennetzwerk. Man sollte sich bewusst sein, dass 1 lediglich eine Veranschaulichung einer Umsetzung bereitstellt und keinerlei Einschränkungen in Bezug auf die Umgebungen, in denen verschiedene Ausführungsformen umgesetzt werden können, mit sich bringt. Es können viele Abwandlungen an den abgebildeten Umgebungen beruhend auf Gestaltungs- und Umsetzungsanforderungen vorgenommen werden.
  • Der Client-Computer 102 kann über das Datenübertragungsnetzwerk 116 mit dem Server-Computer 112 Daten austauschen. Das Datenübertragungsnetzwerk 116 kann Verbindungen wie zum Beispiel drahtgestützte Verbindungen, drahtlose Datenübertragungsverbindungen oder Lichtwellenleiter-Kabel enthalten. Wie unter Bezugnahme auf 7 erörtert wird, kann der Server-Computer 112 interne Komponenten 902a bzw. externe Komponenten 904a umfassen, und der Client-Computer 102 kann interne Komponenten 902b bzw. externe Komponenten 904b umfassen. Der Server-Computer 112 kann auch in einem Cloud-Computing-Dienstmodell betrieben werden, wie zum Beispiel Software as a Service (SaaS), Platform as a Service (PaaS) oder Infrastructure as a Service (laaS). Der Server 112 kann sich auch in einem Cloud-Computing-Bereitstellungsmodell befinden, wie zum Beispiel einer privaten Cloud, einer Community Cloud, einer öffentlichen Cloud oder einer hybriden Cloud. Bei dem Client-Computer 102 kann es sich zum Beispiel um eine mobile Einheit, ein Telefon, einen elektronischen Assistenten, ein Netbook, einen Laptop-Computer, einen Tablet-Computer, einen Desktop-Computer oder eine beliebige Art von Datenverarbeitungseinheit handeln, die in der Lage ist, ein Programm auszuführen, auf ein Netzwerk zuzugreifen und auf eine Datenbank 114 zuzugreifen. Gemäß verschiedenen Umsetzungen der vorliegenden Ausführungsform kann das Hyperparameter-Optimierungsprogramm 110a, 110b mit einer Datenbank 114 interagieren, die in verschiedene Speichereinheiten eingebettet sein kann, wie zum Beispiel einem Computer/einer mobilen Einheit 102, einem vernetzten Server 112 oder einem Cloud-Speicherdienst, jedoch nicht darauf beschränkt. Gemäß verschiedenen Umsetzungen der vorliegenden Ausführungsform kann das Hyperparameter-Optimierungsprogramm 110a, 110b mit einem Cluster interagieren, wie in 4 gezeigt ist. Der Cluster kann einen Datenverarbeitungsknoten 500 umfassen, wie in 5 gezeigt ist, und/oder einen Datenverarbeitungsknoten 600 mit virtuellen Beschleunigern, wie in 6 gezeigt ist.
  • Gemäß der vorliegenden Ausführungsform kann ein Benutzer, der einen Client-Computer 102 oder einen Server-Computer 112 verwendet, das Hyperparameter-Optimierungsprogramm 110a bzw. 110b verwenden, um ein Optimieren von Hyperparametern für Hyperparameter eines Deep-Learning-Prozesses durchzuführen. Das Hyperparameter-Optimierungsverfahren wird nachstehend mit Bezug auf 2 bis 9 näher erläutert. Wie nachstehend ebenfalls näher erläutert wird und insbesondere in 4 gezeigt ist, kann das Hyperparameter-Optimierungsprogramm 110a, 110b einen Auftragseingabe-Generator, einen Suchalgorithmus, einen Hyperparameter-Optimierungsressourcenzuordner und eine Trainingssteuereinheit umfassen. Der Auftragseingabe-Generator, der Suchalgorithmus, der Hyperparameter-Optimierungsressourcenzuordner und die Trainingssteuereinheit können teilweise oder ganz in Form von Software bereitgestellt werden. Das Hyperparameter-Optimierungsprogramm 110a, 110b kann in Verbindung mit einem Cluster arbeiten.
  • Unter Bezugnahme auf 2 wird nun ein Betriebsablaufplan gemäß mindestens einer Ausführungsform dargestellt, der einen beispielhaften durchgängigen Prozess 200 für einen Deep-Learning-Arbeitsablauf veranschaulicht, in dem das Hyperparameter-Optimierungsprogramm 110a und 110b tätig wird.
  • Eine Entwicklungsphase eines Deep-Learning-Modells kann Unterphasen eines Verarbeitens erweiterter Daten, eines Auswählens eines Modells und eines Optimierens von Hyperparametern umfassen. Entwickler oder Forscher, die an dieser Entwicklungsphase beteiligt sind, verwenden im Allgemeinen eine Cloud-Infrastruktur, in der Ressourcen begrenzt sind. Umfangreiche zweckbestimmte Cluster sind normalerweise nur in Produktionsumgebungen verfügbar. Das Bereitstellen von Ressourcen in der Cloud kann beinhalten, dass Datenwissenschaftler, Entwickler und/oder DevOps einen Ressourcenzuordner und -orchestrator verwenden, um diese Entwicklungsphase durchzuführen, wobei der Ressourcenzuordner und -orchestrator mit einer zentralisierten Infrastruktur arbeitet, die sich in der Cloud befindet.
  • Wie in 2 dargestellt, kann ein durchgängiger Prozess 200 für einen Deep-Learning-Arbeitsablauf Schritte zum Trainieren eines Modells und zum letztendlichen Erkennen von Mustern oder Daten umfassen, die übermittelt werden. In Schritt 202 kann eine Trainingsaufgabe festgelegt werden. Dieser Schritt 202 kann zum Beispiel durchgeführt werden, indem ein spezifisches Geschäftsproblem identifiziert wird, Fachwissen erworben wird, eine Analyseeinheit und ein Vorhersageziel definiert werden, Modellkriterien priorisiert werden, Risiken und Erfolgskriterien berücksichtigt werden und/oder ein gewünschter Umfang der Suche festgelegt wird. Eine Trainingsaufgabe kann darin bestehen, ein Modell zu entwickeln, das Bilder von Tieren als Eingabe empfangen und die Tierart auf den verschiedenen Bildern erkennen und korrekt identifizieren kann. Eine weitere Trainingsaufgabe kann darin bestehen, ein Modell zu entwickeln, das Töne oder Aufnahmen als Eingabe empfangen kann und das eine Umwandlung von Sprache in Text durchführen kann und das auf der Grundlage der Stimme des Sprechers physische oder altersbedingte Merkmale über einen Sprecher erkennen kann. Eine weitere Trainingsaufgabe kann darin bestehen, Bildklassifikation zum Erkennen von Produktfehlern in verschiedenen Stufen einer Produktionslinie zu verwenden.
  • In Schritt 204 können Trainingsdaten bereitgestellt werden. Zum Beispiel können Trainingsdaten hochgeladen werden. Bei den Trainingsdaten kann es sich um Rohdaten handeln, die aus Datenquellen erfasst werden. In Schritt 206 können erweiterte Daten verarbeitet werden. Dieses Verarbeiten von Vorabdaten kann auch als Vorverarbeitung von Daten bezeichnet werden. Zum Beispiel können bei diesem Verarbeiten fehlende Daten, Ausreißer oder Daten mit langen Nachsätzen behandelt werden. Daten mit langen Nachsätzen können durch Filtern der Rohdaten bereinigt werden. In diesem Schritt 206 können Daten zusammengeführt werden. In Anlehnung an das vorstehend genannte Beispiel für die Bildklassifizierung in einer Produktionslinie können die Trainingsdaten Fotos von fehlerhaften Produkten und Fotos von Produkten ohne Fehler umfassen. Dieser Schritt 206 kann alternativ oder zusätzlich eine Datenanreicherung, Datenstandardisierung und Datenformatumwandlung umfassen, um Kompatibilität mit Trainingsalgorithmen herzustellen.
  • In Schritt 208 kann ein Grundmodell aus verschiedenen in Frage kommenden Modellen ausgewählt werden, die zuvor verwendet wurden und die sich bei der Erkennung bewährt haben. Hyperparameter oder eine Hyperparameterkonfiguration können in Schritt 210 optimiert werden. Ein beispielhafter Prozess von Teilschritten zum Durchführen von Schritt 210 ist nachstehend in 3 als Hyperparameter-Optimierungsprozess beschrieben. In Schritt 212 kann ein Modell trainiert werden. Dieses Training kann mit einem Trainingsdatensatz durchgeführt werden und kann Modellartefakte generieren. Das Modelltraining aus Schritt 212 wird mit einem einheitlichen Satz von Hyperparametern durchgeführt, die in Schritt 210 optimiert wurden, z.B. werden die Hyperparameter in Schritt 212 nicht verändert. Nachdem das Modell trainiert wurde, kann das Deep-Learning-Modell oder neuronale Netz dann bereit sein, Schlussfolgerungen durchzuführen, oder bereit sein, in Schritt 214 Muster oder Daten zu erkennen. Zum Beispiel kann das trainierte Modell gemäß den oben genannten möglichen Ausführungsformen in der Lage sein, die auf einem Bild gezeigte Tierart zu identifizieren, kann in der Lage sein, eine Textumwandlung oder eine Verarbeitung natürlicher Sprache aus empfangenen Audiosignalen durchzuführen, oder kann in der Lage sein, Eigenschaften der sprechenden Person zu erkennen. Das trainierte Deep-Learning-Modell kann auf einen Testdatensatz angewendet werden, um Schlussfolgerungen zu ziehen. Das trainierte Deep-Learning-Modell kann erkennen, ob ein Bild eine Katze, einen Hund, einen Elefanten oder ein Kamel usw. zeigt. Die Schritte des durchgängigen Prozesses 200 des Deep-Learning-Arbeitsablaufs können wiederholt oder iterativ durchgeführt werden, wie durch den Zurückpfeil gezeigt ist, der nach dem Modelltrainingsschritt 212 zu einem früheren Zeitpunkt in dem Prozess zurückführt, so dass Schritte, z.B. die Schritte 204 bis 212, erneut durchgeführt werden können.
  • Der durchgängige Prozess 200 des Deep-Learning-Arbeitsablaufs kann eine iterative Phase der Hyperparametersuche und -optimierung verwenden. Die Hyperparameteroptimierung kann mehrere Trainingsdurchläufe erfordern, um mit verschiedenen Sätzen von Hyperparametern zu experimentieren, die gesucht werden. Daher kann in einem üblichen Szenario eine Menge an Ressourcen, die für die Hyperparametersuche erforderlich ist, der Menge an Ressourcen, die für das Modelltraining in der Produktionsumgebung erforderlich ist, nahe kommen, sie erreichen oder übersteigen. Dieser Bedarf an großen Ressourcen kann zu einer Ressourcenknappheit führen, da die Verwendung von großen Clustern für Experimente zur Suche nach Hyperparametern die Ressourcen verringert, die Datenwissenschaftlern zum Trainieren der Modelle zur Verfügung stehen. Der Umfang des Problems und die Menge von Ressourcen, die benötigt werden, nehmen bei umfangreichen Deep-Learning-Arbeitslasten exponentiell zu. Die Hyperparametersuche erfolgt allerdings in der Forschungs- und Entwicklungsphase. Das Trainieren und Einsetzen der Modelle ist leistungsgebunden, wohingegen die Hyperparametersuche nicht leistungsgebunden ist. Daher ist das Lösen der Ressourcenbeschränkung wichtiger als die Leistung bei der Hyperparametersuche. Deshalb wäre es vorteilhaft, eine Hyperparameter-Suche/Optimierung für Schritt 210 für umfangreiche Datenverarbeitungsressourcen zu schaffen, die durchgeführt werden kann, wenn Datenverarbeitungsressourcen begrenzt sind.
  • Unter Bezugnahme auf 3 ist ein Betriebsablaufplan gemäß mindestens einer Ausführungsform dargestellt, der die beispielhafte Hyperparameteroptimierung 210 veranschaulicht, die von dem Hyperparameter-Optimierungsprogramm 110a, 110b verwendet wird. Dieser in 3 gezeigte Ablaufplan passt in die Hyperparameter-Optimierung 210 des in 2 gezeigten durchgängigen Prozesses 200 des Deep-Learning Arbeitsablaufs.
  • Die Hyperparameteroptimierung bei Deep Learning kann ein Auswählen eines Satzes von optimalen Hyperparametern für einen Lernalgorithmus umfassen. Diese Auswahl kann einen Suchauftrag innerhalb eines Konfigurationsraums beinhalten, der durch den Algorithmus definiert ist. Ein Hyperparameter-Suchauftrag kann die Verwendung verschiedener Suchalgorithmen beinhalten, die dabei helfen, den Suchraum einzugrenzen. Die Einzelheiten zur Arbeitslast und der Suchbereich für die Hyperparameter können als Eingabe für den Suchalgorithmus bereitgestellt werden. Ein Suchalgorithmus kann auf der Grundlage des verwendeten Algorithmus verschiedene Sätze von Hyperparametern zum Experimentieren generieren. Das Experimentieren kann in mehreren Trainingsdurchläufen auf dem Cluster, z.B. auf einem Datenverarbeitungsknoten, stattfinden.
  • Gemäß zumindest einigen Ausführungsformen gemäß der Erfindung wird ein Hyperparameter-Optimierungsressourcenzuordner (HTRA, hyperparameter tuning resource allocator) als zusätzliches Modul umgesetzt. Der HTRA erfasst die Ressourcenanforderungen des Suchauftrags und simuliert die umfangreiche Arbeitslast durch nahtloses Verwalten der Nutzung der physischen und virtuellen Ressourcen. Unter Verwendung der Einzelheiten zur Arbeitslast und der Ressourcenanforderungen verwaltet der HTRA automatisch die Datenverarbeitungsressourcen für die angeforderte Anzahl von Suchexperimenten. Der HTRA kann Ressourcen in Fällen verwalten, in denen eine Skalierung der Stapelgröße erlaubt ist. Der HTRA kann auch Ressourcen in Fällen verwalten, in denen eine Skalierung der Stapelgröße nicht erlaubt ist. Wenn keine Skalierung der Stapelgröße erlaubt ist, ist es erforderlich, für jedes Suchexperiment die gleiche Stapelgröße zu verwenden.
  • In einem Schritt 302 der Hyperparameter-Optimierung 210 werden Eingabedaten für die Hyperparametersuche als Teil eines Hyperparameter-Suchauftrags empfangen. Die Eingabedaten für die Hyperparametersuche können Einzelheiten zur Arbeitslast, einen Suchumfang, die für das Optimieren erforderlichen Ressourcen (z.B. eine Anzahl von Beschleunigern, die zum Durchführen der Optimierungsexperimente erforderlich wären), eine Anzahl von parallelen Experimenten für das Optimieren, eine Option zum Vorschreiben einer Arbeitslast-Stapelgröße für die Hyperparametersuche und, falls vorgeschrieben, die Arbeitslast-Stapelgröße umfassen. Die Eingabedaten für die Hyperparametersuche können beinhalten, welche Hyperparameter verwendet werden sollen. Zum Beispiel können Dynamik und Gewichtsabnahme als zu optimierende Hyperparameter gewählt werden. Die Arbeitslast-Stapelgröße kann auch als Hyperparameter betrachtet werden. Die Hyperparameter-Suchinformationen können über eine grafische Benutzerschnittstelle (GUI, graphical user interface) erhalten werden, die den Benutzer auffordert, die Eingabedaten für die Hyperparametersuche einzugeben.
  • Bei den Ausführungsformen, die mit Deep Learning zur Bildklassifizierung einhergehen, kann es sich bei der Stapelgröße um die Anzahl von Bildern handeln, die in einem einzelnen Stapel verarbeitet werden können. Zum Beispiel kann es möglich sein, in einem Datensatz von eintausend Bildern zehn Bilder auf einmal zu verarbeiten. Deshalb würde die Stapelgröße in diesem Beispiel zehn betragen. Wenn jeweils nur ein Bild gleichzeitig verarbeitet werden kann, ist die Stapelgröße eins. Wenn die Stapelgröße größer ist, kann das Verarbeiten den gesamten Datensatz schneller durchlaufen, wenn genügend Datenverarbeitungsressourcen zur Verfügung stehen. Allerdings sind in der Regel größere Datenverarbeitungsressourcen erforderlich, um eine größere Stapelgröße zu verarbeiten, und diese sind oft nicht verfügbar.
  • In einem Schritt 304 ruft der Hyperparameter-Suchauftrag einen Suchalgorithmus auf, der auf der Grundlage der Anzahl von angeforderten parallelen Experimenten einen Satz von Hyperparametern zum Experimentieren generiert. Zum Beispiel kann in Schritt 304 der Suchalgorithmus Hyperband, ein Zufallssuchalgorithmus, ein Gittersuchalgorithmus, ein Bayes'scher Optimierungsalgorithmus, ein gradientenbasierter Optimierungsalgorithmus, ein evolutionärer Optimierungsalgorithmus, ein populationsbasierter Algorithmus, ein Radialbasisfunktionsalgorithmus und/oder ein Spektralalgorithmus verwendet werden, um einen Satz von Hyperparametern zum Experimentieren zu generieren. Die in Schritt 302 erhaltenen Hyperparameter, z.B. Dynamik und Gewichtsabnahme sowie Stapelgröße, können in den Suchalgorithmus eingespeist werden, und der Suchalgorithmus kann Testzahlen oder Testwerte für diese Hyperparameter generieren, die in nachfolgenden Schritten getestet und optimiert werden. Für ein Deep-Learning-Modell können viele Hyperparameter, z.B. fünfzehn bis zwanzig Hyperparameter, ausgewählt werden, für die Werte generiert werden, die optimiert werden und dann in dem Deep-Learning-Modell verwendet werden, sobald das Modell trainiert ist.
  • In einem Schritt 306 empfängt der HTRA Daten zu physischen Ressourcen bezüglich des Clusters, z.B. des Datenverarbeitungsknotens, der zum Ausführen der Daten zum Durchführen der Experimente zur Verfügung steht. Die Daten zu physischen Ressourcen können die Anzahl von Beschleunigern in dem Cluster beinhalten. Bei den Beschleunigern könnte es sich zum Beispiel um grafische Verarbeitungseinheiten (GPUs, graphical processing units), vor Ort programmierbare Gatter-Anordnungen (FPGAs, field programmable gate arrays), anwendungsspezifische integrierte Schaltungen (ASICs, application specific integrated circuits) oder andere Beschleuniger handeln. Die Daten zu physischen Ressourcen können auch die Speichermenge in einem Beschleuniger beinhalten, z.B. einen Speicher (GPU-Speicher), der von jeder grafischen Verarbeitungseinheit vorgehalten wird. Die Daten zu physischen Ressourcen können auch die Anzahl von Zentraleinheiten (CPUs, central processing units) in dem Cluster und die Speichermenge (CPU-Speicher) beinhalten, die von der CPU bzw. der jeweiligen CPU vorgehalten wird. Die Daten zu physischen Ressourcen können auch eine Menge an Systemspeicher umfassen, auf den die CPU bzw. die jeweilige CPU zugreifen kann. Wenn die Daten zu den physischen Ressourcen, die in einem Cluster verfügbar sind, bekannt sind oder vorliegen, kann der HTRA bestimmen, wie viel Skalierung erforderlich ist und wie die Skalierung auf die GPUs aufgeteilt werden sollte.
  • In einem Schritt 308 bestimmt oder erfasst der HTRA die Ressourcenanforderungen des Suchauftrags und bestimmt eine erforderliche Arbeitslast, um die Hyperparametersuche und -optimierung durchzuführen. Diese Ressourcenanforderungen des Suchauftrags können in den Eingabedaten für die Hyperparametersuche enthalten sein, die in Schritt 302 empfangen werden. Der HTRA kann eine oder mehrere Berechnungen durchführen, um die erforderliche Arbeitslast zu ermitteln, die zum Durchführen der Hyperparametersuche und -optimierung verwendet werden würde.
  • In einem Schritt 310 ermittelt der HTRA, ob die Stapelgröße der Arbeitslast vorgeschrieben war. Der HTRA kann die Eingabedaten für die Hyperparametersuche, die in Schritt 302 empfangen werden, verwenden, um diese Ermittlung in Schritt 310 vorzunehmen. Die in Schritt 302 empfangenen Eingabedaten für die Hyperparametersuche können eine Binärvariable umfassen, die positiv oder negativ angibt, ob die Arbeitslast-Stapelgröße vorgeschrieben war. Wenn die Arbeitslast-Stapelgröße vorgeschrieben war, würden die Eingabedaten für die Hyperparametersuche auch die als Variable bereitgestellte Arbeitslast-Stapelgröße umfassen. Zum Beispiel können die Eingabedaten für die Hyperparametersuche eine vorgeschriebene Arbeitslast-Stapelgröße von eins (1) beinhalten.
  • In einem Schritt 312 verwendet der HTRA eine Trainingssteuereinheit, um die Experimente auf einem Cluster zu planen und die Experimente auf dem Cluster zu starten. Die Trainingssteuereinheit kennt die Laufzeitressourcen und ist so konfiguriert, dass die Aufträge mit den verfügbaren Ressourcen geplant werden. Bei der Trainingssteuereinheit kann es sich um eine Software handeln, die so konfiguriert ist, dass sie mit einem bestimmten Datenverarbeitungscluster kompatibel ist.
  • In einem Schritt 314 werden die Experimente auf dem Cluster durchgeführt. Ein einzelnes Trainingsexperiment oder mehrere Trainingsexperimente können auf einem Datenverarbeitungsknoten des Clusters durchgeführt werden. Daten, die Hyperparameter beinhalten, können zur Berechnung mit einem möglichen Satz von Hyperparameterwerten in kleinere Gruppen aufgeteilt und in die Kerne von Beschleunigern in dem Cluster geladen werden. Der Cluster verwendet Tensorauslagerung, um die Experimente durchzuführen. Zum Beispiel verwendet der Cluster Tensorauslagerung, um den Speicherbedarf zu verwalten. Tausende von Tests können mit verschiedenen Hyperparametern durchgeführt werden, um die besten Hyperparameterwerte zu ermitteln. Eine bestimmte Gruppe von Hyperparametern kann in dem Datenverarbeitungscluster getestet werden, und die Zeit und Genauigkeit der Schlussfolgerungen kann beobachtet werden. Verschiedene Gruppen von Hyperparametern können durch Experimente in dem Cluster getestet werden, bis der beste oder effizienteste Satz von Hyperparameterwerten ermittelt ist. Der effiziente Satz kann dann für einen Modelltrainingsschritt 212, wie in 2 gezeigt, und für einen Erkennungsschritt 214, wie in 2 gezeigt, verwendet werden. Der Erkennungsschritt 214 kann bei Deep Learning stattfinden, wenn Daten, z.B. ein Bild oder ein Audiosignal, in das Deep-Learning-Modell eingespeist werden und das Deep-Learning-Modell durch Analysieren des Bildes oder Audiosignals eine Ausgabe übermittelt.
  • In einem Schritt 316 verwaltet der HTRA den Cluster. Der HTRA simuliert die umfangreiche Arbeitslast durch Verwalten der Nutzung von physischen und virtuellen Ressourcen des Clusters. Der Cluster verwendet Tensorauslagerung, um den Speicherbedarf beim Durchführen der Experimente zu verwalten, und der HTRA verwaltet die Tensorauslagerung. Während oder nach Abschluss eines Satzes von Experimenten kann der Cluster der Trainingssteuereinheit und/oder dem HTRA Trainingsergebnisse oder Kennzahlen bereitstellen, so dass der nächste Satz von Experimenten bestimmt, gestartet und/oder gesteuert werden kann. Der HTRA kann die Trainingssteuereinheit verwenden, um den nächsten Satz von Experimenten auf dem Cluster zu starten.
  • Unter Verwendung der bereitgestellten Eingaben verwaltet der HTRA automatisch die Ressourcen für die angeforderte Anzahl von Experimenten.
  • 4 zeigt ein Beispiel eines Hyperparameter-Optimierungsprogramms 110a, 110b und dessen Interaktion mit einem Cluster 408, um Hyperparameter-Optimierungsexperimente auf dem Cluster 408 durchzuführen. Bei dem Cluster 408 handelt es sich um einen Datenverarbeitungscluster, der einen Beschleuniger umfassen kann, wie nachstehend mit Bezug auf 5 und 6 beschrieben ist. Das Hyperparameter-Optimierungsprogramm 110a, 110b kann Teilkomponenten wie zum Beispiel einen Hyperparameter-Auftragseingabegenerator, einen Suchalgorithmus 402, einen Hyperparameter-Optimierungsressourcenzuordner (HTRA) 404 und eine Trainingssteuereinheit 406 umfassen.
  • Der Hyperparameter-Auftragseingabegenerator kann eine grafische Benutzerschnittstelle (Hl GUI) 400 verwenden, um Eingaben über die durchzuführende Hyperparameter-Auftragssuche zu erhalten, d.h. um Schritt 302 durchzuführen. Die Hl GUI 400 kann einen Entwickler oder Forscher auffordern oder bitten, Eingabedaten für die Suche nach Hyperparametern einzugeben, wie zum Beispiel Einzelheiten zur Arbeitslast, einen Suchumfang, die für das Optimieren erforderlichen Ressourcen (z.B. eine Anzahl von Beschleunigern, die erforderlich sind), eine Anzahl von parallelen Experimenten, eine Option zum Vorschreiben einer Arbeitslast-Stapelgröße für die Hyperparametersuche und, falls ausgewählt, die Arbeitslast-Stapelgröße. Die konkreten zu testenden Hyperparameter können von dem Benutzer in die Hl GUI 400 eingegeben werden.
  • Das Empfangen der Eingabedaten für die Hyperparametersuche durch die Hl GUI 400 kann dazu führen, dass der Suchalgorithmus 402 aufgerufen wird, so dass der Schritt 304 durchgeführt werden kann, nämlich dass ein Satz von Hyperparametern, d.h. ein Satz von Hyperparameterwerten, zumindest teilweise auf der Grundlage der Anzahl von parallelen Experimenten generiert werden kann, die als Teil der Hyperparameter-Auftragssuche in den Eingabedaten für die Hyperparameter-Auftragssuche angefordert wurden. Verschiedene Beispiele für den Suchalgorithmus 402 wurden vorstehend erwähnt.
  • Der HTRA 404 führt den Schritt 306 durch, indem er Daten zu physischen Ressourcen eines Clusters 408 empfängt, die verwendet werden können, um Experimente für die Hyperparameteroptimierung durchzuführen. Der HTRA 404 kann eine Datenverbindung zu dem Cluster 408 aufweisen, z.B. eine physische oder drahtlose Verbindung zu dem Cluster 408, um die Daten zu physischen Ressourcen zu empfangen. Der HTRA 404 kann auch den Schritt 308 durchführen, um eine erforderliche Arbeitslast zu bestimmen. Dieser HTRA 404 kann die Eingabedaten für die Hyperparametersuche, die in Schritt 302 empfangen werden, verwenden, um in Schritt 308 die erforderliche Arbeitslast zu bestimmen. Dieser HTRA 404 kann die Eingabedaten für die Hyperparametersuche, die in Schritt 302 empfangen werden, auch verwenden, um in Schritt 310 festzustellen, ob eine Arbeitslast-Stapelgröße vorgeschrieben war. Der HTRA verwendet die Trainingssteuereinheit 406 auch dafür, Experimente auf dem Cluster 408 zu planen und diese Experimente auf dem Cluster 408 zu starten. Während oder nach dem Durchführen der Experimente auf dem Cluster 408 kann der Cluster dem HTRA 404 und/oder der Trainingssteuereinheit 406 Trainingsergebnisse/-kennzahlen bereitstellen, so dass weitere Experimente für die Hyperparameteroptimierung festgelegt und gesteuert werden können.
  • 5 zeigt ein Beispiel eines Clusters 408, der einen Datenverarbeitungsknoten 500 umfasst, der beim Durchführen der Experimente zumindest in einigen Ausführungsformen des erfindungsgemäßen Verfahrens helfen kann. Der Datenverarbeitungsknoten 500 kann einen Systemspeicher 502, eine Zentraleinheit (CPU) 504 und mehrere Beschleuniger umfassen. In dieser beispielhaften Ausführungsform handelt es sich bei den mehreren Beschleunigern um grafische Verarbeitungseinheiten (GPUs). Eine erste GPU 506a und eine zweite GPU 506b sind in 5 gezeigt, obwohl ein Datenverarbeitungsknoten in einigen Ausführungsformen drei, vier, fünf, sechs oder acht GPUs umfassen kann. Bei der ersten GPU 506a und der zweiten GPU 506b kann es sich um allgemein verarbeitende Grafikverarbeitungseinheiten (GPGPUs, general processing graphics processing units) handeln. Bei der ersten GPU 506a und der zweiten GPU 506b kann es sich um NVIDIA® Tesla® V100 Tensor Core GPUs handeln. (NVIDIA und Tesla sowie alle auf NVIDIA beruhenden Marken und Logos sind Marken oder eingetragene Marken der Nvidia Corporation). In anderen Ausführungsformen kann anstelle der GPUs ein anderer Beschleuniger bereitgestellt werden.
  • Ein Hochgeschwindigkeitsspeicherbus 508 kann die CPU 504 mit dem Systemspeicher 502 verbinden. Der Hochgeschwindigkeitsspeicherbus 508 kann Daten mit einer Geschwindigkeit von 170 GB/s oder mehr übertragen. Eine mehrdirektionale Netzschnittstelle 510c kann die erste und die zweite GPU 506a, b miteinander verbinden. Eine mehrdirektionale Netzschnittstelle 510a kann die erste GPU 506a mit der CPU 504 verbinden, und eine mehrdirektionale Netzschnittstelle 510b kann die zweite GPU 506b mit der CPU 504 verbinden. Dieser Datenverarbeitungsknoten 500 kann das Stattfinden einer Tensorauslagerung ermöglichen, so dass das System und das Verfahren über die übliche Datenverarbeitungskapazität hinaus skalieren können. Die mehrdirektionalen Netzschnittstellen 510a bis c können in das Silizium des Prozessors eingebettet sein.
  • Für die Tensorauslagerung können Tensoren, die während Berechnungen der Experimente in den GPUs generiert werden, vorübergehend von den Beschleunigern, z.B. von den GPUs, z.B. der ersten GPU 506a und der zweiten GPU 506b, an die CPU 504 und durch die CPU 504 an den Systemspeicher 502 übergeben oder übertragen werden, damit die Beschleuniger nicht mit Daten überlastet werden und einfrieren. Mit Tensorauslagerung können die Ressourcen der Beschleuniger verwendet werden, um zusätzliche Berechnungen und Experimente durchzuführen und dabei einen neuen Tensor oder neue Tensoren zu generieren. Nachdem die Experimente abgeschlossen sind oder während einige der Experimente noch laufen, können die vorübergehend in der CPU 504 und/oder in dem Systemspeicher 502 gespeicherten Tensoren weitergegeben oder übertragen und zurück in die Beschleuniger geladen werden, z.B. zurück in die erste und zweite GPU 506a, b, und zurück in die Hyperparameter, die in den Beschleunigern gesucht werden, wie es für den auf den Beschleunigern laufenden Trainingsauftrag erforderlich ist.
  • Bei den mehrdirektionalen Netzschnittstellen 510 a bis c kann es sich um bidirektionale Schnittstellen handeln, die acht differentielle Paare in jeder Richtung umfassen können, was insgesamt zweiunddreißig Drähte ergibt. Die Paare können gleichstromverbunden sein und einen 85-Ω-Differenzabschluss mit eingebettetem Takt verwenden. Zur Erleichterung der Leitweglenkung können die mehrdirektionalen Netzschnittstellen 510a bis 510c Spurumkehrung und Spurpolarität unterstützen, was bedeutet, dass die physische Reihenfolge der Spuren und deren Polarität zwischen den beiden Einheiten umgekehrt werden können. Bei den mehrdirektionalen Netzschnittstellen 510a bis c kann es sich um eine NVLink® 1.0- bzw. eine NVLink® 2.0-Verbindung handeln. (NVLink ist eine eingetragene Marke der Nvidia Corporation.) Die mehrdirektionalen Netzschnittstellen 510a bis c können jeweils vier NVLink®-Verbindungen umfassen. In einigen Ausführungsformen kann ein Cluster 408 vier Beschleuniger, z.B. vier GPUs, und zwei CPUs umfassen, wobei die vier Beschleuniger vollständig miteinander verbunden sind und eine vierte Verbindung zu einer der beiden CPUs führt. In einigen Ausführungsformen können ein Beschleuniger und die CPU 504 auf den Speicher des jeweils anderen zugreifen, z.B. für direktes Laden und Speichern in einem flachen Adressraum. Der flache Adressraum kann durch neue Adressübersetzungsdienste unterstützt werden. Zusätzlich können in einigen Ausführungsformen die CPU 504 und ein Beschleuniger über eine native Unterstützung für atomare Arbeitsschritte verfügen. Der flache Adressraum kann Cache-Kohärenz ermöglichen und es der CPU 504 erlauben, den Speicher eines Beschleunigers effizient im Cache zu halten, wodurch die Latenzzeiten und damit die Leistung erheblich verbessert werden. In einem Cluster mit acht Beschleunigern auf einer einzelnen Hauptplatine kann ein Switch bereitgestellt werden, der jeden der acht Beschleuniger mit allen anderen sieben Beschleunigern auf derselben Hauptplatine verbindet. Zum Beispiel kann der Cluster acht GPUs mit den beschriebenen Verbindungsmerkmalen umfassen.
  • In Fällen, in denen eine Skalierung der Stapelgröße möglich ist, simuliert der HTRA 404, als Reaktion darauf, dass der HTRA 404 dies festgestellt hat, eine umfangreiche Arbeitslast durch dynamisches Skalieren der Stapelgröße in Abhängigkeit von der Arbeitslastanforderung. Wenn die Option, eine Arbeitslast-Stapelgröße für die Hyperparametersuche vorzuschreiben, nicht ausgewählt ist, ist ein Skalieren der Stapelgröße möglich. Der HTRA 404 simuliert eine umfangreiche Arbeitslast durch dynamisches Skalieren der Stapelgröße in Abhängigkeit von der bereitgestellten Arbeitslast-Stapelgröße und dem Ressourcenbedarf.
  • Als Teil dieses dynamischen Skalierens ermittelt der HTRA 404 die für das Suchexperiment erforderliche kumulative Stapelgröße. Bei der kumulativen Stapelgröße handelt es sich um die Arbeitslast-Stapelgröße multipliziert mit der Anzahl von Beschleunigern, die erforderlich ist. Der HTRA 404 verfügt aus Schritt 306 über die Einzelheiten zu der Anzahl von physischen Beschleunigern in dem Cluster 408 und dem verfügbaren CPU-Speicher und Beschleunigerspeicher. Der HTRA 404 verfügt auch über die Anzahl von gewünschten Experimenten. Die kumulative Stapelgröße wird auf die verfügbaren physischen Beschleuniger in dem Cluster 408 für die erforderliche Anzahl von Experimenten aufgeteilt.
  • Deshalb müsste in dieser Ausführungsform ohne vorgeschriebene Stapelgröße und mit dynamischem Skalieren jeder physische Beschleuniger eine höhere Stapelgröße bewältigen. Die Speicher- und Datenaustauschanforderungen, der sich aus dem Skalieren der Stapelgröße ergeben, wird von dem HTRA 404 nahtlos unter Verwendung von Tensorauslagerung zwischen den Beschleunigern (z.B. jeder GPU wie zum Beispiel der ersten GPU 506a und der zweiten GPU 506b) und der CPU 504 bewältigt. Der Stapelgrößen-Skalierungsmechanismus des HTRA 404 kann auf dem verfügbaren kumulativen Beschleunigerspeicher und CPU-Speicher beruhen.
  • In Fällen, in denen die Skalierung der Stapelgröße nicht verwendet werden kann, z.B. in Fällen, in denen in den Eingabedaten für die Hyperparametersuche eine Arbeitslast-Stapelgröße vorgeschrieben ist, bestimmt der HTRA 404 diese und kann dann als Reaktion darauf Ressourcen verwalten, indem er virtuelle Beschleuniger erstellt und verwaltet, welche die physischen Beschleuniger emulieren können. Auf diese Weise kann eine umfangreiche Simulation einer umfangreichen Arbeitslast durchgeführt werden. Die vorgeschriebene Arbeitslast-Stapelgröße würde für die Hyperparametersuche verwendet werden. Zum Beispiel können die Eingabedaten für die Hyperparametersuche aus Schritt 302 eine Vorschrift umfassen, dass die Arbeitslast-Stapelgröße eins (1) beträgt.
  • Für diese Ausführungsform mit einer vorgeschriebenen Arbeitslast-Stapelgröße ordnet der HTRA 404 zunächst virtuelle Beschleuniger zu, und zwar in Abhängigkeit von der Anzahl von Beschleunigern, die für die Gesamtanzahl von parallelen Experimenten erforderlich sind, welche für die Hyperparametersuche angefordert wurden. Bei der Zuordnung werden auch die verfügbaren physischen Beschleuniger, der Beschleunigerspeicher und der für jeden Datenverarbeitungsknoten des Clusters 408 verfügbare CPU-Speicher berücksichtigt. Die Erstellung von virtuellen Beschleunigern hängt von dem kumulativen Beschleunigerspeicher und dem verfügbaren CPU-Speicher ab.
  • Bestimmte Suchalgorithmen wie zum Beispiel Hyperband verwenden Techniken wie die sukzessive Halbierung, bei der die Zahl von parallelen Experimenten bei jedem Schritt der Hyperparametersuche verringert wird. Die Verringerung erfolgt durch Auswählen der Konfigurationen mit hohem Potenzial und Verwerfen von anderen. In derartigen Fällen ordnet der HTRA 404 virtuelle Beschleuniger je nach Bedarf für jeden Schritt neu zu, um die zusätzlich verfügbaren Ressourcen auszunutzen. Die Neuzuordnung erfolgt so, dass den verbleibenden virtuellen Beschleunigern, die in dem weiteren Schritt benötigt werden, mehr Ressourcen, z.B. Speicher und Gleitkommaoperationen pro Sekunde (FLOPS, floating point operations per second), zur Verfügung stehen. Diese Neuzuordnung führt indirekt dazu, dass das Experiment für diesen Schritt schneller läuft. Auch das Datenübertragungsmuster kann entsprechend der Neuzuordnung geändert werden.
  • Diese Verwendung von virtuellen Beschleunigern, z.B. virtuellen GPUs, kann sicherstellen, dass verfügbare Beschleunigerressourcen effizient zugeordnet werden und kann die Nutzung von physischen Ressourcen des Clusters 408 maximieren, indem die Ressourcen dynamisch entsprechend den Anforderungen des Hyperparametersuchauftrags angepasst werden.
  • Der HTRA 404 kann die Erstellung von virtuellen Beschleunigern und den Speicherbedarf von virtuellen Beschleunigern verwalten, indem er Tensorauslagerung zwischen einer Reihe von Beschleunigern und der CPU 504 verwendet.
  • Ein Beispiel, bei dem ein HTRA 404 virtuelle Beschleuniger innerhalb eines physischen Beschleunigers zuordnet, ist in 6 dargestellt. 6 zeigt, wie der HTRA 404 in Fällen arbeitet, in denen in den Eingabedaten für die Hyperparametersuche eine Arbeitslast-Stapelgröße vorgeschrieben ist. 6 zeigt einen Datenverarbeitungsknoten 600, in dem die CPU 504 über einen CPU-Speicher 620 verfügt und in dem virtuelle GPUs 612 a bis i in der ersten und zweiten GPU 506 a, b, die gezeigt sind, erstellt werden. Die virtuellen GPUs von 612a bis i können auf den CPU-Speicher 620 für eine Tensorauslagerung zugreifen. Eine bestimmte virtuelle GPU, z.B. die virtuelle GPU 612a, kann für die Tensorauslagerung durchgängig auf den gleichen Adressraum innerhalb des CPU-Speichers 620 oder den gleichen Adressraum innerhalb des Systemspeichers 502 zugreifen. 6 zeigt auch Datenübertragungsmuster zwischen GPUs und innerhalb von GPUs.
  • Ein Hyperparameter-Training, das ohne die hierin beschriebenen Verfahren und Systeme erfolgt, erfolgt ohne einen Hyperparameter-Optimierungsressourcenzuordner und ohne die Möglichkeit, mit begrenzten Datenverarbeitungsressourcen hochzuskalieren. In diesem Beispiel ohne die Fähigkeit zur Hochskalierung und bei dem der Cluster über acht GPUs verfügt, kann ein Hyperparametersuchauftrag für eine Arbeitslast, die acht GPUs mit einer Stapelgröße von eins (1) benötigt, lediglich ein Trainingsexperiment durchführen. Dieses Optimieren wird durch die verfügbaren physischen Ressourcen begrenzt.
  • Dieses Beispiel steht im Gegensatz zu den hierin beschriebenen Beispielen für das System und Verfahren zur Hyperparameter-Suche/Optimierung für eine umfangreiche Deep-Learning-Arbeitslast mit begrenzten Ressourcen. In der hierin beschriebenen Erfindung wird ein Hyperparameter-Optimierungsressourcenzuordner, z.B. der HTRA 404, verwendet. Obwohl der Cluster 408 in diesem Beispiel lediglich über acht GPUs verfügt, kann der Hyperparametersuchauftrag acht Experimente mit einer Stapelgröße von eins parallel ausführen. Für diesen Arbeitsschritt müssten in der Regel vierundsechzig (64) GPUs betrieben werden, wobei je acht (8) GPUs für jedes Experiment verwendet werden. Der HTRA 404 kann die umfangreiche Arbeitslast unter Verwendung von begrenzten Ressourcen simulieren. Beruhend darauf, ob die Option zum Verwenden der Arbeitslast-Stapelgröße für die Hyperparametersuche ausgewählt ist, kann der HTRA 404 einen von zwei Ansätzen wählen, um die Simulation umfangreicher Arbeitslasten nahtlos durchzuführen.
  • Wenn die Option zum Vorschreiben der Arbeitslast-Stapelgröße nicht ausgewählt ist, kann der HTRA 404 den Mechanismus zur Skalierung der Stapelgröße verwenden und die Gleitkommaoperationen pro Sekunde (FLOPS) und den Speicherbedarf für physische Beschleuniger nahtlos verwalten.
  • In dem gegebenen Beispiel ohne vorgeschriebene Stapelgröße und wenn die Arbeitslastanforderung darin besteht, acht Experimente parallel auszuführen, kann jedes Experiment auf einem physischen Beschleuniger ausgeführt werden, indem nahtlos auf eine Stapelgröße von acht Experimenten pro Beschleuniger skaliert wird, z.B. eine Stapelgröße von acht Experimenten pro GPU. Dieses dynamische Skalieren ermöglicht es, auch bei begrenzten Ressourcen acht Experimente parallel laufen zu lassen. Das System und das Verfahren ermöglichen es, den Arbeitsschritt mit lediglich acht Beschleunigern durchzuführen, während ursprünglich vierundsechzig Beschleuniger für den Optimierungsvorgang erforderlich waren.
  • Wenn zusätzlich ein Suchalgorithmus wie Hyperband verwendet wird, der die Anzahl von Experimenten in aufeinanderfolgenden Schritten um die Hälfte reduzieren kann, kann der HTRA 404 die Ressourcen nach jedem Lauf neu zuordnen. In diesem Beispiel mit einer Halbierung der Experimente für einen nachfolgenden Schritt, kann der nächste Schritt mit vier parallelen Experimenten jeden der acht Beschleuniger unter Verwendung einer Stapelgröße von vier aufweisen. Diese Neuzuordnung beschleunigt die Durchläufe und maximiert die Ressourcennutzung.
  • Wenn die Option zum Vorschreiben der Arbeitslast-Stapelgröße gewählt wird und eine Stapelgröße von eins (1) vorgeschrieben ist, kann der HTRA 404 virtuelle Beschleuniger erstellen, um die Ressourcenanforderungen zu bewältigen. 6 zeigt einen Cluster 408, der einen Datenverarbeitungsknoten 600 umfasst, in dem die virtuellen GPUs 612 a bis i von dem HTRA 404 erstellt wurden. 6 zeigt, dass der Datenverarbeitungsknoten 600 viele gemeinsame Komponenten mit dem in 5 gezeigten Datenverarbeitungsknoten 500 aufweist, so dass einige gemeinsame Bezugszahlen sowohl in 5 als auch in 6 verwendet werden.
  • In dem gegebenen Beispiel, in dem die Arbeitslast-Stapelgröße vorgeschrieben ist, kann der HTRA 404 vierundsechzig virtuelle Beschleuniger erstellen, z.B. vierundsechzig GPUs, mit acht virtuellen GPUs in jeder physischen GPU und wobei jede virtuelle GPU eine Stapelgröße von eins verarbeitet. Durch diese Schaffung der virtuellen Beschleuniger, z.B. der virtuellen GPUs 612a bis i, können auch bei begrenzten Ressourcen acht Experimente parallel durchgeführt werden. Ursprünglich waren für den Optimierungsvorgang vierundsechzig physische Beschleuniger erforderlich, doch jetzt kann er mit acht physischen Beschleunigern durchgeführt werden. Der gesamte Speicher, die Gleitkommaoperationen pro Sekunde (FLOPS) und die Datenaustauschanforderungen für die virtuellen GPUs 612a bis i würden nahtlos von dem HTRA 404 bewältigt. Die virtuellen GPUs 612a bis i und der Speicher 620 der CPU 504 sind in 6 gezeigt.
  • Wenn bei dieser Alternative zusätzlich ein Suchalgorithmus wie Hyperband verwendet wird, bei dem die Anzahl von Experimenten in aufeinanderfolgenden Schritten um die Hälfte reduziert wird, ordnet der HTRA 404 die virtuellen Beschleuniger unter Nutzung aller verfügbaren Ressourcen neu zu. In diesem Beispiel werden für den nächsten Schritt mit vier parallelen Experimenten zweiunddreißig virtuelle Beschleuniger erstellt, wobei jeder virtuelle Beschleuniger gemäß der Vorschrift eine Stapelgröße von eins bearbeitet.
  • Der HTRA 404 kann den Datenaustausch innerhalb von Beschleunigern, d.h., den Datenaustausch zwischen virtuellen Beschleunigern innerhalb eines bestimmten physischen Beschleunigers verwalten. Zum Beispiel kann der HTRA 404 den Datenaustausch 614a innerhalb von GPUs zwischen der virtuellen GPU 612a und der virtuellen GPU 612b in der ersten GPU 506a (wobei es sich bei der ersten GPU 506a um eine physische GPU handelt) verwalten, den Datenaustausch 614b innerhalb von GPUs zwischen der virtuellen GPU 612d und der virtuellen GPU 612e in der ersten GPU 506a, den Datenaustausch 614c innerhalb von GPUs zwischen der virtuellen GPU 612f und der virtuellen GPU 612g in der zweiten GPU 506b (wobei es sich bei der zweiten GPU 506b um eine physische GPU handelt), und den Datenaustausch 614d innerhalb von GPUs zwischen der virtuellen GPU 612h und der virtuellen GPU 612i in der zweiten GPU 506b. Der HTRA 404 kann auch den Datenaustausch zwischen Beschleunigern verwalten. Zum Beispiel kann der HTRA 404 den Datenaustausch 616 zwischen GPUs, der zwischen einer virtuellen GPU einer physischen GPU und einer virtuellen GPU einer anderen physischen GPU stattfindet, verwalten. Dieser Datenaustausch 616 zwischen GPUs kann zwischen der virtuellen GPU 612c der ersten GPU 506a und der virtuellen GPU 612f der zweiten GPU 506b stattfinden. Der Datenaustausch 616 zwischen GPUs kann über eine mehrdirektionale Netzschnittstelle erfolgen, wie zum Beispiel die in 5 gezeigte mehrdirektionale Netzschnittstelle 510c. Der HTRA 404 kann den Datenaustausch zwischen den virtuellen Beschleunigern wie zum Beispiel den virtuellen GPUs 612 a bis i unter Verwendung von Datenübertragungstechnologien wie NCCL (NVIDIA® Collective Communications Library) oder MPI (Message Passing Interface) verwalten.
  • Wenn die Option zum Vorschreiben der Arbeitslast-Stapelgröße nicht ausgewählt ist, könnte der HTRA 404 je nach Größe des zu lösenden Problems dennoch virtuelle Beschleuniger zum Verwalten der Experimente erstellen, ähnlich wie für die Ausführungsform beschrieben, bei der die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt ist.
  • Es sei darauf hingewiesen, dass 2 bis 6 lediglich Veranschaulichungen bestimmter Ausführungsformen bereitstellen und keinerlei Einschränkungen in Bezug darauf, wie verschiedene Ausführungsformen umgesetzt werden können, mit sich bringen. Es können viele Abwandlungen an der/den abgebildeten Ausführungsform(en) beruhend auf Gestaltungs- und Umsetzungsanforderungen vorgenommen werden.
  • Wie in den vorstehenden Ausführungsformen beschrieben, kann das Hyperparameter-Optimierungsprogramm 110a, 110b die Funktionalität eines Computers verbessern, indem es ermöglicht, dass begrenzte Datenverarbeitungsressourcen hochskaliert werden, um eine Hyperparameter-Optimierung für umfangreiche Arbeitslasten durchzuführen.
  • 7 ist ein Blockschaubild 900 von internen und externen Komponenten des in 1 dargestellten Computers gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung. Man sollte sich bewusst sein, dass 7 lediglich eine Veranschaulichung einer Umsetzung bereitstellt und keinerlei Einschränkungen in Bezug auf die Umgebungen, in denen verschiedene Ausführungsformen umgesetzt werden können, mit sich bringt. Es können viele Abwandlungen an den abgebildeten Umgebungen beruhend auf Gestaltungs- und Umsetzungsanforderungen vorgenommen werden.
  • Das Datenverarbeitungssystem 902, 904 steht stellvertretend für jede beliebige elektronische Einheit, die in der Lage ist, maschinenlesbare Programmanweisungen auszuführen. Das Datenverarbeitungssystem 902, 904 kann stellvertretend für ein Smartphone, ein Computersystem, einen PDA oder andere elektronische Einheiten stehen. Zu Beispielen für Datenverarbeitungssysteme, -umgebungen und/oder -konfigurationen, für welche das Datenverarbeitungssystem 902, 904 stellvertretend sein kann, gehören Personal Computer-Systeme, Server-Computersysteme, Thin Clients, Thick Clients, Handheld- bzw. Laptop-Geräte, Multiprozessorsysteme, auf Mikroprozessoren beruhende Systeme, Netzwerk-PCs, Minicomputersysteme sowie verteilte Cloud-Computing-Umgebungen, die irgendeine(s) der obigen Systeme bzw. Einheiten enthalten, aber nicht darauf beschränkt.
  • Der Benutzer-Client-Computer 102 und der Netzwerk-Server 112 können jeweilige Sätze der in 7 veranschaulichten internen Komponenten 902a, b und externen Komponenten 904a, b umfassen. Jeder der Sätze von internen Komponenten 902a, b umfasst einen oder mehrere Prozessoren 906, einen oder mehrere durch einen Computer lesbare RAMs 908 und einen oder mehrere durch einen Computer lesbare ROMs 910 auf einem oder mehreren Bussen 912 sowie ein oder mehrere Betriebssysteme 914 und eine oder mehrere durch einen Computer lesbare, physische Speichereinheiten 916. Das eine oder die mehreren Betriebssysteme 914, das Softwareprogramm 108 und das Hyperparameter-Optimierungsprogramm 110a in dem Client-Computer 102 und das Hyperparameter-Optimierungsprogramm 110b in dem Netzwerkserver 112 können auf einer oder mehreren durch einen Computer lesbaren, physischen Speichereinheiten 916 zur Ausführung durch einen oder mehrere Prozessoren 906 über einen oder mehrere RAMs 908 (die üblicherweise einen Cachespeicher umfassen) gespeichert sein. In der in 6 veranschaulichten Ausführungsform handelt es sich bei jeder der durch einen Computer lesbaren, physischen Speichereinheiten 916 um eine Magnetplatten-Speichereinheit eines internen Festplattenlaufwerks. Alternativ handelt es sich bei jeder der durch einen Computer lesbaren, physischen Speichereinheiten 916 um eine Halbleiter-Speichereinheit wie zum Beispiel das ROM 910, ein EPROM, einen Flash-Speicher oder jede beliebige andere durch einen Computer lesbare, physische Speichereinheit, die ein Computerprogramm und digitale Informationen speichern kann.
  • Jeder Satz von internen Komponenten 902a, b umfasst auch ein R/W-Laufwerk oder eine Schnittstelle 918 zum Lesen von und Schreiben auf eine oder mehrere tragbare, durch einen Computer lesbare, physische Speichereinheiten 920 wie zum Beispiel CD-ROM, DVD, Speicherstick, Magnetband, Magnetplatte, optische Platte oder Halbleiter-Speichereinheit. Ein Softwareprogramm, wie zum Beispiel das Softwareprogramm 108 und das Hyperparameter-Optimierungsprogramm 110a, 110b, kann auf einer oder mehreren der jeweiligen tragbaren durch einen Computer lesbaren, physischen Speichereinheiten 920 gespeichert, über das jeweilige R/W-Laufwerk oder die Schnittstelle 918 gelesen und in das jeweilige Festplattenlaufwerk 916 geladen werden.
  • Jeder Satz von internen Komponenten 902a, b kann auch Netzwerkadapter (oder Switch-Port-Karten) oder Schnittstellen 922 wie zum Beispiel TCP/IP-Adapterkarten, drahtlose Wi-Fi-Schnittstellenkarten oder drahtlose 3G- oder 4G-Schnittstellenkarten oder andere drahtgebundene oder drahtlose Datenübertragungsverbindungen umfassen. Das Softwareprogramm 108 und das Hyperparameter-Optimierungsprogramm 110a in dem Client-Computer 102 und das Hyperparameter-Optimierungsprogramm 110b in dem Netzwerk-Server-Computer 112 können von einem externen Computer (z.B. einem Server) über ein Netzwerk (zum Beispiel das Internet, ein lokales Netzwerk oder ein anderes, z.B. ein Weitverkehrsnetz) und entsprechende Netzwerkadapter oder Schnittstellen 922 heruntergeladen werden. Von den Netzwerkadaptern (oder Switch-Port-Adaptern) oder Schnittstellen 922 werden das Softwareprogramm 108 und das Hyperparameter-Optimierungsprogramm 110a in dem Client-Computer 102 und das Hyperparameter-Optimierungsprogramm 110b in dem Netzwerk-Server-Computer 112 auf das jeweilige Festplattenlaufwerk 916 geladen. Das Netzwerk kann Kupferkabel, Lichtwellenleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen.
  • Jeder der Sätze von externen Komponenten 904a, b kann einen Computeranzeigebildschirm 924, eine Tastatur 926 und eine Computermaus 928 umfassen. Die externen Komponenten 904a, b können auch berührungsempfindliche Bildschirme, virtuelle Tastaturen, Touchpads, Zeigeeinheiten und andere Mensch-Maschine-Schnittstelleneinheiten umfassen. Jeder der Sätze von internen Komponenten 902a, b umfasst auch Einheitentreiber 930 für den Anschluss an den Computeranzeigebildschirm 924, die Tastatur 926 und die Computermaus 928. Die Einheitentreiber 930, das R/W-Laufwerk oder die Schnittstelle 918 und der Netzwerkadapter oder die Schnittstelle 922 weisen Hardware und Software auf (gespeichert in der Speichereinheit 916 und/oder in dem ROM 910).
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailstufe der Integration handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der festgelegten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zum Beispiel können zwei nacheinander gezeigte Blöcke in Wirklichkeit in einem Schritt erreicht, gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist darüber hinaus anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Es versteht sich, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Vielmehr können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
  • Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
  • Bei den Eigenschaften handelt es sich um die Folgenden:
    • On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
    • Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
    • Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
    • Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
    • Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
  • Bei den Dienstmodellen handelt es sich um die Folgenden:
    • Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
    • Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
    • Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
  • Bei den Einsatzmodellen handelt es sich um die Folgenden:
    • Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
    • Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
    • Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
    • Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
    • Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten aufweist.
  • Unter Bezugnahme auf 8 ist eine veranschaulichende Cloud-Computing-Umgebung 1000 abgebildet. Wie gezeigt ist, umfasst die Cloud-Computing-Umgebung 1000 einen oder mehrere Cloud-Computing-Knoten 100, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie zum Beispiel ein elektronischer Assistent (PDA, personal digital assistant) oder ein Mobiltelefon 1000A, ein Desktop-Computer 1000B, ein Laptop-Computer 1000C und/oder ein Automobil-Computer-System 1000N Daten austauschen können. Die Knoten 100 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, Benutzergemeinschafts-, öffentliche oder hybride Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 1000, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten von in 8 gezeigten Datenverarbeitungseinheiten 1000A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 100 und die Cloud-Computing-Umgebung 1000 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
  • Unter Bezugnahme auf 9 wird ein Satz von funktionalen Abstraktionsschichten 1100 gezeigt, die durch die Cloud-Computing-Umgebung 1000 bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 9 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
    • Eine Hardware- und Software-Schicht 1102 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 1104; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 1106; Server 1108; Blade-Server 1110; Speichereinheiten 1112; und Netzwerke sowie Netzwerkkomponenten 1114. In einigen Ausführungsformen umfassen Software-Komponenten eine Netzwerk-Anwendungsserver-Software 1116 und eine Datenbank-Software 1118.
  • Eine Virtualisierungsschicht 1120 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 1122, virtueller Speicher 1124, virtuelle Netzwerke 1126, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 1128; und virtuelle Clients 1130.
  • In einem Beispiel kann die Verwaltungsschicht 1132 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 1134 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 1136 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen umfassen. Eine Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 1138 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 1140 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 1142 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einem SLA bereit.
  • Eine Arbeitslastschicht 1144 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 1146; Software-Entwicklung und Lebenszyklusverwaltung 1148; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 1150; Datenanalytikverarbeitung 1152; Transaktionsverarbeitung 1154; und Hyperparameter-Optimierung 1156. Ein Hyperparameter-Optimierungsprogramm 110a, 110b stellt eine Möglichkeit bereit, Ressourcen zu skalieren und Hyperparameter-Training für umfangreiche Arbeitslasten unter Verwendung von begrenzten Datenverarbeitungsressourcen durchzuführen.
  • Die hierin verwendete Terminologie dient lediglich dem Zweck des Beschreibens bestimmter Ausführungsformen und soll die Erfindung nicht einschränken. Die Verwendung der Singularform „ein“, „eine“ bzw. „der“, „die“, „das“ hierin soll ebenfalls die Pluralformen einschließen, es sei denn, etwas anderes ergibt sich deutlich aus dem Zusammenhang. Es wird darüber hinaus darauf hingewiesen, dass die Begriffe „aufweisen“, „aufweisend“, „umfasst“ „umfassend“, „hat“, „haben“, ,,habend", „mit“ und dergleichen, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein von aufgeführten Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen und/oder Komponenten angeben, jedoch nicht das Vorhandensein oder das Hinzufügen einer oder mehrerer anderer Merkmale, ganzer Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen hiervon ausschließen.
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung aufgeführt, sollen jedoch nicht gesamthaft stehen für bzw. begrenzt sein auf die offenbarten Ausführungsformen. Für Fachleute werden viele Abänderungen und Abwandlungen ersichtlich sein, ohne von dem Umfang der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt vorgefundenen Technologien bestmöglich zu erläutern oder um es anderen Fachleuten zu ermöglichen, die hierin dargelegten Ausführungsformen zu verstehen.

Claims (20)

  1. Auf einem Computer ausgeführtes Verfahren, das von einem oder mehreren Prozessoren ausgeführt wird, das Verfahren aufweisend: Empfangen von Eingabedaten für eine Hyperparametersuche, wobei die Eingabedaten für die Hyperparametersuche eine Anzahl von parallelen Experimenten und eine Option zum Vorschreiben einer Arbeitslast-Stapelgröße für eine Hyperparametersuche aufweisen; Aufrufen eines Suchalgorithmus zum Generieren eines Satzes von Hyperparametern; Empfangen von Daten zu physischen Ressourcen bezüglich eines Clusters an einem Hyperparameter-Optimierungsressourcenzuordner; Bestimmen einer erforderlichen Arbeitslast mittels des Hyperparameter-Optimierungsressourcenzuordners, wobei der Hyperparameter-Optimierungsressourcenzuordner die empfangene Anzahl von parallelen Experimenten verwendet, um die erforderliche Arbeitslast zu bestimmen; Feststellen, mittels des Hyperparameter-Optimierungsressourcenzuordners, ob die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde; und Durchführen der Anzahl von parallelen Experimenten mittels des Clusters, um den Satz von Hyperparametern zu suchen und den Satz von Hyperparametern zu optimieren, wobei der Hyperparameter-Optimierungsressourcenzuordner den Cluster während des Durchführens gemäß den Daten zu physischen Ressourcen und der erforderlichen Arbeitslast und unter Verwendung von Tensorauslagerung verwaltet.
  2. Verfahren nach Anspruch 1, wobei der Cluster mindestens einen Beschleuniger und mindestens eine Zentraleinheit aufweist; wobei der mindestens eine Beschleuniger einen Beschleunigerspeicher aufweist; wobei die mindestens eine Zentraleinheit einen CPU-Speicher aufweist; und wobei sich die Daten zu physischen Ressourcen bezüglich des Clusters auf den mindestens einen Beschleuniger, auf die mindestens eine Zentraleinheit, auf den Beschleunigerspeicher und auf den CPU-Speicher beziehen.
  3. Verfahren nach Anspruch 1, wobei der Hyperparameter-Optimierungsressourcenzuordner als Reaktion auf das Feststellen, dass die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde, virtuelle Beschleuniger innerhalb des mindestens einen Beschleunigers erzeugt und verwaltet.
  4. Verfahren nach Anspruch 1, wobei der Hyperparameter-Optimierungsressourcenzuordner eine Trainingssteuereinheit verwendet, um das Durchführen der Anzahl von parallelen Experimenten auf dem Cluster zu starten.
  5. Verfahren nach Anspruch 2, wobei der Hyperparameter-Optimierungsressourcenzuordner Gleitkommaoperationen pro Sekunde des mindestens einen Beschleunigers verwaltet.
  6. Verfahren nach Anspruch 1, bei dem als Reaktion auf das Feststellen, dass die Option zum Vorschreiben der Arbeitslast-Stapelgröße nicht ausgewählt wurde, der Hyperparameter-Optimierungsressourcenzuordner eine Stapelgröße der parallelen Experimente auf der Grundlage der erforderlichen Arbeitslast dynamisch skaliert.
  7. Verfahren nach Anspruch 1, wobei der Cluster mindestens einen Beschleuniger und mindestens eine Zentraleinheit aufweist; wobei die Tensorauslagerung ein Übertragen mindestens eines Tensors von dem mindestens einen Beschleuniger zu der mindestens einen Zentraleinheit aufweist und aufweist, dass die mindestens eine Zentraleinheit den mindestens einen Tensor an den mindestens einen Beschleuniger zurückgibt; und wobei der mindestens eine Tensor mittels des mindestens einen Beschleunigers generiert wird.
  8. Computersystem zur Hyperparameteroptimierung, aufweisend: einen oder mehrere Prozessoren, einen oder mehrere durch einen Computer lesbare Speicher, ein oder mehrere durch einen Computer lesbare, physische Speichermedien und Programmanweisungen, die auf mindestens einem der einen oder der mehreren durch einen Computer lesbaren, physischen Speichermedien zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren über mindestens einen der einen oder der mehreren durch einen Computer lesbaren Speicher gespeichert sind, wobei das Computersystem in der Lage ist, ein Verfahren durchzuführen, aufweisend: Empfangen von Eingabedaten für eine Hyperparametersuche, wobei die Eingabedaten für die Hyperparametersuche eine Anzahl von parallelen Experimenten und eine Option zum Vorschreiben einer Arbeitslast-Stapelgröße für eine Hyperparametersuche aufweisen; Aufrufen eines Suchalgorithmus zum Generieren eines Satzes von Hyperparametern; Empfangen von Daten zu physischen Ressourcen bezüglich eines Clusters an einem Hyperparameter-Optimierungsressourcenzuordner; Bestimmen einer erforderlichen Arbeitslast mittels des Hyperparameter-Optimierungsressourcenzuordners, wobei der Hyperparameter-Optimierungsressourcenzuordner die empfangene Anzahl von parallelen Experimenten verwendet, um die erforderliche Arbeitslast zu bestimmen; Feststellen, mittels des Hyperparameter-Optimierungsressourcenzuordners, ob die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde; und Durchführen der Anzahl von parallelen Experimenten mittels des Clusters, um den Satz von Hyperparametern zu suchen und den Satz von Hyperparametern zu optimieren, wobei der Hyperparameter-Optimierungsressourcenzuordner den Cluster während des Durchführens gemäß den Daten zu physischen Ressourcen und der erforderlichen Arbeitslast und unter Verwendung von Tensorauslagerung verwaltet.
  9. Computersystem nach Anspruch 8, wobei der Cluster mindestens einen Beschleuniger und mindestens eine Zentraleinheit aufweist; wobei der mindestens eine Beschleuniger einen Beschleunigerspeicher aufweist; wobei die mindestens eine Zentraleinheit einen CPU-Speicher aufweist; und wobei sich die Daten zu physischen Ressourcen bezüglich des Clusters auf den mindestens einen Beschleuniger, auf die mindestens eine Zentraleinheit, auf den Beschleunigerspeicher und auf den CPU-Speicher beziehen.
  10. Computersystem nach Anspruch 8, wobei der Hyperparameter-Optimierungsressourcenzuordner als Reaktion auf das Feststellen, dass die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde, virtuelle Beschleuniger innerhalb des mindestens einen Beschleunigers erzeugt und verwaltet.
  11. Computersystem nach Anspruch 8, wobei der Hyperparameter-Optimierungsressourcenzuordner eine Trainingssteuereinheit verwendet, um das Durchführen der Anzahl von parallelen Experimenten auf dem Cluster zu starten.
  12. Computersystem nach Anspruch 9, wobei der Hyperparameter-Optimierungsressourcenzuordner Gleitkommaoperationen pro Sekunde des mindestens einen Beschleunigers verwaltet.
  13. Computersystem nach Anspruch 8, bei dem als Reaktion auf das Feststellen, dass die Option zum Vorschreiben der Arbeitslast-Stapelgröße nicht ausgewählt wurde, der Hyperparameter-Optimierungsressourcenzuordner eine Stapelgröße der parallelen Experimente in Abhängigkeit von der erforderlichen Arbeitslast dynamisch skaliert.
  14. Computersystem nach Anspruch 8, wobei der Cluster mindestens einen Beschleuniger und mindestens eine Zentraleinheit aufweist; wobei die Tensorauslagerung ein Übertragen mindestens eines Tensors von dem mindestens einen Beschleuniger zu der mindestens einen Zentraleinheit aufweist und aufweist, dass die mindestens eine Zentraleinheit den mindestens einen Tensor an den mindestens einen Beschleuniger zurückgibt; und wobei der mindestens eine Tensor mittels des mindestens einen Beschleunigers generiert wird.
  15. Computerprogrammprodukt zur Hyperparameteroptimierung, das ein durch einen Computer lesbares Speichermedium mit darauf enthaltenen Programmanweisungen aufweist, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, um den Prozessor zu veranlassen, ein Verfahren durchzuführen, das Folgendes aufweist: Empfangen von Eingabedaten für eine Hyperparametersuche, wobei die Eingabedaten für die Hyperparametersuche eine Anzahl von parallelen Experimenten und eine Option zum Vorschreiben einer Arbeitslast-Stapelgröße für eine Hyperparametersuche aufweisen; Aufrufen eines Suchalgorithmus zum Generieren eines Satzes von Hyperparametern; Empfangen von Daten zu physischen Ressourcen bezüglich eines Clusters an einem Hyperparameter-Optimierungsressourcenzuordner; Bestimmen einer erforderlichen Arbeitslast mittels des Hyperparameter-Optimierungsressourcenzuordners, wobei der Hyperparameter-Optimierungsressourcenzuordner die empfangene Anzahl von parallelen Experimenten verwendet, um die erforderliche Arbeitslast zu bestimmen; Feststellen, mittels des Hyperparameter-Optimierungsressourcenzuordners, ob die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde; und Durchführen der Anzahl von parallelen Experimenten mittels des Clusters, um den Satz von Hyperparametern zu suchen und den Satz von Hyperparametern zu optimieren, wobei der Hyperparameter-Optimierungsressourcenzuordner den Cluster während des Durchführens gemäß den Daten zu physischen Ressourcen und der erforderlichen Arbeitslast und unter Verwendung von Tensorauslagerung verwaltet.
  16. Computerprogrammprodukt nach Anspruch 15, wobei der Cluster mindestens einen Beschleuniger und mindestens eine Zentraleinheit aufweist; wobei der mindestens eine Beschleuniger einen Beschleunigerspeicher aufweist; wobei die mindestens eine Zentraleinheit einen CPU-Speicher aufweist; und wobei sich die Daten zu physischen Ressourcen bezüglich des Clusters auf den mindestens einen Beschleuniger, auf die mindestens eine Zentraleinheit, auf den Beschleunigerspeicher und auf den CPU-Speicher beziehen.
  17. Computerprogrammprodukt nach Anspruch 15, wobei der Hyperparameter-Optimierungsressourcenzuordner als Reaktion auf das Feststellen, dass die Option zum Vorschreiben der Arbeitslast-Stapelgröße ausgewählt wurde, virtuelle Beschleuniger innerhalb des mindestens einen Beschleunigers erzeugt und verwaltet.
  18. Computerprogrammprodukt nach Anspruch 15, wobei der Hyperparameter-Optimierungsressourcenzuordner eine Trainingssteuereinheit verwendet, um das Durchführen der Anzahl von parallelen Experimenten auf dem Cluster zu starten.
  19. Computerprogrammprodukt nach Anspruch 16, wobei der Hyperparameter-Optimierungsressourcenzuordner Gleitkommaoperationen pro Sekunde des mindestens einen Beschleunigers verwaltet.
  20. Computerprogrammprodukt nach Anspruch 15, wobei als Reaktion auf das Feststellen, dass die Option zum Vorschreiben der Arbeitslast-Stapelgröße nicht ausgewählt wurde, der Hyperparameter-Optimierungsressourcenzuordner eine Stapelgröße der parallelen Experimente in Abhängigkeit von der erforderlichen Arbeitslast dynamisch skaliert.
DE112021003274.7T 2020-07-31 2021-07-28 Ressourcenzuordnung zum optimieren von hyperparametern bei umfangreichen deep-learning-arbeitslasten Pending DE112021003274T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/945,037 2020-07-31
US16/945,037 US11409564B2 (en) 2020-07-31 2020-07-31 Resource allocation for tuning hyperparameters of large-scale deep learning workloads
PCT/CN2021/108944 WO2022022571A1 (en) 2020-07-31 2021-07-28 Resource allocation for tuning hyperparameters of large-scale deep learning workloads

Publications (1)

Publication Number Publication Date
DE112021003274T5 true DE112021003274T5 (de) 2023-06-01

Family

ID=80002939

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021003274.7T Pending DE112021003274T5 (de) 2020-07-31 2021-07-28 Ressourcenzuordnung zum optimieren von hyperparametern bei umfangreichen deep-learning-arbeitslasten

Country Status (6)

Country Link
US (1) US11409564B2 (de)
JP (1) JP2023535669A (de)
CN (1) CN116261718A (de)
DE (1) DE112021003274T5 (de)
GB (1) GB2612271A (de)
WO (1) WO2022022571A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11609794B2 (en) * 2020-11-10 2023-03-21 Oracle International Corporation Techniques for modifying cluster computing environments
CN114820279B (zh) * 2022-05-18 2023-03-24 北京百度网讯科技有限公司 基于多gpu的分布式深度学习方法、装置及电子设备
US20240231927A1 (en) * 2023-01-10 2024-07-11 Microsoft Technology Licensing, Llc Proactive resource provisioning in large-scale cloud service with intelligent pooling

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275719B2 (en) 2015-01-29 2019-04-30 Qualcomm Incorporated Hyper-parameter selection for deep convolutional networks
CN105744006A (zh) 2016-05-10 2016-07-06 中国民航大学 一种面向多类型服务的粒子群优化用户请求调度方法
US10360517B2 (en) 2017-02-22 2019-07-23 Sas Institute Inc. Distributed hyperparameter tuning system for machine learning
US12026612B2 (en) 2017-06-02 2024-07-02 Google Llc Optimization of parameter values for machine-learned models
US11120368B2 (en) 2017-09-27 2021-09-14 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
US20190122141A1 (en) 2017-10-23 2019-04-25 Microsoft Technology Licensing, Llc Fast hyperparameter search for machine-learning program
KR102107378B1 (ko) 2017-10-31 2020-05-07 삼성에스디에스 주식회사 하이퍼파라미터 자동 최적화 방법 및 그 장치
US20190236487A1 (en) 2018-01-30 2019-08-01 Microsoft Technology Licensing, Llc Machine learning hyperparameter tuning tool
KR102605220B1 (ko) 2018-04-11 2023-11-23 삼성에스디에스 주식회사 하이퍼파라미터의 최적화 시스템 및 방법
US11443228B2 (en) 2018-06-21 2022-09-13 International Business Machines Corporation Job merging for machine and deep learning hyperparameter tuning
CN110795228B (zh) * 2018-08-03 2023-08-25 伊姆西Ip控股有限责任公司 用于训练深度学习模型的方法和制品、以及计算系统
US20200097847A1 (en) * 2018-09-21 2020-03-26 Gloudera, lnc. Hyperparameter tuning using visual analytics in a data science platform
US11354579B2 (en) * 2019-07-15 2022-06-07 Microsoft Technology Licensing, Llc Dynamic multi-layer execution for artificial intelligence modeling

Also Published As

Publication number Publication date
US20220035672A1 (en) 2022-02-03
US11409564B2 (en) 2022-08-09
CN116261718A (zh) 2023-06-13
GB202302592D0 (en) 2023-04-12
JP2023535669A (ja) 2023-08-21
GB2612271A (en) 2023-04-26
WO2022022571A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
DE102012216029B4 (de) Ein skalierbares anpassungsfähiges map-reduce-rahmenwerk mit verteilten daten
DE112018002984T5 (de) Konformitätsbewusste Laufzeiterzeugung auf Grundlage von Anwendungsmustern und Risikobeurteilung
DE112021003274T5 (de) Ressourcenzuordnung zum optimieren von hyperparametern bei umfangreichen deep-learning-arbeitslasten
DE112020005323B4 (de) Elastische ausführung von machine-learning-arbeitslasten unter verwendung einer anwendungsbasierten profilierung
DE112016003355T5 (de) Sicherer Einsatz einer Anwendung über Einsatzorte hinweg
DE102016205297A1 (de) Festlegen von speicherebenen zum platzieren von datensätzen während des ausführens von aufgaben in einem arbeitsablauf
DE102020104637A1 (de) Techniken zur effizienten partitionierung von speicher
DE112012004336T5 (de) System, Verfahren und Programmprodukt für kostenbewusste Auswahl von Vorlagen zum Bereitstellen von gemeinsam genutzten Ressourcen
DE112020005095T5 (de) Automatische trennung und extraktion von tabellendaten unter verwendung von maschinellem lernen
DE112020003825T5 (de) Entsprechung zwischen externen Operationen und Containern sowie Mutationsereignissen
DE112020006449T5 (de) Verteilen von arbeitslasten bei berechnungen auf der grundlage einer berechneten berechnungsschwerkraft innerhalb unterschiedlicher datenverarbeitungsparadigmen
DE102021127254A1 (de) Inhaltssensitives Auswählen von Knoten zum Erstellen von Containern
DE112020005789T5 (de) Hierarchische partitionierung von operatoren
DE112021000390T5 (de) Anpassen der leistung eines datenverarbeitungssystems
DE102021130359A1 (de) Ressourcenzuordnung auf der grundlage eines kontextbezogenen szenarios
DE112021000810T5 (de) Optisches erkennen von zellenstrukturen unter verwendung hierarchischer neuronaler netzwerke und zellengrenzen zum strukturieren von clustern
DE102014116744B4 (de) Management von Informationstechnologieressourcen
DE112021004577T5 (de) Verwalten eines aufgabenablaufs in einer edge-datenverarbeitungsumgebung
DE112017005022T5 (de) Umladen der Bandverarbeitung auf Objektspeicher
DE112020004801T5 (de) Intelligenter datenpool
DE112021005927T5 (de) Patchen von arbeitsabläufen
DE112021004663T5 (de) Verteiltes, ressourcen berücksichtigendes training von pipelines desmaschinellen lernens
DE112019001493T5 (de) Ermitteln der abfrageerkennungsresilienz in virtuellen agentensystemen
DE102023129956A1 (de) Ressourcenvorhersage für arbeitslasten
DE112017001421T5 (de) Flexibel optimiertes Datenhandling in Systemen mit mehreren Speichern

Legal Events

Date Code Title Description
R012 Request for examination validly filed