DE102020202392A1

DE102020202392A1 - Verfahren, Vorrichtung und Computerprogramm zum Vorhersagen einer geeigneten Konfiguration eines maschinellen Lernsystems für einen Trainingsdatensatz

Info

Publication number: DE102020202392A1
Application number: DE102020202392.1A
Authority: DE
Inventors: Frank Hutter; Arber Zela; Julien Siems; Lucas Zimmer
Original assignee: Robert Bosch GmbH; Albert Ludwigs Universitaet Freiburg
Current assignee: Robert Bosch GmbH; Albert Ludwigs Universitaet Freiburg
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-08-26

Abstract

Die Erfindung betrifft ein Verfahren (20) zum Vorhersagen einer geeigneten Konfiguration eines maschinellen Lernsystems für einen ersten Trainingsdatensatz. Das Verfahren beginnt mit einem Anlernen einer Mehrzahl von maschinellen Lernsystemen auf dem ersten Trainingsdatensatz, wobei die maschinellen Lernsystemen und/oder verwendeten Anlernverfahren unterschiedlich konfiguriert sind. Es folgt ein Erstellen eines zweiten Trainingsdatensatz D umfassend ermittelte Leistungsfähigkeiten der angelernten maschinellen Lernsysteme und jeweils zugeordneten Konfiguration der jeweiligen maschinellen Lernsystemen und/oder Anlernverfahren. Daraufhin folgt ein Anlernen eines Graph Isomorphism Network (GIN, 12) abhängig von dem zweiten Trainingsdatensatz D und ein Vorhersagen jeweils der Performance einer Mehrzahl von, insbesondere für das Anlernen nicht-verwendeten, Konfigurationen mittels des GIN. Die Erfindung betrifft ferner ein Computerprogramm und eine Vorrichtung zum Ausführen des Verfahrens und ein maschinenlesbares Speicherelement, auf dem das Computerprogramm gespeichert ist.

Description

Technisches Gebiet
Die Erfindung betrifft ein Verfahren zum Vorhersagen einer geeigneten Konfiguration eines maschinellen Lernsystems und/oder eines Anlernverfahrens für einen Trainingsdatensatz mittels eines graphischen neuronalen Netzes. Ebenso betrifft die Erfindung eine Vorrichtung und ein Computerprogramm, die jeweils eingerichtet sind, das Verfahren auszuführen.
Stand der Technik
Die nicht-vorveröffentlichte DE 10 2019 207 911.3 offenbart ein Verfahren zur Vorhersage einer Lernkurve eines iterativen Anlernverfahrens für maschinelle Lernsysteme.
Vorteile der Erfindung
Vor dem eigentlichen Anlernen eines maschinellen Lernsystems muss eine geeignete Konfiguration, idealerweise eine optimale Konfiguration, des maschinellen Lernsystems gewählt werden, sodass das maschinelle Lernsystem eine bestmögliche Performance sowohl auf den Trainingsdaten als auch auf den Test- bzw. Validierungsdaten erzielt. Es ist jedoch äußerst aufwendig eine derart geeignete Konfiguration vorab zu finden, da der Suchraum (engl. search space) hierfür extrem viele, unterschiedliche Kombinationen (bis zu 10²³) bieten kann, die mittels Standardoptimierungsverfahren, insbesondere aufgrund diskreter Eigenschaften des Suchraumes, nicht innerhalb einer absehbaren Zeit auffindbar ist.
Ziel der Erfindung ist es, mit geringem Aufwand die optimale Konfiguration zu finden, ausgehend von welcher dann ein maschinelles Lernsystem initialisiert und angelernt werden kann. Dies hat den Vorteil, dass die damit aufgefundenen und angelernten maschinellen Lernsysteme, die beispielsweise dann als Klassifikator verwendet werden können, besonders gut auf die Trainingsdaten angepasst werden können und schlussendlich besonders leistungsfähig sind.
Mit dem vorgeschlagenen Verfahren ist es erstmals möglich, einen Suchraum handhaben zu können, welcher mind. 10¹⁸ mal größer ist, als alle bisherig verwendeten Suchräume. Damit wird es auch erstmals möglich, einen vereinten Suchraum zu handhaben, welcher sowohl alle Architektur- als auch Hyperparameter (engl. joint architectur and hyperparamter space) enthält. Wodurch es möglich wird, noch überlegenere Konfigurationen zu finden, da die beiden genannten Parametertypen voneinander abhängig sein können.
Offenbarung der Erfindung
In einem ersten Aspekt der Erfindung wird ein Verfahren zum Vorhersagen einer geeigneten Konfiguration eines maschinellen Lernsystems für einen ersten Trainingsdatensatz vorgeschlagen. Unter einer Konfiguration können Architekturparameter des maschinellen Lernsystems und/oder Hyperparameter eines Anlernverfahrens für das maschinelle Lernsystem verstanden werden. Die Architekturparameter sind Parameter, welche einen Aufbau oder eine Struktur des maschinellen Lernsystems charakterisieren, bspw. eine Anzahl von Schichten. Hyperparameter sind Parameter, die ein Anlernverfahren, insbesondere Optimierungsverfahren, zum Anlernen des maschinellen Lernsystems charakterisieren. Ein Hyperparameter kann z.B. eine Lernrate sein. Das maschinelle Lernsystem kann ein künstliches neuronales Netz sein. Alternativ kann das maschinelle Lernsystem ein DARTS Zellen-Modell des künstlichen neuronalen Netzes sein.
Unter einer geeigneten Konfiguration kann verstanden werden, dass das maschinelle Lernsystem, welches mit dieser Konfiguration konfiguriert wurde, die Informationen in dem Trainingsdatensatz möglichst umfassend und vorzugsweise bei einer möglichst einfachen Architektur repräsentieren kann und/oder dass ein Anlernverfahren mit dieser Konfiguration ein gutes Konvergenzverhalten für den Trainingsdatensatz aufweist.
Das vorgeschlagene Verfahren umfasst folgende Schritte, die auf einer programmierbaren Datenverarbeitungsanlage, wie einem Computer, ausgeführt werden. Das Verfahren startet mit einem Anlernen einer Mehrzahl von maschinellen Lernsystemen auf dem ersten Trainingsdatensatz, wobei die maschinellen Lernsysteme und/oder ein verwendetes Anlernverfahren unterschiedlich konfiguriert sind. Es sei angemerkt, dass das Anlernen ein vollständiges Anlernen sein kann, bei welchem die maschinellen Lernsysteme solange angelernt werden, bis ein Konvergenzkriterium erfüllt ist, bspw., dass eine Steigung einer Lernkurve nicht mehr größer als ein Schwellwert ist oder die Performance oder eine Genauigkeit nicht mehr verbessert wird. Denkbar ist aber auch, dass nur teilweise angelernt wird, solange die Steigung der Lernkurve größer als ein Schwellwert ist.
Unter einem Trainingsdatensatz wird im Folgenden ein Datensatz verstanden, welcher Trainingseingangsgrößen und jeweils zugeordnete Label umfasst, wobei die Label ihre jeweils zugeordneten Trainingseingangsgrößen charakterisieren. Trainingseingangsgrößen des ersten Trainingsdatensatz können beliebige Sensordaten sein, vorzugsweise Bilder. Trainingseingangsgrößen des zweiten Trainingsdatensatz sind die Konfigurationen.
Danach folgt ein Erstellen eines zweiten Trainingsdatensatzes D umfassend ermittelte Leistungsfähigkeiten der angelernten maschinellen Lernsysteme auf dem ersten Trainingsdatensatz und jeweils zugeordnete Konfiguration der jeweiligen maschinellen Lernsysteme und/oder des Anlernverfahrens.
Unter der Leistungsfähigkeit kann eine Performance der maschinellen Lernsysteme auf dem ersten Trainingsdatensatz verstanden werden. Die Performance charakterisiert z.B. wie genau die Trainingsausgangsgrößen abhängig von den Trainingseingangsgrößen mittels der angelernten maschinellen Lernsystemen nachgebildet werden können, wie bspw. eine Training-/Test-/Validierungs-genauigkeit. Denkbar ist auch, dass die Leistungsfähigkeit eine Gesamttrainingszeit, Anzahl von Modellparameter und/oder eine Training-/Test-/Validierungs-genauigkeit einer ‚Lernkurve‘ charakterisiert. Die Lernkurve beschreibt einen zeitlichen Trainingsverlauf, bei welchem die Performance des maschinellen Lernsystems auf einer Achse entlang einer aufgewendeten Zeit für das Anlernen aufgezeichnet wird.
Danach folgt ein Anlernen eines Graph Isomorphism Network (GIN) abhängig von dem zweiten Trainingsdatensatz D, sodass das GIN abhängig von den Konfigurationen die zugehörige Performance ermittelt. Das GIN wird in der Veröffentlichung der Autoren XU et al „How Powerful are Graph Neural Networks?" in International Conference on Learning Representations, 2019 https://openreview.net/forum?id=ryGs6if/5Km offenbart.
Danach folgt ein Vorhersagen der Performance einer Mehrzahl von, insbesondere für das Anlernen nicht-verwendeten, Konfigurationen mittels des GIN. Danach folgt ein Auswählen derjenigen vorhergesagten Konfiguration, für welche die beste Performance vorhergesagt wurde.
Es wird vorgeschlagen, dass abhängig von der ausgewählten Konfiguration ein neues maschinelles Lernsystem initialisiert wird, welches dann auf dem ersten und/oder einem weiteren Datensatz optimiert wird.
Experimente haben gezeigt, dass mittels des vorgeschlagenen Verfahrens eine sehr hohe Korrelation zwischen Test- und Validierungs-fehler erreicht wird (Spearman corr. coeff. 0.995). D.h. das GIN ist in der Lage eine gute Generalisierung zu erreichen. Das gleiche gilt auch für den Trainings- und Validierungs-fehler. Dies ermöglicht eine qualitativ hochwertige Vorhersage des GIN unter Verwendung von relativ wenigen Trainingsdaten. Folglich kann der Suchraum sehr stichproben-effizient (engl. sample efficient) erkundet und anschließend besonders präzise vorhergesagt werden.
Der Vorteil der gezielten Verwendung von GIN ist, dass Vergleichsexperimente mit anderen Modellen gezeigt haben, dass gerade GIN besonders gut die Zusammenhänge der Konfigurationen und der Performance des maschinellen Lernsystems mit der jeweiligen Konfiguration lernen und auch vorhersagen kann. Dadurch wird eine besonders gute Interpolations- und Extrapolations-eigenschaft erzielt. Dies erklärt den eben genannten Vorteil der guten Generalisierung bei wenigen Trainingsdaten.
Weiterhin wird vorgeschlagen, dass die Konfigurationen zumindest einen Parameter umfassen, der eine Struktur des maschinellen Lernsystems charakterisiert, wobei das maschinelle Lernsystem mittels DARTS Zellen aufgebaut ist oder definiert bzw. charakterisiert wird. Der Vorteil hierbei ist, dass durch diese Methode es auch möglich ist, sub-optimale Architekturen, die von DARTS nachteiliger Weise gefunden werden können, zu vermeiden. D.h. mit der vorgeschlagenen Konfiguration durch das Verfahren des ersten Aspektes der Erfindung, wird DARTS derart initialisiert, dass es robuster hinsichtlich lokaler Optima ist und nicht zu sub-optimale Architekturen konvergieren kann. DARTS ist ein Architektursuchverfahren der Autoren Liu et el. mit dem Titel „Differentiable Architecture Search“, online abrufbar:
https://arxiv.org/abs/1806.09055.
Weiterhin wird vorgeschlagen, dass die Parameter, die die Struktur des maschinellen Lernsystems für unterschiedliche DARTS Zellen, insbesondere für die Normalzelle and Reduktionszelle, charakterisieren, zu disjunkten Graphen für den zweiten Trainingsdatensatz gruppiert werden, wobei weitere Parameter der Konfigurationen, die eine vorgebbare Anzahl von gesamten gestapelten Zellen c und/oder eine vorgebbare Anzahl der Trainingsepochen e charakterisieren, für jede DARTS-Zelle des maschinellen Lernsystems zusammengefasst (engl. concatenate) werden.
Weiterhin wird vorgeschlagen, dass mittels eines sukzessiven Halbierungsverfahrens (engl. ,SuccesiveHalving') weitere Konfigurationen abhängig von einem vorgebbaren Rechenbudget ermittelt werden, bis die größten Werte einer vorgebbaren Menge von Werten von weiteren Parameter der Konfigurationen erreicht wurden. Das sukzessive Halbierungsverfahren wurde von den Autoren Jamieson et al. „A Non-stochastic best arm identification and hyperparameter optimization" In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics (AISTATS), 2016, online abrufbar https://arxiv.org/abs/1502.07943 offenbart.
Der Vorteil der Verwendung des sukzessiven Halbierungsverfahrens ist eine ausgewogene Zeitbudgetverteilung für die einfacheren und komplexeren Konfigurationen, ferner ein Fokussieren auf die tendenziell wichtigeren Regionen im Suchraum, wodurch das GIN für die relevanteren Konfigurationen genauer wird.
Weiterhin wird vorgeschlagen, dass beim Anlernen zusätzlich für die kleinesten Werte der vorgebbaren Menge der Werte zufällig mehrere unterschiedliche weitere Konfigurationen verwendet werden. Vorzugsweise sind die Werte des Wertebereichs ein Vielfaches des kleinesten Wertes (mit einem vorgebbaren Faktor multipliziert) und werden ebenfalls zum Anlernen der maschinellen Lernsystem verwendet. Der Vorteil hierbei ist eine genauere Abtastung des Suchraums und ein Abbilden von extremen Fällen der Konfigurationen.
Weiterhin wird vorgeschlagen, dass anstatt des GIN ein Differentiable Graph Pooling Network (DiffPool) oder XGBoost oder LGBoost verwendet wird. Vergleichsexperimente haben gezeigt, dass XGBoost und LGBoost den Vorteil haben, dass diese auf dem den Daten schnell lernen, aber verglichen zu GIN eine weniger gute Generalisierung erreichen. Ferner wurde herausgefunden, dass DiffPool eine gleichwertige Alternative zu GIN ist.
DiffPool wurde von den Autoren Ying et al. „Hierarchical graph representation learning with differentiable pooling." In proceedings of the 32nd International Conference on Neural Information Processing Systems, NIPS'18, pp. 4805-4815, Red Hook, NY, USA, 2018. Curran Associates Inc. https://papers.nips.cc/paper/7729-hierarchical- graph-representation-learningwith-differentiable-pooling offenbart. XGBoost wurde von den Autoren Chen et al. „XgBoost: A scalable tree boosting system“, online abrufbar https://arxiv.org/abs/1603.02754 offenbart. LGBoost wurde von den Autoren Ke et al „A highly efficient gradient boosting decision tree“, online abrufbar https:/papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf offenbart.
Das neue konfigurierte maschinelles Lernsystem, welches mit der der ausgewählten Konfiguration konfiguriert und dann auf dem ersten und/oder einem weiteren Datensatz optimiert wurde, kann in einem physikalischen/ technischen System, z.B. einem Roboter oder einem zumindest teilautonomen Fahrzeug eingesetzt werden, welches einen Aktor aufweist. Die ermittelte Ausgangsgröße des optimierten maschinellen Lernsystems kann von einer Steuereinheit verwendet werden, sodass die Steuereinheit abhängig von dieser Ausgangsgröße den Aktor steuert. Die Steuereinheit kann hierfür eine Steuergröße abhängig von der ermittelten Ausgangsgröße bestimmen und diese zum Steuern des Aktors verwenden.
Alternativ kann abhängig von der ermittelten Ausgangsgröße des optimierten maschinellen Lernsystems die Steuergröße ermittelte werden, die zum Steuern eines Aktors eines technischen Systems verwendet werden kann. Die Steuerung des Aktors kann entsprechend der Steuergröße erfolgen. Das technische System kann zum Beispiel eine zumindest teilautonome Maschine, ein zumindest teilautonomes Fahrzeug, ein Roboter, ein Werkzeug, eine Werkmaschine oder ein Flugobjekt wie eine Drohne sein. Beispielsweise so kann eine Bewegung des Roboters oder Fahrzeugs gesteuert werden oder eine Steuerung des Aktors erfolgen.
Die bereitgestellte Eingangsgröße des optimierten maschinellen Lernsystemes kann bspw. abhängig von erfassten Sensordaten ermittelt und diesem bereitgestellt werden. Die Sensordaten können von einem Sensor, wie z.B. einer Kamera, des technischen Systems erfasst oder alternativ von extern empfangen werden.
Die maschinellen Lernsystems sind vorzugsweise Klassifikatoren, welche eingerichtet sind, ihre Eingangsgröße einer Klasse aus einer Mehrzahl von Klassen zuzuordnen.
In einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen. Das Computerprogramm ist eingerichtet, eines der vorherigen genannten Verfahren auszuführen. Das Computerprogramm umfasst Anweisungen, die einen Computer veranlassen, eines dieser genannten Verfahren mit all seinen Schritten auszuführen, wenn das Computerprogramm auf dem Computer abläuft. Ferner wird ein maschinenlesbares Speichermodul vorgeschlagen, auf welchem das Computerprogramm gespeichert ist. Des Weiteren wird eine Vorrichtung vorgeschlagen, die eingerichtet ist eines der Verfahren auszuführen.
Ausführungsbeispiele der oben genannten Aspekte sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:
Figurenliste

1 eine schematische Darstellung eines maschinellen Lernsystems;
2 eine schematische Darstellung eines Flussdiagramms;
3 ein schematisches Ausführungsbeispiel zur Steuerung eines wenigstens teilautonomen Roboters;
4 ein schematisches Ausführungsbeispiel zur Steuerung eines Fertigungssystems;
5 ein schematisches Ausführungsbeispiel zur Steuerung eines Zugangssystems;
6 ein schematisches Ausführungsbeispiel zur Steuerung eines Überwachungssystems;
7 ein schematisches Ausführungsbeispiel zur Steuerung eines persönlichen Assistenten;
8 ein schematisches Ausführungsbeispiel zur Steuerung eines medizinisch bildgebenden Systems;
9 einen möglichen Aufbau einer zweiten Trainingsvorrichtung.

1 zeigt eine schematische Darstellung eines Graph Isomorphism Network (GIN) (12). Das GIN (12) erhält als Eingangsgröße Konfigurationen (11) eines maschinellen Lernsystems und/oder Konfigurationen (11) eines Anlernverfahrens, welches für das maschinelle Lernsystem zum Anlernen verwendet wird. Das GIN (12) verarbeitet diese Konfigurationen (11) zu einer Ausgangsgröße, die in diesem Ausführungsbeispiel eine Performance und/oder Runtime des maschinellen Lernsystems charakterisiert.
Ein Suchraum, welcher alle möglichen Konfigurationen (11) umfasst, soll im Folgenden näher erläutert werden. Der Suchraum Δ := A × Λ × Ξ umfasst:

• einen zell-strukturierten Architekturraum (engl. cell-structured architecture space) A, wie in DARTS verwendet, mit:
- - einer Normalzelle (engl. normal cell), die dadurch charakterisiert ist, dass sie eine räumliche Auflösung ihrer Eingangsgröße beibehält,
- - einer Reduktionszelle (engl. reduction cell), die dadurch charakterisiert ist, dass sie die räumliche Auflösung ihrer Eingangsgröße um einen vorgebbaren Faktor verringert,

• einen Trainings-Hyperparameterraum Λ, der wie zum Beispiel folgende Parameter enthält:
- - eine Lernrate η, die vorzugsweise aus einer Log-Normalverteilung LogN(0: 025; 0: 0252) gezogen wird, die zwischen 10^-4 und 1 abgeschnitten ist
- - einen Gewichtsabfall (engl. weight decay) γ, der vorzugsweise aus einer Log-Normalverteilung LogN(0: 0003; 0: 00032) gezogen wird und zwischen 3 · 10^-5 und 3 · 10^-1 abgeschnitten ist,

• ein weiteren Parameterraum Ξ, der beispielsweise folgende Parameter enthält:
- - eine vorgebbare Anzahl von Faltungskanäle ch
- - eine vorgebbare Anzahl von gesamten gestapelten Zellen c
- - eine vorgebbare Anzahl von Trainingsepochen e.

Der Begriff Konfiguration soll eine Kombination δ = (α, λ, ζ) ∈ Δ aus einer Architekturcodierung α ∈ A , zumindest einem Hyperparameter des Anlernverfahrens λ ∈ Λ und/oder zumindest einem der weiteren Parametern ζ ∈ Ξ beschreiben.
Für die Architekturcodierung α soll in diesem Ausführungsbeispiel der gleiche Architektur-Suchraum wie in DARTS (Liu et al., 2019) verwendet werden. Es sei angemerkt, dass auch andere Architektur-Suchräume verwendet werden können.
Es sei angemerkt, dass bei DARTS die Normal- und die Reduktions-zelle jeweils ein gerichteter Graph mit 2 Eingangsknoten n₀ und n₁ sind (die jeweils die Ausgangsgröße der vorhergehenden und deren vorhergehenden Zelle empfangen) sowie jeweils 4 Zwischenknoten (die jeweils elementweise Ausgangsgröße aller vorhergehenden Knoten in der Zelle hinzufügen) und einem Ausgangsknoten (die die Ausgänge aller Zwischenknoten verknüpfen) aufweisen. Es können alle Eingangs- und Zwischenknoten durch gerichtete Kanten, die mathematische Operationen darstellen, verbunden sein. Jede Kante kann eine Operationsmenge O aufweisen, die folgende Operationen umfasst:

- 3x3 Faltung,
- 5x5 Faltung,
- 3x3 erweiterte Faltung (engl. dilated convolution),
- 5x5 erweiterte Faltung,
- 3x3 max. Pooling, und
- 3x3 Mittelwert - Pooling.

Die ausgegebene Performance des GIN (12) kann eine der folgenden Metriken oder eine Kombination aus diesen Metriken sein:

- Trainings-/Validierungs-/Test-genauigkeit, und/oder
- Gesamtlaufzeit des Trainings in Sekunden, und/oder
- Anzahl der Modellparameter des maschinellen Lernsystems, und/oder
- Trainings-/Validierungs-fehler oder- genauigkeit der Lernkurve.

2 zeigt exemplarisch ein Flussdiagramm eines Verfahrens zum Vorhersagen einer geeigneten Konfiguration eines maschinellen Lernsystems unter Verwendung des GIN (12).
Das Verfahren beginnt mit Schritt S21. In diesem Schritt werden mehrere maschinelle Lernsysteme mit unterschiedlichen Konfigurationen initialisiert und anschließend auf einem ersten Trainingsdatensatz angelernt. Daraufhin wird in Schritt S21 die verwendeten Konfigurationen und jeweils zugeordneten Trainingsfortschritte oder Lernkurven zu einem zweiten Trainingsdatensatz zusammengefasst. Denkbar ist, dass zusätzlich oder alternativ zu den Trainingsfortschritten ein Verlauf einer Kostenfunktion, die zum Trainieren der jeweiligen maschinellen Lernsysteme verwendet wurde, und/oder eine Trainingszeit hinterlegt wird. Eine Lernkurve kann das Konvergenzverhalten des Anlernenverfahrens beschreiben.
Indem eine große Variation der Werte des weiteren Parameterraums Ξ zugelassen wird, kann die Trainingszeit und die erforderlichen Ressourcen für das Training für unterschiedliche Konfigurationen stark variieren. Daher wird vorzugsweise ein Gleichgewicht zwischen der Bewertung von billigen Werte des weiteren Parameterraums Ξ für mehre Architekturparameter A und der Bewertung von ,teureren' Parametern des weiteren Parameterraums Ξ mit wenigeren Architekturparametern verwendet. Dies kann wie im Folgenden vorgeschlagen durchgeführt werden.
Zur Stichprobenziehung aus dem weiteren Parameterraum Ξ wird in einem Ausführungsbeispiel vorgeschlagen, pro Dimension des weiteren Parameterraums Ξ vorzugsweise 7 diskrete Punkte auszuwählen, was zu 343 möglichen Kombinationen aus Anzahl der Trainingsepochen e, Anfangskanälen ch und gestapelten Zellen c führte. Beispielsweise kann die ,billigste' Kombination aus dem weiteren Parameterraum Ξ mit ζ_min, = (50; 8; 5) initialisiert werden.
Um von einer Kombination ζ_i aus dem weiteren Parameterraum Ξ zur nächsten Konfiguration ζ_i+1 zu gelangen, kann ein fester Multiplikationsfaktor η = (η_ch; η_c; η_e) gewählt werden. Ausgehend von ζ_min kann dann die nächste Kombination durch ζ_i+1 = round(η * ζ_i), erhalten werden, wobei * eine elementweise Multiplikation und i ∈ {0,1,2, ...,6} ist.
Um eine möglichst effizient Stichprobe zu erhalten, kann aus dem Suchraum z.B. 30.000 Konfigurationen nach dem Zufallsprinzip ausgewählt und bewertet werden.
Es kann ein sogenanntes sukzessives Halbierungsverfahrens (engl. ,SuccessiveHalving') bei der Auswählen der Konfigurationen ζ_i ausgeführt werden, indem teilweise die besten Werte der Kombination ζ_i für das nächste Berechnungsbudget verwendet werden. Dieses Vorgehen wird ausgeführt, bis die Konfiguration ζ₆ erreichet wird. Dadurch wird sichergestellt, dass die Zeit, die für die niedrigste und die höchste Kombinationen ζ_i aufgewendet wird, ungefähr gleich lang ist.
Um extreme Fälle zu untersuchen und eine bessere Abdeckung der Kombinationen zu erreichen, können weitere Konfigurationen hinzugefügt werden: eine vorgebbare Anzahl, z.B. 50, von Konfigurationen, die nach dem Zufallsprinzip ausgewählt werden, wobei zwei Parameter auf ihren niedrigsten Wert festgelegt werden und die verbleibende Parameter nur durch den entsprechenden Multiplikator variiert wurden.
Vorzugweise enthält der zweite Trainingsdatensatz D, der die Konfiguration umfasst, etwa 50.000 Datenpunkte (δ, a_v, a_t, r) mit δ ∈ Δ und a_v Validierungs-/Testgenauigkeit and r die Laufzeit der jeweiligen Konfiguration.
Im darauffolgenden Schritt S22 wird das GIN (12) unter Verwendung des zweiten Trainingsdatensatzes D angelernt, sodass das GIN (12) abhängig von einer Konfiguration eines maschinellen Lernsystems, welches diese Konfiguration aufweist und oder mit dieser Konfiguration angelernt wurde, vorhersagen kann, welche Performance das maschinelle Lernsystem erreichen kann.
Nachdem Schritt S22 abgeschlossen wurde, kann Schritt S23 folgen. In diesem Schritt wird der Suchraum Δ mit dem GIN (12) exploriert. Da das Propagieren einer Konfiguration durch das GIN (12) sehr zeiteffizient ist, kann selbst eine sehr große Anzahl von unterschiedlichen Konfigurationen durch das GIN (12) schnell exploriert werden. Bei dieser Exploration wird dann diejenige Konfiguration ausgegeben, die beispielsweise die kleinste oder größte Ausgangsgröße des GIN (12) erzeugt hat.
In Schritt S24 wird dann abhängig von der ausgewählten Konfiguration aus Schritt S23, ein maschinelles Lernsystem initialisiert, welches dann auf dem ersten Trainingsdatensatz angelernt werden kann. Denkbar ist hier, dass eine Parametrisierung eines der trainierten Netze aus Schritt S21 als eine initiale Parametrisierung dieses maschinellen Lernsystems verwendet wird.
Im darauffolgenden Schritt S25 kann das angelernte maschinelle Lernsystem aus Schritt S24 zum Beispiel in einem Steuerungssystem verwendet werden, welchem über ein Sensor Sensordaten bereitgestellt werden, wobei das Steuerungssystem abhängig von der Ausgangsgröße des angelernten maschinellen Lernsystems eine Steuergröße ermittelt. Die Steuergröße kann dann verwendet werden, um einen Aktor anzusteuern.
3 zeigt, wie das Steuerungssystem 40, welches das angelernte maschinelle Lernsystem nach Schritt S25 enthält, zur Steuerung eines wenigstens teilautonomen Roboters, hier eines wenigstens teilautonomen Kraftfahrzeugs 100, eingesetzt werden kann.
Bei dem Sensor 30 kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug 100 angeordneten Videosensor handeln.
Das angelernte maschinelle Lernsystem aus Schritt S24 kann für die nachfolgenden Ausführungsbeispiele ein künstliches neuronales Netz 60 sein. Dieses Netz (6) kann eingerichtet sein, aus den Eingangsbildern x Objekte sicher zu identifizieren.
Bei dem vorzugsweise im Kraftfahrzeug 100 angeordneten Aktor 10 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahrzeugs 100 handeln. Das Ansteuersignal A kann dann derart ermittelt werden, dass der Aktor oder die Aktoren 10 derart angesteuert wird, dass das Kraftfahrzeug 100 beispielsweise eine Kollision mit den vom künstlichen neuronalen Netz 60 sicher identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.
Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal A derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom künstlichen neuronalen Netz 60 identifizierten Objekten verhindert.
Alternativ oder zusätzlich kann mit dem Ansteuersignal A die Anzeigeeinheit 10a angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise beim einem Kraftfahrzeug 100 mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit 10a mit dem Ansteuersignal A derart angesteuert wird, dass sie ein optisches oder akustisches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug 100 droht, mit einem der sicher identifizierten Objekte zu kollidieren.
4 zeigt ein Ausführungsbeispiel, in dem das Steuerungssystem 40 zur Ansteuerung einer Fertigungsmaschine 11 eines Fertigungssystems 200 verwendet wird, indem ein diese Fertigungsmaschine 11 steuernder Aktor 10 angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren und/oder Schneiden handeln.
Bei dem Sensor 30 kann es sich dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen 12a, 12b erfasst. Es ist möglich, dass diese Fertigungserzeugnisse 12a, 12b beweglich sind. Es ist möglich, dass der die Fertigungsmaschine 11 steuernde Aktor 10 abhängig von einer Zuordnung der erfassten Fertigungserzeugnisse 12a, 12b angesteuert wird, damit die Fertigungsmaschine 11 entsprechend einen nachfolgenden Bearbeitungsschritt des richtigen der Fertigungserzeugnisses 12a, 12b ausführt. Es ist auch möglich, dass durch Identifikation der richtigen Eigenschaften desselben der Fertigungserzeugnisse 12a, 12b (d.h. ohne eine Fehlzuordnung) die Fertigungsmaschine 11 entsprechend den gleichen Fertigungsschritt für eine Bearbeitung eines nachfolgenden Fertigungserzeugnisses anpasst.
5 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Zugangssystems 300 eingesetzt wird. Das Zugangssystem 300 kann eine physische Zugangskontrolle, beispielsweise eine Tür 401 umfassen. Videosensor 30 ist eingerichtet ist, eine Person zu erfassen. Mittels des Objektidentifikationssystem 60 kann dieses erfasste Bild interpretiert werden. Sind mehrere Personen gleichzeitig erfasst, kann durch eine Zuordnung der Personen (also der Objekte) zueinander beispielweise die Identität der Personen besonders zuverlässig ermittelt werden, beispielsweise durch eine Analyse ihrer Bewegungen. Der Aktor 10 kann ein Schloss sein, dass abhängig vom Ansteuersignal A die Zugangskontrolle freigibt, oder nicht, beispielsweise die Tür 401 öffnet, oder nicht. Hierzu kann das Ansteuersignal A abhängig von der der Interpretation des Objektidentifikationssystem 60 gewählt werden, beispielsweise abhängig von der ermittelten Identität der Person. An Stelle der physischen Zugangskontrolle kann auch eine logische Zugangskontrolle vorgesehen sein.
6 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines Überwachungssystems 400 verwendet wird. Von dem in 5 dargestellten Ausführungsbeispiel unterscheidet sich dieses Ausführungsbeispiel dadurch, dass an Stelle des Aktors 10 die Anzeigeeinheit 10a vorgesehen ist, die vom Steuerungssystem 40 angesteuert wird. Beispielsweise kann vom künstlichen neuronalen Netz 60 zuverlässig eine Identität der vom Videosensor 30 aufgenommenen Gegenstände ermittelt werden, um abhängig davon z.B. darauf zu schließen, welche verdächtig werden, und das Ansteuersignal A dann derart gewählt werden, dass dieser Gegenstand von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
7 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines persönlichen Assistenten 250 eingesetzt wird. Der Sensor 30 ist bevorzugt ein optischer Sensor, der Bilder einer Geste eines Nutzers 249 empfängt.
Abhängig von den Signalen des Sensors 30 ermittelt das Steuerungssystem 40 ein Ansteuersignal A des persönlichen Assistenten 250, beispielsweise, indem das neuronale Netz eine Gestenerkennung durchführt. Dem persönlichen Assistenten 250 wird dann dieses ermittelte Ansteuersignal A übermittelt und er somit entsprechend angesteuert. Dieses ermittelte Ansteuersignal A ist kann insbesondere derart gewählt werden, dass es einer vermuteten gewünschten Ansteuerung durch den Nutzer 249 entspricht. Diese vermutete gewünschte Ansteuerung kann abhängig von der vom künstlichen neuronalen Netz 60 erkannten Geste ermittelt werden. Das Steuerungssystem 40 kann dann abhängig von der vermuteten gewünschten Ansteuerung das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten 250 wählen und/oder das Ansteuersignal A zur Übermittlung an den persönlichen Assistenten entsprechend der vermuteten gewünschten Ansteuerung 250 wählen.
Diese entsprechende Ansteuerung kann beispielsweise beinhalten, dass der persönliche Assistent 250 Informationen aus einer Datenbank abruft und sie für den Nutzer 249 rezipierbar wiedergibt.
Anstelle des persönlichen Assistenten 250 kann auch ein Haushaltsgerät (nicht abgebildet), insbesondere eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine vorgesehen sein, um entsprechend angesteuert zu werden.
8 zeigt ein Ausführungsbeispiel, bei dem das Steuerungssystem 40 zur Steuerung eines medizinischen bildgebenden System 500, beispielsweise eines MRT-, Röntgen- oder Ultraschallgeräts, verwendet wird. Der Sensor 30 kann beispielsweise durch einen bildgebenden Sensor gegeben sein, durch das Steuerungssystem 40 wird die Anzeigeeinheit 10a angesteuert. Beispielsweise kann vom neuronalen Netz 60 ermittelt werden, ob ein vom bildgebenden Sensor aufgenommener Bereich auffällig ist, und das Ansteuersignal A dann derart gewählt werden, dass dieser Bereich von der Anzeigeeinheit 10a farblich hervorgehoben dargestellt wird.
9 zeigt eine Trainingsvorrichtung 140 umfassend einen Bereitsteller 91, der aus einem Trainingsdatensatz Eingangsgrößen und zugehörige Label bereitstellt. Eingangsgrößen werden zu dem trainierenden Modul 91 zugeführt, die hieraus Ausgangsgrößen a ermittelt. Ausgangsgrößen a und zugehörigen Label werden einem Beurteiler 93 zugeführt, der hieraus über das Anlernverfahren Parameter θ' ermittelt, die dem Parameterspeicher P übermittelt werden und dort Parameter θ ersetzen, die die aktuellen Parameter des dem trainierenden Modul gehören.
Die vom Trainingsvorrichtung 141 ausgeführten Verfahren können als Computerprogramm implementiert auf einem maschinenlesbaren Speichermedium 147 hinterlegt sein und von einem Prozessor 148 ausgeführt werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102019207911 [0002]

Zitierte Nicht-Patentliteratur

„How Powerful are Graph Neural Networks?” in International Conference on Learning Representations, 2019 [0012]
„A Non-stochastic best arm identification and hyperparameter optimization” In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics (AISTATS), 2016 [0019]
„Hierarchical graph representation learning with differentiable pooling.” In proceedings of the 32nd International Conference on Neural Information Processing Systems, NIPS'18, pp. 4805-4815, Red Hook, NY, USA, 2018 [0023]

Claims

Verfahren (20) zum Vorhersagen einer geeigneten Konfiguration (11) eines maschinellen Lernsystems und/oder eines Anlernverfahrens für einen ersten Trainingsdatensatz, umfassend folgende Schritte, die auf einem Computer ausgeführt werden: Anlernen einer Mehrzahl von maschinellen Lernsystemen mit dem ersten Trainingsdatensatz, wobei die maschinellen Lernsysteme und/oder verwendeten Anlernverfahren unterschiedlich konfiguriert sind; Erstellen eines zweiten Trainingsdatensatz D umfassend ermittelte Leistungsfähigkeiten (13) der angelernten maschinellen Lernsysteme auf dem ersten Trainingsdatensatz und jeweils zugeordneten Konfigurationen; Anlernen eines Graphisomorphen Netzwerkes (engl, Graph Isomorphism Network, GIN, 12) abhängig von dem zweiten Trainingsdatensatz D, sodass das Graphisomorphe Netzwerk (12) abhängig von den Konfigurationen (11) die zugehörigen Leistungsfähigkeiten (13) ermittelt; Vorhersagen der Leistungsfähigkeit (13) für eine bereitgestellte Mehrzahl von Konfigurationen mittels Graphisomorphen Netzwerkes (12); und Auswahl derjenigen vorhergesagten Konfiguration, für welche die beste Leistungsfähigkeit (13) vorhergesagt wurde.
Verfahren nach Anspruch 1, wobei die Konfigurationen jeweils zumindest einen Parameter umfassen, der eine Struktur des maschinellen Lernsystems charakterisiert, wobei die Struktur mittels DARTS-Zellen definiert wird.
Verfahren nach Anspruch 2, wobei die Parameter, die die Struktur des maschinellen Lernsystems und unterschiedliche DARTS-Zellen, insbesondere Normalzelle and Reduktionszelle, charakterisieren, zu disjunkten Graphen für den zweiten Trainingsdatensatz gruppiert werden, wobei weitere Parameter der Konfigurationen, die eine vorgebbare Anzahl von gesamten gestapelten Zellen c und/oder eine vorgebbare Anzahl der Trainingsepochen e charakterisieren, für jede DARTS-Zelle des maschinellen Lernsystems zusammengefasst (engl. concatenate) werden.
Verfahren nach Anspruch 3, wobei jeweils eine vorgebbare Menge von Werten für unterschiedliche Ausprägungen der weiteren Parameter der Konfigurationen, bereitgestellt werden, wobei die maschinellen Lernsysteme zuerst mit Konfigurationen umfassend die weiteren Parametern beginnend bei den jeweils kleinsten Werten aus der vorgebbaren Menge von Werten angelernt werden, wobei weitere Konfigurationen dann abhängig von einem vorgebbaren Rechenbudget (engl. computational budget) aus der vorgebbaren Menge von Werten ausgewählt werden und die maschinellen Lernsysteme mit diesen Konfigurationen abhängig von dem Rechenbudget angelernt werden.
Verfahren nach Anspruch 4, wobei mittels eines sukzessiven Halbierungsverfahrens (engl. SuccesiveHalving) weitere Konfigurationen abhängig von dem vorgebbaren Rechenbudget ermittelt werden, bis die größten Werte der vorgebbaren Menge von Werten der weiteren Parameter erreicht wird.
Verfahren nach Anspruch 4 oder 5, wobei beim Anlernen zusätzlich für ausgewählte, kleineste Werte der vorgebbaren Menge der Werte zufällig mehrere unterschiedliche weitere Konfigurationen verwendet werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei abhängig von einer der ausgewählten Konfiguration ein weiteres maschinelle Lernsystem initialisiert wird, wobei das weiter maschinelle Lernsystem angelernt wird und wobei das angelernte, weitere maschinelle Lernsystem zum Ermitteln einer Steuergröße für einen Aktor verwendet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei anstatt des Graphisomorphen Netzwerkes ein Differentiable Graph Pooling Network (DiffPool) oder XGBoost oder LGBoost verwendet wird.
Computerprogramm umfassend Befehle, die beim Ausführen des Computerprogramms durch einen Computer diesen veranlassen, das Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
Maschinenlesbares Speicherelement, auf welchem das Computerprogramm nach Anspruch 9 hinterlegt ist.
Vorrichtung, welche eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.