DE202022106154U1

DE202022106154U1 - Vorrichtung zur Optimierung eines Hyperparameters für Meta-Lernen

Info

Publication number: DE202022106154U1
Application number: DE202022106154.8U
Authority: DE
Original assignee: Robert Bosch GmbH; Albert Ludwigs Universitaet Freiburg
Current assignee: Robert Bosch GmbH; Albert Ludwigs Universitaet Freiburg
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-11-14
Anticipated expiration: 2032-11-03

Abstract

Vorrichtung zur Optimierung eines Hyperparameters für Meta-Lernen, bei der ein neuronales Netzwerk über Meta-Lernen zur Klassifizierung von Eingangssignalen trainiert wird, die von einem Sensor (30) stammen, wobei die Vorrichtung ein maschinenlesbares Speichermedium umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirken, dass der Computer ein Verfahren mit folgenden Schritten ausführt:
Erhalt einer Anzahl von Erstmustern (N_init), die Datenpunkte aus früheren Trainingsaufgaben des Meta-Lernens sind, eine Anzahl von Kandidaten für jede Iteration (N_s), ein Quantil (γ) zur Aufteilung des Hauptdatensatzes (D) und ein Verhältnis von Stichproben (ε);
Einen leeren Hauptdatensatz (D) und einen leeren ersten Datensatz (D_init) initialisieren;
Durchführung einer ersten Schleife über die Anzahl der verschiedenen Meta-Lernaufgaben (T):
Die in einem aufgabenspezifischen Datensatz (D_m) enthaltenen Top-Performance-Datenpunkte der Erstmuster (N_init) zum ersten Datensatz (D_init) hinzufügen;
Den aufgabenspezifischen Datensatz (D_m) sortieren und KDEs

(p (x | D_{m}^{(l)}), p (x | D_{m}^{(g)}))

erstellen;
Durchführung einer zweiten Schleife über die Anzahl der Erstmuster N_init:
Nach dem Zufallsprinzip Datenpunkte x aus dem ersten Datensatz (D_init) auswählen und in den Hauptdatensatz (_D) übertragen;
Durchführung einer dritten Schleife bis zum Verbrauch eines bestimmten Budgets:
V. Den Hauptdatensatz (D) sortieren und

(p (x | D_{1}^{(l)}), p (x | D_{1}^{(g)}))

erstellen
VI. Ermittlung eines aufgabenspezifischen Kernels (k_t)
VII. Entweder stichprobenartig neuen Datenpunkt (x_neu) ziehen oder durch Optimierung einer Akquisitionsfunktion neuen Datenpunkt (x_neu) bestimmen, wobei die Akquisitionsfunktion (EI_fγ) wie folgt definiert ist:

E I_{ƒ} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)}) + (1 - γ) p (x, t | D^{(g)})}

VIII. Neuer Datenpunkt gemäß Schritt VII. (x_neu) zum Hauptdatensatz hinzufügen; Wählen Sie das optimale Muster aus dem Hauptdatensatz aus und verwenden dessen Wert als Hyperparameter für das Training des neuronalen Netzes.

Description

Stand der Technik
Hyperparameter-Optimierung (HPO) ist für die bessere Leistung von Deep Learning unerlässlich, und Praktiker müssen oft den Kompromiss zwischen mehreren Metriken wie Fehlerrate, Latenz, Speicheranforderungen, Robustheit und algorithmischer Fairness berücksichtigen. Aufgrund dieses Bedarfs und der hohen Rechenleistung von Deep Learning wird die Beschleunigung der Multi-Ziel (MO)-Optimierung immer wichtiger. Obwohl Meta-Lernen zur Beschleunigung von HPO umfassend untersucht wurde, sind bestehende Methoden nicht auf den MO-Baum-strukturierten Parzen-Schätzer (MO-TPE), einen einfachen, aber leistungsstarken MO-HPO-Algorithmus, anwendbar. In dieser Anwendung erweitern wir die Akquisitionsfunktion von TPE auf das Meta-Lernsetting, indem wir eine Aufgabenähnlichkeit verwenden, die durch die Überschneidung in vielversprechenden Regionen jeder Aufgabe definiert wird.
Vorteile der Erfindung
Deep Learning hat zwar verschiedene bahnbrechende Erfolge erzielt, seine Leistung hängt jedoch stark von den richtigen Einstellungen seiner Hyperparameter (HP) ab. Darüber hinaus werden in der Praxis häufig wichtige Metriken zur Optimierung der Fehlerrate wie Latenz der Inferenz, Speicheranforderungen, Robustheit und algorithmische Fairness vorgeschrieben. Die Erforschung des Pareto vor mehreren Zielen ist jedoch komplexer als die Einzelzieloptimierung, weshalb es besonders wichtig ist, die MO-Optimierung zu beschleunigen.
Um die HP-Optimierung (HPO) zu beschleunigen, wurde das Meta-Lernen aktiv untersucht, wie z. B. von J. Vanschoren. Meta-Lernen untersucht. In Automated Machine Learning, Seite 35-61. Springer, 2019. Im Kontext von HPO konzentriert sich Meta-Learning vor allem auf den Wissenstransfer von Metadaten in der Bayes'schen Optimierung (BO). Diese Methoden verwenden Meta-Informationen im Gauß-Prozess (GP)-Regression, um besser informierte Surrogate für den Zieldatensatz zu erhalten, wodurch sie auf bestehende MO-BO-Methoden wie ParEGO anwendbar sind (J. Knowles. ParEGO: Hybrid-Algorithmus mit Online-Landscape-Approximation für teure Mehrzieloptimierungsprobleme Evolutionary Computation, 10, 2006.) und SMS-EGO (W. Ponweiser, T. Wagner, D. Biermann, M. Vincze. Mehrzieloptimierung auf begrenztem Budget von Auswertungen mittels modellgestützter S-metrischer Auswahl. In International Conference on Parallel Problem Solving from Nature, 2008).
Neuere Arbeiten berichten jedoch, dass eine Variante der BO namens MO treestructured Parzen estimator (MO-TPE) (J. Bergstra, R. Bardenet, Y. Bengio, and B. Kegl. Algorithms for hyper-parameter optimization. In Advances in Neural Information Processing Systems, 2011 oder J. Bergstra, D. Yamins, and D. Cox. Making a science of model search: Hyperparameter-Optimierung in Hunderten von Dimensionen für Vision-Architekturen. In der International Conference on Machine Learning, 2013.) ist stärker als diese Methoden in teuren MO-Einstellungen. Da diese Methode Kernel Density Estimators (KDEs) anstelle von GPs verwendet, sind die bestehenden Meta-Lernverfahren nicht direkt anwendbar
Um dieses Problem anzugehen, schlagen wir eine Meta-Lernmethode für TPE mit einem neuen Aufgabenähnlichkeitsmaß vor. Unsere Methode modelliert die gemeinsame Wahrscheinlichkeitsdichtefunktion (PDF) einer HP-Konfiguration und einer Aufgabe unter der Annahme bedingter Verschiebung (z. B. K. Zhang, B. Schölkopf, K. Muandet, und Z. Wang. Domänenadaption unter Ziel- und bedingter Verschiebung. In International Conference on Machine Learning, 2013.). Da das gemeinsame PDF ein Ähnlichkeitsmaß zwischen Aufgaben erfordert, führen wir ein Ähnlichkeitsmaß für Aufgaben ein, indem wir den Schnittpunkt über der Vereinigung verwenden (was wir γ-set similarity nennen).
Weitergabe der Erfindung
In einem ersten Aspekt wird eine computerimplementierte Methode zur Optimierung eines Hyperparameters für Meta-Lernen vorgestellt. Ein neuronales Netzwerk kann dann über Meta-Learning trainiert werden, um Eingangssignale eines Sensors zu klassifizieren.
Die Methode beginnt mit einem Schritt des Empfangens einer Anzahl von Erstmustern, die Datenpunkte aus früheren Trainingsaufgaben des Meta-Lernens sind, einer Anzahl von Kandidaten für jede Iteration, einer Menge zur Aufteilung des Hauptdatensatzes und eines Verhältnisses von Stichproben.
Anschließend folgt ein Schritt der Initialisierung eines leeren Hauptdatensatzes (D) und eines leeren ersten Datensatzes (D_init).
Anschließend erfolgt die Durchführung einer ersten Schleife über die Anzahl der verschiedenen Meta-Lernaufgaben (T):

Die in einem aufgabenspezifischen Datensatz (D_m) enthaltenen Top-Performance-Datenpunkte der Erstmuster zum ersten Datensatz (D_init) hinzufügen;
Den aufgabenspezifischen Datensatz (D_m) sortieren und KDEs $p (x | D_{m}^{(l)}), p (x | D_{m}^{(g)})$
erstellen;

Durchführung einer zweiten Schleife über die Anzahl der Erstmuster N_init:

Nach dem Zufallsprinzip aus dem ersten Datensatz (D_init) auswählen und in den Hauptdatensatz (D) übertragen.

Anschließend wird eine dritte Schleife durchgeführt, bis ein bestimmtes Budget verbraucht ist:

I. Den Hauptdatensatz (D) sortieren und KDEs p (x|D₁ ^(l) , p (x|D₁ ^(g)) erstellen
II. Ermittlung eines aufgabenspezifischen Kernels (k_t)
III. Entweder stichprobenartig ziehen eines neuen Datenpunkte sx oder durch Optimierung einer Akquisitionsfunktion einen neuen Datenpunkt x bestimmen, wobei die Akquisitionsfunktion (EI_f ^γ) wie folgt definiert ist: $E I_{ƒ} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)}) + (1 - γ) p (x, t | D^{(g)})}$
IV. Den neuen Datenpunkt zum Hauptdatensatz hinzufügen. Genauer gesagt, bei der neuen Probe wird ein beobachteter Datenpunkt erzeugt, z. B. durch Verwendung der neuen Probe und Beobachtung ihrer Leistung.

Das Budget kann ein Energie- oder Zeitbudget sein.
Anschließend wird das optimale Muster aus dem Hauptdatensatz ausgewählt und dessen Wert für die Hyperparameter zum Trainieren des neuronalen Netzes verwendet.x
Bevorzugte Fortschritte des ersten Aspekts der Erfindung sind durch die abhängigen Ansprüche gegeben.
In einem zweiten Aspekt betrifft die Erfindung ein Verfahren zum:

Empfang eines Sensorsignals mit Daten eines Sensors,
- - Ermittlung eines von diesem Sensorsignal abhängigen Eingangssignals und
- - Einspeisung des Eingangssignals in den Klassifikator, um ein Ausgangssignal zu erhalten, das eine Klassifizierung des Eingangssignals charakterisiert.

Dieser Klassifikator, z. B. ein neuronales Netz, kann mit einer solchen Struktur ausgestattet sein, dass es trainiert werden kann, z. B. Fußgänger und/oder Fahrzeuge und/oder Verkehrszeichen und/oder Ampeln und/oder Fahrbahnoberflächen und/oder menschliche Gesichter und/oder medizinische Anomalien in bildgebenden Sensorbildern zu erkennen und zu unterscheiden. Alternativ kann dieser Klassifikator, z. B. ein neuronales Netzwerk, mit einer Struktur ausgestattet sein, die in der Lage ist, gesprochene Befehle in Audiosensorsignalen zu erkennen.
In einem dritten Aspekt betrifft die Erfindung eine Vorrichtung zum Ausführen der vorhergehenden Aspekte der Erfindung.
Ausführungsbeispiele der Erfindung werden anhand der folgenden Abbildungen näher erläutert. Die Abbildungen zeigen:

eine Steuerung eines mindestens teilautonomen Roboters;
eine Steuerung einer Fertigungsmaschine;
eine Steuerung eines Zutrittskontrollsystems;
ein Kontrollsystem, das ein Überwachungssystem steuert;
Steuerung eines automatisierten Personenassistenten;
ein Kontrollsystem, das ein bildgebendes System steuert.

In diesem Abschnitt erklären wir kurz die TPE-Formulierung und beschreiben dann die Formulierung der Akquisitionsfunktion (AF) für das Meta-Lernsetting. Beachte, dass unsere Methode leicht auf MO-Einstellungen erweitert werden kann. Zur Vereinfachung besprechen wir zunächst die Einstellung für einzelne Ziele und beschreiben nur, wie sie später auf die MO-Einstellung erweitert werden kann. Es wird darauf hingewiesen, dass das TPE als Klassifizierungsmodell gesehen werden kann, das vorhersagt, ob eine nächste Beobachtung gut oder schlecht ist.
In dieser Abhandlung bezeichnen wir Metadaten als $D : = {D_{m}}_{m = 1}^{T},$
wo T ∈ N ist die Anzahl der Aufgaben und D_m ist der Satz von Beobachtungen zur m-ten Aufgabe, der Größe N_m := |D_m|. Wir verwenden den Begriff einer γ-Menge, der grob gesagt die Unterebenen-Menge aller Konfigurationen x ∈ X mit (x) < ƒ^γ ist, wobei das γ Quantil von f über den Raum X ist.
TPE (siehe z. B. J. Bergstra, R. Bardenet, Y. Bengio, und B. Kegl. Algorithmen zur Optimierung von Hyperparametern. In Advances in Neural Information Processing Systems, 2011.) teilt einen Satz von Beobachtungen $D = {(x_{n}, ƒ (x_{n}))}_{n = 1}^{N}$

in D^(l) und D^(g) und bildet dann KDEsp(x|D^(l)),p(x|D^(g)). Es wird darauf hingewiesen, dass die Schreibweise hier auf dieses Dokument von Bergstra et al ausgerichtet ist.
Anschließend berechnet TPE seine Aquisitionfunktion (AF) über γp(x|D^(l))/ (γp(x|D^(l)) + (1 - γ)p(x|D^(g))). Auf die gleiche Weise wird der aufgabenabhängige AF berechnet als: $E l_{ƒ} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)}) + (1 - γ) p (x, t | D^{(g)})}$
Diese Formulierung überträgt das Wissen von gut arbeitenden Regionen und gewichtet das Wissen von ähnlichen Aufgaben mehr.
Um AF zu berechnen, müssen wir die gemeinsamen PDFs p(x, t|D^(l))
p(x, t|D^(g)) modellieren, die wir daher im nächsten Abschnitt besprechen.
Um die Ähnlichkeit k_t(t_i, t_j) zwischen Aufgaben zu messen, verwenden wir die γ-set Ähnlichkeit.
Es hat sich herausgestellt, dass $\hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) : = \frac{1 - d_{tv} (p_{i}, p_{j})}{1 + d_{tv} (p_{i}, p_{j})}$
fast sicher zur γ-SollÄhnlichkeit konvergiert, wenn wir die starke Konsistenz von $p (x | D_{m}^{(l)})$
für alle m = 2,..., T gewährleisten können, bei denen wir definieren $p_{m} : = p (x | D_{m}^{(l)}), t_{m},$
als Meta-Aufgabe für und als Soll-Aufgabe d_tv(pi,pj), damit ist die Gesamt-Variationsdistanz: $\frac{1}{2} \int_{x \in X} | p (x | D_{i}^{(l)}) - p (x | D_{j}^{(l)}) | μ (d x)$
und wird von KDE geschätzt.
Beachte, dass d_tv(p_i, p_j) über das Monte-Carlo-Sampling angenähert wird.
Dann definieren wir den Taskkernel wie folgt: $k_{t} (t_{i}, t_{j}) = {\begin{matrix} \frac{1}{T} \hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) f o r (i \neq j) \\ 1 - \frac{1}{T} \sum_{k \neq i} \hat{s} (D_{i}^{(l)}, D_{k}^{(l)}) f o r (i = j) \end{matrix}$
Wir definieren den Kernel so, dass er symmetrisch ist und die Summe über alle Aufgaben 1 ist. Mit diesem Kernel bauen wir KDEs wie folgt: $p (x, t | D') = \frac{1}{N_{a l l}^{'}} \sum_{m = 1}^{T} N_{m}^{'} k_{t} (t, t_{m}) p (x | D_{m}^{'})$
where $D' : = {[D_{m}^{'}]}_{m = 1}^{T}$
ist ein Satz von Teilmengen der Beobachtungen zur m-ten Aufgabe $D_{m}^{'} = {(x_{m, n}, ƒ_{m (x_{m, n})})}_{n = 1}^{N_{m}}, N_{a l l}^{'} = \sum_{m = 1}^{T} N_{m}^{'}$
und α_m ist ein Satz von Steuerungsparametern der Kernel-Funktion k_x für die m-te-Aufgabe. Die Vorteile dieser Formulierung sind, dass (1) die Informationen aus einer anderen Aufgabe tm nicht beeinflusst werden, wenn die Aufgabe von der Zielaufgabe t₁ abweicht, d. h. ŝ(t₁, t_m) = 0 und (2) asymptotisch mit der ursprünglichen Formulierung zusammenlaufen, da die Stichprobengröße unendlich ist, d. h. $lim_(N_{1}' \to \infty) p (x, t | D') = p (x {| D'}_{1}) .$
Pseudo-Algorithmus 1 zeigt beispielhaft, wie die Aufgabenähnlichkeit ermittelt werden kann:
Zeile 5 von Algortihm 1 kann wie folgt ermittelt werden: $d_{tv} (p_{i}, p_{j}) : = \frac{1}{2} \int_{x \in X} | p (x | D_{i}^{(l)}) - (x | D_{j}^{(l)}) | μ (d x)$
Es wird darauf hingewiesen, dass die durchschnittliche Wichtigkeit wie folgt ermittelt werden kann: $\begin{array}{l} V_{d, m} : = γ^{2} {\int_{x_{d} \in X_{d}} (\frac{p_{d} (x_{d} | D_{m}^{(l)})}{1 / μ (X_{d})} - 1)}^{2} \frac{μ (d x_{d})}{μ (X_{d})} \\ {\bar{V}}_{d} : = \frac{1}{T} \sum_{m = 1}^{T} V_{d, m} \end{array}$
Es wird darauf hingewiesen, dass Zeile 3 von Algortihm 1 wie folgt ermittelt werden kann: $p^{DR} (x | D') = \frac{1}{N} \sum_{n = 1}^{N} \prod_{d \in S} k_{d} (x_{d}, x_{d, n}) .$
Der Algorithmus 2 stellt den gesamten Pseudocode unseres meta-lernenden TPE dar, und die Farbcodierung zeigt unsere Vorschläge. Um die Näherung der Aufgabenähnlichkeit zu stabilisieren, verwenden wir die im Algorithmus 1 gezeigte Maßreduzierung und den ε-gierigen Algorithmus bei der Optimierung des AF in Zeile 15 des Algorithmus 2. Des Weiteren Wir verwenden die Warmstart-Initialisierung wie in den Zeilen 3 - 8 des Algorithmus 2. Der Warmstart beschleunigt die Optimierungen weiter.
Abschließend wird noch kurz erwähnt, wie wir unsere Methode auf MO-Einstellungen erweitern können. Da sowohl TPE als auch MO-TPE die Rangfolge unter den Beobachtungen berücksichtigen, müssen wir nur eine Sortiermethode anwenden, so dass wir Beobachtungen in zwei Teile aufteilen können, d. h. das Top-Quantil und das andere. Danach ist die frühere Diskussion auch direkt auf die MO-Einstellungen anwendbar. Es kann eine bekannte Sortiermethode nach dem Stand der Technik verwendet werden.γ
Vorzugsweise wird in der Zeile 18 von Algortihm 2 die Optimierung durch triviale Optimierung durchgeführt, z. B. durch zufälliges Stichproben einiger Werte für und Auswahl des, die die höchsten Werte für den AF liefert. Alternativ können weitergehende Optimierungsmethoden eingesetzt werden.xx
Generell kann die oben beschriebene Methode auf Meta-Lernaufgaben angewendet werden. Bevorzugt wird Meta-Lernen auf ein neuronales Netzwerk angewendet, wobei das neuronale Netzwerk zum Klassifikator trainiert werden kann, z. B. für Bild-, Audio- oder andere Sensordaten. Die obigen Beobachtungen sind dann z. B. Hyperparameterpaare des neuronalen Netzes oder Hyperparameter der für frühere Aufgaben gewählten Trainingsmethode und eine erreichte Leistung des neuronalen Netzes mit seiner entsprechenden Hyperparameter. Es wird darauf hingewiesen, dass die Beobachtungen auch mehr als einen Hyperparameter umfassen können, z. B. eine Lernrate und eine Chargengröße. Anschließend wird die oben diskutierte Methode angewendet, um optimale Hyperparameter zu bestimmen, um das neuronale Netz für eine neue (Ziel-)Aufgabe zu trainieren. Nachdem das neuronale Netz mit den optimalen Hyperparametern(en) trainiert wurde, kann das trainierte neuronale Netz wie nachfolgend beschrieben genutzt werden.
In ist eine Ausführungsform eines Aktuators mit einem Regelsystem 40 dargestellt. Aktuator und seine Umgebung werden gemeinsam als Aktuatorsystem bezeichnet. Bei vorzugsweise gleichmäßigen Abständen erfasst ein Sensor 30 einen Zustand des Aktuatorsystems. Der Sensor 30 kann aus mehreren Sensoren bestehen. Vorzugsweise ist Sensor 30 ein optischer Sensor, der Bilder der Umgebung aufnimmt. Ein Ausgangssignal S des Sensors 30 (oder, falls der Sensor 30 mehrere Sensoren umfasst, ein Ausgangssignal S für jeden der Sensoren), das den erfassten Zustand codiert, wird an die Steuerung 40 übertragen.
Dabei empfängt das Regelsystem 40 einen Strom von Sensorsignalen S. Es berechnet dann eine Reihe von Stellgliedsteuerbefehlen A in Abhängigkeit vom Strom der Sensorsignale S, die dann an die Aktoreinheit 10 übertragen werden, die die Steuerbefehle A in mechanische Bewegungen oder Änderungen physikalischer Größen umwandelt. Beispielsweise kann die Aktoreinheit 10 den Steuerbefehl A in eine elektrische, hydraulische, pneumatische, thermische, magnetische und/oder mechanische Bewegung oder Änderung umwandeln. Spezifische, aber nicht einschränkende Beispiele sind Elektromotoren, elektroaktive Polymere, Hydraulikzylinder, piezoelektrische Aktuatoren, pneumatische Aktuatoren, Servomechanismen, Elektromagnete, Schrittmotoren usw.
Die Steuerung 40 empfängt den Strom der Sensorsignale S des Sensors 30 in einer optionalen Empfangseinheit 50. Die Empfangseinheit 50 wandelt die Sensorsignale S x in Eingangssignale um. Alternativ kann bei keiner Empfangseinheit 50 jedes Sensorsignal S direkt als Eingangssignal x. Eingangssignal x, z. B. als Auszug aus dem Sensorsignal S angegeben werden. Alternativ kann das Sensorsignal S zu einem Eingangssignal verarbeitet werden x. Das Eingangssignal x umfasst Bilddaten, die einem vom Sensor 30 aufgezeichneten Bild entsprechen. Mit anderen Worten, Eingangssignal x wird gemäß Sensorsignal S bereitgestellt.
Das Eingangssignal x wird dann an einen Bildklassifikator 60 weitergeleitet, der z. B. durch ein künstliches neuronales Netz gegeben werden kann und nach dem obigen Pseudoalgorithmus 2 trainiert wurde.
Klassifikator 60 ermittelt Ausgangssignale y aus Eingangssignalen. Das Ausgangssignal besteht aus Informationen, die dem Eingangssignal einen oder mehrere Labels zuordnen. Ausgangssignale werden an eine optionale Wandlereinheit 80 übertragen, die die Ausgangssignale y in die Steuerbefehle A umwandelt. Stellgliedsteuerbefehle A werden dann an die Stellgliedeinheit 10 zur Ansteuerung der Stellgliedeinheit 10 übertragen. Alternativ können Ausgangssignale y direkt als Steuerbefehle A übernommen werden.
Stellglied 10 empfängt Stellglied-Steuerbefehle A, wird entsprechend gesteuert und führt eine den Stellgliedsteuerbefehlen A entsprechende Handlung aus. Stellglied 10 kann eine Steuerlogik umfassen, die den Stellgliedsteuerbefehl A in einen weiteren Steuerbefehl umwandelt, Mit diesem wird dann das Stellglied 10 angesteuert.
In weiteren Ausführungsbeispielen kann die Steuerung 40 den Sensor 30 umfassen. In noch weiteren Ausführungsformen kann das Regelsystem 40 alternativ oder zusätzlich das Stellglied 10 umfassen.
Die Komponente Anhand eines Ausgangs eines Navigationssystems kann dann eine geeignete Fahrspur zur Verfolgung eines gewählten Weges gewählt werden und in Abhängigkeit von einer vorhandenen Fahrspur und der Zielspur kann dann entschieden werden, ob das Fahrzeug 60 die Spur wechseln oder in der vorhandenen Fahrspur bleiben soll. Der Steuerbefehl A kann dann berechnet werden, indem z. B. ein vordefiniertes Bewegungsmuster aus einer Datenbank abgerufen wird, die der identifizierten Aktion entspricht.
Ebenso können bei der Erkennung von Verkehrszeichen oder Ampeln, abhängig von einer identifizierten Art von Verkehrszeichen oder einem identifizierten Zustand dieser Ampeln, entsprechende Einschränkungen für mögliche Bewegungsmuster des Fahrzeugs 60 aus z. B. einer Datenbank abgerufen werden, Die Komponente
Ebenso kann bei der Identifizierung von Fußgängern und/oder Fahrzeugen ein projiziertes zukünftiges Verhalten dieser Fußgänger und/oder Fahrzeuge abgeschätzt werden, und zwar basierend auf dem geschätzten zukünftigen Verhalten, Die Komponente
In noch weiteren Ausführungsbeispielen kann vorgesehen sein, dass die Steuerung 40 anstelle eines Stellglieds 10 eine Anzeige 10a steuert, wobei die Anzeige 10a den Steuerbefehl oder ähnliches anzeigen kann.
In anderen Ausführungsformen kann die Anzeige 10a eine Ausgabeschnittstelle zu einem Wiedergabegerät sein, wie z. B. einer Anzeige, einer Lichtquelle, einem Lautsprecher, einem Vibrationsmotor, usw., mit deren Hilfe ein sensorisch wahrnehmbares Ausgangssignal erzeugt werden kann, das auf Basis der vom Video-Feature-Extractor extrahierten Feature-Darstellung erzeugt werden kann. Das sensorisch wahrnehmbare Ausgangssignal kann direkt auf die extrahierten Merkmale hinweisen, aber auch ein abgeleitetes sensorisch wahrnehmbares Ausgangssignal darstellen, z. B. zur Verwendung in der Führung, Navigation oder anderen Arten der Steuerung eines computergesteuerten Systems.
Des Weiteren kann die Steuerung 40 einen Prozessor 45 (oder mehrere Prozessoren) und mindestens ein maschinenlesbares Speichermedium 46 umfassen, auf dem Anweisungen gespeichert sind, die Falls durchgeführt, Regelsystem 40 veranlassen, ein Verfahren nach einem Aspekt der Erfindung durchzuführen.
In einer bevorzugten Ausführungsform aus wird die Steuerung 40 zur Steuerung des Aktuators verwendet, bei dem es sich um einen mindestens teilautonomen Roboter handelt, z. B. ein mindestens teilautonomes Fahrzeug 100.
Sensor 30 kann aus einem oder mehreren Videosensoren und/oder einem oder mehreren Radarsensoren und/oder einem oder mehreren Ultraschallsensoren und/oder einem oder mehreren LiDAR-Sensoren und oder einem oder mehreren Positionssensoren (z. B. GPS) bestehen. Einige oder alle dieser Sensoren sind vorzugsweise, aber nicht unbedingt im Fahrzeug 100 integriert.
Alternativ oder zusätzlich Sensor 30 kann ein Informationssystem zur Bestimmung eines Zustands des Aktorsystems enthalten. Ein Beispiel für ein solches Informationssystem ist ein Wetterinformationssystem, das einen aktuellen oder zukünftigen Wetterzustand in der Umgebung 20 bestimmt.
Beispielsweise kann der Klassifikator 60 mittels Eingangssignal beispielsweise Objekte in der Nähe des mindestens teilautonomen Roboters erkennen. Ausgangssignal y kann eine Information umfassen, die charakterisiert, wo sich Objekte in der Nähe des mindestens teilautonomen Roboters befinden. Anschließend kann der Steuerbefehl A entsprechend dieser Information ermittelt werden, um z. B. Kollisionen mit den erkannten Objekten zu vermeiden.
Die vorzugsweise in das Fahrzeug 100 integrierte Stelleinheit 10 kann durch eine Bremse, ein Antriebssystem, einen Motor, einen Antriebsstrang oder eine Lenkung des Fahrzeugs 100 gegeben sein. Stellglied-Steuerbefehle A können so festgelegt werden, dass Stellglied (oder Stellglied) Einheit 10 so angesteuert wird/werden, dass Fahrzeug 100 Kollisionen mit den erkannten Objekten vermeidet. Erkannte Objekte können auch nach der vom Klassifikator 60 als wahrscheinlichsten erachteten Klassifizierung klassifiziert werden, z. B. Fußgänger oder Bäume, und Stellgliedsteuerbefehle A können je nach Klassifizierung festgelegt werden.
In weiteren Ausführungsbeispielen kann der mindestens teilweise autonome Roboter durch einen anderen mobilen Roboter gegeben werden (nicht dargestellt), der sich z. B. durch Fliegen, Schwimmen, Tauchen oder Treten bewegen kann. Der mobile Roboter kann unter anderem ein mindestens teilautonomer Rasenmäher oder ein mindestens teilautonomer Reinigungsroboter sein. In allen oben genannten Ausführungsformen kann die Stellgliedsteuerung A so festgelegt werden, dass Antriebseinheit und/oder Lenkung und/oder Bremse des mobilen Roboters so gesteuert werden, dass der mobile Roboter Kollisionen mit den identifizierten Objekten vermeiden kann.
In einer weiteren Ausführungsform kann der mindestens teilweise autonome Roboter von einem Gartenroboter (nicht dargestellt) vorgegeben werden, der mit Sensor 30, vorzugsweise einem optischen Sensor, einen Zustand der Pflanzen in der Umgebung 20 ermittelt. Stellglied 10 kann eine Düse zum Sprühen von Chemikalien sein. Abhängig von einer identifizierten Art und/oder einem identifizierten Zustand der Anlagen kann ein Stellgliedsteuerbefehl A festgelegt werden, der bewirkt, dass die Stelleinheit 10 die Anlagen mit einer geeigneten Menge geeigneter Chemikalien besprüht.
In noch weiteren Ausführungsformen kann der mindestens teilweise autonome Roboter durch ein Haushaltsgerät (nicht dargestellt) gegeben werden, wie z. B. eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder eine Spülmaschine. Sensor 30, z. B. ein optischer Sensor, kann einen Zustand eines Gegenstandes erkennen, der durch das Haushaltsgerät bearbeitet werden soll. Wenn das Haushaltsgerät beispielsweise eine Waschmaschine ist, kann der Sensor 30 einen Zustand der Wäsche in der Waschmaschine erkennen. Abhängig von einem erkannten Material der Wäsche kann dann das Stellglied-Steuersignal A ermittelt werden.
In ist eine Ausführungsform dargestellt, bei der das Steuerungssystem 40 zur Steuerung einer Fertigungsmaschine 11 verwendet wird, z. B. eines Löthalters, Durchschlagschneiders, eines Cutters oder eines Pistolenbohrers) einer Fertigungsanlage 200, z. B. als Teil einer Fertigungslinie. Die Steuerung 40 steuert eine Aktoreinheit 10 an, die wiederum die Fertigungsmaschine 11 steuert.
Sensor 30 kann durch einen optischen Sensor gegeben werden, der Eigenschaften z. B. eines gefertigten Produkts erfasst. Klassifikator 60 kann aus diesen erfassten Eigenschaften einen Zustand des gefertigten Erzeugnisses 12 bestimmen. Die Stelleinheit 10, die die Fertigungsmaschine 11 steuert, kann dann abhängig vom ermittelten Zustand des gefertigten Erzeugnisses 12 für einen nachfolgenden Fertigungsschritt des gefertigten Erzeugnisses 12 angesteuert werden. Oder es kann vorgesehen sein, dass die Aktoreinheit 10 bei der Herstellung eines späteren gefertigten Erzeugnisses 12 in Abhängigkeit vom ermittelten Zustand des gefertigten Erzeugnisses 12 angesteuert wird.
In ist eine Ausführungsform dargestellt, bei der das Regelsystem ein Zutrittskontrollsystem 300 steuert. Das Zutrittskontrollsystem kann für die physische Zutrittskontrolle ausgelegt sein, z. B. besteht es aus einer Tür 401. Sensor 30 ist so konfiguriert, dass eine Szene erkannt wird, die für die Entscheidung, ob ein Zugriff gewährt werden soll, relevant ist. Es kann sich beispielsweise um einen optischen Sensor zur Bereitstellung von Bild- oder Videodaten handeln, um das Gesicht einer Person zu erkennen. Der Klassifikator 60 kann so konfiguriert werden, dass er diese Bild- oder Videodaten interpretiert, z. B. durch Abgleich von Identitäten mit bekannten Personen, die in einer Datenbank gespeichert sind, wodurch eine Identität der Person bestimmt wird. Abhängig von der Interpretation des Klassifikators 60 kann dann das Stellgliedsteuersignal A ermittelt werden, z. B. entsprechend der ermittelten Identität. Die Komponente
In ist eine Ausführungsform dargestellt, bei der das Kontrollsystem 40 ein Überwachungssystem 400 steuert. Diese Ausführungsform ist weitgehend identisch mit der in gezeigten Ausführungsform. Daher werden nur die unterschiedlichen Aspekte detailliert beschrieben. Der Sensor 30 ist so konfiguriert, dass er eine überwachte Szene erkennt. Die Steuerung steuert nicht unbedingt ein Stellglied 10, sondern ein Display 10a. Beispielsweise kann das Machine Learning System 60 eine Klassifizierung einer Szene festlegen, z. B. ob die vom optischen Sensor 30 erkannte Szene verdächtig ist. Das Stellglied-Steuersignal A, das an die Anzeige 10a gesendet wird, kann dann z. B. so konfiguriert werden, dass die Anzeige 10a den angezeigten Inhalt in Abhängigkeit von der ermittelten Klassifizierung einstellt, z. B. um ein Objekt zu markieren, das vom maschinellen Lernsystem als verdächtig eingestuft wird 60.
In ist eine Ausführungsform dargestellt, bei der das Steuerungssystem 40 zur Steuerung eines automatisierten persönlichen Assistenten 250 verwendet wird. Sensor 30 kann ein optischer Sensor sein, z. B. zum Empfang von Videobildern einer Gestik des Benutzers 249. Alternativ kann Sensor 30 auch ein Audio-Sensor sein, z. B. zum Empfang einer Sprachsteuerung des Benutzers 249.
Die Steuerung 40 ermittelt dann die Stellgliedsteuerbefehle A zur Steuerung des automatisierten Personenassistenten 250. Die Stellgliedsteuerbefehle A werden entsprechend dem Sensorsignal S des Sensors 30 ermittelt. Sensorsignal S wird an die Steuerung 40 übertragen. Beispielsweise kann der Klassifikator 60 so konfiguriert sein, dass z. B. ein Gestenerkennungsalgorithmus zur Identifizierung einer Gestik des Benutzers 249 durchgeführt wird. Die Steuerung 40 kann dann einen Stellgliedsteuerbefehl A zur Übertragung an den automatisierten Personenassistenten 250 festlegen. Dieser überträgt dann den Stellgliedsteuerbefehl A an den automatisierten Personenassistenten 250.
Beispielsweise kann der Stellgliedsteuerbefehl A entsprechend der identifizierten Benutzergestik ermittelt werden, die vom Klassifikator 60 erkannt wird. Es kann dann Informationen enthalten, die den automatisierten persönlichen Assistenten 250 dazu veranlassen, Informationen aus einer Datenbank abzurufen und diese abgerufenen Informationen in einer für den Benutzer geeigneten Form 249 auszugeben.
In weiteren Ausführungsformen kann vorgesehen sein, dass anstelle des automatisierten persönlichen Assistenten 250 ein Haushaltsgerät (nicht dargestellt) gesteuert wird, das entsprechend der identifizierten Benutzergestik gesteuert wird. Das Haushaltsgerät kann eine Waschmaschine, ein Herd, ein Backofen, eine Mikrowelle oder ein Geschirrspüler sein.
In ist eine Ausführungsform eines Regelsystems 40 zur Steuerung eines Bildgebungssystems 500, z. B. eines MRI-Geräts, eines Röntgenbildgebungsgeräts oder eines Ultraschallbildgebungsgeräts, dargestellt. Der Sensor 30 kann beispielsweise ein bildgebender Sensor sein. Das maschinelle Lernsystem 60 kann dann eine Klassifizierung des gesamten oder eines Teils des erfassten Bildes festlegen. Stellglied-Steuersignal A kann dann gemäß dieser Klassifizierung gewählt werden, wodurch die Anzeige 10a gesteuert wird. Beispielsweise kann das maschinelle Lernsystem 60 eine Region des gefühlten Bildes als potentiell anomal interpretieren. In diesem Fall kann festgestellt werden, dass das Stellgliedsteuersignal A dazu führt, dass die Anzeige 10a die Abbildung anzeigt und den möglicherweise anomalen Bereich hervorhebt.

Claims

Vorrichtung zur Optimierung eines Hyperparameters für Meta-Lernen, bei der ein neuronales Netzwerk über Meta-Lernen zur Klassifizierung von Eingangssignalen trainiert wird, die von einem Sensor (30) stammen, wobei die Vorrichtung ein maschinenlesbares Speichermedium umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirken, dass der Computer ein Verfahren mit folgenden Schritten ausführt: Erhalt einer Anzahl von Erstmustern (N_init), die Datenpunkte aus früheren Trainingsaufgaben des Meta-Lernens sind, eine Anzahl von Kandidaten für jede Iteration (N_s), ein Quantil (γ) zur Aufteilung des Hauptdatensatzes (D) und ein Verhältnis von Stichproben (ε); Einen leeren Hauptdatensatz (D) und einen leeren ersten Datensatz (D_init) initialisieren; Durchführung einer ersten Schleife über die Anzahl der verschiedenen Meta-Lernaufgaben (T): Die in einem aufgabenspezifischen Datensatz (D_m) enthaltenen Top-Performance-Datenpunkte der Erstmuster (N_init) zum ersten Datensatz (D_init) hinzufügen; Den aufgabenspezifischen Datensatz (D_m) sortieren und KDEs $(p (x | D_{m}^{(l)}), p (x | D_{m}^{(g)}))$
erstellen; Durchführung einer zweiten Schleife über die Anzahl der Erstmuster N_init: Nach dem Zufallsprinzip Datenpunkte x aus dem ersten Datensatz (D_init) auswählen und in den Hauptdatensatz (_D) übertragen; Durchführung einer dritten Schleife bis zum Verbrauch eines bestimmten Budgets: V. Den Hauptdatensatz (D) sortieren und $(p (x | D_{1}^{(l)}), p (x | D_{1}^{(g)}))$
erstellen VI. Ermittlung eines aufgabenspezifischen Kernels (k_t) VII. Entweder stichprobenartig neuen Datenpunkt (x_neu) ziehen oder durch Optimierung einer Akquisitionsfunktion neuen Datenpunkt (x_neu) bestimmen, wobei die Akquisitionsfunktion (EI_fγ) wie folgt definiert ist: $E I_{ƒ} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)}) + (1 - γ) p (x, t | D^{(g)})}$
VIII. Neuer Datenpunkt gemäß Schritt VII. (x_neu) zum Hauptdatensatz hinzufügen; Wählen Sie das optimale Muster aus dem Hauptdatensatz aus und verwenden dessen Wert als Hyperparameter für das Training des neuronalen Netzes.
Vorrichtung nach Anspruch 1, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass das neuronale Netz mit dem ausgewählten optimalen Hyperparameter trainiert wird.
Vorrichtung nach Anspruch 1 oder 2, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass die KDEs wie folgt ermittelt werden: $p (x, t | D') = \frac{1}{N_{a l l}^{'}} \sum_{m = 1}^{T} N_{m}^{'} k_{t} (t, t_{m}) p (x | D_{m}^{'}),$
wobei $D' : = {[D_{m}^{'}]}_{m = 1}^{T}$
ein Satz von Teilmengen der Beobachtungen zur m-ten Aufgabe $D_{m}^{'} = {(x_{m, n}, ƒ_{m (x_{m, n})})}_{n = 1}^{N_{m}}, N_{a l l}^{'} = \sum_{m = 1}^{T} N_{m}^{'}$
und α_m ein Satz von Steuerungsparametern der Kernfunktion k_x für die m-te Aufgabe, wobei der aufgabenspezifischen Kernels (k_t) wie folgt bestimmt wird: $k_{t} (t_{i}, t_{j}) = {\begin{matrix} \frac{1}{T} \hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) f o r (i \neq j) \\ 1 - \frac{1}{T} \sum_{k \neq i} \hat{s} (D_{i}^{(l)}, D_{k}^{(l)}) f o r (i = j) \end{matrix}$
wo $\hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) : = \frac{1 - d_{tv} (p_{i}, p_{j})}{1 + d_{tv} (p_{i}, p_{j})}$
und d_tv(pi,pj) ist die Gesamtstreckenabweichung, die durch definiert wird: $\frac{1}{2} \int_{x \in X} | p (x | D_{i}^{(l)}) - p (x | D_{j}^{(l)}) | μ (d x)$
Vorrichtung nach Anspruch 3, wobei die gespeicherten Befehle derart ausgebildet sind, dass das Verfahren, das der Computer ausführt, wenn diese Befehle auf dem Computer ausgeführt werden, derart abläuft, dass d_tv(p_i, p_j) über Monte-Carlo-Probenahmen angenähert wird.
Vorrichtung nach einem der oben genannten Ansprüche, wobei der Hyperparameter mindestens einen der folgenden Hyperparameter umfasst: Chargengröße, Lernrate, Momentum, Aktivierungsfunktion, Netzwerkgewicht-Initialisierung, Dropout-Regularisierung, Anzahl der Einheiten (Neuronen) pro Schicht und Anzahl der Schichten, Epochen, Optimierungsalgorithmus und/oder Regularisierung.
Vorrichtung zur Verwendung des trainierten neuronalen Netzes nach Anspruch 2 als Klassifikator (60) zur Klassifizierung von Sensorsignalen, wobei der Klassifikator (60) mit dem Verfahren nach einem der Ansprüche 1 bis 5 trainiert wurde, wobei die Vorrichtung ein maschinenlesbares Speichermedium umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirken, dass der Computer ein Verfahren mit den folgenden Schritte ausführt: - Empfang eines Sensorsignals (S) bestehend aus Daten eines Sensors (30), - Ermittlung eines von diesem Sensorsignal (S) abhängigen Eingangssignals (x) und - Einspeisung des Eingangssignals (x) in den Klassifikator (60), um ein Ausgangssignal (y) zu erhalten, das eine Klassifizierung des Eingangssignals (x) charakterisiert.
Vorrichtung zur Verwendung des trainierten neuronalen Netzes nach Anspruch 2 als Klassifikator (60), trainiert nach einem der Ansprüche 2 bis 5 zur Bereitstellung eines Stellgliedsteuersignals (A) zur Steuerung eines Stellglieds (10), wobei die Vorrichtung ein maschinenlesbares Speichermedium umfasst, auf dem Befehle gespeichert sind, die beim Ausführen durch einen Computer bewirken, dass der Computer ein Verfahren das den Schritt ausführt: Ermittlung des Stellglied-Steuersignals (A) in Abhängigkeit des Ausgangssignals (y).
Vorrichtung nach den Ansprüchen 7, bei dem das Stellglied (10) einen mindestens teilautonomen Roboter (100) und/oder eine Fertigungsmaschine (200)) und/oder ein Zutrittskontrollsystem (300) steuert.