DE102022211592A1

DE102022211592A1 - Vorrichtung und Verfahren zum Optimieren eines Hyperparameters für Metalernen

Info

Publication number: DE102022211592A1
Application number: DE102022211592.9A
Authority: DE
Inventors: Shuhei Watanabe; Noor Awad; Frank Hutter
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2024-05-02

Abstract

Ein computer-implementiertes Verfahren zur Optimierung eines Hyperparameters für Metalernen umfasst die folgenden Schritte:Initialisieren einer leeren Hauptdatenmenge (D) und einer leeren ersten Datenmenge (Dinit);Ausführen einer ersten Schleife über die Anzahl verschiedener Metalernaufgaben (T):Hinzufügen der am besten funktionierenden Datenpunkte der anfänglichen Samples Ninit, die in einer aufgabenspezifischen Datenmenge (Dm) enthalten sind, zu der ersten Datenmenge (Dinit);Sortieren der aufgabenspezifischen Datenmenge (Dm) und Aufbauen von KDEp(x|Dm(l)),p(x|Dm(g));Ausführen einer zweiten Schleife über die Anzahl anfänglicher Samples Ninit:zufälliges Entnehmen von x aus der ersten Datenmenge (Dinit) und Transferieren dieses zur Hauptdatenmenge (D);Ausführen einer dritten Schleife, bis ein gegebenes Budget aufgebraucht ist:IX. Sortieren der Hauptdatenmenge (D) und Aufbauen von KDEp(x|D1(l)),p(x|D1(g))X. Bestimmen eines aufgabespezifischen Kernels (kt)XI. Entweder zufälliges Sampeln neuer x oder Bestimmen des neuen x durch Optimieren einer Aquisitionsfunktion, wobei die Aquisitionsfunktion (Elfγ) folgendermaßen definiert ist:EIfγ[x|t,D]∝γp(x,t|D(l))γp(x,t|D(l))+(1−γ)p(x,t|D(g))XII. Hinzufügen des neuen Samples x zur Hauptdatenmenge.

Description

Stand der Technik
HPO (Hyperparameter-Optimierung) ist entscheidend für die bessere Leistungsfähigkeit des tiefen Lernens, und Praktiker müssen oft den Kompromiss zwischen mehreren Metriken, wie etwa Fehlerrate, Latenz, Speicheranforderungen, Robustheit und algorithmische Fairness, berücksichtigen. Aufgrund dieser Anforderung und der schweren Berechnung beim tiefen Lernen wird die Beschleunigung der Mehrfach-Ziel- bzw. MO-Optimierung immer wichtiger. Obwohl Metalernen extensive zum Beschleunigen von HPO untersucht wurde, sind existierende Verfahren nicht auf den MO-TPE (MO-Baum-strukturierten-Parzen-Schätzer), einen simplen, aber dennoch leistungsstarken MO-HPO-Algorithmus, anwendbar. In der vorliegenden Anmeldung wird die Aquisitionsfunktion von TPE auf die Metalern-Umgebung erweitert, unter Verwendung einer Aufgabenähnlichkeit, die durch die Überlappung in vielversprechenden Regionen jeder Aufgabe definiert ist.
Vorteile der Erfindung
Während tiefes Lernen verschiedene bahnbrechende Erfolge erzielt hat, hängt seine Leistungsfähigkeit stark von richtigen Einstellungen seiner HP (Hyperparameter) ab. Bei praktischen Anwendungen sind neben der Fehlerquote oft auch andere wichtige Parameter zu optimieren, wie etwa Latenz der Schlussfolgerung, Speicheranforderungen, Robustheit und algorithmische Fairness. Die Erkundung der Pareto-Front mehrerer Ziele ist jedoch komplexer als Einzel-Ziel-Optimierung, wodurch es besonders wichtig wird, die MO-Optimierung zu beschleunigen.
Zur Beschleunigung der HPO (HP-Optimierung) wurde Metalernen aktiv untersucht, wie z. B. in der Studie von J. Vanschoren. Meta-learning. In Automated Machine Learning, Seiten 35-61. Springer, 2019. Im Kontext der HPO konzentriert sich das Metalernen hauptsächlich auf Wissenstransfer von Metadaten bei der BO (Bayesischen Optimierung). Diese Verfahren verwenden Metainformationen bei der Gaußscher-Prozess- bzw. GP-Regression, um besser informierte Surrogate für die Zieldatenmenge zu erzielen, wodurch diese auf existierende MO-BO-Verfahren anwendbar werden, wie etwa ParEGO (J. Knowles. ParEGO: A hybrid algorithm with on-line landscape approximation for expensive multi-objective optimization problems. Evolutionary Computation, 10, 2006) und SMS-EGO (W. Ponweise, T. Wagner, D. Biermann und M. Vincze. Multi-objective optimization on a limited budget of evaluations using model-assisted S-metric selection. In International Conference on Parallel Problem Solving from Nature, 2008).
Neuere Arbeiten berichten jedoch, dass eine Variante von BO mit der Bezeichnung MO-TPE (MO-baumstrukturierter Parzen-Schätzer) (J. Bergstra, R. Bardenet, Y. Bengio und B. Kegl. Algorithms for hyper-parameter optimization. In Advances in Neural Information Processing Systems, 2011 oder J. Bergstra, D. Yamins und D. Cox. Making a science of model search: Hyperparameter optimization in hundreds of dimensions for vision architectures. In International Conference on Machine Learning, 2013.) stärker ist als die Verfahren in kostspieligen MO-Umgebungen. Da dieses Verfahren KDE (Kerneldichteschätzer) anstelle von GP verwendet, sind die existierenden Metalernverfahren nicht direkt anwendbar.
Um dieses Problem anzugehen, soll hier ein Metalernverfahren für TPE unter Verwendung eines neuen Aufgaben-Ähnlichkeitsmaßes vorgeschlagen werden. Das Verfahren modelliert die gemeinsame PDF (Wahrscheinlichkeitsdichtefunktion) einer HP-Konfiguration x und einer Aufgabe t unter der Annahme konditionaler Verschiebung (z. B. K. Zhang, B. Schölkopf, K. Muandet und Z. Wang. Domain adaptation under target and conditional shift. In International Conference on Machine Learning, 2013.). Da die gemeinsame PDF ein Ähnlichkeitsmaß zwischen Aufgaben k_t (t_i, t_j) erfordert, wird ein Aufgaben-Ähnlichkeitsmaß eingeführt, das die Schnittmenge über Vereinigung verwendet (das als γ-Mengenähnlichkeit bezeichnet werden soll).
Offenbarung der Erfindung
In einem ersten Aspekt wird ein computer-implementiertes Verfahren zum Optimieren eines Hyperparameters für Metalernen vorgestellt. Ein neuronales Netz kann dann über Metalernen zum Klassifizieren von Eingangssignalen, die von einem Sensor erhalten werden, trainiert werden.
Das Verfahren beginnt mit einem Schritt des Empfangens einer Anzahl anfänglicher Samples N_init, die beobachtete Datenpunkte aus vorherigen Trainingsaufgaben des Metalernens sind, einer Anzahl von Kandidaten für jede Iteration Ns, eines Quantils (γ) zur Aufteilung der Hauptdatenmenge D und eines Verhältnisses des Zufalls-Samplings (ε).
Dann folgt ein Schritt des Initialisierens einer leeren Hauptdatenmenge (D) und einer leeren ersten Datenmenge (D_init).
Danach wird Ausführen einer ersten Schleife über die Anzahl verschiedener Metalernaufgaben (T) ausgeführt:

Hinzufügen der am besten funktionierenden Datenpunkte der anfänglichen Samples N_init, die in einer aufgabenspezifischen Datenmenge (D_m) enthalten sind, zu der ersten Datenmenge (D_init); Sortieren der aufgabenspezifischen Datenmenge (D_m) und Aufbauen von KDE $p (x | D_{m}^{(l)}), p (x | D_{m}^{(g)});$
Ausführen einer zweiten Schleife über die Anzahl anfänglicher Samples N_init: zufälliges Entnehmen von x aus der ersten Datenmenge (D_init) und Transferieren dieses zur Hauptdatenmenge (D).

Danach wird eine dritte Schleife ausgeführt, bis ein gegebenes Budget aufgebraucht ist:

I. Sortieren der Hauptdatenmenge (D) und Aufbauen von KDE $p (x | D_{1}^{(l)}), p (x | D_{1}^{(g)})$
II. Bestimmen eines aufgabespezifischen Kernels (k_t)
III. Entweder zufälliges Sampeln des neuen Datenpunkts x oder Bestimmen des neuen Datenpunkts x durch Optimieren einer Aquisitionsfunktion, wobei die Aquisitionsfunktion (El_fγ) folgendermaßen definiert ist: $I_{ƒ} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)} + (1 - γ) p (x, t | D^{(g)}))}$
IV. Hinzufügen des neuen Datenpunkts x zur Hauptdatenmenge. Genauer gesagt wird, wenn das neue Sample x gegeben ist, ein beobachteter Datenpunkt z. B. durch Verwendung des neuen Samples und Beobachten seiner Leistungsfähigkeit erzeugt.

Das Budget kann ein Energie- oder Zeitbudget sein.
Danach wird das optimale Sample x aus der Hauptdatenmenge ausgewählt und sein Wert als der Hyperparameter zum Trainieren des neuronalen Netzes verwendet.
Bevorzugte Erweiterungen des ersten Aspekts der Erfindung werden durch die abhängigen Ansprüche gegeben.
In weiteren Aspekten der Erfindung wird in Betracht gezogen, einen trainierten Klassifizierer zu verwenden, der mit dem obigen ersten Aspekt trainiert wird, durch ein Verfahren, das die folgenden Schritte umfasst:

- Empfangen eines Sensorsignals, das Daten von einem Sensor umfasst,
- Bestimmen eines Eingangssignals, das von dem Sensorsignal abhängt, und
- Leiten des Eingangssignals in den Klassifizierer, um ein Ausgangssignal zu erhalten, das eine Klassifikation des Eingangssignals charakterisiert.

Der Klassifizierer, z. B. ein neuronales Netz, kann mit einer solchen Struktur versehen werden, dass er trainierbar ist, um z. B. Fußgänger und/oder Fahrzeuge und/oder Straßenschilder und/oder Ampeln und/oder Straßenoberflächen und/oder menschliche Gesichter und/oder medizinische Anomalien in Bildgebungssensor-Bildern zu identifizieren und zu unterscheiden. Als Alternative kann der Klassifizierer, z. B. ein neuronales Netz, mit einer solchen Struktur versehen werden, dass er trainierbar ist, um gesprochene Befehle in Audio-SensorSignalen zu identifizieren.
Solche robuste Klassifizierer können dann zur Bereitstellung eines Aktorsteuersignals zur Steuerung eines Aktors verwendet werden, mit allen Schritten des obigen Verfahrens und ferner mit dem folgenden Schritt:

- Bestimmen des Aktorsteuersignals abhängig von dem Ausgangssignal. Der Aktor steuert vorzugsweise einen mindestens teilweise autonomen Roboter und/oder eine Produktionsmaschine und/oder ein Zugangskontrollsystem.

Ausführungsformen der Erfindung werden unter Bezugnahme auf die folgenden Figuren ausführlicher beschrieben. Es zeigen:

1 ein Steuersystem, das einen mindestens teilweise autonomen Roboter steuert;
2 ein Steuersystem, das eine Produktionsmaschine steuert;
3 ein Steuersystem, dass ein Zugangskontrollsystem steuert;
4 ein Steuersystem, das ein Überwachungssystem steuert;
5 ein Steuersystem, das einen automatisierten persönlichen Assistenten steuert;
6 ein Steuersystem, das ein Bildgebungssystem steuert.

In diesem Abschnitt wird kurz die TPE-Formulierung erläutert und dann die Formulierung der AF (Akquisitionsfunktion) für die Metalernumgebung beschrieben. Man beachte, dass, da dieses Verfahren leicht auf MO-Umgebungen erweitert werden kann, der Einfachheit halber zuerst die Einzel-Ziel-Umgebung beschrieben wird und später nur beschrieben wird, wie sie auf die MO-Umgebung zu erweitern ist. Es wird angemerkt, dass die TPE als ein Klassifikationsmodell angesehen werden kann, das vorhersagt, ob eine nächste Beobachtung gut oder schlecht ist.
In der vorliegenden Arbeit werden Metadaten als $D; = {D_{m}}_{m = 1}^{T}$
bezeichnet, wobei T ∈ N die Anzahl der Aufgaben ist und D_m die Menge der Beobachtungen an der m-ten Aufgabe der Größe N_m := |D_m|. ist. Es wird das Konzept einer γ-Menge verwendet, die grob gesagt die Subniveaumenge aller Konfigurationen x ∈ X mit f(x) ≤ f^γ ist, wobei f^γ das γ-Quantil von f über den Raum X ist.
TPE (siehe z. B. J. Bergstra, R. Bardenet, Y. Bengio und B. Kegl. Algorithms for hyper-parameter optimization. In Advances in Neural Information Processing Systems, 2011.) teilt eine Menge von Beobachtungen $D = {(x_{n}, ƒ (x_{n}))}_{n = 1}^{N}$
auf dem obersten γ-Quantil zuerst in D^(l) und D^(g) auf und baut dann die KDE p(x|D^(l) und p(x|D^(g)) auf. Es wird angemerkt, dass die Notation hier an diese Schrift von Bergstra et al. angepasst ist.
TPE berechnet dann seine AF über γp(x|D^(l)/(γp(x|D^(l)) + (1 - γ)p(x|D^(g)). In gleicher Weise wird die aufgabenkonditionierte AF berechnet als: $E I_{ƒ} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)}) + (1 - γ) p (x, t | D^{(g)})}$
Diese Formulierung transferiert das Wissen gut funktionierender Regionen und gewichtet das Wissen aus ähnlichen Aufgaben höher.
Um die AF zu berechnen, muss man die gemeinsamen PDF p(x,t|D^(l)), p(x,t|D^(g)) modellieren, was im nächsten Abschnitt besprochen werden soll.
Um die Ähnlichkeit k_t (t_i, t_j) zwischen Aufgaben zu messen, wird die γ-MengenÄhnlichkeit benutzt.
Es hat sich gezeigt, dass $\hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) : = \frac{1 - d_{t v} (p_{i} p_{j})}{1 + d_{t v} (p_{i} p_{j})}$
fast sicher auf die γ-Mengen-Ähnlichkeit $s (X_{i}^{γ}, X_{j}^{γ})$
konvergiert, wenn man die starke Stimmigkeit von $p (x | D_{m}^{(l)})$
für alle m = 1,..., T garantieren kann, mit der Definition $p_{m} : = (x | D_{m}^{(l)}), t_{m}$
als Meta-Aufgabe fürm = 2,..., T und t₁ als Zielaufgabe, wobei d_tv (p_i, pj) die Gesamtvariationsdistanz $\frac{1}{2} \int_{x \in X} | p (x | D_{i}^{(l)}) - p (x | D_{j}^{(l)}) | μ (d x)$
ist und $p (x | D_{i}^{(l)})$
durch KDE geschätzt wird. Man beachte, dass d_tv (p_i, p_j) über Monte-Carlo-Sampling approximiert wird. Dann wird der Aufgabenkernel folgendermaßen definiert: $k_{t} (t_{i}, t_{j}) = {\begin{matrix} \frac{1}{T} \hat{S} (D_{i}^{(ι)}, D_{j}^{(ι)}) f ü r (i \neq j) \\ 1 - \frac{1}{T} \sum_{k \neq i} \hat{s} (D_{i}^{(ι)}, D_{j}^{(ι)}) f ü r (i = j) \end{matrix}$
Der Kernel wird so definiert, dass er symmetrisch ist und die Summierung über alle Aufgaben 1 ist. Unter Verwendung dieses Kernels werden KDE folgendermaßen aufgebaut: $p (x, t | D') = \frac{1}{N_{a l l}^{'}} \sum_{m = 1}^{T} N_{m}^{'} k_{t} (t, t_{m}) p (x | D_{m}^{'})$
wobei $D' : = {D_{m}^{'}}_{m = 1}^{T}$
eine Menge von Teilmengen der Beobachtungen an der m-ten Aufgabe $D_{m}^{'} = {(x_{m, n}, f_{m} (x_{m, n}))}_{n - 1}^{N_{m}}, N_{a l l}^{'} = \sum_{m = 1}^{T} N_{m}^{'}$
und α_m eine Menge von Steuerparametern der Kernelfunktion k_x für die m-te Aufgabe ist. Die Vorteile dieser Formulierung sind (1) nicht von den Informationen von einer anderen Aufgabe t_m beeinflusst zu werden, wenn die Aufgabe der Zielaufgabe t₁ nicht ähnlich ist, d.h. ŝ(t₁, t_m) = 0, und (2) asymptotische Konvergenz auf die ursprüngliche Formulierung, wenn die Sample-Größe nach unendlich geht, d.h. $lim_(N_{1}' \to \infty) p (x, t | D') = p (x | D'_{1}) .$
Der Pseudoalgorithmus 1 zeigt beispielhaft, wie die Aufgabenähnlichkeit zu bestimmen ist:
Zeile 5 von Algorithmus 1 kann folgendermaßen bestimmt werden: $d_{tv} (p_{i}, p_{j}) : = \frac{1}{2} \int_{x \in X} | p (x | D_{i}^{(ι)}) - (x | D_{j}^{(ι)}) | μ (d x)$
Es wird angemerkt, dass die mittlere Wichtigkeit folgendermaßen bestimmt werden kann: $V_{d, m} : = γ^{2} \int_{x_{d} \in X_{d}} {(\frac{p_{d} (x_{d} | D_{m}^{(l)})}{1 / μ (X_{d})} - 1)}^{2} \frac{μ (d x_{d})}{μ (X_{d})}$
${\bar{V}}_{d} : = \frac{1}{T} \sum_{m = 1}^{T} V_{d, m}$
Es wird angemerkt, dass Zeile 3 von Algorithmus 1 folgendermaßen bestimmt werden kann: $p^{DR} (x | D') = \frac{1}{N} \sum_{n = 1}^{N} \prod_{d \in S} k_{d} (x_{d}, x_{d, n}) .$
Algorithmus 2 zeigt den gesamten Pseudocode des vorliegenden Metalern-TPE, und die Farbcodierung zeigt die vorliegenden Vorschläge. Um die Approximation der Aufgabenähnlichkeit zu stabilisieren, wird die in Algorithmus 1 gezeigte Dimensionsreduktion und der ε-Greedy-Algorithmus bei der Optimierung der AF in Zeile 15 von Algorithmus 2 verwendet. Ferner wird die Warmstart-Initialisierung verwendet, sowie sie in den Zeilen 3-8 von Algorithmus 2 zu sehen ist. Der Warmstart beschleunigt Optimierungen weiter.
Als Letztes soll kurz erwähnt werden, wie dieses Verfahren auf MO-Umgebungen zu erweitern ist. Da sowohl TPE als auch MO-TPE die Einstufung unter Beobachtungen betrachten, muss man nur ein Sortierverfahren dergestalt verwenden, dass man Beobachtungen in zwei Teile aufteilen kann, d.h., das obere γ-Quantil und das andere. Die frühere Besprechung gilt direkt auch für MO-Umgebungen. Es können wohlbekannte Sortierverfahren des Stands der Technik verwendet werden.
Vorzugsweise wird in Zeile 18 von Algorithmus 2 die Optimierung durch triviale Optimierung ausgeführt, z. B. zufälliges Samplen einiger Werte für x und Auswählen des x, das die höchsten Werte für die AF zurückgibt. Als Alternative können fortschrittlichere Optimierungsverfahren verwendet werden.
Im Allgemeinen kann das oben beschriebene Verfahren auf Metalernaufgaben angewandt werden. Metalernen wird vorzugsweise auf ein neuronales Netz angewandt, wobei das neuronale Netz dafür trainiert werden kann, ein Klassifizierer zu sein, z. B. für Bild-, Audio- oder andere Sensordaten. Die obigen Beobachtungen sind dann z. B. Paare aus Hyperparametern des neuronalen Netzes oder Hyperparametern des Trainingsverfahrens, das für vorherige Aufgaben gewählt wurde, und einer erreichten Leistungsfähigkeit des neuronalen Netzes mit seinem entsprechenden Hyperparameter. Es wird angemerkt, dass die Beobachtungen auch mehr als einen Hyperparameter umfassen können, z. B. eine Lernrate und eine Chargengröße. Dann wird das oben besprochene Verfahren angewandt, um optimale Hyperparameter zum Trainieren des neuronalen Netzes für eine neue (Ziel-) Aufgabe zu bestimmen. Nachdem das neuronale Netz mit dem bzw. den optimalen Hyperparameter(n) trainiert wurde, kann das trainierte neuronale Netz wie im Folgenden offenbart benutzt werden.
1 zeigt eine Ausführungsform eines Aktors mit einem Steuersystem 40. Der Aktor und seine Umgebung werden zusammen als Aktorsystem bezeichnet. In vorzugsweise gleichmäßig beabstandeten Distanzen erfasst ein Sensor 30 einen Zustand des Aktorsystems. Der Sensor 30 kann mehrere Sensoren umfassen. Vorzugsweise ist der Sensor 30 ein optischer Sensor, der Bilder der Umgebung aufnimmt. Ein Ausgangssignal S des Sensors 30 (oder falls der Sensor 30 mehrere Sensoren umfasst, ein Ausgangssignal S für jeden der Sensoren), das den erfassten Zustand codiert, wird zu dem Steuersystem 40 gesendet.
Dadurch erhält Steuersystem 40 einen Strom von Sensorsignalen S. Es berechnet dann eine Reihe von Aktorsteuerbefehlen A abhängig von dem Strom von Sensorsignalen S, die dann zu der Aktoreinheit 10 gesendet werden, die die Steuerbefehle A in mechanische Bewegungen oder Änderungen von physikalischen Größen umsetzt. Zum Beispiel kann die Aktoreinheit 10 den Steuerbefehl A in eine elektrische, hydraulische, pneumatische, thermische, magnetische und/oder mechanische Bewegung oder Änderung umsetzen. Spezifische, aber nicht einschränkende Beispiele, wären Elektromotoren, elektroaktive Polymere, Hydraulikzylinder, piezoelektrische Aktoren, pneumatische Aktoren, Servomechanismen, Elektromagnete, Schrittmotoren usw.
Das Steuersystem 40 empfängt den Strom von Sensorsignalen S des Sensors 30 in einer optionalen Empfangseinheit 50. Die Empfangseinheit 50 transformiert die Sensorsignale S in Eingangssignale. Als Alternative kann, falls keine Empfangseinheit 50 vorliegt, jedes Sensorsignal S direkt als Eingangssignal genommen werden. Eingangssignal kann zum Beispiel als Auszug aus dem Sensorsignal S gegeben sein. Als Alternative kann das Sensorsignal S verarbeitet werden, um Eingangssignal zu ergeben. Eingangssignal umfasst Bilddaten entsprechend einem durch den Sensor 30 aufgezeichneten Bild. Anders ausgedrückt, wird Eingangssignal gemäß dem Sensorsignal S bereitgestellt.
Eingangssignal wird dann zu einem Bildklassifizierer 60 weitergeleitet, der zum Beispiel durch ein künstliches neuronales Netz gegeben werden kann und gemäß dem obigen Pseudoalgorithmus 2 trainiert wurde.
Der Klassifizierer 60 bestimmt Ausgangssignale y aus Eingangssignalen. Das Ausgangssignal umfasst Informationen, die dem Eingangssignal eine oder mehrere Kennzeichnungen zuweisen. Ausgangssignale werden zu einer optionalen Umsetzungseinheit 80 gesendet, die die Ausgangssignale y in die Steuerbefehle A umsetzt. Die Aktorsteuerbefehle A werden dann zu der Aktoreinheit 10 gesendet, um die Aktoreinheit 10 entsprechend zu steuern. Als Alternative können Ausgangssignale y direkt als Steuerbefehle A genommen werden.
Die Aktoreinheit 10 empfängt Aktorsteuerbefehle A, wird entsprechend gesteuert und führt eine den Aktorsteuerbefehlen A entsprechende Aktion aus. Die Aktoreinheit 10 kann eine Steuerlogik umfassen, die den Aktorsteuerbefehl A in einen weiteren Steuerbefehl transformiert, der dann zum Steuern des Aktors 10 verwendet wird.
Bei weiteren Ausführungsformen kann das Steuersystem 40 den Sensor 30 umfassen. Bei noch weiteren Ausführungsformen kann das Steuersystem 40 als Alternative oder zusätzlich den Aktor 10 umfassen.
Bei einer Ausführungsform kann der Klassifizierer 60 dafür ausgelegt sein, Spuren auf einer vorne liegenden Straße zu identifizieren, z. B. durch Klassifizieren einer Straßenoberfläche und von Markierungen auf der Straße und Identifizieren von Spuren als Flecken der Straßenoberfläche zwischen den Markierungen. Auf der Basis einer Ausgabe eines Navigationssystems kann dann eine geeignete Spur zum Befolgen eines gewählten Pfads ausgewählt werden, und abhängig von einer vorliegenden Spur und der Zielspur kann dann entschieden werden, ob das Fahrzeug 60 Spuren wechseln oder in der vorliegenden Spur bleiben soll. Der Steuerbefehl A kann dann z. B. durch Abrufen eines vordefinierten Bewegungsmusters aus einer Datenbank entsprechend der identifizierten Aktion berechnet werden.
Ähnlich können dann nach Identifizierung von Straßenschildern oder Ampeln abhängig von einer identifizierten Art von Straßenschild oder einem identifizierten Zustand der Ampel entsprechende Beschränkungen bezüglich möglicher Bewegungsmuster des Fahrzeugs 60 z. B. aus einer Datenbank abgerufen werden, ein zukünftiger Pfad des Fahrzeugs 60 gemäß den Beschränkungen kann berechnet werden, und der Aktorsteuerbefehl A kann berechnet werden, um das Fahrzeug so zu lenken, dass die Trajektorie ausgeführt wird.
Ähnlich kann nach Identifizierung von Fußgängern und/oder Fahrzeugen ein vorhergesagtes zukünftiges Verhalten der Fußgänger und/oder Fahrzeuge geschätzt werden, und auf der Basis des geschätzten zukünftigen Verhaltens kann dann eine Trajektorie so ausgewählt werden, dass Kollisionen mit dem Fußgänger und/oder dem Fahrzeug vermieden werden, und der Aktorsteuerbefehl A kann berechnet werden, um das Fahrzeug so zu lenken, dass die Trajektorie ausgeführt wird.
Bei noch weiteren Ausführungsformen kann in Betracht gezogen werden, dass das Steuersystem 40 eine Anzeige 10a anstelle eines Aktors 10 steuert, wobei die Anzeige 10a den Steuerbefehl oder dergleichen anzeigen kann.
Bei anderen Ausführungsformen kann die Anzeige 10a eine Ausgabeschnittstelle zu einer Wiedergabevorrichtung, wie etwa eine Anzeige, einer Lichtquelle, einem Lautsprecher, einem Vibrationsmotor usw. sein, mit der ein sensorisches wahrnehmbares Ausgangssignal erzeugt werden kann, das auf der Basis der durch den Videomerkmalextraktor extrahierten Merkmalrepräsentation erzeugt werden kann. Das sensorische wahrnehmbare Ausgangssignal kann direkt die extrahierten Merkmale angeben, kann aber auch ein abgeleitetes sensorisches wahrnehmbares Ausgangssignal, z. B. zur Verwendung bei der Anleitung, Navigation oder anderen Arten der Steuerung eines computergesteuerten Systems repräsentieren.
Ferner kann das Steuersystem 40 einen Prozessor 45 (oder mehrere Prozessoren) und mindestens ein maschinen-lesbares Speicherungsmedium 46 umfassen, worauf Anweisungen gespeichert werden, die, wenn sie ausgeführt werden, bewirken, dass das Steuersystem 40 ein Verfahren nach einem Aspekt der Erfindung ausführt.
Bei einer bevorzugten Ausführungsform von 1 wird das Steuersystem 40 zur Steuerung des Aktors verwendet, der ein mindestens teilweise autonomer Roboter ist, z. B. ein mindestens teilweise autonomes Fahrzeug 100.
Der Sensor 30 kann einen oder mehrere Videosensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere LiDAR-Sensoren und/oder einen oder mehrere Positionssensoren (wie z. B. GPS) umfassen. Einige oder alle dieser Sensoren werden vorzugsweise, aber nicht notwendigerweise, in das Fahrzeug 100 integriert.
Als Alternative oder zusätzlich kann der Sensor 30 ein Informationssystem zur Bestimmung eines Zustands des Aktorsystems umfassen. Ein Beispiel für ein solches Informationssystem ist ein Wetterinformationssystem, das einen derzeitigen oder zukünftigen Zustand des Wetters in der Umgebung 20 bestimmt.
Zum Beispiel kann der Klassifizierer 60 unter Verwendung von Eingangssignal Objekte in der Nähe des mindestens teilweise autonomen Roboters detektieren. Das Ausgangssignal y kann Informationen umfassen, die charakterisieren, wo sich Objekte in der Nähe des mindestens teilweise autonomen Roboters befinden. Der Steuerbefehl A kann dann gemäß diesen Informationen bestimmt werden, zum Beispiel, um Kollisionen mit den detektierten Objekten zu vermeiden.
Die Aktoreinheit 10, die vorzugsweise in das Fahrzeug 100 integriert ist, kann durch eine Bremse, ein Antriebssystem, einen Motor, einen Antriebsstrang oder eine Lenkung des Fahrzeugs 100 gegeben sein. Die Aktorsteuerbefehle A können so bestimmt werden, dass die Einheit 10 des Aktors (oder der Aktoren) so gesteuert wird/werden, dass das Fahrzeug 100 Kollisionen mit den detektierten Objekten vermeidet. Detektierte Objekte können auch danach klassifiziert werden, was der Klassifizierer 60 als am wahrscheinlichsten ansieht, z. B. Fußgänger oder Bäume, und die Aktorsteuerbefehle A können abhängig von der Klassifikation bestimmt werden.
Bei weiteren Ausführungsformen kann der mindestens teilweise autonome Roboter durch einen (nicht gezeigten) anderen mobilen Roboter gegeben sein, der sich zum Beispiel durch Fliegen, Schwimmen, Tauchen oder Schreiten bewegen kann. Der mobile Roboter kann unter anderem ein mindestens teilweise autonomer Rasenmäher oder ein mindestens teilweise autonomer Reinigungsroboter sein. Bei allen der obigen Ausführungsformen kann der Aktorsteuerbefehl A so bestimmt werden, dass Antriebseinheit und/oder Lenkung und/oder Bremse des mobilen Roboters so gesteuert werden, dass der mobile Roboter Kollisionen mit den identifizierten Objekten vermeiden kann.
Bei einer weiteren Ausführungsform kann der mindestens teilweise autonome Roboter durch einen (nicht gezeigten) Gartenroboter gegeben sein, der den Sensor 30, vorzugsweise einen optischen Sensor, zur Bestimmung eines Zustands von Pflanzen in der Umgebung 20 verwendet. Die Aktoreinheit 10 kann eine Düse zum Sprühen von chemischen Mitteln sein. Abhängig von einer identifizierten Spezies und/oder einem identifizierten Zustand der Pflanzen kann der Aktorsteuerbefehl A so bestimmt werden, dass bewirkt wird, dass die Aktoreinheit 10 die Pflanzen mit einer geeigneten Menge geeigneter chemischer Mittel besprüht.
Bei noch weiteren Ausführungsformen kann der wenigstens teilweise autonome Roboter durch ein Haushaltsgerät (nicht gezeigt), wie z. B. eine Waschmaschine, einen Herd, einen Backofen, einen Mikrowellenherd oder einen Geschirrspüler, gegeben sein. Der Sensor 30, z. B. ein optischer Sensor, kann einen Zustand eines vom Haushaltsgerät zu verarbeitenden Objekts erfassen. Handelt es sich bei dem Haushaltsgerät beispielsweise um eine Waschmaschine, kann der Sensor 30 einen Zustand der Wäsche in der Waschmaschine erfassen. Das Steuersignal kann dann in Abhängigkeit von einem erkannten Material der Wäsche bestimmt werden.
In 2 ist eine Ausführungsform gezeigt, bei der das Steuersystem 40 zum Steuern einer Fertigungsmaschine 11, z. B. Einer Lötvorrichtung, einer Stanze, eines Fräsers, einer Bohrmaschine eines Fertigungssystems 200, z. B. als Teil einer Produktionslinie, verwendet wird. Das Steuersystem 40 steuert einen Aktuator 10, der wiederum die Fertigungsmaschine 11 steuert.
Der Sensor 30 kann durch einen optischen Sensor gegeben sein, der Eigenschaften z. B. eines gefertigten Produkts 12 erfasst. Der Klassifizierer 60 kann aus diesen erfassten Eigenschaften einen Zustand des gefertigten Produkts 12 bestimmen. Die Aktoreinheit 10, die die Fertigungsmaschine 11 steuert, kann dann abhängig von dem bestimmten Zustand des gefertigten Produkts 12 für einen nachfolgenden Fertigungsschritt des gefertigten Produkts 12 gesteuert werden. Oder es kann in Betracht gezogen werden, dass die Aktoreinheit 10 während der Fertigung eines nachfolgenden gefertigten Produkts 12 abhängig von dem bestimmten Zustand des gefertigten Produkts 12 gesteuert wird.
3 zeigt eine Ausführungsform, bei der das Steuersystem ein Zugangskontrollsystem 300 steuert. Das Zugangskontrollsystem kann dafür ausgelegt sein, physisch Zugang zu kontrollieren. Es kann zum Beispiel eine Tür 401 umfassen. Der Sensor 30 ist ausgelegt zum Detektieren einer Szene, die für die Entscheidung, ob Zugang zu gewähren ist oder nicht, relevant ist. Er kann zum Beispiel ein optischer Sensor zum Bereitstellen von Bild- oder Videodaten zur Detektion des Gesichts einer Person sein. Der Klassifizierer 60 kann dafür ausgelegt sein, diese Bild- oder Videodaten z. B. durch Abgleichen von Identitäten mit bekannten in einer Datenbank gespeicherten Personen zu deuten, um dadurch eine Identität der Person zu bestimmen. Das Aktorsteuersignal A kann dann abhängig von der Deutung des Klassifizierers 60, z. B. gemäß der bestimmten Identität, bestimmt werden. Die Aktoreinheit 10 kann ein Schloss sein, das abhängig von dem Aktorsteuersignal A Zugang gewährt oder nicht. Es ist auch eine nichtphysische logische Zugangskontrolle möglich.
4 zeigt eine Ausführungsform, bei der das Steuersystem 40 ein Überwachungssystem 400 steuert. Diese Ausführungsform ist größtenteils mit der in 5 gezeigten Ausführungsform identisch. Daher werden nur die sich unterscheidenden Aspekte ausführlich beschrieben. Der Sensor 30 ist dazu ausgelegt, eine überwachte Szene zu detektieren. Das Steuersystem steuert nicht notwendigerweise einen Aktor 10, sondern eine Anzeige 10a. Beispielsweise kann das maschinelle Lernsystem 60 eine Klassifizierung einer Szene bestimmen, z. B. ob die durch den optischen Sensor 30 detektierte Szene verdächtig ist. Das Aktorsteuersignal A, das zu der Anzeige 10a übertragen wird, kann dann z. B. dazu ausgelegt sein, zu bewirken, dass die Anzeige 10a den angezeigten Inhalt in Abhängigkeit von der bestimmten Klassifizierung anpasst, um z. B. ein Objekt hervorzuheben, das durch das maschinelle Lernsystem 60 als verdächtig erachtet wird.
In 5 ist eine Ausführungsform gezeigt, in der das Steuersystem 40 verwendet wird, um einen automatisierten persönlichen Assistenten 250 zu steuern. Der Sensor 30 kann ein optischer Sensor sein, um z. B. Videobilder von Gesten eines Benutzers 249 zu empfangen. Alternativ kann der Sensor 30 auch ein Audiosensor sein, um z. B. einen Sprachbefehl des Benutzers 249 zu empfangen.
Das Steuersystem 40 bestimmt dann die Aktorsteuerbefehle A zum Steuern des automatisierten persönlichen Assistenten 250. Die Aktorsteuerbefehle A werden gemäß dem Sensorsignal S des Sensors 30 bestimmt. Das Sensorsignal S wird zu dem Steuersystem 40 übertragen. Beispielsweise kann der Klassifizierer 60 dazu ausgelegt sein, z. B. einen Gestenerkennungsalgorithmus auszuführen, um eine durch den Benutzer 249 vorgenommene Geste zu identifizieren. Das Steuersystem 40 kann dann einen Aktorsteuerbefehl A zur Übertragung zu dem automatisierten persönlichen Assistenten 250 bestimmen. Es überträgt dann den Aktorsteuerbefehl A zu dem automatisierten persönlichen Assistenten 250.
Beispielsweise kann der Aktorsteuerbefehl A gemäß der identifizierten Benutzergeste, die durch den Klassifizierer 60 erkannt wird, bestimmt werden. Er kann dann Informationen umfassen, die bewirken, dass der automatisierte persönliche Assistent 250 Informationen aus einer Datenbank abruft und diese abgerufenen Informationen in einer für den Empfang durch den Benutzer 249 geeigneten Form ausgibt.
In weiteren Ausführungsformen kann sich vorgestellt werden, dass anstelle des automatisierten persönlichen Assistenten 250 das Steuersystem 40 ein Haushaltsgerät (nicht gezeigt) steuert, das gemäß der identifizierten Benutzergeste gesteuert wird. Das Haushaltsgerät kann eine Waschmaschine, ein Herd, ein Ofen, eine Mikrowelle oder eine Spülmaschine sein.
In 6 ist eine Ausführungsform eines Steuersystems 40 zum Steuern eines Bildgebungssystems 500 gezeigt, zum Beispiel einer MRT-Einrichtung, einer Röntgenbildgebungseinrichtung oder einer Ultraschallbildgebungseinrichtung. Der Sensor 30 kann zum Beispiel ein Bildgebungssensor sein. Das maschinelle Lernsystem 60 kann dann eine Klassifizierung des gesamten oder eines Teils des erfassten Bildes bestimmen. Das Aktorsteuersignal A kann dann gemäß dieser Klassifizierung gewählt werden, wodurch die Anzeige 10a gesteuert wird. Beispielsweise kann das maschinelle Lernsystem 60 ein Gebiet des erfassten Bildes als potenziell anomal interpretieren. In diesem Fall kann das Aktorsteuersignal A bestimmt werden, um zu bewirken, dass die Anzeige 10a das Bild anzeigt und das potenziell anomale Gebiet hervorhebt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

J. Vanschoren. Meta-learning. In Automated Machine Learning, Seiten 35-61. Springer, 2019 [0003]

Claims

Computer-implementiertes Verfahren zum Optimieren eines Hyperparameters für Metalernen, wobei ein neuronales Netz über Metalernen zum Klassifizieren von Eingangssignalen, die von einem Sensor (30) erhalten werden, trainiert wird, mit den folgenden Schritten: Empfangen einer Anzahl anfänglicher Samples N_init, die beobachtete Datenpunkte aus vorherigen Trainingsaufgaben des Metalernens sind, einer Anzahl von Kandidaten für jede Iteration (N_S), eines Quantils (γ) zur Aufteilung der Hauptdatenmenge (D) und eines Verhältnisses des Zufalls-Samplings (ε); Initialisieren einer leeren Hauptdatenmenge (D) und einer leeren ersten Datenmenge (D_init); Ausführen einer ersten Schleife über die Anzahl verschiedener Metalernaufgaben (T): Hinzufügen der am besten funktionierenden Datenpunkte der anfänglichen Samples N_init, die in einer aufgabenspezifischen Datenmenge (D_m) enthalten sind, zu der ersten Datenmenge (D_init); Sortieren der aufgabenspezifischen Datenmenge (D_m) und Aufbauen von KDE $p (x | D_{m}^{(l)}), p (x | D_{m}^{(g)});$
Ausführen einer zweiten Schleife über die Anzahl anfänglicher Samples N_init: zufälliges Entnehmen von x aus der ersten Datenmenge (D_init) und Transferieren dieses zur Hauptdatenmenge (D); Ausführen einer dritten Schleife, bis ein gegebenes Budget aufgebraucht ist: V. Sortieren der Hauptdatenmenge (D) und Aufbauen von KDE $p (x | D_{1}^{(l)}), p (x | D_{1}^{(g)})$
VI. Bestimmen eines aufgabespezifischen Kernels (k_t) VII. Entweder zufälliges Sampeln des neuen Datenpunkts (x_new) oder Bestimmen des neuen Datenpunkts (x_new) durch Optimieren einer Aquisitionsfunktion, wobei die Aquisitionsfunktion (El_fγ) folgendermaßen definiert ist: $E I_{f} γ [x | t, D] \propto \frac{γ p (x, t | D^{(l)})}{γ p (x, t | D^{(l)}) + (1 - γ) p (x, t | D^{(g)})}$
VIII. Hinzufügen des neuen Datenpunkts (x_new) zur Hauptdatenmenge; Auswählen des optimalen Datenpunkts aus der Hauptdatenmenge und Bereitstellen seines Werts als Hyperparameter zum Trainieren des neuronalen Netzes.
Verfahren nach Anspruch 1, wobei das neuronale Netz mit dem ausgewählten optimalen Hyperparameter trainiert wird.
Verfahren nach Anspruch 1 oder 2, wobei die KDE folgendermaßen bestimmt werden: $p (x, t | D') = \frac{1}{N_{a l l}^{'}} \sum_{m = 1}^{T} N_{m}^{'} k_{t} (t, t_{m}) p (x | D_{m}^{'}), wobei D' : = {D_{m}^{'}}_{m = 1}^{T} eine Men-$
ge von Teilmengen der Beobachtungen an der m-ten Aufgabe $D_{m}^{'} = {(x_{m, n}, f_{m (x_{m, n})})}_{n = 1}^{N_{m}} \nabla$
ist, $N_{a l l}^{'} = \sum_{m = 1}^{T} N_{m}^{'}$
ist und α_m eine Menge von Steuerparametern für die Kernelfunktion k_x für die m-te Aufgabe ist, wobei der Aufgabenkernel k_t folgendermaßen bestimmt wird: $k_{t} (t_{i}, t_{j}) = {\begin{matrix} \frac{1}{T} \hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) f ü r (i \neq j) \\ 1 - \frac{1}{T} \sum_{k \neq i} \hat{s} (D_{i}^{(l)}, D_{k}^{(l)}) f ü r (i = j) \end{matrix}$
wobei $\hat{s} (D_{i}^{(l)}, D_{j}^{(l)}) : = \frac{1 - d_{tv} (p_{i}, p_{j})}{1 + d_{tv} (p_{i}, p_{j})}$
ist und d_tv(p_i, p_j) die Gesamtvariationsdistanz ist, die definiert ist durch $\frac{1}{2} \int_{x \in X} | p (x | D_{i}^{(l)}) - p (x | D_{j}^{(l)}) | μ (d x) .$
Verfahren nach Anspruch 3, wobei d_tv(p_i, p_j) über Monte-Carlo-Sampling approximiert wird.
Verfahren nach einem der obigen Ansprüche, wobei der Hyperparameter mindestens einen der folgenden Hyperparameter umfasst: Chargengröße, Lernrate, Moment, Aktivierungsfunktion, Initialisierung der Netzgewichte, Dropout-Regularisierung, Anzahl der Einheiten (Neuronen) pro Schicht und Anzahl der Schichten, Epochen, Optimierungsalgorithmus und/oder Regularisierung.
Computer-implementiertes Verfahren zur Verwendung des trainierten neuronalen Netzes nach Anspruch 2 als Klassifizierer (60) zum Klassifizieren von Sensorsignalen, wobei der Klassifizierer (60) mit dem Verfahren nach einem der Ansprüche 2 bis 5 trainiert wird, mit den folgenden Schritten: - Empfangen eines Sensorsignals (S), das Daten von einem Sensor (30) umfasst, - Bestimmen eines Eingangssignals (x), das von dem Sensorsignal (S) abhängt, und - Leiten des Eingangssignals (x) in den Klassifizierer (60), um ein Ausgangssignal (y) zu erhalten, das eine Klassifikation des Eingangssignals (x) charakterisiert.
Computer-implementiertes Verfahren zur Verwendung des trainierten neuronalen Netzes nach Anspruch 2 als Klassifizierer (60), das mit dem Verfahren nach einem der Ansprüche 2 bis 5 zum Bereitstellen eines Aktorsteuersignals (A) zum Steuern eines Aktors (10) trainiert wird, das alle Schritte des Verfahrens nach Anspruch 8 umfasst und ferner den folgenden Schritt umfasst: - Bestimmen des Aktorsteuersignals (A) abhängig von dem Ausgangssignal (y).
Verfahren nach Anspruch 7, wobei der Aktor (10) einen mindestens teilweise autonomen Roboter (100) und/oder eine Produktionsmaschine (200) und/oder ein Zugangskontrollsystem (300) steuert.
Computerprogramm, das dafür ausgelegt ist, zu bewirken, dass ein Computer das Verfahren nach einem der Ansprüche 1 bis 8 mit allen seinen Schritten ausführt, wenn das Computerprogramm durch einen Prozessor (45, 145) ausgeführt wird.
Maschinen-lesbares Speicherungsmedium (46, 146), auf dem das Computerprogramm nach Anspruch 9 gespeichert ist.