DE102022210474A1

DE102022210474A1 - Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen

Info

Publication number: DE102022210474A1
Application number: DE102022210474.9A
Authority: DE
Inventors: Christoph Zimmer; Matthias Bitzer
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-10-04
Filing date: 2022-10-04
Publication date: 2024-04-04
Also published as: US20240028936A1; CN117852628A

Abstract

Vorrichtung (100) und computerimplementiertes Verfahren für maschinelles Lernen, wobei ein probabilistisches Modell (102) bereitgestellt wird, insbesondere ein Modell (102), das eine Wahrscheinlichkeitsverteilung vorzugsweise einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell (102) abhängig von wenigstens einem Hyperparameter (104) insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration eine Instruktion für eine erste Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei für den wenigstens einen Hyperparameter (104) eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) abhängig von der Messung bestimmt wird, wobei in einer anderen Iteration eine Instruktion für eine zweite Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei wenigstens ein Wert des wenigstens einen Hyperparameters (104) abhängig von der zweiten Messung bestimmt wird.

Description

Stand der Technik
Die Erfindung geht von einer Vorrichtung und einem computerimplementierten Verfahren für maschinelles Lernen aus.
Beim maschinellen Lernen wird ein Modell verwendet, das abhängig von Hyperparametern definiert ist.
Bei einem Bestimmen der Hyperparameter in einem Training mit Trainingsdaten besteht insbesondere bei einer geringen Anzahl an Trainingsdaten die Möglichkeit, dass ungeeignete Hyperparameter verwendet werden.
Offenbarung der Erfindung
Durch das computerimplementierte Verfahren und die Vorrichtung wird eine robuste Möglichkeit zur Bestimmung der Hyperparameter insbesondere für aktives Lernen bereitgestellt.
Das computerimplementierte Verfahren für maschinelles Lernen sieht vor, dass ein probabilistisches Modell bereitgestellt wird, insbesondere ein Modell, das einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell abhängig von wenigstens einem Hyperparameter insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration eine Instruktion für eine erste Messung abhängig vom Modell bestimmt und ausgegeben wird, und wobei für den wenigstens einen Hyperparameter eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter abhängig von der ersten Messung bestimmt wird, wobei in einer anderen Iteration eine Instruktion für eine zweite Messung abhängig vom Modell bestimmt und ausgegeben wird, und wobei wenigstens ein Wert des wenigstens einen Hyperparameters abhängig von der zweiten Messung bestimmt wird.
Vorzugsweise wird geprüft, ob die a posteriori Verteilung eine Bedingung erfüllt, wobei anschließend der wenigstens eine Wert für den wenigstens einen Hyperparameter bestimmt wird, wenn die a posteriori Verteilung die Bedingung erfüllt, oder wobei anschließend eine weitere a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter bestimmt wird, wenn die a posteriori Verteilung die Bedingung nicht erfüllt. Mit der Bedingung wird zwischen einer großen Unsicherheit über die Hyperparameter und einer demgegenüber kleinen Unsicherheit über die Hyperparameter unterschieden. Zunächst wird mittels einer bayesianischen Herangehensweise eine Gruppe von Modellen berücksichtigt. Dies ist besonders sinnvoll, wenn große Unsicherheit über die Hyperparameter besteht, z.B. weil bisher nur wenige Trainingsdaten verfügbar sind. Solange die Bedingung noch nicht erfüllt ist, wird eine frühzeitige Festlegung auf einen Wert vermieden. Anschließend wird der Wert durch eine frequentistische Herangehensweise bestimmt. Dies ist besonders bei kleiner Unsicherheit über die Hyperparameter sinnvoll. Die kleine Unsicherheit stellt sich z.B. ein, wenn eine ausreichend großen Anzahl an Trainingsdaten verfügbar ist. Durch Einstellen der Bedingung wird eine anfängliche, bezüglich der benötigten Rechenressourcen aufwändige Bestimmung mit der bayesianischen Herangehensweise durch eine demgegenüber bezüglich der benötigten Rechenressourcen weniger aufwändige Bestimmung mit der frequentistischen Herangehensweise abgelöst.
Die folgenden Kriterien ermöglichen es, festzustellen, ob eine bayesianische oder einer frequentistische Herangehensweise insbesondere bezüglich der Unsicherheit über die Hyperparameter besser geeignet ist, um das Modell zu bestimmen.
Vorzugsweise ordnet die a posteriori Verteilung Werten ihre Wahrscheinlichkeitsmasse zu, wobei die Bedingung ein erstes Kriterium umfasst, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz von Wahrscheinlichkeitsmassen der Verteilung innerhalb eines Intervalls liegen, das abhängig von der größten Wahrscheinlichkeitsmasse der Verteilung definiert ist, und diese umfasst, und wobei geprüft wird, ob das erste Kriterium erfüllt ist.
Vorzugsweise umfasst die Bedingung ein zweites Kriterium, das erfüllt ist, wenn ein Abstand, insbesondere eine Kullback-Leibler Divergenz, zwischen der a posteriori Verteilung und einer Gaussverteilung kleiner als eine erste Schwelle ist, und wobei geprüft wird, ob das zweite Kriterium erfüllt ist.
Vorzugsweise umfasst die Bedingung ein drittes Kriterium, das erfüllt ist, wenn die a posteriori Verteilung unimodal ist, und wobei geprüft wird, ob das dritte Kriterium erfüllt ist.
Vorzugsweise wird in mehreren der Iteration vorangehenden Iterationen je ein vorangehende a posteriori Verteilung bestimmt, wobei die Bedingung ein viertes Kriterium umfasst, das erfüllt ist, wenn ein Unterschied, insbesondere eine Kullback-Leibler Divergenz, zwischen einer vorangehenden a posteriori Verteilung und der a posteriori Verteilung kleiner als eine zweite Schwelle ist, und wobei geprüft wird, ob das vierte Kriterium erfüllt ist.
Vorzugsweise wird eine Charakteristik, insbesondere eine Entropie oder eine Varianz, der a posteriori Verteilung bestimmt, wobei die Bedingung ein fünftes Kriterium umfasst, das erfüllt ist, wenn die Charakteristik kleiner als eine dritte Schwelle ist, und wobei geprüft wird, ob das fünfte Kriterium erfüllt ist.
Vorzugsweise wird in wenigstens einer der Iteration vorangehenden Iterationen eine vorangehende a posteriori Verteilung bestimmt, wobei die a posteriori Verteilung die Bedingung erfüllt, wenn die a posteriori Verteilung und wenigstens eine vorangehende a posteriori Verteilung die Bedingung oder wenigstens eines der Kriterien erfüllt.
Vorzugsweise wird der Wert abhängig von einer Lösung eines Optimierungsproblems bestimmt, das vom wenigstens einen Hyperparameter abhängt, insbesondere abhängig von einem Optimierungsproblem, das abhängig von einer Ziel-Funktion definiert ist, die vom wenigstens einen Hyperparameter abhängt, und/oder dass die a posteriori Verteilung abhängig von einer Stichprobe bestimmt wird, die aus einer Menge von Werten für den wenigstens einen Hyperparameter gezogen wird.
Vorzugsweise umfasst das Modell die Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung abhängig von wenigstens einem Hyperparameter definiert ist, wobei dieser wenigstens eine Hyperparameter abhängig von Trainingsdaten, die Instruktionen für eine Messung an einem Gerät und/oder die Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird, wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird, oder wobei der wenigstens eine Hyperparameter abhängig von Trainingsdaten, die Instruktionen für eine Simulation einer Messung, die an einem Gerät ausführbar ist, und/oder die simulierte Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird, wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird. Das Gütemaß stellt ein Informationsmaß dar. Die Messung wird abhängig vom Informationsmaß bestimmt. Das bedeutet, das Verfahren umfasst active learning.
Insbesondere für bereits im Modell vorliegende Trainingsdaten ist ein computerimplementiertes Verfahren für maschinelles Lernen vorgesehen, wobei ein probabilistisches Modell bereitgestellt wird, insbesondere ein Modell, das eine Wahrscheinlichkeitsverteilung vorzugsweise einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell abhängig von wenigstens einem Hyperparameter insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration für den wenigstens einen Hyperparameter eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter bestimmt wird, wobei in einer anderen Iteration wenigstens ein Wert des wenigstens einen Hyperparameters bestimmt wird.
Die Vorrichtung für maschinelles Lernen umfasst wenigstens einen Prozessor und wenigstens einen Speicher, wobei der wenigstens eine Prozessor ausgebildet ist, computerlesbare Instruktionen auszuführen, wobei der wenigstens eine Speicher dazu ausgebildet ist, ein Modell und computerlesbare Instruktionen zu speichern, bei deren Ausführung durch den wenigstens einen Prozessor das Verfahren abläuft. Diese Vorrichtung hat Vorteile, die denen des Verfahrens entsprechen.
Ein Computerprogramm umfasst computerlesbare Instruktionen, bei deren Ausführung durch einen Computer das Verfahren abläuft. Dieses Computerprogramm hat Vorteile, die denen des Verfahrens entsprechen.
Weitere vorteilhafte Ausführungsformen sind der folgenden Beschreibung und der Zeichnung entnehmbar. In der Zeichnung zeigt:

1 eine schematische Darstellung einer Vorrichtung für maschinelles Lernen,
2 ein Flussdiagramm eines Verfahrens für maschinelles Lernen.

In 1 ist eine Vorrichtung 100 für maschinelles Lernen schematisch dargestellt. Die Vorrichtung 100 umfasst ein Modell 102. Das Modell 102 umfasst Hyperparameter 104.
Die Vorrichtung 100 umfasst im Beispiel wenigstens einen Speicher 108, der ausgebildet ist, das Modell 102 zu speichern. Die Vorrichtung 100 umfasst im Beispiel wenigstens einen Prozessor 110, der ausgebildet ist computerlesbare Instruktionen auszuführen.
Der wenigstens einen Speicher 108 ist ausgebildet, computerlesbare Instruktionen zu speichern, bei deren Ausführung durch den wenigstens einen Prozessor 110 ein im Folgenden beschriebenes Verfahren für maschinelles Lernen abläuft.
Die Vorrichtung 100 umfasst eine Schnittstelle 112. Die Schnittstelle 112 ist ausgebildet, mit einer Schnittstelle 114 einem Gerät 116 zu kommunizieren.
Das Gerät 116 ist z.B. eine computergesteuerte Maschine. Das Gerät 116 ist z.B. ein Roboter, ein Fahrzeug, ein Haushaltsgerät, ein Werkzeug, eine Fertigungsmaschine ein persönliches Assistenzsystem oder ein Zutrittskontrollsystem.
Das Gerät 116 umfasst wenigstens einen Aktuator 118. Der wenigstens eine Aktuator 118 ist ausgebildet, das Gerät 116 abhängig von Instruktionen, die von der Schnittstelle 114 des Geräts 116 empfangen werden, zu einer Messung anzusteuern. Das Gerät 116 umfasst wenigstens einen Sensor 120. Der wenigstens eine Sensor 120 ist ausgebildet, Messungen insbesondere von wenigstens einer Betriebsgröße des Geräts 116 oder eine Umgebung des Geräts 116 zu erfassen. Der wenigstens eine Sensor 120 ist ausgebildet, die Messungen über die Schnittstelle 114 des Geräts 116 an die Schnittstelle 112 der Vorrichtung 100 zu kommunizieren. Es können auch mehrere Schnittstellen vorgesehen sein.
Das maschinelle Lernen wird abhängig von Trainingsdaten D ausgeführt. Die Trainingsdaten D umfassen Instruktionen und/oder Messungen, die im Beispiel zumindest teilweise während eines Ausführens der Instruktionen durch den wenigstens einen Aktuator 118 von dem wenigstens einen Sensor 120 erfasst werden. Die Trainingsdaten D umfassen zum Beispiel skalare Zeitserien, insbesondere vom Sensor 120. Die Trainingsdaten D umfassen z.B. eine Betriebsgröße des Geräts, z.B. eine Geschwindigkeit oder eine Beschleunigung.
Der wenigstens eine Aktuator 118 und/oder der wenigstens eine Sensor 120 und/oder die Schnittstelle 114 kann auch außerhalb des Geräts 116 angeordnet sein. Der wenigstens eine Aktuator 118 und/oder der wenigstens eine Sensor 120 und/oder die Schnittstelle 114 kann Teil der Vorrichtung 100 sein.
Das Gerät 116 kann Teil der Vorrichtung 100 sein. Es kann auch vorgesehen sein, die Trainingsdaten durch eine Simulation zu bestimmen, insbesondere eine Simulation des Geräts 116 oder wenigstens eines Teils des Geräts 116.
Beim aktiven Lernen wird das Modell 102 dazu verwendet, Instruktionen zu identifizieren, bei deren Ausführung Messungen erfasst werden können, für die ein möglichst großer Informationsgewinn zu erwarten ist.
In 2 sind Schritte des insbesondere computerimplementierten Verfahrens dargestellt.
In einem Schritt 202 wird ein probabilistisches Modell 102 bereitgestellt.
Das Modell 102 umfasst z.B. einen Gaussprozess oder ein bayesianisches neuronales Netzwerk.
Das Modell 102 ist abhängig vom wenigstens einen Hyperparameter 104 definiert.
Der wenigstens eine Hyperparameter 104 ist z.B. ein Parameter des Gaussprozesses oder des bayesianischen neuronalen Netzwerks.
Das Modell 102 umfasst eine Wahrscheinlichkeitsverteilung, die abhängig vom wenigstens Hyperparameter 104 definiert ist. Die Wahrscheinlichkeitsverteilung wird z.B. im Schritt 202 mit einem vorgegebenen z.B. zufällig bestimmten wenigsten einen Hyperparameter 104 bereitgestellt.
In einem Schritt 204 wird in wenigstens einer Iteration für den wenigstens einen Hyperparameter 104 eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter 104 bestimmt.
In der wenigstens einen Iteration wird eine Instruktion für eine erste Messung abhängig vom Modell 102 bestimmt und ausgegeben. Wenigstens ein Wert des wenigstens einen Hyperparameters 104 wird abhängig von der ersten Messung bestimmt. Die erste Messung kann an dem Gerät 116 ausgeführt werden oder durch Simulation mit einem Simulationsmodell, das das Gerät 116 nachbildet.
Die a posteriori Verteilung wird z.B. abhängig von einer Stichprobe bestimmt, die aus einer Menge von Werten für den wenigstens einen Hyperparameter 104 gezogen wird.
Mit dem Modell 102 werden mehrere verschiedene der wenigstens einen Hyperparameter 104, die aus dieser a posteriori Verteilung bestimmt werden, abhängig von Trainingsdaten D bestimmt. Für eine erste Iteration sind z.B. anfängliche Trainingsdaten D=D_0 vorgesehen.
Mit den Trainingsdaten D wird ein Satz der Hyperparameter 104 bestimmt.
Aus dem Satz der wenigstens einen Hyperparameter 104 wird im Beispiel der wenigstens eine Hyperparameter 104 ausgewählt, der gemäß einer vorgegebenen Metrik am besten geeignet ist. Im Beispiel ist das der Fall, wenn die nicht-bayesianische Art der Schätzung der Hyperparameter 104 ausgeführt wird. Sofern die bayesianischen Art der Schätzung der Hyperparameter 104 wird eine a-posteriori Verteilung über Werte für die Hyperparameter 104 bestimmt.
Die Trainingsdaten D umfassen z.B. die Instruktionen für eine Messung am Gerät 116 und/oder die Messung. In einem Beispiel umfassen die Trainingsdaten D paarweise je eine Instruktion x und eine Messung y.
Die Trainingsdaten D werden im Beispiel abhängig von einem Gütemaß Info (x) bestimmt. Das Gütemaß Info (x) umfasst einen Erwartungswert für eine Entropie oder eine Varianz. Die Entropie oder die Varianz ist abhängig von der Wahrscheinlichkeitsverteilung.
Im Beispiel wird eine Instruktion x* für die Messung abhängig vom Gütemaß Info (x) bestimmt. Beispielsweise ist das Gütemaß Info (x) abhängig von den Instruktionen x definiert, wobei die Instruktion x* = argmax_x Info (x) bestimmt wird, welche den Erwartungswert für die Entropie oder den Erwartungswert für die Varianz maximiert.
Die Trainingsdaten D werden im Beispiel durch die Instruktion x* und eine Messungen y ergänzt, die bei Ansteuern des Geräts 116 mit der Instruktion x* erfasst wird. Die Instruktion x' werden abhängig vom Gütemaß Info (x) bestimmt. Der wenigstens eine Hyperparameter 104 wird basierend auf den Trainingsdaten D mit einer Ziel-Funktion bestimmt.
Im Beispiel wird die Messung y für die Instruktion x* am Gerät 116 bestimmt, und die Trainingsdaten durch das Paar (x*, y) ergänzt.
Es kann auch vorgesehen sein, dass der wenigstens eine Hyperparameter 104 abhängig von Trainingsdaten, die Instruktionen für eine Simulation einer Messung, die am Gerät 116 ausführbar ist, und/oder die simulierte Messung umfassen, bestimmt wird.
In einem Beispiel definiert der wenigstens eine Hyperparameter 104 einen oder mehrere Kernel-Parameter γ. Die Wahrscheinlichkeitsverteilung des Modells 102 wird in diesem Fall mittels Hamiltonian Monte Carlo, HMC, bestimmt um verschiedene Kernel-Parameter γ_{i ~} p (γ|D) aus einer für die Trainingsdaten D gegebenen a posteriori Verteilung p (γ|D) zu ziehen. Damit wird die Wahrscheinlichkeitsverteilung des jeweiligen Modells 102 bestimmt: $p (f * | x *, D) = \int p (f * | x *, γ, D) p (γ | D) d γ \approx \frac{1}{n} \sum_{γ_{i} \sim p (γ | D)} p (f * | x *, γ_{i}, D)$
Die Stichproben γ_i aus γ_{i ~} p (γ|D) werden z.B. dadurch bestimmt, dass eine erste Stichprobe γ₀ aus einer a priori Verteilung p(y) bestimmt wird und zudem eine Hilfsvariable ρ₀ ~ N (0, M) abhängig von einer Normalverteilung N bestimmt wird, die eine vorgegebene Kovarianzmatrix M aufweist.
Anschließend werden die Stichproben γ_i iterativ bestimmt, z.B. in i=1:) Iterationen i.
In einer Iteration i werden die Stichproben γ_i und ρ_i abhängig von den Stichproben γ_i-1 und ρ_i-1 der vorherigen Iteration i-1 bestimmt, wobei folgende Differentialgleichung verwendet wird: $\frac{d γ}{d t} = \frac{d H}{d ρ'}, \frac{d ρ}{d t} = - \frac{d H}{d γ}$
wobei $H (γ, ρ) = log p (D | γ) + \frac{1}{2} ρ^{T} M^{- 1} ρ$
Es kann vorgesehen sein, einen nummerischen Ansatz zur Lösung der Differentialgleichung einzusetzen, der z.B. einen Metropolis-Hastings Rejection Step verwendet und γ_i und ρ_i auf γ_i-1, und ρ_i-1 zurücksetzt, wenn eine Lösung zurückgewiesen wird.
Das Gütemaß Info (x) wird im Beispiel abhängig davon bestimmt, wobei $p (f * | x *, γ_{i}, D) = \frac{1}{n} \sum_{i = 1}^{n} N (f *; μ_{i} (x *), σ_{i}^{2} (x *))$
und die Entropie $H (f | x, D) = \int p (f | x, D) log (p (f | x, D)) d y$
Diese wird zum Beispiel quadratisch approximiert durch nummerische Integration oder durch eine Normalapproximation: $μ (x) = \frac{1}{n} \sum_{i = 1}^{N} μ_{i} (x)$
$σ^{2} (x) = (\frac{1}{n} \sum_{i = 1}^{N} σ_{i}^{2} (x) + μ_{i}^{2} (x)) - μ^{2} (x)$
wobei die näherungsweise bestimmte Entropie $H \approx \frac{1}{2} log (2 π σ^{2} (x))$
ist.
Es kann vorgesehen sein, dass in wenigstens einer der Iteration vorangehenden Iterationen eine vorangehende a posteriori Verteilung bestimmt wird. Es kann vorgesehen sein, dass in mehreren der Iteration vorangehenden Iterationen je ein vorangehende a posteriori Verteilung bestimmt wird.
Es kann vorgesehen sein, dass eine Charakteristik, insbesondere eine Entropie oder eine Varianz, der a posteriori Verteilung bestimmt wird.
Anschließend wird ein Schritt 206 ausgeführt. Im Beispiel wird der Schritt 206 ausgeführt, wenn die Bedingung vorliegt, bei der eine nicht-bayesianische Schätzung durchgeführt wird. Im Beispiel wird ansonsten die Verteilung bestimmt.
Im Schritt 206 wird geprüft, ob die a posteriori Verteilung eine Bedingung erfüllt.
Wenn die a posteriori Verteilung die Bedingung erfüllt wird ein Schritt 208 ausgeführt. Anderenfalls wird der Schritt 204 ausgeführt.
Die a posteriori Verteilung ordnet in einem Beispiel Werten für den wenigstens einen Hyperparameter 104 ihre Wahrscheinlichkeitsmasse zu.
Die Bedingung umfasst in einem Beispiel ein erstes Kriterium, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz von Wahrscheinlichkeitsmassen der Verteilung innerhalb eines Intervalls liegen.
Das Intervall ist z.B. abhängig von der größten Wahrscheinlichkeitsmasse der Verteilung definiert. Das Intervall umfasst z.B. diese größte Wahrscheinlichkeitsmasse.
Alternativ kann die a posteriori Verteilung auch kontinuierlichen Werten ihre Wahrscheinlichkeitsdichte zuordnen, wobei die Bedingung ein erstes Kriterium umfasst, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz der Wahrscheinlichkeitsmasse der Verteilung innerhalb eines Intervalls liegen, das abhängig von der größten Wahrscheinlichkeitsdichte der Verteilung definiert ist, und diese umfasst, und wobei geprüft wird, ob dieses Kriterium erfüllt ist.
Im Schritt 206 wird optional geprüft, ob das erste Kriterium erfüllt ist.
Die Bedingung umfasst in einem Beispiel ein zweites Kriterium, das erfüllt ist, wenn ein Abstand, insbesondere eine Kullback-Leibler Divergenz, zwischen der a posteriori Verteilung und einer Gaussverteilung kleiner als eine erste Schwelle ist. Im Beispiel ist die Gaussverteilung vorgegeben.
Im Schritt 206 wird optional geprüft, ob das zweite Kriterium erfüllt ist.
Die Bedingung umfasst in einem Beispiel ein drittes Kriterium, das erfüllt ist, wenn die a posteriori Verteilung unimodal ist.
Im Schritt 206 wird optional geprüft, ob das dritte Kriterium erfüllt ist.
Die Bedingung umfasst in einem Beispiel ein viertes Kriterium, das erfüllt ist, wenn ein Unterschied, insbesondere eine Kullback-Leibler Divergenz, zwischen einer vorangehenden a posteriori Verteilung und der a posteriori Verteilung kleiner als eine zweite Schwelle ist.
Im Schritt 206 wird optional geprüft, ob das vierte Kriterium erfüllt ist.
Die Bedingung umfasst in einem Beispiel ein fünftes Kriterium, das erfüllt ist, wenn die Charakteristik kleiner als eine dritte Schwelle ist.
Im Schritt 206 wird optional geprüft, ob das fünfte Kriterium erfüllt ist.
Es kann vorgesehen sein, dass die a posteriori Verteilung die Bedingung erfüllt, wenn die a posteriori Verteilung und wenigstens eine vorangehende a posteriori Verteilung die Bedingung oder wenigstens eines der Kriterien erfüllt.
Im Schritt 208 wird in wenigstens einer Iteration wenigstens ein Wert des wenigstens einen Hyperparameters 104 bestimmt.
Im Schritt 208 wird im Beispiel dann, wenn die Bedingung erfüllt ist, die nicht-bayesianische Schätzung der Hyperparameters 104 durchgeführt. Im Beispiel wird dann, wenn die Bedingung nicht erfüllt ist, wird die Verteilung bayesianisch bestimmt.
In der wenigstens einen Iteration wird eine Instruktion für eine zweite Messung abhängig vom Modell 102 bestimmt und ausgegeben. Im Beispiel wird wenn die Bedingung vorliegt, bei der eine nicht-bayesianische Schätzung durchgeführt wird, wenigstens ein Wert des wenigstens einen Hyperparameters 104 abhängig von der zweiten Messung bestimmt. Im Beispiel wird ansonsten die Verteilung über die Werte der Hyperparameter 104 bestimmt. Die zweite Messung kann an dem Gerät 116 ausgeführt werden oder durch Simulation mit einem Simulationsmodell, das das Gerät 116 nachbildet.
Der Wert wird z.B. abhängig von einer Lösung eines Optimierungsproblems bestimmt, das vom wenigstens einen Hyperparameter 104 abhängt.
In einem Beispiel wird der Wert abhängig von der Lösung eines Optimierungsproblems bestimmt, das abhängig von der Ziel-Funktion definiert ist, die vom wenigstens einen Hyperparameter 104 abhängt.
Die Zielfunktion ist z.B. f(γ) = log p(D\y). Das Informationskriterium Info (x) wird beispielsweise in jeder Iteration benutzt um eine Messungskonfiguration x auszuwählen. Die Zielfunktion f(γ) wird zwischen den Iterationen maximiert, im Beispiel wird die Zielfunktion f (γ) zwischen den Iterationen nur maximiert, falls die Bedingung vorliegt bei der eine nicht-bayesianische Schätzung durchgeführt werden soll. Ansonsten wird eine bayesianische Schätzung durchgeführt.
Der wenigstens eine Hyperparameter 104 wird mit dem Modell 102 für den Wert des Hyperparameters 104 abhängig von den Trainingsdaten D mit der Zielfunktion bestimmt.
Die Trainingsdaten D umfassen die Instruktionen x`. Die Instruktionen x* werden im Beispiel abhängig vom Gütemaß Info (x) bestimmt.
Das bedeutet, das Gütemaß Info (x) wird abhängig vom wenigstens einen Hyperparameter 104 bestimmt. Wenigstens eine Instruktion oder die Messung wird abhängig vom Gütemaß Info (x) bestimm. Dadurch wird active learning umgesetzt.
Es kann auch vorgesehen sein, dass der wenigstens eine Hyperparameter 104 abhängig von den Trainingsdaten, die Instruktionen für die Simulation der Messung, die am Gerät 116 ausführbar ist, und/oder die simulierte Messung umfassen, bestimmt wird.

Claims

Computerimplementiertes Verfahren für maschinelles Lernen, dadurch gekennzeichnet, dass ein probabilistisches Modell (102) bereitgestellt wird (202), insbesondere ein Modell (102), das eine Wahrscheinlichkeitsverteilung vorzugsweise einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell (102) abhängig von wenigstens einem Hyperparameter (104) insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration eine Instruktion für eine erste Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei für den wenigstens einen Hyperparameter (104) abhängig von der ersten Messung eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) bestimmt wird (204), wobei in einer anderen Iteration eine Instruktion für eine zweite Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei wenigstens ein Wert des wenigstens einen Hyperparameters (104) abhängig von der zweiten Messung bestimmt wird (208).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass geprüft wird (206), ob die a posteriori Verteilung eine Bedingung erfüllt, wobei anschließend der wenigstens eine Wert für den wenigstens einen Hyperparameter (104) bestimmt wird (208), wenn die a posteriori Verteilung die Bedingung erfüllt, oder wobei anschließend eine weitere a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) bestimmt wird (204), wenn die a posteriori Verteilung die Bedingung nicht erfüllt.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die a posteriori Verteilung Werten ihre Wahrscheinlichkeitsmasse zuordnet, wobei die Bedingung ein erstes Kriterium umfasst, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz von Wahrscheinlichkeitsmassen der Verteilung innerhalb eines Intervalls liegen, das abhängig von der größten Wahrscheinlichkeitsmasse der Verteilung definiert ist, und diese umfasst, und wobei geprüft wird (206), ob das erste Kriterium erfüllt ist.
Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die Bedingung ein zweites Kriterium umfasst, das erfüllt ist, wenn ein Abstand, insbesondere eine Kullback-Leibler Divergenz, zwischen der a posteriori Verteilung und einer Gaussverteilung kleiner als eine erste Schwelle ist, und wobei geprüft wird (206), ob das zweite Kriterium erfüllt ist.
Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass die Bedingung ein drittes Kriterium umfasst, das erfüllt ist, wenn die a posteriori Verteilung unimodal ist, und wobei geprüft wird (206), ob das dritte Kriterium erfüllt ist.
Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass in mehreren der Iteration vorangehenden Iterationen je ein vorangehende a posteriori Verteilung bestimmt wird (204), wobei die Bedingung ein viertes Kriterium umfasst, das erfüllt ist, wenn ein Unterschied, insbesondere eine Kullback-Leibler Divergenz, zwischen einer vorangehenden a posteriori Verteilung und der a posteriori Verteilung kleiner als eine zweite Schwelle ist, und wobei geprüft wird (206), ob das vierte Kriterium erfüllt ist.
Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass eine Charakteristik, insbesondere eine Entropie oder eine Varianz, der a posteriori Verteilung bestimmt wird (204), wobei die Bedingung ein fünftes Kriterium umfasst, das erfüllt ist, wenn die Charakteristik kleiner als eine dritte Schwelle ist, und wobei geprüft wird (206), ob das fünfte Kriterium erfüllt ist.
Verfahren nach einem der Ansprüche 2 bis 7, dadurch gekennzeichnet, dass in wenigstens einer der Iteration vorangehenden Iterationen eine vorangehende a posteriori Verteilung bestimmt wird (204), wobei die a posteriori Verteilung die Bedingung erfüllt (206), wenn die a posteriori Verteilung und wenigstens eine vorangehende a posteriori Verteilung die Bedingung oder wenigstens eines der Kriterien erfüllt.
Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass der Wert abhängig von einer Lösung eines Optimierungsproblems bestimmt wird (208), das vom wenigstens einen Hyperparameter abhängt, insbesondere abhängig von der Lösung eines Optimierungsproblems, das abhängig von einer Ziel-Funktion definiert ist, die vom wenigstens einen Hyperparameter abhängt, und/oder dass die a posteriori Verteilung abhängig von einer Stichprobe bestimmt wird (204), die aus einer Menge von Werten für den wenigstens einen Hyperparameter gezogen wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Modell (102) die Wahrscheinlichkeitsverteilung umfasst, wobei die Wahrscheinlichkeitsverteilung abhängig von wenigstens einem Hyperparameter (104) definiert ist, wobei dieser wenigstens eine Hyperparameter (104) abhängig von Trainingsdaten, die Instruktionen für eine Messung an einem Gerät (116) und/oder die Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird (204, 208), wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird, oder wobei der wenigstens eine Hyperparameter (104) abhängig von Trainingsdaten, die Instruktionen für eine Simulation einer Messung, die an einem Gerät (116) ausführbar ist, und/oder die simulierte Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird (204, 208), wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass in einer Iteration für den wenigstens einen Hyperparameter (104) eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) bestimmt wird (204), wobei in einer anderen Iteration wenigstens ein Wert des wenigstens einen Hyperparameters (104) bestimmt wird (208).
Vorrichtung (100) für maschinelles Lernen, dadurch gekennzeichnet, dass die Vorrichtung (100) wenigstens einen Prozessor (110) und wenigstens einen Speicher (112) umfasst, wobei der wenigstens eine Prozessor (110) ausgebildet ist, computerlesbare Instruktionen auszuführen, wobei der wenigstens eine Speicher (112) dazu ausgebildet ist, ein Modell (102) und computerlesbare Instruktionen zu speichern, bei deren Ausführung durch den wenigstens einen Prozessor (110) das Verfahren nach einem der Ansprüche 1 bis 11 abläuft.
Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführung durch einen Computer ein Verfahren nach einem der Ansprüche 1 bis 11 abläuft.