DE102022210474A1 - Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen - Google Patents

Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen Download PDF

Info

Publication number
DE102022210474A1
DE102022210474A1 DE102022210474.9A DE102022210474A DE102022210474A1 DE 102022210474 A1 DE102022210474 A1 DE 102022210474A1 DE 102022210474 A DE102022210474 A DE 102022210474A DE 102022210474 A1 DE102022210474 A1 DE 102022210474A1
Authority
DE
Germany
Prior art keywords
determined
hyperparameter
distribution
depending
measurement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022210474.9A
Other languages
English (en)
Inventor
Christoph Zimmer
Matthias Bitzer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022210474.9A priority Critical patent/DE102022210474A1/de
Priority to US18/479,283 priority patent/US20240028936A1/en
Priority to CN202311302655.XA priority patent/CN117852628A/zh
Publication of DE102022210474A1 publication Critical patent/DE102022210474A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

Vorrichtung (100) und computerimplementiertes Verfahren für maschinelles Lernen, wobei ein probabilistisches Modell (102) bereitgestellt wird, insbesondere ein Modell (102), das eine Wahrscheinlichkeitsverteilung vorzugsweise einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell (102) abhängig von wenigstens einem Hyperparameter (104) insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration eine Instruktion für eine erste Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei für den wenigstens einen Hyperparameter (104) eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) abhängig von der Messung bestimmt wird, wobei in einer anderen Iteration eine Instruktion für eine zweite Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei wenigstens ein Wert des wenigstens einen Hyperparameters (104) abhängig von der zweiten Messung bestimmt wird.

Description

  • Stand der Technik
  • Die Erfindung geht von einer Vorrichtung und einem computerimplementierten Verfahren für maschinelles Lernen aus.
  • Beim maschinellen Lernen wird ein Modell verwendet, das abhängig von Hyperparametern definiert ist.
  • Bei einem Bestimmen der Hyperparameter in einem Training mit Trainingsdaten besteht insbesondere bei einer geringen Anzahl an Trainingsdaten die Möglichkeit, dass ungeeignete Hyperparameter verwendet werden.
  • Offenbarung der Erfindung
  • Durch das computerimplementierte Verfahren und die Vorrichtung wird eine robuste Möglichkeit zur Bestimmung der Hyperparameter insbesondere für aktives Lernen bereitgestellt.
  • Das computerimplementierte Verfahren für maschinelles Lernen sieht vor, dass ein probabilistisches Modell bereitgestellt wird, insbesondere ein Modell, das einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell abhängig von wenigstens einem Hyperparameter insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration eine Instruktion für eine erste Messung abhängig vom Modell bestimmt und ausgegeben wird, und wobei für den wenigstens einen Hyperparameter eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter abhängig von der ersten Messung bestimmt wird, wobei in einer anderen Iteration eine Instruktion für eine zweite Messung abhängig vom Modell bestimmt und ausgegeben wird, und wobei wenigstens ein Wert des wenigstens einen Hyperparameters abhängig von der zweiten Messung bestimmt wird.
  • Vorzugsweise wird geprüft, ob die a posteriori Verteilung eine Bedingung erfüllt, wobei anschließend der wenigstens eine Wert für den wenigstens einen Hyperparameter bestimmt wird, wenn die a posteriori Verteilung die Bedingung erfüllt, oder wobei anschließend eine weitere a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter bestimmt wird, wenn die a posteriori Verteilung die Bedingung nicht erfüllt. Mit der Bedingung wird zwischen einer großen Unsicherheit über die Hyperparameter und einer demgegenüber kleinen Unsicherheit über die Hyperparameter unterschieden. Zunächst wird mittels einer bayesianischen Herangehensweise eine Gruppe von Modellen berücksichtigt. Dies ist besonders sinnvoll, wenn große Unsicherheit über die Hyperparameter besteht, z.B. weil bisher nur wenige Trainingsdaten verfügbar sind. Solange die Bedingung noch nicht erfüllt ist, wird eine frühzeitige Festlegung auf einen Wert vermieden. Anschließend wird der Wert durch eine frequentistische Herangehensweise bestimmt. Dies ist besonders bei kleiner Unsicherheit über die Hyperparameter sinnvoll. Die kleine Unsicherheit stellt sich z.B. ein, wenn eine ausreichend großen Anzahl an Trainingsdaten verfügbar ist. Durch Einstellen der Bedingung wird eine anfängliche, bezüglich der benötigten Rechenressourcen aufwändige Bestimmung mit der bayesianischen Herangehensweise durch eine demgegenüber bezüglich der benötigten Rechenressourcen weniger aufwändige Bestimmung mit der frequentistischen Herangehensweise abgelöst.
  • Die folgenden Kriterien ermöglichen es, festzustellen, ob eine bayesianische oder einer frequentistische Herangehensweise insbesondere bezüglich der Unsicherheit über die Hyperparameter besser geeignet ist, um das Modell zu bestimmen.
  • Vorzugsweise ordnet die a posteriori Verteilung Werten ihre Wahrscheinlichkeitsmasse zu, wobei die Bedingung ein erstes Kriterium umfasst, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz von Wahrscheinlichkeitsmassen der Verteilung innerhalb eines Intervalls liegen, das abhängig von der größten Wahrscheinlichkeitsmasse der Verteilung definiert ist, und diese umfasst, und wobei geprüft wird, ob das erste Kriterium erfüllt ist.
  • Vorzugsweise umfasst die Bedingung ein zweites Kriterium, das erfüllt ist, wenn ein Abstand, insbesondere eine Kullback-Leibler Divergenz, zwischen der a posteriori Verteilung und einer Gaussverteilung kleiner als eine erste Schwelle ist, und wobei geprüft wird, ob das zweite Kriterium erfüllt ist.
  • Vorzugsweise umfasst die Bedingung ein drittes Kriterium, das erfüllt ist, wenn die a posteriori Verteilung unimodal ist, und wobei geprüft wird, ob das dritte Kriterium erfüllt ist.
  • Vorzugsweise wird in mehreren der Iteration vorangehenden Iterationen je ein vorangehende a posteriori Verteilung bestimmt, wobei die Bedingung ein viertes Kriterium umfasst, das erfüllt ist, wenn ein Unterschied, insbesondere eine Kullback-Leibler Divergenz, zwischen einer vorangehenden a posteriori Verteilung und der a posteriori Verteilung kleiner als eine zweite Schwelle ist, und wobei geprüft wird, ob das vierte Kriterium erfüllt ist.
  • Vorzugsweise wird eine Charakteristik, insbesondere eine Entropie oder eine Varianz, der a posteriori Verteilung bestimmt, wobei die Bedingung ein fünftes Kriterium umfasst, das erfüllt ist, wenn die Charakteristik kleiner als eine dritte Schwelle ist, und wobei geprüft wird, ob das fünfte Kriterium erfüllt ist.
  • Vorzugsweise wird in wenigstens einer der Iteration vorangehenden Iterationen eine vorangehende a posteriori Verteilung bestimmt, wobei die a posteriori Verteilung die Bedingung erfüllt, wenn die a posteriori Verteilung und wenigstens eine vorangehende a posteriori Verteilung die Bedingung oder wenigstens eines der Kriterien erfüllt.
  • Vorzugsweise wird der Wert abhängig von einer Lösung eines Optimierungsproblems bestimmt, das vom wenigstens einen Hyperparameter abhängt, insbesondere abhängig von einem Optimierungsproblem, das abhängig von einer Ziel-Funktion definiert ist, die vom wenigstens einen Hyperparameter abhängt, und/oder dass die a posteriori Verteilung abhängig von einer Stichprobe bestimmt wird, die aus einer Menge von Werten für den wenigstens einen Hyperparameter gezogen wird.
  • Vorzugsweise umfasst das Modell die Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung abhängig von wenigstens einem Hyperparameter definiert ist, wobei dieser wenigstens eine Hyperparameter abhängig von Trainingsdaten, die Instruktionen für eine Messung an einem Gerät und/oder die Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird, wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird, oder wobei der wenigstens eine Hyperparameter abhängig von Trainingsdaten, die Instruktionen für eine Simulation einer Messung, die an einem Gerät ausführbar ist, und/oder die simulierte Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird, wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird. Das Gütemaß stellt ein Informationsmaß dar. Die Messung wird abhängig vom Informationsmaß bestimmt. Das bedeutet, das Verfahren umfasst active learning.
  • Insbesondere für bereits im Modell vorliegende Trainingsdaten ist ein computerimplementiertes Verfahren für maschinelles Lernen vorgesehen, wobei ein probabilistisches Modell bereitgestellt wird, insbesondere ein Modell, das eine Wahrscheinlichkeitsverteilung vorzugsweise einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell abhängig von wenigstens einem Hyperparameter insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration für den wenigstens einen Hyperparameter eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter bestimmt wird, wobei in einer anderen Iteration wenigstens ein Wert des wenigstens einen Hyperparameters bestimmt wird.
  • Die Vorrichtung für maschinelles Lernen umfasst wenigstens einen Prozessor und wenigstens einen Speicher, wobei der wenigstens eine Prozessor ausgebildet ist, computerlesbare Instruktionen auszuführen, wobei der wenigstens eine Speicher dazu ausgebildet ist, ein Modell und computerlesbare Instruktionen zu speichern, bei deren Ausführung durch den wenigstens einen Prozessor das Verfahren abläuft. Diese Vorrichtung hat Vorteile, die denen des Verfahrens entsprechen.
  • Ein Computerprogramm umfasst computerlesbare Instruktionen, bei deren Ausführung durch einen Computer das Verfahren abläuft. Dieses Computerprogramm hat Vorteile, die denen des Verfahrens entsprechen.
  • Weitere vorteilhafte Ausführungsformen sind der folgenden Beschreibung und der Zeichnung entnehmbar. In der Zeichnung zeigt:
    • 1 eine schematische Darstellung einer Vorrichtung für maschinelles Lernen,
    • 2 ein Flussdiagramm eines Verfahrens für maschinelles Lernen.
  • In 1 ist eine Vorrichtung 100 für maschinelles Lernen schematisch dargestellt. Die Vorrichtung 100 umfasst ein Modell 102. Das Modell 102 umfasst Hyperparameter 104.
  • Die Vorrichtung 100 umfasst im Beispiel wenigstens einen Speicher 108, der ausgebildet ist, das Modell 102 zu speichern. Die Vorrichtung 100 umfasst im Beispiel wenigstens einen Prozessor 110, der ausgebildet ist computerlesbare Instruktionen auszuführen.
  • Der wenigstens einen Speicher 108 ist ausgebildet, computerlesbare Instruktionen zu speichern, bei deren Ausführung durch den wenigstens einen Prozessor 110 ein im Folgenden beschriebenes Verfahren für maschinelles Lernen abläuft.
  • Die Vorrichtung 100 umfasst eine Schnittstelle 112. Die Schnittstelle 112 ist ausgebildet, mit einer Schnittstelle 114 einem Gerät 116 zu kommunizieren.
  • Das Gerät 116 ist z.B. eine computergesteuerte Maschine. Das Gerät 116 ist z.B. ein Roboter, ein Fahrzeug, ein Haushaltsgerät, ein Werkzeug, eine Fertigungsmaschine ein persönliches Assistenzsystem oder ein Zutrittskontrollsystem.
  • Das Gerät 116 umfasst wenigstens einen Aktuator 118. Der wenigstens eine Aktuator 118 ist ausgebildet, das Gerät 116 abhängig von Instruktionen, die von der Schnittstelle 114 des Geräts 116 empfangen werden, zu einer Messung anzusteuern. Das Gerät 116 umfasst wenigstens einen Sensor 120. Der wenigstens eine Sensor 120 ist ausgebildet, Messungen insbesondere von wenigstens einer Betriebsgröße des Geräts 116 oder eine Umgebung des Geräts 116 zu erfassen. Der wenigstens eine Sensor 120 ist ausgebildet, die Messungen über die Schnittstelle 114 des Geräts 116 an die Schnittstelle 112 der Vorrichtung 100 zu kommunizieren. Es können auch mehrere Schnittstellen vorgesehen sein.
  • Das maschinelle Lernen wird abhängig von Trainingsdaten D ausgeführt. Die Trainingsdaten D umfassen Instruktionen und/oder Messungen, die im Beispiel zumindest teilweise während eines Ausführens der Instruktionen durch den wenigstens einen Aktuator 118 von dem wenigstens einen Sensor 120 erfasst werden. Die Trainingsdaten D umfassen zum Beispiel skalare Zeitserien, insbesondere vom Sensor 120. Die Trainingsdaten D umfassen z.B. eine Betriebsgröße des Geräts, z.B. eine Geschwindigkeit oder eine Beschleunigung.
  • Der wenigstens eine Aktuator 118 und/oder der wenigstens eine Sensor 120 und/oder die Schnittstelle 114 kann auch außerhalb des Geräts 116 angeordnet sein. Der wenigstens eine Aktuator 118 und/oder der wenigstens eine Sensor 120 und/oder die Schnittstelle 114 kann Teil der Vorrichtung 100 sein.
  • Das Gerät 116 kann Teil der Vorrichtung 100 sein. Es kann auch vorgesehen sein, die Trainingsdaten durch eine Simulation zu bestimmen, insbesondere eine Simulation des Geräts 116 oder wenigstens eines Teils des Geräts 116.
  • Beim aktiven Lernen wird das Modell 102 dazu verwendet, Instruktionen zu identifizieren, bei deren Ausführung Messungen erfasst werden können, für die ein möglichst großer Informationsgewinn zu erwarten ist.
  • In 2 sind Schritte des insbesondere computerimplementierten Verfahrens dargestellt.
  • In einem Schritt 202 wird ein probabilistisches Modell 102 bereitgestellt.
  • Das Modell 102 umfasst z.B. einen Gaussprozess oder ein bayesianisches neuronales Netzwerk.
  • Das Modell 102 ist abhängig vom wenigstens einen Hyperparameter 104 definiert.
  • Der wenigstens eine Hyperparameter 104 ist z.B. ein Parameter des Gaussprozesses oder des bayesianischen neuronalen Netzwerks.
  • Das Modell 102 umfasst eine Wahrscheinlichkeitsverteilung, die abhängig vom wenigstens Hyperparameter 104 definiert ist. Die Wahrscheinlichkeitsverteilung wird z.B. im Schritt 202 mit einem vorgegebenen z.B. zufällig bestimmten wenigsten einen Hyperparameter 104 bereitgestellt.
  • In einem Schritt 204 wird in wenigstens einer Iteration für den wenigstens einen Hyperparameter 104 eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter 104 bestimmt.
  • In der wenigstens einen Iteration wird eine Instruktion für eine erste Messung abhängig vom Modell 102 bestimmt und ausgegeben. Wenigstens ein Wert des wenigstens einen Hyperparameters 104 wird abhängig von der ersten Messung bestimmt. Die erste Messung kann an dem Gerät 116 ausgeführt werden oder durch Simulation mit einem Simulationsmodell, das das Gerät 116 nachbildet.
  • Die a posteriori Verteilung wird z.B. abhängig von einer Stichprobe bestimmt, die aus einer Menge von Werten für den wenigstens einen Hyperparameter 104 gezogen wird.
  • Mit dem Modell 102 werden mehrere verschiedene der wenigstens einen Hyperparameter 104, die aus dieser a posteriori Verteilung bestimmt werden, abhängig von Trainingsdaten D bestimmt. Für eine erste Iteration sind z.B. anfängliche Trainingsdaten D=D_0 vorgesehen.
  • Mit den Trainingsdaten D wird ein Satz der Hyperparameter 104 bestimmt.
  • Aus dem Satz der wenigstens einen Hyperparameter 104 wird im Beispiel der wenigstens eine Hyperparameter 104 ausgewählt, der gemäß einer vorgegebenen Metrik am besten geeignet ist. Im Beispiel ist das der Fall, wenn die nicht-bayesianische Art der Schätzung der Hyperparameter 104 ausgeführt wird. Sofern die bayesianischen Art der Schätzung der Hyperparameter 104 wird eine a-posteriori Verteilung über Werte für die Hyperparameter 104 bestimmt.
  • Die Trainingsdaten D umfassen z.B. die Instruktionen für eine Messung am Gerät 116 und/oder die Messung. In einem Beispiel umfassen die Trainingsdaten D paarweise je eine Instruktion x und eine Messung y.
  • Die Trainingsdaten D werden im Beispiel abhängig von einem Gütemaß Info (x) bestimmt. Das Gütemaß Info (x) umfasst einen Erwartungswert für eine Entropie oder eine Varianz. Die Entropie oder die Varianz ist abhängig von der Wahrscheinlichkeitsverteilung.
  • Im Beispiel wird eine Instruktion x* für die Messung abhängig vom Gütemaß Info (x) bestimmt. Beispielsweise ist das Gütemaß Info (x) abhängig von den Instruktionen x definiert, wobei die Instruktion x* = argmaxx Info (x) bestimmt wird, welche den Erwartungswert für die Entropie oder den Erwartungswert für die Varianz maximiert.
  • Die Trainingsdaten D werden im Beispiel durch die Instruktion x* und eine Messungen y ergänzt, die bei Ansteuern des Geräts 116 mit der Instruktion x* erfasst wird. Die Instruktion x' werden abhängig vom Gütemaß Info (x) bestimmt. Der wenigstens eine Hyperparameter 104 wird basierend auf den Trainingsdaten D mit einer Ziel-Funktion bestimmt.
  • Im Beispiel wird die Messung y für die Instruktion x* am Gerät 116 bestimmt, und die Trainingsdaten durch das Paar (x*, y) ergänzt.
  • Es kann auch vorgesehen sein, dass der wenigstens eine Hyperparameter 104 abhängig von Trainingsdaten, die Instruktionen für eine Simulation einer Messung, die am Gerät 116 ausführbar ist, und/oder die simulierte Messung umfassen, bestimmt wird.
  • In einem Beispiel definiert der wenigstens eine Hyperparameter 104 einen oder mehrere Kernel-Parameter γ. Die Wahrscheinlichkeitsverteilung des Modells 102 wird in diesem Fall mittels Hamiltonian Monte Carlo, HMC, bestimmt um verschiedene Kernel-Parameter γi ~ p (γ|D) aus einer für die Trainingsdaten D gegebenen a posteriori Verteilung p (γ|D) zu ziehen. Damit wird die Wahrscheinlichkeitsverteilung des jeweiligen Modells 102 bestimmt: p ( f * | x * , D ) = p ( f * | x * , γ , D ) p ( γ | D ) d γ 1 n γ i p ( γ | D ) p ( f * | x * , γ i , D )
    Figure DE102022210474A1_0001
  • Die Stichproben γi aus γi ~ p (γ|D) werden z.B. dadurch bestimmt, dass eine erste Stichprobe γ0 aus einer a priori Verteilung p(y) bestimmt wird und zudem eine Hilfsvariable ρ0 ~ N (0, M) abhängig von einer Normalverteilung N bestimmt wird, die eine vorgegebene Kovarianzmatrix M aufweist.
  • Anschließend werden die Stichproben γi iterativ bestimmt, z.B. in i=1:) Iterationen i.
  • In einer Iteration i werden die Stichproben γi und ρi abhängig von den Stichproben γi-1 und ρi-1 der vorherigen Iteration i-1 bestimmt, wobei folgende Differentialgleichung verwendet wird: d γ d t = d H d ρ ' , d ρ d t = d H d γ
    Figure DE102022210474A1_0002
    wobei H ( γ , ρ ) = log  p ( D | γ ) + 1 2 ρ T M 1 ρ
    Figure DE102022210474A1_0003
  • Es kann vorgesehen sein, einen nummerischen Ansatz zur Lösung der Differentialgleichung einzusetzen, der z.B. einen Metropolis-Hastings Rejection Step verwendet und γi und ρi auf γi-1, und ρi-1 zurücksetzt, wenn eine Lösung zurückgewiesen wird.
  • Das Gütemaß Info (x) wird im Beispiel abhängig davon bestimmt, wobei p ( f * | x * , γ i , D ) = 1 n i = 1 n N ( f * ; μ i ( x * ) , σ i 2 ( x * ) )
    Figure DE102022210474A1_0004
    und die Entropie H ( f | x , D ) = p ( f | x , D ) log ( p ( f | x , D ) ) d y
    Figure DE102022210474A1_0005
  • Diese wird zum Beispiel quadratisch approximiert durch nummerische Integration oder durch eine Normalapproximation: μ ( x ) = 1 n i = 1 N μ i ( x )
    Figure DE102022210474A1_0006
    σ 2 ( x ) = ( 1 n i = 1 N σ i 2 ( x ) + μ i 2 ( x ) ) μ 2 ( x )
    Figure DE102022210474A1_0007
    wobei die näherungsweise bestimmte Entropie H 1 2 log ( 2 π σ 2 ( x ) )
    Figure DE102022210474A1_0008
    ist.
  • Es kann vorgesehen sein, dass in wenigstens einer der Iteration vorangehenden Iterationen eine vorangehende a posteriori Verteilung bestimmt wird. Es kann vorgesehen sein, dass in mehreren der Iteration vorangehenden Iterationen je ein vorangehende a posteriori Verteilung bestimmt wird.
  • Es kann vorgesehen sein, dass eine Charakteristik, insbesondere eine Entropie oder eine Varianz, der a posteriori Verteilung bestimmt wird.
  • Anschließend wird ein Schritt 206 ausgeführt. Im Beispiel wird der Schritt 206 ausgeführt, wenn die Bedingung vorliegt, bei der eine nicht-bayesianische Schätzung durchgeführt wird. Im Beispiel wird ansonsten die Verteilung bestimmt.
  • Im Schritt 206 wird geprüft, ob die a posteriori Verteilung eine Bedingung erfüllt.
  • Wenn die a posteriori Verteilung die Bedingung erfüllt wird ein Schritt 208 ausgeführt. Anderenfalls wird der Schritt 204 ausgeführt.
  • Die a posteriori Verteilung ordnet in einem Beispiel Werten für den wenigstens einen Hyperparameter 104 ihre Wahrscheinlichkeitsmasse zu.
  • Die Bedingung umfasst in einem Beispiel ein erstes Kriterium, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz von Wahrscheinlichkeitsmassen der Verteilung innerhalb eines Intervalls liegen.
  • Das Intervall ist z.B. abhängig von der größten Wahrscheinlichkeitsmasse der Verteilung definiert. Das Intervall umfasst z.B. diese größte Wahrscheinlichkeitsmasse.
  • Alternativ kann die a posteriori Verteilung auch kontinuierlichen Werten ihre Wahrscheinlichkeitsdichte zuordnen, wobei die Bedingung ein erstes Kriterium umfasst, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz der Wahrscheinlichkeitsmasse der Verteilung innerhalb eines Intervalls liegen, das abhängig von der größten Wahrscheinlichkeitsdichte der Verteilung definiert ist, und diese umfasst, und wobei geprüft wird, ob dieses Kriterium erfüllt ist.
  • Im Schritt 206 wird optional geprüft, ob das erste Kriterium erfüllt ist.
  • Die Bedingung umfasst in einem Beispiel ein zweites Kriterium, das erfüllt ist, wenn ein Abstand, insbesondere eine Kullback-Leibler Divergenz, zwischen der a posteriori Verteilung und einer Gaussverteilung kleiner als eine erste Schwelle ist. Im Beispiel ist die Gaussverteilung vorgegeben.
  • Im Schritt 206 wird optional geprüft, ob das zweite Kriterium erfüllt ist.
  • Die Bedingung umfasst in einem Beispiel ein drittes Kriterium, das erfüllt ist, wenn die a posteriori Verteilung unimodal ist.
  • Im Schritt 206 wird optional geprüft, ob das dritte Kriterium erfüllt ist.
  • Die Bedingung umfasst in einem Beispiel ein viertes Kriterium, das erfüllt ist, wenn ein Unterschied, insbesondere eine Kullback-Leibler Divergenz, zwischen einer vorangehenden a posteriori Verteilung und der a posteriori Verteilung kleiner als eine zweite Schwelle ist.
  • Im Schritt 206 wird optional geprüft, ob das vierte Kriterium erfüllt ist.
  • Die Bedingung umfasst in einem Beispiel ein fünftes Kriterium, das erfüllt ist, wenn die Charakteristik kleiner als eine dritte Schwelle ist.
  • Im Schritt 206 wird optional geprüft, ob das fünfte Kriterium erfüllt ist.
  • Es kann vorgesehen sein, dass die a posteriori Verteilung die Bedingung erfüllt, wenn die a posteriori Verteilung und wenigstens eine vorangehende a posteriori Verteilung die Bedingung oder wenigstens eines der Kriterien erfüllt.
  • Im Schritt 208 wird in wenigstens einer Iteration wenigstens ein Wert des wenigstens einen Hyperparameters 104 bestimmt.
  • Im Schritt 208 wird im Beispiel dann, wenn die Bedingung erfüllt ist, die nicht-bayesianische Schätzung der Hyperparameters 104 durchgeführt. Im Beispiel wird dann, wenn die Bedingung nicht erfüllt ist, wird die Verteilung bayesianisch bestimmt.
  • In der wenigstens einen Iteration wird eine Instruktion für eine zweite Messung abhängig vom Modell 102 bestimmt und ausgegeben. Im Beispiel wird wenn die Bedingung vorliegt, bei der eine nicht-bayesianische Schätzung durchgeführt wird, wenigstens ein Wert des wenigstens einen Hyperparameters 104 abhängig von der zweiten Messung bestimmt. Im Beispiel wird ansonsten die Verteilung über die Werte der Hyperparameter 104 bestimmt. Die zweite Messung kann an dem Gerät 116 ausgeführt werden oder durch Simulation mit einem Simulationsmodell, das das Gerät 116 nachbildet.
  • Der Wert wird z.B. abhängig von einer Lösung eines Optimierungsproblems bestimmt, das vom wenigstens einen Hyperparameter 104 abhängt.
  • In einem Beispiel wird der Wert abhängig von der Lösung eines Optimierungsproblems bestimmt, das abhängig von der Ziel-Funktion definiert ist, die vom wenigstens einen Hyperparameter 104 abhängt.
  • Die Zielfunktion ist z.B. f(γ) = log p(D\y). Das Informationskriterium Info (x) wird beispielsweise in jeder Iteration benutzt um eine Messungskonfiguration x auszuwählen. Die Zielfunktion f(γ) wird zwischen den Iterationen maximiert, im Beispiel wird die Zielfunktion f (γ) zwischen den Iterationen nur maximiert, falls die Bedingung vorliegt bei der eine nicht-bayesianische Schätzung durchgeführt werden soll. Ansonsten wird eine bayesianische Schätzung durchgeführt.
  • Der wenigstens eine Hyperparameter 104 wird mit dem Modell 102 für den Wert des Hyperparameters 104 abhängig von den Trainingsdaten D mit der Zielfunktion bestimmt.
  • Die Trainingsdaten D umfassen die Instruktionen x`. Die Instruktionen x* werden im Beispiel abhängig vom Gütemaß Info (x) bestimmt.
  • Das bedeutet, das Gütemaß Info (x) wird abhängig vom wenigstens einen Hyperparameter 104 bestimmt. Wenigstens eine Instruktion oder die Messung wird abhängig vom Gütemaß Info (x) bestimm. Dadurch wird active learning umgesetzt.
  • Es kann auch vorgesehen sein, dass der wenigstens eine Hyperparameter 104 abhängig von den Trainingsdaten, die Instruktionen für die Simulation der Messung, die am Gerät 116 ausführbar ist, und/oder die simulierte Messung umfassen, bestimmt wird.

Claims (13)

  1. Computerimplementiertes Verfahren für maschinelles Lernen, dadurch gekennzeichnet, dass ein probabilistisches Modell (102) bereitgestellt wird (202), insbesondere ein Modell (102), das eine Wahrscheinlichkeitsverteilung vorzugsweise einen Gaussprozess oder ein bayesianisches neuronales Netzwerk umfasst, wobei das Modell (102) abhängig von wenigstens einem Hyperparameter (104) insbesondere des Gaussprozesses oder des bayesianischen neuronalen Netzwerks definiert ist, wobei in einer Iteration eine Instruktion für eine erste Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei für den wenigstens einen Hyperparameter (104) abhängig von der ersten Messung eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) bestimmt wird (204), wobei in einer anderen Iteration eine Instruktion für eine zweite Messung abhängig vom Modell (102) bestimmt und ausgegeben wird, und wobei wenigstens ein Wert des wenigstens einen Hyperparameters (104) abhängig von der zweiten Messung bestimmt wird (208).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass geprüft wird (206), ob die a posteriori Verteilung eine Bedingung erfüllt, wobei anschließend der wenigstens eine Wert für den wenigstens einen Hyperparameter (104) bestimmt wird (208), wenn die a posteriori Verteilung die Bedingung erfüllt, oder wobei anschließend eine weitere a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) bestimmt wird (204), wenn die a posteriori Verteilung die Bedingung nicht erfüllt.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die a posteriori Verteilung Werten ihre Wahrscheinlichkeitsmasse zuordnet, wobei die Bedingung ein erstes Kriterium umfasst, das erfüllt ist, wenn mehr als ein vorgegebener Prozentsatz von Wahrscheinlichkeitsmassen der Verteilung innerhalb eines Intervalls liegen, das abhängig von der größten Wahrscheinlichkeitsmasse der Verteilung definiert ist, und diese umfasst, und wobei geprüft wird (206), ob das erste Kriterium erfüllt ist.
  4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die Bedingung ein zweites Kriterium umfasst, das erfüllt ist, wenn ein Abstand, insbesondere eine Kullback-Leibler Divergenz, zwischen der a posteriori Verteilung und einer Gaussverteilung kleiner als eine erste Schwelle ist, und wobei geprüft wird (206), ob das zweite Kriterium erfüllt ist.
  5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass die Bedingung ein drittes Kriterium umfasst, das erfüllt ist, wenn die a posteriori Verteilung unimodal ist, und wobei geprüft wird (206), ob das dritte Kriterium erfüllt ist.
  6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass in mehreren der Iteration vorangehenden Iterationen je ein vorangehende a posteriori Verteilung bestimmt wird (204), wobei die Bedingung ein viertes Kriterium umfasst, das erfüllt ist, wenn ein Unterschied, insbesondere eine Kullback-Leibler Divergenz, zwischen einer vorangehenden a posteriori Verteilung und der a posteriori Verteilung kleiner als eine zweite Schwelle ist, und wobei geprüft wird (206), ob das vierte Kriterium erfüllt ist.
  7. Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass eine Charakteristik, insbesondere eine Entropie oder eine Varianz, der a posteriori Verteilung bestimmt wird (204), wobei die Bedingung ein fünftes Kriterium umfasst, das erfüllt ist, wenn die Charakteristik kleiner als eine dritte Schwelle ist, und wobei geprüft wird (206), ob das fünfte Kriterium erfüllt ist.
  8. Verfahren nach einem der Ansprüche 2 bis 7, dadurch gekennzeichnet, dass in wenigstens einer der Iteration vorangehenden Iterationen eine vorangehende a posteriori Verteilung bestimmt wird (204), wobei die a posteriori Verteilung die Bedingung erfüllt (206), wenn die a posteriori Verteilung und wenigstens eine vorangehende a posteriori Verteilung die Bedingung oder wenigstens eines der Kriterien erfüllt.
  9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass der Wert abhängig von einer Lösung eines Optimierungsproblems bestimmt wird (208), das vom wenigstens einen Hyperparameter abhängt, insbesondere abhängig von der Lösung eines Optimierungsproblems, das abhängig von einer Ziel-Funktion definiert ist, die vom wenigstens einen Hyperparameter abhängt, und/oder dass die a posteriori Verteilung abhängig von einer Stichprobe bestimmt wird (204), die aus einer Menge von Werten für den wenigstens einen Hyperparameter gezogen wird.
  10. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Modell (102) die Wahrscheinlichkeitsverteilung umfasst, wobei die Wahrscheinlichkeitsverteilung abhängig von wenigstens einem Hyperparameter (104) definiert ist, wobei dieser wenigstens eine Hyperparameter (104) abhängig von Trainingsdaten, die Instruktionen für eine Messung an einem Gerät (116) und/oder die Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird (204, 208), wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird, oder wobei der wenigstens eine Hyperparameter (104) abhängig von Trainingsdaten, die Instruktionen für eine Simulation einer Messung, die an einem Gerät (116) ausführbar ist, und/oder die simulierte Messung umfassen bestimmt wird, und wobei wenigstens eine Instruktion oder die Messung abhängig von einem Gütemaß bestimmt wird (204, 208), wobei das Gütemaß einen Erwartungswert für eine Entropie oder eine Varianz umfasst, die abhängig von der Wahrscheinlichkeitsverteilung bestimmt wird.
  11. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass in einer Iteration für den wenigstens einen Hyperparameter (104) eine a posteriori Verteilung über Werte für den wenigstens einen Hyperparameter (104) bestimmt wird (204), wobei in einer anderen Iteration wenigstens ein Wert des wenigstens einen Hyperparameters (104) bestimmt wird (208).
  12. Vorrichtung (100) für maschinelles Lernen, dadurch gekennzeichnet, dass die Vorrichtung (100) wenigstens einen Prozessor (110) und wenigstens einen Speicher (112) umfasst, wobei der wenigstens eine Prozessor (110) ausgebildet ist, computerlesbare Instruktionen auszuführen, wobei der wenigstens eine Speicher (112) dazu ausgebildet ist, ein Modell (102) und computerlesbare Instruktionen zu speichern, bei deren Ausführung durch den wenigstens einen Prozessor (110) das Verfahren nach einem der Ansprüche 1 bis 11 abläuft.
  13. Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst, bei deren Ausführung durch einen Computer ein Verfahren nach einem der Ansprüche 1 bis 11 abläuft.
DE102022210474.9A 2022-10-04 2022-10-04 Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen Pending DE102022210474A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102022210474.9A DE102022210474A1 (de) 2022-10-04 2022-10-04 Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen
US18/479,283 US20240028936A1 (en) 2022-10-04 2023-10-02 Device and computer-implemented method for machine learning
CN202311302655.XA CN117852628A (zh) 2022-10-04 2023-10-09 用于机器学习的设备和计算机实现的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022210474.9A DE102022210474A1 (de) 2022-10-04 2022-10-04 Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen

Publications (1)

Publication Number Publication Date
DE102022210474A1 true DE102022210474A1 (de) 2024-04-04

Family

ID=89576669

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022210474.9A Pending DE102022210474A1 (de) 2022-10-04 2022-10-04 Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen

Country Status (3)

Country Link
US (1) US20240028936A1 (de)
CN (1) CN117852628A (de)
DE (1) DE102022210474A1 (de)

Also Published As

Publication number Publication date
US20240028936A1 (en) 2024-01-25
CN117852628A (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
DE102018108779A1 (de) Schätzvorrichtung eines maschinellen Bearbeitungsfehlerfaktors
DE112017005640T5 (de) Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
DE102018128289A1 (de) Verfahren und vorrichtung für eine autonome systemleistung und zur einstufung
DE112017006891T5 (de) Bewegungslerneinrichtung, fertigkeitendiskriminationseinrichtung und fertigkeitendiskriminationssystem
DE102018108778A1 (de) Beschleunigungs- und Verzögerungssteuereinheit
DE102019114459A1 (de) Verfahren zum Scannen von Teilbereichen einer Probe mittels eines Rastermikroskops, Computerprogrammprodukt, computerlesbares Medium und System zum Scannen von Teilbereichen einer Probe mittels eines Rastermikroskops
DE112019000093T5 (de) Diskriminierungsvorrichtung und Maschinenlernverfahren
DE102018126434A1 (de) Testvorrichtung und Maschinenlernvorrichtung
DE202018106888U1 (de) Testvorrichtung
DE102022210474A1 (de) Vorrichtung und computerimplementiertes Verfahren für maschinelles Lernen
EP3467489A1 (de) Verfahren zur bestimmung der geometrie einer fehlstelle und zur bestimmung einer belastbarkeitsgrenze
DE102020205962B3 (de) Vorrichtung und Verfahren zum Betreiben eines Prüfstands
DE102022203171A1 (de) Verfahren zum Validieren einer Steuersoftware für eine Robotervorrichtung
DE202020107432U1 (de) Vorrichtung zur robusten Klassifikation und Regression von Zeitreihen
DE102020215136A1 (de) Verfahren zur automatisierten Bewertung eines Simulationsmodells
DE102019207016A1 (de) Verfahren zum Ermitteln eines Systemmodells für ein technisches System
DE102018210683B4 (de) Verfahren, Vorrichtung, Computerprogramm und Computerprogrammprodukt zur Normierung eines internen Gütemaßes eines Sensors eines Fahrzeuges und zum Ermitteln einer Existenzwahrscheinlichkeit
DE102020205963B3 (de) Vorrichtung und Computerimplementiertes Verfahren zum Betreiben eines Prüfstands
DE102020205131A1 (de) Verfahren und Vorrichtung zum Simulieren eines technischen Systems
DE102019002506A1 (de) Gerät zum Anpassen von Messvorgangsparametern, maschinelle Lernvorrichtung und System
DE102019209536A1 (de) Verfahren und Vorrichtung zur Bewertung und Auswahl von Signal-Vergleichsmetriken
DE102022209254A1 (de) Computerimplementiertes Verfahren und Vorrichtung zum Bestimmen einer Vorhersage für eine Größe eines technischen Systems mit einem Modell für maschinelles Lernen
DE102015223790B3 (de) Verfahren und Vorrichtung zur Modellauswahl bei der Objektverfolgung mit projizierenden Messungen
DE102020133654B3 (de) Computerimplementiertes Verfahren zur Modifizierung einer Komponente eines computergenerierten Modells eines Kraftfahrzeugs
DE102022206889A1 (de) Vorrichtung und computerimplementiertes Verfahren zum Ausführen eines Experiments mit einem technischen System oder mit einem Modell eines technischen Systems.