-
Stand der Technik
-
Die Erfindung betrifft ein computerimplementiertes Verfahren und eine Vorrichtung zum Bestimmen einer Vorhersage für eine Größe eines technischen Systems mit einem Modell für maschinelles Lernen.
-
G. Malkomes, C. Schaff, and R. Garnett. Bayesian optimization for automated model selection. In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 29. Curran Associates, Inc., 2016 offenbart eine Möglichkeit ein Modell für maschinelles Lernen zu bestimmen.
-
Offenbarung der Erfindung
-
Durch das computerimplementierte Verfahren und die Vorrichtung gemäß den unabhängigen Ansprüchen wird ein demgegenüber insbesondere hinsichtlich eines Verbrauchs von Rechenressourcen verbessertes Vorgehen bereitgestellt.
-
Das computerimplementierte Verfahren zum Bestimmen einer Vorhersage für eine Größe eines technischen Systems mit einem Modell für maschinelles Lernen sieht vor, dass ein Kern für das Modell abhängig von einem Auswahlkriterium und einem ersten Datensatz aus einer Menge von Kernen ausgewählt wird, wobei der erste Datensatz einander zugeordnete Eingangsgrößen und Ausgangsgrößen des technischen Systems umfasst, wobei das Auswahlkriterium für einen Kern aus der Menge von Kernen bestimmt wird, der abhängig von einer Akquisitionsfunktion aus der Menge von Kernen ausgewählt wird, wobei die Akquisitionsfunktion abhängig von einem zweiten Datensatz bestimmt wird, der Paare von Kernen aus der Menge von Kernen und ein Selektionskriterium umfasst, wobei die Paare von Kernen abhängig von einem Kern über je ein Paar von Kernen aus der Menge von Kernen und abhängig vom zweiten Datensatz bestimmt wird, wobei eine Repräsentation eines ersten Kerns und eine Repräsentation eines zweiten Kerns aus der Menge von Kernen bereitgestellt wird, wobei die Repräsentation des ersten Kerns wenigstens ein Symbol umfasst, das einen Kern charakterisiert, wobei die Repräsentation des zweiten Kerns wenigstens ein Symbol umfasst, das einen Kern charakterisiert, wobei ein Abstand zwischen dem ersten Kern und dem zweiten Kern abhängig von einer Differenz zwischen einer Anzahl von Symbolen, die in der Repräsentation des ersten Kerns einen vorgegebenen Kern charakterisieren, und einer Anzahl von Symbolen, die in der Repräsentation des zweiten Kerns den vorgegebenen Kern charakterisieren, oder einer Differenz zwischen insbesondere relativen Häufigkeiten dieser Symbole bestimmt wird, wobei der Kern über das Paar von Kernen zur Bestimmung des Kerns für das Modell abhängig vom Abstand bestimmt wird, und wobei die Vorhersage für die Größe, insbesondere eine Position, eine Geschwindigkeit oder eine Beschleunigung, mit dem Modell bestimmt wird. Der Kern des Modells, d.h. die Kovarianz des Modells, wird abhängig von einem Kern über Kernen bestimmt, d.h. einem Kern, der abhängig von Kernen d.h. Kovarianzen von zugrundeliegenden statistischen Hypothesen bestimmt wird. Der erste Kern repräsentiert eine erste statistische Hypothese über das technische System für das Modell. Der zweite Kern repräsentiert eine zweite statistische Hypothese über das technische System für das Modell. Der vorgegebene Kern stellt einen Basiskern dar, den der erste Kern oder der zweite Kern umfassen kann. Die Anzahl oder die relative Häufigkeit der Symbole gibt eine Häufigkeit an, mit der derselbe Basiskern verwendet wird. Die Häufigkeit stellt eine kondensierte statistische Repräsentation des jeweiligen Kerns dar. Anstatt die Differenz der beiden Kerne direkt zu bestimmen, wird ein Abstand zwischen den beiden Kern mit der kondensierten statistischen Repräsentation bestimmt. Diese ist wesentlich weniger Rechenzeitintensiv und ermöglicht eine Berechnung mit wesentlich geringeren Rechenressourcen als die Bestimmung der Differenz der mit den Kernen assozierterten Gaußprozessen im Funktionraum. Dies beschleunigt jede Iteration in einer Suche mittels Bayesianischer Optimierung über die Kerne aus der Menge der Kerne, sodass schneller ein optimaler Kern für den gegebenen Datensatz des technischen Systems gefunden werden kann
-
Es kann vorgesehen sein, dass die Repräsentation des ersten Kerns wenigstens ein Symbol umfasst, das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind, wobei die Repräsentation des ersten Kerns wenigstens eine Abfolge von Symbolen umfasst, die eine Anwendung wenigstens eines Operators auf einen Kern charakterisiert, wobei die Repräsentation des zweiten Kerns wenigstens ein Symbol umfasst, das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind, wobei die Repräsentation des zweiten Kerns wenigstens eine Abfolge von Symbolen umfasst, die eine Anwendung wenigstens eines Operators auf einen Kern charakterisiert, wobei der Abstand abhängig von einer Differenz zwischen einer Anzahl von Abfolgen in der ersten Repräsentation, die ein Symbol für den vorgegebenen Kern umfassen, und einer Anzahl von Abfolgen in der zweiten Repräsentation die ein Symbol für den vorgegebenen Kern umfassen oder einer Differenz zwischen insbesondere relativen Häufigkeiten dieser Abfolgen, bestimmt wird. Der Kern des Modells wird beispielsweise abhängig von zusammengesetzten Kernen bestimmt. Der Operator definiert, auf welche Art ein Kern in der Zusammensetzung berücksichtigt wird. Die Abfolge der Symbole gibt eine Reihenfolge an, in der die Operatoren auf einen Kern angewendet werden. Die Anzahl oder relative Häufigkeit der Abfolgen gibt eine Häufigkeit an, mit der dieselben Operatoren in derselben Reihenfolge auf denselben Basiskern angewendet werden. Eine Berücksichtigung dieser Häufigkeit des verbessert das Modell zusätzlich.
-
Es kann vorgesehen sein, dass die Repräsentation des ersten Kerns wenigstens ein Symbol umfasst, das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind, wobei die Repräsentation des ersten Kerns wenigstens eine Abfolge von Symbolen umfasst, die eine Anwendung wenigstens eines Operators auf wenigstens zwei Kerne charakterisiert, wobei die Repräsentation des zweiten Kerns wenigstens ein Symbol umfasst, das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind, wobei die Repräsentation des zweiten Kerns wenigstens eine Abfolge von Symbolen umfasst, die eine Anwendung wenigstens eines Operators auf wenigstens zwei Kerne charakterisiert, wobei der Abstand abhängig von einer Differenz zwischen einer Anzahl von Abfolgen in der ersten Repräsentation, die ein Symbol für den vorgegebenen Kern und wenigstens einen weiteren Kern umfassen, und einer Anzahl von Abfolgen in der zweiten Repräsentation die ein Symbol für den vorgegebenen Kern und wenigstens einen weiteren Kern umfassen oder einer Differenz zwischen insbesondere relativen Häufigkeiten dieser Abfolgen, bestimmt wird. Die Abfolge definiert die Reihenfolge von Kernen und Operatoren in der Zusammensetzung. Die Anzahl oder relative Häufigkeit von Abfolgen gibt eine Häufigkeit an, mit der derselbe Operator oder dieselben Operatoren auf dieselben Kerne angewendet werden. Eine Berücksichtigung dieser Häufigkeit verbessert das Modell zusätzlich.
-
Vorzugsweise wird für wenigstens eine der Differenzen ein Gewicht bestimmt, wobei der Abstand abhängig von einer Summe bestimmt wird, in der die wenigstens eine Differenz mit dem Gewicht gewichtet ist. Eine gewichtete Berücksichtigung der Häufigkeiten verbessert das Modell zusätzlich.
-
Vorzugsweise wird das Gewicht in einem Training des Modells auf wenigstens einem der Datensätze bestimmt. Das bedeutet, die Gewichte werden im Training mitgelernt. Diese verbessert das Modell zusätzlich.
-
Es kann vorgesehen sein, dass der erste Kern Parameter umfasst, wobei abhängig von wenigstens einem der Datensätze Werte für die Parameter bestimmt werden, die ein vorgegebenes Kriterium erfüllen. Dadurch wird der Kern im Training auf dem Datensatz trainiert.
-
In einem Beispiel wird die Vorhersage für die Größe ausgegeben. Das bedeutet, die Vorhersage für die Größe des technischen Systems wird mit dem Modell bestimmt und ausgegeben. Das Modell stellt z.B. einen virtuellen Sensor für die Größe dar.
-
In einem Beispiel wird eine Eingangsgröße des Modells empfangen oder erfasst, wobei die Vorhersage für die Größe mit dem Modell abhängig von der Eingangsgröße bestimmt wird. Das bedeutet, die Eingangsgröße beeinflusst die Größe des technischen Systems, die mit dem Modell bestimmt wird. Die Eingangsgröße stellt z.B. eine messbare oder gemessene Betriebsgröße des Systems oder seiner Umgebung dar.
-
Eine Vorrichtung zum Bestimmen einer Vorhersage für eine Größe eines technischen Systems mit einem Modell für maschinelles Lernen umfasst wenigstens einen Prozessor und wenigstens einen Speicher, wobei der Speicher ausgebildet ist, Instruktionen zu speichern, bei deren Ausführung das Verfahren abläuft, wobei der Prozessor ausgebildet ist, die Instruktionen auszuführen. Diese Vorrichtung hat Vorteile, die denen des Verfahrens entsprechen.
-
Die Vorrichtung umfasst in einem Beispiel eine Schnittstelle, die ausgebildet ist, die Vorhersage für die Größe auszugeben.
-
Die Vorrichtung umfasst in einem Beispiel eine Schnittstelle, die ausgebildet ist, eine Eingangsgröße für das Modell zu empfangen oder zu erfassen.
-
Ein Computerprogramm umfassend von einem Computer ausführbare Instruktionen, bei deren Ausführung durch den Computer das Verfahren abläuft, weist Vorteile auf, die denen des Verfahrens entsprechen.
-
Weitere vorteilhafte Ausführungsformen sind der folgenden Beschreibung und der Zeichnung entnehmbar. In der Zeichnung zeigt:
- 1 eine schematische Darstellung einer Vorrichtung zum Bestimmen einer Vorhersage für eine Größe eines technischen Systems mit einem Modell für maschinelles Lernen,
- 2 Schritte in einem Verfahren zum Bestimmen der Vorhersage für die Größe mit dem Modell,
- 3 ein Baum als Repräsentation eines beispielhaften zusammengesetzten ersten Kerns für das Modell,
- 4 ein Baum als Repräsentation eines beispielhaften zusammengesetzten zweiten Kerns für das Modell,
-
In 1 ist eine Vorrichtung 100 schematisch dargestellt. Die Vorrichtung 100 umfasst wenigstens einen Prozessor 102 und wenigstens einen Speicher 104.
-
Die Vorrichtung 100 umfasst eine erste Schnittstelle 106 und eine zweite Schnittstelle 108.
-
In 1 ist ein technisches System 110 schematisch dargestellt.
-
Das technische System 110 ist z.B. ein physikalisches System. Das technische System 110 ist z.B. eine computergesteuerte Maschine, z.B. ein Roboter, insbesondere ein Fahrzeug, eine Fertigungsmaschine, ein Haushaltsgerät, ein Werkzeug, ein persönliches Assistenzsystem oder ein Zugangskontrollsystem.
-
Die Vorrichtung 100 ist zum Bestimmen einer Vorhersage yi für eine Größe y des technischen Systems 110 mit einem Modell 112 für maschinelles Lernen ausgebildet.
-
Die Größe y umfasst eine physikalische Größe z.B. eine Position, eine Geschwindigkeit oder eine Beschleunigung des technischen Systems 110 oder eines Teils des technischen Systems 100.
-
Im Beispiel umfasst der wenigstens eine Speicher 104 das Modell 112.
-
Der wenigstens eine Speicher 104 ist im Beispiel ausgebildet, Instruktionen zu speichern, bei deren Ausführung ein im Folgenden beschriebenes computerimplementiertes Verfahren abläuft.
-
Der wenigstens eine Prozessor 102 ist ausgebildet, die Instruktionen auszuführen.
-
In einem Beispiel ist die erste Schnittstelle 106 ausgebildet, die Vorhersage yi für die Größe y auszugeben.
-
In einem Beispiel ist die zweite Schnittstelle 108 ausgebildet, eine Eingangsgröße X für das Modell 112 zu empfangen oder zu erfassen. Die Eingangsgröße X umfasst in einem Beispiel eine physikalische Größe z.B. eine Position, eine Geschwindigkeit oder eine Beschleunigung des technischen Systems 110 oder eines Teils des technischen Systems 100.
-
Das technische System 110 umfasst im Beispiel optional eine erste Einrichtung 114 zum Empfangen der Vorhersage yi für die Größe y von der ersten Schnittstelle 106.
-
Die erste Einrichtung 114 ist vorzugsweise dazu ausgebildet, das technische System 110 abhängig von der Vorhersage yi für Größe y anzusteuern, z.B. um die Position, die Geschwindigkeit oder die Beschleunigung des technischen System 110 oder des Teils davon zu beeinflussen.
-
Das technische System 110 umfasst im Beispiel optional eine zweite Einrichtung 116 zum Senden der Eingangsgröße X an die zweite Schnittstelle 108.
-
Die zweite Einrichtung 116 ist vorzugsweise dazu ausgebildet, die Eingangsgröße X am technischen System 110 zu erfassen.
-
Ein Beispiel für die Instruktionen sind auf einem Computer ausführbare Instruktionen, bei deren Ausführung durch den Computer das Verfahren abläuft. In einem Beispiel umfasst ein Computerprogramm die Instruktionen.
-
Die Vorrichtung 100 ist ausgebildet, das Modell 112 an einen vorgegebenen Datensatz D anzupassen.
-
Das Modell 112 umfasst einen Gaußprozesse GP(µ(·),k*(·,·)) mit einem Kern k*(·,·). Der Kern k*(·,·) wird mit einem Gaußprozess GP(µc,(·),KSOT(·,·)) über Gaußprozesse GP(µ(·),k(·,·)) bestimmt, wobei µc(·) eine Mittelwertsfunktion und KSOT(·,·) einen Kern bezeichnet. Der Kern KSOT(·,·) umfasst eine Mehrzahl von Kernen k. Der Kern k*(·,·) wird im Beispiel durch Bayesianische Optimierung, d.h. Bayes'sche Optimierung, abhängig vom Kern KSOT(·,·) bestimmt.
-
Ein Gaußprozess GP ist eine Verteilung über Funktionen f:X →ℝ über einen vorgegebenen Eingangsraum X. Die Verteilung ist vollständig durch eine Kovarianzfunktion, d.h. einen Kern, K(x,x') = Cov(f(x),f(x')) und eine Mittelwertfunktion µ(x):E[f(x)] definiert, wobei E der Erwartungswert ist. Der Gaußprozess wird im Folgenden kurz mit f~GP(µ(·),k(·,·)) bezeichnet.
-
Im Beispiel sind die Gaußprozesse zentriert, d.h. µc(·) = konstant,z.B.0 und µ(·) = 0.
-
Ein Kern k ist eine Funktion k: X × X →ℝ. Der Kern k erzeugt die Haupteigenschaften eines Musters, z.B.Glattheit, Periodizität oder weit reichende Korrelation. Der Kern k kann als Ähnlichkeitsmaß zwischen zwei Elementen des Eingangsraums X interpretiert werden, wobei der Kern k des Gaußprozesses GP den Werten der Funktion, deren Eingangsgrößen X gemäß dem Kern k ähnlicher zueinander sind als andere Werte, höhere Werte im Kern k zuordnet, als den anderen Werten.
-
Der Gaußprozess GP ist nicht auf einen Euklidischen Eingangsraum X ⊂ ℝd einer Dimension d beschränkt, sondern kann auch auf einem strukturierten Raum wie einem Baum oder Graphen definiert sein. Der Gaußprozess über Gaußprozesse ist im Beispiel auf dem strukturierten Raum definiert.
-
Im Beispiel wird mit dem Gaußprozess GP(µ(·),k*(·,·)) eine Vorhersage yi für die Größe y bestimmt. Für die Vorhersage yi wird ein Datensatz D = (X,y) vorgegeben, der die Eingangsgröße X und die Größe y umfasst, wobei angenommen wird, dass f~GP(µ(·),k*(·,·)) und dass die Vorhersage yi abhängig von einer Störgröße ∈i bestimmt wird: yi = f(xi) + ∈i wobei die Störgröße ∈i unabhängig und gleichverteilt aus einer Normalverteilung N(0,σ2) mit der Varianz σ2 gezogen wird: ∈i~N(0,σ2).
-
Der Datensatz D wird z.B. am technischen System 110 gemessen.
-
Die Vorrichtung 100 ist ausgebildet, mit dem Datensatz D einen Gaußprozess mit Mittelwertfunktion µ
D(x) und Kovarianzfunktion, d.h. Kern k
D(x,y), zu bestimmen:
wobei
und
und I die Einheitsmatrix passender Dimension ist. Dieser Gaußprozess modelliert eine a posteriori Verteilung p(f|D) über die Funktion f.
-
Eine Vorhersage einer Wahrscheinlichkeit p(f*|x*,D) wird im Beispiel mit einer Verteilung p(f*|x*,D) =N(µD(x*),kD (x*,x*)) bestimmt.
-
Die Vorrichtung 100 ist ausgebildet, mit dem Datensatz D Werte für Parameter θ zu bestimmen, durch die der Kern kD definiert ist. In einem Beispiel werden die Werte der Parameter θ durch maximieren einer marginalen Likelihood p(y|X,θ,σ2) = N(x; µ(X),kθ (X,X) + σ2I bestimmt, wobei / die Einheitsmatrix passender Dimension ist.
-
In einem Beispiel ist für die Parameter θ eine a priori Wahrscheinlichkeit p(θ) vorgegeben, wobei die Werte der Parameter θ durch eine Schätzung einer maximalen a-posteriori Wahrscheinlichkeit p(θ|D) bestimmt werden.
-
Im Beispiel wird mit dem Datensatz D eine strukturelle Form des Kerns kD bestimmt. Die strukturelle Form bestimmt eine statistische Hypothese, von der angenommen wird, dass sie für den Prozess der Vorhersage zutrifft.
-
Die Vorrichtung 100 ist ausgebildet, eine Auswahl in einem diskreten Raum von Kernen K:= {k1,k2,...} zu treffen. Es kann vorgesehen sein, dass der Raum unendlich ist.
-
Die Vorrichtung 100 ist ausgebildet, abhängig von einem Auswahlkriterium g(k
D|D):K→ℝ das folgende Optimierungsproblem zu lösen:
wobei k* den Kern des Modells 112 bezeichnet, der das Optimierungsproblem löst. Die Vorrichtung 100 ist im Beispiel ausgebildet, das Optimierungsproblem evidenzbasiert zu lösen. Das Auswahlkriterium g(k
D|D) ist im Beispiel ausgehend von einer vorgegebene a-priori Wahrscheinlichkeit p(θ) für die Parameter θ des Kerns k
D eine logarithmische Evidenz eines marginalisierten Gaußprozesses
wobei p(σ
2) eine Varianz der Likelihood und p(y|X,k) eine Evidenz für das Modell 112. In einem Beispiel wird das Auswahlkriterium g(k
D|D) mit einer Laplace-Approximation abhängig von p(θ,σ
2|D) bestimmt.
-
Im Raum von Kernen K ist für einen ersten Kern ki(x,x') und einen zweiten Kern kj (x,x') durch einen ersten Ausdruck ki(x,x') + kj (x,x') ein zusammengesetzter Kern definiert. Im Raum von Kernen K ist für den ersten Kern ki(x,x') und den zweiten Kern kj (x,x') durch einen zweiten Ausdruck ki(x,x') × kj (x,x') ein zusammengesetzter Kern definiert. Der erste Kern ki(x,x') ist ein Basiskern. Der erste Kern ki(x,x') wird durch ein erstes Symbol Bi repräsentiert. Der zweite Kern ki(x,x') ist ein Basiskern. Der zweite Kern ki(x,x') wird durch ein zweites Symbol Bj repräsentiert. Der erste Ausdruck ki(x,x') + kj(x, x') ist ein Beispiel für einen zusammengesetzen Kern. Der zweite Ausdruck ki(x,x') × kj(x,x') ist ein Beispiel für einen einen zusammengesetzen Kern.
-
Der Raum von Kernen K stellt einen Suchraum dar. Im Raum von Kernen K sind Basiskerne und zusammengesetzte Kerne auffindbar. Ein zusammengesetzter Kern umfasst wenigstens zwei Basiskerne, auf die wenigstens ein Operator angewendet wird. Ein Basiskern wird durch ein Symbol B repräsentiert. Ein Ausdruck, der einen zusammengesetzten Kern definiert, wird durch ein Symbol S repräsentiert.
-
Für einen Basiskern B und einen Ausdruck S sind zusammengesetzte Kerne durch folgende Operationen erreichbar:
wobei ein Operator + eine Addition von einem Basiskern zu einem Ausdruck, ein Operator × eine Multiplikation eines Ausdrucks mit einem Basiskern, und eine Operation → einen Austausch eines Basiskern durch einen anderen Basiskern bezeichnet.
-
Im Beispiel wird eine Menge von τ Symbolen für Basiskerne {B1,... ,Bτ) und eine Menge von l Symbolen für Operatoren {T1,..., Tl verwendet, wobei Ti: Ξ × Ξ → Ξ Symbole für Operatoren auf einem Raum von möglichen Kernfunktionen Ξ darstellen.
-
Im Beispiel ist vorgesehen, einen Ausdruck zu bestimmen, wobei ein Operator auf einen Ausdruck und einen Basiskern angewendet wird: S → Ti(S,B). Der Operator ist durch ein Symbol Ti repräsentiert.
-
Im Beispiel ist vorgesehen, einen Basiskern gegen einen anderen Basiskern auszutauschen: B → B'
-
Die Vorrichtung 100 ist ausgebildet das Optimierungsproblem mittels einer symbolische Beschreibung mit den Symbolen zu lösen. Ein resultierender Suchraum K̃:= L
M einer Suchtiefe M ist definiert durch eine Menge von τ Basiskernen {k
1,..., k
τ}, die symbolisch durch τ Symbole {B
1,...,B
τ} repräsentiert werden, und eine Menge von Symbolen für Operatoren T
i: Ξ × Ξ → Ξ, mit
-
Im Suchraum K̃ sind Kerne k ∈ K̃ auffindbar. Es kann vorgesehen sein, dass ein zusammengesetzter Kern k durch unterschiedliche Ausdrücke aufgefunden wird. Im Beispiel ist vorgesehen, dass ein Baum Ti einen zusammengesetzten Kern repräsentiert. Im Beispiel ist für Bäume Ti eine Abbildung f: K̃ → {T1,T2,... } vorgesehen, die einen im Suchraum K̃ auffindbareren Kern ki ∈ K̃ auf einen Baum Ti abbildet, der diesen Kern ki repräsentiert. Beispielsweise ist die Vorrichtung 100 ausgebildet, diese Abbildung durch Filteroperationen umzusetzen, die mehrdeutige Abbildungen durch eine eindeutige Abbildung ersetzt.
-
Die Vorrichtung 100 ist ausgebildet, das Optimierungsproblem in Iterationen durch eine Bayesianische Optimierung zu lösen.
-
Die Vorrichtung 100 ist ausgebildet, für eine erste der Iterationen t = 0 Werte θ0 für die Parameter θ bereitzustellen. Die Vorrichtung 100 ist ausgebildet einen Datensatz D0 für die erste der Iterationen bereitzustellen.
-
Die Vorrichtung 100 ist ausgebildet abhängig vom Datensatz D0 je Iteration t einen Datensatz Dt zu bestimmen.
-
Die Vorrichtung 100 ist ausgebildet, den Gaußprozess GP(µc(·),KSOT(·,·)) über Gaußprozesse GP(µ(·),k(·,·)) in Iterationen t an einen jeweiligen Datensatz Dt anzupassen.
-
Die Vorrichtung 100 ist ausgebildet, abhängig vom Kern KSOT und dem jeweiligen Datensatz Dt den nächsten Kern kt zu bestimmen, für den das Auswahlkriterium g(kt|D) bestimmt wird.
-
Die Vorrichtung 100 ist optional dazu ausgebildet, eine Optimierung einer Akquisitionsfunktion a(k|Dt) in der Bayesianische Optimierung mittels eines evolutionären Algorithmus zu durchzuführen.
-
Die Vorrichtung 100 ist ausgebildet, den Kern k* zu bestimmen.
-
Im Beispiel ist ein Suchraum vorgesehen, der eine Menge von Kernel {k1,k2,...} umfasst. Der Kern k* wird im Beispiel durch eine Suche über dem Suchraum bestimmt, wobei das Auswahlkriterium g(kD\D), mit dem der Kern k* bestimmt wird, vom Datensatz D abhängt. Der Datensatz D umfasst die Eingangsgrößen X und die Ausgangsgrößen y.
-
Zur Suche wird eine Bayesianische Optimierung eingesetzt. Für die Bayesianische Optimierung wird der Gaußprozess GP(µc(·),KSOT(·,·)) verwendet. Im Beispiel wird der Kern KSOT des Gaußprozesses verwendet. Der Kern KSOT ist auf dem Suchraum definiert, d.h. der Kern KSOT ist eine Funktion auf dem Suchraum.
-
Der Kern KSOT ist eine Funktion die als Argumente je zwei Kernel umfasst. Der Kern KSOT(k1,k2) wird z.B. für zwei Kerne k1,k2 bestimmt, in dem man die Baumrepräsentation der beiden Kerne k1, vergleicht und eine Distanz dazwischen berechnet. Diese Distanz der Baumrepräsentation ist schnell berechenbar und enthält genug Informationen um eine aussagekräftige Distanz zu generieren. Der Kern KSOT beeinflusst maßgeblich die Bayesianische Optimierung Suche und führt somit schnell zu einem Kern k* der das Auswahlkriterium g(kD|D) maximiert.
-
Der Kern KSOT beschleunigt die Suche aus folgenden Gründen:
- - Der Kern KSOT definiert den Gaußprozess in der Bayesianischen Optimierung. Dieser Gaußprozess ist ein besseres Modell für die Zielfunktion, d.h. das Auswahlkriterium g(k|D), sodass die Bayesianischen Optimierung weniger Kerne probieren muss um einen guten zu finden.
- - Je Iteration braucht die Bayesiansche Optimierung selbst auch eine gewisse Rechenzeit - diese wird dadurch beschleunigt, dass nur die Bäume verwendet werden, um den Kern KSOT zu berechnen.
-
Das bedeutet, eine Bestimmung des Kerns k* umfasst eine Bestimmung der Werte für die Parameter θ, die ein vorgegebenes Kriterium erfüllen. Im Beispiel ist als Kriterium vorgesehen, dass die Werte für die Parameter θ das Optimierungsproblem lösen.
-
Die Vorrichtung 100 ist ausgebildet, insbesondere als Teil der Bayesianischen Optimierung den Kern k* und das Auswahlkriterium g(kD|D) aus der Iteration t zum Datensatz Dt+1 für die nächste Iteration t+1 hinzuzufügen. Das bedeutet, Dt+1 = DtU{(kD,g(kD|D)}.
-
In 2 sind Schritte im computerimplementierten Verfahren zum Bestimmen der Größe des technischen Systems 110 mit einem Modell 112 für maschinelles Lernen schematisch dargestellt.
-
Für ein Training des Modells 112 werden Schritte des Verfahrens in Iterationen für verschiedene Kerne ausgeführt. Der Kern k* für das Modell 112 wird im Training bestimmt.
-
Im Training wird z.B. je Iteration t der Datensatz Dt vorgegeben, wobei Werte für die Parameter θ bestimmt werden, die das vorgegebene Kriterium erfüllen. In den Iterationen wird ein Abstand zwischen zwei Kernen für eine Vielzahl von Paaren von einem ersten Kern ki und einem zweiten Kern kj abhängig von einer Differenz zwischen deren jeweiliger symbolischer Repräsentation bestimmt. Der Kern KSOT wird zur Bestimmung des Kerns k* des Modells 112 abhängig von Differenzen von Verteilungen über symbolische Repräsentationen bestimmt, die für die Vielzahl von Paaren von Kernen bestimmt werden.
-
Das Verfahren umfasst einen Schritt 202.
-
Im Schritt 202 wird eine Repräsentation des ersten Kerns ki und eine Repräsentation des zweiten Kerns kj bereitgestellt.
-
Die Repräsentation des ersten Kerns ki umfasst wenigstens ein Symbol, das einen Kern charakterisiert.
-
Die Repräsentation des zweiten Kerns kj umfasst wenigstens ein Symbol, das einen Kern charakterisiert.
-
Ein von einem Symbol repräsentierter Kern stellt einen Basiskern dar.
-
Im Beispiel sind für folgende Kerne folgende Symbole vorgesehen:
- linearer Kern: LIN
- periodischer Kern: PER
- quadratisch exponentieller Kern: SE
-
Für andere Basiskerne können andere Symbole vorgesehen sein.
-
Die Repräsentation des ersten Kerns ki umfasst wenigstens einen Basiskern. Beispielsweise ist der erste Kern ki ein aus mehreren Basiskernen zusammengesetzter Kern. Eine Repräsentation des zweiten Kerns kj umfasst wenigstens einen Basiskern. Beispielsweise ist der zweite Kern kj ein aus mehreren Basiskernen zusammengesetzter Kern.
-
Ein Beispiel für einen zusammengesetzten ersten Kern ist
wobei + und × Operatoren sind, und wie folgt je einem Symbol zugeordnet sind:
-
Andere Operatoren können auch vorgesehen sein. Eine Abfolge, in der die Operatoren auf die Kerne angewendet werden, ist in dem mathematischen Ausdruck durch die mathematische Rangfolge der Operatoren oder durch eine vorrangige Berechnung eines Teilstücks des Ausdruck, insbesondere durch ein Klammerpaar () definiert.
-
Ein Beispiel für einen zusammengesetzten zweiten Kern ist
-
Die Repräsentation eines zusammengesetzten Kerns kann auch als Baum dargestellt sein, in welchem ein Wurzelknoten ein Operand aus dem Ausdruck umfasst und in dem die Basiskerne aus dem Ausdruck als Blatt dargestellt sind.
-
In 3 ist ein erster Baum Ti als Repräsentation des beispielhaften zusammengesetzten ersten Kerns ki dargestellt.
-
In 4 ist ein zweiter Baum Tj als Repräsentation des beispielhaften zusammengesetzten zweiten Kerns kj dargestellt.
-
Das Verfahren umfasst einen Schritt 204.
-
Im Schritt 204 wird ein Abstand zwischen dem ersten Kern ki und dem zweiten Kern kj bestimmt. Der Abstand wird aus der jeweiligen Repräsentation der Kerne bestimmt. Dies ist wesentlich weniger rechenaufwändig als den Abstand der Kerne abhängig von Verteilungen der Kerne in einem Funktionenraum zu bestimmen.
-
Im Beispiel wird in der Repräsentation eines Kernes abhängig von einem vorgegebenen Kern eine Anzahl der Symbole bestimmt, die denselben Basiskern in der Repräsentation repräsentieren. Der vorgegebene Kern ist ein Basiskern. Im Beispiel wird eine jeweilige Anzahl für je einen der Basiskerne LIN, SE oder PER bestimmt. Das bedeutet, der vorgegebene Kern ist im Beispiel LIN, SE oder PER.
-
In einem ersten Beispiel wird jeweils eine erste Anzahl von Symbolen bestimmt, die in der Repräsentation des ersten Kerns ki den jeweils vorgegebenen Kern charakterisieren.
-
Für den beispielhaften ersten Kern ki werden z.B. aus dem ersten Baum Ti folgende erste Anzahlen für die Basiskerne LIN, SE und PER bestimmt:
-
Im ersten Beispiel wird jeweils eine zweite Anzahl von Symbolen bestimmt, die in der Repräsentation des zweiten Kerns kj den jeweils vorgegebenen Kern charakterisieren.
-
Für den beispielhaften zweiten Kern kj werden z.B. aus dem zweiten Baum Tj folgende zweite Anzahlen für die Basiskerne LIN, SE und PER bestimmt:
-
Im ersten Beispiel wird eine erste Differenz bestimmt. Die erste Differenz ist eine Differenz zwischen der ersten relativen Häufigkeit von Symbolen und der zweiten relativen Häufigkeit von Symbolen.
-
Die ersten relativen Häufigkeiten für die verschiedenen vorgegebenen Kerne, d.h. der jeweiligen Basiskerne, werden im Beispiel in einem Vektor zusammengefasst.
-
Für den beispielhaften ersten Kern k
i sind die Elemente des ersten Vektors ω
i,b aufgrund der Häufigkeit des Auftretens der einzelnen Basiskerne LIN, SE, PER in dieser Reihenfolge wie folgt definiert
-
Für den beispielhaften zweiten Kern k
j sind die Elemente des ersten Vektors ω
j,b aufgrund der Häufigkeit des Auftretens der einzelnen Basiskerne LIN, SE, PER in dieser Reihenfolge wie folgt definiert
-
Die erste Differenz wird im Beispiel je Basiskern bestimmt, d.h.
-
Der Abstand wird mit diesen Vektoren in einem Beispiel durch eine Summe der Beträge der elementweisen Differenzen bestimmt:
-
Das bedeutet, für Kerne, die auf mehreren verschiedenen Basiskernen basieren, wird der Abstand abhängig von den ersten Differenzen bestimmt. Der Abstand wird für Kerne, die auf einem Basiskern basieren, der mehrfach verwendet wird, abhängig von der ersten Differenz für diesen Basiskern bestimmt.
-
In einem zweiten Beispiel umfasst die Repräsentation des ersten Kerns ki, z.B. der erste Baum Ti, wenigstens ein Symbol das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind.
-
Im beispielhaften ersten Kern ki sind dies die Symbole ADD und MULT.
-
Im zweiten Beispiel umfasst die Repräsentation des ersten Kerns ki, z.B. der erste Baum Ti, wenigstens eine Abfolge von Symbolen, die eine Anwendung wenigstens eines Operators auf einen Kern charakterisiert.
-
Im beispielhaften ersten Kern ki sind dies die Abfolgen:
- ADD, ADD, MULT, PER: 1
- ADD, ADD, MULT, SE: 1
- ADD, ADD, SE: 1
- ADD, LIN: 1
-
Eine Abfolge repräsentiert einen Pfad vom Wurzelknoten zu einem Blatt. Die Anzahl gibt für einen Basiskern an, wie viele Pfade vom Wurzelknoten mit derselben Reihenfolge von Operanden existieren, die zu einem Blatt führen, das den vorgegebenen Basiskern repräsentiert.
-
Im zweiten Beispiel umfasst die Repräsentation des zweiten Kerns kj z.B. der zweite Baum Tj, wenigstens ein Symbol das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind.
-
Im zweiten Beispiel umfasst die Repräsentation des zweiten Kerns kj z.B. der zweite Baum Tj, wenigstens eine Abfolge von Symbolen, die eine Anwendung wenigstens eines Operators auf einen Kern charakterisiert.
-
Im beispielhaften zweiten Kern kj sind dies die Abfolgen:
- ADD, ADD, MULT, PER: 1
- ADD, ADD, MULT, LIN: 1
- ADD, ADD, SE: 2
- ADD, ADD, LIN: 1
-
Im zweiten Beispiel wird jeweils eine erste Anzahl von Abfolgen in der ersten Repräsentation, z.B. im ersten Baum Ti, bestimmt, die ein Symbol für den jeweils vorgegebenen Kern umfassen.
-
Im zweiten Beispiel wird jeweils eine zweite Anzahl von Abfolgen in der zweiten Repräsentation Tj bestimmt, die ein Symbol für den jeweils vorgegebenen Kern umfassen.
-
Beispielsweise werden die Anzahlen im jeweiligen Baum bestimmt.
-
Im zweiten einem Beispiel wird eine zweite Differenz bestimmt. Die zweite Differenz ist eine Differenz zwischen der ersten relativen Häufigkeit von Abfolgen und der zweiten relativen Häufigkeit von Abfolgen.
-
Der Abstand wird im zweiten Beispiel abhängig von der ersten und der zweiten Differenz bestimmt.
-
Der Abstand wird in einem Beispiel abhängig von einer Summe dieser Differenzen bestimmt.
-
Die relativen Häufigkeiten für die verschiedenen Abfolgen werden im Beispiel in einem Vektor zusammengefasst.
-
Für den beispielhaften ersten Kern k
i sind die Elemente eines ersten Vektors ω
i,p dafür aufgrund der Häufigkeit des Auftretens der einzelnen Abfolgen in der oben angegebenen Reihenfolge wie folgt definiert
-
Für den beispielhaften zweiten Kern k
j sind die Elemente des ersten Vektors ω
j,p dafür aufgrund der Häufigkeit des Auftretens der einzelnen Abfolgen in der oben angegebenen Reihenfolge wie folgt definiert
-
Die erste Differenz wird im Beispiel je Abfolge bestimmt, d.h.
-
Der Abstand wird mit diesen Vektoren in einem Beispiel durch eine Summe der Beträge der elementweisen Differenzen bestimmt:
-
Das bedeutet, für Kerne, die auf mehreren verschiedenen Abfolgen basieren, wird der Abstand abhängig von den zweiten Differenzen bestimmt. Der Abstand wird für Kerne, die auf einer Abfolge basieren, die mehrfach verwendet wird, abhängig von der zweiten Differenz für diese Abfolge bestimmt.
-
In einem dritten Beispiel umfasst die Repräsentation des ersten Kerns ki, z.B. der erste Baum Ti, wenigstens ein Symbol, das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind.
-
Im dritten Beispiel umfasst die Repräsentation des ersten Kerns ki, z.B. der erste Baum Ti, wenigstens eine Abfolge von Symbolen, die eine Anwendung wenigstens eines Operators auf wenigstens zwei Kerne charakterisiert.
-
Diese Abfolge von Symbolen ist im beispielhaften ersten Baum T
i durch Teilbäume charakterisiert, die wenigstens einen Operator und wenigstens zwei Blätter oder je ein Blatt umfassen. Der erste Baum T
i umfasst einen ersten Teilbaum 301, der den folgenden Teilausdruck repräsentiert:
-
Der erste Baum T
i umfasst einen zweiten Teilbaum 302, der den folgenden Teilausdruck repräsentiert:
-
Der erste Baum T
i umfasst einen dritten Teilbaum 303, der den folgenden Teilausdruck repräsentiert:
-
Der erste Baum T
i umfasst zwei vierte Teilbäume 304, die jeweils den folgenden Teilausdruck repräsentieren:
-
Der erste Baum T
i umfasst einen fünften Teilbaum 305, der den folgenden Teilausdruck repräsentiert:
-
Im dritten Beispiel umfasst die Repräsentation des zweiten Kerns kj z.B. der zweite Baum Tj, wenigstens ein Symbol, das einen Operator charakterisiert, mit dem zwei Kerne kombinierbar sind.
-
Im dritten Beispiel umfasst die Repräsentation des zweiten Kerns kj z.B. der zweite Baum Tj, wenigstens eine Abfolge von Symbolen, die eine Anwendung wenigstens eines Operators auf wenigstens zwei Kerne charakterisiert.
-
Diese Abfolge von Symbolen ist im beispielhaften zweiten Baum T
j durch Teilbäume charakterisiert, die wenigstens einen Operator und wenigstens zwei Blätter oder je ein Blatt umfassen. Der zweite Baum T
j umfasst einen ersten Teilbaum 401, der den folgenden Teilausdruck repräsentiert:
-
Der zweite Baum T
j umfasst einen zweiten Teilbaum 402, der den folgenden Teilausdruck repräsentiert:
-
Der zweite Baum T
jumfasst einen dritten Teilbaum 403, der den folgenden Teilausdruck repräsentiert:
-
Der zweite Baum T
j umfasst zwei vierte Teilbäume 404, die jeweilst den folgenden Teilausdruck repräsentieren:
-
Der zweite Baum T
j umfasst zwei fünfte Teilbäume 405, der den folgenden Teilausdruck repräsentiert:
-
Der zweite Baum T
jumfasst einen sechsten Teilbaum 406, der den folgenden Teilausdruck repräsentiert:
-
Im dritten Beispiel wird eine dritte Anzahl von Abfolgen in der ersten Repräsentation, z.B. im ersten Baum Ti, bestimmt, die ein Symbol für den vorgegebenen Kern und wenigstens einen weiteren Kern umfassen.
-
Im dritten Beispiel wird eine vierte Anzahl von Abfolgen in der zweiten Repräsentation, z.B. im zweiten Baum Tj, bestimmt, die ein Symbol für den vorgegebenen Kern und wenigstens einen weiteren Kern umfassen.
-
Im dritten Beispiel wird eine dritte Differenz bestimmt. Die dritte Differenz ist z.B. eine Differenz zwischen der dritten relativen Häufigkeit von Abfolgen und der vierten relativen Häufigkeit von Abfolgen.
-
Die relativen Häufigkeiten für die verschiedenen Abfolgen werden im Beispiel in einem Vektor zusammengefasst.
-
Für den beispielhaften ersten Kern k
i sind die Elemente eines ersten Vektors ω
i,s dafür aufgrund der Häufigkeit des Auftretens der einzelnen Teilbäume in der oben angegebenen Reihenfolge wie folgt definiert
-
Für den beispielhaften zweiten Kern k
j sind die Elemente des ersten Vektors ω
j,s dafür aufgrund der Häufigkeit des Auftretens der einzelnen Teilbäume in der oben angegebenen Reihenfolge wie folgt definiert
-
Die erste Differenz wird im Beispiel je Abfolge bestimmt, d.h.
-
Der Abstand wird mit diesen Vektoren in einem Beispiel durch eine Summe der Beträge der elementweisen Differenzen bestimmt:
-
Das bedeutet, für Kerne, die auf mehreren verschiedenen Abfolgen basieren, wird der Abstand abhängig von den dritten Differenzen bestimmt. Der Abstand wird für Kerne, die auf einem Teilbaum basieren, der mehrfach verwendet wird, abhängig von der dritten Differenz für diesen Teilbaum bestimmt.
-
Der Abstand wird im dritten Beispiel abhängig von der ersten und der dritten Differenz oder abhängig von der ersten, der zweiten und der dritten Differenz bestimmt.
-
Der Abstand wird in einem Beispiel abhängig von einer Summe dieser Differenzen bestimmt.
-
Es kann vorgesehen sein, dass für wenigstens eine der Differenzen ein Gewicht bestimmt wird. Für die erste Differenz wird z.B. ein erstes Gewicht α1 bestimmt. Für die zweite Differenz wird z.B. ein zweites Gewicht α2 bestimmt. Für die dritte Differenz wird z.B. ein drittes Gewicht α3 bestimmt.
-
Der Abstand wird in einem Beispiel abhängig von einer Summe bestimmt, in der wenigstens eine der Differenz mit dem dieser Differenz zugeordneten Gewicht gewichtet ist.
-
Für den beispielhaften ersten Kern k
i und für den beispielhaften zweiten Kern k
j wird beispielsweise der folgene gewichtet Abstand bestimmt
-
Das Verfahren umfasst einen Schritt 206.
-
Im Schritt 206 wird ein Kern KSOT abhängig vom Abstand bestimmt.
-
Im Beispiel wird der Kern K
SOT wie folgt bestimmt:
wobei σ und l Parameter sind, die in einem Training bestimmbar sind.
-
Es kann vorgesehen sein, dass wenigstens eines der Gewichte α1, α2, α3 und/oder die Parameter σ und l im Training des Modells 112 auf dem Datensatz Dt bestimmt wird.
-
Im Schritt 208 wird eine Bayesianischen Optimierung ausgeführt.
-
Im Beispiel wird der Kern KSOT eingesetzt um eine Suche über den Raum von Kernen K, d.h. den Suchraum , zu betreiben. Der Kern KSOT wird eingesetzt um den Kern k* des Modells 112 zu bestimmen.
-
Das bedeutet, in einem ersten Schritt wird ein Datensätze Dt, welcher aus Paaren von Kernen und Selektionskriterien, d.h. dem Auswahlkriterium g(kD|D), besetzt ist, vorgegeben. Das Auswahlkriterium g(kD|D) ist z.B. die Log-Evidence oder das Bayesianische Informations Kriterium, oder ein anderes Kriterium, das über Kernel definiert ist. Auf dem Datensatz Dt wird in einem Training ein Gaussprozess mit Kern KSOT gelernt. Dieses beinhaltet im Beispiel das Training der Gewichte α1,α2, α3 und/oder die Parameter σ und l.
-
In einem zweiten Schritt wird dieser Gaussprozess benutzt, um eine Akquisitionsfunktion a(k|Dt) für die Bayesianische Optimierung zu berechnen.
-
In einem dritten Schritt wird die Akquisitionsfunktion a(k|Dt) mittles eines Evolutionären Algorithmus maximiert,Dadurch wird ein neuer Kern k* bestimmt.
-
In einem vierten Schritt wird für diesen Kern k* das Auswahlkriterium g(kD|D) berechnet, wobei D der Datensatz mit den Eingangsgrößen X und den Ausgangsgrößen y ist. Die Eingangsgrößen X und den Ausgangsgrößen y des Modells 112 basieren im Beispiel auf Eingangsgrößen X und Ausgangsgrößen y des technischen Systems 110. Es kann auch vorgesehen sein, dass eine Ausgangsgröße des technischen Systems 110 eine Eingangsgröße des Modells 112 ist. Es kann auch vorgesehen sein, dass eine Eingangsgröße des technischen Systems 110 eine Ausgangsgröße des Modells 112 ist. Der Datensatz D umfasst einander zugeordnete Eingangsgrößen und Ausgangsgrößen des technischen Systems 110.
-
Das Auswahlkriterium g(kD|D) wird für einen Kern aus der Menge von Kernen bestimmt wird, der abhängig von der Akquisitionsfunktion a(k|Dt) aus der Menge von Kernen ausgewählt wird.
-
Die Akquisitionsfunktion a(k|Dt) wird abhängig vom Datensatz Dt bestimmt, der Paare von Kernen aus der Menge von Kernen und das Selektionskriterium umfasst.
-
Die Paare von Kernen werden abhängig vom Kern KSOT über je ein Paar von Kernen aus der Menge von Kernen und abhängig vom Datensatz Dt bestimmt.
-
In einem fünften Schritt wird der Datensatz Dt+1 aus Dt und dem neuen Paar aus ausgewähltem Kern k* und berechnetem Auswahlkriterium g(kD|D) gebildet.
-
Der erste bis fünfte Schritte werden z.B. für T Iterationen wiederholt.
-
Ein Gaussprozess mit dem Kern k* mit höchstem Wert von g(k|D) wird im Beispiel für die Vorhersage yi für die Größe y benutzt.
-
Im Folgenden wird der evolutionäre Algorithmus aus dem dritten Schritt beschrieben:
- 1. Generieren einer zufälligen Auswahl an Kernen und deren Bäume und speichern dieser Auswahl in einer Menge M.
- 2. Auswerten der Akquisitionsfunktion a(k|Dt) auf Kernen der Menge M.
- 3. Speichern der n Kerne mit der höchsten Akquisitionsfunktion a(k|Dt).
- 4. Verändern der gespeicherten Kerne und deren Bäume, wobei eine zufällige Änderung an den Bäumen durchgeführt wird durch die möglichen Operationen:
- 5. Bestimmen einer neuen Menge M, welche die vorherige Menge und die neu generierten Kernen umfasst.
- 6. Wiederholen der Schritt 2. - 5. für L Iterationen.
- 7. Ausgeben des Kerns, der den höchsten Wert von a(k|Dt) hat.
-
Das Verfahren umfasst optional einen Schritt 210.
-
Im Schritt 210 wird eine Eingangsgröße des Modells 112 empfangen oder erfasst.
-
Das Verfahren umfasst einen Schritt 212.
-
Im Schritt 212 wird die Vorhersage yi für die Größe y mit dem Modell 112 bestimmt. Die die Vorhersage yi gibt z.B. ein Soll-Verhalten des technischen Systems 110 basierend auf dem Kern k* des Modells 112 vor. Die Vorhersage yi gibt z.B. das Soll-Verhalten des technischen Systems 110 ohne zusätzliche Eingangsgröße vor.
-
Es kann vorgesehen sein, die Vorhersage yi für die Größe y mit dem Modell 112 abhängig von der Eingangsgröße X zu bestimmen. Beispielsweise wird die Eingangsgröße X mit dem Modell 112 auf die Vorhersage yi für die Größe y abgebildet.
-
Das Verfahren umfasst einen Schritt 214.
-
Im Schritt 214 wird die Vorhersage yi für die Größe y ausgegeben.