DE102018218263A1

DE102018218263A1 - Verfahren zum Maschinenlernen durch Gaußsche Prozesse

Info

Publication number: DE102018218263A1
Application number: DE102018218263.9A
Authority: DE
Inventors: Sebastian Gerwinn; Andreas DOERR; Julia Vinogradska; David Reeb; Barbara Rakitsch
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-04-30
Also published as: CN111105037A

Abstract

Computer-implementiertes Verfahren zum Maschinenlernen durch Gaußsche Prozesse, GP, mit den Schritten Auswählen eines Genauigkeitszieles, Auswählen einer Prior-GP-Familie, die durch Hyperparameter parametrisiert ist, Erhalten eines Trainingsdatensatzes, Auswählen der GP-Parametrisierung zur Modellierung, Trainieren der GPs durch Optimieren einer PAC-Bayes-Schranke unter Verwendung des Trainingsdatensatzes, der Prior-GP-Familie, und des Genauigkeitszieles, und Vorhersagen der nächsten zu erwartenden Werte durch die trainierten GPs.

Description

Die Erfindung betrifft ein Verfahren zur Datenmodellierung mit Gauß‘schen Prozessen, ein System, das mit diesem Verfahren trainiert wurde, ein Computerprogramm, das Anweisungen umfasst, welche eingerichtet sind, das Verfahren auszuführen, wenn es auf einem Computer ausgeführt wird, ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gespeichert ist und einen Computer, der eingerichtet ist, das Verfahren auszuführen.
Stand der Technik
Wie z.B. aus M. Seeger, „PAC-Bayesian Generalization Error Bounds for Gaussian Process Classification", Journal of Machine Learning Research 3, 233-269 (2002) bekannt ist, können Gauß‘sche Prozesse (GPs) zur Modellierung beim überwachten Lernen verwendet werden. Mit ihnen können große Datenmengen bewältigt werden, aber ihr Einsatz in sicherheitskritischen Anwendungen ist nicht optimal, da eine gute Performanz nicht sichergestellt werden kann. GPs sind insbesondere aufgrund ihres nicht-parametrischen Charakters nützlich, und obwohl GPs als wahrscheinlichkeitstheoretische Modelle ein intrinsisches Unschärfemaß aufweisen, erlaubt diese Unschärfe nicht notwendigerweise Rückschlüsse auf die Leistungsfähigkeit, z.B. Modellierungsgüte, der GPs bei bisher unverarbeiteten Daten.
Beispielsweise kann bei der Anpassung einer großen Menge von Hyperparametern durch Optimierung der Grenzwahrscheinlichkeit (engl. marginal likelihood) eine sogenannte Überanpassung (engl. overfitting) beobachtet werden. Während ein vollständig Bayes'scher Ansatz, d.h. mit Marginalisieren der Hyperparameter, dieses Risiko verkleinert, erzeugt er untragbare Laufzeiten, da sich die zugehörige Vorhersageverteilung im Allgemeinen nicht mehr analytisch behandeln lässt. Darüber hinaus ergibt dieses Verfahren nicht automatisch eine Sicherheitsgarantie, bzw. Verallgemeinerungsgarantie.
Vorteile der Erfindung
Das Verfahren mit den Merkmalen des unabhängigen Anspruchs 1 ist ein Verfahren zum Trainieren von GPs und deren dünnbesetzter Approximationen durch direktes Optimieren einer PAC-Bayes-Schranke hinsichtlich ihrer Verallgemeinerungsperformanz. Das Verfahren ist robust und ergibt signifikant bessere Verallgemeinerungsgarantien gegenüber anderen, herkömmlichen GP-Ansätzen. Insbesondere da kein Marginalisieren der (Hyper-)Parameter notwendig ist, ist das neue Verfahren effizienter als Verfahren mit solcher Marginalisierung.
Das Verfahren verwendet also keinen vollständigen Bayes'schen Ansatz zum Vermeiden von Overfitting, sondern minimiert stattdessen die Verallgemeinerungsschranken, um sicherzustellen, dass kein Overfitting stattfindet. Dadurch wird das rechenintensive Marginalisieren vermieden.
Es wird ein neuartiges Lernziel für GP-Modelle offenbart, das für zukünftige Vorhersagen rigorose und quantitativ gute Performanzgarantien erlaubt. Solche rigorosen Garantien sind Gegenstand der statistischen Lerntheorie. Da jedoch die klassischen gleichmäßigen Lerngarantien für GPs als nicht-parametrische Modelle keine Aussage liefern, können solche Garantien zum Lernen bei diesen Modellen nicht eingesetzt werden. Herkömmliche Optimierungsziele sind stattdessen (regularisierte) empirische Risikominimierung (engl. (regularized) empirical risk minimization (ERM)), Maximum-Likelihood-Schätzung (MLE) oder variationelle Inferenz (VI).
Bessere nicht-gleichmäßige Garantien wurden hingegen innerhalb der PAC-Bayes Theorie entwickelt (PAC = engl. Probably approximately correct, wahrscheinlich annähernd korrekt). Diese sind speziell auf wahrscheinlichkeitstheoretische Verfahren wie GPs zugeschnitten, und können enge Verallgemeinerungsschranken liefern, wie z.B. bei GP-Klassifizierung, wahrscheinlichkeitstheoretischen Support Vector Machine-Verfahren (SVM), linearen Klassifikatoren oder stochastischen neuronalen Netzwerken.
Bisher wurden PAC-Bayes-Schranken meist für die Schlussauswertung der Verallgemeinerungsperformanz verwendet, wohingegen Lernen durch Optimierung der PAC-Bayes-Schranke kaum untersucht wurde.
Vorliegende Offenbarung verwendet PAC-Bayes-Schranken für das Trainieren von GPs beispielsweise für den Regressionsfall, für Klassifikation oder auch andere Arten von überwachtem Lernen. Insbesondere wird das Lernen von vollständigen und dünnbesetzten GP-Prädikatoren Q durch direktes Minimieren einer oberen PAC-Bayes-Schranke B(Q) an das echte zukünftige Risiko R(Q) des Prädikators als ein grundsätzliches Verfahren zum Sicherstellen einer guten Verallgemeinerung vorgeschlagen.
Dabei kann die KL-Divergenz (Kullback-Leibler-Divergenz) KL(Q∥P) im PAC-Bayes-Theorem für viele Paare von GPs P, Q analytisch ausgewertet werden, wenn sie dieselben Hyperparameter aufweisen. Die trifft insbesondere auf gängige dünnbesetzte GP-Varianten zu wie etwa „Deterministic Training Conditional (DTC)“, „Fully Independent Training Conditional (FITC)“ und „Variational Free Energy (VFE)“. Diese können daher für das neue PAC-Bayes-Lernverfahren verwendet werden, wobei Vorteile bei der Berechnung von dünnbesetzten GPs mit theoretischen Garantien kombiniert werden. Bei der PAC-Bayes-Schranke führen dabei nur einige der verschiedenen möglichen Arten von Parametern (Hyperparameter, induzierende Punkte, Beobachtungs-Rauschen, Freiformparameter) zu einer Vergrößerung. Gemäß der Offenbarung basiert das GP-Lernen direkt auf der inversen binären KL-Divergenz und nicht auf bisher verwendeten lockereren Schranken wie sie etwa aus der Pinsker-Ungleichung entstehen.
Das GP-Lernverfahren kann wie oben erwähnt beispielsweise bei Regressionsaufgaben verwendet werden, wohingegen PAC-Bayes-Schranken bisher nur in Klassifikationsfällen eingesetzt wurden. Weil allerdings eine PAC-Bayes-Schranke für Regression mit einer möglicherweise unbeschränkten Verlustfunktion eine Sub-Gauß-Annahme hinsichtlich der (unbekannten) Datenverteilung erfordert, wird eine generische beschränkte Verlustfunktion für die Regression eingesetzt, um wie in der regulären PAC-Theorie verteilungsfrei zu bleiben.
Das Lernziel zeigt ein robustes Optimierungsverhalten und skaliert zu größeren Datensätzen ähnlich zu anderen GP-Verfahren. Bei praktischen Anwendungen zeigten sich durch das offenbarte Verfahren bessere Risikoschranken, in vielen Fällen um einen Faktor zwei, als herkömmliche Verfahren und gegenüber diesen, verbesserte Garantien mit steigender Anzahl von induzierenden Punkten.
Die Stärke von GPs liegt darin, dass sie sich aufgrund ihres nicht-parametrischen Charakters an verschiedene Datengrößen anpassen können.
Offenbarung der Erfindung
In der allgemeinen PAC-Bayes-Theorie und im standardgemäßen überwachten Lernen wird ein Satz S mit N Trainingsdaten (x_i,y_i) ∈ X × Y(i = 1, ...,N) verwendet, um in einem Hypothesenraum ℌ⊆Y^X zu trainieren, der eine Teilmenge des Raumes der Funktionen X → Y ist. Es werden Lernalgorithmen zugelassen, die eine Verteilung Q über die Hypothesen h∈ℌ ausgeben, anstatt einer einzelnen Hypothese h. Um zu quantifizieren, wie gut eine Hypothese h Daten beschreibt, wird eine beschränkte Verlustfunktion ℓ:Y × Y → [0,1] als gegeben angenommen, die ohne Beschränkung der Allgemeinheit auf das Intervall [0,1] normiert angenommen ist. ℓ(y_∗,ŷ) misst wie gut die Vorhersage ŷ = h(x_∗) eine tatsächliche Ausgangsgröße y_∗ zu der Eingangsgröße x_∗ approximiert. Das empirische Risiko R_S(h) einer Hypothese h ist dann definiert als der mittlere Trainingsverlust $R_{S} (h) : = \frac{1}{N} \sum_{i = 1}^{N} l (y_{i}, h (x_{i})) .$
Es wird, wie in der herkömmlichen PAC-Theorie eine (unbekannte) zugrundeliegende Verteilung µ = µ(x,y) auf der Menge X × Y von Daten angenommen, und das (echte) Risiko wird definiert als R(h): = ∫ dµ(x,y)ℓ(y,h(x)). Um die Güte von stochastischen Lernalgorithmen, die eine Verteilung Q über Hypothesen ausgeben, zu quantifizieren werden das empirische und das echte Risiko wie folgt definiert: $R_{S} (Q) : = E_{h \sim Q} [R_{S} (h)] = \frac{1}{N} \sum_{i = 1}^{N} E_{h \sim Q} [l (y_{i}, h (x_{i}))]$
$R (Q) : = E_{h \sim Q} [R (h)] = E_{(x_{*}, y_{*}) \sim μ} E_{h \sim Q} [l (y_{*}, h (x_{*}))]$
Mit obigen Gleichungen werden die durchschnittlichen Verluste, die auch Gibbs-Risiken genannt werden, für die Trainings- bzw. die Realverteilungen ausgedrückt, wobei vor der Vorhersage die Hypothese h aus der Verteilung Q gezogen wird.
Im Folgenden wird auf den Regressionsfall eingegangen, d.h. Y ⊆ ℝ ist eine Menge reeller Zahlen. Eine Verlustfunktion für diesen Fall ist z.B. ℓ(y_*,ŷ) :=
_{ŷ∉[r
-(y
*,r
+(y
*)]} wobei ∉die Funktionen r_± ein Intervall spezifizieren, außerhalb dessen eine Vorhersage ŷ als ungenügend angesehen wird. Ähnlich zur ε-Support Vector-Regression kann man hierbei z.B. r_±(y_∗):=y_∗±ε verwenden mit einem vor dem Training spezifizierten gewünschten Genauigkeitsziel ε > 0. In jedem Fall reduzieren sich die Erwartungswerte über h ~ Q in den Gleichungen A und B auf eindimensionale Integrale, da h(x_∗) an jedem x_∗ eine reellwertige Zufallsvariable ist.
Anstelle des stochastischen Prädiktors h(x_∗) mit h ~ Q ist manchmal der deterministische Bayes-Prädiktor $E_{h \sim Q} [h (x_{*})]$
von Interesse. Bei GP-Regression ist dieser einfach gleich dem Vorhersagemittelwert m̂(x_∗) am Eingangswert x_∗. Das entsprechende Bayes-Risiko ist definiert als $R_{B a y} (Q) : = E_{(x_{*}, y_{*}) \sim μ} [l (y_{*}, E_{h \sim Q} [h (x_{*})])] .$
Während PAC-Bayes-Theoreme nicht direkt eine Schranke für R_Bay(Q) sondern nur für R(Q) ergeben, ist leicht zu sehen, dass R_Bay(Q) ≤ 2R(Q) falls ℓ(y_∗,ŷ) quasi-konvex in ŷ und die Verteilung von ŷ = h(x_∗) symmetrisch um ihren Mittelwert ist (z.B. Gauß‘sche Verteilung). Eine obere Schranke B(Q) für R(Q)unter $\frac{1}{2}$
impliziert daher eine nichttriviale Schranke für R_Bay(Q) ≤ 2B(Q) < 1.
Es soll im Folgenden ein GP Q durch Minimierung einer geeigneten Risikoschranke trainiert werden. Wegen des wahrscheinlichkeitstheoretischen Charakters von GPs werden Verallgemeinerungsschranken für stochastische Prädiktoren eingesetzt, die ohnehin oft bessere Garantien ergeben als Verallgemeinerungsschranken für deterministische Prädiktoren. Hier werden PAC-Bayes'sche Schranken verwendet.
Das PAC-Bayes'sche Theorem lautet: Für jede Verlustfunktionen ℓ mit Werten im Intervall [0,1], für jede Verteilung µ, für alle N ∈ ℕ, für jede Verteilung P über einer Menge ℌ von Hypothesen und für jedes δ ∈ (0,1] trifft das folgende mit einer Wahrscheinlichkeit von mindestens 1 - δ für den Satz von Trainingsdaten S ~ µ^N zu: $\forall Q : R (Q) \leq k l^{- 1} (R_{S} (Q), \frac{K L (Q ∥ P) + ln \frac{2 \sqrt{N}}{δ}}{N}) .$
Dieses Theorem gibt eine wahrscheinlichkeitstheoretische obere Schranke (Verallgemeinerungsgarantie) für das echte Risiko R(Q) eines stochastischen Prädiktors Q in Abhängigkeit von dessen empirischen Risiko R_S(Q) auf einem Trainingsdatensatz S an. Es erfordert, dass eine Verteilung P im Hypothesenraum ℌ festgelegt wird, bevor der Satz von Trainingsdaten S verwendet wird, und gilt für das echte Risiko R(Q) jeder Verteilung Q auf ℌ. Im Folgenden wird, gemäß der herkömmlichen Nomenklatur, P auch Prior-Verteilung (d.h. vorherige Verteilung) und Q auch Posterior-Verteilung (d.h. spätere Verteilung) im PAC-Bayes-Kontext genannt. Die Schranke enthält einen Term, der als Komplexität der Hypothesenverteilung Q interpretiert werden kann, nämlich die KL-Divergenz (Kullback-Leibler-Divergenz) $K L (Q ∥ P) : = \int d h Q (h) ln \frac{Q (h)}{P (h)},$
mit Werten in [0, +∞]. Die Schranke enthält auch die binäre KL-Divergenz $k l (q ∥ p) : = q ln \frac{q}{p} + (1 - q) ln \frac{1 - q}{1 - p},$
definiert für q, p ∈ [0,1], genauer gesagt ihr (oberes) Inverses kl^-1 bezüglich des zweiten Argumentes (für q ∈ [0,1], ε ∈ [0,∞]): $k l^{- 1} (q, ε) : = max {p \in [0,1] : k l (q ∥ p) \leq ε},$
welches gleich dem eindeutig bestimmten p ∈ [q,1] ist, welches kl(q∥p) = ε erfüllt.
Die rechte Seite der Gleichung D kann nach oben beschränkt werden durch $R_{S} (Q) + \sqrt{(K L (Q ∥ P) + ln \frac{2 \sqrt{N}}{δ}) / (2 N)},$
welches jedoch größer 1 werden und dadurch eine triviale Schranke darstellen kann. Das vollständige PAC-Bayes-Theorem ergibt darüber hinaus gleichzeitig eine untere Schranke für R(Q), die jedoch nicht relevant ist, da hier eine Minimierung der oberen Risikoschranke erzielt werden soll. Obwohl weitere Verfeinerungen der Schranke erzielt werden können, diese jedoch nur marginal sind, wird hier weiterhin die parameterfreie Schranke aus Gleichung C betrachtet.
Falls eine abzählbare Familie P^θ, parametrisiert durch θ ∈ Θ, für GP-Lernen mit Hyperparametern verwendet wird, kann obige Analyse verallgemeinert werden, indem eine Wahrscheinlichkeitsverteilung p_θ über Θ festgelegt wird und die Prior-Verteilung definiert wird als P:=Σ_θp_θP^θ. Falls Θ eine endliche Menge ist, dann ist die Gleichverteilung $p_{θ} = \frac{1}{| Θ |}$
eine kanonische Wahl. Verwendet man den Umstand, dass $K L (Q ∥ P) \leq K L (Q ∥ P^{θ}) + ln \frac{1}{p_{θ}}$
für jedes θ ∈ Θ gilt, so ergibt das PAC-Bayes-Theorem, dass mit einer Wahrscheinlichkeit von mindestens 1 - δ über S ~ µ^N folgendes gilt: $\forall θ \in Θ \forall Q : R (Q) \leq k l^{- 1} (R_{S} (Q), \frac{K L (Q ∥ P^{θ}) + ln \frac{1}{p_{θ}} + ln \frac{2 \sqrt{N}}{δ}}{N}) = : B (Q) .$
Die Schranke aus Gleichung E gilt zugleich für alle P^θ und alle Q. Daher kann sowohl über θ als auch über Q optimiert werden, um die beste Verallgemeinerungsgarantie mit einem Vertrauen von mindestens 1 - δ zu erhalten. B(Q) wird hier zum Trainieren verwendet.
Beispielhafte Anwendungen der Erfindung sind z.B. das Modellieren von Emissionen eines Fahrzeuges im praktischen Fahrbetrieb (RDE-Emissionen). Hierbei können belastbare Garantien für die Emissionen erhalten werden, d.h. es kann sichergestellt werden, dass die Emissionen mit großer Wahrscheinlichkeit einen Grenzwert G nicht überschreiten.
Eine weitere Anwendung ist beispielsweise die Bewertung von autonomen Fahrzeugen. Anstelle der Emissionen wird hierbei ein quantitatives Maß des Gefahrenzustands bewertet, welches einen Grenzwert nicht überschreiten darf. Dieses zeigt beispielsweise an, welchen Zustand einzelne Systeme des Fahrzeuges haben, z.B. soll ein Mindestabstand zum Straßenrand (etwa 0,1 Meter), oder ein Mindestabstand zu jedem anderen Fahrzeug (etwa 0,2 Meter) nicht unterschritten werden.
Eine weitere Anwendung ist beispielsweise das Vorhersagen des Ladezustandes einer Batterie oder ihre Restbetriebsdauer ausgehend von historischen Daten, wie etwa Verwendung seit dem letzten Ladezyklus, oder Umgebungsdaten, wie etwa Temperatur, Last oder Ladestrom.
Eine weitere Anwendung ist beispielsweise in der Produktion von Scheibenwischern, wobei der ein Prädiktor Q trainiert wird mit einer großen Menge von Daten aus einer Produktionsstraße. Damit kann mit hoher Zuverlässigkeit vorhergesagt werden, wie stabil die Produktionsstraße im nächsten Zeitabschnitt (z.B. in den nächsten 30 Minuten) arbeiten wird.
Es ist daher in einem Aspekt der Erfindung ein Verfahren zum Ermitteln von Emissionswerten eines wenigstens teilweise mit einer Brennkraftmaschine angetriebenen Kraftfahrzeugs im praktischen Fahrbetrieb (Englisch: „Real Driving Emissions (RDE)“), vorgesehen. Hierbei werden Trajektorien, die Fahrzyklen des Kraftfahrzeugs charakterisieren, bereitgestellt. Diese können mittels Sensoren tatsächlich aufgenommen worden sein, oder computer-generiert sein. Entscheidend zum zuverlässigen Ermitteln der Emissionswerte ist nun, dass ein Gaußscher Prozess bereitgestellt wird, der mittels des beschriebenen Lernverfahrens trainiert wurde. Damit sind Garantien für die ermittelten Emissionswerte möglich.
Hierzu werden mittels dieses GP die jeweiligen Emissionswerte des Kraftfahrzeugs beim Durchfahren dieser bereitgestellten Trajektorien ermittelt, und die Emissionswerte im praktischen Fahrbetrieb abhängig von diesen ermittelten Emissionswerten ermittelt. D.h. die bereitgestellten Trajektorien sind vorzugsweise ein statistisch adäquates Sampling der tatsächlich im praktischen Fahrbetrieb möglichen Trajektorien, sodass die Emissionswerte im praktischen Fahrbetrieb besonders zuverlässig ermittelt werden.
In einem weiteren Aspekt ist ein Verfahren zum Ermitteln einer Zuverlässigkeit eines technischen Geräts vorgesehen. Hierbei werden Betriebszyklen des technischen Geräts bereitgestellt, also zeitliche Abfolgen von Betriebszuständen des technischen Geräts. Bei der Zuverlässigkeit kann es sich beispielsweise um eine Größe handeln, die eine Ausfallsicherheit des technischen Geräts charakterisiert, oder um eine Größe, die eine Betriebssicherheit des technischen Geräts charakterisiert. Entscheidend zum zuverlässigen Ermitteln der Zuverlässigkeit ist nun, dass ein ein Gaußscher Prozess bereitgestellt wird, der mittels des beschriebenen Lernverfahrens trainiert wurde. Dieser Gaußsche Prozess ist eingerichtet, abhängig von ihm zugeführten Trajektorien eine Größe zu ermitteln, die die Zuverlässigkeit des technischen Geräts beim Durchfahren dieser jeweiligen ihm zugeführten Trajektorie charakterisiert. Mittels dieses GP werden diese Größen beim Durchfahren der bereitgestellten Trajektorien ermittelt werden und die Zuverlässigkeit abhängig von diesen ermittelten Größen ermittelt. Dank des verwendeten Trainingsverfahrens sind sichere Aussagen über die so ermittelte Zuverlässigkeit möglich.
In einem weiteren Aspekt kann dann ein Verfahren zum Betreiben des technischen Geräts vorgesehen sein, indem wenigstens eine der bereitgestellten Trajektorien eine tatsächlich vom technischen Gerät durchfahrene Trajektorie ist, und wobei abhängig von der ermittelten Zuverlässigkeit das technische Gerät entsprechend angesteuert wird.
Wird dann festgestellt, dass die ermittelte Zuverlässigkeit besagt, dass eine Fehlfunktion des technischen Geräts zu befürchten ist, beispielsweise, weil ein ermittelter die Zuverlässigkeit charakterisierender Zahlenwert einen als „sicher“ charakterisierten vorgebbaren Bereich verlässt, kann das technische Gerät in einen sicheren Betriebsmodus überführt werden.
Figurenliste
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:

1 den Ablauf 100 eines Verfahrens zum Trainieren eines Gaußschen Prozesses gemäß der vorliegenden Erfindung.

Ausführungsformen der Erfindung
Gemäß obigen Erläuterungen sind einige Beispiele für die Verlustfunktion bei Regression (δ = 10^-2; Y = ℝ): $l (y, \hat{y}, x) = I_{| y - \hat{y} | > ε},$
ℓ(y,ŷ,x) = min{((y - ŷ)/ε)², 1}; ℓ(y,ŷ,x) = 1 - exp[-((y - ŷ)/ε)²] für einige ausgewählte ε > 0; und $l (y, \hat{y}, x) = I_{\hat{y} \notin [r_{-} (x, y), r_{+} (x, y)]},$
für einige ausgewählte Funktionen r_(x,y), r₊(x,y): X × Y → ℝ Bei Klassifikation ist eine beispielhafte Verlustfunktion $l (y, \hat{y}, x) = I_{y \neq sign [\hat{y}]}$
(im binären Fall y ∈ {-1, +1}).
Dabei ist es vorteilhaft, wenn $\int_{v = - \infty}^{+ \infty} N (v | a, b) l (y, v, x) dv$
und seine Ableitungen bezüglich des Mittelwertes a und der Varianz b einer univariaten Gauß‘schen Verteilung $N (v | a, b)$
über v∈ℝ berechnet oder effektiv angenähert werden kann, z.B. analytisch oder mit ausreichend numerischer Genauigkeit (für alle feste x,y). Dies kann erreicht werden für alle obigen Verlustfunktionen, teilweise unter Verwendung der Fehlerfunktion.
Gemäß 1 wird beim Modellieren mit GPs eine Prior-Verteilung $P (f) = G P (f | m (x), K (x, x'))$
durch einen positiv definiten Kern K : X × X → ℝ und eine Mittelwertfunktion m : X → ℝ auf der Eingangsmenge X spezifiziert. Bei herkömmlicher vollständiger GP-Regression wird die gelernte Verteilung Q dann als die Bayes'sche Posterior-Verteilung gewählt unter der Annahme, dass die Trainingsausgangsdaten $y_{N} : = {(y_{i})}_{i = 1}^{N} \in ℝ^{N}$
störungsbehaftete Versionen von f_N = (f(x₁), ..., f(x_N)) sind mit der unabhängig und identisch verteilten Gauß‘schen Wahrscheinlichkeit
Mit dieser Annahme ist Q wiederum ein GP:
wobei $K_{N N} = {(K (x_{i}, x_{j}))}_{i, j = 1}^{N}, k_{N} (x) = (K (x, x_{1}), \dots, K (x, x_{N})),$
und m_N = (m(x₁), ... ,m(x_N)). Gleichung F wird eingesetzt, um (stochastische) Vorhersagen für f(x_∗) für neue Eingangswerte x_∗ ∈ X zu machen.
Im Kontext der PAC-Bayes-Schranke ist es wichtig, dass für jeden vollständigen GP mit Prior-Verteilung P und entsprechender Posterior-Verteilung Q gemäß Gleichung F, die KL-Divergenz KL(QIIP), die in dem obigen Theorem und in der Gleichung E vorkommt, auf endlich-dimensionalen (N-dimensionalen) Matrizen ermittelt werden kann. Das ermöglicht es, die PAC-Bayes-Schranke effektiv zu ermitteln und davon ausgehend durch deren Optimierung GPs zu trainieren. Genauer gesagt, kann leicht gezeigt werden, dass solche P und Q dieselbe bedingte Verteilung P(f|f_N) = Q(f|f_N) haben, denn eine direkte Berechnung ergibt $P (f | f_{N}) = G P (f | m (x) + k_{N} (x) K_{N N}^{- 1} (f_{N} - m_{N}),$
$K (x, x') - k_{N} (x) K_{N N}^{- 1} k_{N} {(x')}^{T} = Q (f | f_{N}),$
was unabhängig von y_N oder σ_n ist, im Gegensatz zu Q(f) aus der Gleichung F. Damit gilt
wobei im letzten Schritt die bekannte Formel für die KL-Divergenz zwischen den Normalverteilungen $P (f_{N}) = N (f_{N} | m_{N}, K_{N N})$
und Q(f_N) =
eingesetzt wird und einfache Vereinfachungen durchgeführt werden.
Ein Ziel des Trainings eines vollständigen GPs ist es, „gute“ Werte auszuwählen für die Hyperparameter θ, die eine Familie von Prior-Verteilungen $P^{θ} = (f | m^{θ} (x), K^{θ} (x, x'))$
parametrisieren, und für das Rauschniveau σ_n. Diese Werte werden anschließend verwendet, um Vorhersagen mit der entsprechenden Posterior-Verteilung Q^θ,σ
n aus Gleichung F zu treffen. Der quadratische Exponentialkern auf $X = ℝ^{d}, K^{θ} (x, x') = σ_{s}^{2} exp [- \frac{1}{2} \sum_{i = 1}^{d} \frac{{(x_{i} - x'_{i})}^{2}}{l_{i}^{2}}],$
kann hierbei verwendet werden, wobei $σ_{s}^{2}$
die Signalvarianz ist und l_i die Längenskalen sind, und die Mittelwertfunktion auf Null gesetzt wird. Die Hyperparameter sind $θ \equiv (l_{1}^{2}, \dots, l_{d}^{2}, σ_{s}^{2})$
(SE-ARD-Kern), oder $θ \equiv (l^{2}, σ_{s}^{2})$
wenn alle Längenskalen l₁ = ··· = l_d = l als gleich angenommen werden (nicht-ARD).
Das Verfahren, besteht nun darin, die Parameter θ und σ_n durch Minimierung der oberen Schranke B(Q^θ,σ
n) aus Gleichung E zu trainieren, und somit den GP-Prädiktor Q^θ,σ
n mit der besten Verallgemeinerungsperformanzgarantie, die durch die PAC-Bayes'sche Schranke garantiert wird, auszuwählen. Hierbei ist σ_n kein Hyperparameter, da die Prior-Verteilung P^θ nicht von σ_n abhängt, und σ_n trägt somit nicht zum Erhöhungsausdruck ln|Θ| bei; der Parameter σ_n ist vielmehr ein freier Parameter in der Posterior-Verteilung Q^θ,σ
n. Beide Terme R_S(Q^θ,σ
n) und KL(Q^θ,σ
n||P^θ) (aus Gleichung H), wie auch deren Ableitungen, können effizient berechnet werden, so dass eine gradientenbasierte Optimierung zur Minimierung der rechten Seite B(Q^θ,σ
n) von Gleichung F über θ und σ_n verwendet werden kann.
Die trainierten Hyperparameter θ können aus einer diskreten Menge Θ ausgewählt werden, welche spezifiziert werden muss unabhängig von den Trainingsdaten S. Dies wird bewirkt, indem jede der T Komponenten von ln θ = (ln θ₁, ...,ln θ_T) nach einer gradientenbasierten Minimierung auf den nächsten Punkt der gitterartigen (G + 1)-elementigen Menge ${- L, - L + \frac{2 L}{G}, \dots + L},$
diskretisiert wird, so dass $ln \frac{1}{p_{θ}} = ln | Θ | = T ln (G + 1)$
im Optimierungsziel B(Q^θ,σ
n) verwendet wird. Der SE-ARD-Kern umfasst T = d + 1 Parameter, während der Standard-SE-Kern T = 2 Parameter umfasst. Beispielhaft kann jede Komponente von ln Θ auf zwei Dezimalstellen im Bereich [-6,+6] gerundet werden, d.h. L = 6, G = 1200. Solch eine Diskretisierung hat oft vernachlässigbaren Einfluss auf die Vorhersagegüte von Q^θ,σ
n, während gröberes Diskretisieren (d.h. ein kleineres |Θ|) oft weder die Schranken noch die Optimierung signifikant verbessert.
Beispiele für die Kernfunktion, Mittelwertfunktion oder die diskrete Menge für die Hyperparameter sind folgende, mit X = ℝ^d mit Eingabedimension d ∈ ℕ:

- m(x)=0 (Standardmittelwertfunktion).
- m(x) gegeben durch ein physikalisches Modell der Relation x↦y.
- $k^{θ} (x,x') = σ_{s}^{2} exp [- \frac{{‖ x-x' ‖}^{2}}{2 l^{2}}]$
wobei die Hyperparameter $θ= (σ_{s}^{2}, l^{2})$
sind und ∥ · ∥ einen Euklidischen Abstand (oder eine Mahalanobis-Distanz) Abstand in ℝ^d bezeichnet.
- $k^{θ} (x, x') = σ_{s}^{2} exp [- \sum_{i = 1}^{d} \frac{{(x_{i} - x_{i}^{'})}^{2}}{2 {jl}_{i}^{2}}]$
wobei die Hyperparameter $θ= (σ_{s}^{2}, l_{1}^{2}, \dots, l_{d}^{2})$
sind.
- Für die Diskretisierung Θ, kann jede Komponente θ_i on θ folgendermaßen diskretisiert werden: $ln θ_{i} \in {- L, - L+ \frac{2 L}{G}, \dots, + L}$
mit L>0 und G∈ℕ, z.B. L=6, G=1201, so dass |Θ| ≤ 7.1 × (Anzahl der Komponenten von θ), wobei |Θ| die Größe (Kardinalität) des diskretisierten Satzes Θ bezeichnet.

Es wird darauf hingewiesen, dass die bisherigen Auswahlen getroffen werden sollten, bevor der Trainingsdatensatz bekannt ist, um einen konsequenten Lernerfolg zu garantieren. Dennoch kann ein Teil des Trainingsdatensatzes, der später nicht zum Trainieren verwendet werden soll, berücksichtigt werden. Die getroffenen Auswahlen können auch von S, abhängen, aber dann gehorcht die gelernte Hypothese möglicher Weise nicht der durch das Trainingsziel nahegelegten konsequenten Garantie.
Trotz der Tatsache, dass mit einem Vertrauenswert 1 - δ die Schranke in der Gleichung E für jedes P_θ aus der Prior-GP-Familie und für jede Verteilung Q gilt, wurde in der vorstehenden Erläuterung die obere Schranke lediglich über die Parameter θ, σ_n optimiert, nachdem P^θ und das entsprechende Q^θ,σ
n aus der Gleichung F eingesetzt wurde. Die Notwendigkeit, KL(QIIP) effektiv zu berechnen, wobei man sich auf die Eigenschaft Q(f|f_N) = P(f|f_N) und die Gauß‘sche Form von P(f_N) und Q(f_N) stützt (s. a. Gleichung G und H), wirkt einschränkend. Aufbauend auf diesen beiden Erfordernissen können allerdings generellere Paare P,Q von GPs mit effektiv berechenbarem KL(Q∥P) betrachtet werden, so dass das Lernverfahren breiter angewendet werden kann, insbesondere auch auf dünnbesetzte GP-Verfahren.
Anstelle der Punkte x₁, ..., x_N, die - wie oben - dem Trainingssatz S entnommen sind, können aus dem Eingangsraum jede Anzahl M von Punkten Z = (z₁, ..., z_M} ⊆ X gewählt werden. Diese werden auch induzierende Punkte genannt. Außerdem kann jede Gauß-Verteilung $Q (f_{M}) = N (f_{M} | a_{M}, B_{M M})$
auf Funktionswerten f_M:=(f(z₁),...,f(z_M)) mit jedem a_M ∈ ℝ^M und positiv-semidefiniter Matrix B_MM ∈ ℝ^M×M gewählt werden. Die Verteilung Q über f_M kann auf alle Eingangsgrößen aus X unter Verwendung der bedingten Verteilung Q(f|f_M) = P(f|f_M) aus der Prior-Verteilung ausgedehnt werden (s.o.). Das ergibt den folgenden prädiktiven GP: $\begin{matrix} Q (f) = (f | m (x) + k_{M} (x) K_{M M}^{- 1} (a_{M} - m_{M}) \\ K (x, x') - k_{M} (x) K_{M M}^{- 1} [K_{M M} - B_{M M}] K_{M M}^{- 1} k_{M} {(x')}^{T}), \end{matrix}$
wobei $K_{M M} : = {(K (z_{i}, z_{j}))}_{i, j = 1}^{M}, k_{M} (x) : = (K (x, z_{1}), \dots, K (x, z_{M}))$
und $m_{M} : = (m (z_{1}), \dots, z (z_{M})) .$
Mit analoger Begründung wie für Gleichungen G und H ergibt sich: $\begin{array}{r} K L (Q ‖ P) = K L (Q (f_{M}) ‖ P (f_{M})) = - \frac{1}{2} ln det [B_{M M} K_{M M}^{- 1}] + \frac{1}{2} tr [B_{M M} K_{M M}^{- 1}] \\ - \frac{M}{2} + \frac{1}{2} (a_{M} - m_{M}) T K_{M M}^{- 1} (a_{M} - m_{M}) . \end{array}$
Somit können in der Gleichung E die Prior-Verteilung P^θ und eine dazugehörige Posterior-Verteilung Q^{θ,{z
i},a
M,B
MM} effektiv optimiert werden, indem die Anzahl M und die Orte z₁, ..., z_M der induzierenden Punkte und die Parameter a_M und B_MM zusammen mit den Hyperparametern θ variiert werden. Die Optimierung kann durch Verwendung der Sherman-Morrison-Woodbury-Formel derart organisiert werden, dass für jeden Gradienten-Schritt die Zeit 0(NM² + M³) und der Speicher 0(NM + M²) benötigt werden, im Vergleich zu 0(N³) und 0(N²) für vollständige GPs wie oben beschrieben. Für M « N entsteht eine große Einsparung.
Einige herkömmliche dünnbesetzte GP-Verfahren sind Sonderfälle der obigen Form, indem bestimmte a_M und B_MM in Abhängigkeit vom Trainingsdatensatz S gewählt werden, so dass lediglich die induzierenden Punkte z₁, ..., z_M und einige weitere Parameter, wie etwa $σ_{n}^{2},$
frei zu wählen sind:
wobei
mit $K_{M N} : = {(K (z_{i}, x_{j}))}_{i, j = 1}^{M, N},$
$K_{N M} = K_{M N}^{T},$
und Λ = diag(λ₁, ...,λ_N) eine diagonale N × N-Matrix ist, deren Einträge $λ_{i} = K (x_{i}, x_{i}) - k_{M} (x_{i}) K_{M M}^{- 1} k_{M} (x_{i}) T$
sind. Setzt man α = 1 so entspricht dies der FITC-Approximation, wohingegen α = 0 das Verfahren gemäß VFE und DTC ergibt. Alternativ kann man auch mit α zwischen beiden Optionen linear interpolieren. Eine weitere Form von dünnbesetzten GPs, bei denen die latenten Funktionswerte f_M fest sind und über diese nicht marginalisiert wird, entspricht B_MM = 0, was jedoch über Gleichung J zu einem divergierenden KL(Q||P) = ∞ und somit zu trivialen Schranken in den Gleichungen C und E führt.
Das Lernverfahren für dünnbesetzte GPs folgt dann den gleichen Schritten wie oben ausgeführt: Für die Hyperparameter θ, die nach der Optimierung von Gleichung E geeignet zu diskretisieren sind, muss ein Erhöhungsausdruck $ln \frac{1}{p_{θ}} = ln | Θ |$
angesetzt werden. Dabei ist zu beachten, dass θ lediglich die Prior-Hyperparameter enthält, aber nicht die Parameter z₁, ...,z_M,a_M,B_MM,σ_n,α aus Gleichung K, die ebenfalls optimiert werden. Die Anzahl M kann ebenfalls variiert werden und bestimmt dabei die Berechnungsressourcen. Darüber hinaus können die Optimierungen sowohl diskret oder stetig ausgeführt werden. Bei der Optimierung über positiv-semidefinite Matrizen B_MM kann die Parametrisierung B_MM = LL^T mit einer unteren Dreiecksmatrix L ∈ ℝ^M×M verwendet werden.
Beispiele für das Optimierungsziel und das Optimierungsverfahrens sind beispielsweise gradientenbasierte Optimierung von B(Q) hinsichtlich kontinuierlicher Parameter θ,ρ, wobei trotzdem θ in ein vordefinierten Satz Θ konkretisiert werden muss. Hierbei ist die Diskretisierung der erhaltenen Werte ρ nicht notwendig. Es kann auch ein anderes Auswahlverfahren für θ,ρ angewendet werden: Jede Auswahl ergibt eine gültige obere Schranke für das Verallgemeinerungsrisiko R(Q) (siehe Gleichung B). Die Integrale der obigen Beispiele für die Verlustfunktion und ihre Ableitungen sind nützlich für R_S(Q). Es können auch die Ableitungen von kl^-1 berechnet bzw. ausgewertet werden (für gradientenbasierte Optimierung). Des Weiteren können auch relaxierte (d.h. größere) Ziele anstelle von B(Q) verwendet werden, wie z.B. B_Pin(Q).
Bezüglich der Anwendungen der Erfindung können beim Modellieren von Emissionen eines Fahrzeuges im praktischen Fahrbetrieb (RDE-Emissionen) belastbare Garantien für die Emissionen d.h. Sicherstellen, dass die Emissionen mit großer Wahrscheinlichkeit einen Grenzwert G nicht überschreiten, beispielsweise unter folgenden Parametern erhalten werden:

Das obige Verfahren kann mit der Verlustfunktion $l (u, \hat{y},x) = I_{| y - \hat{y} | > ε}$
verwendet werden um strikte Garantien für die RDE-Emissionen bei typischen Fahrzyklen abzugeben. Die RDE-Emissionen können bezüglich einem gewählten Schwellwert G validiert werden. Hierbei ist in einem ersten Schritt eine Anzahl D von Fahrzyklen notwendig, die typisch sind für die Fahrzyklenverteilung (mit einer Genauigkeit δ_TV, z.B. in der totalen Variationsdistanz), für die die RDE-Validierung durchzuführen ist. Diese Fahrzyklen können aus einem Satz von vorher aufgenommen Fahrzyklen stammen und/oder erzeugt werden. Das Verfahren ermöglicht es, dass die RDE-Validierung fortgesetzt werden kann, ohne die Emissionen bei tatsächlichen Testfahrten messen zu müssen (welche nur begrenzt für jede spezielle Motoranordnung ausgeführt werden können). Das Verfahren profitiert von der Verfügbarkeit von einer Vielzahl von typischen Fahrzyklen in Schritt 1 und beim Simulieren der Emissionen in Schritt 2.

Der GP wird trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, unter Verwendung eines Trainingssatzes, der spezifisch für die zu testende Motoranordnung ist. Ein GP Q wird ausgegeben, der die (relevanten) Emissionen ŷ für jeden Fahrzyklus x ausgeben kann. ε bezeichnet die GP-Modellierungsgenauigkeit (Verlustfunktion $l (y, \hat{y}, x) = I_{| y - \hat{y} | > ε}),$
), und δ ∈ (0,1] den Vertrauensparameter für die GP-Modellierung.
In Schritt 1 wird nun eine Anzahl D von Fahrzyklen x₁, ...,x_D, z.B. aus einem vorher aufgenommen Satz ausgewählt oder durch einen Fahrzyklusgenerator erzeugt, die für die RDE-Fahrzyklenverteilung typische sind, mit einer Genauigkeit δ_TV. Dann wird ein Schwellwert G ausgewählt, z.B. der Zielemissionswert.
In Schritt 2, der das mehrmalige Ausführen des Schrittes 160 umfassen kann, wird für jeden der Fahrzyklen x₁, ...,x_D, der GP verwendet um die Emissionen ŷ₁, ...,ŷ_D vorherzusagen.
In Schritt 3, der die Auswertung und Bestimmung der Garantie umfasst, kann aus der Anzahl d der vorhergesagten Emissionen ŷ₁, ...,ŷ_D , die den Wert G-ε übersteigen zusammen mit D,δ,δ_TV und einem weiteren Vertrauensniveau δ_CP unter Verwendung statistischer Standardtechniken (insbesondere dem Clopper-Pearson Lemma) eine strikte Garantie (obere Schranke) für den Anteil von typischen Fahrzyklen gegeben werden, die die RDE-Erfordernisse verletzen. Die Garantie kann mit hoher Wahrscheinlichkeit bestehen, wenn δ,δ_TV,δ_CP klein sind.
Bei der Bewertung von autonomen Fahrzeugen, wird ein quantitatives Maß des Gefahrenzustands bewertet, welches einen Grenzwert nicht überschreiten darf. Dieses zeigt beispielsweise an, welchen Zustand einzelne Systeme des Fahrzeuges haben, z.B. soll ein Mindestabstand zum Straßenrand (etwa 0,1 Meter), oder ein Mindestabstand zu jedem anderen Fahrzeug (etwa 0,2 Meter) nicht unterschritten werden.
Hierbei werden im Vergleich zu oben die Emissionen (d.h. die echten Emissionswerte y, die vorhergesagten Emissionswerte ŷ, und der Emissionsschwellwert G) ersetzt durch ein quantitatives Maß der Gefährlichkeit, das z.B. anzeigt wie nahe das autonom fahrende System (oder eines seiner Teilsysteme) an einem Zustand des Versagens ist. Solch ein Maß muss unter Berücksichtigung einer speziellen Anwendung ausgewählt werden, z.B. dem geringsten Abstand zum Straßenrand, der in jedem Fahrzyklus nicht unter einen bestimmten Schwellwert fallen darf, z.B. 0,1 Meter. Oder dem geringsten Abstand zu jedem anderen Fahrzeug auf der Straße, der in jedem Fahrzyklus nicht unter einen bestimmten Schwellwert fallen darf, z.B. 0,2 Meter.
Es können für eine Anzahl D von ausgewählten Fahrzyklen Gefahrenwerte vorhergesagt werden, so dass durch das GP-Verfahren eine strikte Garantie (bis zu ±ε, und mit einer Wahrscheinlichkeit ≥ 1 - δ) für die Gefahrenwerte erlangt werden kann. Danach kann ebenfalls durch statistische Standardtechniken (insbesondere dem Clopper-Pearson Lemma) eine Garantie erhalten werden.
Der GP wird trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, unter Verwendung eines Trainingssatzes, der spezifisch für das zu testende autonom fahrende System ist. Ein GP Q wird ausgegeben, der die Gefahrenwerte ŷ für jeden Fahrzyklus x ausgeben kann. ε bezeichnet die GP-Modellierungsgenauigkeit (Verlustfunktion $l (y, \hat{y}, x) = I_{| y - \hat{y} | > ε}),$
), und δ ∈ (0,1] den Vertrauensparameter für die GP-Modellierung.
In Schritt 1 wird nun eine Anzahl D von Fahrzyklen x₁, ...,x_D, z.B. aus einem vorher aufgenommen Satz ausgewählt oder durch einen Fahrzyklusgenerator erzeugt, die typische Fahrzyklen sind, mit einer Genauigkeit δ_TV. Dann wird ein Schwellwert G ausgewählt, z.B. für das Gefahrenmaß.
In Schritt 2, der das mehrmalige Ausführen des Schrittes 160 umfassen kann, wird für jeden der Fahrzyklen x₁, ...,x_D, der GP verwendet um die Gefahrenwerte ŷ₁, ..., ŷ_D vorherzusagen.
In Schritt 3, der die Auswertung und Bestimmung der Garantie umfasst, kann aus der Anzahl d der vorhergesagten Emissionen ŷ₁, ...,ŷ_D , die den Wert G-ε übersteigen zusammen mit D, δ, δ_TV und einem weiteren Vertrauensniveau δ_CP unter Verwendung statistischer Standardtechniken (insbesondere dem Clopper-Pearson Lemma) eine strikte Garantie (obere Schranke) für den Anteil von typischen Fahrzyklen gegeben werden, die die Gefahrenschwellwert G übersteigen. Die Garantie kann mit hoher Wahrscheinlichkeit bestehen, wenn δ,δ_TV,δ_CP klein sind.
Das Verfahren kann auch angewendet werden um den Ladezustand einer Batterie oder ihre Restbetriebsdauer vorherzusagen, ausgehend von historischen Daten, wie etwa Verwendung seit dem letzten Ladezyklus, oder Umgebungsdaten, wie etwa Temperatur, Last oder Ladestrom.
Hierzu wird der GP Q trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, ausgehend von vielen (N) Messungen von Eingangswerten x (z.B. Batteriehistorie, Umgebungsparametern) und entsprechenden Ausgabewerten y (z.B. Ladezustand, restliche Betriebsdauer). Als Verlustfunktion kann $l (u, \hat{y},x) = I_{| y - \hat{y} | > ε}$
verwendet werden, mit einem Genauigkeitsziel ε und dem gewünschten Vertrauensparameter δ. Dieser Trainingsschritt wird lediglich zu Beginn ausgeführt. Die folgenden Schritte können als Schleife ausgeführt werden, bis zum Ende der Batteriebetriebsdauer.
In Schritt 1 werden bei einer konkreten Anwendung, wie etwa einem batterie-betriebenen Fahrzeug, Eingangswerte x, z.B. von Sensoren oder einer Speichervorrichtung, eingelesen. Solche Eingangswerte werden herkömmlicher Weise während der Laufzeit des Verfahrens wiederholt empfangen.
In Schritt 2 werden durch den trainierten GP aus den Eingangswerten x die Ausgabewerte ŷ vorhergesagt.
In Schritt 3 wird, falls die vorhergesagten ŷ einen vorher gewählten Schwellwert G über- oder unterschreiten, ein Signal (z.B. eine Warnlampe) gegeben um den Benutzer zu warnen, die Batterielast verändert, durch z.B. Ausschalten eines Verbrauchers wie etwa eines Radios oder einer Klimaanlage, oder zu einer alternativen Energiequelle umgeschaltet oder diese hinzugeschalten, wie etwa eine Verbrennungskraftmaschine in einem Hybridfahrzeug.
Die Natur des GP-Lernalgorithmus, der vor Schritt 1 stattfindet, stellt sicher, dass sich für jede Vorhersage ŷ die Algorithmen mit einer minimalen Wahrscheinlichkeit von 1 - δ um maximal den Wert ±ε verrechnen. Somit kann die statistische Garantie gegeben werden, dass die in Schritt 3 ausgelöste Handlung nicht vorgenommen wird, falls der tatsächliche Batteriestatus (d.h. der tatsächliche Ausgabewert y) unter G-ε liegt, und dass umgekehrt, die Handlung in Schritt ausgelöst wird, falls der Batteriestatus über G+ε liegt. Somit kann sichergestellt werden, dass das System wie vorgesehen arbeitet.
In der Produktion von Scheibenwischern, wird ein Prädiktor Q trainiert wird mit einer großen Menge von Daten aus einer Produktionsstraße. Damit kann mit hoher Zuverlässigkeit vorhergesagt werden, wie stabil die Produktionsstraße im nächsten Zeitabschnitt (z.B. in den nächsten 30 Minuten) arbeiten wird. Somit kann das oben beschriebene Verfahren zur GP-Modellierung (das eine beweisbare, statistische Garantie über die Vorhersageperformanz bei neuen Daten bereitstellt) verwendet werden, um einen GP-Prädiktor Q aus einer großen Menge von Produktionsstraßendaten (aus z.B. Scheibenwischerproduktion) zu trainieren, um vorherzusagen, wie stabil die Produktionsstraße in einem bevorstehenden Zeitraum (z.B. die nächsten 30 Minuten) sein wird. Bei einer Vorhersage, dass die Produktionsstraße stabil genug arbeiten wird (d.h. mit einem ausreichend großen Abstand ε von der GP-Verlustfunktion, und mit einem ausreichend großen Vertrauenswert 1 - 6 von dem PAC-Bayes-Ziel), kann das Überwachungspersonal seine Aufmerksamkeit oder Wartungsanstrengungen reduzieren, und anderen Tätigkeiten nachgehen oder eine Pause einlegen.
Da ein Stillstand hohe Kosten verursache, wird eine Reduktion der Überwachungsanstrengungen nur in Frage kommen, wenn eine strikte Garantie über die korrekte Funktionsweise der Produktionsstraße besteht. Diese wird durch das oben beschriebene Lernverfahren erreicht. Hierbei ist die Asymmetrie in der Aufgabenstellung zu beachten: Während eine Reduktion der Überwachung potentiell hohe Einmalkosten verursachen kann, falls die Produktionsstraße ausfällt, hat eine kontinuierliche Überwachung, obwohl die Produktionsstraße einwandfrei funktioniert, wesentliche weniger verheerende Konsequenzen.
Hierzu wird in einem ersten Schritt der GP Q trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, ausgehend von vielen (N) Messungen von Eingangswerten x (z.B. Temperatur T, und von der Produktionsmaschinerie abhängige Parameter κ) und entsprechenden Ausgabewerten y (z.B. Qualität der produzierten Teile). Als Verlustfunktion kann $l (u, \hat{y},x) = I_{| y - \hat{y} | > ε}$
verwendet werden, mit einem Genauigkeitsziel ε und dem gewünschten Vertrauensparameter δ. Dieser Trainingsschritt wird zu Beginn ausgeführt, kann aber gegebenenfalls später in einer Schleife mit einer größeren Datenbasis wiederholt werden.
In Schritt 2 wird der trainierte GP bei der aktuell vorhergesagten Temperaturentwicklung und für verschiedene einstellbare Parametereinstellungen κ_i ausgewertet, um die optimalen (guten) Parametereinstellungen κ für den Planungshorizont der nächsten M Scheiben zu finden, derart, dass (i) eine niedrige vorhergesagte Ausschussrate (GP-Mittel) erreicht wird, und (ii) der trainierte GP einen niedrigen garantierten Verlust aufweist (d.h. zutreffende Vorhersage)
In Schritt 3 werden dem (menschlichen) Bedienungspersonal Parameter κ für die nächsten M herzustellenden Scheiben vorgeschlagen. Darüber hinaus wird dem Bedienungspersonal eine Vertrauensschätzung zugänglich gemacht, darüber wie zuverlässig die GP-Vorhersage ist, die geschätzte niedrige Ausschussrate über das Zeitfenster M zu erreichen.
Erreicht oder übertrifft die Vertrauensschätzung einen voreingestellten Wert, kann z.B. eine grüne Lampe aufleuchten. Das Bedienungspersonal kann nun basierend auf der Vertrauensschätzung entscheiden, ob die Maschine unbeaufsichtigt gelassen werden kann, oder nicht.
In Schritt 4, nachdem die Maschine wie eingestellt arbeitet und neue Teile produziert, kann die Qualität der neuen Teile gemessen werden und die Messungen y können als zusätzliche Daten zum erneuten oder weiteren Trainieren des GPs mit vergrößerten Trainingsdaten verwendet werden. Dadurch werden die GP-Vorhersagen mit der Zeit besser, insbesondere in den Teilen des Parameterraumes, in dem der GP ursprünglich nicht akkurat oder zuverlässig vorhergesagt hat.
Dann kann entweder Schritt 1 folgen, sonst folgen in der Schleife erneut Schritte 2 und 3.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

M. Seeger, „PAC-Bayesian Generalization Error Bounds for Gaussian Process Classification“, Journal of Machine Learning Research 3, 233-269 (2002) [0002]

Claims

Computer-implementiertes Verfahren zum Ermitteln von Emissionswerten eines wenigstens teilweise mit einer Brennkraftmaschine angetriebenen Kraftfahrzeugs im praktischen Fahrbetrieb (Englisch: „Real Driving Emissions (RDE)“), wobei Trajektorien, die Fahrzyklen des Kraftfahrzeugs charakterisieren, bereitgestellt werden, und wobei ein Gaußscher Prozess, GP, bereitgestellt wird, der abhängig von ihm zugeführten Trajektorien die Emissionen des Kraftfahrzeugs beim Durchfahren der jeweiligen ihm zugeführten Trajektorie ermittelt, und wobei mittels dieses GP die jeweiligen Emissionswerte des Kraftfahrzeugs beim Durchfahren dieser bereitgestellten Trajektorien ermittelt werden und wobei die Emissionswerte im praktischen Fahrbetrieb abhängig von diesen ermittelten Emissionswerten ermittelt werden, dadurch gekennzeichnet, dass das Trainieren des GPs aus einer GP-Parametrisierung durch Optimieren einer PAC-Bayes-Schranke (150) unter Verwendung eines Trainingsdatensatzes, einer Prior-GP-Familie, und eines Genauigkeitszieles erfolgt.
Computer-implementiertes Verfahren zum Ermitteln einer Zuverlässigkeit eines technischen Geräts, insbesondere eines Aggregats eines Kraftfahrzeugs, wobei Trajektorien, die Betriebszyklen des technischen Geräts, insbesondere Fahrzyklen des Kraftfahrzeugs, charakterisieren, bereitgestellt werden, und wobei ein Gaußscher Prozess, GP, bereitgestellt wird, der abhängig von ihm zugeführten Trajektorien eine Größe ermittelt, die eine Zuverlässigkeit des technischen Geräts, insbesondere des Aggregats des Kraftfahrzeugs, beim Durchfahren dieser jeweiligen ihm zugeführten Trajektorie charakterisiert, und wobei mittels dieses GP diese Größe jeweils abhängig von den bereitgestellten Trajektorien ermittelt wird, und wobei die Zuverlässigkeit abhängig von diesen ermittelten Größen ermittelt wird, dadurch gekennzeichnet, dass das Trainieren des GPs aus einer GP-Parametrisierung durch Optimieren einer PAC-Bayes-Schranke (150) unter Verwendung eines Trainingsdatensatzes, einer Prior-GP-Familie, und eines Genauigkeitszieles erfolgt.
Verfahren nach Anspruch 2, wobei das technische Gerät ein Aggregat eines Kraftfahrzeugs ist, und dieses Aggregat ein System zum wenigstens teilautonomen Betreiben des Kraftfahrzeugs und/oder eine Batterie zum Speisen eines Elektromotors des Kraftfahrzeugs umfasst.
Verfahren nach Anspruch 2, wobei das technische Gerät eine Fertigungsmaschine ist.
Verfahren zum Betreiben eines technischen Geräts, wobei mittels des Verfahrens nach einem der Ansprüche 2 bis 4 eine Zuverlässigkeit des technischen Geräts ermittelt wird, wobei wenigstens eine der bereitgestellten Trajektorien eine tatsächlich vom technischen Gerät durchfahrene Trajektorie umfasst, und wobei abhängig von der ermittelten Zuverlässigkeit das technische Gerät entsprechend angesteuert wird.
Verfahren nach Anspruch 5, wobei das technische Gerät in einen sicheren Betriebsmodus überführt wird, wenn die ermittelte Zuverlässigkeit besagt, dass eine Fehlfunktion des technischen Geräts zu befürchten ist.
Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 6, wobei das Verfahren (100) weiterhin die folgenden Schritte umfasst: vor dem Trainieren des GPs Auswählen des Genauigkeitszieles (110); vor dem Trainieren des GPs Auswählen der Prior-GP-Familie (120), die durch Hyperparameter parametrisiert ist; vor dem Trainieren des GPs Erhalten des Trainingsdatensatzes (130); vor dem Trainieren des GPs Auswählen der GP-Parametrisierung zur Modellierung (140); Vorhersagen (160) der nächsten zu erwartenden Werte durch den trainierten GP im Ansprechen auf ein Erhalten von neuen Eingangswerten x_i.
Computer-implementiertes Verfahren (100) gemäß einem der 1 bis 7, wobei das Genauigkeitsziel Verlustfunktion und Vertrauensparameter umfassen kann, wobei die Verlustfunktion abhängig von der Modellierungsaufgabe ist, wobei die Modellierungsaufgabe eine ist aus Klassifikation, Regression oder einer anderen Aufgabe von überwachtem Lernen.
Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 8, wobei die GP-Parametrisierung zur Modellierung (140) eine ist aus vollständigem GP, freiem dünnbesetztem GP, oder einer speziellen Parametrisierung eines dünnbesetzten GP wie etwa Deterministic Training Conditional, DTC, Fully Independent Training Conditional, FITC, oder Variational Free Energy, VFE.
Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 9, wobei die Hyperparameter die Kernfunktion und die Mittelwertfunktion parametrieren und die möglichen Werte der Hyperparameter in einer vordefinierten Liste sind.
Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 10, wobei Werte, die mittels des GPs vorhergesagt werden, eines der folgenden sind: Emissionen eines Fahrzeuges im praktischen Fahrbetrieb (Englisch: „Real Driving Emissions (RDE)), quantitatives Werte eines Gefahrenzustands eines autonomen Fahrzeuges, Werte betreffend eines Ladezustandes einer Batterie oder deren Restbetriebsdauer, und Werte eine Produktion betreffend, und insbesondere die Produktion von Scheibenwischern.
System, umfassend einen GP , dessen Trainieren aus einer GP-Parametrisierung durch Optimieren einer PAC-Bayes-Schranke (150) unter Verwendung eines Trainingsdatensatzes, einer Prior-GP-Familie, und eines Genauigkeitszieles erfolgt..
Computerprogramm, das Anweisungen umfasst, welche eingerichtet sind, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen, wenn es auf einem Computer ausgeführt wird.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß Anspruch 13 gespeichert ist.
Vorrichtung, die eingerichtet ist, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen.