DE102018218263A1 - Verfahren zum Maschinenlernen durch Gaußsche Prozesse - Google Patents

Verfahren zum Maschinenlernen durch Gaußsche Prozesse Download PDF

Info

Publication number
DE102018218263A1
DE102018218263A1 DE102018218263.9A DE102018218263A DE102018218263A1 DE 102018218263 A1 DE102018218263 A1 DE 102018218263A1 DE 102018218263 A DE102018218263 A DE 102018218263A DE 102018218263 A1 DE102018218263 A1 DE 102018218263A1
Authority
DE
Germany
Prior art keywords
training
values
technical device
motor vehicle
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018218263.9A
Other languages
English (en)
Inventor
Sebastian Gerwinn
Andreas DOERR
Julia Vinogradska
David Reeb
Barbara Rakitsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102018218263.9A priority Critical patent/DE102018218263A1/de
Priority to CN201911017023.2A priority patent/CN111105037A/zh
Publication of DE102018218263A1 publication Critical patent/DE102018218263A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Computer-implementiertes Verfahren zum Maschinenlernen durch Gaußsche Prozesse, GP, mit den Schritten Auswählen eines Genauigkeitszieles, Auswählen einer Prior-GP-Familie, die durch Hyperparameter parametrisiert ist, Erhalten eines Trainingsdatensatzes, Auswählen der GP-Parametrisierung zur Modellierung, Trainieren der GPs durch Optimieren einer PAC-Bayes-Schranke unter Verwendung des Trainingsdatensatzes, der Prior-GP-Familie, und des Genauigkeitszieles, und Vorhersagen der nächsten zu erwartenden Werte durch die trainierten GPs.

Description

  • Die Erfindung betrifft ein Verfahren zur Datenmodellierung mit Gauß‘schen Prozessen, ein System, das mit diesem Verfahren trainiert wurde, ein Computerprogramm, das Anweisungen umfasst, welche eingerichtet sind, das Verfahren auszuführen, wenn es auf einem Computer ausgeführt wird, ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gespeichert ist und einen Computer, der eingerichtet ist, das Verfahren auszuführen.
  • Stand der Technik
  • Wie z.B. aus M. Seeger, „PAC-Bayesian Generalization Error Bounds for Gaussian Process Classification", Journal of Machine Learning Research 3, 233-269 (2002) bekannt ist, können Gauß‘sche Prozesse (GPs) zur Modellierung beim überwachten Lernen verwendet werden. Mit ihnen können große Datenmengen bewältigt werden, aber ihr Einsatz in sicherheitskritischen Anwendungen ist nicht optimal, da eine gute Performanz nicht sichergestellt werden kann. GPs sind insbesondere aufgrund ihres nicht-parametrischen Charakters nützlich, und obwohl GPs als wahrscheinlichkeitstheoretische Modelle ein intrinsisches Unschärfemaß aufweisen, erlaubt diese Unschärfe nicht notwendigerweise Rückschlüsse auf die Leistungsfähigkeit, z.B. Modellierungsgüte, der GPs bei bisher unverarbeiteten Daten.
  • Beispielsweise kann bei der Anpassung einer großen Menge von Hyperparametern durch Optimierung der Grenzwahrscheinlichkeit (engl. marginal likelihood) eine sogenannte Überanpassung (engl. overfitting) beobachtet werden. Während ein vollständig Bayes'scher Ansatz, d.h. mit Marginalisieren der Hyperparameter, dieses Risiko verkleinert, erzeugt er untragbare Laufzeiten, da sich die zugehörige Vorhersageverteilung im Allgemeinen nicht mehr analytisch behandeln lässt. Darüber hinaus ergibt dieses Verfahren nicht automatisch eine Sicherheitsgarantie, bzw. Verallgemeinerungsgarantie.
  • Vorteile der Erfindung
  • Das Verfahren mit den Merkmalen des unabhängigen Anspruchs 1 ist ein Verfahren zum Trainieren von GPs und deren dünnbesetzter Approximationen durch direktes Optimieren einer PAC-Bayes-Schranke hinsichtlich ihrer Verallgemeinerungsperformanz. Das Verfahren ist robust und ergibt signifikant bessere Verallgemeinerungsgarantien gegenüber anderen, herkömmlichen GP-Ansätzen. Insbesondere da kein Marginalisieren der (Hyper-)Parameter notwendig ist, ist das neue Verfahren effizienter als Verfahren mit solcher Marginalisierung.
  • Das Verfahren verwendet also keinen vollständigen Bayes'schen Ansatz zum Vermeiden von Overfitting, sondern minimiert stattdessen die Verallgemeinerungsschranken, um sicherzustellen, dass kein Overfitting stattfindet. Dadurch wird das rechenintensive Marginalisieren vermieden.
  • Es wird ein neuartiges Lernziel für GP-Modelle offenbart, das für zukünftige Vorhersagen rigorose und quantitativ gute Performanzgarantien erlaubt. Solche rigorosen Garantien sind Gegenstand der statistischen Lerntheorie. Da jedoch die klassischen gleichmäßigen Lerngarantien für GPs als nicht-parametrische Modelle keine Aussage liefern, können solche Garantien zum Lernen bei diesen Modellen nicht eingesetzt werden. Herkömmliche Optimierungsziele sind stattdessen (regularisierte) empirische Risikominimierung (engl. (regularized) empirical risk minimization (ERM)), Maximum-Likelihood-Schätzung (MLE) oder variationelle Inferenz (VI).
  • Bessere nicht-gleichmäßige Garantien wurden hingegen innerhalb der PAC-Bayes Theorie entwickelt (PAC = engl. Probably approximately correct, wahrscheinlich annähernd korrekt). Diese sind speziell auf wahrscheinlichkeitstheoretische Verfahren wie GPs zugeschnitten, und können enge Verallgemeinerungsschranken liefern, wie z.B. bei GP-Klassifizierung, wahrscheinlichkeitstheoretischen Support Vector Machine-Verfahren (SVM), linearen Klassifikatoren oder stochastischen neuronalen Netzwerken.
  • Bisher wurden PAC-Bayes-Schranken meist für die Schlussauswertung der Verallgemeinerungsperformanz verwendet, wohingegen Lernen durch Optimierung der PAC-Bayes-Schranke kaum untersucht wurde.
  • Vorliegende Offenbarung verwendet PAC-Bayes-Schranken für das Trainieren von GPs beispielsweise für den Regressionsfall, für Klassifikation oder auch andere Arten von überwachtem Lernen. Insbesondere wird das Lernen von vollständigen und dünnbesetzten GP-Prädikatoren Q durch direktes Minimieren einer oberen PAC-Bayes-Schranke B(Q) an das echte zukünftige Risiko R(Q) des Prädikators als ein grundsätzliches Verfahren zum Sicherstellen einer guten Verallgemeinerung vorgeschlagen.
  • Dabei kann die KL-Divergenz (Kullback-Leibler-Divergenz) KL(Q∥P) im PAC-Bayes-Theorem für viele Paare von GPs P, Q analytisch ausgewertet werden, wenn sie dieselben Hyperparameter aufweisen. Die trifft insbesondere auf gängige dünnbesetzte GP-Varianten zu wie etwa „Deterministic Training Conditional (DTC)“, „Fully Independent Training Conditional (FITC)“ und „Variational Free Energy (VFE)“. Diese können daher für das neue PAC-Bayes-Lernverfahren verwendet werden, wobei Vorteile bei der Berechnung von dünnbesetzten GPs mit theoretischen Garantien kombiniert werden. Bei der PAC-Bayes-Schranke führen dabei nur einige der verschiedenen möglichen Arten von Parametern (Hyperparameter, induzierende Punkte, Beobachtungs-Rauschen, Freiformparameter) zu einer Vergrößerung. Gemäß der Offenbarung basiert das GP-Lernen direkt auf der inversen binären KL-Divergenz und nicht auf bisher verwendeten lockereren Schranken wie sie etwa aus der Pinsker-Ungleichung entstehen.
  • Das GP-Lernverfahren kann wie oben erwähnt beispielsweise bei Regressionsaufgaben verwendet werden, wohingegen PAC-Bayes-Schranken bisher nur in Klassifikationsfällen eingesetzt wurden. Weil allerdings eine PAC-Bayes-Schranke für Regression mit einer möglicherweise unbeschränkten Verlustfunktion eine Sub-Gauß-Annahme hinsichtlich der (unbekannten) Datenverteilung erfordert, wird eine generische beschränkte Verlustfunktion für die Regression eingesetzt, um wie in der regulären PAC-Theorie verteilungsfrei zu bleiben.
  • Das Lernziel zeigt ein robustes Optimierungsverhalten und skaliert zu größeren Datensätzen ähnlich zu anderen GP-Verfahren. Bei praktischen Anwendungen zeigten sich durch das offenbarte Verfahren bessere Risikoschranken, in vielen Fällen um einen Faktor zwei, als herkömmliche Verfahren und gegenüber diesen, verbesserte Garantien mit steigender Anzahl von induzierenden Punkten.
  • Die Stärke von GPs liegt darin, dass sie sich aufgrund ihres nicht-parametrischen Charakters an verschiedene Datengrößen anpassen können.
  • Offenbarung der Erfindung
  • In der allgemeinen PAC-Bayes-Theorie und im standardgemäßen überwachten Lernen wird ein Satz S mit N Trainingsdaten (xi,yi) ∈ X × Y(i = 1, ...,N) verwendet, um in einem Hypothesenraum ℌ⊆YX zu trainieren, der eine Teilmenge des Raumes der Funktionen X → Y ist. Es werden Lernalgorithmen zugelassen, die eine Verteilung Q über die Hypothesen h∈ℌ ausgeben, anstatt einer einzelnen Hypothese h. Um zu quantifizieren, wie gut eine Hypothese h Daten beschreibt, wird eine beschränkte Verlustfunktion ℓ:Y × Y → [0,1] als gegeben angenommen, die ohne Beschränkung der Allgemeinheit auf das Intervall [0,1] normiert angenommen ist. ℓ(y,ŷ) misst wie gut die Vorhersage ŷ = h(x) eine tatsächliche Ausgangsgröße y zu der Eingangsgröße x approximiert. Das empirische Risiko RS(h) einer Hypothese h ist dann definiert als der mittlere Trainingsverlust R S ( h ) : = 1 N i = 1 N l ( y i , h ( x i ) ) .
    Figure DE102018218263A1_0001
    Es wird, wie in der herkömmlichen PAC-Theorie eine (unbekannte) zugrundeliegende Verteilung µ = µ(x,y) auf der Menge X × Y von Daten angenommen, und das (echte) Risiko wird definiert als R(h): = ∫ dµ(x,y)ℓ(y,h(x)). Um die Güte von stochastischen Lernalgorithmen, die eine Verteilung Q über Hypothesen ausgeben, zu quantifizieren werden das empirische und das echte Risiko wie folgt definiert: R S ( Q ) : = E h Q [ R S ( h ) ] = 1 N i = 1 N E h Q [ l ( y i , h ( x i ) ) ]
    Figure DE102018218263A1_0002
    R ( Q ) : = E h Q [ R ( h ) ] = E ( x , y ) μ E h Q [ l ( y , h ( x ) ) ]
    Figure DE102018218263A1_0003
  • Mit obigen Gleichungen werden die durchschnittlichen Verluste, die auch Gibbs-Risiken genannt werden, für die Trainings- bzw. die Realverteilungen ausgedrückt, wobei vor der Vorhersage die Hypothese h aus der Verteilung Q gezogen wird.
  • Im Folgenden wird auf den Regressionsfall eingegangen, d.h. Y ⊆ ℝ ist eine Menge reeller Zahlen. Eine Verlustfunktion für diesen Fall ist z.B. ℓ(y*,ŷ) :=
    Figure DE102018218263A1_0004
    ŷ∉[r -(y *,r +(y *)] wobei ∉die Funktionen r± ein Intervall spezifizieren, außerhalb dessen eine Vorhersage ŷ als ungenügend angesehen wird. Ähnlich zur ε-Support Vector-Regression kann man hierbei z.B. r±(y):=y±ε verwenden mit einem vor dem Training spezifizierten gewünschten Genauigkeitsziel ε > 0. In jedem Fall reduzieren sich die Erwartungswerte über h ~ Q in den Gleichungen A und B auf eindimensionale Integrale, da h(x) an jedem x eine reellwertige Zufallsvariable ist.
  • Anstelle des stochastischen Prädiktors h(x) mit h ~ Q ist manchmal der deterministische Bayes-Prädiktor E h Q [ h ( x ) ]
    Figure DE102018218263A1_0005
    von Interesse. Bei GP-Regression ist dieser einfach gleich dem Vorhersagemittelwert m̂(x) am Eingangswert x. Das entsprechende Bayes-Risiko ist definiert als R B a y ( Q ) : = E ( x , y ) μ [ l ( y , E h Q [ h ( x ) ] ) ] .
    Figure DE102018218263A1_0006
    Während PAC-Bayes-Theoreme nicht direkt eine Schranke für RBay(Q) sondern nur für R(Q) ergeben, ist leicht zu sehen, dass RBay(Q) ≤ 2R(Q) falls ℓ(y,ŷ) quasi-konvex in ŷ und die Verteilung von ŷ = h(x) symmetrisch um ihren Mittelwert ist (z.B. Gauß‘sche Verteilung). Eine obere Schranke B(Q) für R(Q)unter 1 2
    Figure DE102018218263A1_0007
    impliziert daher eine nichttriviale Schranke für RBay(Q) ≤ 2B(Q) < 1.
  • Es soll im Folgenden ein GP Q durch Minimierung einer geeigneten Risikoschranke trainiert werden. Wegen des wahrscheinlichkeitstheoretischen Charakters von GPs werden Verallgemeinerungsschranken für stochastische Prädiktoren eingesetzt, die ohnehin oft bessere Garantien ergeben als Verallgemeinerungsschranken für deterministische Prädiktoren. Hier werden PAC-Bayes'sche Schranken verwendet.
  • Das PAC-Bayes'sche Theorem lautet: Für jede Verlustfunktionen ℓ mit Werten im Intervall [0,1], für jede Verteilung µ, für alle N ∈ ℕ, für jede Verteilung P über einer Menge ℌ von Hypothesen und für jedes δ ∈ (0,1] trifft das folgende mit einer Wahrscheinlichkeit von mindestens 1 - δ für den Satz von Trainingsdaten S ~ µN zu: Q : R ( Q ) k l 1 ( R S ( Q ) , K L ( Q P ) + ln 2 N δ N ) .
    Figure DE102018218263A1_0008
  • Dieses Theorem gibt eine wahrscheinlichkeitstheoretische obere Schranke (Verallgemeinerungsgarantie) für das echte Risiko R(Q) eines stochastischen Prädiktors Q in Abhängigkeit von dessen empirischen Risiko RS(Q) auf einem Trainingsdatensatz S an. Es erfordert, dass eine Verteilung P im Hypothesenraum ℌ festgelegt wird, bevor der Satz von Trainingsdaten S verwendet wird, und gilt für das echte Risiko R(Q) jeder Verteilung Q auf ℌ. Im Folgenden wird, gemäß der herkömmlichen Nomenklatur, P auch Prior-Verteilung (d.h. vorherige Verteilung) und Q auch Posterior-Verteilung (d.h. spätere Verteilung) im PAC-Bayes-Kontext genannt. Die Schranke enthält einen Term, der als Komplexität der Hypothesenverteilung Q interpretiert werden kann, nämlich die KL-Divergenz (Kullback-Leibler-Divergenz) K L ( Q P ) : = d h   Q ( h ) ln Q ( h ) P ( h ) ,
    Figure DE102018218263A1_0009
    mit Werten in [0, +∞]. Die Schranke enthält auch die binäre KL-Divergenz k l ( q p ) : = q  ln  q p + ( 1 q ) ln 1 q 1 p ,
    Figure DE102018218263A1_0010
    definiert für q, p ∈ [0,1], genauer gesagt ihr (oberes) Inverses kl-1 bezüglich des zweiten Argumentes (für q ∈ [0,1], ε ∈ [0,∞]): k l 1 ( q , ε ) : = max { p [ 0,1 ] : k l ( q p ) ε } ,
    Figure DE102018218263A1_0011
    welches gleich dem eindeutig bestimmten p ∈ [q,1] ist, welches kl(q∥p) = ε erfüllt.
  • Die rechte Seite der Gleichung D kann nach oben beschränkt werden durch R S ( Q ) + ( K L ( Q P ) + ln 2 N δ ) / ( 2 N ) ,
    Figure DE102018218263A1_0012
    welches jedoch größer 1 werden und dadurch eine triviale Schranke darstellen kann. Das vollständige PAC-Bayes-Theorem ergibt darüber hinaus gleichzeitig eine untere Schranke für R(Q), die jedoch nicht relevant ist, da hier eine Minimierung der oberen Risikoschranke erzielt werden soll. Obwohl weitere Verfeinerungen der Schranke erzielt werden können, diese jedoch nur marginal sind, wird hier weiterhin die parameterfreie Schranke aus Gleichung C betrachtet.
  • Falls eine abzählbare Familie Pθ, parametrisiert durch θ ∈ Θ, für GP-Lernen mit Hyperparametern verwendet wird, kann obige Analyse verallgemeinert werden, indem eine Wahrscheinlichkeitsverteilung pθ über Θ festgelegt wird und die Prior-Verteilung definiert wird als P:=ΣθpθPθ. Falls Θ eine endliche Menge ist, dann ist die Gleichverteilung p θ = 1 | Θ |
    Figure DE102018218263A1_0013
    eine kanonische Wahl. Verwendet man den Umstand, dass K L ( Q P ) K L ( Q P θ ) + ln 1 p θ
    Figure DE102018218263A1_0014
    für jedes θ ∈ Θ gilt, so ergibt das PAC-Bayes-Theorem, dass mit einer Wahrscheinlichkeit von mindestens 1 - δ über S ~ µN folgendes gilt: θ Θ   Q :   R ( Q ) k l 1 ( R S ( Q ) , K L ( Q P θ ) + ln 1 p θ + ln 2 N δ N ) = : B ( Q ) .
    Figure DE102018218263A1_0015
  • Die Schranke aus Gleichung E gilt zugleich für alle Pθ und alle Q. Daher kann sowohl über θ als auch über Q optimiert werden, um die beste Verallgemeinerungsgarantie mit einem Vertrauen von mindestens 1 - δ zu erhalten. B(Q) wird hier zum Trainieren verwendet.
  • Beispielhafte Anwendungen der Erfindung sind z.B. das Modellieren von Emissionen eines Fahrzeuges im praktischen Fahrbetrieb (RDE-Emissionen). Hierbei können belastbare Garantien für die Emissionen erhalten werden, d.h. es kann sichergestellt werden, dass die Emissionen mit großer Wahrscheinlichkeit einen Grenzwert G nicht überschreiten.
  • Eine weitere Anwendung ist beispielsweise die Bewertung von autonomen Fahrzeugen. Anstelle der Emissionen wird hierbei ein quantitatives Maß des Gefahrenzustands bewertet, welches einen Grenzwert nicht überschreiten darf. Dieses zeigt beispielsweise an, welchen Zustand einzelne Systeme des Fahrzeuges haben, z.B. soll ein Mindestabstand zum Straßenrand (etwa 0,1 Meter), oder ein Mindestabstand zu jedem anderen Fahrzeug (etwa 0,2 Meter) nicht unterschritten werden.
  • Eine weitere Anwendung ist beispielsweise das Vorhersagen des Ladezustandes einer Batterie oder ihre Restbetriebsdauer ausgehend von historischen Daten, wie etwa Verwendung seit dem letzten Ladezyklus, oder Umgebungsdaten, wie etwa Temperatur, Last oder Ladestrom.
  • Eine weitere Anwendung ist beispielsweise in der Produktion von Scheibenwischern, wobei der ein Prädiktor Q trainiert wird mit einer großen Menge von Daten aus einer Produktionsstraße. Damit kann mit hoher Zuverlässigkeit vorhergesagt werden, wie stabil die Produktionsstraße im nächsten Zeitabschnitt (z.B. in den nächsten 30 Minuten) arbeiten wird.
  • Es ist daher in einem Aspekt der Erfindung ein Verfahren zum Ermitteln von Emissionswerten eines wenigstens teilweise mit einer Brennkraftmaschine angetriebenen Kraftfahrzeugs im praktischen Fahrbetrieb (Englisch: „Real Driving Emissions (RDE)“), vorgesehen. Hierbei werden Trajektorien, die Fahrzyklen des Kraftfahrzeugs charakterisieren, bereitgestellt. Diese können mittels Sensoren tatsächlich aufgenommen worden sein, oder computer-generiert sein. Entscheidend zum zuverlässigen Ermitteln der Emissionswerte ist nun, dass ein Gaußscher Prozess bereitgestellt wird, der mittels des beschriebenen Lernverfahrens trainiert wurde. Damit sind Garantien für die ermittelten Emissionswerte möglich.
  • Hierzu werden mittels dieses GP die jeweiligen Emissionswerte des Kraftfahrzeugs beim Durchfahren dieser bereitgestellten Trajektorien ermittelt, und die Emissionswerte im praktischen Fahrbetrieb abhängig von diesen ermittelten Emissionswerten ermittelt. D.h. die bereitgestellten Trajektorien sind vorzugsweise ein statistisch adäquates Sampling der tatsächlich im praktischen Fahrbetrieb möglichen Trajektorien, sodass die Emissionswerte im praktischen Fahrbetrieb besonders zuverlässig ermittelt werden.
  • In einem weiteren Aspekt ist ein Verfahren zum Ermitteln einer Zuverlässigkeit eines technischen Geräts vorgesehen. Hierbei werden Betriebszyklen des technischen Geräts bereitgestellt, also zeitliche Abfolgen von Betriebszuständen des technischen Geräts. Bei der Zuverlässigkeit kann es sich beispielsweise um eine Größe handeln, die eine Ausfallsicherheit des technischen Geräts charakterisiert, oder um eine Größe, die eine Betriebssicherheit des technischen Geräts charakterisiert. Entscheidend zum zuverlässigen Ermitteln der Zuverlässigkeit ist nun, dass ein ein Gaußscher Prozess bereitgestellt wird, der mittels des beschriebenen Lernverfahrens trainiert wurde. Dieser Gaußsche Prozess ist eingerichtet, abhängig von ihm zugeführten Trajektorien eine Größe zu ermitteln, die die Zuverlässigkeit des technischen Geräts beim Durchfahren dieser jeweiligen ihm zugeführten Trajektorie charakterisiert. Mittels dieses GP werden diese Größen beim Durchfahren der bereitgestellten Trajektorien ermittelt werden und die Zuverlässigkeit abhängig von diesen ermittelten Größen ermittelt. Dank des verwendeten Trainingsverfahrens sind sichere Aussagen über die so ermittelte Zuverlässigkeit möglich.
  • In einem weiteren Aspekt kann dann ein Verfahren zum Betreiben des technischen Geräts vorgesehen sein, indem wenigstens eine der bereitgestellten Trajektorien eine tatsächlich vom technischen Gerät durchfahrene Trajektorie ist, und wobei abhängig von der ermittelten Zuverlässigkeit das technische Gerät entsprechend angesteuert wird.
  • Wird dann festgestellt, dass die ermittelte Zuverlässigkeit besagt, dass eine Fehlfunktion des technischen Geräts zu befürchten ist, beispielsweise, weil ein ermittelter die Zuverlässigkeit charakterisierender Zahlenwert einen als „sicher“ charakterisierten vorgebbaren Bereich verlässt, kann das technische Gerät in einen sicheren Betriebsmodus überführt werden.
  • Figurenliste
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:
    • 1 den Ablauf 100 eines Verfahrens zum Trainieren eines Gaußschen Prozesses gemäß der vorliegenden Erfindung.
  • Ausführungsformen der Erfindung
  • Gemäß obigen Erläuterungen sind einige Beispiele für die Verlustfunktion bei Regression (δ = 10-2; Y = ℝ): l ( y , y ^ , x ) = I | y y ^ | > ε ,
    Figure DE102018218263A1_0016
    ℓ(y,ŷ,x) = min{((y - ŷ)/ε)2, 1}; ℓ(y,ŷ,x) = 1 - exp[-((y - ŷ)/ε)2] für einige ausgewählte ε > 0; und l ( y , y ^ , x ) = I y ^ [ r ( x , y ) , r + ( x , y ) ] ,
    Figure DE102018218263A1_0017
    für einige ausgewählte Funktionen r_(x,y), r+(x,y): X × Y → ℝ Bei Klassifikation ist eine beispielhafte Verlustfunktion l ( y , y ^ , x ) = I y sign [ y ^ ]
    Figure DE102018218263A1_0018
    (im binären Fall y ∈ {-1, +1}).
  • Dabei ist es vorteilhaft, wenn v = + N ( v | a , b ) l ( y , v , x ) dv
    Figure DE102018218263A1_0019
    und seine Ableitungen bezüglich des Mittelwertes a und der Varianz b einer univariaten Gauß‘schen Verteilung N ( v | a , b )
    Figure DE102018218263A1_0020
    über v∈ℝ berechnet oder effektiv angenähert werden kann, z.B. analytisch oder mit ausreichend numerischer Genauigkeit (für alle feste x,y). Dies kann erreicht werden für alle obigen Verlustfunktionen, teilweise unter Verwendung der Fehlerfunktion.
  • Gemäß 1 wird beim Modellieren mit GPs eine Prior-Verteilung P ( f ) = G P ( f | m ( x ) , K ( x , x ' ) )
    Figure DE102018218263A1_0021
    durch einen positiv definiten Kern K : X × X → ℝ und eine Mittelwertfunktion m : X → ℝ auf der Eingangsmenge X spezifiziert. Bei herkömmlicher vollständiger GP-Regression wird die gelernte Verteilung Q dann als die Bayes'sche Posterior-Verteilung gewählt unter der Annahme, dass die Trainingsausgangsdaten y N : = ( y i ) i = 1 N N
    Figure DE102018218263A1_0022
    störungsbehaftete Versionen von fN = (f(x1), ..., f(xN)) sind mit der unabhängig und identisch verteilten Gauß‘schen Wahrscheinlichkeit
    Figure DE102018218263A1_0023
    Mit dieser Annahme ist Q wiederum ein GP:
    Figure DE102018218263A1_0024
    wobei K N N = ( K ( x i , x j ) ) i , j = 1 N ,   k N ( x ) = ( K ( x , x 1 ) , , K ( x , x N ) ) ,
    Figure DE102018218263A1_0025
    und mN = (m(x1), ... ,m(xN)). Gleichung F wird eingesetzt, um (stochastische) Vorhersagen für f(x) für neue Eingangswerte x ∈ X zu machen.
  • Im Kontext der PAC-Bayes-Schranke ist es wichtig, dass für jeden vollständigen GP mit Prior-Verteilung P und entsprechender Posterior-Verteilung Q gemäß Gleichung F, die KL-Divergenz KL(QIIP), die in dem obigen Theorem und in der Gleichung E vorkommt, auf endlich-dimensionalen (N-dimensionalen) Matrizen ermittelt werden kann. Das ermöglicht es, die PAC-Bayes-Schranke effektiv zu ermitteln und davon ausgehend durch deren Optimierung GPs zu trainieren. Genauer gesagt, kann leicht gezeigt werden, dass solche P und Q dieselbe bedingte Verteilung P(f|fN) = Q(f|fN) haben, denn eine direkte Berechnung ergibt P ( f | f N ) = G P ( f | m ( x ) + k N ( x ) K N N 1 ( f N m N ) ,
    Figure DE102018218263A1_0026
    K ( x , x ' ) k N ( x ) K N N 1 k N ( x ' ) T = Q ( f | f N ) ,
    Figure DE102018218263A1_0027
    was unabhängig von yN oder σn ist, im Gegensatz zu Q(f) aus der Gleichung F. Damit gilt
    Figure DE102018218263A1_0028
    wobei im letzten Schritt die bekannte Formel für die KL-Divergenz zwischen den Normalverteilungen P ( f N ) = N ( f N | m N , K N N )
    Figure DE102018218263A1_0029
    und Q(fN) =
    Figure DE102018218263A1_0030
    eingesetzt wird und einfache Vereinfachungen durchgeführt werden.
  • Ein Ziel des Trainings eines vollständigen GPs ist es, „gute“ Werte auszuwählen für die Hyperparameter θ, die eine Familie von Prior-Verteilungen P θ = ( f | m θ ( x ) , K θ ( x , x ' ) )
    Figure DE102018218263A1_0031
    parametrisieren, und für das Rauschniveau σn. Diese Werte werden anschließend verwendet, um Vorhersagen mit der entsprechenden Posterior-Verteilung Qθ,σ n aus Gleichung F zu treffen. Der quadratische Exponentialkern auf X = d , K θ ( x , x ' ) = σ s 2 exp [ 1 2 i = 1 d ( x i x ' i ) 2 l i 2 ] ,
    Figure DE102018218263A1_0032
    kann hierbei verwendet werden, wobei σ s 2
    Figure DE102018218263A1_0033
    die Signalvarianz ist und li die Längenskalen sind, und die Mittelwertfunktion auf Null gesetzt wird. Die Hyperparameter sind θ ( l 1 2 , , l d 2 , σ s 2 )
    Figure DE102018218263A1_0034
    (SE-ARD-Kern), oder θ ( l 2 , σ s 2 )
    Figure DE102018218263A1_0035
    wenn alle Längenskalen l1 = ··· = ld = l als gleich angenommen werden (nicht-ARD).
  • Das Verfahren, besteht nun darin, die Parameter θ und σn durch Minimierung der oberen Schranke B(Qθ,σ n ) aus Gleichung E zu trainieren, und somit den GP-Prädiktor Qθ,σ n mit der besten Verallgemeinerungsperformanzgarantie, die durch die PAC-Bayes'sche Schranke garantiert wird, auszuwählen. Hierbei ist σn kein Hyperparameter, da die Prior-Verteilung Pθ nicht von σn abhängt, und σn trägt somit nicht zum Erhöhungsausdruck ln|Θ| bei; der Parameter σn ist vielmehr ein freier Parameter in der Posterior-Verteilung Qθ,σ n . Beide Terme RS(Qθ,σ n ) und KL(Qθ,σ n ||Pθ) (aus Gleichung H), wie auch deren Ableitungen, können effizient berechnet werden, so dass eine gradientenbasierte Optimierung zur Minimierung der rechten Seite B(Qθ,σ n ) von Gleichung F über θ und σn verwendet werden kann.
  • Die trainierten Hyperparameter θ können aus einer diskreten Menge Θ ausgewählt werden, welche spezifiziert werden muss unabhängig von den Trainingsdaten S. Dies wird bewirkt, indem jede der T Komponenten von ln θ = (ln θ1, ...,ln θT) nach einer gradientenbasierten Minimierung auf den nächsten Punkt der gitterartigen (G + 1)-elementigen Menge { L , L + 2 L G , + L } ,
    Figure DE102018218263A1_0036
    diskretisiert wird, so dass ln 1 p θ = ln | Θ | = T ln ( G + 1 )
    Figure DE102018218263A1_0037
    im Optimierungsziel B(Qθ,σ n ) verwendet wird. Der SE-ARD-Kern umfasst T = d + 1 Parameter, während der Standard-SE-Kern T = 2 Parameter umfasst. Beispielhaft kann jede Komponente von ln Θ auf zwei Dezimalstellen im Bereich [-6,+6] gerundet werden, d.h. L = 6, G = 1200. Solch eine Diskretisierung hat oft vernachlässigbaren Einfluss auf die Vorhersagegüte von Qθ,σ n , während gröberes Diskretisieren (d.h. ein kleineres |Θ|) oft weder die Schranken noch die Optimierung signifikant verbessert.
  • Beispiele für die Kernfunktion, Mittelwertfunktion oder die diskrete Menge für die Hyperparameter sind folgende, mit X = ℝd mit Eingabedimension d ∈ ℕ:
    • - m(x)=0 (Standardmittelwertfunktion).
    • - m(x) gegeben durch ein physikalisches Modell der Relation x↦y.
    • - k θ ( x ,x' ) = σ s 2 exp [ x-x' 2 2 l 2 ]
      Figure DE102018218263A1_0038
      wobei die Hyperparameter θ= ( σ s 2 , l 2 )
      Figure DE102018218263A1_0039
      sind und ∥ · ∥ einen Euklidischen Abstand (oder eine Mahalanobis-Distanz) Abstand in ℝd bezeichnet.
    • - k θ ( x , x' ) = σ s 2 exp [ i = 1 d ( x i x i ' ) 2 2 jl i 2 ]
      Figure DE102018218263A1_0040
      wobei die Hyperparameter θ= ( σ s 2 , l 1 2 , , l d 2 )
      Figure DE102018218263A1_0041
      sind.
    • - Für die Diskretisierung Θ, kann jede Komponente θi on θ folgendermaßen diskretisiert werden: ln θ i { L , L+ 2 L G , , + L }
      Figure DE102018218263A1_0042
      mit L>0 und G∈ℕ, z.B. L=6, G=1201, so dass |Θ| ≤ 7.1 × (Anzahl der Komponenten von θ), wobei |Θ| die Größe (Kardinalität) des diskretisierten Satzes Θ bezeichnet.
  • Es wird darauf hingewiesen, dass die bisherigen Auswahlen getroffen werden sollten, bevor der Trainingsdatensatz bekannt ist, um einen konsequenten Lernerfolg zu garantieren. Dennoch kann ein Teil des Trainingsdatensatzes, der später nicht zum Trainieren verwendet werden soll, berücksichtigt werden. Die getroffenen Auswahlen können auch von S, abhängen, aber dann gehorcht die gelernte Hypothese möglicher Weise nicht der durch das Trainingsziel nahegelegten konsequenten Garantie.
  • Trotz der Tatsache, dass mit einem Vertrauenswert 1 - δ die Schranke in der Gleichung E für jedes Pθ aus der Prior-GP-Familie und für jede Verteilung Q gilt, wurde in der vorstehenden Erläuterung die obere Schranke lediglich über die Parameter θ, σn optimiert, nachdem Pθ und das entsprechende Qθ,σ n aus der Gleichung F eingesetzt wurde. Die Notwendigkeit, KL(QIIP) effektiv zu berechnen, wobei man sich auf die Eigenschaft Q(f|fN) = P(f|fN) und die Gauß‘sche Form von P(fN) und Q(fN) stützt (s. a. Gleichung G und H), wirkt einschränkend. Aufbauend auf diesen beiden Erfordernissen können allerdings generellere Paare P,Q von GPs mit effektiv berechenbarem KL(Q∥P) betrachtet werden, so dass das Lernverfahren breiter angewendet werden kann, insbesondere auch auf dünnbesetzte GP-Verfahren.
  • Anstelle der Punkte x1, ..., xN, die - wie oben - dem Trainingssatz S entnommen sind, können aus dem Eingangsraum jede Anzahl M von Punkten Z = (z1, ..., zM} ⊆ X gewählt werden. Diese werden auch induzierende Punkte genannt. Außerdem kann jede Gauß-Verteilung Q ( f M ) = N ( f M | a M , B M M )
    Figure DE102018218263A1_0043
    auf Funktionswerten fM:=(f(z1),...,f(zM)) mit jedem aM ∈ ℝM und positiv-semidefiniter Matrix BMM ∈ ℝM×M gewählt werden. Die Verteilung Q über fM kann auf alle Eingangsgrößen aus X unter Verwendung der bedingten Verteilung Q(f|fM) = P(f|fM) aus der Prior-Verteilung ausgedehnt werden (s.o.). Das ergibt den folgenden prädiktiven GP: Q ( f ) = ( f | m ( x ) + k M ( x ) K M M 1 ( a M m M ) K ( x , x ' ) k M ( x ) K M M 1 [ K M M B M M ] K M M 1 k M ( x ' ) T ) ,
    Figure DE102018218263A1_0044
    wobei K M M : = ( K ( z i , z j ) ) i , j = 1 M , k M ( x ) : = ( K ( x , z 1 ) , , K ( x , z M ) )
    Figure DE102018218263A1_0045
    und m M : = ( m ( z 1 ) , , z ( z M ) ) .
    Figure DE102018218263A1_0046
    Mit analoger Begründung wie für Gleichungen G und H ergibt sich: K L ( Q P ) = K L ( Q ( f M ) P ( f M ) ) = 1 2 ln det [ B M M K M M 1 ] + 1 2 tr [ B M M K M M 1 ] M 2 + 1 2 ( a M m M ) T K M M 1 ( a M m M ) .
    Figure DE102018218263A1_0047
  • Somit können in der Gleichung E die Prior-Verteilung Pθ und eine dazugehörige Posterior-Verteilung Qθ,{z i},a M,B MM effektiv optimiert werden, indem die Anzahl M und die Orte z1, ..., zM der induzierenden Punkte und die Parameter aM und BMM zusammen mit den Hyperparametern θ variiert werden. Die Optimierung kann durch Verwendung der Sherman-Morrison-Woodbury-Formel derart organisiert werden, dass für jeden Gradienten-Schritt die Zeit 0(NM2 + M3) und der Speicher 0(NM + M2) benötigt werden, im Vergleich zu 0(N3) und 0(N2) für vollständige GPs wie oben beschrieben. Für M « N entsteht eine große Einsparung.
  • Einige herkömmliche dünnbesetzte GP-Verfahren sind Sonderfälle der obigen Form, indem bestimmte aM und BMM in Abhängigkeit vom Trainingsdatensatz S gewählt werden, so dass lediglich die induzierenden Punkte z1, ..., zM und einige weitere Parameter, wie etwa σ n 2 ,
    Figure DE102018218263A1_0048
    frei zu wählen sind:
    Figure DE102018218263A1_0049
    wobei
    Figure DE102018218263A1_0050
    mit K M N : = ( K ( z i , x j ) ) i , j = 1 M , N ,
    Figure DE102018218263A1_0051
    K N M = K M N T ,
    Figure DE102018218263A1_0052
    und Λ = diag(λ1, ...,λN) eine diagonale N × N-Matrix ist, deren Einträge λ i = K ( x i , x i ) k M ( x i ) K M M 1 k M ( x i ) T
    Figure DE102018218263A1_0053
    sind. Setzt man α = 1 so entspricht dies der FITC-Approximation, wohingegen α = 0 das Verfahren gemäß VFE und DTC ergibt. Alternativ kann man auch mit α zwischen beiden Optionen linear interpolieren. Eine weitere Form von dünnbesetzten GPs, bei denen die latenten Funktionswerte fM fest sind und über diese nicht marginalisiert wird, entspricht BMM = 0, was jedoch über Gleichung J zu einem divergierenden KL(Q||P) = ∞ und somit zu trivialen Schranken in den Gleichungen C und E führt.
  • Das Lernverfahren für dünnbesetzte GPs folgt dann den gleichen Schritten wie oben ausgeführt: Für die Hyperparameter θ, die nach der Optimierung von Gleichung E geeignet zu diskretisieren sind, muss ein Erhöhungsausdruck ln 1 p θ = ln | Θ |
    Figure DE102018218263A1_0054
    angesetzt werden. Dabei ist zu beachten, dass θ lediglich die Prior-Hyperparameter enthält, aber nicht die Parameter z1, ...,zM,aM,BMMn,α aus Gleichung K, die ebenfalls optimiert werden. Die Anzahl M kann ebenfalls variiert werden und bestimmt dabei die Berechnungsressourcen. Darüber hinaus können die Optimierungen sowohl diskret oder stetig ausgeführt werden. Bei der Optimierung über positiv-semidefinite Matrizen BMM kann die Parametrisierung BMM = LLT mit einer unteren Dreiecksmatrix L ∈ ℝM×M verwendet werden.
  • Beispiele für das Optimierungsziel und das Optimierungsverfahrens sind beispielsweise gradientenbasierte Optimierung von B(Q) hinsichtlich kontinuierlicher Parameter θ,ρ, wobei trotzdem θ in ein vordefinierten Satz Θ konkretisiert werden muss. Hierbei ist die Diskretisierung der erhaltenen Werte ρ nicht notwendig. Es kann auch ein anderes Auswahlverfahren für θ,ρ angewendet werden: Jede Auswahl ergibt eine gültige obere Schranke für das Verallgemeinerungsrisiko R(Q) (siehe Gleichung B). Die Integrale der obigen Beispiele für die Verlustfunktion und ihre Ableitungen sind nützlich für RS(Q). Es können auch die Ableitungen von kl-1 berechnet bzw. ausgewertet werden (für gradientenbasierte Optimierung). Des Weiteren können auch relaxierte (d.h. größere) Ziele anstelle von B(Q) verwendet werden, wie z.B. BPin(Q).
  • Bezüglich der Anwendungen der Erfindung können beim Modellieren von Emissionen eines Fahrzeuges im praktischen Fahrbetrieb (RDE-Emissionen) belastbare Garantien für die Emissionen d.h. Sicherstellen, dass die Emissionen mit großer Wahrscheinlichkeit einen Grenzwert G nicht überschreiten, beispielsweise unter folgenden Parametern erhalten werden:
    • Das obige Verfahren kann mit der Verlustfunktion l ( u , y ^ ,x ) = I | y y ^ | > ε
      Figure DE102018218263A1_0055
      verwendet werden um strikte Garantien für die RDE-Emissionen bei typischen Fahrzyklen abzugeben. Die RDE-Emissionen können bezüglich einem gewählten Schwellwert G validiert werden. Hierbei ist in einem ersten Schritt eine Anzahl D von Fahrzyklen notwendig, die typisch sind für die Fahrzyklenverteilung (mit einer Genauigkeit δTV, z.B. in der totalen Variationsdistanz), für die die RDE-Validierung durchzuführen ist. Diese Fahrzyklen können aus einem Satz von vorher aufgenommen Fahrzyklen stammen und/oder erzeugt werden. Das Verfahren ermöglicht es, dass die RDE-Validierung fortgesetzt werden kann, ohne die Emissionen bei tatsächlichen Testfahrten messen zu müssen (welche nur begrenzt für jede spezielle Motoranordnung ausgeführt werden können). Das Verfahren profitiert von der Verfügbarkeit von einer Vielzahl von typischen Fahrzyklen in Schritt 1 und beim Simulieren der Emissionen in Schritt 2.
  • Der GP wird trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, unter Verwendung eines Trainingssatzes, der spezifisch für die zu testende Motoranordnung ist. Ein GP Q wird ausgegeben, der die (relevanten) Emissionen ŷ für jeden Fahrzyklus x ausgeben kann. ε bezeichnet die GP-Modellierungsgenauigkeit (Verlustfunktion l ( y , y ^ , x ) = I | y y ^ | > ε ) ,
    Figure DE102018218263A1_0056
    ), und δ ∈ (0,1] den Vertrauensparameter für die GP-Modellierung.
  • In Schritt 1 wird nun eine Anzahl D von Fahrzyklen x1, ...,xD, z.B. aus einem vorher aufgenommen Satz ausgewählt oder durch einen Fahrzyklusgenerator erzeugt, die für die RDE-Fahrzyklenverteilung typische sind, mit einer Genauigkeit δTV. Dann wird ein Schwellwert G ausgewählt, z.B. der Zielemissionswert.
  • In Schritt 2, der das mehrmalige Ausführen des Schrittes 160 umfassen kann, wird für jeden der Fahrzyklen x1, ...,xD, der GP verwendet um die Emissionen ŷ1, ...,ŷD vorherzusagen.
  • In Schritt 3, der die Auswertung und Bestimmung der Garantie umfasst, kann aus der Anzahl d der vorhergesagten Emissionen ŷ1, ...,ŷD , die den Wert G-ε übersteigen zusammen mit D,δ,δTV und einem weiteren Vertrauensniveau δCP unter Verwendung statistischer Standardtechniken (insbesondere dem Clopper-Pearson Lemma) eine strikte Garantie (obere Schranke) für den Anteil von typischen Fahrzyklen gegeben werden, die die RDE-Erfordernisse verletzen. Die Garantie kann mit hoher Wahrscheinlichkeit bestehen, wenn δ,δTVCP klein sind.
  • Bei der Bewertung von autonomen Fahrzeugen, wird ein quantitatives Maß des Gefahrenzustands bewertet, welches einen Grenzwert nicht überschreiten darf. Dieses zeigt beispielsweise an, welchen Zustand einzelne Systeme des Fahrzeuges haben, z.B. soll ein Mindestabstand zum Straßenrand (etwa 0,1 Meter), oder ein Mindestabstand zu jedem anderen Fahrzeug (etwa 0,2 Meter) nicht unterschritten werden.
  • Hierbei werden im Vergleich zu oben die Emissionen (d.h. die echten Emissionswerte y, die vorhergesagten Emissionswerte ŷ, und der Emissionsschwellwert G) ersetzt durch ein quantitatives Maß der Gefährlichkeit, das z.B. anzeigt wie nahe das autonom fahrende System (oder eines seiner Teilsysteme) an einem Zustand des Versagens ist. Solch ein Maß muss unter Berücksichtigung einer speziellen Anwendung ausgewählt werden, z.B. dem geringsten Abstand zum Straßenrand, der in jedem Fahrzyklus nicht unter einen bestimmten Schwellwert fallen darf, z.B. 0,1 Meter. Oder dem geringsten Abstand zu jedem anderen Fahrzeug auf der Straße, der in jedem Fahrzyklus nicht unter einen bestimmten Schwellwert fallen darf, z.B. 0,2 Meter.
  • Es können für eine Anzahl D von ausgewählten Fahrzyklen Gefahrenwerte vorhergesagt werden, so dass durch das GP-Verfahren eine strikte Garantie (bis zu ±ε, und mit einer Wahrscheinlichkeit ≥ 1 - δ) für die Gefahrenwerte erlangt werden kann. Danach kann ebenfalls durch statistische Standardtechniken (insbesondere dem Clopper-Pearson Lemma) eine Garantie erhalten werden.
  • Der GP wird trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, unter Verwendung eines Trainingssatzes, der spezifisch für das zu testende autonom fahrende System ist. Ein GP Q wird ausgegeben, der die Gefahrenwerte ŷ für jeden Fahrzyklus x ausgeben kann. ε bezeichnet die GP-Modellierungsgenauigkeit (Verlustfunktion l ( y , y ^ , x ) = I | y y ^ | > ε ) ,
    Figure DE102018218263A1_0057
    ), und δ ∈ (0,1] den Vertrauensparameter für die GP-Modellierung.
  • In Schritt 1 wird nun eine Anzahl D von Fahrzyklen x1, ...,xD, z.B. aus einem vorher aufgenommen Satz ausgewählt oder durch einen Fahrzyklusgenerator erzeugt, die typische Fahrzyklen sind, mit einer Genauigkeit δTV. Dann wird ein Schwellwert G ausgewählt, z.B. für das Gefahrenmaß.
  • In Schritt 2, der das mehrmalige Ausführen des Schrittes 160 umfassen kann, wird für jeden der Fahrzyklen x1, ...,xD, der GP verwendet um die Gefahrenwerte ŷ1, ..., ŷD vorherzusagen.
  • In Schritt 3, der die Auswertung und Bestimmung der Garantie umfasst, kann aus der Anzahl d der vorhergesagten Emissionen ŷ1, ...,ŷD , die den Wert G-ε übersteigen zusammen mit D, δ, δTV und einem weiteren Vertrauensniveau δCP unter Verwendung statistischer Standardtechniken (insbesondere dem Clopper-Pearson Lemma) eine strikte Garantie (obere Schranke) für den Anteil von typischen Fahrzyklen gegeben werden, die die Gefahrenschwellwert G übersteigen. Die Garantie kann mit hoher Wahrscheinlichkeit bestehen, wenn δ,δTVCP klein sind.
  • Das Verfahren kann auch angewendet werden um den Ladezustand einer Batterie oder ihre Restbetriebsdauer vorherzusagen, ausgehend von historischen Daten, wie etwa Verwendung seit dem letzten Ladezyklus, oder Umgebungsdaten, wie etwa Temperatur, Last oder Ladestrom.
  • Hierzu wird der GP Q trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, ausgehend von vielen (N) Messungen von Eingangswerten x (z.B. Batteriehistorie, Umgebungsparametern) und entsprechenden Ausgabewerten y (z.B. Ladezustand, restliche Betriebsdauer). Als Verlustfunktion kann l ( u , y ^ ,x ) = I | y y ^ | > ε
    Figure DE102018218263A1_0058
    verwendet werden, mit einem Genauigkeitsziel ε und dem gewünschten Vertrauensparameter δ. Dieser Trainingsschritt wird lediglich zu Beginn ausgeführt. Die folgenden Schritte können als Schleife ausgeführt werden, bis zum Ende der Batteriebetriebsdauer.
  • In Schritt 1 werden bei einer konkreten Anwendung, wie etwa einem batterie-betriebenen Fahrzeug, Eingangswerte x, z.B. von Sensoren oder einer Speichervorrichtung, eingelesen. Solche Eingangswerte werden herkömmlicher Weise während der Laufzeit des Verfahrens wiederholt empfangen.
  • In Schritt 2 werden durch den trainierten GP aus den Eingangswerten x die Ausgabewerte ŷ vorhergesagt.
  • In Schritt 3 wird, falls die vorhergesagten ŷ einen vorher gewählten Schwellwert G über- oder unterschreiten, ein Signal (z.B. eine Warnlampe) gegeben um den Benutzer zu warnen, die Batterielast verändert, durch z.B. Ausschalten eines Verbrauchers wie etwa eines Radios oder einer Klimaanlage, oder zu einer alternativen Energiequelle umgeschaltet oder diese hinzugeschalten, wie etwa eine Verbrennungskraftmaschine in einem Hybridfahrzeug.
  • Die Natur des GP-Lernalgorithmus, der vor Schritt 1 stattfindet, stellt sicher, dass sich für jede Vorhersage ŷ die Algorithmen mit einer minimalen Wahrscheinlichkeit von 1 - δ um maximal den Wert ±ε verrechnen. Somit kann die statistische Garantie gegeben werden, dass die in Schritt 3 ausgelöste Handlung nicht vorgenommen wird, falls der tatsächliche Batteriestatus (d.h. der tatsächliche Ausgabewert y) unter G-ε liegt, und dass umgekehrt, die Handlung in Schritt ausgelöst wird, falls der Batteriestatus über G+ε liegt. Somit kann sichergestellt werden, dass das System wie vorgesehen arbeitet.
  • In der Produktion von Scheibenwischern, wird ein Prädiktor Q trainiert wird mit einer großen Menge von Daten aus einer Produktionsstraße. Damit kann mit hoher Zuverlässigkeit vorhergesagt werden, wie stabil die Produktionsstraße im nächsten Zeitabschnitt (z.B. in den nächsten 30 Minuten) arbeiten wird. Somit kann das oben beschriebene Verfahren zur GP-Modellierung (das eine beweisbare, statistische Garantie über die Vorhersageperformanz bei neuen Daten bereitstellt) verwendet werden, um einen GP-Prädiktor Q aus einer großen Menge von Produktionsstraßendaten (aus z.B. Scheibenwischerproduktion) zu trainieren, um vorherzusagen, wie stabil die Produktionsstraße in einem bevorstehenden Zeitraum (z.B. die nächsten 30 Minuten) sein wird. Bei einer Vorhersage, dass die Produktionsstraße stabil genug arbeiten wird (d.h. mit einem ausreichend großen Abstand ε von der GP-Verlustfunktion, und mit einem ausreichend großen Vertrauenswert 1 - 6 von dem PAC-Bayes-Ziel), kann das Überwachungspersonal seine Aufmerksamkeit oder Wartungsanstrengungen reduzieren, und anderen Tätigkeiten nachgehen oder eine Pause einlegen.
  • Da ein Stillstand hohe Kosten verursache, wird eine Reduktion der Überwachungsanstrengungen nur in Frage kommen, wenn eine strikte Garantie über die korrekte Funktionsweise der Produktionsstraße besteht. Diese wird durch das oben beschriebene Lernverfahren erreicht. Hierbei ist die Asymmetrie in der Aufgabenstellung zu beachten: Während eine Reduktion der Überwachung potentiell hohe Einmalkosten verursachen kann, falls die Produktionsstraße ausfällt, hat eine kontinuierliche Überwachung, obwohl die Produktionsstraße einwandfrei funktioniert, wesentliche weniger verheerende Konsequenzen.
  • Hierzu wird in einem ersten Schritt der GP Q trainiert, was die Schritte 110 bis 150 des Verfahrens umfassen kann, ausgehend von vielen (N) Messungen von Eingangswerten x (z.B. Temperatur T, und von der Produktionsmaschinerie abhängige Parameter κ) und entsprechenden Ausgabewerten y (z.B. Qualität der produzierten Teile). Als Verlustfunktion kann l ( u , y ^ ,x ) = I | y y ^ | > ε
    Figure DE102018218263A1_0059
    verwendet werden, mit einem Genauigkeitsziel ε und dem gewünschten Vertrauensparameter δ. Dieser Trainingsschritt wird zu Beginn ausgeführt, kann aber gegebenenfalls später in einer Schleife mit einer größeren Datenbasis wiederholt werden.
  • In Schritt 2 wird der trainierte GP bei der aktuell vorhergesagten Temperaturentwicklung und für verschiedene einstellbare Parametereinstellungen κi ausgewertet, um die optimalen (guten) Parametereinstellungen κ für den Planungshorizont der nächsten M Scheiben zu finden, derart, dass (i) eine niedrige vorhergesagte Ausschussrate (GP-Mittel) erreicht wird, und (ii) der trainierte GP einen niedrigen garantierten Verlust aufweist (d.h. zutreffende Vorhersage)
  • In Schritt 3 werden dem (menschlichen) Bedienungspersonal Parameter κ für die nächsten M herzustellenden Scheiben vorgeschlagen. Darüber hinaus wird dem Bedienungspersonal eine Vertrauensschätzung zugänglich gemacht, darüber wie zuverlässig die GP-Vorhersage ist, die geschätzte niedrige Ausschussrate über das Zeitfenster M zu erreichen.
  • Erreicht oder übertrifft die Vertrauensschätzung einen voreingestellten Wert, kann z.B. eine grüne Lampe aufleuchten. Das Bedienungspersonal kann nun basierend auf der Vertrauensschätzung entscheiden, ob die Maschine unbeaufsichtigt gelassen werden kann, oder nicht.
  • In Schritt 4, nachdem die Maschine wie eingestellt arbeitet und neue Teile produziert, kann die Qualität der neuen Teile gemessen werden und die Messungen y können als zusätzliche Daten zum erneuten oder weiteren Trainieren des GPs mit vergrößerten Trainingsdaten verwendet werden. Dadurch werden die GP-Vorhersagen mit der Zeit besser, insbesondere in den Teilen des Parameterraumes, in dem der GP ursprünglich nicht akkurat oder zuverlässig vorhergesagt hat.
  • Dann kann entweder Schritt 1 folgen, sonst folgen in der Schleife erneut Schritte 2 und 3.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • M. Seeger, „PAC-Bayesian Generalization Error Bounds for Gaussian Process Classification“, Journal of Machine Learning Research 3, 233-269 (2002) [0002]

Claims (15)

  1. Computer-implementiertes Verfahren zum Ermitteln von Emissionswerten eines wenigstens teilweise mit einer Brennkraftmaschine angetriebenen Kraftfahrzeugs im praktischen Fahrbetrieb (Englisch: „Real Driving Emissions (RDE)“), wobei Trajektorien, die Fahrzyklen des Kraftfahrzeugs charakterisieren, bereitgestellt werden, und wobei ein Gaußscher Prozess, GP, bereitgestellt wird, der abhängig von ihm zugeführten Trajektorien die Emissionen des Kraftfahrzeugs beim Durchfahren der jeweiligen ihm zugeführten Trajektorie ermittelt, und wobei mittels dieses GP die jeweiligen Emissionswerte des Kraftfahrzeugs beim Durchfahren dieser bereitgestellten Trajektorien ermittelt werden und wobei die Emissionswerte im praktischen Fahrbetrieb abhängig von diesen ermittelten Emissionswerten ermittelt werden, dadurch gekennzeichnet, dass das Trainieren des GPs aus einer GP-Parametrisierung durch Optimieren einer PAC-Bayes-Schranke (150) unter Verwendung eines Trainingsdatensatzes, einer Prior-GP-Familie, und eines Genauigkeitszieles erfolgt.
  2. Computer-implementiertes Verfahren zum Ermitteln einer Zuverlässigkeit eines technischen Geräts, insbesondere eines Aggregats eines Kraftfahrzeugs, wobei Trajektorien, die Betriebszyklen des technischen Geräts, insbesondere Fahrzyklen des Kraftfahrzeugs, charakterisieren, bereitgestellt werden, und wobei ein Gaußscher Prozess, GP, bereitgestellt wird, der abhängig von ihm zugeführten Trajektorien eine Größe ermittelt, die eine Zuverlässigkeit des technischen Geräts, insbesondere des Aggregats des Kraftfahrzeugs, beim Durchfahren dieser jeweiligen ihm zugeführten Trajektorie charakterisiert, und wobei mittels dieses GP diese Größe jeweils abhängig von den bereitgestellten Trajektorien ermittelt wird, und wobei die Zuverlässigkeit abhängig von diesen ermittelten Größen ermittelt wird, dadurch gekennzeichnet, dass das Trainieren des GPs aus einer GP-Parametrisierung durch Optimieren einer PAC-Bayes-Schranke (150) unter Verwendung eines Trainingsdatensatzes, einer Prior-GP-Familie, und eines Genauigkeitszieles erfolgt.
  3. Verfahren nach Anspruch 2, wobei das technische Gerät ein Aggregat eines Kraftfahrzeugs ist, und dieses Aggregat ein System zum wenigstens teilautonomen Betreiben des Kraftfahrzeugs und/oder eine Batterie zum Speisen eines Elektromotors des Kraftfahrzeugs umfasst.
  4. Verfahren nach Anspruch 2, wobei das technische Gerät eine Fertigungsmaschine ist.
  5. Verfahren zum Betreiben eines technischen Geräts, wobei mittels des Verfahrens nach einem der Ansprüche 2 bis 4 eine Zuverlässigkeit des technischen Geräts ermittelt wird, wobei wenigstens eine der bereitgestellten Trajektorien eine tatsächlich vom technischen Gerät durchfahrene Trajektorie umfasst, und wobei abhängig von der ermittelten Zuverlässigkeit das technische Gerät entsprechend angesteuert wird.
  6. Verfahren nach Anspruch 5, wobei das technische Gerät in einen sicheren Betriebsmodus überführt wird, wenn die ermittelte Zuverlässigkeit besagt, dass eine Fehlfunktion des technischen Geräts zu befürchten ist.
  7. Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 6, wobei das Verfahren (100) weiterhin die folgenden Schritte umfasst: vor dem Trainieren des GPs Auswählen des Genauigkeitszieles (110); vor dem Trainieren des GPs Auswählen der Prior-GP-Familie (120), die durch Hyperparameter parametrisiert ist; vor dem Trainieren des GPs Erhalten des Trainingsdatensatzes (130); vor dem Trainieren des GPs Auswählen der GP-Parametrisierung zur Modellierung (140); Vorhersagen (160) der nächsten zu erwartenden Werte durch den trainierten GP im Ansprechen auf ein Erhalten von neuen Eingangswerten xi.
  8. Computer-implementiertes Verfahren (100) gemäß einem der 1 bis 7, wobei das Genauigkeitsziel Verlustfunktion und Vertrauensparameter umfassen kann, wobei die Verlustfunktion abhängig von der Modellierungsaufgabe ist, wobei die Modellierungsaufgabe eine ist aus Klassifikation, Regression oder einer anderen Aufgabe von überwachtem Lernen.
  9. Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 8, wobei die GP-Parametrisierung zur Modellierung (140) eine ist aus vollständigem GP, freiem dünnbesetztem GP, oder einer speziellen Parametrisierung eines dünnbesetzten GP wie etwa Deterministic Training Conditional, DTC, Fully Independent Training Conditional, FITC, oder Variational Free Energy, VFE.
  10. Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 9, wobei die Hyperparameter die Kernfunktion und die Mittelwertfunktion parametrieren und die möglichen Werte der Hyperparameter in einer vordefinierten Liste sind.
  11. Computer-implementiertes Verfahren (100) gemäß einem der Ansprüche 1 bis 10, wobei Werte, die mittels des GPs vorhergesagt werden, eines der folgenden sind: Emissionen eines Fahrzeuges im praktischen Fahrbetrieb (Englisch: „Real Driving Emissions (RDE)), quantitatives Werte eines Gefahrenzustands eines autonomen Fahrzeuges, Werte betreffend eines Ladezustandes einer Batterie oder deren Restbetriebsdauer, und Werte eine Produktion betreffend, und insbesondere die Produktion von Scheibenwischern.
  12. System, umfassend einen GP , dessen Trainieren aus einer GP-Parametrisierung durch Optimieren einer PAC-Bayes-Schranke (150) unter Verwendung eines Trainingsdatensatzes, einer Prior-GP-Familie, und eines Genauigkeitszieles erfolgt..
  13. Computerprogramm, das Anweisungen umfasst, welche eingerichtet sind, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen, wenn es auf einem Computer ausgeführt wird.
  14. Maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß Anspruch 13 gespeichert ist.
  15. Vorrichtung, die eingerichtet ist, das Verfahren gemäß einem der Ansprüche 1 bis 11 auszuführen.
DE102018218263.9A 2018-10-25 2018-10-25 Verfahren zum Maschinenlernen durch Gaußsche Prozesse Pending DE102018218263A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102018218263.9A DE102018218263A1 (de) 2018-10-25 2018-10-25 Verfahren zum Maschinenlernen durch Gaußsche Prozesse
CN201911017023.2A CN111105037A (zh) 2018-10-25 2019-10-24 用于通过高斯过程进行机器学习的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018218263.9A DE102018218263A1 (de) 2018-10-25 2018-10-25 Verfahren zum Maschinenlernen durch Gaußsche Prozesse

Publications (1)

Publication Number Publication Date
DE102018218263A1 true DE102018218263A1 (de) 2020-04-30

Family

ID=70416795

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018218263.9A Pending DE102018218263A1 (de) 2018-10-25 2018-10-25 Verfahren zum Maschinenlernen durch Gaußsche Prozesse

Country Status (2)

Country Link
CN (1) CN111105037A (de)
DE (1) DE102018218263A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651134A (zh) * 2020-12-29 2021-04-13 浙江天行健智能科技有限公司 基于高斯过程回归的转向路感模拟方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111505936B (zh) * 2020-06-09 2021-10-01 吉林大学 一种基于高斯过程pid控制参数的自动安全整定方法
CN113111928B (zh) * 2021-04-01 2023-12-29 中国地质大学(北京) 一种基于地学数据库的半监督学习矿产资源定量预测方法
CN113236403B (zh) * 2021-04-13 2022-03-11 联合汽车电子有限公司 混合气偏差自学习方法、系统以及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
M. Seeger, „PAC-Bayesian Generalization Error Bounds for Gaussian Process Classification", Journal of Machine Learning Research 3, 233-269 (2002)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651134A (zh) * 2020-12-29 2021-04-13 浙江天行健智能科技有限公司 基于高斯过程回归的转向路感模拟方法

Also Published As

Publication number Publication date
CN111105037A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
DE102018218263A1 (de) Verfahren zum Maschinenlernen durch Gaußsche Prozesse
EP2108139B1 (de) Verfahren zur rechnergestützten regelung und/oder steuerung eines technischen systems, insbesondere einer gasturbine
EP3785177B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102019003601A1 (de) Vorrichtung zur Lebensdauervorhersage und Vorrichtung für maschinelles Lernen
DE102011076780A1 (de) Verfahren und eine Vorrichtung zur Zustandsüberwachung
DE102017111505A1 (de) Systeme und Verfahren zur Datengewinnung von einem entfernten System
DE102006000915B4 (de) Verfahren zum Modellieren von Fahrzeugparameterzyklen
DE102019217299A1 (de) Verfahren zur Prädiktion eines Alterungszustands einer Batterie
EP1546823B1 (de) Verfahren zur rechnergestützten erstellung von prognosen für operative systeme sowie system zur erstellung von prognosen für operative systeme
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE102020212502A1 (de) Bayessche kontext-aggregation für neuronale prozesse
WO2022117622A1 (de) Verfahren und vorrichtung zum ermitteln einer restlebensdauer eines technischen systems
EP3748551A1 (de) Verfahren, vorrichtung und computerprogramm zum einstellen eines hyperparameters
DE102021102146A1 (de) Fahrzeugantriebsstranganalyse in vernetzten flotten
EP4139754A1 (de) Verfahren zum betreiben einer steuergeräteanordnung sowie entsprechende steuergeräteanordnung
DE102020205532A1 (de) Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie für eine Steuereinrichtung über mehrere Iterationen
DE102013206274A1 (de) Verfahren und Vorrichtung zum Anpassen eines nicht parametrischen Funktionsmodells
DE102020107003A1 (de) Verfahren und Vorrichtung zur Überwachung eines elektrischen Bordnetzes eines Fahrzeugs
DE202019103233U1 (de) Vorrichtung zum Einstellen eines Hyperparameters
DE202019103046U1 (de) Vorrichtung zur Vorhersage einer Lernkurve
BE1030866B1 (de) Computerprogramm und Verfahren zur Analyse von Inhomogenitäten sowie Anomaliedetektion und -vorhersage von elektrischen Energiespeichern
DE102022203034A1 (de) Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
DE102022207279A1 (de) Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
EP4287084A1 (de) Verfahren, computerprogramm und vorrichtung zum reduzieren einer erforderlichen rechenleistung eines algorithmus der künstlichen intelligenz, sowie fortbewegungsmittel
DE102021100765A1 (de) Verfahren, System und Computerprogrammprodukt zur Bestimmung von sicherheitskritischen Ausgabewerten einer technischen Entität

Legal Events

Date Code Title Description
R163 Identified publications notified