DE102020212502A1 - Bayessche kontext-aggregation für neuronale prozesse - Google Patents

Bayessche kontext-aggregation für neuronale prozesse Download PDF

Info

Publication number
DE102020212502A1
DE102020212502A1 DE102020212502.3A DE102020212502A DE102020212502A1 DE 102020212502 A1 DE102020212502 A1 DE 102020212502A1 DE 102020212502 A DE102020212502 A DE 102020212502A DE 102020212502 A1 DE102020212502 A1 DE 102020212502A1
Authority
DE
Germany
Prior art keywords
computer
distribution
latent
implemented method
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020212502.3A
Other languages
English (en)
Inventor
Michael Volpp
Gerhard Neumann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020212502.3A priority Critical patent/DE102020212502A1/de
Priority to US17/446,676 priority patent/US20220108153A1/en
Priority to CN202111157684.2A priority patent/CN114386563A/zh
Publication of DE102020212502A1 publication Critical patent/DE102020212502A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Ein Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems. Das Verfahren umfasst das Empfangen eines Trainings-Datensatzes xc, yc, der einem dynamischen Verhalten einer Vorrichtung entsprechen und das Berechnen einer Aggregation für mindestens eine latente Variable zldes Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Trainings-Datensatzes xc, yc. Eine in dem Trainings-Datensatz enthaltene Information wird direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen zlübertragen. Das Verfahren umfasst weiterhin das Erzeugen einer A-Posteriori prädiktiven Verteilung p(y|x,Dc) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz xc, yceingetreten ist.

Description

  • Technisches Gebiet
  • Die vorliegende Offenbarung betrifft Computer-implementierte Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems für eine technische Vorrichtung.
  • Hintergrund
  • Die Entwicklung leistungsfähiger Computer-implementierter Modelle zur Ableitung quantitativer Beziehungen zwischen Variablen aus Messdaten ist in allen Zweigen des Ingenieurwesens von zentraler Bedeutung. In diesem Zusammenhang werden Computerimplementierte neuronale Netzwerke und Verfahren, die auf den Gaußprozessen basieren, vermehrt in verschiedenen technischen Umgebungen eingesetzt. Neuronale Netzwerke können gut mit großen Mengen an Trainingsdatensätzen zurechtkommen und sind zur Trainingszeit rechnerisch effizient. Nachteilig ist, dass sie keine Einschätzungen für eine Unbestimmtheit über ihre Vorhersagen liefern und außerdem können zu einer Überanpassung bei kleinen Datensätzen neigen. Darüber hinaus kann sich das Problem ergeben, dass die neuronalen Netzwerke für ihre erfolgreiche Anwendung stark strukturiert sein sollten und ihre Größe ab einer gewissen Komplexität der Anwendungen schnell zunehmen kann. Das kann zu hohe Anforderungen an die für das Anwenden der neuronalen Netzwerke erforderliche Hardware stellen. Gaußprozesse können als komplementär zu neuronaler Netzwerken angesehen werden, da sie zuverlässige Einschätzungen für die Unbestimmtheit liefern können, jedoch kann ihre z.B. quadratische oder kubische Skalierung mit der Anzahl der Kontextdaten während der Trainingszeit die Anwendung bei Aufgaben mit großen Datenmengen oder bei hochdimensionalen Problemen auf typischer Hardware stark einschränken.
  • Um die oben erwähnten Probleme zu adressieren, wurden Verfahren entwickelt, die sich auf so genannte neuronale Prozesse beziehen. Diese neuronalen Prozesse können die Vorteile von neuronalen Netzwerken und Gaußprozessen kombinieren. Schließlich stellen sie eine Verteilung über Funktionen (statt einer einzelnen Funktion) bereit und stellen ein Multitask-Lernen („multi-task learning“) Verfahren dar (d.h. das Verfahren wird auf mehrere Aufgaben gleichzeitig trainiert). Darüber hinaus basieren diese Verfahren in der Regel auf Modellen der bedingten latenten Variable („conditional latent variable (CLV) models“), wobei die latente Variable zur Berücksichtigung der globalen Unbestimmtheit verwendet wird.
  • Die Computer-implementierten Maschinenlernsysteme können z.B. für die Parametrisierung von technischen Vorrichtungen eingesetzt werden (z.B. für die Parametrierung eines Kennfeldes). Ein weiterer Anwendungsbereich dieser Verfahren sind kleinere technische Geräte mit limitierten Hardware-Ressourcen bei denen der Stromverbrauch oder die geringe Speicherkapazität den Einsatz größerer neuronaler Netzwerke oder eines auf Gaußprozessen basierenden Verfahrens wesentlich einschränken kann.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung betrifft ein Computer-implementiertes Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems. Das Verfahren umfasst das Empfangen eines Trainings-Datensatzes xc, yc, der ein dynamischen Verhalten einer Vorrichtung widerspiegelt und das Berechnen einer Aggregation für mindestens eine latente Variable z1 des Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Trainings-Datensatzes xc, yc. Eine in dem Trainings-Datensatz enthaltene Information wird direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen z1 übertragen. Das Verfahren umfasst weiterhin das Erzeugen einer A-Posteriori prädiktiven Verteilung p(y|x,Dc) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz xc, yc eingetreten ist.
  • Die vorliegende Erfindung betrifft darüber hinaus das Anwenden des erzeugten Computerimplementierten Maschinenlernsystems in verschiedenen technischen Umgebungen. Die vorliegende Erfindung betrifft ferner Erzeugen eines Computer-implementierten Maschinenlernsystems und/oder Anwenden eines Computer-implementierten Maschinenlernsystems für eine Vorrichtung.
  • Die Techniken der vorliegenden Erfindung zielen darauf ab, ein (möglichst) simples und effizientes Computer-implementiertes Maschinenlernsystem zu erzeugen, das eine verbesserte prädiktive Leistung und Genauigkeit im Vergleich zu manchen Verfahren des Standes der Technik bereitstellt und zusätzlich einen Gewinn an Berechnungskosten aufweist. Für diesen Zweck kann das Computer-implementierte Maschinenlernsystem auf Basis verfügbarer Datensätze (z. B. historischer Daten) maschinell gelernt werden. Diese Datensätze können aus einer allgemein gegebenen Funktionsfamilie unter Verwendung einer gegebenen Teilmenge von Funktionen aus dieser Funktionsfamilie erhalten werden, die an bekannten Datenpunkten berechnet werden.
  • Insbesondere kann ein Nachteil einer Mittelwert-Aggregation einiger Techniken des Standes der Technik, in der jeder latenten Beobachtung des Maschinenlernsystems (unabhängig von der Informationsmenge, die im entsprechenden Kontextdatenpaar enthalten ist) das gleiche Gewicht 1/N zugewiesen werden kann, umgangen werden. Die Techniken der vorliegenden Offenbarung zielt darauf ab, den Aggregationsschritt des Verfahrens zu verbessern, um ein effizientes Computer-implementiertes Maschinenlernsystem zu erzeugen und die daraus resultierenden Berechnungskosten zu reduzieren. Die auf diese Weise erzeugten Computerimplementierten Maschinenlernsysteme können in zahlreichen technischen Systemen eingesetzt werden. Beispielsweise kann mittels der Computer-implementierten Maschinenlernsysteme eine technische Vorrichtung ausgelegt werden (z.B. eine Modellierung einer Parametrisierung eines Kennfeldes für eine Vorrichtung wie einen Motor, einen Verdichter oder eine Brennstoffzelle).
  • Figurenliste
    • 1a zeigt schematisch das Modell der bedingten latenten Variable („conditional latent variable (CLV) model“) mit aufgabenspezifischen latenten Variablen zl und einer aufgabenunabhängigen latenten Variable 9, die die gemeinsame statistische Struktur zwischen den Aufgaben erfasst. Die Variablen in Kreisen entsprechen den Variablen des CLV-Modells: D l c { x l , n c , y l , n c } n = 1 N l und D l t { x l , m t , y l , m t } m = 1 M l
      Figure DE102020212502A1_0001
      sind die Kontext- (c) bzw. Zieldatensätze (t).
    • 1b zeigt schematisch ein Netzwerk mit einer Mittelwert-Aggregation (MA) des Stands der Technik mit dem Likelihood-Variationsverfahren (VI), die in CLV-Modellen verwendet werden. Aufgabenindizes l werden der Einfachheit halber weggelassen. Jedes Kontextdatenpaar ( x n c , y n c )
      Figure DE102020212502A1_0002
      wird durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung rn abgebildet. r ist eine aggregierte latente Beobachtung, r ¯ = 1 / N n = 1 N r n
      Figure DE102020212502A1_0003
      (Mittelwert). Kästchen, die mit a · [b] beschriftet sind, kennzeichnen mehrlagige Perzeptren (engl. „multi-layer perceptron“, MLP) mit a verborgenen Schichten je mit b Einheiten. Das Kästchen mit der Bezeichnung „Mittelwert“ bezeichnet die traditionelle Mittelwert-Aggregation. Das Kästchen, welches mit z beschriftet ist, kennzeichnet die Realisierung einer Zufallsvariable mit einer Zufallsverteilung, die mit Parametern, die durch die eingehenden Knoten gegeben sind, parametrisiert ist. dz entspricht der latenten Dimension, z l d z und x n t
      Figure DE102020212502A1_0004
      sind in der Überschrift von 1a definiert.
    • 2 zeigt ein Netzwerk mit der „bayesschen Aggregation“ der vorliegenden Offenbarung. Aufgabenindizes l werden der Einfachheit halber weggelassen. Das Kästchen mit der Bezeichnung „Bayes“ bezeichnet die „bayessche Aggregation“. Jedes Kontextdatenpaar ( x n c , y n c )
      Figure DE102020212502A1_0005
      kann in einem Beispiel zusätzlich zu der in 1b eingeführten Abbildung mittels eines neuronalen Netzwerks durch ein zweites neuronales Netzwerk auf eine Unbestimmtheit ( σ r n 2 )
      Figure DE102020212502A1_0006
      der entsprechenden latenten Beobachtung (rn) abgebildet werden. In diesem Beispiel parametrisieren die Parameter ( μ z ; σ z 2 )
      Figure DE102020212502A1_0007
      die approximative A-Posteriori-Verteilung q φ ( z | D c ) .
      Figure DE102020212502A1_0008
      . Die anderen Notationen entsprechen den in 1b verwendeten Notationen. Die in 1b definierte aggregierte latente Beobachtung r wird nicht verwendet.
    • 3 vergleicht die Ergebnisse für einen Testdatensatz (das Furuta-Pendel), die für verschiedene Verfahren berechnet wurden, und zeigt Logarithmen der A-Posteriori prädiktiven Verteilung, l o g p ( y | x , D c ) ,
      Figure DE102020212502A1_0009
      in Abhängigkeit von der Anzahl der Kontextdatenpunkte N. BA+PB: numerische Ergebnisse unter Verwendung der auf 2 gezeigten erfindungsgemäßen „bayesschen Aggregation“ (BA) und der erfindungsgemäßen nichtstochastischen parameterbasierten Verlustfunktion (PB), die traditionelle Variationsinferenz- oder Monte-Carlo-basierte Methoden ersetzt. MA+PB: numerische Ergebnisse unter Verwendung der in 1b skizzierten traditionellen Mittelwert-Aggregation und der erfindungsgemäßen PB Verlustfunktion. BA + VI: numerische Ergebnisse unter Verwendung der erfindungsgemäßen BA und der traditionellen Verlustfunktion, die durch das Likelihood-Variationsverfahren approximiert wird. L entspricht der Anzahl der Trainings-Datensätze.
  • Ausführliche Beschreibung
  • Die vorliegende Offenbarung betrifft das Verfahren zum Erzeugen eines Computerimplementierten Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) für eine Vorrichtung, das unter Verwendung einer Aggregation mittels bayesscher Inferenz („bayesschen Aggregation“) erzeugt wird. Diese Verfahren werden aufgrund ihrer rechnerischen Komplexität in einem computerimplementierten System ausgeführt. Zunächst werden einige allgemeine Aspekte des Verfahrens zum Erzeugen eines Computer-implementierten Maschinenlernsystems diskutiert werden, bevor anschließend einige mögliche Implementierungen erläutert werden.
  • Insbesondere die probabilistischen Modelle im Zusammenhang mit neuronalen Prozessen lassen sich schematisch wie folgt formulieren. Man bezeichnet mit
    Figure DE102020212502A1_0010
    eine Familie allgemeiner Funktionen fl, die für ein spezifisches technisches Problem verwendet werden können und die eine ähnliche statistische Struktur aufweisen. Es wird ferner angenommen, dass für das Trainieren verwendete Datensätze D l { x l , i , y l , i } i
    Figure DE102020212502A1_0011
    verfügbar sind, wobei yl,i unter Verwendung der Teilmenge von L Funktionen („Aufgaben“) { ƒ l } l = 1 L , F
    Figure DE102020212502A1_0012
    aus der oben erwähnten Funktionsfamilie an den Datenpunkten xl,i wie folgt berechnet werden: yl,i = fl(xl,i) + ε. Hier ist ε ein additives Gaußsches Rauschen mit dem Mittelwert Null. Die Datensätze D l { x l , i , y l , i } i ,
    Figure DE102020212502A1_0013
    wie in 1a veranschaulicht, werden anschließend in Kontextdatensätze, D l c { x l , n c , y l , n c } n = 1 N l ,
    Figure DE102020212502A1_0014
    und Zieldatensätze, D l t { x l , m t , y l , m t } m = 1 M l ,
    Figure DE102020212502A1_0015
    unterteilt. Das auf neuronalen Prozessen basierende Verfahren zielt auf das Trainieren einer A-Posteriori prädiktiven Verteilung p ( y l , m t | x l , m t , D l c )
    Figure DE102020212502A1_0016
    über fl ab (unter Bedingung, dass der Kontextdatensatz D l c
    Figure DE102020212502A1_0017
    eingetreten ist), um die Zielwerte y l , m t
    Figure DE102020212502A1_0018
    an den Zielpunkten x l , m t
    Figure DE102020212502A1_0019
    möglichst genau vorherzusagen (z.B. mit einem Fehler, der unterhalb eines vorbestimmten Schwellwertes liegt).
  • Wie oben erwähnt und in Fig. la gezeigt, kann dieses Verfahren zusätzlich die Verwendung von Modellen mit bedingten latenten Variablen (CLV-Variablen) umfassen. Konkret kann dieses Modell aufgabenspezifische latente Variablen zl sowie zumindest eine aufgabenunabhängige latente Variable umfassen (z.B. eine aufgabenunabhängige latente Variable θ), die die gemeinsame statistische Struktur zwischen den Aufgaben erfasst. Die latenten Variablen zl sind Zufallsvariablen, die zu einem probabilistischen Charakter des gesamten Verfahrens beitragen. Darüber hinaus werden die latenten Variablen zl für die Übertragung der in den Kontextdatensätzen (linker Kasten in 1a) enthaltenen Information benötigt, um entsprechende Vorhersagen über die Zieldatensätze (rechter Kasten in 1a) treffen zu können. Das gesamte Verfahren kann rechnerisch relativ kompliziert sein und kann aus mehreren Zwischenschritten bestehen. Das Verfahren lässt sich als Optimierungsproblem darstellen, indem eine A-Posteriori prädiktive Likelihood Verteilung in Bezug auf die mindestens eine aufgabenunabhängige latente Variable θ und auf einen einzelnen Parametersatz φ, der die approximative A-Posteriori-Verteilung q φ ( z | D c )
    Figure DE102020212502A1_0020
    parametrisiert und den Kontextdatensätzen D l c
    Figure DE102020212502A1_0021
    Di gemeinsam ist, maximiert wird. Zugleich werden alle von der latenten Variablen zl abhängigen Verteilungen entsprechend marginalisiert, d.h. über zl integriert. Abschließend kann die gewünschte A-Posteriori prädiktive Verteilung p ( y l , m t | x l , m t , D l c )
    Figure DE102020212502A1_0022
    hergeleitet werden.
  • Da zl eine latente Variable ist, ist eine Form von Aggregationsmechanismus erforderlich, um die Verwendung von Kontextdatensätzen D l c
    Figure DE102020212502A1_0023
    variabler Größe zu ermöglichen. Um eine sinnvolle Operation auf Datensätzen darstellen zu können, muss eine solche Aggregation hinsichtlich der Permutationen der Kontextdatenpunkte x l , n c und y l , n c
    Figure DE102020212502A1_0024
    invariant sein. Um diese Permutationsbedingung zu erfüllen, wird normalerweise die in 1b schematisch dargestellte traditionelle Mittelwert-Aggregation verwendet. Zunächst wird jedes Kontextdatenpaar ( x n c , y n c )
    Figure DE102020212502A1_0025
    durch ein neuronales Netzwerk auf eine entsprechende latente Beobachtung rn abgebildet. (Aufgabenindizes l werden der Einfachheit halber im Folgenden weggelassen.) Dann wird eine permutationsinvariante Operation auf den erzeugten Satz { r n } n = 1 N
    Figure DE102020212502A1_0026
    angewendet, um eine aggregierte latente Beobachtung r zu erhalten. Eine der in diesem Zusammenhang im Stand der Technik genutzten Möglichkeiten ist die Berechnung eines Mittelwertes, nämlich r = r ¯ = 1 / N n = 1 N r n .
    Figure DE102020212502A1_0027
    Es ist zu beachten, dass diese aggregierte Beobachtung r dann verwendet wird, um eine entsprechende Verteilung für die latenten Variablen z zu parametrisieren.
  • Wie in 2 skizziert ist, kann eine hierhin beschriebene Aggregation, die für eine Mehrzahl von latenten Variablen z unter Berücksichtigung des Trainings-Datensatzes ( x n c , y n c )
    Figure DE102020212502A1_0028
    berechnet wird, beispielweise als bayesschen Inferenzproblem formuliert werden. In einem Beispiel können der empfangene Trainings-Datensatz ( x n c , y n c )
    Figure DE102020212502A1_0029
    ein dynamisches Verhalten der Vorrichtung widerspiegeln. Im Gegensatz zu den im Stand der Technik verwendeten Aggregationsmechanismen kann das vorliegende Verfahren, das auf der Aggregation unter Verwendung einer bayesschen Inferenz (oder kurz „bayessche Aggregation“) basiert, ermöglichen, dass die in dem Trainings-Datensatz enthaltene Information direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen z übertragen wird. Wie weiter unten erörtert, werden insbesondere die Parameter, die eine entsprechende Verteilung in Bezug auf die Mehrzahl von latenten Variablen z parametrisieren, nicht auf einer groben Mittelwert-Aggregation r für aggregierte latente Beobachtungen rn beruhen, die traditionell im Stand der Technik verwendet wird. Der erfindungsgemäße Aggregationsschritt kann das gesamte Verfahren verbessern und zum Erzeugen eines effizienten Computer-implementierten Maschinenlernsystems durch das Erzeugen einer A-Posteriori prädiktiven Verteilung p ( y | x , D c )
    Figure DE102020212502A1_0030
    zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten „bayesschen Aggregation“ und unter Bedingung, dass der Trainings-Datensatz ( x n c , y n c )
    Figure DE102020212502A1_0031
    eingetreten ist, führen. Die daraus resultierenden Berechnungskosten können ebenfalls wesentlich reduziert werden. Die mit diesem Verfahren erzeugte A-Posteriori prädiktive Verteilung kann vorteilhafterweise zur Vorhersage entsprechender Ausgangsgrößen in Abhängigkeit von Eingangsgrößen bezüglich des dynamischen Verhaltens der kontrollierten Vorrichtung verwendet werden.
  • Eine Mehrzahl von Trainings-Datensätzen kann an der Vorrichtung gemessene und/oder für die Vorrichtung berechnete Eingangsgrößen umfassen. Die Mehrzahl von Trainings-Datensätzen kann Information in Bezug auf Betriebszustände der technischen Vorrichtung enthalten. Zusätzlich oder alternativ kann die Mehrzahl von Trainings-Datensätzen Informationen bezüglich der Umwelt der technischen Vorrichtung enthalten. In manchen Beispielen kann die Mehrzahl von Trainings-Datensätzen Sensordaten enthalten. Das Computer-implementierte Maschinenlernsystem kann für eine gewisse technische Vorrichtung trainiert sein, um in dieser Vorrichtung und/oder in deren Umgebung anfallende Daten (z.B. Sensordaten) zu verarbeiten und eine oder mehrere für Überwachung und/oder Steuerung der Vorrichtung relevante Ausgangsgröße zu berechnen. Das kann während der Auslegung der technischen Vorrichtung passieren. In diesem Fall kann das Computer-implementierte Maschinenlernsystem zur Berechnung der entsprechenden Ausgangsgrößen in Abhängigkeit von den Eingangsgrößen verwendet werden. Die gewonnen Daten können dann in eine Überwachungs- und/oder Steuervorrichtung für die technische Vorrichtung eingepflegt werden. In anderen Beispielen kann das Computer-implementierte Maschinenlernsystem im Betrieb der technischen Vorrichtung eingesetzt werden, um Überwachungs- und/oder Kontrollaufgaben auszuführen.
  • Die Trainings-Datensätze können gemäß der obigen Definition auch als Kontextdatensätze bezeichnet werden, D l c ,
    Figure DE102020212502A1_0032
    siehe auch 1a. Der in der vorliegenden Offenbarung verwendete Trainings-Datensatz ( x n c , y n c )
    Figure DE102020212502A1_0033
    (z.B. für einen ausgewählten Index l mit l = 1..L) kann die Mehrzahl von Trainings-Datenpunkten umfassen und aus einer ersten Mehrzahl von Datenpunkten x n c
    Figure DE102020212502A1_0034
    und einer zweiten Mehrzahl von Datenpunkten y n c
    Figure DE102020212502A1_0035
    bestehen . Die zweite Mehrzahl von Datenpunkten, y n c ,
    Figure DE102020212502A1_0036
    kann beispielhaft unter Verwendung einer gegebenen Teilmenge von Funktionen aus einer allgemeinen gegebenen Funktionsfamilie
    Figure DE102020212502A1_0037
    auf der ersten Mehrzahl von Datenpunkten, x n c ,
    Figure DE102020212502A1_0038
    auf dieselbe Weise berechnet werden, wie weiter oben besprochen ist. Zum Beispiel kann die Funktionsfamilie
    Figure DE102020212502A1_0037
    so ausgewählt werden, dass sie am besten zur Beschreibung eines Betriebszustands einer bestimmten betrachteten Vorrichtung passt. Die Funktionen und insbesondere die gegebene Teilmenge von Funktionen können auch eine ähnliche statistische Struktur aufweisen.
  • Im nächsten Schritt des Verfahrens und in Übereinstimmung mit den obigen Diskussionen kann jedes Paar der ersten Mehrzahl von Datenpunkten x n c
    Figure DE102020212502A1_0039
    und der zweiten Mehrzahl von Datenpunkten y n c
    Figure DE102020212502A1_0040
    aus dem Trainings-Datensatz ( x n c , y n c )
    Figure DE102020212502A1_0041
    durch ein erstes neuronales Netzwerk 1 auf eine entsprechende latente Beobachtung rn abgebildet werden. Zusätzlich zu der eingeführten Abbildung auf die entsprechende latente Beobachtung rn kann jedes Kontextdatenpaar in einem Beispiel durch ein zweites neuronales Netz 2 auf eine Unbestimmtheit σ r n 2
    Figure DE102020212502A1_0042
    der entsprechenden latenten Beobachtung rn abgebildet werden. Dann kann eine bayessche A-Posteriori-Verteilung p(z|rn) für die Mehrzahl von latenten Variablen z aggregiert werden (z.B. Mittels eines entsprechend eingerichteten Moduls 3), unter Bedingung, dass die Mehrzahl von latenten Beobachtungen rn eingetreten ist. Eine beispielhafte Methode in diesem Zusammenhang besteht darin, die A-Posteriori-Verteilung durch eine bayessche Interferenz zu aktualisieren. Zum Beispiel kann eine bayessche Inferenz-Berechnung der folgenden Form durchgeführt werden: p(z|rn) = p(rn|z) · p(z)/p(rn). Letztendlich kann eine Mehrzahl von latenten Beobachtungen rn und eine Mehrzahl ihrer Unbestimmtheiten σ r n 2
    Figure DE102020212502A1_0043
    berechnet werden, siehe auch 2. Wie weiter oben bereits erwähnt, unterscheidet sich das erfindungsgemäße Verfahren von den traditionellen Verfahren vor allem dadurch, dass das erstere von Anfang an zwei neuronale Netzwerke für den Abbildungsschritt verwendet, während die letzteren nur ein neuronales Netzwerk und eine grobe Mittelwert-Aggregation r für aggregierte latente Beobachtungen rn umfassen. Dadurch kann die in dem Trainings-Datensatz enthaltene Information direkt in die statistische Beschreibung der Mehrzahl von latenten Variablen übertragen werden.
  • In einem Beispiel kann die „bayessche Aggregation“ mit Hilfe von faktorisierten Gaußschen Verteilungen implementiert werden. Eine entsprechende Likelihood-Verteilung p(rn|z) kann beispielweise durch jeweilige Gaußsche Verteilung folgendermaßen definiert werden: p ( r n | z ) = N ( r n | z , σ r n 2 ) .
    Figure DE102020212502A1_0044
    In diesem Fall entspricht die Unbestimmtheit σ r n 2
    Figure DE102020212502A1_0045
    einer Varianz der einsprechenden Gaußschen Verteilung.
  • Das Verfahren der vorliegenden Offenbarung kann das Erzeugen einer zweiten approximativen A-Posteriori-Verteilung qφ (z|Dc) für die Mehrzahl von latenten Variablen z unter Bedingung umfassen, dass den Trainings-Datensatz ( x n c , y n c )
    Figure DE102020212502A1_0046
    eingetreten ist. Diese zweite approximative A-Posteriori-Verteilung kann im obigen Fall faktorisierter Gaußschen Verteilungen N ( r n | z , σ r n 2 )
    Figure DE102020212502A1_0047
    durch einen Parametersatz ( μ z ; σ z 2 )
    Figure DE102020212502A1_0048
    beschrieben werden, welche über einen für den Trainings-Datensatz gemeinsamen Parameter φ parametrisiert werden kann. Dieser Parametersatz ( μ z ; σ z 2 )
    Figure DE102020212502A1_0049
    kann basierend auf der berechneten Mehrzahl von latenten Beobachtungen rn und der berechneten Mehrzahl ihrer Unbestimmtheiten σ r n 2
    Figure DE102020212502A1_0050
    iterativ berechnet werden. Zusammenfassend ermöglicht die Formulierung der Aggregation als bayessche Inferenz, die in dem Trainings-Datensatz D c ( x n c , y n c )
    Figure DE102020212502A1_0051
    enthaltene Information direkt in die statistische Beschreibung von latenten Variablen z zu übertragen.
  • Des Weiteren kann das iterative Berechnen des Parametersatzes der zweiten approximativen A-Posteriori-Verteilung D c ( x n c , y n c )
    Figure DE102020212502A1_0052
    das Implementieren einer anderen Mehrzahl von faktorisierten Gaußschen Verteilungen in Bezug auf die latenten Variablen z umfassen. In diesem Beispiel kann der Parametersatz einer Mehrzahl von Mittelwerten µz und Varianzen σ z 2
    Figure DE102020212502A1_0053
    der Gaußschen Verteilungen entsprechen.
  • Des Weiteren beinhaltet das Verfahren das Empfangen eines anderen Trainings-Datensatzes ( x n t , y n t ) ,
    Figure DE102020212502A1_0054
    der eine dritte Mehrzahl von Datenpunkten x n t
    Figure DE102020212502A1_0055
    und eine vierte Mehrzahl von Datenpunkten y n t
    Figure DE102020212502A1_0056
    umfasst. Der andere Trainings-Datensatz kann auch einem weiter oben erwähnten Zieldatensatz entsprechen, D t ( x n t , y n t )
    Figure DE102020212502A1_0057
    (siehe auch 1a). Das vorliegende Verfahren umfasst beispielhaft das Berechnen der vierten Mehrzahl von Datenpunkten y n t
    Figure DE102020212502A1_0058
    unter Verwendung der gleichen gegebenen Teilmenge von Funktionen aus der allgemeinen gegebenen Funktionsfamilie
    Figure DE102020212502A1_0037
    , wobei die gegebene Teilmenge von Funktionen auf der dritten Mehrzahl von Datenpunkten x n t
    Figure DE102020212502A1_0059
    berechnet wird. Das Verfahren umfasst ferner das Erzeugen einer dritten Verteilung p ( y n t | μ z , σ z 2 , x n t , θ ) ,
    Figure DE102020212502A1_0060
    die von der Mehrzahl von latenten Variablen z, von dem Parametersatz ( μ z ; σ z 2 ) ,
    Figure DE102020212502A1_0061
    der aufgabenunabhängigen Variablen θ und dem anderen Trainings-Datensatz ( x n t , y n t )
    Figure DE102020212502A1_0062
    (z.B. Zieldatensatz) abhängt. Diese dritte Verteilung p ( y n t | μ z , σ z 2 , x n t , θ )
    Figure DE102020212502A1_0063
    kann in einem bevorzugten Beispiel durch ein drittes und viertes neuronales Netzwerk 4, 5 erzeugt werden.
  • Ein nächster Schritt des Verfahrens umfasst das Optimieren einer Likelihood-Verteilung p ( y n t | x n t , D c , θ )
    Figure DE102020212502A1_0064
    bezüglich der aufgabenunabhängigen Variable θ und des gemeinsamen Parameters φ. In einem ersten Beispiel kann das Optimieren der Likelihood-Verteilung p ( y n t | x n t , D c , θ )
    Figure DE102020212502A1_0065
    das Maximieren der Likelihood-Verteilung p ( y n t | x n t , D c , θ )
    Figure DE102020212502A1_0066
    bezüglich der aufgabenunabhängigen Variable θ und des gemeinsamen Parameters φ umfassen. Hier kann das Maximieren auf der erzeugten zweiten approximativen A-Posteriori-Verteilung q φ ( z | D c )
    Figure DE102020212502A1_0067
    und auf der erzeugten dritten Verteilung p ( y n t | μ z , σ z 2 , x n t , θ )
    Figure DE102020212502A1_0068
    beruhen. In diesem Zusammenhang kann das Maximieren der Likelihood-Verteilung p ( y n t | x n t , D c , θ )
    Figure DE102020212502A1_0069
    ferner das Berechnen eines Integrals über eine Funktion von latenten Variablen z umfassen, die jeweilige Produkte der zweiten approximativen A-Posteriori-Verteilung q φ ( z | D c )
    Figure DE102020212502A1_0070
    und der dritten Verteilung p ( y n t | μ z , σ z 2 , x n t , θ )
    Figure DE102020212502A1_0071
    beinhaltet.
  • Um die aufgabenunabhängige Variable 9 und den gemeinsamen Parameter φ durch das Maximieren der Likelihood-Verteilung p ( y n t | x n t , D c , θ )
    Figure DE102020212502A1_0072
    zu optimieren kann das Integral in Bezug auf die Mehrzahl von latenten Variablen z approximiert werden. Hierzu kann das Integral in Bezug auf die Mehrzahl von latenten Variablen z durch eine nicht-stochastische Verlustfunktion approximiert werden, die auf den Parametersatz ( μ z ; σ z 2 )
    Figure DE102020212502A1_0073
    der zweiten approximativen A-Posteriori-Verteilung q φ ( z | D c )
    Figure DE102020212502A1_0074
    beruht. Das gesamte Verfahren kann dadurch schneller berechnet werden als manche Verfahren des Standes der Technik, welche traditionelle Variationsinferenz- oder Monte-Carlo-basierte Methoden verwenden. Abschließend können die durch das Optimieren hergeleiteten aufgabenunabhängigen Variablen 9 und der gemeinsame Parameter φ in der Likelihood-Verteilung p ( y n t | x n t , D c , θ )
    Figure DE102020212502A1_0075
    eingesetzt werden, um die A-Posteriori prädiktiven Verteilung q φ ( y | x , D c )
    Figure DE102020212502A1_0076
    zu erzeugen.
  • In 3 sind die Ergebnisse für ein Standard-Problem (das Furuta-Pendel) verglichen, die für verschiedene Verfahren berechnet wurden. Diese Figur zeigt Logarithmen der A-Posteriori prädiktiven Verteilung, l o g p ( y | x , D c ) ,
    Figure DE102020212502A1_0077
    in Abhängigkeit von der ersten Mehrzahl von Datenpunkten (d.h. von der Anzahl der Kontextdatenpunkte) N. Wie aus dieser Figur ersichtlich, kann das Verfahren der vorliegenden Offenbarung die Gesamtleistung des Computer-implementierten Maschinenlernsystems im Vergleich zu den entsprechenden traditionellen Verfahren, nämlich Mittelwert-Aggregation (MA) bzw. Likelihood-Variationsverfahren (VI), insbesondere bei kleinen Trainings-Datensätzen verbessern.
  • Wie weiter oben bereits besprochen, können die Computer-implementierten Maschinenlernsysteme dieser Offenbarung in verschiedenen technischen Vorrichtungen und Systemen eingesetzt werden. Zum Beispiel können die Computer-implementierten Maschinenlernsystems zur Kontrolle und / oder zum Überwachen einer Vorrichtung eingesetzt werden.
  • Ein erstes Beispiel betrifft die Auslegung einer technischen Vorrichtung oder eines technischen Systems. In diesem Zusammenhang können die Trainings-Datensätze Messdaten und/oder synthetische Daten und/oder Software-Daten enthalten, die für die Betriebszustände der technischen Vorrichtung oder eines technischen Systems eine Rolle spielen. Die Eingangs- bzw. Ausgangsdaten können Zustandsgrößen der technischen Vorrichtung oder eines technischen Systems und/oder Steuergrößen der technischen Vorrichtung oder eines technischen Systems sein. In einem Beispiel kann das Erzeugen des Computer-implementierten probabilistischen Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) das Abbilden von einem Eingangsvektor einer Dimension (ℝn) zu einem Ausgangsvektor einer zweiten Dimension (ℝm) umfassen. Hier kann beispielweise der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird. In einem Beispiel kann die technische Vorrichtung eine Maschine, bspw. ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die technische Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur oder einen Massenstrom umfassen. In anderen Beispielen kann die gemessene Eingangszustandsgröße der Vorrichtung eine Kombination davon umfassen. In einem Beispiel kann die geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis umfassen. In anderen Beispielen kann die geschätzte Ausgangszustandsgröße eine Kombination davon umfassen.
  • Die verschiedenen Eingangs- und Ausgangsgrößen können in einer technischen Vorrichtung während des Betriebs komplexe nichtlineare Abhängigkeiten aufweisen. In einem Beispiel kann mittels der Computer-implementierten Maschinenlernsysteme dieser Offenbarung eine Parametrisierung eines Kennfeldes für die Vorrichtung (z.B. für einen Verbrennungsmotor, einen Elektromotor, einen Hybridmotor oder eine Brennstoffzelle) modelliert werden. Das modellierte Kennfeld des erfindungsgemäßen Verfahrens ermöglicht vor allem die richtigen Zusammenhänge zwischen den verschiedenen Zustandsgrößen der Vorrichtung im Betrieb schnell und genau bereitzustellen. Das in dieser Art modellierte Kennfeld kann beispielweise im Betrieb der Vorrichtung (z.B. des Motors) zur Überwachung und/oder Kontrolle des Motors eingesetzt werden (beispielsweise in einer Motorsteuervorrichtung). In einem Beispiel kann das Kennfeld angeben, wie ein dynamisches Verhalten (z.B. ein Energieverbrauch) einer Maschine (z.B. eines Motors) von verschiedenen Zustandsgrößen der Maschine (z.B. Drehzahl, Temperatur, Massenstrom, Drehmoment, Wirkungsgrad und Druckverhältnis) abhängt.
  • Die Computer-implementierten Maschinenlernsysteme können eingesetzt werden zur Klassifikation einer Zeitreihe, insbesondere der Klassifikation von Bilddaten (d.h. die technische Vorrichtung ist ein Bildklassifikator). Die Bilddaten können zum Beispiel Kamera- , Lidar-, Radar-, Ultraschall- oder thermische Bilddaten sein (z.B. erzeugt von entsprechenden Sensoren). In manchen Beispielen können die Computer-implementierten Maschinenlernsysteme für eine Überwachungsvorrichtung (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung) oder für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.
  • In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. Der zumindest teilautonome Roboter kann ein autonomes Fahrzeug sein (oder ein anderes zumindest teilautonomes Fortbewegungs- oder Transportmittel). In anderen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. In anderen Beispielen kann die technische Vorrichtung eine Maschine oder eine Gruppe von Maschinen (z.B. einer Industrielage) sein. Zum Beispiel kann ein Betriebszustand einer Werkzeugmaschine überwacht werden. In diesen Beispielen kann die Ausgangsdaten y Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen technischen Vorrichtung enthalten.
  • In weiteren Beispielen kann das zu überwachende System ein Kommunikationsnetzwerk sein. In manchen Beispielen kann das Netzwerk ein Telekommunikationsnetzwerk (z.B. ein 5-G Netzwerk) sein. In diesen Beispielen können die Eingangsdaten x Auslastungsdaten in Knoten des Netzwerks und die Ausgangsdaten y Information bezüglich der Zuteilung von Ressourcen (z.B. Kanäle, Bandbreite in Kanälen des Netzwerks oder andere Ressourcen) enthalten. In anderen Beispielen kann eine Netzwerkfehlfunktion erkannt werden.
  • In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer technischen Vorrichtung. Die technische Vorrichtung kann wiederum eine der oben (oder unten) diskutierten Vorrichtungen sein (z.B. ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen kann die Ausgangsdaten y eine Steuergröße des jeweiligen technischen Systems enthalten.
  • In wieder anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um ein Signal zu filtern. In manchen Fällen kann das Signal ein Audiosignal oder ein Videosignal sein. In diesen Beispielen kann die Ausgangsdaten y ein gefiltertes Signal enthalten.
  • Die Verfahren zum Erzeugen und Anwenden von Computer-implementierten Maschinenlernsystemen der vorliegenden Offenbarung können auf einem computerimplementierten System ausgeführt werden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme enthalten kann, die, wenn ausgeführt, die Verfahren der vorliegenden Offenbarung ausführen) sowie mindestens eine Schnittstelle für Eingänge und Ausgänge aufweisen. Das computerimplementierte System kann ein Stand-alone System oder ein verteiltes System sein, dass über ein Netzwerk (z.B. das Internet) kommuniziert.
  • Die vorliegende Offenbarung betrifft auch Computer-implementierten Maschinenlernsysteme, die mit den Verfahren der vorliegenden Offenbarung erzeugt werden. Die vorliegende Offenbarung betrifft auch Computerprogramme, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen. Darüber hinaus betrifft die vorliegende Offenbarung maschinenlesbares Speichermedien (z.B. optische Speichermedien oder Festspeicher, beispielsweise FLASH-Speicher), auf denen Computerprogramme gespeichert sind, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen.

Claims (18)

  1. Computer-implementiertes Verfahren zum Erzeugen eines Computer-implementierten Maschinenlernsystems, wobei das Verfahren folgende Schritte umfasst: das Empfangen eines Trainings-Datensatzes (xc, yc), der ein dynamischen Verhalten einer Vorrichtung widerspiegelt; das Berechnen einer Aggregation für mindestens eine latente Variable (zl) des Maschinenlernsystems unter Verwendung einer bayesschen Inferenz und unter Berücksichtigung des Training-Datensatzes (xc, yc), wobei eine in dem Trainings-Datensatz enthaltene Information direkt in eine statistische Beschreibung der Mehrzahl von latenten Variablen (zl) übertragen wird; das Erzeugen einer A-Posteriori prädiktiven Verteilung (p(y|x,Dc)) zur Vorhersage des dynamischen Verhaltens der Vorrichtung unter Verwendung der berechneten Aggregation und unter der Bedingung, dass der Trainings-Datensatz (xc, yc) eingetreten ist.
  2. Computer-implementiertes Verfahren nach Anspruch 1 ferner das Verwenden der erzeugten A-Posteriori prädiktiven Verteilung zur Vorhersage entsprechender Ausgangsgrößen in Abhängigkeit von Eingangsgrößen bezüglich des dynamischen Verhaltens der Vorrichtung umfasst.
  3. Computer-implementiertes Verfahren nach Anspruch 1 oder 2, wobei der Trainings-Datensatz (xc, yc) eine erste Mehrzahl von Datenpunkten (xc) und eine zweite Mehrzahl von Datenpunkten (yc) umfasst, wobei das Verfahren das Berechnen der zweiten Mehrzahl von Datenpunkten (yc) unter Verwendung einer gegebenen Teilmenge von Funktionen (F) aus einer allgemeinen gegebenen Funktionsfamilie umfasst, wobei die gegebene Teilmenge von Funktionen auf der ersten Mehrzahl von Datenpunkten berechnet wird; und wobei das Berechnen der Aggregation folgende Schritte umfasst: das Abbilden jedes Paares der ersten (xc) Mehrzahl von Datenpunkten und der zweiten (yc) Mehrzahl von Datenpunkten aus dem Trainings-Datensatz (xc, yc) durch ein erstes neuronales Netzwerk auf eine entsprechende latente Beobachtung (rn) und durch ein zweites neuronales Netzwerk auf eine Unbestimmtheit (σrn) der entsprechenden latenten Beobachtung (rn); das Aggregieren einer bayesschen A-Posteriori-Verteilung (p(zl|rn)) für die Mehrzahl von latenten Variablen (zl) unter Bedingung, dass die Mehrzahl von latenten Beobachtungen (rn) eingetreten ist, wobei das Aggregieren unter Verwendung einer bayesschen Inferenz durchgeführt wird, wodurch die in dem Trainings-Datensatz (xc, yc) enthaltene Information direkt in die statistische Beschreibung der Mehrzahl von latenten Variablen übertragen wird; das Berechnen einer Mehrzahl von latenten Beobachtungen (rn) und einer Mehrzahl ihrer Unbestimmtheiten (σrn).
  4. Computer-implementiertes Verfahren nach Anspruch 3, wobei das Aggregieren der bayesschen A-Posteriori-Verteilung (p(zl|rn)) das Implementieren einer Mehrzahl von faktorisierten Gaußschen Verteilungen umfasst, und wobei die Unbestimmtheit (σrn) eine Varianz der einsprechenden Gaußschen Verteilung ist.
  5. Computer-implementiertes Verfahren nach Anspruch 4, wobei das Erzeugen der A-Posteriori prädiktiven Verteilung (p(y|x,Dc)) folgende weitere Schritte umfasst: das Erzeugen einer zweiten approximativen A-Posteriori-Verteilung (qφ(zl|D c)) für die Mehrzahl von latenten Variablen (zl) unter Bedingung, dass den Trainings-Datensatz (xc, yc) eingetreten ist, wobei die zweite approximative A-Posteriori-Verteilung ferner durch einen Parametersatz (µz, σz 2) beschrieben wird, welche über einen für den Trainings-Datensatz (xc, yc) gemeinsamen Parameter (φ) parametrisiert ist; das iterative Berechnen des Parametersatzes basierend auf der berechneten Mehrzahl von latenten Beobachtungen (rn) und der berechneten Mehrzahl ihrer Unbestimmtheiten (σrn).
  6. Computer-implementiertes Verfahren nach Anspruch 5, wobei das iterative Berechnen des Parametersatzes das Implementieren einer anderen Mehrzahl von faktorisierten Gaußschen Verteilungen in Bezug auf die latenten Variablen (zl) umfasst, und wobei der Parametersatz einer Mehrzahl von Mittelwerten (µz) und Varianzen (σz 2) der Gaußschen Verteilungen entspricht.
  7. Computer-implementiertes Verfahren nach Anspruch 5 oder 6 ferner das Empfangen eines anderen Trainings-Datensatzes (xt, yt) beinhaltet, der eine dritte Mehrzahl von Datenpunkten (xt) und eine vierte Mehrzahl von Datenpunkten (yt) umfasst, wobei das Verfahren das Berechnen der vierten Mehrzahl von Datenpunkten (yt) unter Verwendung der gegebenen Teilmenge von Funktionen (F) aus der allgemeinen gegebenen Funktionsfamilie umfasst, wobei die gegebene Teilmenge von Funktionen auf der dritten Mehrzahl von Datenpunkten berechnet wird, und wobei das Erzeugen der A-Posteriori prädiktiven Verteilung (p(y|x,Dc)) ferner das Erzeugen einer dritten Verteilung (p(yt| µz, σz 2, xt, θ)) durch ein drittes und viertes neuronales Netzwerk umfasst, wobei die dritte Verteilung (p(yt| µz, σz 2, xt, θ)) von der Mehrzahl von latenten Variablen (zl), dem Parametersatz (µz, αz 2), der aufgabenunabhängigen Variablen (θ) und dem anderen Trainings-Datensatz (xt, yt) abhängt.
  8. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 7, wobei das Erzeugen der A-Posteriori prädiktiven Verteilung [p(y|x,Dc)] das Optimieren einer Likelihood-Verteilung [p(yt| xt, Dc, θ)] bezüglich der aufgabenunabhängigen Variablen (θ) und des gemeinsamen Parameters (φ) umfasst.
  9. Computer-implementiertes Verfahren nach Anspruch 8, wobei das Optimieren der Likelihood-Verteilung [p(yt| xt, Dc, θ)] das Maximieren der Likelihood-Verteilung [p(yt| xt, Dc, θ)] bezüglich der aufgabenunabhängigen Variablen (θ) und des gemeinsamen Parameters (φ) umfasst, wobei das Maximieren auf der erzeugten zweiten approximativen A-Posteriori-Verteilung [qφ(zl|Dc)] und auf der erzeugten dritten Verteilung [p(yt| µz, σz 2, xt, θ)] beruht.
  10. Computer-implementiertes Verfahren nach Anspruch 9, wobei das Maximieren der Likelihood-Verteilung [p(yt| xt, Dc, θ)] das Berechnen eines Integrals über eine Funktion von latenten Variablen (zl) umfasst, die jeweilige Produkte der zweiten approximativen A-Posteriori-Verteilung [qφ(z|Dc)] und der dritten Verteilung [p(yt| µz, σz 2, xt, θ)] beinhaltet.
  11. Computer-implementiertes Verfahren nach Anspruch 10, wobei das Berechnen des Integrals das Approximieren des Integrals in Bezug auf die Mehrzahl von latenten Variablen (zl) durch eine nicht-stochastische Verlustfunktion umfasst, die auf den Parametersatz der zweiten approximativen A-Posteriori-Verteilung (qφ(zl|Dc)) beruht.
  12. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 8 bis 11 ferner das Einsetzen der durch das Optimieren hergeleiteten aufgabenunabhängigen Variablen (θ) und des gemeinsamen Parameters (φ) in der Likelihood-Verteilung [p(yt| xt, Dc, θ)] umfasst, um die A-Posteriori prädiktiven Verteilung [p(y|x,Dc)] zu erzeugen.
  13. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 12, wobei das Erzeugen des Computer-implementierten Maschinenlernsystems das Abbilden von einem Eingangsvektor einer Dimension (Rn) zu einem Ausgangsvektor einer zweiten Dimension (Rm) umfasst, wobei der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellt, und wobei der Ausgangsvektor mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellt, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird.
  14. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 13, wobei die Vorrichtung eine Maschine, optional ein Motor ist.
  15. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 14 , wobei der Computer-implementierte Maschinenlernsystem für eine Modellierung einer Parametrisierung eines Kennfeldes der Vorrichtung ausgelegt ist.
  16. Computer-implementiertes Verfahren nach Anspruch 15 , weiter umfassend: Parametrisieren eines Kennfeldes der Vorrichtung unter Verwendung des erzeugten Computer-implementierten Maschinenlernsystems.
  17. Computer-implementiertes Verfahren nach einem der Ansprüche 14 bis 16, wobei die Trainings-Datensätze an der Vorrichtung gemessene und/oder für die Vorrichtung berechnete Eingangsgrößen umfasst, optional wobei die mindestens eine Eingangsgröße der Vorrichtung eine Drehzahl, eine Temperatur, einen Massenstrom oder eine Kombination davon umfasst, und wobei die mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis oder eine Kombination davon umfasst.
  18. Ein Computer-implementiertes System zum Erzeugen und/oder Anwenden eines Computer-implementierten Maschinenlernsystems für eine Vorrichtung, wobei das Computer-implementierten Maschinenlernsystem mit einem der Verfahren der vorhergehenden Ansprüche 1 bis 17 trainiert ist.
DE102020212502.3A 2020-10-02 2020-10-02 Bayessche kontext-aggregation für neuronale prozesse Pending DE102020212502A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102020212502.3A DE102020212502A1 (de) 2020-10-02 2020-10-02 Bayessche kontext-aggregation für neuronale prozesse
US17/446,676 US20220108153A1 (en) 2020-10-02 2021-09-01 Bayesian context aggregation for neural processes
CN202111157684.2A CN114386563A (zh) 2020-10-02 2021-09-30 神经过程的贝叶斯上下文聚合

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020212502.3A DE102020212502A1 (de) 2020-10-02 2020-10-02 Bayessche kontext-aggregation für neuronale prozesse

Publications (1)

Publication Number Publication Date
DE102020212502A1 true DE102020212502A1 (de) 2022-04-07

Family

ID=80737924

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020212502.3A Pending DE102020212502A1 (de) 2020-10-02 2020-10-02 Bayessche kontext-aggregation für neuronale prozesse

Country Status (3)

Country Link
US (1) US20220108153A1 (de)
CN (1) CN114386563A (de)
DE (1) DE102020212502A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022206629A1 (de) * 2022-06-29 2024-01-04 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
CN115410372B (zh) * 2022-10-31 2023-04-07 江苏中路交通发展有限公司 基于贝叶斯lstm的高速公路交通流量可靠预测方法
CN116259012B (zh) * 2023-05-16 2023-07-28 新疆克拉玛依市荣昌有限责任公司 嵌入式增压柴油罐的监测系统及其方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200202057A1 (en) 2018-12-19 2020-06-25 Lawrence Livermore National Security, Llc Computational framework for modeling of physical process

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200202057A1 (en) 2018-12-19 2020-06-25 Lawrence Livermore National Security, Llc Computational framework for modeling of physical process

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BISHOP, Ch. M., et al.: Neural networks for pattern recognition. Oxford : Oxford Univ. Press, 1995. S. 6-7, 314-315, 391-399, 406-407. - ISBN 0-19-85383864-2
GARNELO, Marta, et al. Neural processes. arXiv preprint arXiv:1807.01622, 2018
LAURET, Philippe, et al. Bayesian neural network approach to short time load forecasting. Energy conversion and management, 2008, Vol. 49, Nr. 5, S. 1156-1166

Also Published As

Publication number Publication date
CN114386563A (zh) 2022-04-22
US20220108153A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
DE102020212502A1 (de) Bayessche kontext-aggregation für neuronale prozesse
DE102016008987B4 (de) Maschinenlernverfahren und Maschinenlernvorrichtung zum Lernen von Fehlerbedingungen, und Fehlervorhersagevorrichtung und Fehlervorhersagesystem, das die Maschinenlernvorrichtung einschließt
EP2564049B1 (de) STEUERGERÄT UND VERFAHREN ZUR BERECHNUNG EINER AUSGANGSGRÖßE FÜR EINE STEUERUNG
DE112006000821T5 (de) Steuersystem und Steuerverfahren
DE102010028259A1 (de) Mikrocontroller mit einer Recheneinheit und einer Logikschaltung sowie Verfahrung zur Durchführung von Rechnungen durch einen Mikrocontroller für eine Regelung oder eine Steuerung in einem Fahrzeug
DE102019131385A1 (de) Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
DE112017000669T5 (de) Semantische Segmentierung auf der Grundlage einer globalen Optimierung
DE102020202335A1 (de) Verfahren und Vorrichtung zum Erstellen eines Modells eines technischen Systems aus Messungen
DE102016011523A1 (de) Motorantriebsvorrichtung mit vorbeugender Wartungsfunktion eines Gebläsemotors
DE102019115356A1 (de) Fahrzeugfehler-grundursachendiagnose
EP3639199A1 (de) Verfahren zum bewerten eines zustands eines dreidimensionalen prüfobjekts und entsprechendes bewertungssystem
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE102019106728A1 (de) Wärmeverschiebungskorrektursystem und computer
DE102009021781A1 (de) Verfahren zur Berechnung eines Kennfelds
EP3876062B1 (de) Verfahren und recheneinheit zur überwachung des zustandes einer maschine
DE102019128655B4 (de) Verfahren zur Bereitstellung einer rechnergestützten Steuerung für ein technisches System
DE102020127051A1 (de) Verfahren zur Bestimmung von sicherheitskritischen Ausgabewerten mittels einer Datenanalyseeinrichtung für eine technische Entität
DE102021114768A1 (de) Fahrzeugsteuerung unter Verwendung eines Controllers eines neuronalen Netzes in Kombination mit einem modellbasierten Controller
DE102022207279A1 (de) Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
DE102022203034A1 (de) Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
EP3901713A1 (de) Verfahren und system zum betrieb einer technischen anlage mit einem optimalen modell
DE102019130484A1 (de) Verfahren und Vorrichtung zum Anlernen eines Ensembles von neuronalen Netzen
DE102020107003A1 (de) Verfahren und Vorrichtung zur Überwachung eines elektrischen Bordnetzes eines Fahrzeugs
DE102020105485A1 (de) Trainieren lokaler künstlicher neuronaler Netzwerke
DE102019214436A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Betreiben eines künstlichen neuronalen Netzes

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed