DE102022200259A1 - Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem - Google Patents

Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem Download PDF

Info

Publication number
DE102022200259A1
DE102022200259A1 DE102022200259.8A DE102022200259A DE102022200259A1 DE 102022200259 A1 DE102022200259 A1 DE 102022200259A1 DE 102022200259 A DE102022200259 A DE 102022200259A DE 102022200259 A1 DE102022200259 A1 DE 102022200259A1
Authority
DE
Germany
Prior art keywords
computer
elements
feature
correlations
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022200259.8A
Other languages
English (en)
Inventor
Thomas Spieker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022200259.8A priority Critical patent/DE102022200259A1/de
Publication of DE102022200259A1 publication Critical patent/DE102022200259A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

Ein Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes Verfahren zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem. Das Verfahren umfasst Empfangen mindestens eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen. Der erste Datensatz umfasst eine erste Mehrzahl von Elementen und der zweite Datensatz umfasst eine zweite Mehrzahl von Elementen, die ein oder mehrere Merkmale aufweisen, wobei jedes Merkmal des ersten Aspekts in einer Mehrzahl von Ausprägungen auftritt. Des Weiteren umfasst das Verfahren Ermitteln, für jedes Element aus einer ersten Anzahl von Elementen der ersten Mehrzahl von Elementen und aus einer zweiten Anzahl von Elementen der zweiten Mehrzahl von Elementen, ob eines der einen oder der mehreren Merkmale in einer bestimmten Ausprägung in dem Element vorhanden ist. Das Verfahren umfasst weiterhin, wenn das Vorhandensein des Merkmals in der bestimmen Ausprägung ermittelt wird, Erzeugen einer oder mehrerer synthetischer Beobachtungen des Merkmals in der bestimmten Ausprägung unter Verwendung einer Wahrscheinlichkeitsverteilung. Die Wahrscheinlichkeitsverteilung des ersten Aspekts beschreibt eine Wahrscheinlichkeit, eine bestimmte Anzahl von Ausprägungen des Merkmals zu beobachten. In dem nächsten Schritt umfasst das Verfahren des ersten Aspekts Berechnen erster Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die erste Anzahl von Elementen. Des Weiteren umfasst das Verfahren Berechnen zweiter Korrelationen zwischen den einen oder den mehreren Merkmale in jeweiligen Ausprägungen des zweiten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die zweite Anzahl von Elementen. In dem nächsten Schritt umfasst das Verfahren Vergleichen der ersten und zweiten Korrelationen. Schließlich umfasst das Verfahren Ausgeben eines Vergleichsparameters basierend auf dem Vergleichen der ersten und zweiten Korrelationen.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft Techniken zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem. Zugehörige Aspekte betreffen ein Verfahren zum Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems, ein Verfahren zum Anwenden eines computerbasierten Maschinenlernsystems, ein Computer-Programm und ein computer-implementiertes System.
  • Hintergrund
  • Computerbasierte Maschinenlernsysteme werden vermehrt in verschiedenen technischen Vorrichtungen eingesetzt. In viele Fällen müssen computerbasierte Maschinenlernsysteme (bspw. solche, die künstliche neuronale Netzwerke verwenden) anhand bekannter Datensätze umfangreich trainiert und/oder validiert werden, um plausible Ausgangsdaten (also unbekannte Ausgangsdaten) für beliebige gegebene Eingangsdaten einer Vorrichtung zu liefern. Der Einsatz solcher Modelle in sicherheitskritischen Anwendungen (bspw. im Zusammenhang mit dem autonomen oder assistierten Fahren) ist allerdings limitiert, denn wenn das Maschinenlernsystem auf anderen Datensätzen agiert als diejenigen, auf denen es trainiert und/oder validiert wurde, können einige der bestehenden Methoden des Standes der Technik unerwartete (z.B. falsche) Ergebnisse liefern. Zum Beispiel ist denkbar, dass in diesem Fall bestimmte Ereignisse in den Trainings- und/oder Validierungsdatensätzen nicht ausreichend vielfältig vertreten sind. Der Grund dafür kann sein, dass diese Datensätze nicht zufällig, sondern systematisch für das Trainern und/oder Validieren ausgewählt bspw. aufgeteilt werden (z.B. ein erster Teil aller verfügbaren Daten wird als Trainingsdatensätzen ausgewählt, während der restliche Teil als Validierungsdatensätze ausgewählt wird). Ein weiterer Grund kann in den unterschiedlichen statistischen Verteilungen der Trainings- und/oder Validierungsdatensätze liegen, was darauf hinweist, dass diese Datensätze miteinander inkompatibel sind. In diesen Fällen kann dies bei einigen Methoden des Standes der Technik zu einer inakzeptabel geringeren Leistungsfähigkeit und/oder Unzuverlässigkeit des trainierten und/oder validierten computerbasierten Maschinenlernsystems führen.
  • Daher besteht ein Bedarf an der Entwicklung neuer Techniken für computerbasierte Maschinenlernsysteme, die einige oder alle der oben genannten Probleme lösen können.
  • Zusammenfassung der Erfindung
  • Ein erster allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes Verfahren zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem. Das Verfahren umfasst Empfangen mindestens eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen. Der erste Datensatz umfasst eine erste Mehrzahl von Elementen und der zweite Datensatz umfasst eine zweite Mehrzahl von Elementen, die ein oder mehrere Merkmale aufweisen, wobei jedes Merkmal des ersten Aspekts in einer Mehrzahl von Ausprägungen auftritt. Des Weiteren umfasst das Verfahren Ermitteln, für jedes Element aus einer ersten Anzahl von Elementen der ersten Mehrzahl von Elementen und aus einer zweiten Anzahl von Elementen der zweiten Mehrzahl von Elementen, ob eines der einen oder der mehreren Merkmale in einer bestimmten Ausprägung in dem Element vorhanden ist. Das Verfahren umfasst weiterhin, wenn das Vorhandensein des Merkmals in der bestimmen Ausprägung ermittelt wird, Erzeugen einer oder mehrerer synthetischer Beobachtungen des Merkmals in der bestimmten Ausprägung unter Verwendung einer Wahrscheinlichkeitsverteilung. Die Wahrscheinlichkeitsverteilung des ersten Aspekts beschreibt eine Wahrscheinlichkeit, eine bestimmte Anzahl von Ausprägungen des Merkmals zu beobachten. In dem nächsten Schritt umfasst das Verfahren des ersten Aspekts Berechnen erster Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die erste Anzahl von Elementen. Des Weiteren umfasst das Verfahren Berechnen zweiter Korrelationen zwischen den einen oder den mehreren Merkmale in jeweiligen Ausprägungen des zweiten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die zweite Anzahl von Elementen. In dem nächsten Schritt umfasst das Verfahren Vergleichen der ersten und zweiten Korrelationen. Schließlich umfasst das Verfahren Ausgeben eines Vergleichsparameters basierend auf dem Vergleichen der ersten und zweiten Korrelationen.
  • Ein zweiter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes Verfahren zum Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems. Das Verfahren des zweiten Aspekts umfasst Empfangen mindesten eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen, wobei der erste und der zweite Datensatz gemäß dem ersten allgemeinen Aspekt als geeignet eingestuft wurden. Des Weiteren umfasst das Verfahren Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems mit dem empfangenen mindestens einen ersten und zweiten Datensatz, um ein trainiertes und/oder validiertes computerbasiertes Maschinenlernsystem zu erhalten.
  • Ein dritter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes Verfahren zum Anwenden eines computerbasierten Maschinenlernsystems. Das computer-implementierte Verfahren des dritten Aspekts umfasst Bereitstellen eines trainierten und/oder validierten computerbasierten Maschinenlernsystems gemäß dem zweiten allgemeinen Aspekt. Des Weiteren umfasst das Verfahren Verarbeiten von Anwendungsdaten durch das empfangene computerbasierte Maschinenlernsystem.
  • Ein vierter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Computer-Programm, das dazu ausgelegt ist, um die computer-implementierte Verfahren der vorliegenden Offenbarung auszuführen.
  • Ein fünfter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes System, das dazu ausgelegt ist, um die computer-implementierten Verfahren nach einem der ersten bis vierten allgemeinen Aspekte auszuführen.
  • Die Techniken der ersten bis fünften allgemeinen Aspekte können einen oder mehrere der folgenden Vorteile haben.
  • Erstens können die Techniken der vorliegenden Offenbarung in manchen Fällen dazu verwendet werden, um Datensätze zu vergleichen, die für die Verwendung zum Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems in Erwägung gezogen werden. Basierend auf dem Vergleichsergebnis, bspw. wie nahe entsprechenden Korrelationen zwischen verschiedenen Merkmalen in jeweiligen Ausprägungen dieser Datensätze sind, kann in manchen Fällen auf die Datensätze geschlossen werden, ob sie für das Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems geeignet sind. Dadurch können in manchen Fällen Situationen vermieden werden, in denen das Maschinenlernsystem mit den ungeeigneten Datensätzen trainiert und/oder validiert wird und dann in einer Vorrichtung eingesetzt wird, wo es möglicherweise nicht zufriedenstellend funktionieren wird.
  • Zweitens bieten die vorliegenden Techniken die Möglichkeit, synthetische Beobachtungen für die analysierenden Datensätze zu erzeugen, indem das Vorhandensein entsprechender Merkmale in ihren jeweiligen Ausprägungen in den Elementen der Datensätze emuliert wird. Dabei ist es möglich, nicht a priori festzulegen, welche Korrelationen zwischen verschiedenen Merkmalen in jeweiligen Ausprägungen analysiert werden müssen: Vielmehr können alle beliebigen Korrelationen a posteriori mit Hilfe von synthetischen Beobachtungen berechnet werden, ohne erneut über den gesamten Datensatz mit (realen) Elementen laufen zu müssen. Dadurch ist es mit den vorliegenden Techniken möglich, mit relativ überschaubaren Hardware-Ressourcen und schneller als mit einigen Techniken des Standes der Technik zu beurteilen, ob diese Datensätze für das Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems geeignet sind.
  • Einige Begriffe werden in der vorliegenden Offenbarung in folgender Weise verwendet:
    • Unter dem Begriff „computerbasiertes Maschinenlernsystem“ wird in der vorliegenden Offenbarung jede Vorrichtung verstanden, die mit Hilfe von maschinellem Lernen für eine oder mehrere Aufgaben trainiert werden kann oder wurde. Während des Trainings können dem computergestützten maschinellen Lernsystem Trainingsdatensätze als Eingabedaten zur Verfügung gestellt werden, und die Eigenschaften (bspw. entsprechende Parameter) des computergestützten Maschinenlernsystems können in Antwort auf die Verarbeitung der Trainingsdatensätze (z.B. durch eine Analyse der Ausgabedaten) angepasst werden, um die eine oder mehrere Aufgaben in einer definierten Weise (z.B. mit einer bestimmten Genauigkeit) zu lösen. Ein computerbasiertes Maschinenlernsystem kann ein Modell enthalten, das parametrisiert sein kann. Das Anpassen der Eigenschaften des Maschinenlernsystems beim Lernen kann z.B. durch ein Optimierungsverfahren in Bezug auf (unbekannte) Parameter des Maschinenlernsystems (bspw. eines entsprechenden Modells) erfolgen, das als Minimierung einer Verlustfunktion dargestellt werden kann (im Rahmen einer vorbestimmten numerischen Genauigkeit und/oder bis ein vorbestimmtes Abbruchkriterium erreicht wird). Anschließend kann das angepasste Maschinenlernsystem verwendet werden, um die Antworten für die Beobachtungen in einem anderen Datensatz, dem so genannten Validierungsdatensatz, vorherzusagen: So kann der Validierungsdatensatz eine Bewertung der Anpassung des Maschinenlernsystems an die Trainingsdatensätze bereitstellen. Schließlich können in manchen Fällen Testdatensätze verwendet werden, die in der Regel zur Bewertung des endgültigen Maschinenlernsystems eingesetzt werden, das während des Validierungsprozesses ausgewählt wurde.
  • In manchen Fällen kann „ein computerbasiertes Maschinenlernsystem“ eine Klassifikations-Aufgabe oder eine Regressions-Aufgabe ausführen. In einem nicht einschränkenden Beispiel kann das computerbasierte Maschinenlernsystem ein künstliches neuronales Netzwerk umfassen, das eine bestimmte Topologie und eine Anzahl von Neuronen mit entsprechenden Verbindungen aufweist. Gemäß einigen Ausführungsformen kann das neuronale Netzwerk ein faltendes neuronales Netzwerk (englisch „convolutional neural network“ oder kurz „CNN“) sein, das z.B. durch die Anzahl der Filter, Filtergrößen, Schrittgrößen usw. definiert ist. Ein faltendes neuronales Netzwerk kann beispielweise zum Zweck der Bildklassifizierung verwendet werden und eine oder mehrere Transformationen an digitalen Bildern durchführen, die z.B. auf Faltung (englisch „convolution“), Nichtlinearität (ReLU), Pooling oder Klassifizierungsoperationen (z.B. unter Verwendung der Fully-connected Schichten) basieren. Das neuronale Netzwerk kann auch als mehrschichtiges feedforward- oder rekurrentes Netzwerk, als ein neuronales Netzwerk mit direkten oder indirekten Rückkopplungen oder als mehrlagiges Perzeptron ausgelegt sein. Die auf neuronalen Netzwerke basierten Maschinenlernsysteme können in einem Fahrzeug-Computer (englisch „Vehicle Computer“) oder einer anderen Komponente eines Fahrzeugs oder in einem zumindest teilautonomen Roboter eingesetzt werden (z.B. zur Bewertung eines Betriebszustands des Fahrzeugs oder Roboters und/oder zur Steuerung einer Funktion des Fahrzeugs oder Roboters basierend auf Zustands- und/oder Umgebungsdaten des Fahrzeugs oder Roboters als Eingangsdaten). Z.B. können computerbasierte Maschinenlernsysteme in jeder geeigneten Form implementiert werden, d.h., in Software, in dedizierter Hardware oder in einer Mischform aus Software und dedizierter Hardware. Daher können die computerbasierte Maschinenlernsysteme ein Software-Modul sein (auch in ein übergeordnetes Software-System integriert), dass auf einem Universalprozessor ausgeführt werden kann. In anderen Fällen kann ein computerbasiertes Maschinenlernsystem (zumindest teilweise) schaltungstechnisch implementiert sein.
  • Unter dem Begriff „Trainingsdatensatz“ ist in der vorliegenden Offenbarung eine Sammlung von einer Mehrzahl von Daten verstanden, die zum Training eines computerbasierten Maschinenlernsystems ausgewählt und eingesetzt wird. Die Daten des Trainingsdatensatzes werden im Folgenden als „Elemente“ bezeichnet. Je nach Natur der Aufgabe, für die ein computerbasiertes Maschinenlernsystem eingesetzt wird, können die Elemente eines Trainingsdatensatzes unterschiedliche Informationen enthalten. So kann bspw. jedes Element eines Trainingsdatensatzes mit Bilddaten ein Einzelbild (oder ein Ausschnitt daraus) oder ein Video enthalten. Beispielsweise kann ein Bild-Element eine Anzahl von Bildpixeln enthalten (bspw. 1024x2048 Pixel), wobei jedes Bildpixel eine Anzahl von Farbwerten aufweist (z.B. drei Farbwerte mit 16 Bit Farbtiefe). In anderen Beispielen können Elemente eines Trainingsdatensatzes Datenreihen (z.B. Zeitreihen) enthalten. Die Datenreihen (z.B. Zeitreihen) können mittels verschiedener Sensoren (z.B. Kameras, Radar, Lidar, Ultraschall- oder Wärmesensoren, Sensoren für die Motorsteuerung eines Fahrzeugs) erzeugt werden.
  • Demensprechend umfasst der Begriff „Validierungsdatensatz“ eine Sammlung von einer Mehrzahl von Daten, die zum Validieren eines computerbasierten Maschinenlernsystems (im oben erwähnten Sinne) ausgewählt und eingesetzt wird. In der vorliegenden Offenbarung wird in manchen Fällen keine Grenze zwischen den Validierungsdatensätzen und Testdatensätzen gezogen: Somit können ein oder mehrere Testdatensätze ein Teil der Validierungsdatensätze sein. Die Validierungs- und/oder Testdatensätze können gleiche Natur (bspw. Struktur und/oder Format) aufweisen wie die für dasselbe Maschinenlernsystem verwendeten Trainingsdatensätze.
  • Ein „Merkmal“ eines Elements eines Datensatzes bezieht sich in der vorliegenden Offenbarung auf einen Teil des Elements, der in diesem Element erkennbar ist (bspw. durch eine entsprechende Datenverarbeitung) und der durch eine spezielle Eigenschaft charakterisiert oder bestimmten Kategorien zugeordnet werden kann. Handelt es sich bei einem Element um ein Bild (bspw. eine Straßenszene, die z.B. von einem Sensor wie einem Kamera-basierten System erfasst wurde), kann sich ein Merkmal auf einen räumlich begrenzten Teil einer in einem Bild dargestellten Szene und/oder eine Mehrzahl von Pixeln beziehen, die einem entsprechenden Teil eines Bildes entsprechen. In manchen Fällen, in denen ein Fahrzeug auf einem Bild erkannt wird, sind eine „Fahrzeugfarbe“ und eine „Bereifung des Fahrzeuges“ Beispiele für das oben definierte Merkmal. Darüber hinaus können auch Merkmale wie „Wetter“ oder „Tageszeit“ aus einem Bild extrahiert werden. Ein Element, das eine (gemessene) Datenreihe (z.B. Zeitreihen) von einem Sensor enthält, kann auch entsprechende Merkmale beinhalten. Z.B. ein Lenkradwinkel während der Fahrt als Funktion der Zeit oder Einspritzzeiten im Motor eines Fahrzeuges über den Druckverlauf sind zwei nicht erschöpfende Beispiele für solche Merkmale. In manchen Fällen können Merkmale aus den Datenreihen des Elements extrahiert (bspw. berechnet) werden: So kann z.B. das Minimum und/oder Maximum einer Zeitreihe oder die maximale und/oder minimale Ableitung (d.h. die Steigung) einer Zeitreihe oder eine beliebige Kombination davon berechnet und einem entsprechenden Merkmal zugeordnet werden.
  • Demensprechend umfasst der Begriff eine „Ausprägung eines Merkmals“ eine spezielle Form (z.B. eine Klasse oder ein Wertintervall), die dieses Merkmal annehmen kann. Zurück zu den obigen Beispielen: Das Merkmal „Fahrzeugfarbe“ kann die Ausprägungen „rotes Fahrzeug“, „schwarzes Fahrzeug“, „grünes Fahrzeug“ usw. haben und das Merkmal „Bereifung des Fahrzeuges“ kann als Ausprägungen „Sommer-“ oder „Winterreifen“ haben. Das Merkmal „Wetter“ kann die Ausprägungen „Sonne“, „Regen“ oder „Schnee“ anbieten, während das Merkmal „Tageszeit“ durch die Ausprägungen „Tag“, „Dämmerung“ und „Nacht“ beschrieben werden kann. In manchen Fällen kann ein gemessener Lenkradwinkel in eine vorgegebene Anzahl von Winkelintervallen aufgeteilt werden, wobei jedes Winkelintervall einer Ausprägung des Merkmales „Lenkradwinkel“ entsprechen wird.
  • Eine „synthetische Beobachtung“ eines Merkmals in einer Ausprägung, das in einem realen Element beobachtet wurde, modelliert oder, mit anderen Worten, emuliert gemäß der vorliegenden Offenbarung die Möglichkeit, dass man die Ausprägung dieses Merkmals an den (realen) Elementen beobachten werden könnte (bspw. null Mal, ein oder mehrere, zwei oder mehrere, drei oder mehrere, fünf oder mehrere Male an einem Element), wenn das Erfassen von Elementen (bspw. die Aufnahme neuer Bilder von Straßenszenen) erneut durchgeführt würde. In diesem Kontext wird in der vorliegenden Offenbarung der Begriff „synthetische Elemente“ eingeführt, auf denen die synthetischen Beobachtungen eines Merkmals in einer Ausprägung modelliert werden (mehr dazu weiter unten).
  • „Eine Korrelation“ zwischen Merkmalen in jeweiligen Ausprägungen (bspw. zwischen zwei Ausprägungen eines Merkmals oder zwei Ausprägungen von zwei verschiedenen Merkmalen) eines Datensatzes steht im Zusammenhang mit dem Vorhandensein dieser Ausprägungen in Elementen des Datensatzes (im statistischen Sinne, z.B. wie häufig sie in diesen Elementen vorkommen) und wird, wie weiter unten genauer erläutert, unter anderem anhand synthetischer Beobachtungen berechnet.
  • Figurenliste
    • 1a ist ein Flussdiagramm, das ein Beispiel eines zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem gemäß dem ersten Aspekt darstellt. 1b und 1c sind Flussdiagramme, die weitere mögliche Verfahrensschritte gemäß dem ersten Aspekt zeigen.
    • 2 zeigt schematisch ein Beispiel für ein Element aus einem Datensatz (ein aufgenommenes Bild 1), auf dem zwei Merkmale, nämlich die „Fahrzeugfarbe“ 2 und die „Bereifung eines Fahrzeugs“ 3, zu sehen sind. Das Merkmal „Fahrzeugfarbe“ ist mit der Ausprägung „rotes Fahrzeug“ 20a und das Merkmal „Bereifung des Fahrzeugs“ ist mit der Ausprägung „Winterreifen“ 30a dargestellt.
    • 3a zeigt schematisch beispielhafte Histogramme H 0 F  bis  H 3 F
      Figure DE102022200259A1_0001
      für das Merkmal „Fahrzeugfarbe“, die die Häufigkeiten der verschiedenen Ausprägungen dieses Merkmals („rotes Fahrzeug“, „blaues Fahrzeug“, „schwarzes Fahrzeug“ und „weißes Fahrzeug“) in den jeweiligen Bins 20a-20d der Histogramme erfassen.
    • 3b zeigt schematisch beispielhafte Histogramme H 0 R  bis  H 3 R
      Figure DE102022200259A1_0002
      für das Merkmal „Bereifung eines Fahrzeugs“ 3, die die Häufigkeiten der verschiedenen Ausprägungen dieses Merkmals („Winterreifen“ und „Sommerreifen“) in den jeweiligen Bins 30a und 30b der Histogramme erfassen.
    • 4 zeigt schematisch die Struktur einer Kovarianzmatrix ρAB 40, die die Korrelationen zwischen den beiden Merkmalen 2, 3 in den jeweiligen Ausprägungen beschreibt, die in 3a und 3b dargestellt sind.
  • Ausführliche Beschreibung
  • Zunächst werden anhand von 1a bis 1c Techniken zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem beschrieben. Sodann wird ein beispielhaftes Element aus einem Datensatz anhand von 2 besprochen. Als nächstes werden in der 3a und 3b beispielhafte Histogramme für zwei Merkmale der vorliegenden Techniken schematisch gezeigt. Zuletzt wird 4 weitere Aspekte in Bezug auf das Verfahren der vorliegenden Offenbarung veranschaulichen.
  • Wie in den 1a bis 1c skizziert, betrifft ein erster allgemeiner Aspekt ein computer-implementiertes Verfahren zum Analysieren von Trainings- und/oder Validierungsdatensätzen (z.B. eine Mehrzahl von Bilddaten oder Datenreihen, wie oben bereits besprochen) für ein computerbasiertes Maschinenlernsystem (bspw. umfasst das Maschinenlernsystem ein künstliches neuronales Netzwerk). Die Verfahrensschritte des entsprechenden unabhängigen Anspruchs sind in den durch durchgezogene Linien gezeichneten Kästen in 1a bis 1c dargestellt, während die Verfahrensschritte einiger abhängiger Ansprüche in den durch gestrichelte Linien dargestellten Kästen gezeigt sind.
  • Der erste Schritt des Verfahrens umfasst Empfangen 100 mindestens eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen. In manchen Fällen können die ersten und zweiten Datensätze aus den Trainingsdatensätzen entnommen werden, wenn die Trainingsdatensätze für das computerbasierte Maschinenlernsystem analysiert werden (bspw., wie weiter unten genauer erläutert, um festzustellen, ob sie zum Trainieren des computerbasierten Maschinenlernsystems geeignet sind). In anderen Fällen können die ersten und zweiten Datensätze zu den Validierungsdatensätzen gehören, wenn es sich um das Analysieren von Validierungsdatensätzen für das computerbasiertes Maschinenlernsystem handelt (bspw., ob sie zum Validierungszweck/Testenzweck geeignet sind). In noch anderen Fällen kann der erste Datensatz aus den Trainingsdatensätzen und der zweite Datensatz aus den Validierungsdatensätzen ausgewählt werden (oder umgekehrt), wenn sowohl Trainings- als auch Validierungsdatensätze für das computerbasiertes Maschinenlernsystem analysiert werden. In manchen Beispielen des Verfahrens können mehrere Datensätze aus Trainings- und/oder Validierungsdatensätzen empfangen werden.
  • In den vorliegenden Techniken umfasst der erste Datensatz eine erste Mehrzahl von Elementen 1 und der zweite Datensatz eine zweite Mehrzahl von Elementen, die ein oder mehrere Merkmale 2; 3 aufweisen, wobei jedes Merkmal in einer Mehrzahl von Ausprägungen 20a-20d; 30a-30b auftritt. Wie oben bereits besprochen kann ein Element ein Bild (oder einen Teil davon) enthalten (bspw. ein digitales Bild), das z.B. von einem Sensor wie einem Kamera-basierten System (bspw. einem Kamera-basierten System eines Fahrzeugs) erfasst wurde. Im Beispiel von 2 ist ein solches Element 1 gezeigt, auf dem eine aufgenommene Straßenszene zu erkennen ist. Diesem Bild sind auch zwei Merkmale, nämlich eine „Fahrzeugfarbe“ 2 und eine „Bereifung des Fahrzeuges“ 3, zu entnehmen (siehe auch die Diskussionen oben). In diesem konkreten Beispiel ist das Merkmal „Fahrzeugfarbe“ in der Ausprägung „rotes Fahrzeug“ 20a und das „Bereifung des Fahrzeuges“ in der Ausprägung „Winterreifen“ 30a identifiziert. In manchen Beispielen kann ein Element, wie weiter oben bereits beschrieben, eine Datenreihe darstellen (bspw. eine von einem Sensor gemessene Datenreihe), die Merkmale in einer jeweiligen Ausprägung beinhalten kann.
  • Als nächstes umfassen die vorliegenden Techniken Ermitteln 200, für jedes Element aus einer ersten Anzahl von Elementen der ersten Mehrzahl von Elementen (die bspw. eine Sequenz von Bildern oder Videodaten enthalten) und aus einer zweiten Anzahl von Elementen der zweiten Mehrzahl von Elementen (die ebenfalls bspw. eine Sequenz von Bildern oder Videodaten enthalten), ob eines der einen oder der mehreren Merkmale in einer bestimmten Ausprägung in dem Element vorhanden ist. In manchen Beispielen können alle Elemente der ersten Mehrzahl von Elementen auch zu der ersten Anzahl von Elementen gehören und/oder alle Elemente der zweiten Mehrzahl von Elementen zu der zweiten Anzahl von Elementen gehören. Zurück zu dem Beispiel mit den Bildern: In manchen Fällen können die ermittelten Merkmale eine bestimmte Ausprägung pro Bild aufweisen, bspw. enthält ein erstes Bild aus der Sequenz von Bildern ein „rotes Fahrzeug“ mit „Winterreifen“ (wie in 2 gezeigt), ein anderes Bild aus derselben Sequenz enthält ein „blaues Fahrzeug“ mit „Sommerreifen“, ein drittes Bild enthält bspw. wieder ein „rotes Fahrzeug“ aber mit „Sommerreifen“, und so weiter.
  • Des Weiteren umfassen die vorliegenden Techniken Erzeugen 300 einer oder mehrerer synthetischer Beobachtungen des Merkmals in der bestimmten Ausprägung unter Verwendung einer Wahrscheinlichkeitsverteilung, wenn das Vorhandensein des Merkmals in der bestimmen Ausprägung ermittelt wird. In anderen Worten werden die synthetischen Beobachtungen erzeugt, sobald das Merkmal in der jeweiligen Ausprägung in einem realen Element beobachtet wird (bspw. ein „rotes Fahrzeug“ auf dem ersten Bild, wie in 2 dargestellt, ein „blaues Fahrzeug“ auf dem zweiten Bild, usw.). Auf diese Weise emulieren die erzeugten synthetischen Beobachtungen, dass das Merkmal in der bestimmten Ausprägung auch in den realen Elementen vorhanden sein könnte, wenn diese reale Elemente verfügbar wären (siehe auch Definitionen weiter oben). Die Wahrscheinlichkeitsverteilung (e.g. die Poisson-Verteilung) des ersten Aspekts beschreibt eine Wahrscheinlichkeit, eine bestimmte Anzahl von Ausprägungen des Merkmals zu beobachten (bspw. ein „rotes Fahrzeug“ auf dem ersten synthetischen Element, ein „blaues Fahrzeug“ auf dem zweiten synthetischen Element, wiederum ein „rotes Fahrzeug“ auf dem dritten synthetischen Element, mehr dazu weiter unten).
  • Der Verfahrensschritt „Erzeugen“ 300 der einen oder mehreren synthetischen Beobachtungen des Merkmals in der bestimmten Ausprägung kann Erzeugen 310 einer Mehrzahl von Gewichten für das eine oder die mehreren Merkmale umfassen, deren bestimmte Ausprägung in der ersten Anzahl von Elementen und/oder der zweiten Anzahl von Elementen ermittelt wurde. Hierbei kann das Gewicht aus der Mehrzahl von Gewichten eine Anzahl von synthetischen Beobachtungen derselben Ausprägung des Merkmals emulieren. Mit anderen Worten: Die Gewichte können dazu dienen, eine Häufigkeit der Ausprägung des Merkmals zu modellieren, die man bei einer Wiederholung des Experiments (z.B. Aufnahme der Bilder) gesehen haben könnte. Zum Beispiel, wenn das „rote Fahrzeug“ (d.h. das Merkmal „Fahrzeugfarbe“ mit der bestimmten Ausprägung „rotes Fahrzeug“) auf dem ersten realen Bild ermittelt wurde, kann bspw. das Gewicht „elf“ bedeuten, dass bei einer weiteren Aufnahme von Bildern, elf davon das „rote Fahrzeug“ enthalten würden. In diesem Beispiel jedes dieser elf „roten Fahrzeuge“ eine synthetische Beobachtung des Merkmals „Fahrzeugfarbe“ in der Ausprägung „rotes Fahrzeug“ ist, die einem synthetischen Bild entspricht. Der Begriff „synthetisches Element“ dient in der vorliegenden Offenbarung lediglich zur Veranschaulichung des Verfahrens des ersten Aspekts: Einem synthetischen Element wird ein oder mehrere Merkmale in der bestimmten Ausprägung zugeordnet (bspw. „ein rotes Fahrzeug“ mit „Winterreifen“ auf elf synthetischen Bilder, „ein blaues Fahrzeug“ mit „Sommerreifen“ auf acht synthetischen Bilder usw.) Das bedeutet jedoch nicht, dass das „synthetische Element“ im gleichen Sinne wie ein reales Element erzeugt wird: Anders ausgedrückt ist das „synthetische Element“ kein aufgenommenes Bild und erfordert daher keine Datenverarbeitung, wie z.B. eine Bildverarbeitung.
  • In der vorliegenden Offenbarung kann Erzeugen 310 der Mehrzahl von Gewichten für das eine oder die mehreren Merkmale Ziehen 320 einer Anzahl von Zufallszahlen (im Folgenden als N bezeichnet) für die Ausprägung des Merkmals umfassen, jedes Mal, wenn diese Ausprägung des Merkmals auf dem Element aus der ersten Anzahl von Elementen oder der zweiten Anzahl von Elementen ermittelt wird, um die synthetischen Beobachtungen dieser Ausprägung zu emulieren. Des Weiteren kann das Verfahren Erzeugen 330 eines Gewichts für jede gezogene Zufallszahl aus der Anzahl von Zufallszahlen für die Ausprägung des Merkmals umfassen, wodurch eine Anzahl von Gewichten für diese Ausprägung des Merkmals jedes Mal erzeugt wird, wenn diese Ausprägung des Merkmals auf dem Element aus der ersten Anzahl von Elementen oder der zweiten Anzahl von Elementen ermittelt wird. In diesem Sinne entspricht das Ziehen der Zufallszahl einem oben besprochenen emuliertes „Experiment“, das die bestimmte Ausprägung des Merkmals in der ersten Anzahl von Elementen oder der zweiten Anzahl von Elementen modelliert. Zum Beispiel kann die Anzahl N von Zufallszahlen für die Ausprägung des Merkmals (bspw. für jede ermittelte Ausprägung des Merkmals) gleich drei oder mehr, gleich 10 oder mehr, gleich 102 oder mehr, gleich 103 oder mehr, gleich 104 oder mehr sein. Im Beispiel von 2 wurde auf dem ersten realen Bild (i.e. auf dem Element aus der ersten Anzahl von Elementen) ein „rotes Fahrzeug“ (d.h. das Merkmal „Fahrzeugfarbe“ mit der bestimmten Ausprägung „rotes Fahrzeug“) ermittelt. Deshalb können N Zufallszahlen als Reaktion auf die Erkennung dieser Ausprägung des Merkmals auf dem ersten Bild gezogen werden. Wenn bspw. ein „blaues Fahrzeug“ auf dem zweiten realen Bild zu sehen ist, dann werden N Zufallszahlen für das „blaue Fahrzeug“ gezogen werden. Wird auf dem dritten realen Bild ein „rotes Fahrzeug“ identifiziert, werden erneut N Zufallszahlen für das zum zweiten Mal ermittelte „rote Fahrzeug“ gezogen.
  • In den vorliegenden Techniken können die (oben eingeführte gezogene) Zufallszahlen gemäß einer vorgegebenen Wahrscheinlichkeitsverteilung verteilt sein. In einem Beispiel kann die vorgegebene Wahrscheinlichkeitsverteilung eine Uniformverteilung sein, welche auf einem vorgegeben Intervall, [a,b], eine konstante Wahrscheinlichkeitsdichte aufweist. (Dabei sind a und b beliebige reelle Zahlen, a, b ∈ ℝ.) In manchen Fällen können die Zufallszahlen mit Hilfe eines Zufallszahlengenerators gezogen (oder mit anderen Worten generiert) werden, der bspw. mit einem Seed (engl. „random seed“) initialisiert werden kann. Der Zufallszahlengenerator kann bspw. N Zufallszahlen in einem Durchlauf generieren, wenn ein Seed angegeben wird.
  • In der vorliegenden Offenbarung kann das Gewicht (bspw. jedes Gewicht) aus der Anzahl von Gewichten für die Ausprägung des Merkmals unter Verwendung der gezogenen Zufallszahl, die diesem Gewicht entspricht, und der jeweiligen ausgewählten Wahrscheinlichkeitsverteilung des Merkmals erzeugt werden. In einem Beispiel kann eine Poisson-Verteilung als die Wahrscheinlichkeitsverteilung des Merkmals verwendet werden. Zum Beispiel kann die Poisson-Verteilung, die durch einen Erwartungswert λ angegeben wird, wie folgt geschrieben werden: Pλ(m) = λme/m!. Dabei kann m Null oder eine beliebige natürliche Zahl, m∈ ℕ, sein, e entspricht der Eulersche Zahl, und m! bezeichnet die Fakultät von m. In manchen Fällen kann der Erwartungswert λ = 1 für die Poisson-Verteilung Pλ (m) genommen werden, der eine Situation modelliert, in der das Merkmal in der bestimmten Ausprägung (im Beispiel von 2 ein „rotes Fahrzeug“) im Durchschnitt einmal auf den synthetischen Elementen (den Bildern im oben betrachteten Beispiel) beobachtet wird. Im Folgenden wird das Gewicht in manchen Fällen als w A , j k
    Figure DE102022200259A1_0003
    bezeichnet, wobei der Index A die Ausprägung des Merkmals nummeriert, der Index k der Ordnungsnummer der gezogenen Zufallszahl (oder, anders ausgedrückt, der Ordnungsnummer eines emulierten Experimentes) entspricht und der Index j die Ordnungsnummer der Ermittlung der Ausprägung des Merkmals A ist. Zurück zu dem Beispiel mit den Bildern als Elementen: Das Gewicht w r ,1 1 = 3
    Figure DE102022200259A1_0004
    kann modellieren, dass das „rote Fahrzeug“ (d.h. die bestimmte Ausprägung des Merkmals „Fahrzeugfarbe“ aus dem realen Bild von 2) zum ersten Mal auf einem realen Bild ermittelt wurde und dreimal auf drei synthetischen Elementen beobachtet wurde. Wie bereits erwähnt, gehören die Elemente aus den synthetischen Elementen des ersten Aspekts nicht zu den ersten und zweiten Datensätzen. Tatsächlich enthalten der erste und der zweite Datensatz die realen Elemente, während die synthetischen Elemente, wie oben bereits besprochen, künstlichen Ursprungs sind.
  • Dieses Prozedere lässt sich am Beispiel mit den Bildern wie folgt veranschaulichen. Wie oben bereits beschrieben, enthält das erste (reale) Bild aus der ersten Anzahl von Elementen im Beispiel von 2 das „rote Fahrzeug“. In diesem Fall kann die Anzahl N von Zufallszahlen für diese konkrete Ausprägung des Merkmals (d.h. für das ermittelte „rote Fahrzeug“) gezogen werden. In einem nicht einschränkenden Beispiel und zur Vereinfachung weiterer Diskussionen können N = 3 Zufallszahlen für das Ziehen ausgewählt werden. Als nächstes können diese drei Zufallszahlen x1, x2 und x3 aus einem Intervall [a, b] gezogen werden, die gemäß der vorgegebenen Wahrscheinlichkeitsverteilung (z.B. der oben eingeführten Uniformverteilung) verteilt werden können. Zu diesem Zweck kann ein Zufallszahlengenerator zum Einsatz kommen (wie oben bereits erörtert). In einem Beispiel für a = 0 und b = 1 werden die Zufallszahlen aus dem Intervall ∈ [0,1] gezogen, x1, x2, x3 ∈ [0,1]. Dann können drei Gewichte w r ,1 1 , w r ,1 2  und  w r ,1 3
    Figure DE102022200259A1_0005
    basierend auf der Wahrscheinlichkeitsverteilung des Merkmals „Fahrzeugfarbe“, z.B. anhand der Poisson-Verteilung Pλ(m), und drei gezogenen Zufallszahlen x1, x2 und x3 erzeugt werden. Dabei können die Gewichte entweder Null oder natürliche Zahlen sein, w r ,1 1 , w r ,1 2 , w r ,1 3 .
    Figure DE102022200259A1_0006
    In einem Beispiel können die Gewichte unter Verwendung einer Inversionsmethode gefunden werden. Zum Beispiel lassen sich die Gewichte w r ,1 1 , w r ,1 2 , w r ,1 3
    Figure DE102022200259A1_0007
    wie folgt berechnen: w r ,1 1 = P λ 1 ( x 1 ) , w r ,1 2 = P λ 1 ( x 2 )  und  w r ,1 3 = P λ 1 ( x 3 ) .
    Figure DE102022200259A1_0008
     
    Figure DE102022200259A1_0009
    wobei P λ 1
    Figure DE102022200259A1_0010
    eine Inversion in Bezug auf die Poisson-Verteilung Pλ bezeichnet. In manchen Fällen kann der Erwartungswert λ = 1 in die obigen Ausdrücke eingesetzt werden (wie oben beschrieben). Somit werden drei Gewichte w r ,1 1 , w r ,1 2 , w r ,1 3
    Figure DE102022200259A1_0011
    erzeugt, die emulieren können, dass das „rote Fahrzeug“ auf den w r ,1 1 , w r ,1 2 , und  w r ,1 3
    Figure DE102022200259A1_0012
    synthetischen Bildern beobachtet wird.
  • Als nächstes kann bspw. das zweite Bild aus der ersten Anzahl von Elementen daraufhin untersucht werden, ob das Merkmal „Fahrzeugfarbe“ in diesem Bild vorhanden ist. Zum Beispiel wird auf dem zweiten Bild ein „blaues Fahrzeug“ (zum ersten Mal) erkannt. Das oben beschriebene Prozedere zum Erzeugen der drei Gewichte w r ,1 1 , w r ,1 2  und  w r ,1 3
    Figure DE102022200259A1_0013
    für das „rote Fahrzeug“ kann nun für das „blaue Fahrzeug“ wiederholt werden. Das heißt, es werden erneut drei Zufallszahlen x1, x2 und x3 generiert, die z.B. aus dem Intervall [a,b] mit Hilfe von dem Zufallszahlengenerator gezogen werden, die entsprechend der vorgegebenen Wahrscheinlichkeitsverteilung (z.B. der oben eingeführten Uniformverteilung) verteilt werden können. In dem Beispiel, wenn a = 0 und b = 1, liegen sie im Intervall [0,1], x1, x2, x3 ∈ [0,1]. Ähnlich wie beim „roten Fahrzeug“ werden diese drei Gewichte w b ,1 1 , w b ,1 2 , w b ,1 3
    Figure DE102022200259A1_0014
    emulieren, dass das „blaue Fahrzeug“ auf den w b ,1 1 , w b ,1 2 ,  und  w b ,1 3
    Figure DE102022200259A1_0015
    synthetischen Bildern beobachtet wird. Es ist zu beachten, dass die für das „blaue Fahrzeug“ erzeugten Gewichte w b ,1 1 , w b ,1 2 , w b ,1 3
    Figure DE102022200259A1_0016
    sich von den Gewichten w r ,1 1 , w r ,1 2 , w r ,1 3
    Figure DE102022200259A1_0017
    unterscheiden können, die zuvor für das „rote Fahrzeug“ erzeugt wurden. Der Grund dafür ist, dass die drei Zufallszahlen x1, x2 und x3 für das „blaue Fahrzeug“ erneuet generiert wurden bspw. unter Verwendung eines anderen Seeds zum Initialisieren des Zufallszahlengenerators als die, die verwendet wurde, um den Zufallszahlengenerator für das „rote Fahrzeug“ zu initialisieren. Dann wird das dritte Bild untersucht: Wenn auf diesem Bild wieder ein „rotes Fahrzeug“ ermittelt wird, werden wieder drei Zufallszahlen gezogen und drei Gewichte w r ,2 1 , w r ,2 2 , w r ,2 3
    Figure DE102022200259A1_0018
    erzeugt, die emulieren, dass das „rote Fahrzeug“ auf den w r ,2 1 , w r ,2 2 ,  und  w r ,2 3
    Figure DE102022200259A1_0019
    synthetischen Bildern beobachtet wird. (Der tiefgestellte Index „2“ in den Gewichten bedeutet, dass das „rote Fahrzeug“ zum zweiten Mal ermittelt wurde.) Falls das Merkmal „Fahrzeugfarbe“ auf dem vierten Bild nicht erkannt wird, kann das Verfahren das vierte Bild überspringen und mit der Erkennung dieses Merkmals auf dem nächsten Bild fortfahren. Auf diese Weise können alle Bilder (d.h. alle Elemente aus der ersten Anzahl von Elementen und der zweiten Anzahl von Elementen) untersucht werden.
  • Nun kann das Vorhandensein des anderen Merkmals in der bestimmen Ausprägung in den Elementen (bspw. Bildern) aus der ersten Anzahl von Elementen untersucht werden. Zum Beispiel kann das oben erwähnte Merkmal „Bereifung des Fahrzeuges“ in den Ausprägungen „Winterreifen“ oder „Sommerreifen“ auftreten. Jetzt kann man wieder mit dem ersten Bild des Beispiels von 2 anfangen, das, wie bereits oben besprochen, das zweite Merkmal „Bereifung des Fahrzeuges“ in der bestimmten Ausprägung „Winterreifen“ aufwiest. In diesem Fall kann die Anzahl N von Zufallszahlen für die ermittelte Ausprägung „Winterreifen“ gezogen werden. In einem nicht einschränkenden Beispiel kann die gleiche Anzahl von Zufallszahlen für das Ziehen wie für das erste Merkmal „Fahrzeugfarbe“ ausgewählt werden, d.h. N = 3. Als nächstes können N = 3 Zufallszahlen x1, x2 und x3 aus einem Intervall [a, b] mit Hilfe von dem Zufallszahlengenerator gezogen werden, die gemäß der vorgegebenen Wahrscheinlichkeitsverteilung (z.B. der oben eingeführten Uniformverteilung) verteilt werden können. Zum Beispiel für a = 0 und b = 1, liegen sie im Intervall [0,1], x1, x2, x3 ∈ [0,1]. Auf gleiche Weise wie im Zusammenhang mit dem Merkmal „Fahrzeugfarbe“ detailliert beschrieben, können drei Gewichte w W r ,1 1 , w W r ,1 2  und  w W r ,1 3
    Figure DE102022200259A1_0020
     
    Figure DE102022200259A1_0021
    erzeugt werden, die emulieren, dass die „Winterreifen“ auf den w W r ,1 1 , w W r ,1 2  und  w W r ,1 3
    Figure DE102022200259A1_0022
     
    Figure DE102022200259A1_0023
    synthetischen Bildern beobachtet werden. (Nochmals zur Erinnerung: Die hochgestellten Indizes „1, 2, 3“ zählen gezogene Zufallszahlen auf, der tiefgestellte Index „Wr“ bezeichnet das Merkmal „Bereifung“ in der bestimmten Ausprägung „Winterreifen“, und der tiefgestellte Index „1“ bedeutet, dass die „Winterreifen“ zum ersten Mal in den realen Bildern ermittelt wurden.) Anschließend kann bspw. das zweite Bild aus der ersten Anzahl von Elementen daraufhin untersucht werden, in welcher Ausprägung das Merkmal „Bereifung des Fahrzeuges“ auf diesem Bild vorhanden ist (zuvor wurde auf dem zweiten Bild das „blaue Fahrzeug“ ermittelt). Wenn darauf z.B. die „Sommerreifen“ als die Ausprägung des Merkmals „Bereifung des Fahrzeuges“ festgestellt werden, werden drei entsprechende Gewichte w S r ,1 1 , w S r ,1 2  und  w S r ,1 3
    Figure DE102022200259A1_0024
    mit dem zuvor beschriebenen Prozedere erzeugt, indem modelliert wird, dass die „Sommerreifen“ auf den w S r ,1 1 , w S r ,1 2  und  w S r ,1 3
    Figure DE102022200259A1_0025
    synthetischen Bildern beobachtet werden. Auf diese Weise können alle Bilder (d.h. alle Elemente aus der ersten Anzahl von Elementen und der zweiten Anzahl von Elementen) untersucht werden.
  • In manchen Fällen kann der Zufallsgenerator, der für das Ziehen der Zufallszahlen x1, x2 und x3 für das zweite Merkmal in der bestimmten Ausprägung aus einem Element verwendet wird (d.h. aus dem Element der ersten Anzahl von Elementen oder der zweiten Anzahl von Elementen), mit demselben Seed initialisiert werden, der bereits zum Ziehen der Zufallszahlen x1, x2 und x3 für das erste Merkmal in der bestimmten Ausprägung aus demselben Element verwendet wurde. Zum Beispiel kann der Zufallsgenerator, der für das Ziehen der Zufallszahlen x1,x2 und x3 für die „Winterreifen“ aus dem ersten Bild von 2 verwendet wird, mit demselben Seed initialisiert werden, der bereits zum Ziehen der Zufallszahlen x1, x2 und x3 für das „rote Fahrzeug“ aus demselben ersten Bild von 2 verwendet wurde. Daher werden die Zufallszahlen x1, x2 und x3 in beiden Fällen gleich und folglich können die erzeugten Gewichte für die „Winterreifen“ auch gleich den Gewichten sein, die bereits für das ermittelte „rote Fahrzeug“ auf dem ersten Bild erzeugt wurden (vorausgesetzt, dass für das zweite Merkmal „Bereifung des Fahrzeuges“ die gleiche Poisson-Verteilung Pλ(k) wie für das erste Merkmal „Fahrzeugfarbe“ eingesetzt wurde). Das heißt: w r ,1 1 = w W r ,1 1 ,   w r ,1 2 = w W r ,1 2 ,  und  w r ,1 3 = w W r ,1 3 .
    Figure DE102022200259A1_0026
    Auf diese Weise kann die Information erhalten bleiben, dass dasselbe reale Bild für die beide Merkmale in den bestimmten Ausprägungen, nämlich das „rote Fahrzeug“ sowie die „Winterreifen“, in gleicher Weise berücksichtigt wird. In manchen Fällen kann derselbe Seed für zwei oder mehrere (bspw. alle) Merkmale in den bestimmten Ausprägungen für dasselbe Bild (e.g., für jedes reale Bild), in dem sie ermittelt wurden, verwendet werden.
  • In den vorliegenden Techniken kann der Verfahrensschritt „Erzeugen“ 310 der Mehrzahl von Gewichten für das eine oder die mehreren Merkmale weiter Sammeln 340 der erzeugten Gewichte umfassen, die mit der entsprechenden Ausprägung des Merkmals verknüpft sind für das Merkmal, dessen Ausprägungen in der ersten Anzahl von Elementen und/oder der zweiten Anzahl von Elementen ermittelt wurden. Darüber hinaus kann Sammeln 340 der erzeugten Gewichte, die mit der entsprechenden Ausprägung des Merkmals verknüpft sind, Berechnen 350 von gewichteten Summen aus den erzeugten Gewichten für die erste Anzahl von Elementen umfassen. Dabei kann jedes Gewicht einer gewichteten Summe, das entsprechende Gewicht aus der erzeugten Anzahl von Gewichten für die Ausprägung des Merkmals sein, wobei (gemäß den obigen Diskussionen) die Anzahl von Gewichten jedes Mal erzeugt wird, wenn diese Ausprägung des Merkmals auf dem Element aus der ersten Anzahl von Elementen ermittelt wird. Dies lässt sich wie folgt erklären. Wenn die Ausprägung des Merkmals (im Folgenden als „4“ bezeichnet) auf einem realen Element (d.h. auf einem Element aus der ersten Anzahl von Elementen) zum ersten Mal ermittelt wird, können, wie oben erörtert, N Zufallszahlen gezogen werden und N jeweilige Gewichte ( w A ,1 1 , w A ,1 2 , , w A ,1 N )
    Figure DE102022200259A1_0027
    in Übereinstimmung mit den obigen Diskussionen erzeugt werden. Für dieselbe Ausprägung, die zum zweiten Mal ermittelt wird, können wieder N Zufallszahlen für das Ziehen ausgewählt und N Gewichte ( w A ,2 1 , w A ,2 2 , , w A ,2 N )
    Figure DE102022200259A1_0028
    erzeugt werden. Das Prozedere kann so lange wiederholt werden, bis alle Elemente aus der ersten Anzahl von Elementen daraufhin überprüft sind, ob die vorliegende Ausprägung auf diesen Elementen vorhanden ist. Zum Beispiel, wenn die betrachtete Ausprägung des Merkmals L-mal ermittelt wurde, werden L-mal N verschiedene Sätze von Gewichten ( w A , L 1 , w A , L 2 , , w A , L N )
    Figure DE102022200259A1_0029
    gesammelt. Nun können die gewichteten Summen für jedes Ziehen k aus diesen Sätzen von Gewichten wie folgt berechnet werden: u A k = Σ j = 1 L   α j , k w A , j k ,
    Figure DE102022200259A1_0030
    wobei αj,k entsprechende Gewichtsfaktoren sind und der Index k die Werte von 1 bis N annehmen kann, so dass sich N gewichteten Summen daraus ergeben. (Das heißt die Anzahl von Gewichteten Summen gleich der Anzahl von gezogenen Zufallszahlen sein kann.) In manchen Beispielen sind die Gewichtsfaktoren in der gewichteten Summe gleich, bspw. αj,k = 1. In diesem Fall lassen sich die gewichteten Summen bspw. wie folgt schreiben, u A k = Σ j = 1 L   w A , j k .
    Figure DE102022200259A1_0031
  • Das oben beschriebe Verfahren lässt sich mit Hilfe von Histogrammen veranschaulichen, die in den 3a und 3b für die beiden Merkmale „Fahrzeugfarbe“ und „Bereifung des Fahrzeuges“ dargestellt sind, die im Zusammenhang mit dem Bilder-Beispiel diskutiert wurden. (Diese Histogramme können auch als Bootstrap-Histogramme bezeichnet werden.) Im Beispiel von 3a sind vier verschiedene Ausprägungen des Merkmals „Fahrzeugfarbe“ beispielhaft betrachtet, nämlich „rotes Fahrzeug“, „blaues Fahrzeug“, „schwarzes Fahrzeug“ und „weißes Fahrzeug“ für die die jeweiligen Bins 20a-d der Histogramme zuständig sind. Zum Beispiel die gewichtete Summe für die Ausprägung „rotes Fahrzeug“ kann durch die folgende Formel angegeben sein: u r k = Σ j = 1 L   w r , j k .
    Figure DE102022200259A1_0032
    Da in dem Beispiel mit den Bildern N = 3 Zufallszahlen für das Ziehen ausgewählt wurden (der Index k nimmt die Werte von 1 bis 3 an), sind in 3a drei Histogramme H1, H2 und H3 gezeigt. Nun kann das Bin „rotes Fahrzeug“ 20a jedes Histogramms aus diesen drei Histogrammen mit der entsprechenden gewichteten Summe (genauer gesagt mit ihrem Wert) befüllt werden, so dass die Höhe des Bins einem Wert der jeweiligen gewichteten Summe entspricht. (Zum Beispiel wird das Bin „rotes Fahrzeug“ 20a des Histogramms H1 mit der Summe u r 1
    Figure DE102022200259A1_0033
    befüllt, das Bin „rotes Fahrzeug“ 20a des Histogramms H2 mit der Summe u r 2
    Figure DE102022200259A1_0034
    und das Bin „rotes Fahrzeug“ 20a des Histogramms H3 mit der Summe u r 3 . )
    Figure DE102022200259A1_0035
    Anders ausgedrückt werden die „rotes Fahrzeug“-Bins 20a der Histogramme H1, H2 und H3 mit den erzeugten Gewichten w r , j 1 , w r , j 2  und  w r , j 3
    Figure DE102022200259A1_0036
    befüllt, die zu den existierenden Werten im „rotes Fahrzeug“-Bin ihres Histogramms hinzuaddiert werden, jedes Malj = 1... L, wenn die Ausprägung „rotes Fahrzeug“ auf dem Element aus der ersten Anzahl von Elementen ermittelt wird. Auf diese Weise können die verbleibenden gewichteten Summen u b k , u s k ,  und  u w k ( k = 1,2  oder 3 )
    Figure DE102022200259A1_0037
     
    Figure DE102022200259A1_0038
    auch dazu verwendet werden, um die entsprechenden Bins „blaues Fahrzeug“, „schwarzes Fahrzeug“ und „weißes Fahrzeug“ der Histogramme H1, H2 und H3 zu befüllen. Im Beispiel von 3b sind zwei verschiedene Ausprägungen in der Ausprägung „Winter-“ und „Sommerreifen“ des Merkmals „Bereifung des Fahrzeuges“ beispielhaft gezeigt, für die zwei Bins 30a, b pro Histogramm zuständig sind. Für dieses Merkmal können die gewichteten Summen u W r k ,  und  u S r k   ( k = 1,2  oder 3 )
    Figure DE102022200259A1_0039
    berechnet und die jeweiligen Bins der Histogramme H1, H2 und H3 gemäß der obigen Vorgehensweise befüllt werden.
  • Darüber hinaus kann in manchen Fällen der vorliegenden Techniken ein Nominalgewicht erzeugt werden, jedes Mal, wenn das Merkmal in der bestimmen Ausprägung auf dem Element aus der ersten Anzahl von Elementen ermittelt wird. In einem Beispiel kann dieses Nominalgewicht eine Konstante sein, bspw., w A , j 0 = 1.
    Figure DE102022200259A1_0040
     
    Figure DE102022200259A1_0041
    Dabei bezeichnet der hochgestellte Index „0“ das reale Element (d.h. das Element aus der ersten oder zweiten Anzahl von Elementen) und die tiefgestellten Indizes „4,j“ stehen wie bisher für die Ausprägung und die Ordnungsnummer der Ermittlung dieser Ausprägung A. Des Weiteren kann, ähnlich wie bereits im Zusammenhang mit synthetischen Beobachtungen erörtert, für jede ermittelte Ausprägung des Merkmals aus der ersten Anzahl von Elementen eine gewichtete nominelle Summe aus den erzeugten Nominalgewichten für diese Ausprägung berechnet werden. Zum Beispiel kann die gewichtete nominelle Summe für die Ausprägung A, welche L-mal in den Elementen aus der ersten Anzahl von Elementen beobachtet wurde, als u A 0 = Σ j = 1 L   w A , j 0
    Figure DE102022200259A1_0042
    geschrieben werden. Das Bin eines Histogramms, das für die Ausprägung „A“ des Merkmals zuständig ist, kann nun im Einklang mit dem obigen Prozedere mit der berechneten Summe u A 0
    Figure DE102022200259A1_0043
    befüllt werden. Zurück zu dem Beispiel mit den Bildern: Das Bin „rotes Fahrzeug“ 20a des Histogramms H0 der 3a kann mit der nominellen Summe u r 0
    Figure DE102022200259A1_0044
    befüllt werden, das Bin „blaues Fahrzeug“ 20b des Histogramms H3 mit der nominellen Summe u b 0 ,
    Figure DE102022200259A1_0045
    das Bin „schwarzes Fahrzeug“ 20c desselben Histogramms mit der nominellen Summe u s 0
    Figure DE102022200259A1_0046
    und das Bin „weißes Fahrzeug“ 20d mit der nominellen Summe u w 0 .
    Figure DE102022200259A1_0047
    Das Histogramm H0 der 3b für das Merkmal „Bereifung des Fahrzeuges“ kann auf gleiche Weise wie das Histogramm H0 der 3a befüllt werden.
  • Zusammengefasst können die gewichteten Summen z.B. für jede Ausprägung des Merkmals A und für alle Merkmale erzeugt werden, deren Ausprägungen in der ersten Anzahl von Elementen zu sehen sind. Zusätzlich können die gewichteten nominellen Summen für jede Ausprägung des Merkmals A und für alle Merkmale erzeugt werden, deren Ausprägungen in der ersten Anzahl von Elementen zu sehen sind. Wie oben im Detail erläutert, können die gewichteten Summen und die gewichten nominellen Summen durch die folgende Formel gegeben werden: u A k = Σ j = 1 L   u A , j k  und  u A 0 = Σ j = 1 L   w A , j 0 ,
    Figure DE102022200259A1_0048
     
    Figure DE102022200259A1_0049
    wobei k die Werte von 1 bis N annehmen kann. Dabei steht „0“ für das reale Element aus der ersten Anzahl von Elementen, auf dem das Merkmal A ermittelt wurde, und N für die Anzahl von gezogenen Zufallszahlen.
  • Des Weiteren kann der Verfahrensschritt Sammeln 340 der erzeugten Gewichte, die mit der entsprechenden Ausprägung des Merkmals verknüpft sind, weiterhin Berechnen 360 von gewichteten Summen aus den erzeugten Gewichten für die zweite Anzahl von Elementen umfassen. Dabei kann jedes Gewicht einer gewichteten Summe, das entsprechende Gewicht aus der erzeugten Anzahl von Gewichten für die Ausprägung des Merkmals sein, wobei die Anzahl von Gewichten jedes Mal erzeugt wird, wenn diese Ausprägung des Merkmals auf dem Element aus der zweiten Anzahl von Elementen ermittelt wird. Dieser Schritt des ersten Aspekts kann auf gleiche Weise ausgeführt werden, wie bereits im Zusammenhang mit der ersten Anzahl von Elementen ausführlich besprochen. Zudem kann in den vorliegenden Techniken ein Nominalgewicht erzeugt werden, jedes Mal, wenn das Merkmal in der bestimmen Ausprägung auf dem Element aus der zweiten Anzahl von Elementen ermittelt wird. In diesem Fall kann für jede ermittelte Ausprägung des Merkmals aus der zweiten Anzahl von Elementen eine gewichtete nominelle Summe aus den erzeugten Nominalgewichten für diese Ausprägung berechnet werden (in Übereinstimmung mit dem, was bereits in Bezug auf die erste Anzahl von Elementen diskutiert wurde).
  • Zusammengefasst können die gewichteten Summen z.B. für jede Ausprägung des Merkmals A und für alle Merkmale erzeugt werden, deren Ausprägungen in der zweiten Anzahl von Elementen zu sehen sind. Zusätzlich können die gewichteten nominellen Summen für jede Ausprägung des Merkmals A und für alle Merkmale erzeugt werden, deren Ausprägungen in der zweiten Anzahl von Elementen zu sehen sind. Wie oben im Detail erläutert, können die gewichteten Summen und die gewichten nominellen Summen durch die folgende Formel angegeben werden: u A k = Σ j = 1 L   w A , j k  und  u A 0 Σ j = 1 L   w A , j 0 ,
    Figure DE102022200259A1_0050
    wobei k die Werte von 1 bis N annehmen kann. Dabei steht „0“ für das reale Element aus der zweiten Anzahl von Elementen, auf dem das Merkmal A ermittelt wurde, und N für die Anzahl von gezogenen Zufallszahlen.
  • Der nächste Schritt des computer-implementierten Verfahrenes umfasst Berechnen 400 erster Korrelationen 40 zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die erste Anzahl von Elementen. In manchen Fällen kann Berechnen 400 der ersten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den gewichteten Summen für die entsprechenden Ausprägungen des einen oder der mehreren Merkmale der ersten Anzahl von Elementen geschehen. Dabei können die gewichteten Summen für die entsprechenden Ausprägungen die oben eingeführten gewichteten Summen u A k
    Figure DE102022200259A1_0051
    in Bezug auf die gezogenen Zufallszahlen k (k = 1... N) für die in der ersten Anzahl von Elementen ermittelten Merkmale in der bestimmten Ausprägung A sein. Der Verfahrensschritt „Berechnen“ 400 der ersten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes kann weiterhin Berechnen von mindestens zwei Kenngrößen für die entsprechende Ausprägung des Merkmals des ersten Datensatzes umfassen, die die gewichteten Summen für die entsprechende Ausprägung des Merkmals aus der ersten Anzahl von Elementen charakterisieren. In einem Beispiel können die mindestes zwei Kenngrößen ein Mittelwert von gewichteten Summen und eine Varianz von gewichteten Summen für die entsprechende Ausprägung des Merkmals sein. Zum Beispiel kann der Mittelwert von gewichteten Summen und die Varianz von gewichteten Summen wie folgt bestimmt werden: E[uA] = 1/N · Σ k = 1 N   u A k  und  V a r [ u A ] = 1 / N Σ k = 1 N ( u A k E [ u A ] ) 2 .
    Figure DE102022200259A1_0052
    In anderen Beispielen kann eine Standardabweichung σi anstelle der Varianz von gewichteten Summen E[uA] verwendet werden, die als Quadratwurzel der Varianz definiert ist: σ i = E [ u A ] .
    Figure DE102022200259A1_0053
    In manchen Fällen können die mindestes zwei Kenngrößen auch höhere Momente von gewichteten Summen beinhalten (bspw. eine Schiefe und/oder eine Wölbung). Es ist zu beachten, dass der Mittelwert von gewichteten Summen und die Varianz von gewichteten Summen dem Mittelwert und der Varianz von Bins (genauer gesagt, ihren Höhenwerten) der Histogramme entsprechen können, die einer bestimmten Ausprägung zugeordnet sind. Wenn es sich bspw. um die Ausprägung „rotes Fahrzeug“ in 3a handelt, dann kommen drei Bins „rotes Fahrzeug“ 20a der Histogramme H1, H2 und H3 ins Spiel.
  • Zusätzlich kann in manchen Beispielen des Verfahrens der Schritt „Berechnen“ 400 der ersten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den gewichten nominellen Summen für die entsprechenden Ausprägungen des einen oder der mehreren Merkmale der ersten Anzahl von Elementen geschehen. In diesem Fall können die gewichteten nominellen Summe u A 0
    Figure DE102022200259A1_0054
    auch zum Berechnen von mindestens zwei Kenngrößen für die entsprechende Ausprägung des Merkmals des ersten Datensatzes verwendet werden. Zum Beispiel können die beispielhaften Ausdrücke für den Mittelwert von gewichteten Summen und die Varianz von gewichteten Summen wie folgt verallgemeinert werden: E [ u A ] = 1 / N Σ k = 1 N u A k  und  V a r [ u A ] = 1 / N Σ k = 0 N ( u A k E [ u A ] ) 2 .
    Figure DE102022200259A1_0055
     
    Figure DE102022200259A1_0056
    (Dabei beginnen beide Summen mit dem Laufindex „0“, siehe auch Diskussionen oben.)
  • In den vorliegenden Techniken kann Berechnen 400 der ersten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes Bestimmen einer Kovarianz zwischen zwei Ausprägungen des einen oder der mehreren ermittelten Merkmale umfassen. Zum Beispiel können zu diesem Zweck mehrere (bspw. alle) Kovarianzen zwischen zwei Ausprägungen der ermittelten Merkmale bestimmt werden, wodurch eine Kovarianzmatrix gebildet wird. In manchen Fällen kann eine Komponente (bspw. jede Komponente) der Kovarianzmatrix unter Verwendung von mindestens zwei Kenngrößen jeder der zwei jeweiligen Ausprägungen des einen oder der mehreren ermittelten Merkmale berechnet werden. Zum Beispiel kann die Kovarianzmatrix durch die oben eingeführten Mittelwerte von gewichteten Summen, E[uA] und E[uB], und die Varianzen von gewichteten Summen, Var[uA] und Var[uB], für zwei (ermittelte) Ausprägungen A, B desselben Merkmals oder der zwei verschiedenen Merkmale bestimmt werden. In diesem Fall kann die Kovarianzmatrix bspw. wie folgt geschrieben werden: ρ A B = E [ u A u B ] E [ u A ] E [ u B ] V a r [ u A ] V a r [ u B ] ,
    Figure DE102022200259A1_0057
    wobei E[uAuB] eine Mitteloperation in Bezug auf die beiden gewichteten Summen u A k  und  u B k
    Figure DE102022200259A1_0058
    bezeichnet. In manchen Fällen kann die Kovarianzmatrix durch den folgenden Ausdruck gegeben werden: ρ A B = 1 N Σ k ( u A k E [ u A ] ) ( u B k E [ u B ] ) 1 N Σ k ( u A k E [ u A ] ) 1 N Σ k ( u B k E [ u B ] ) 2 ,
    Figure DE102022200259A1_0059
    wobei der Index k gemäß den obigen Diskussionen die Werte von 1 bis N oder von 0 bis N annehmen kann.
  • In 4 ist die beispielhafte Struktur der Kovarianzmatrix ρAB für zwei Merkmale „Fahrzeugfarbe“ 2 und „Bereifung des Fahrzeuges“ 3 skizzenhaft gezeigt. In diesem Beispiel wurde das Merkmal „Fahrzeugfarbe“ 2 mit vier Ausprägungen, nämlich rotes Fahrzeug", „blaues Fahrzeug“, „schwarzes Fahrzeug“ und „weißes Fahrzeug“ ermittelt, während das Merkmal „Bereifung des Fahrzeuges“ 3 in zwei Ausprägungen „Winterreifen“ und „Sommerreifen“ auftritt (siehe auch 3a und 3b). Daher hat die Kovarianzmatrix ρAB in diesem Fall die Dimension 6 × 6.
  • Darüber hinaus kann die Kovarianzmatrix ρAB in vier Blöcke 2a, 3a, 23a, 23b zerlegt werden. Zwei dieser Blöcke beschreiben die Korrelationen zwischen den Ausprägungen desselben Merkmals: Der Block 2a in der oberen linken Ecke enthält die Korrelationen zwischen den Ausprägungen des Merkmals „Fahrzeugfarbe“ 2, während der Block 3a in der unteren rechten Ecke die Korrelationen zwischen den Ausprägungen des Merkmals „Bereifung des Fahrzeuges“ 3 darstellt. Die beiden anderen Blöcke 23a, 23b beschreiben dagegen die Korrelationen zwischen den Ausprägungen, von denen eine die Ausprägung des Merkmals „Fahrzeugfarbe“ 2 und die zweite die Ausprägung des Merkmals „Bereifung des Fahrzeuges“ 3 ist. In manchen Fällen kann die Kovarianzmatrix ρAB eine solche Struktur für eine beliebige Anzahl von Merkmalen aufweisen (bspw. zwei Merkmale oder mehr), von denen jedes Merkmal eine beliebige Anzahl von Ausprägungen besitzt (bspw. eine Ausprägung oder mehr).
  • In dem nächsten Schritt umfasst das Verfahren des ersten Aspekts Berechnen 500 zweiter Korrelationen 40 zwischen den einen oder den mehreren Merkmale in jeweiligen Ausprägungen des zweiten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die zweite Anzahl von Elementen. In manchen Fällen kann Berechnen 500 der zweiten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des zweiten Datensatzes basierend auf den gewichteten Summen für die entsprechenden Ausprägungen des einen oder der mehreren Merkmale der zweiten Anzahl von Elementen geschehen. Der Verfahrensschritt „Berechnen“ 500 der zweiten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des zweiten Datensatzes weiterhin Berechnen von mindestens zwei Kenngrößen für die entsprechende Ausprägung des Merkmals des zweiten Datensatzes, die die gewichteten Summen für die entsprechende Ausprägung des Merkmals aus der zweiten Anzahl von Elementen charakterisieren. In manchen Fällen kann der Verfahrensschritt „Berechnen“ 500 der zweiten Korrelationen für den zweiten Datensatz auf gleiche Art und Weise ausgeführt werden, wie bereits im Zusammenhang mit den „Berechnen“ 400 der ersten Korrelationen für den ersten Datensatz ausführlich besprochen: Zum Beispiel können ein Mittelwert von gewichteten Summen und eine Varianz von gewichteten Summen für die entsprechende Ausprägung des Merkmals als die mindestes zwei Kenngrößen verwendet und eine Korrelationsmatrix ρAB wie oben beschrieben berechnet werden.
  • Der nächste Schritt des computer-implementierten Verfahrenes umfasst Vergleichen 600 der ersten und zweiten Korrelationen. Im Rahmen der vorliegenden Offenbarung kann Vergleichen 600 der ersten und zweiten Korrelationen Berechnen 610 von Abweichungen zwischen den ersten und den zweiten Korrelationen umfassen. In einem Beispiel können eine oder mehrere Abweichungen (bspw. alle Abweichungen) zwischen einer oder mehreren (bspw. allen) Korrelationen aus den ersten Korrelationen und einer oder mehreren entsprechenden Korrelationen aus den zweiten Korrelationen berechnet werden. Hierbei kann die Korrelation aus den ersten Korrelationen eine Korrelation zwischen einem Paar von Ausprägungen des einen oder der mehreren Merkmale sein (bspw. eine Korrelation zwischen der Ausprägung „rotes Fahrzeug“ und der Ausprägung „Winterreifen“ im Kontext des ersten Datensatzes), und die entsprechende Korrelation aus den zweiten Korrelationen ist eine Korrelation zwischen demselben Paar von Ausprägungen des einen oder der mehreren Merkmale (bspw. eine Korrelation zwischen der Ausprägung „rotes Fahrzeug“ und der Ausprägung „Winterreifen“ im Kontext des zweiten Datensatzes). Zu diesem Zweck können in manchen Fällen Abweichungen zwischen der Kovarianzmatrix ρAB, die in Bezug auf den ersten Datensatz erstellt wurde, und der Kovarianzmatrix ρAB, die in Bezug auf den zweiten Datensatz erstellt wurde, berechnet werden. In einem Beispiel können diese Kovarianzmatrixen voneinander subtrahiert werden, wodurch sich eine Differenzmatrix ergibt. Anschließend kann in manchen Fällen eine Matrixnorm der Differenzmatrix bestimmt werden (bspw. Frobeniusnorm, Zeilensummennorm, Spaltensummennorm oder eine andere spezielle Form der Matrixnorm). In manchen Fällen kann die resultierende Matrixnorm der Differenzmatrix als Maßstab von Abweichungen zwischen den ersten und den zweiten Korrelationen dienen.
  • In dem nächsten Schritt umfassen die vorliegenden Techniken Ausgeben 700 eines Vergleichsparameters basierend auf dem Vergleichen der ersten und zweiten Korrelationen. Der Vergleichsparameter kann verschiedene Formate annehmen. Ein Format des Vergleichsparameters kann davon abhängen, wie der Vergleichsparameter weiterverwendet werden soll. In manchen Beispielen wird der Vergleichsparameter an einen Benutzer ausgegeben. In diesem Fall kann der Vergleichsparameter in einem menschenlesbaren Format ausgegeben werden. In anderen Beispielen kann der Vergleichsparameter automatisiert verarbeitet werden. In diesem Fall kann der Vergleichsparameter in einem maschinenlesbaren Format ausgegeben werden.
  • In einem Beispiel kann der Vergleichsparameter Informationen über ein Vergleichsergebnis umfassen, die sich bspw. auf die berechneten Abweichungen zwischen den ersten und den zweiten Korrelationen, auf Komponenten der Differenzmatrix, auf die Matrixnorm der Differenzmatrix oder eine beliebige Kombination davon beziehen können. In manchen Fällen kann der ausgegebene Vergleichsparameter an eine Mensch-Maschine-Schnittstelle ausgegeben werden. Damit kann einem Nutzer ermöglicht werden, die Ergebnisse der Verfahren zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem gemäß der vorliegenden Offenbarung in Augenschein zu nehmen (und ggf. weitere Maßnahmen einzuleiten).
  • Alternativ oder zusätzlich kann der Schritt „Vergleichen“ 600 der ersten und zweiten Korrelationen weiterhin Prüfen 620 umfassen, ob die Abweichungen zwischen den ersten und den zweiten Korrelationen ein vorbestimmtes Kriterium erfüllen. In einem Beispiel kann das vorbestimmte Kriterium umfassen, dass die eine oder mehreren Abweichungen (bspw. alle Abweichungen) zwischen der einen oder mehreren (bspw. allen) Korrelationen aus den ersten Korrelationen und der einen oder mehreren entsprechenden Korrelationen aus den zweiten Korrelationen unter einem vorbestimmten Schwellenwert liegen. (In einer anderen Definition kann das vorbestimmte Kriterium umfassen, dass diese eine oder mehreren Abweichungen einen vorbestimmten Schwellenwert überschreiten.) Alternativ oder zusätzlich kann das vorbestimmte Kriterium umfassen, dass die oben eingeführte Matrixnorm der Differenzmatrix unter einen vorbestimmten Schwellenwert fällt. In der vorliegenden Offenbarung können der erste Datensatz und der zweite Datensatz als geeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems eingestuft 630 werden, wenn die Abweichungen zwischen den ersten und den zweiten Korrelationen das vorbestimmte Kriterium erfüllen. Anderenfalls, wenn die Abweichungen zwischen den ersten und den zweiten Korrelationen das vorbestimmte Kriterium nicht erfüllen, können der erste und der zweite Datensatz als ungeeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems eingestuft werden.
  • In manchen Fällen, wenn es geprüft wird, ob die Abweichungen zwischen den ersten und den zweiten Korrelationen das vorbestimmte Kriterium erfüllen, kann der ausgegebene Vergleichsparameter der vorliegenden Offenbarung Informationen über ein Einstufungsergebnis (bspw. über die Eignung der ersten und zweiten Datensätze zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems) enthalten. In anderen Worten kann Ausgeben 700 des Vergleichsparameters automatisch (d.h. ohne Nutzereinwirkung) erfolgen. Wenn der erste Datensatz und der zweite Datensatz als geeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems eingestuft wurden, kann der erste Datensatz und der zweite Datensatz freigegeben werden (bspw. automatisch oder durch einen Nutzer).
  • Anderenfalls, wenn der erste Datensatz und der zweite Datensatz als nicht geeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems eingestuft wurden, kann der erste Datensatz und der zweite Datensatz gesperrt werden (wiederum automatisch oder durch einen Nutzer). Alternativ können der erste Datensatz und der zweite Datensatz so augmentiert werden, dass neue Abweichungen zwischen den ersten und den zweiten Korrelationen, die erneut in Bezug auf die augmentierten ersten und zweiten Datensätze berechnet werden, im Vergleich zu den Abweichungen, die in Bezug auf die ursprünglichen erste und zweiten Datensätze berechnet wurden, kleiner werden, so dass bspw. die erneut berechneten Abweichungen das vorbestimmte Kriterium erfüllen. In manchen Fällen kann Augmentieren der ersten und zweiten Datensätze durch Hinzufügen anderer Daten aus Trainings- und/oder Validierungsdatensätzen erfolgen, die nicht in den (ursprünglichen) ersten und zweiten Datensätzen enthalten sind. Die anderen Daten können neue (reale) Elemente (im weiter oben definierten Sinne) umfassen, z.B. Bilddaten oder gemessene Zeitreihen. Die oben beschriebenen Verfahren zum Analysieren von Trainings- und/oder Validierungsdatensätzen können anschließend erneut auf die augmentierten ersten und zweiten Datensätze angewandt werden, um die oben eingeführten neuen Abweichungen zu berechnen. In diesem Fall kann in manchen Fällen neue synthetische Beobachtungen für die neuen (realen) Elemente (im weiter oben definierten Sinne) erzeugt werden. In manchen Fällen kann Hinzufügen der anderen Daten so lange erfolgen, bis das vorbestimmte Kriterium in Bezug auf die augmentierten Datensätze erfüllt wird. Danach können der erste augmentierte Datensatz und der zweite argumentierte Datensatz als der erste Datensatz und der zweite Datensatz deklariert werden, die nun als geeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems eingestuft sind, wenn das vorbestimmte Kriterium erfüllt ist.
  • In den vorliegenden Techniken können auch mehr als zwei Datensätze aus den Trainings- und/oder Validierungsdatensätzen (bspw. drei oder mehr, fünf oder mehr, zehn oder mehr Datensätzen) basierend auf den jeweiligen berechneten Korrelationen miteinander verglichen werden (bspw. geprüft und/oder eingestuft). In diesem Fall können ähnliche Verfahren verwendet werden, wie die für die zwei Datensätzen bereits besprochenen Verfahren.
  • Die vorliegende Offenbarung betrifft auch ein computer-implementiertes Verfahren zum Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems. Das Verfahren gemäß der vorliegenden Offenbarung umfasst Empfangen mindesten eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen, wobei der erste und der zweite Datensatz gemäß dem ersten allgemeinen Aspekt als geeignet eingestuft wurden. Des Weiteren umfasst das Verfahren Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems mit dem empfangenen mindestens einen ersten und zweiten Datensatz, um ein trainiertes und/oder validiertes computerbasiertes Maschinenlernsystem zu erhalten.
  • Die vorliegende Offenbarung betrifft auch ein computer-implementiertes Verfahren zum Anwenden eines computerbasierten Maschinenlernsystems (bspw. eines Maschinenlernmoduls). Das computer-implementierte Verfahren umfasst Bereitstellen eines trainierten und/oder validierten computerbasierten Maschinenlernsystems gemäß der vorliegenden Offenbarung. Des Weiteren umfasst das Verfahren Verarbeiten von Anwendungsdaten durch das empfangene computerbasierte Maschinenlernsystem.
  • In den vorliegenden Techniken können die computerbasierten Maschinenlernsysteme für eine Vielzahl von Anwendungen (bspw. für das Bereitstellen von Funktionen des autonomen oder assistierten Fahrens) ausgelegt und/oder trainiert sein.
  • In manchen Fällen sind die computerbasierte Maschinenlernsysteme (bspw. die computerbasierten Maschinenlernsysteme, für die die ersten und zweiten Datensätze als geeignet eingestuft wurden) für die Bildverarbeitung ausgelegt. In diesem Beispiel können die mindestens einen ersten und zweiten Datensätze aus Trainings- und/oder Validierungsdatensätzen Bilddaten enthalten (z.B. Einzelbilddaten oder Videodaten). Die Bilddaten können mittels verschiedener Sensoren (z.B. Kameras, Radar, Lidar, Ultraschall- oder Wärmesensoren) erzeugt werden und/oder synthetische Bilddaten umfassen. In manchen Beispielen kann das computerbasierte Maschinenlernsystem ein Bildklassifikator sein (z.B. ein Bildklassifikator, der Bilddaten pixelweise oder bereichsweise semantisch segmentiert). Der Bildklassifikator kann dazu ausgelegt sein, Eingangsdaten in der Form von Bilddaten zu empfangen und in mehrere Klassen zu klassifizieren. Das kann in manchen Beispielen Abbilden von Eingangsdaten in Form eines Eingangsvektor einer Dimension (Rn), der Bilddaten enthält, auf Ausgangsdaten in Form eines Ausgangsvektors einer zweiten Dimension (Rm), der ein Klassifikationsergebnis darstellt, umfassen. Beispielweise können Komponenten des Eingangsvektors eine Mehrzahl von empfangenen Bilddaten darstellen. Jede Komponente des Ausgangsvektors kann ein Ergebnis einer Bildklassifikation darstellen, das anhand des computerbasierten Maschinenlernsystems der vorliegenden Offenbarung berechnet wird.
  • In manchen Beispielen kann die Bildklassifikation eine semantische Segmentierung eines Bildes (z.B. bereichsweise und/oder pixelweise Klassifikation des Bildes) umfassen. Die Bildklassifikation kann beispielweise eine Objektklassifikation sein. Zum Beispiel kann das Vorhandensein eines oder mehrerer Objekte in den Bilddaten detektiert werden (z.B. Verkehrsteilnehmer wie Fußgänger, Radfahrer oder andere Fahrzeuge im Rahmen des autonomen Fahrens oder Verkehrsschilder oder Fahrspuren im Kontext des assistierten Fahrens). In diesem Fall können die computerbasierten Maschinenlernsystemen in das System für Fahrzeuge integriert sein (z.B. in die Systeme für das assistierte oder autonome Fahren), um eine Funktionalität für das Fahrzeug bereitzustellen.
  • In anderen Beispielen kann das computerbasierte Maschinenlernsystem für eine Überwachungsaufgabe (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung). Zum Beispiel kann das computerbasierte Maschinenlernsystem ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. In manchen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. In anderen Beispielen kann das computerbasierte Maschinenlernsystem ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung einer Maschine (bspw. einer Werkzeugmaschine) oder eine Gruppe von Maschinen (z.B. einer Industrielage) zu überwachen. In diesen Beispielen können die Eingangsdaten Zustandsdaten des zumindest teilautonomen Roboters, der Maschine oder Gruppe von Maschinen und/oder ihrer Umgebung und die Ausgangsdaten Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen Vorrichtung enthalten.
  • In noch anderen Beispielen kann das computerbasierte Maschinenlernsystem für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.
  • In der vorliegenden Offenbarung kann eine Vorrichtung (z.B. ein Fahrzeug, ein Roboter, eine Industrieanlage, ein medizintechnisches Gerät oder ein Haushaltsgerät) basierend auf dem Klassifikationsergebnis überwacht und/oder gesteuert werden.
  • In weiteren Beispielen kann das computerbasierte Maschinenlernsystem ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer Vorrichtung. Die Vorrichtung kann wiederum eine der oben diskutierten Vorrichtungen sein (z.B. ein Fahrzeug, ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen können die Eingangsdaten Zustandsdaten der Vorrichtung bzgl. eines internen Zustands der Vorrichtung enthalten (z.B. zumindest teilweise Sensordaten). Zusätzlich oder alternativ können die Eingangsdaten Zustandsdaten bzgl. der Umgebung der Vorrichtung enthalten (z.B. zumindest teilweise Sensordaten). Die Ausgangsdaten des computerbasierten Maschinenlernsystems können einen Betriebszustand oder andern internen Zustand der Vorrichtung charakterisieren (z.B. ob ein Fehler, eine Anomalie oder ein kritischer Betriebszustand vorliegt oder nicht). Die Ausgangsdaten können verwendet werden, um die Vorrichtung in Antwort auf den charakterisierten Betriebszustand oder auf einen anderen internen Zustand zu steuern. Alternativ oder zusätzlich können die Ausgangsdaten Steuerdaten für die Vorrichtung enthalten. In manchen Beispielen kann bspw. der Eingangsvektor eines Bildklassifikators (oder eines probabilistischen Regressors) Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor des Bildklassifikators kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen. In manchen Beispielen kann die Maschine ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur, einen Massenstrom oder eine beliebige Kombination davon umfassen. Die geschätzte Ausgangszustandsgröße der Vorrichtung kann bspw. ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis oder eine beliebige Kombination davon umfassen.
  • Die vorliegende Offenbarung betrifft auch ein Computer-Programm, das dazu ausgelegt ist, um die computer-implementierten Verfahren der vorliegenden Offenbarung auszuführen. Die vorliegende Offenbarung betrifft auch ein computerlesbares Medium (z.B. ein maschinenlesbares Speichermedium wie beispielsweise ein optisches Speichermedium oder Festspeicher, z.B. FLASH-Speicher) und Signale, die das Computer-Programm der vorliegenden Offenbarung speichern oder codieren.
  • Die vorliegende Offenbarung betrifft auch ein computer-implementiertes System, das dazu ausgelegt ist, um die computer-implementierten Verfahren der vorliegenden Offenbarung auszuführen.

Claims (15)

  1. Computer-implementiertes Verfahren zum Analysieren von Trainings- und/oder Validierungsdatensätzen für ein computerbasiertes Maschinenlernsystem, wobei das Verfahren die folgenden Schritte umfasst: Empfangen (100) mindestens eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen, wobei der erste Datensatz eine erste Mehrzahl von Elementen (1) umfasst und der zweite Datensatz eine zweite Mehrzahl von Elementen umfasst, die ein oder mehrere Merkmale (2; 3) aufweisen, wobei jedes Merkmal in einer Mehrzahl von Ausprägungen (20a-20d; 30a-30b) auftritt; Ermitteln (200), für jedes Element aus einer ersten Anzahl von Elementen der ersten Mehrzahl von Elementen und aus einer zweiten Anzahl von Elementen der zweiten Mehrzahl von Elementen, ob eines der einen oder der mehreren Merkmale in einer bestimmten Ausprägung in dem Element vorhanden ist; und wenn das Vorhandensein des Merkmals in der bestimmen Ausprägung ermittelt wird, Erzeugen (300) einer oder mehrerer synthetischer Beobachtungen des Merkmals in der bestimmten Ausprägung unter Verwendung einer Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Wahrscheinlichkeit beschreibt, eine bestimmte Anzahl von Ausprägungen des Merkmals zu beobachten; Berechnen (400) erster Korrelationen (40) zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die erste Anzahl von Elementen; Berechnen (500) zweiter Korrelationen (40) zwischen den einen oder den mehreren Merkmale in jeweiligen Ausprägungen des zweiten Datensatzes basierend auf den ermittelten Merkmalen und den erzeugten synthetischen Beobachtungen für die zweite Anzahl von Elementen; Vergleichen (600) der ersten und zweiten Korrelationen; Ausgeben (700) eines Vergleichsparameters basierend auf dem Vergleichen der ersten und zweiten Korrelationen.
  2. Computer-implementiertes Verfahren nach Anspruch 1, wobei Erzeugen (300) der einen oder mehreren synthetischen Beobachtungen des Merkmals in der bestimmten Ausprägung weiterhin die folgenden Schritte umfasst: Erzeugen (310) einer Mehrzahl von Gewichten für das eine oder die mehreren Merkmale, deren bestimmte Ausprägung in der ersten Anzahl von Elementen und/oder der zweiten Anzahl von Elementen ermittelt wurde, wobei das Gewicht aus der Mehrzahl von Gewichten eine Anzahl von synthetischen Beobachtungen derselben Ausprägung des Merkmals emuliert, wobei die Mehrzahl von Gewichten unter Verwendung der jeweiligen Wahrscheinlichkeitsverteilung erzeugt wird.
  3. Computer-implementiertes Verfahren nach Anspruch 2, wobei Erzeugen (310) der Mehrzahl von Gewichten für das eine oder die mehreren Merkmale weiterhin die folgenden Schritte umfasst: Ziehen (320) einer Anzahl von Zufallszahlen für die Ausprägung des Merkmals, jedes Mal, wenn diese Ausprägung des Merkmals auf dem Element aus der ersten Anzahl von Elementen oder der zweiten Anzahl von Elementen ermittelt wird, um die synthetischen Beobachtungen dieser Ausprägung zu emulieren, wobei die Zufallszahlen gemäß einer vorgegebenen Wahrscheinlichkeitsverteilung verteilt sind; Erzeugen (330) eines Gewichts für jede gezogene Zufallszahl aus der Anzahl von Zufallszahlen für die Ausprägung des Merkmals, wodurch eine Anzahl von Gewichten für diese Ausprägung des Merkmals jedes Mal erzeugt wird, wenn diese Ausprägung des Merkmals auf dem Element aus der ersten Anzahl von Elementen oder der zweiten Anzahl von Elementen ermittelt wird, wobei das Gewicht aus der Anzahl von Gewichten für die Ausprägung des Merkmals unter Verwendung der gezogenen Zufallszahl, die diesem Gewicht entspricht, und der jeweiligen Wahrscheinlichkeitsverteilung des Merkmals erzeugt wird.
  4. Computer-implementiertes Verfahren nach Anspruch 3, wobei Erzeugen (310) der Mehrzahl von Gewichten für das eine oder die mehreren Merkmale weiter umfassend Sammeln (340) der erzeugten Gewichte, die mit der entsprechenden Ausprägung des Merkmals verknüpft sind für das Merkmal, dessen Ausprägungen in der ersten Anzahl von Elementen und/oder der zweiten Anzahl von Elementen ermittelt wurden.
  5. Computer-implementiertes Verfahren nach Anspruch 4, wobei Sammeln (340) der erzeugten Gewichte, die mit der entsprechenden Ausprägung des Merkmals verknüpft sind, Berechnen (350) von gewichteten Summen aus den erzeugten Gewichten für die erste Anzahl von Elementen umfasst, wobei jedes Gewicht einer gewichteten Summe, das entsprechende Gewicht aus der erzeugten Anzahl von Gewichten für die Ausprägung des Merkmals ist, wobei die Anzahl von Gewichten jedes Mal erzeugt wird, wenn diese Ausprägung des Merkmals auf dem Element aus der ersten Anzahl von Elementen ermittelt wird, optional wobei Gewichtsfaktoren in der gewichteten Summe gleich sind.
  6. Computer-implementiertes Verfahren nach Anspruch 5, wobei Berechnen (400) der ersten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des ersten Datensatzes basierend auf den gewichteten Summen für die entsprechenden Ausprägungen des einen oder der mehreren Merkmale der ersten Anzahl von Elementen geschieht.
  7. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 4 bis 6, wobei Sammeln (340) der erzeugten Gewichte, die mit der entsprechenden Ausprägung des Merkmals verknüpft sind, Berechnen (360) von gewichteten Summen aus den erzeugten Gewichten für die zweite Anzahl von Elementen umfasst, wobei jedes Gewicht einer gewichteten Summe, das entsprechende Gewicht aus der erzeugten Anzahl von Gewichten für die Ausprägung des Merkmals ist, wobei die Anzahl von Gewichten jedes Mal erzeugt wird, wenn diese Ausprägung des Merkmals auf dem Element aus der zweiten Anzahl von Elementen ermittelt wird, optional wobei Gewichtsfaktoren in der gewichteten Summe gleich sind.
  8. Computer-implementiertes Verfahren nach Anspruch 7, wobei Berechnen (500) der zweiten Korrelationen zwischen den einen oder den mehreren Merkmalen in jeweiligen Ausprägungen des zweiten Datensatzes basierend auf den gewichteten Summen für die entsprechenden Ausprägungen des einen oder der mehreren Merkmale der zweiten Anzahl von Elementen geschieht.
  9. Computer-implementiertes Verfahren nach einem der vorliegenden Ansprüche 1 bis 9, wobei Vergleichen (600) der ersten und zweiten Korrelationen Berechnen (610) von Abweichungen zwischen den ersten und den zweiten Korrelationen umfasst.
  10. Computer-implementiertes Verfahren nach Anspruch 9, wobei Vergleichen (600) der ersten und zweiten Korrelationen die folgenden Schritte umfasst: Prüfen (620), ob die Abweichungen zwischen den ersten und den zweiten Korrelationen ein vorbestimmtes Kriterium erfüllen; Einstufen (630) der ersten und zweiten Datensätze als geeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems, wenn die Abweichungen zwischen den ersten und den zweiten Korrelationen das vorbestimmte Kriterium erfüllen, und anderenfalls, wenn die Abweichungen zwischen den ersten und den zweiten Korrelationen das vorbestimmte Kriterium nicht erfüllen, Einstufen der ersten und zweiten Datensätze als ungeeignet zum Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems.
  11. Computer-implementiertes Verfahren zum Trainieren und/oder Validieren eines computerbasierten Maschinenlernsystems: Empfangen mindesten eines ersten und eines zweiten Datensatzes aus Trainings- und/oder Validierungsdatensätzen, wobei der erste und der zweite Datensatz nach Anspruch 10 als geeignet eingestuft wurden; und Trainieren und/oder Validieren des computerbasierten Maschinenlernsystems mit dem empfangenen mindestens einen ersten und zweiten Datensatz, um ein trainiertes und/oder validiertes computerbasiertes Maschinenlernsystem zu erhalten.
  12. Computer-implementiertes Verfahren zum Anwenden eines computerbasierten Maschinenlernsystems: Bereitstellen eines trainierten und/oder validierten computerbasierten Maschinenlernsystems nach Anspruch 11; und Verarbeiten von Anwendungsdaten durch das empfangene computerbasierte Maschinenlernsystem.
  13. Computer-implementiertes Verfahren nach einem der vorhergehenden Ansprüche 1 bis 12, wobei das jeweilige computerbasierte Maschinenlernmodul für die Bildverarbeitung ausgelegt ist und wobei die mindestens einen ersten und zweiten Datensätze aus Trainings- und/oder Validierungsdatensätzen Bilddaten enthalten.
  14. Ein Computer-Programm, das dazu ausgelegt ist, um das computer-implementierte Verfahren nach einem der vorhergehenden Ansprüche 1 bis 13 auszuführen.
  15. Ein computer-implementiertes System, das dazu ausgelegt ist, um die computer-implementierten Verfahren nach einem der Ansprüche 1 bis 13 auszuführen und/oder das Computer-Programm nach Anspruch 14 auszuführen.
DE102022200259.8A 2022-01-12 2022-01-12 Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem Pending DE102022200259A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022200259.8A DE102022200259A1 (de) 2022-01-12 2022-01-12 Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022200259.8A DE102022200259A1 (de) 2022-01-12 2022-01-12 Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem

Publications (1)

Publication Number Publication Date
DE102022200259A1 true DE102022200259A1 (de) 2023-07-13

Family

ID=86895284

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022200259.8A Pending DE102022200259A1 (de) 2022-01-12 2022-01-12 Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem

Country Status (1)

Country Link
DE (1) DE102022200259A1 (de)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CAO, Hong [et al.]: Integrated oversampling for imbalanced time series classification. IEEE Transactions on Knowledge and Data Engineering, 2013, 25. Jg., Nr. 12, S. 2809-2822. DOI: 10.1109/TKDE.2013.37
CAO, Hong [et al.]: SPO: Structure preserving oversampling for imbalanced time series classification. In: 2011 IEEE 11th International Conference on Data Mining. IEEE, 2011. S. 1008-1013. DOI: 10.1109/ICDM.2011.137
CAO, Hong; TAN, Vincent YF; PANG, John ZF.: A parsimonious mixture of Gaussian trees model for oversampling in imbalanced and multimodal time-series classification. IEEE transactions on neural networks and learning systems, 2014, 25. Jg., Nr. 12, S. 2226-2239. DOI: 10.1109/TNNLS.2014.2308321
GUO, Hongyu; VIKTOR, Herna L.: Learning from imbalanced data sets with boosting and data generation: the databoost-im approach. ACM Sigkdd Explorations Newsletter, 2004, 6. Jg., Nr. 1, S. 30-39. DOI: 10.1145/1007730.1007736

Similar Documents

Publication Publication Date Title
DE202017102238U1 (de) Aktorsteuerungssystem
DE102018130821A1 (de) Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs durch ein künstliches neuronales Netz mit einer Aggregationseinheit; Steuereinheit, Fahrerassistenzsystem sowie Computerprogrammprodukt
DE112010002232B4 (de) Semantische Szenensegmentierung mittels Random multinominalem Logit (RML)
DE202017102235U1 (de) Trainingssystem
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102019218613B4 (de) Objektklassifizierungsverfahren, Objektklassifizierungsschaltung, Kraftfahrzeug
DE102017219282A1 (de) Verfahren und Vorrichtung zum automatischen Erzeugen eines künstlichen neuronalen Netzes
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
DE102019103503A1 (de) Fehlerreduktion bei Bildern, die mit geladenen Teilchen erzeugt wurden, mithilfe von Machine-Learning-basierten Verfahren
EP3782081A1 (de) Verfahren zur erzeugung eines testdatensatzes, verfahren zum testen, verfahren zum betreiben eines systems, vorrichtung, steuerungssystem, computerprogrammprodukt, computerlesbares medium, erzeugung und verwendung
DE112020007472T5 (de) Lernnutzungssystem, nutzungsvorrichtung, lernvorrichtung, programm und lernnutzungsverfahren
DE102022200259A1 (de) Analysieren von trainings- und/oder validierungsdatensätzen für ein computerbasiertes maschinenlernsystem
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102019127622B4 (de) Abwehrgenerator, Verfahren zur Verhinderung eines Angriffs auf eine KI-Einheit und computerlesbares-Speichermedium
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
DE102020209958A1 (de) Vorrichtung zum Erlernen eines Bildes einer Fahrzeugkamera und Verfahren dafür
DE102020203047A1 (de) Effiziente gleichzeitige Inferenzberechnung für mehrere neuronale Netzwerke
DE102020209078A1 (de) Automatisierte Prozessüberwachung
DE102019113958A1 (de) Verfahren zur Leistungssteigerung eines Fahrzeugsystems mit einem neuronalen Netz zum Steuern einer Fahrzeugkomponente
DE102021212731A1 (de) Überprüfen von test- und/oder trainings-datensätzen für ein computerbasiertes maschinenlernmodul
DE102021207754A1 (de) Erzeugung von computer-implementierten neuronalen netzwerken mit beseitigten architektonischen flaschenhälsen
DE102021212732A1 (de) Überprüfen von test- und/oder trainings-datensätzen für ein computerbasiertes maschinenlernmodul
DE102020213238A1 (de) Erzeugung von vereinfachten computer-implementierten neuronalen netzwerken
DE102021207753A1 (de) Effizientes beschneiden zweiter ordnung von computer-implementierten neuronalen netzwerken
EP4254083A1 (de) Verfahren zur parametrisierung eines überwachungssystems, parametrisierungsvorrichtung und überwachungssystem

Legal Events

Date Code Title Description
R163 Identified publications notified