DE102022209542A1 - Sensormesswertanomaliedetektion - Google Patents

Sensormesswertanomaliedetektion Download PDF

Info

Publication number
DE102022209542A1
DE102022209542A1 DE102022209542.1A DE102022209542A DE102022209542A1 DE 102022209542 A1 DE102022209542 A1 DE 102022209542A1 DE 102022209542 A DE102022209542 A DE 102022209542A DE 102022209542 A1 DE102022209542 A1 DE 102022209542A1
Authority
DE
Germany
Prior art keywords
physical quantity
weights
sensor
causality
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102022209542.1A
Other languages
English (en)
Other versions
DE102022209542B4 (de
Inventor
Karim Said Mahmoud Barsim
Mohamed Amine Ben Salem
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022209542.1A priority Critical patent/DE102022209542B4/de
Priority to US18/465,369 priority patent/US20240086770A1/en
Priority to CN202311175580.3A priority patent/CN117708728A/zh
Priority to JP2023147754A priority patent/JP2024041064A/ja
Publication of DE102022209542A1 publication Critical patent/DE102022209542A1/de
Application granted granted Critical
Publication of DE102022209542B4 publication Critical patent/DE102022209542B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

Die Erfindung bezieht sich auf ein computer-implementiertes Verfahren (600) zum Detektieren von Anomalien in Sensormesswerten einer physikalischen Größe. Es werden Messdaten erhalten, die mehrere Sensormesswerte der physikalischen Größe umfassen. Für jeweilige Sensormesswerte werden jeweilige Gewichte durch Maximieren einer Diskrepanz zwischen den Messdaten und einer Mischungsverteilung, die durch Neugewichten der Sensormesswerte gemäß den Gewichten erhalten wird, bestimmt. Die jeweiligen Gewichte werden als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte ausgegeben.

Description

  • Gebiet der Erfindung
  • Die Erfindung bezieht sich auf ein Verfahren zum Detektieren von Anomalien in Sensormesswerten einer physikalischen Größe und auf ein entsprechendes System. Die Erfindung bezieht sich ferner auf ein computerlesbares Medium.
  • Hintergrund der Erfindung
  • Echte Mechanismen, die dem komplexen Datenerzeugungsprozess in realen Systemen zugrunde liegen, ans Licht zu bringen, ist ein grundlegender Schritt beim Begünstigen einer Interpretierbarkeit von datengetriebenen Modellen und somit von Vertrauen in diese. Insbesondere um Vertrauen in Modelle für maschinelles Lernen aufzubauen, ist es gewünscht, derartige Modelle über ihre aktuellen Grenzen des Lernens verbindender Muster und Korrelationen zu erweitern. Vor allem müssen, wenn maschinelles Lernen auf reale Steueraufgaben angewendet wird, Modelle mit ihrer physischen Umgebung interagieren, Aktionen vornehmen, um ihre Umgebung zu ändern oder zu verbessern, oder sie über hypothetische Szenarien befragen, z. B. um die Wirkung einer Steuermaßnahme, die vorgenommen werden soll, vorherzusagen. In einem derartigen Umfeld ist die Interpretierbarkeit besonders wichtig.
  • Allerdings arbeiten die meisten Modelle für maschinelles Lernen, die in der Praxis heute verwendet werden, im Endeffekt als eine „Black-Box“, was wesentliche Hürden für ihre breite Annahme bildet, insbesondere in sicherheitskritischen Domänen. Entsprechend ist es wünschenswert, in einem physischen System die Stärke von Ursache/Wirkungs-Beziehungen im Gegensatz zu rein statistischen Zuordnungen zu messen: der sogenannte Ursachenrückschluss. Die Informationen über den zugrundeliegenden Datenerzeugungsprozess, die ein derartiger Ursachenrückschluss bereitstellt, besitzen verschiedene Anwendungen z. B. zur Anomaliedetektion oder Grundursachenanalyse.
  • In S. Shimizu u. a. „A Linear Non-Gaussian Acyclic Model for Causal Discovery“, Journal of Machine Learning Research 7 (2006), wird eine Technik präsentiert, um die ursächliche Struktur wertkontinuierlicher Daten unter Verwendung einer Analyse unabhängiger Komponenten zu bestimmen. Die Technik arbeitet unter den Annahmen, dass (a) der Datenerzeugungsprozess linear ist, (b) keine nicht beobachteten Störfaktoren vorliegen und (c) Störungsvariablen mit Varianzen ungleich null nicht normalverteilt sind. Insbesondere ist die Technik hinsichtlich des Typs von Sensordaten, auf den sie anwendbar ist, beschränkt.
  • Ein weiteres Problem, das beim Verstehen von Daten realer Systeme auftritt, ist das einer Anomaliedetektion. Hier ist das Problem, an einem gegebenen Satz von Sensordatenwerten zu bestimmen, welche dieser Werte wahrscheinlich Ausreißer sind. Außerdem sind in diesem Umfeld verschiedene Techniken bekannt, die Beschränkungen des Typs von Sensordaten, die als Eingabe verwendet werden, festlegen.
  • Kurzdarstellung der Erfindung
  • Es wäre wünschenswert, verbesserte Techniken zum Verarbeiten von Sensormesswerten zu schaffen, die auf viele verschiedene Typen von Sensordaten anwendbar sind. Insbesondere wäre es wünschenswert, vielseitige Anomaliedetektionstechniken zu schaffen, die für viele verschiedene Typen von Sensordaten arbeiten können, und vielseitige Techniken zum Ursachenrückschluss zu schaffen, z. B. um ursächliche Beziehungen aus einem breiten Spektrum von Sensordatentypen ans Licht zu bringen.
  • In Übereinstimmung mit einem ersten Aspekt der Erfindung werden ein computer-implementiertes Verfahren und ein entsprechendes System zum Detektieren von Anomalien gemäß den Definitionen in Anspruch 1 bzw. Anspruch 14 geschaffen. In Übereinstimmung mit einem Aspekt der Erfindung wird ein computerlesbares Medium gemäß der Definition durch Anspruch 15 beschrieben.
  • Verschiedene Maßnahmen, die hier diskutiert werden, beziehen sich auf die Analyse von Messdaten, die mehrere Sensormesswerte einer physikalischen Größe umfassen. Im Prinzip werden viele verschiedene Arten physikalischer Größen unterstützt. Zum Beispiel kann die physikalische Größe eine reellwertige physikalische Größe wie z. B. Druck oder Temperatur sein. Interessanterweise ist es auch möglich, physikalische Größen zu verwenden, die nicht durch einen einzelnen reellen Wert repräsentiert werden, z. B. binäre oder weitere kategorische Werte; komplexwertige Werte und/oder physikalische Größen, die durch mehrere Unterwerte, z. B. mehrere Zahlen wie z. B. eine Richtung, eine gerichtete Geschwindigkeit usw., repräsentiert werden. Insbesondere kann die physikalische Größe Bilddaten, Zeitreihendaten oder eine Textrepräsentation einer Messung einer physikalischen Größe sein. In vielen Fällen kann die physikalische Größe eine physikalische Größe in Bezug auf die Steuerung eines computergesteuerten physischen Systems, z. B. ein Roboter, eine Herstellungsmaschine usw., sein. Zum Beispiel kann die physikalische Größe einen Messwert der Umgebung, mit der das computergesteuerte System interagiert, oder einen physikalischen Parameter des computergesteuerten Systems selbst repräsentieren. Durch Analysieren derartiger Daten kann das Steuern des Systems verbessert werden, wie durch verschiedene Beispiele veranschaulicht wird.
  • Eine Anomaliedetektion kann auf derartige Messdaten angewendet werden. Im Allgemeinen kann sich eine Anomaliedetektion auf die Identifizierung seltener Messwerte, die vom Hauptteil der Daten wesentlich abweichen, beziehen. Dies wird auch als Ausreißerdetektion bezeichnet. Die Identifizierung kann sich auf ein Wählen einer Untermenge von Datenelementen und/oder ein Angeben eines Grads einer Abweichung für jeweilige Datenelemente beziehen.
  • In diesem Umfeld haben die Erfinder eine Anomaliedetektionstechnik entwickelt, die ein Vergleichen von Wahrscheinlichkeitsverteilungen als Grundlage verwendet. Namentlich verwendet die Technik eine Mischungsverteilung, die durch Neugewichten jeweiliger Sensormesswerte gemäß jeweiligen Gewichten erhalten wird. Die Erfinder haben realisiert, dass, im Allgemeinen die Diskrepanz zwischen dieser Mischungsverteilung und dem ursprünglichen Datensatz umso größer erwartet wird, je mehr Gewicht den Ausreißern des Datensatzes zugewiesen wird. Hier kann die Diskrepanz ein kernelbasiertes Diskrepanzmaß wie z. B. insbesondere eine maximale durchschnittliche Diskrepanz sein. Entsprechend planten die Erfinder, den Satz von Gewichten für die Mischungsverteilung derart zu bestimmen, dass die Diskrepanz maximiert wird; und die jeweiligen Gewichte als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte auszugeben.
  • Interessanterweise kann durch Formulieren einer Ausreißerdetektion bezüglich Diskrepanzen zwischen Wahrscheinlichkeitsverteilungen von Sensordaten eine Ausreißerdetektion erhalten werden, die für viele verschiedene Typen von Sensordaten funktioniert. Es muss keine bestimmte Form von Sensordaten angenommen werden, damit die Anomaliedetektion funktioniert, z. B. müssen die Sensordaten nicht numerisch sein und können stattdessen z. B. kategorisch sein. Außerdem muss keine bestimmte Verteilung für die Sensordaten angenommen werden. Zum Beispiel kann die Technik unter Verwendung eines kernelbasierten Diskrepanzmaßes wie z. B. der maximalen durchschnittlichen Diskrepanz eine Kernelfunktion verwenden, die auf den Sensordaten definiert ist, kann z. B. eine „Black-Box“-Verwendung der Kernelfunktion vornehmen, wobei wenig bis keine weitere Konfiguration oder Annahmen benötigt werden. Entsprechend wird eine breit einsetzbare Anomaliedetektionstechnik geschaffen, die wenig manuelle Konfiguration erfordert.
  • Eine wichtige Anwendung der vorgesehenen Anomaliedetektionstechnik ist im Ursachenrückschluss, nämlich im ans Licht Bringen eines Ursächlichkeitsindikators aus Messwerten, der eine ursächliche Wirkung einer ersten physikalischen Größe auf eine zweite physikalische Größe angibt. Insbesondere ermöglichen die vorgesehenen Techniken ein Identifizieren der ursächlichen Struktur eines bivariaten Systems aus einer einzelnen Beobachtungseinstellung. Diese Anwendung verwendet das Prinzip unabhängiger ursächlicher Mechanismen (ICM). Unter Berücksichtigung der Wahrscheinlichkeitsverteilungen von Paaren von Messwerten der ersten und der zweiten physikalischen Größe kann die beschriebene Anomaliedetektion an der Randverteilung der ersten physikalischen Größe arbeiten. Durch Neugewichten der Sensormesswerte der ersten physikalischen Größe, um ihre Diskrepanz von den ursprünglichen Sensormesswerten zu maximieren, wie oben diskutiert wurde, können zwei Einstellungen wirksam konstruiert werden, wobei die Randverteilungen der physikalischen Größe nicht vernachlässigbare Schwankungen aufweisen. Gemäß dem ICM-Prinzip wird erwartet, dass derartige Schwankungen minimale Auswirkungen auf der Wirkungserzeugungsmechanismus aufweisen.
  • Die Erfinder haben realisiert, dass somit eine Quantifizierung der Auswirkung dieser Schwankungen auf die Konditionale verwendet werden kann, um einen Ursächlichkeitsindikator herzuleiten. Namentlich können zwei maschinell lernbare Modelle beide trainiert werden, die zweite physikalische Größe von der ersten Größe vorherzusagen. Interessanterweise kann allerdings das erste maschinell lernbare Modell auf der Grundlage der Messdaten trainiert werden, wohingegen das zweite maschinell lernbare Modell auf der Grundlage der neugewichteten Sensormesswerte trainiert werden kann. In diesem Fall kann, wie die Erfinder realisiert haben, die Modelluneinigkeit zwischen diesen zwei Modellen als ein Indikator der ursächlichen Wirkung der ersten physikalischen Größe auf die zweite physikalische Größe verwendet werden. Namentlich liegt umso weniger wahrscheinlich eine ursächliche Wirkung der ersten physikalischen Größe auf die zweite physikalische Größe vor, je größer die Modelluneinigkeit ist, z. B. je grö-ßer die Differenz der Ausgabe der Modelle für einen Satz von Prüfeingaben gemäß einem Differenzmaß ist. Mit anderen Worten kann unter der Annahme, dass die zugrundeliegende ursächliche Struktur für die physikalischen Größen x, y ist x → y ist, der Ursachenrückschluss das Einbringen künstlicher Schwankungen in die Randverteilung px durch Neugewichten und dann Quantifizieren der Auswirkung dieser Schwankungen auf den Konditional pylx als Grundlage verwenden. Gemäß dem ICM-Postulat wird erwartet, dass Schwankungen von px eine minimale Auswirkung auf den bedingten pylx in der echten ursächlichen Richtung aufweisen, derart, dass die Auswirkung auf den Ursachen, die durch eine Modell(un)einigkeit gemessen wird, einen Ursächlichkeitsindikator bereitstellt.
  • Diese Anwendung des beschriebenen Anomaliedetektors zum Ursachenrückschluss ist aus mehreren Gründen besonders vorteilhaft. Wie oben diskutiert wird, funktioniert die Anomaliedetektion für einen großen Bereich von Sensordaten. Dieser wichtiger Vorteil überträgt sich ebenfalls zur Ursachenrückschlusstechnik. Durch Verwenden von Diskrepanzen zwischen Verteilungen; Modellen für maschinelles Lernen und einer Modelluneinigkeit, z. B. unter Verwendung von kernelbasierten Bewertungen als Grundlage, werden lediglich schwache Annahmen für die Sensordaten sowohl der ersten und der zweiten physikalischen Größe festgelegt, was somit den Vorteil einer Anwendbarkeit für einen großen Bereich von Anwendungen ergibt. Die Techniken funktionieren auch im Allgemeinen ungeachtet der Funktionsform der ursächlichen Beziehung oder der Datenverteilung, solange das ICM-Prinzip gilt. Die geschaffenen Techniken können im Gegensatz zu weiteren bekannten Systemen, die eine Ursächlichkeitsentdeckung ermöglichen, jedoch ein bedingtes Aufteilen von auf der Grundlage von weiteren Größen verwenden, auch in bivariaten Systeme funktionieren. Im Allgemeinen können die geschaffenen Techniken die Anzahl von Beschränkungen, die für das Ursache/Wirkungs-Identifizierungsproblem, das gelöst werden soll, festgelegt werden, insbesondere bezüglich Einschränkungen von Funktion und Verteilung und Datentypbeschränkungen verringern. Es wurde experimentell festgestellt, dass die geschaffenen Techniken eine gute Leistungsfähigkeit im Vergleich zum Stand der Technik bereitstellen, zusätzlich dazu, dass sie in Bezug auf Datentypen generisch und in Bezug auf die Wahl einer Modellklasse und ihrer Lernkapazität robust sind.
  • Insbesondere ermöglichen die beschriebenen Techniken, die Lernleistung datengetriebener Modelle, die genuine ursächliche Struktur zwischen physikalischen Größen zu messen, gut auszunutzen. In einigen bestehenden Ursachenrückschlusstechniken werden maschinell lernbare Modelle verschieden verwendet, derart, dass das Endergebnis für Modellwahl und Lernkapazität empfindlich ist. Zum Beispiel greifen einige bekannte Lösungsversuche auf die angenommene Einfachheit der Funktionsbeziehung in der ursächlichen Richtung zurück, was ermöglicht, diese Beziehung mit einer Modellklasse begrenzter Kapazität zu identifizieren. In diesem Fall ist eine ursächliche Struktur umso weniger identifizierbar, je höher die Modellkapazität ist. Interessanterweise ist dies nicht der Fall, wenn die hier beschriebenen Techniken angewendet werden, z. B. muss nicht angenommen werden, dass die ursächliche Struktur durch ein Modell mit begrenzter Kapazität repräsentiert werden kann. Im Gegensatz zu einigen bestehenden Techniken können die geschaffenen Techniken robuster hinsichtlich der Modellkapazität sein, solange die verwendeten Modelle kapazitiv genug sind, Schwankungen von Konditionalen zu lernen. Im Allgemeinen greifen die Techniken nicht auf die Verwendung eines bestimmten Typs eines maschinell lernbaren Modells zurück, was ermöglicht, das Modell zu wählen, welches am Besten auf einen gegebenen Satz von Sensormesswerten anwendbar ist.
  • Es ist festzuhalten, dass dann, wenn ein Ursächlichkeitsindikator auf der Grundlage einer Modelluneinigkeit bestimmt wird, wie hier beschrieben ist, es nicht unbedingt nötig ist, das zweite Modell an neugewichteten Sensormesswerten zu trainieren. Im Allgemeinen kann das Modell an einer geänderten Wahrscheinlichkeitsverteilung des Sensormesswerts trainiert werden, die derart bestimmt wurde, dass sie eine Diskrepanz von der ursprünglichen Wahrscheinlichkeitsverteilung aufweist, derart, dass die Randverteilung der physikalischen Größe nicht vernachlässigbare Schwankungen aufweist und das ICM-Prinzip gilt.
  • Die Ursachenrückschlusstechniken, die hier geschaffen werden, besitzen verschiedene praktische Verwendungen. Insbesondere kann der Ursachenrückschluss in der datengetriebenen Steuerung eines computergesteuerten Systems wie z. B. eines Roboters oder einer Fertigungsanlage verwendet werden. In einem derartigen Fall kann das System gesteuert werden, auf der Grundlage eines Bestimmens, dass diese physikalische Größe eine ursächliche Wirkung auf eine weitere physikalische Größe aufweist, eine physikalische Größe zu beeinflussen. Zum Beispiel kann eine datengetriebene Steuereinheit einen oder mehrere Ursächlichkeitsindikatoren, die wie hier beschrieben bestimmt werden, verwenden, um zu bestimmen, welche physikalische Größe beeinflusst werden soll, um einen vorab festgelegten Betriebsbereich zu erreichen. Dies kann vollautomatisch sein, z. B. kann ein Anwender lediglich einen Bereich für eine oder mehrere physikalische Größen festlegen müssen, wobei die datengetriebenen Steuereinheit konfiguriert ist, unter Verwendung der vorgesehenen Ursachenrückschlusstechniken automatisch zu bestimmen, welche physikalischen Größen beeinflusst werden müssen, um diesen Bereich zu erreichen. Als weiteres Beispiel einer automatisierten Verwendung im Kontext eines computergesteuerten Systems ist es möglich, einen Alarm z. B. zu einem menschlichen Anwender auszugeben, wenn ein bestimmtes Gewicht der Anomaliedetektion einen Schwellenwert überschreitet, wodurch die Anomaliedetektion im computergesteuerten Systemdirekt angewendet wird.
  • Allerdings ist auch eine manuelle Verwendung der bestimmten Ursächlichkeitsindikatoren möglich, z. B. kann eine Verwendung von Ursächlichkeitsindikatoren oder einer ursächlichen Wirkungsrichtung, die aus ihnen hergeleitet wird, Anstrengungen, z. B. bezüglich Messung und Speicherung, im Entwurf von Experimenten durch Angeben relevanter Größen, die im System unter Berücksichtigung variiert werden sollen, wesentlich verringern.
  • Wahlweise wird der Ursachenrückschluss für eine automatisierte Grundursachenanalyse eines Fehlers eines computergesteuerten Systems, insbesondere eines physischen Systems wie z. B. eines Roboters oder einer Fertigungsanlage verwendet. Die Grundursachenanalyse kann das Bestimmen als Grundlage verwenden, dass die physikalische Größe eine ursächliche Wirkung auf die weitere physikalische Größe aufweist. Zum Beispiel kann in einer Produktionslinie die Grundursachenanalyse (z. B. eine Fehlerbaumanalyse oder dergleichen) verwendet werden, um eine bestimmte Stufe oder Station der Produktionslinie automatisch zu bestimmen, auf die der Fehler (z. B. ein Systemfehler oder eine gescheiterte Qualitätsprüfung) zurückgeführt werden kann. Hier kann die Grundursachenanalyse eine Relevanz jeweiliger Produktionsstufen für Aspekte der System-/Qualitätsprüfung, die durch Ursächlichkeitsindikatoren oder Ursächlichkeitsindikatorvergleiche, die wie beschrieben bestimmt wurden, angegeben werden, verwenden. Die Grundursachenanalyse kann z. B. dann, wenn der Fehler zu einem Anwender berichtet wird, einen Alarm ausgeben, der die physikalische Größe angibt, die als Grundursache identifiziert wurde.
  • Wahlweise kann neben dem Bestimmen eines Ursächlichkeitsindikators für die ursächliche Wirkung einer ersten physikalischen Größe auf eine zweite physikalische Größe auch ein weiterer Ursächlichkeitsindikator bestimmt werden, der eine ursächliche Wirkung der zweiten physikalischen Größe auf die erste Größe angibt. Durch Vergleichen der zwei Ursächlichkeitsindikatoren kann aus einer einzelnen Beobachtungseinstellung bestimmt werden, welche die weitere verursacht. Zum Beispiel die Richtung, die der kleinsten Modelluneinigkeit entspricht, als die ursächliche Richtung bestimmt werden.
  • Wahlweise können Messdaten verwendet werden, die Messwerte von mindestens drei physikalischen Größen einbeziehen. Unter diesen physikalische Grö-ßen können zwei Größen als eine ursächliche Beziehung aufweisend identifiziert werden. Zum Beispiel können Techniken dafür verwendet werden, die z. B. an sich bekannt sind und das Paar Größen identifizieren, ohne die ursächliche Richtung zwischen dem Paar zu identifizieren. Die Techniken, die hier geschaffen werden, und insbesondere der Vergleich zwischen Ursächlichkeitsindikatoren können dann verwendet werden, um eine Richtung der identifizierten ursächlichen Beziehung zu bestimmen. Zum Beispiel kann eine bestehende Technik einen Satz ursächlicher Beziehungen als eine Markov-Äquivalenzklasse ausgeben, wobei z. B. eine oder mehrere bivariate ursächliche Beziehungen ungerichtet bleiben und die Techniken, die hier geschaffen werden, verwendet werden, um die Richtungen einer oder mehreren der ursächlichen Beziehungen, die im Graphen angegeben sind, zu bestimmen.
  • Wahlweise wird die Modelluneinigkeit, die verwendet wird, um einen Ursächlichkeitsindikator zu bestimmen, auf der Grundlage einer maximalen durchschnittlichen Diskrepanz zwischen Vorhersagen der trainierten Modelle bestimmt. Die Verwendung einer maximalen durchschnittlichen Diskrepanz besitzt den Vorteil, dass sie auf viele verschiedene Datentypen angewendet werden kann, z. B. kann es ausreichen, eine Kernelfunktion zu wählen und diese Kernelfunktion kann außerdem dieselbe sein, die in der verwendeten Anomaliedetektion verwendet wurde, um die Diskrepanz zwischen den Sensormesswerte und ihrer Mischungsverteilung zu definieren.
  • Wahlweise kann, wenn die Gewichte als Teil der Anomaliedetektion bestimmt werden, diese Bestimmung derart durchgeführt werden, dass sie das Gewicht eines Sensormesswerts auf ein maximales Gewicht und/oder die Abweichung von gleichförmig zu einer maximalen Abweichung einschränkt. Dies ist sowohl dann, wenn die Anomaliedetektion verwendet wird, um einen Ursächlichkeitsindikator zu bestimmen, als auch im Allgemeinen möglich. Zur Anomaliedetektion besitzt dies den Vorteil, dass es ermöglicht, die relative Größe der anomalen Untermenge ausdrücklich zu bestimmen. In der Verwendung zur Ursächlichkeitsschlussfolgerung ist das Hinzufügen derartiger Einschränkungen vorteilhaft, weil es ein stabileres Trainieren von Stellvertretermodellen ermöglicht, wodurch eine Empfindlichkeit für den Betrag präsentierter Trainingsdaten verringert wird.
  • Insbesondere kann ein Einschränken des maximalen Gewichts verwendet werden, um den Ursächlichkeitsindikator zu bestimmen, nämlich auf der Grundlage eines Trends in der Modelluneinigkeit zum Variieren von Werten des maximalen Gewichts. Interessanterweise kann unter Verwendung dieses Trends, um den Ursächlichkeitsindikator zu bestimmen, ein Ursächlichkeitsindikator erhalten werden, der weniger abhängig vom Datenraum der Sensormesswerte ist. Insbesondere ermöglicht es, Ursächlichkeitsindikatoren zwischen Sensormesswerten, die verschiedene Datenräume aufweisen, besser zu vergleichen.
  • Wahlweise kann, wenn die maximale durchschnittliche Diskrepanz verwendet wird, um die Gewichte der Anomaliedetektion zu bestimmen, die Größe, die maximiert werden soll, eine quadrierte maximale durchschnittliche Diskrepanz als Grundlage verwenden. Interessanterweise kann dieses Optimierungsproblem mit konvexer Optimierung unter einer semidefiniten Relaxation effizient implementiert werden.
  • Wahlweise können die Gewichte durch Maximieren der Diskrepanz in Bezug auf lediglich eine gewählte Untermenge von Abtastwerten, die aus den Messdaten gewählt sind, bestimmt werden. Dies kann die Gesamteffizienz verbessern, da sonst die Anzahl von Abtastwerten ein Leistungsfähigkeitsengpass werden kann. Insbesondere beim Anwenden der Anomaliedetektion in ursächlicher Schlussfolgerung wurde festgestellt, dass es lohnend ist, lediglich eine gewählte Untermenge von Abtastwerten zu verwenden. Das Trainieren von Modellen kann immer noch am gesamten Messdatensatz durchgeführt werden, da das Trainieren in vielen Fällen bessere Skalierungseigenschaften als die Gewichtsbestimmung aufweist.
  • Es kann ein System geschaffen werden, das das Anomaliedetektionssystem, das hier beschrieben ist, und das computergesteuerte System, auf dessen Messwerte das Anomaliedetektionssystem angewendet wird, umfasst. Zum Beispiel kann das System eine Fertigungsanlage, ein Roboter usw. sein.
  • Für Fachleute selbstverständlich können zwei oder mehr der oben erwähnten Ausführungsformen, Implementierungen und/oder optionalen Aspekte der Erfindung in einer beliebigen als nützlich erachteten Art kombiniert werden. Abwandlungen und Varianten eines beliebigen Systems und/oder eines beliebigen computerlesbaren Mediums, die den beschriebenen Abwandlungen und Varianten eines entsprechenden computer-implementierten Verfahrens entsprechen, können durch Fachleute auf der Grundlage der vorliegenden Beschreibung ausgeführt werden.
  • Kurzbeschreibung der Zeichnungen
  • Diese und weiterer Aspekte der Erfindung werden unter Bezugnahme auf die Ausführungsformen, die in der folgenden Beschreibung beispielhaft beschrieben sind, und unter Bezugnahme auf die begleitenden Zeichnungen deutlich und ferner erläutert; es zeigen:
    • 1 ein System zum Detektieren von Anomalien;
    • 2 ein genaues Beispiel einer Grundursachenanalyse;
    • 3a ein genaues Beispiel des Detektierens von Anomalien in Sensordaten;
    • 3b ein genaues Beispiel von Sensordaten mit detektierten Anomalien;
    • 4 ein genaues Beispiel des Bestimmens einer Ursächlichkeit in Sensordaten;
    • 5 ein genaues Beispiel bestimmter Ursächlichkeitsindikatoren;
    • 6 ein computer-implementiertes Verfahren zum Detektieren von Anomalien;
    • 7 ein computerlesbares Medium, das Daten umfasst.
  • Es ist festzuhalten, dass die Figuren rein schematisch und nicht maßstabsgerecht gezeichnet sind. In den Figuren können Elemente, die Elementen entsprechen, die bereits beschrieben wurden, dieselben Bezugszeichen tragen.
  • Genaue Beschreibung von Ausführungsformen
  • 1 zeigt ein Anomaliedetektionssystem 100. Das System 100 kann zum Detektieren von Anomalien in Sensormesswerten einer physikalischen Größe dienen.
  • Das System 100 kann eine Datenschnittstelle 120 umfassen. Die Datenschnittstelle kann zum Zugreifen auf Gewichte für Sensormesswerte und/oder verschiedene weitere Daten dienen, wie hier beschrieben ist. Zum Beispiel kann, wie auch in 1 veranschaulicht ist, die Datenschnittstelle durch eine Datenspeicherschnittstelle 120 gebildet sein, die auf die Daten von einem Datenspeicher 021 zugreifen kann. Zum Beispiel kann die Datenspeicherschnittstelle 120 eine Speicherschnittstelle oder eine beständige Speicherschnittstelle, z. B. eine Festplatten- oder eine SSD-Schnittstelle, jedoch auch ein Schnittstelle eines persönlichen, eines lokalen oder eines Großraumnetzes wie z. B. eine Bluetooth-, Zigbee- oder Wi-Fi-Schnittstelle oder eine Ethernet- oder Faseroptik-Schnittstelle sein. Der Datenspeicher 021 kann ein interner Datenspeicher des Systems 100 wie z. B. eine Festplatte oder ein SSD, jedoch auch ein externer Datenspeicher, z. B. ein netzzugänglicher Datenspeicher, sein. In einigen Ausführungsformen kann auf die Daten jeweils von einem verschiedenen Datenspeicher, z. B. mittels eines verschiedenen Untersystems der Datenspeicherschnittstelle 120, zugegriffen werden. Jedes Untersystem kann von einem Typ sein, der oben für die Datenspeicherschnittstelle 120 beschrieben ist.
  • Das System 100 kann ferner ein Prozessoruntersystem 140 umfassen, das konfiguriert sein kann, während des Betriebs des Systems 100 jeweilige Gewichte für jeweilige Sensormesswerte der physikalischen Größe zu bestimmen. Das Prozessoruntersystem 140 kann konfiguriert sein, die Gewichte durch Maximieren einer Diskrepanz zwischen den Messdaten und einer Mischungsverteilung, die durch Neugewichten der Sensormesswerte gemäß den Gewichten erhalten wird, zu bestimmen. Das Prozessoruntersystem 140 kann konfiguriert sein, die jeweiligen Gewichte als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte auszugeben. Zum Beispiel können die Gewichte zu einem Anwender oder zu einem Modul, das eine zusätzliche Verarbeitung auf der Grundlage der Gewichte, z. B. ein Bestimmen eines Ursächlichkeitsindikators, durchführt, ausgegeben werden.
  • Das System 100 kann ferner eine Sensorschnittstelle 160 umfassen, um auf Messdaten 124 zuzugreifen, die mehrere Sensormesswerte einer oder mehrerer physikalischer Größen, insbesondere der physikalischen Größe, deren Anomalien detektiert werden; einer weiteren physikalischen Größe, an der eine ursächliche Wirkung ermittelt werden kann; und/oder eines Satzes physikalischer Grö-ßen, unter denen eine ursächliche Beziehung und ihre Richtung bestimmt werden kann, umfassen. Die Messdaten 124 können ein oder mehrere Sensoren 071 in einer Umgebung 081 des Systems 100 sein. Der eine oder die mehreren Sensoren können in der Umgebung 081 angeordnet sein, können jedoch auch entfernt von der Umgebung 081 angeordnet sein, z. B. dann, wenn die eine oder die mehreren Größen entfernt gemessen werden können. Der eine oder die mehreren Sensoren 071 können aber müssen nicht Teil des Systems 100 sein. Der eine oder die mehreren Sensoren 071 können eine beliebige geeignete Form wie z. B. einen Bildsensor, einen Lidarsensor, einen Radarsensor, einen Drucksensor, einen Behältertemperatursensor usw. aufweisen. In einigen Ausführungsformen können die Sensordaten 124 Sensormesswerte verschiedener physikalischer Größen umfassen, dahingehend, dass sie von zwei oder mehr verschiedene Sensoren, die verschiedene physikalische Größen erfassen, erhalten werden können.
  • Die Sensordatenschnittstelle 160 kann eine beliebige geeignete Form, deren Typ dem Typ eines Sensors entspricht, aufweisen, die eine Schnittstelle zur Kommunikation auf niedriger Ebene, z. B. auf der Grundlage von I2C- oder SPI-Datenkommunikation, oder eine Datenspeicherschnittstelle eines Typs, der oben für die Datenschnittstelle 120 beschrieben ist, enthält, jedoch nicht darauf beschränkt ist.
  • In verschiedenen Ausführungsformen kann das System 100 eine Ausgabeschnittstelle 180 zum Ausgeben von Daten auf der Grundlage der jeweiligen Gewichte umfassen. Zum Beispiel kann, wie in der Figur veranschaulicht ist, die Ausgabeschnittstelle durch eine Aktorschnittstelle 180 zum Liefern von Steuerdaten 126 zu einem oder mehreren Aktoren (die nicht gezeigt sind) in der Umgebung 082 gebildet sein. Derartige Steuerdaten 126 können durch das Prozessoruntersystem 140 erzeugt werden, um den Aktor auf der Grundlage bestimmter Gewichte und insbesondere auf der Grundlage eines bestimmten Ursächlichkeitsindikators zu steuern. Zum Beispiel kann das System 100 ein datengetriebenes Steuersystem zum Steuern eines physischen Systems sein. Der Aktor kann Abschnitt eines Systems 100 sein. Zum Beispiel kann der Aktor ein elektrischer, hydraulischer, pneumatischer, thermischer, magnetischer und/oder mechanischer Aktor sein. Spezifische jedoch nicht einschränkende Beispiele enthalten Elektromotoren, elektroaktive Polymere, Hydraulikzylinder, piezoelektrische Aktoren, pneumatische Aktoren, Servomechanismen, Solenoide, Schrittmotoren usw. Ein derartiger Typ einer Steuerung ist auch unter Bezugnahme auf 2 beschrieben.
  • In weiteren Ausführungsformen (die in 1 nicht gezeigt sind) kann das System 100 eine Ausgabeschnittstelle zu einer Rendereinrichtung wie z. B. einer Anzeigevorrichtung, einer Lichtquelle, einem Lautsprecher, einem Schwingungsmotor usw. umfassen, die verwendet werden kann, um ein sensorisch wahrnehmbares Ausgabesignal zu erzeugen, das auf der Grundlage der bestimmten Gewichte erzeugt werden kann. Das sensorisch wahrnehmbare Ausgabesignal kann die Gewichte direkt angeben, kann jedoch auch ein hergeleitetes sensorisch wahrnehmbares Ausgabesignal repräsentieren, z. B. zur Verwendung in Führung, Navigation oder einem weiteren Typ der Steuerung des physischen Systems. Zum Beispiel kann das Ausgabesignal ein Alarm sein, der ausgegeben wird, wenn ein bestimmtes Gewicht einen Schwellenwert überschreitet. Die Ausgabeschnittstelle kann auch durch die Datenschnittstelle 120 gebildet sein, wobei die Schnittstelle in diesen Ausführungsformen eine Eingabe-/Ausgabe-Schnittstelle (‚IO‘-Schnittstelle) ist, mittels der die bestimmten Gewichte oder eine Ausgabe, die aus den Gewichten hergeleitet wird, im Datenspeicher 021 gespeichert werden können. In einigen Ausführungsformen kann die Ausgabeschnittstelle von der Datenspeicherschnittstelle 120 getrennt sein, kann jedoch im Allgemeinen von einem Typ sein, der oben für die Datenspeicherschnittstelle 120 beschrieben ist.
  • Im Allgemeinen kann jedes System, das in dieser Spezifikation beschrieben ist, das das System 100 von 1 enthält, jedoch nicht darauf beschränkt ist, als eine einzelne Einrichtung oder Vorrichtung wie z. B. eine Workstation oder ein Server oder darin verkörpert sein. Die Einrichtung kann eine integrierte Einrichtung sein. Die Einrichtung oder die Vorrichtung kann einen oder mehrere Mikroprozessoren umfassen, die eine geeignete Software ausführen. Zum Beispiel kann das Prozessoruntersystem des jeweiligen Systems durch eine einzelne Zentraleinheit (CPU), jedoch auch durch eine Kombination oder ein System derartiger CPUs und/oder weiterer Typen von Verarbeitungseinheiten verkörpert sein. Die Software kann in einen entsprechenden Speicher, z. B. ein flüchtiger Speicher wie z. B. RAM oder ein nichtflüchtiger Speicher wie z. B. Flash, heruntergeladen und/oder gespeichert worden sein. Alternativ kann das Prozessoruntersystem des jeweiligen Systems in der Einrichtung oder der Vorrichtung in Form einer programmierbaren Logik, z. B. als ein feldprogrammierbares Gate-Array (FPGA), implementiert sein. Im Allgemeinen kann jede Funktionseinheit des jeweiligen Systems in Form einer Schaltung implementiert sein. Das jeweilige System kann auch in einer verteilten Weise implementiert sein, z. B. verschiedene Einrichtungen oder Vorrichtungen wie z. B. verteilte, lokale oder cloudbasierte Server einbeziehen. In einigen Ausführungsformen kann das System 100 Teil eines Fahrzeugs, eines Roboters oder einer ähnlichen physischen Einheit sein und/oder kann ein Steuersystem repräsentieren, das konfiguriert ist, die physische Einheit zu steuern.
  • 2 zeigt ein computergesteuertes System 200, das ein Anomaliedetektionssystem 210 z. B. auf der Grundlage eines Anomaliedetektionssystems 100 von 1 umfasst.
  • In diesem Beispiel ist das computergesteuerte System eine Produktionslinie. Die Figur zeigt ein Produkt, das in mehreren jeweiligen Stufen, die z. B. jeweiligen Stationen der Produktionslinie entsprechen, hergestellt wird. Als ein veranschaulichendes Beispiel zeigt die Figur drei Stationen 201-203 der Produktionslinie, bei denen drei Beispiele 221-223 des Produkts, das hergestellt werden soll, verarbeitet werden. Eine oder mehrere jeweilige Stationen können z. B. durch jeweilige Fertigungsroboter implementiert sein.
  • Die Figur zeigt das ferner Anomaliedetektionssystem 210, das Messdaten 224 der Produktionslinie erhält. Die Messdaten können Messwerte einer oder mehrerer physikalischer Größen umfassen. Zum Beispiel können die physikalischen Größen physikalische Größen der Produkte 221-223, physikalische Eingangs- oder Ausgangsgrößen der Stationen 201-203 und/oder physikalische Größen der Umgebung, in der das System 200 arbeitet, umfassen. Die Daten können durch die Fertigungsroboter 201-203 und/oder außerhalb der Fertigungsroboter, z. B. durch einen oder mehrere externe Sensoren, gemessen werden.
  • Auf der Grundlage der Messdaten kann das Anomaliedetektionssystem Gewichte bestimmen, die Ausreißerwahrscheinlichkeiten entsprechendes Sensormesswerte angeben. Die bestimmten Gewichte können im System 200 auf verschiedene Arten verwendet werden.
  • Insbesondere können, wie in der Figur veranschaulicht ist, die Gewichte verwendet werden, um Aktordaten 226 zum Beeinflussen der Operation eines computergesteuerten Systems, in diesem Beispiel der Produktionslinie, herzuleiten.
  • Insbesondere können die Gewichte verwendet werden, um einen Ursächlichkeitsindikator zu bestimmen, der eine ursächliche Wirkung einer ersten physikalischen Größe der Messdaten 224 auf eine zweite physikalische Größe der Messdaten 224 angibt. Zum Beispiel kann der Ursächlichkeitsindikator zu einem Ursächlichkeitsindikator in der weiteren Richtung verglichen werden, um die Richtung der ursächlichen Beziehung zwischen den Größen zu bestimmen. Interessanterweise kann ein Bestimmen, dass die erste physikalische Größe eine ursächliche Wirkung auf die zweite physikalische Größe besitzt, ermöglichen, dass das System 200 das System 200 steuert, um die erste physikalische Größe zu beeinflussen. Insbesondere kann das System 210 ein datengetriebenes Steuersystem sein, z. B. kann das System 210 einen Eingriff auf der Grundlage der Kennung der ersten physikalischen Größe automatisch bestimmen, z. B. um einen vorab festgelegten Betriebsbereich zu erreichen.
  • Insbesondere kann der Ursächlichkeitsindikator in einer Grundursachenanalyse eines Fehlers, in diesem Fall der Produktionslinie, verwendet werden. Zum Beispiel kann der Fehler ein Systemfehler oder ein Fehler in einer Qualitätsprüfung der Produktionslinie sein. Durch Durchführen einer Fehlerbaumanalyse oder eines weiteren Typs einer Grundursachenanalyse kann der Fehler zurück zu einer oder mehreren bestimmten Stufen oder Stationen der Produktionslinie zurückverfolgt werden. Zum Beispiel können die Stufen ein Anstrich- und/oder eine Schweißstufe enthalten. Entsprechend können die geschaffenen Techniken verwendet werden, um eine Relevanz jeweiliger Stufen für Aspekte des Fehlers, z. B. Aspekte des Systems oder der Qualitätsprüfung, zu identifizieren. Wie in der Figur veranschaulicht ist, kann, nachdem der Fehler zu einer Station, in diesem Beispiel der Station 202 zurückverfolgt worden ist, das System 210 konfiguriert sein, Aktordaten 226 zu bestimmen, um den Betrieb der identifizierten Station 202 darauf abzielend, den Fehler zu beheben, zu beeinflussen.
  • Eine derartige Grundursachenanalyse kann insbesondere einen Ursachengraphen als Grundlage verwenden. Ein Ursachengraph kann mehrere Knoten umfassen, die jeweilige Faktoren darstellen, die möglicherweise ein Ergebnis, z. B. ein Ergebnis der Qualitätsprüfung, beeinflussen. Zum Beispiel kann die Anzahl von Knoten des Graphen mindestens 3, mindestens 5 oder mindestens 10 sein. Kanten können ursächliche Beziehungen zwischen den Faktoren, die durch die Knoten repräsentiert werden, repräsentieren.
  • An sich sind verschiedene Techniken bekannt, die beim Bestimmen eines Ursachengraphen verwendet werden können. Bestehende Techniken können verwendet werden, um einen Graphen zu bestimmen, der eine oder mehrere ungerichtete Kanten wahlweise in Kombination mit einer oder mehreren gerichteten Kanten aufweist. Zum Beispiel können bestehende Techniken verwendet werden, um einen Graphen zu bestimmen, der angibt, dass eine ursächliche Beziehung zwischen einem Paar Knoten vorhanden ist, jedoch nicht, in welche Richtung. Ein derartiger Graph ist auch als eine Markov-Äquivalenzklasse bekannt. Beispiele von Algorithmen, die verwendet werden können sind der Peter-Clark-Algorithmus (PC-Algorithmus) und der schnelle Ursachenrückschluss-Algorithmus (FCI-Algorithmus). Siehe z. B. Thuc Duy Le u. a. „A fast PC algorithm for high dimensional causal discovery with multi-core PCs“, arXiv:1502.02454 (die hier hier durch Bezugnahme aufgenommen ist) und TS Verma u. a. „Equivalence and Synthesis of Causal Models“, Proceedings UAI'90 (die hier durch Bezugnahme aufgenommen ist). Zum Beispiel kann gemäß bestehenden Techniken ein teilweise ungerichteter Graph von Faktoren erhalten und durch iteratives Entfernen und/oder Orientieren von Kanten aktualisiert werden. Die Techniken, die hier beschrieben sind, können z. B. in Kombination mit derartigen Techniken verwendet werden, um die Orientierung einer Kante, die einer bestimmten ursächlichen Beziehung entspricht, bereitzustellen.
  • Ein Ursachengraph kann verwendet werden, um eine wirksame Intervention am computergesteuerten System 200 automatisch zu bestimmen. Insbesondere kann die Intervention durch Durchführen einer kontrafaktischen Analyse an einem Fehlerfall bestimmt werden, um einen oder mehrere Faktoren, die zu dem Fehler beitragen, zu identifizieren, z. B. auf der Grundlage des Änderns dieser Faktoren und Durchführen eines Rückgriffs, z. B. eines Prüfens, dass ein Wiederholen des Szenarios den Fehler beseitigt. Konkret können in der Fertigungsanlage 200 angefertigte Teile 221-223 einem Satz einer oder mehrerer Qualitätsprüfungen am Ende der Produktionslinie unterzogen werden. Wenn ein Teil 221-223 eine bestimmte Qualitätsprüfung nicht besteht, kann die kontrafaktischen Analyse verwendet werden, um die Station 202, die für diesen Fehler verantwortlich ist, genau festzulegen. Die bestimmte Intervention kann z. B. zu einem Anwender oder zu einem Steuersystem für automatische Anwendung ausgegeben werden.
  • Insbesondere kann die kontrafaktische Analyse ein Bestimmen einer Schätzung einer A-posteriori-Verteilung an einem oder mehreren nicht beobachteten (z. B. Umgebungs-)Faktoren einer oder mehrerer beobachteter Größen (z. B. Prüf- und/oder Stationsmesswerte) als Grundlage verwenden. Unter Verwendung eines Ursachengraphen kann eine derartige Schätzung in einer rechnerisch effizienteren Art erzeugt werden. Wenn die A-posteriori gegeben ist, kann das Szenario unter der Annahme eines geänderten Verhaltens für eine oder mehrere Stationen, die als eine oder mehrere ursächliche Wirkungen aufweisend identifiziert wurden, neu simuliert werden und kann eine Wirkung der Intervention z. B. durch Prüfen, ob die Intervention verursacht, dass das Teil die Prüfung, die es zuvor nicht bestanden hat, nun besteht, bestimmt werden.
  • In einer Grundursachenanalyse ist es besonders vorteilhaft, in der Lage zu sein, nicht reellwertige Daten als einen oder mehrere der Sensormesswerte zu verwenden, die analysiert werden. Zum Beispiel können einer oder mehrere der Sensormesswerte, für die ein Ursachengraph bestimmt wird, kategorisch oder binär sein. Zum Beispiel kann ein Sensormesswert ein Ergebnis einer Qualitätsprüfung repräsentieren, das z. B. kategorisch als Ampelmerker oder dergleichen repräsentiert wird oder binär als ein Bestanden/Gescheitert-Merker für ein hergestelltes Teil repräsentiert wird. Einer oder mehrere der Sensormesswerte können auch Bilddaten, z. B. eines Bilds, das nach einem bestimmten Schritt des Produktionsprozesses aufgenommen wird, sein. Zum Beispiel kann eine Sensormesswert eine Licht- oder Farbintensität auf Pixelebene repräsentieren.
  • Neben der Grundursachenanalyse besitzt die Anomaliedetektion und/oder Ursachenanalyse, die hier beschrieben ist, auch verschiedene weitere Anwendungen im Kontext computergesteuerter Systeme. Insbesondere kann die Anomaliedetektion verwendet werden, um einen Alarm z. B. zu einem menschlichen Anwender oder zu einem weiteren System auszugeben, wenn ein bestimmtes Gewicht einen Schwellenwert überschreitet. Entsprechend kann die diskutierte Anomaliedetektion verwendet werden, um genauere Alarme zu bestimmen und/oder Warnungen für Arten von Sensoren zu bestimmen, wofür weitere Anomaliedetektionstechniken nicht gut geeignet sind, z. B. Nichtgleitkommasensordaten. Eine weitere Anwendung ist, einen bestimmten Ursächlichkeitsindikator oder Daten, die aus ihm hergeleitet werden, zur Verwendung im Entwurf von Experimenten durch Bereitstellen von Informationen über relevante Größen, die im System variiert werden sollen, auszugeben. Im Allgemeinen können durch Bereitstellen von Informationen über den wahren Datenerzeugungsprozess in der ursächlichen Richtung die geschaffenen Techniken einen Domänenexperten befähigen, mit den korrekten und relevanten Signalen das Verhalten eines Systems zu steuern oder die echte Ursache eines unerwünschten Verhaltens, z. B. ein Systemfehler, zu identifizieren.
  • Obwohl die Techniken, die in dieser Figur unter Bezugnahme auf ein Herstellungssystem gezeigt sind, ist dies keine Einschränkung. Die geschaffenen Techniken können auf einen großen Bereich computergesteuerter Systeme angewendet werden, z. B. kann das System 210 ein Fahrzeugsteuersystem, eine Steuereinheit eines Haushaltsgeräts oder eines Elektrowerkzeugs; ein Robotiksteuersystem, ein Fertigungssteuersystem oder ein Gebäudesteuersystem sein. Außerdem können die verwendeten Sensormesswerte 224 durch verschiedene Typen eines Sensors gemessen werden. Zum Beispiel können die Sensormesswerte 224 Messungen durch einen Bildsensor, z. B. Videodaten, Radardaten, LiDAR-Daten, Ultraschalldaten, Bewegungsdaten oder thermische Bilddaten, und/oder durch einen Audiosensor umfassen. Kernelfunktionen, die an derartigen Typen von Messwerten arbeiten, sind an sich bekannt.
  • 3a zeigt ein genaues, jedoch nicht einschränkendes Beispiel des Detektierens von Anomalien in Sensormesswerten. Die Anomaliedetektion kann zum Bestimmen eines Ursächlichkeitsindikators verwendet werden, wie z. B. in Bezug auf 4 diskutiert wurde, kann jedoch auch für weitere Zwecke durchgeführt werden, z. B. um einen Alarm auszugeben, falls eine Anomalie gefunden wird.
  • In der Figur ist eine Erfassungsoperation ACQ, 310, gezeigt, in der Messdaten 315 erhalten werden können, die mehrere Sensormesswerte einer physikalischen Größe umfassen. Die Messdaten können als ein Satz von N Abtastwerten { ( x i , y i ) } i = 1 N
    Figure DE102022209542A1_0001
    bezeichnet werden. Wie auch an anderer Stelle diskutiert wird, sind verschiedene Typen eines Sensormesswerts, z. B. digitale Bilder, z. B. Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs- oder Wärmebilder; Audiosignale oder weitere Datentypen, an denen ein Kernel definiert werden kann, möglich. Die Erfassung kann eine Vorverarbeitung der Messwerte umfassen; z. B. kann der Datensatz unter Verwendung eine ausreißerrobusten Skalierungsvorgangs wie z. B. Sklearn's RobustScaler standardisiert werden.
  • Im Allgemeinen sind verschiedene Typen von Sensormesswerten möglich. Die Sensormesswerte können reellwertig sein oder nicht, z. B. können die Sensormesswerte kategorische Werte (die z. B. durch Quantisierung oder Indizieren erhalten werden) oder Binärwerte sein. Ein Sensormesswert kann auch ein Vektor mehrerer Werte, z. B. mindestens zwei oder mindestens drei Werte, sein. Zum Beispiel können die Vektorwerte reellwertig sein, z. B. eine Richtungsgeschwindigkeit oder ein Gradient, jedoch kann der Vektor auch einen oder mehrere nicht reellwertige Werte enthalten. Insbesondere können jeweilige Sensormesswerte jeweilige Zeitreihen repräsentieren, z. B. kann eine Zeitzeit als ein einzelnes multivariates Objekt, an dem z. B. ein Zeitreihenkern wie z. B. ein globaler Ausrichtungskern definiert werden kann, betrachtet werden.
  • Als ein optionaler nächster Schritt kann ein Entnahmeschritt Extr, 320, durchgeführt werden, wobei eine Untermenge 325 von Abtastwerten aus den Messdaten bestimmt wird, für die Gewichte bestimmt werden. Dieser Satz wird auch als der Kernsatz px,M bezeichnet. Weitere Schritte, die hier beschrieben sind, wie z. B. das Trainieren von Modellen für maschinelles Lernen und/oder das Bestimmen einer Modelluneinigkeit können immer noch an den gesamten Messdaten durchgeführt werden. Durch Bestimmen von Gewichten für lediglich eine Untermenge von Abtastwerten kann die Effizienz des Gewichtsbestimmungsschritts auf Kosten des nicht Lernens von Gewichten für jeden Abtastwert wesentlich verbessert werden.
  • Insbesondere können verschiedene Implementierungen der Gewichtsbestimmungsoperation, die hier beschrieben ist, hinsichtlich der Anzahl von Gewichten, die bestimmt werden sollen, quadratisch skalieren. Durch Durchführen einer Entnahme Extr, kann die gewichtete Verteilung p x , N α ,
    Figure DE102022209542A1_0002
    die hier beschrieben ist, auf eine kleinere Anzahl von Abtastwerten M << N beschränkt sein, die mindestens teilweise zufällig aus dem ursprünglichen Datensatz entnommen werden. Entsprechend können eine Untermenge von M Abtastwerten px,M und eine entsprechende gewichtete Version px,M davon erhalten werden. Die Größe des empirischen Bezugsverteilung px,N muss die Dimensionalität des Optimierungsproblems des Bestimmens der Gewichte nicht beeinflussen und kann somit nach Bedarf wachsen, z. B. in Gram-Matrixrechengrenzen. Es werden mehrere Gewichte bestimmt; z. B. kann ungeachtet davon, ob eine Entnahme durchgeführt wird, die Anzahl von Sensormesswerten, für die ein Gewicht bestimmt wird, z. B. höchstens oder mindestens 100, höchstens oder mindestens 1000 oder höchstens oder mindestens 10000 sein. Der ursprüngliche Datensatz kann größer sein, kann z. B. mindestens 100000 oder mindestens 1000000 Messwerte umfassen.
  • Wie die Untermenge zu wählen ist und ob dies vorteilhaft ist oder nicht, hängt von der Anwendung ab. Zum Beispiel kann dann, wenn ein Ursächlichkeitsindikator bestimmt wird, ein Durchführen einer Entnahme Extr vorteilhaft sein, da in diesem Fall die Qualität des bestimmten Indikators nicht wesentlich vermindert werden muss, jedoch die Leistungsfähigkeit verbessert wird. In diesem Fall kann die Untermenge mindestens teilweise zufällig bestimmt werden. Wenn eine Anomaliedetektion an sich durchgeführt wird, z. B. um einen Alarm auszugeben, ist es möglich, z. B. eine Entnahmeoperation Extr zu verwenden, um eine Untermenge zu wählen, die die jüngsten Messwerte sowie eine zufällige Auswahl früherer Messwerte enthält; oder kann die Anomaliedetektion auf der Grundlage des gesamten Verlaufs erfolgen; oder kann sie die jüngsten Sensormesswerte z. B. eine feste Anzahl oder aus einem festen Zeitraum als Grundlage verwenden.
  • Als konkretes Beispiel kann der Kernsatz
    Figure DE102022209542A1_0003
    derart gewählt werden, dass er die Verteilung des ursprünglichen Satzes repräsentiert. Dies kann z. B. auf der Grundlage einer Kerndichteschätzung (KDE) an den Werten der physikalischen Größe erfolgen. Zum Beispiel können eine Anzahl seltener Abtastwerte, z. B. eine feste Anzahl von k Abtastwerten, oder Abtastwerte mit einer Wahrscheinlichkeit, die kleiner als ein bestimmter Schwellenwert p ist, z. B. p = 0,05, enthalten sein. Mehrere Abtastwerte können zufällig gewählt werden, z. B. M - k Abtastwerte. Diese letztgenannte zufällige Auswahl kann z. B. mehrfach durchgeführt werden, wobei die gewählte Untermenge derart gewählt ist, dass sie für den Datensatz repräsentativ ist, z. B. die minimale MMD zum ursprünglichen Satz aufweist. Es kann erwähnt werden, dass für ausreichend kleine Datensätze die oben beschriebene Prozedur automatisch im ursprünglichen Satz resultieren kann.
  • Ferner ist in der Figur eine Gewichtsbestimmungsoperation WDet, 330, gezeigt. Die Gewichtsbestimmungsoperation WDet kann konfiguriert sein, jeweilige Gewichte p x , M α ¯
    Figure DE102022209542A1_0004
    für jeweilige Sensormesswerte zu bestimmen. Die Gewichte können durch Maximieren einer Differenz der Wahrscheinlichkeitsverteilung zwischen den Messdaten px,M und einer Mischungsverteilung, die durch Neugewichten der Sensormesswerte gemäß den Gewichten erhalten wird, bestimmt werden. Mit anderen Worten kann mit gegebenen Abtastwerten { x n } n = 1 N
    Figure DE102022209542A1_0005
    der Gewichtsvektor α kann derart bestimmt werden, dass er die Mischungsverteilung p x , N α
    Figure DE102022209542A1_0006
    px,N gemäß einem Diskrepanzmaß D(·,·) maximal verschieden von px,N rendert. Die Gewichte können als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte z. B. in Form des Ausgebens der Mischungsverteilung 335, die die Gewichte einbezieht, ausgegeben werden.
  • Unter Verwendung der Mischungsverteilung können Schwankungen in die Randverteilungen eingebracht werden. Wie oben diskutiert wurde, können unter Verwendung derartiger Schwankungen mögliche Abhängigkeiten zwischen der Randverteilung und der entsprechenden bedingten Verteilung offenbart werden. Es ist festzuhalten, dass dies nicht notwendigerweise eine ähnliche Dynamik eines Eingriffs beibehält.
  • Insbesondere kann die Mischungsverteilung als eine gewichtete Dirac-Mischungsverteilung definiert sein. Insbesondere können mit einem gegeben Dx mit einem unbekannt Rand px die ursprünglichen Sensormesswerte mit der empirischen Verteilung an diesen Abtastwerten, die als die gleichförmige Mischung der Dirac-Deltaverteilungen δxn , die an den jeweiligen Abtastwerten definiert ist, definiert sind, identifiziert werden, z. B.: p x , N ( x ) = 1 N n = 1 N δ ( x x n ) = 1 N n = 1 N δ x n .
    Figure DE102022209542A1_0007
  • Dies kann als eine Wahrscheinlichkeitsdichtefunktion mit einer entsprechenden diskreten empirischen kumulierten Verteilungsfunktion FN(x) (eCDF), die am Abtastwertesatz als F N ( x ) = 1 N n = 1 N 1 x n x
    Figure DE102022209542A1_0008
    definiert ist, betrachtet werden, wobei 1(.) die Indikatorfunktion ist und die Ungleichheit eintragsweise gilt.
  • Auf der Grundlage dieser Definition der Messdaten kann die Mischungsverteilung, die aus den Sensormesswerten gemäß den Gewichten erhalten wird, als eine Verallgemeinerung der empirischen Verteilung, insbesondere als eine gewichtete Mischung einzelner Dirac-Verteilungen δxn , die durch p x , N α
    Figure DE102022209542A1_0009
    bezeichnet werden, erhalten werden, z. B.: p x , N α ( x ) = n = 1 N α n δ x n
    Figure DE102022209542A1_0010
    wobei α = [ α n ] n = 1 N [ 0,1 ] N × 1
    Figure DE102022209542A1_0011
    ein nichtnegativer Gewichtsvektor ist, der 1α = 1 erfüllt, wobei 1 der ausschließlich mit eins belegte Vektor ist.
  • Die Gewichte können durch Maximieren der Diskrepanz zwischen den Sensormesswerten und der Mischungsverteilung erhalten werden. Diese Diskrepanz kann eine kernelbasierte Diskrepanz sein, die in Bezug auf eine positiv definite Kernelfunktion k X : X 2
    Figure DE102022209542A1_0012
    definiert ist. Wenn er definiert ist, kann der Kernel k X
    Figure DE102022209542A1_0013
    jegliche Einschränkung des Datenraums
    Figure DE102022209542A1_0014
    aufheben. Speziell kann die Diskrepanz die maximale durchschnittliche Diskrepanz (MMD) als Grundlage verwenden. Die MMD ist unter anderen Gründen wegen ihrer analytischen Formbarkeit vorteilhaft.
  • Bei einem gegebenen Kernel k kann die MMD als eine Norm in einem reproduzierenden Hilbert-Kernelraum (RKHS)
    Figure DE102022209542A1_0015
    zwischen den Kerneleinbettungen der Verteilungen ausgedrückt werden: MMD k 2 ( p , q ) = μ p μ q H 2
    Figure DE102022209542A1_0016
    wobei µp und µq die durchschnittlichen Einbettungen von p bzw. q in den Hilbert Raum
    Figure DE102022209542A1_0017
    durch die Merkmalsabbildung k(x,.) sind. Abhängig von den vorliegenden Daten können verschiedene Kerne verwendet werden; eine gute Standardwahl ist der quadrierte exponentielle Kerne k(x, x̃) = exp(-||x - x̃||2/2σ2), wobei σ eine Längenskala ist. Zum Beispiel kann die Längenskala unter Verwendung einer Schätzung einer maximalen Wahrscheinlichkeit gewählt werden, z. B. unter Verwendung eines Kerndichteschätzers an einem k-fachen Kreuzvalidierungsprüfschemas, z. B. mit k = 5.
  • Insbesondere kann die Diskrepanz eine quadrierte maximale durchschnittliche Diskrepanz als Grundlage verwenden. Ein Vorteil der quadrierten MMD ist, dass sie einen analytisch formbaren empirischen Schätzer einer quadratischen Form aufweist, der durch Folgendes gegeben ist: MMD k 2 ( p , q ) 1 N 2 i , j = 1 N k ( x i , x j ) 2 N M i , j = 1 N , M k ( x i , y j ) + 1 M 2 i , j = 1 M k ( y i , y j ) ,
    Figure DE102022209542A1_0018
    wobei { x i } i = 1 N  und  { y i } i = 1 M
    Figure DE102022209542A1_0019
    endliche Abtastwertesätze sind, die aus p bzw. q entnommen werden.
  • Insbesondere kann die quadrierte MMD-Diskrepanz zwischen den Messdaten, mit anderen Worten der empirischen Verteilung px,N; und der Mischungsverteilung, mit anderen Worten der gewichteten Version der empirischen Verteilung p x , N α ,
    Figure DE102022209542A1_0020
    berechnet werden, wie folgt: MMD k 2 ( p x , N α , p x , N ) α T K x x α 2 N α T K x x 1 + 1 N 2 1 T K x x 1
    Figure DE102022209542A1_0021
    wobei K x x = [ k ( x i , x j ) ] i , j = 1 N
    Figure DE102022209542A1_0022
    Kxx die Gram-Matrix des Kernels k am Abtastwertesatz
    Figure DE102022209542A1_0023
    ist.
  • Auf der Grundlage der quadrierten MMD als ein Diskrepanzmaß kann die Aufgabe, die Diskrepanz zwischen den Messdaten und der Mischungsverteilung zu maximieren mathematisch angegeben werden als: maximiere α  MMD k X 2 ( p x , N α , p x , N )
    Figure DE102022209542A1_0024
    abhängig von 1α = 1 α     0 ( eintragweise )
    Figure DE102022209542A1_0025
  • Es kann erwähnt werden, dass trotz einer Konvexität der Aufgabe (da MMD in beiden Argumenten gemeinsam konvex ist) und einer Linearität beider Abhängigkeiten, das Optimierungsproblem, wie es oben formuliert ist, nichtkonvex bleibt. Dies ist auf die Tatsache zurückzuführen, dass die konvexe Aufgabe maximiert statt minimiert wird, was die Aufgabe in der Normform eines konvexen Optimierungsproblems zu einer konkaven Funktion macht.
  • Interessanterweise kann das Optimierungsproblem noch effizient gelöst werden, indem eine semidefinite Relaxation angewendet wird. Insbesondere kann, wenn beachtet wird, dass der Schätzer in geschlossener Form der quadrierten MMD in der Optimierungsvariable α eine quadratische Form aufweist, die semidefinite Relaxation als eine zweistufige Prozedur angewendet werden. Zunächst kann das Optimierungsproblem auf einen höherdimensionalen Raum gehoben werden, z. B. durch Definieren von A = αα, was die Zielfunktion linear gestalten kann. Dann kann eine konvexe Relaxation auf die unlösbaren Einschränkungen angewendet werden. Für das oben beschriebene Maximierungsproblem kann die folgende Relaxation erhalten werden, die in Form eines quadratisch beschränkten quadratischen Programms (QCQP) vorliegt: maximiere A   A · ( K x x 2 N K x x 11 T ) + 1 N 2 1 T K x x 1
    Figure DE102022209542A1_0026
    unterwerfen zu [ A A 1 1 T A 1 ] 0 ;
    Figure DE102022209542A1_0027
    (positiv semidefinit) A 0 ; ( eintragsweise )
    Figure DE102022209542A1_0028
    1 T A 1 = 1 '
    Figure DE102022209542A1_0029
    A = A T ;
    Figure DE102022209542A1_0030
    wobei K x x = [ k X ( x , x ˜ ) ] x , x ˜ D x
    Figure DE102022209542A1_0031
    die Gram-Matrix ist und · das Skalarprodukt in dem Matrixraum, der als A · Kxx = trace(AKxx) definiert ist, bezeichnet. Techniken zum effizienten Lösen von QCQPs sind an sich im Stand der Technik bekannt und können hier angewendet werden; siehe z. B. die Software-Bibliothek cvxpy, die in S. Diamant u. a. „CVXPY: A Python-embedded modeling language for convex optimization“, Journal of Machine Learning Research, 2016, beschrieben ist.
  • Die Gewichte können auf der Grundlage der Lösung zur semidefiniten Relaxation bestimmt werden. In der oben beschriebenen Formulierung kann die Lösung ASDR als eine optimale Lösung des ursprünglichen Maximierungsproblem garantiert werden, z. B. ASDR = A*, wenn die Bedingung A* = α*α* erfüllt ist, insbesondere dann, wenn ASDR vom Rang eins ist. Dies kann insbesondere der Fall sein, wenn ASDR eine mögliche Lösung des ursprünglichen Optimierungsproblems ist. Die Verteilungsgewichte können als α* = A*1 wiederhergestellt werden. Wenn die Bedingungs des Rangs eins nicht erfüllt ist, kann die Lösung d X sdr ,
    Figure DE102022209542A1_0032
    die aus der SDR-Formulierung erhalten wird, noch verwendet werden, da sie eine Untergrenze des optimalen Werts der ursprünglichen Formulierung bereitstellt, die sich in der Praxis als eine gute Schätzung für die gewichtet Empirische zeigt. Der Gewichtsvektor kann auf der Grundlage der semidefiniten Relaxation z. B. als α̃ ≃ ASDR1 geschätzt werden.
  • Aus einer praktischen Perspektive kann es vorteilhaft sein, zusätzliche Einschränkungen in die oben diskutierte Maximierung der Diskrepanz einzubringen. Insbesondere kann es vorteilhaft sein, das maximale Gewicht eines Sensormesswerts einzuschränken und/oder eine maximale Abweichung von gleichförmig einzuschränken, insbesondere, um eine Trainingsstabilität zu verbessern.
  • Insbesondere kann erwähnt werden, dass, wenn ein MMD-basiertes Diskrepanzmaß verwendet wird, erreichbare Lösungen in vielen Fällen Dirac-artige Verteilungen sind, in dem Sinn, dass ||α||, ~
    1, wobei ||·|| die Supremumsnorm ist. Dies kann durch Erweitern des Optimierungsproblems mit weiteren Bedingungen wie z. B. der folgenden vermieden werden: A b α
    Figure DE102022209542A1_0033
    was die maximale Wahrscheinlichkeitsmasse, die an einem einzelnen Datenpunkt zulässig ist, direkt einschränkt, wobei bα ∈ [1/M, 1,0] ein Hyper-Parameter ist. Gleichermaßen kann eine maximale Abweichung von der gleichförmigen Mischungsverteilung unter Verwendung der folgenden Einschränkung eingeschränkt werden: MMD k 2 ( p , M α ˜ , p , M ) MMD 2 ( p , M , p , N ) + b D ,
    Figure DE102022209542A1_0034
    wobei bD eine Schlupfvariable ist. Die linke Seite ist eine lineare Funktion der Optimierungsvariable A, ähnlich dem oben beschriebenen Fall, mit einer verschiedenen Gram-Matrix. Interessanterweise sind beide oben beschriebenen Einschränkungen konvex und somit bleibt die SDR-Formulierung ein konvexes Optimierungsproblem, wenn sie mit einer dieser Einschränkungen erweitert wird.
  • 3b zeigt ein genaues, jedoch nicht einschränkendes Beispiel von Daten, auf die eine Anomaliedetektion angewendet wird. Die Figur zeigt ein Ergebnis des Maximierens einer MMD-basierten Diskrepanz unter Verwendung einer semidefiniten Relaxation, wie oben in Bezug auf 3a diskutiert wurde. Die Daten in diesem Beispiel sind ein Gauß'scher 2D-Datensatz. Die wahre Verteilung ist p x = N ( 0,1 ) ,
    Figure DE102022209542A1_0035
     
    Figure DE102022209542A1_0036
    wovon N = 100 Abtastwerte dargestellt sind, die in der Figur durch Kreuze gezeigt sind. Kreise um die Kreuze repräsentieren die Gewichte α der gewichteten Verteilung p x ,100 α .
    Figure DE102022209542A1_0037
    In diesem Beispiel wiesen die geschaffenen Techniken den jeweiligen Punkten im Wesentlichen identische Gewichte zu. In diesem Beispiel wurde die Einschränkung bα = 0,1 am maximalen Gewicht verwendet und war insbesondere die Rang-Eins-Bedingung, die in Bezug auf 3a diskutiert wurde, in diesem Beispiel nicht erfüllt. Es kann noch erwähnt werden, dass die Lösung relativ hohe Gewichte an seltenen Punkten darstellt, wodurch eine erfolgreiche Ausreißerdetektion geschaffen wird.
  • 4 zeigt ein genaues, jedoch nicht einschränkendes Beispiel des Bestimmens einer Ursächlichkeit zwischen Sensormesswerten auf der Grundlage einer Anomaliedetektion z. B. von 3a.
  • Speziell zeigt die Figur eine Erfassungsoperation Acq, 410, z. B. auf der Grundlage einer Erfassungsoperation 310 von 3a. In dieser Operation können Messdaten erhalten werden, die Paare (xi,yi), 415, von Sensormesswerten einer ersten und einer zweiten physikalischen Größe umfassen. Aus diesen Daten kann ein Ursächlichkeitsindikator bestimmt werden, der eine ursächliche Wirkung der physikalischen Größe x auf die physikalische Größe y angibt. Die Sensormesswerte können von verschiedenen Typen sein, wie auch an anderer Stelle diskutiert wird. Insbesondere können die jeweiligen Sensormesswerte jeweilige Zeitreihen von Messwerten einer oder mehrerer physikalischer Größen sein, in welchem Falle die Ursächlichkeitsanalyse einen Zusammenfassungsgraphen, der an sich im Feld der ursächlichen Schlussfolgerung bekannt ist, insbesondere für Zeitreihendaten ausgegeben kann.
  • Die ursächliche Wirkung kann auf der Grundlage des Prinzips der Unabhängigkeit von Ursachenmechanismen (ICM-Prinzip) identifiziert werden. Dieses Prinzip postuliert, dass der echte Datenerzeugungsprozess in unabhängige Module zerlegt wird, die einander nicht informieren oder beeinflussen. Eine Halten einer derartigen Unabhängigkeit ist in der Praxis in antiursächlichen Zerlegungen weniger wahrscheinlich. Speziell kann in einem bivariaten Ursachengraphen x → y mit einer Verbundverteilung pxy ICM eine Unabhängigkeit zwischen der Rand-px und der bedingten pylx andeuten, was als pylx ⊥ px bezeichnet wird. ICM kann eine Asymmetrie in bivariaten Systemen, die zur ursächlichen Schlussfolgerung verwendet werden können, wirksam einbringen.
  • Mathematisch bezeichne D = { ( x n , y n ) } n = 1 N
    Figure DE102022209542A1_0038
    einen Satz 415 von N i.i.d Abtastwerten, die passiv z. B. in einer Beobachtungseinstellung von pxy aus einem bivariaten System erhalten wurden, wobei x X  und  y Y
    Figure DE102022209542A1_0039
    zwei Zufallsvariablen sind, die den Rand-px bzw. py folgen. Es bezeichne Dx = {xn | (xn,yn) ∈ D} die x-covariate Ansicht des Datensatzes und gleichermaßen für Dy.
  • Wie in der Figur gezeigt ist, können, um eine Ursache/Wirkungs-Identifizierung durchzuführen, mehrere Schritte in den Räumen für die jeweiligen physikalischen Größen x,y unabhängig durchgeführt werden, wobei die Ergebnissen verglichen werden, um eine ursächliche Richtung zu bestimmen. Insbesondere können Ursächlichkeitsindikatoren für die ursächliche Wirkung von x auf y und für die ursächliche Wirkung von y auf x bestimmt werden; und können die Ursächlichkeitsindikatoren miteinander verglichen werden. Die geschaffenen Techniken können entsprechend eine Ursache/Wirkungs-Schlussfolgerung aus einer Beobachtungseinstellung für ein bivariates System (x, y) ermöglichen.
  • Die mathematische Grundstruktur, die die beschriebenen Techniken als Grundlage verwenden, kann auf der Grundlage mehrerer Annahmen definiert werden, insbesondere: Azyklizität; Existenz einer ursächlichen Verbindung (z. B. entweder x → y oder y → x) und Ursachenzulänglichkeit, z. B. unter der Annahme, dass alle relevanten Kovarianten beobachtet werden. Eine weitere Annahme kann sein, dass die Ursachen- und Wirkungsräume identisch sind, derart, dass Diskrepanzen über die Räume vergleichbar sind. Interessanterweise wurde auch festgestellt, dass dann, wenn diese Annahmen nicht vollständig erfüllt sind, die geschaffenen Techniken gute Ergebnisse liefern. Dies gilt auch trotz der Möglichkeit einer Uneinigkeitsvorbelastung für bestimmte Modelle, die mit einem Randomisierungsfaktor trainiert werden. Tatsächlich stimmen typischerweise selbst dann, wenn ein identisches Modell an identischen Daten trainiert wird, die trainierten Modelle aufgrund des Randomisierungsfaktors nicht an allen Prüffällen überein. Dieser Uneinigkeitsvorbelastung kann durch Wählen eines Modells entgegengewirkt werden, in dem sie weniger vorherrschend ist, z. B. durch Wählen einer von einem neuronalen Netz verschiedenen Art eines Modells.
  • Wie in der Figur veranschaulicht ist, können für die zwei physikalischen Größen getrennt Untermengen von Abtastwerten px,M, 425; py,M, 428 in Entnahmeoperationen Extr1, 420 bzw. Extr2, 421 bestimmt werden. Wie oben diskutiert wurde, sind in Bezug auf 3a derartige Entnahmeoperationen optional, jedoch vorteilhaft, um die Recheneffizienz zu verbessern. Die Untermengen können unabhängig gewählt werden, z. B. ist es für ein gegebenes Paar (xi, yi) von Messwerten möglich, dass xi in der Untermenge px,M gewählt wird, yi jedoch in der Untermenge py,M nicht gewählt wird, oder umgekehrt.
  • Außerdem können für die zwei physikalischen Größen getrennt jeweilige Sätze von Gewichten p x , M α ¯ ,
    Figure DE102022209542A1_0040
    435, p y , M β ¯ ,
    Figure DE102022209542A1_0041
    438 bestimmt werden WDet1, 430, WDet2, 431, indem die Diskrepanzen zwischen den jeweiligen Messdaten und den jeweiligen Mischungsverteilungen maximiert werden. Zum Beispiel kann p x , M α ¯ ,
    Figure DE102022209542A1_0042
    435 als eine gewichtett Dirac-Mischungsverteilung von p(x) bestimmt werden, das heißt auf der Grundlage eines MMD-Diskrepanzmaßes maximal verschieden von dem Satz px,N oder dem Kernsatz px,M, 425; und kann p y , M β ¯ ,
    Figure DE102022209542A1_0043
    438 als eine gewichtete Dirac-Mischungsverteilung von p(y) bestimmt werden, das heißt auf der Grundlage des MMD-Diskrepanzmaßes maximal verschieden von dem Satz py,N oder dem Kernsatz py,M, 428, mit dem Gewichtsvektor β ∈ [0,1]M×1. Verschiedene Optionen, die in Bezug auf 3a diskutiert werden, z. B. das Einschränken eines maximalen Gewichts eines Sensormesswerts und/oder das Einschränken einer maximalen Abweichung von gleichförmig, gelten hier auch.
  • Nachdem die oben erwähnte Anomaliedetektion durchgeführt worden ist und dadurch die Mischungsverteilungen 435, 438 für die jeweiligen physikalischen Größen bestimmt worden sind, können nachfolgende Schritte die Auswirkung dieser künstlich erzeugten Schwankungen auf die bedingten Verteilungen der physikalischen Größen bei gegebenen weiteren physikalischen Größen quantifizieren. Zum Beispiel kann die Auswirkung auf die Konditionale px|y und pylx in den Rand-px,N und p x , N α
    Figure DE102022209542A1_0044
    quantifiziert werden, bzw. ähnlich von py,N zu p y , N β .
    Figure DE102022209542A1_0045
    Es ist festzuhalten, dass, um Schwankungen der Randverteilungen der physikalischen Größen x, y einzubringen, mit anderen Worten, geänderte Wahrscheinlichkeitsverteilungen px, 435, p y , M β ¯ ,
    Figure DE102022209542A1_0046
    die eine Diskrepanz zu den ursprünglichen Wahrscheinlichkeitsverteilungen px, py,M, aufweisen, zu bestimmen, ist es im Prinzip möglich, weitere Techniken als die beschriebenen Operationen WDet1, WDet2 zu verwenden. Das ICM-Prinzip kann noch verwendet werden.
  • Die Quantifizierung kann Trainingsvorgänge Trn1, 440; und Trn2, 441 als Grundlage verwenden. In der Operation Trn1, die der x → y-Richtung entspricht, kann ein erstes vorausschauendes Modell f̂y|x, 445, trainiert werden, die zweite physikalische Größe y aus der ersten physikalischen Größe x auf der Grundlage der Messdaten 415 (oder des Kernsatzes 425) vorherzusagen. Ein zweites vorausschauenden Modell f ^ y | x α ,
    Figure DE102022209542A1_0047
    446, kann trainiert werden, die zweite physikalische Größe y aus der ersten physikalischen Größe x auf der Grundlage der neugewichteten Sensormesswerte 435 vorherzusagen. In der entgegengesetzten Richtung kann die Operation Trn2 vorausschauende Modelle ĝx|y, 448 und g ^ x | y β ,
    Figure DE102022209542A1_0048
    449 auf der Grundlage der Messdaten 415 (oder des Kernsatzes 428); bzw. auf der Grundlage der Mischungsverteilung 438 anpassen.
  • Für die vorausschauenden Modelle sind verschiedene Optionen möglich. Interessanterweise stellen die vorgeschlagenen Techniken im Allgemeinen wenige Beschränkungen der Modelle dar, die verwendet werden. Es ist allerdings wünschenswert, dass die Modelle auf ihren Trainingssätzen ähnlich arbeiten. Dies kann zum Beispiel durch Überwachen des Trainingsprozesses und Durchführen eines frühen Stoppens bei Bedarf oder durch Trainieren eines überparametrisierten Modells zu nahezu null oder null Trainingsfehlern erreicht werden.
  • Um einen genauen Ursächlichkeitsindikator zu erhalten, können die Modelle im Allgemeinen derart gewählt werden, dass sie eine ausreichende Kapazität aufweisen, die Beziehung zwischen den physikalischen Größen x, y zu repräsentieren. Zum Beispiel kann die Anzahl trainierbarer Parameter eines verwendeten Modells mindestens 1000, mindestens 10000 oder mindestens 100000 sein. Als ein konkretes Beispiel können die vorausschauenden Modelle Gaußprozesse sein. Insbesondere kann das Exact-GP-Modell z. B. unter Verwendung des Mittelwerts für die Vorhersage des GP-Modells verwendet werden. Als ein weiteres Beispiel können die vorausschauenden Modelle neuronale Netze sein.
  • Zum Trainieren von Trn1, Trn2 können verschiedene Techniken verwendet werden, die an sich bekannt sind, z. B. kann ein Trainieren unter Verwendung von stochastischen Lösungsversuchen wie z. B. eines stochastischen Gradientenabstiegs z. B. unter Verwendung des Adam-Optimierers, der in Kingma und Ba, „Adam: A Method for Stochastic Optimization“ (die bei https://arxiv.org/abs/1412.6980 verfügbar ist und hier durch Bezugnahme aufgenommen ist) offenbart ist, durchgeführt werden. Wie bekannt ist, können derartige Optimierungsverfahren heuristisch sein und/oder bei einem lokalen Optimum eintreffen. Um das vorausschauende Modell 446, 449 an eine gewichtete empirische Verteilung 435, 438 anzupassen, können z. B. die entsprechenden Gewichte als Abtastwertegewichte in der Verlustfunktion des Modells verwendet werden. Ein Beispiel des Trainierens an einer gewichteten Verteilung in der Gaußprozesseinstellung ist in J. Wen u. a. „Weighted Gaussian Process for estimating treatment effect“, Proceedings NIPS 2018, (die hier durch Bezugnahme aufgenommen ist) beschrieben. Im Falle neuronaler Netze kann das Trainieren an einer gewichteten Verteilung z. B. durchgeführt werden, wie in M. Steininger u. a. „Density-based weighting for imbalanced regression", Machine Learning, 110(8):2187-2211, 2021 (die hier durch Bezugnahme aufgenommen ist) beschrieben ist.
  • Auf der Grundlage der trainierten Modelle 445-446, 448-449 können ursächliche Wirkungsindikatoren 455, 458 für die Richtungen x → y bzw. y → x in Quantifizierungsoperationen Quant1, 450; und Quant2, 451 bestimmt werden. Ein Ursächlichkeitsindikator 455 (oder 458) kann eine ursächliche Wirkung der physikalischen Größe x (oder y) auf die weitere physikalische Größe y (oder x) auf der Grundlage einer Modelluneinigkeit der trainierten Modelle 445, 446 (oder 448, 449) angeben.
  • Insbesondere kann ICM postulieren, dass dann, wenn x → y die wahre ursächliche Richtung des Datenerzeugungsprozesses ist, die Auswirkung der eingebrachten geringfügigen Schwankungen auf die g-Modelle 448, 449 wahrscheinlich offensichtlicher sind als auf die f-Modelle 445, 446. Diese Auswirkung kann mittels einer Modelluneinigkeit an einem (möglicherweise nicht gekennzeichneten) Satz quantifiziert werden. Insbesondere kann die Modelluneinigkeit 455 auf der Grundlage einer maximalen durchschnittlichen Diskrepanz zwischen Vorhersagen der trainierten Modelle 445, 446 an einem gemeinsamen Satz folgendes sein: S x y = MMD k Y 2 ( f ^ y | x ( x ) , f ^ y | x α ( x ) ) .
    Figure DE102022209542A1_0049
  • Hier x ~ px(x), z. B. können alle Abtastwerte 415 in Dx oder eine Zufallsuntermenge davon verwendet werden. Die Modelluneinigkeit Sy→x, 458 in der weiteren Richtung kann ähnlich bestimmt werden.
  • Wie oben diskutiert wurde, kann ein Ursächlichkeitsindikator 455 (oder 458) an sich ausgegeben werden, ohne dass der Ursächlichkeitsindikator in der weiteren Richtung notwendigerweise auch bestimmt wird. Zum Beispiel kann der Wert Sx→y oder Sy→x selbst ausgegeben werden oder er kann z. B. mit einem Schwellenwert versehen werden.
  • In weiteren Ausführungsformen werden, nachdem die Ursächlichkeitsindikatoren 455, 458 bestimmt worden sind, diese in einer Schlussfolgerungsoperation Clnfer, 460, verglichen, um eine ursächliche Richtung, z. B. x → y oder y → x, 465, abzuleiten. Insbesondere kann die niedrigere der Punktzahlen Sx→y, 455 und Sy→x, 458, als ein Indikator der ursächlichen Richtung verwendet werden.
  • Insbesondere veranschaulicht der folgende Algorithmus eine Beispielimplementierung der Operationen 430-431, 440-441, 450-451, 460, die hier beschrieben sind:
    Figure DE102022209542A1_0050
    Figure DE102022209542A1_0051
  • Als eine Alternative zu den oben diskutierten Quantifizierungsoperationen Quant1, Quant2 ist es auch möglich, einen Ursächlichkeitsindikator 455, 458 auf der Grundlage eines Trends in der Modelluneinigkeit zu bestimmen, um Werte eines maximalen Gewichts, das verwendet wird, wenn die Gewichte WDet1, WDet2 bestimmt werden, zu variieren.
  • Die Verwendung eines derartigen Trends kann die Vergleichbarkeit zwischen Ursächlichkeitsindikatoren verbessern, insbesondere wenn Ursächlichkeitsindikatoren in der Clnfer-Operation verglichen werden. Mathematisch gesprochen kann ein Vergleich, der ein Vergleichen von MMD-Werten über Räume als Grundlage verwendet und keinen Trend als Grundlage verwendet, implizit die Annahme als Grundlage verwenden, dass die Datenräume X Y
    Figure DE102022209542A1_0052
    und die Kernel k X = k Y
    Figure DE102022209542A1_0053
    vergleichbar sind. Eine derartige implizite Annahme ist in vielen vorhergehenden Arbeiten ebenfalls vorhanden. Diese Annahme bedeutet in der Praxis, dass ein derartiger Vergleich weniger genau ist, wenn die Datenräume und/oder die Kernel sich zu stark unterscheiden.
  • Interessanterweise kann unter Verwendung eines Trends diese implizite Annahme vermieden werden. Die Erfinder haben beobachtet, dass die erreichbare Diskrepanz z. B. zwischen p·,N, 425 und p , N α ,
    Figure DE102022209542A1_0054
    435 in Bezug auf den Hyperparameter bα, der verwendet wird, um das maximale Gewicht eines Sensormesswerts einzuschränken, weitgehend monoton ist. Als eine Folge ist es wahrscheinlich, dass ein Bestimmen der Gewichte zum Erhöhen von Werten für bα in einem zunehmenden Trend der Uneinigkeitsbewertung der antiursächlichen Richtung reflektiert ist. In der ursächlichen Richtung wird allerdings erwartet, dass die Uneinigkeitsbewertung ungefähr konstant bleibt. Entsprechend kann dieser Trend verwendet werden, um die Ursächlichkeitsindikatoren 455, 458 z. B. als Koeffizienten linearer Regression oder ähnliches zu bestimmen. Die Trends können z. B. in der Clnfer-Operation durch Vergleichen der Werte der Ursächlichkeitsindikatoren, durch Durchführen einer geeigneten statistischen Prüfung usw. verglichen werden.
  • Dies ist ferner in Bezug auf 5 veranschaulicht. 5 zeigt ein genaues, jedoch nicht einschränkendes Beispiel von Ursächlichkeitsindikatoren, die für Paare von Sensormesswerten bestimmt werden. Die Figur zeigt die Anwendung der diskutierten Techniken auf die Simulationsdaten, die in J. Mooij u. a. „Distinguishing cause from effect using observational data: methods and benchmarks“, Journal of Machine Learning Research, 2016, erzeugt wurden. Speziell wurde in diesem Beispiel das erste Paar des SIM-Datensatzes verwendet. Die wahre ursächliche Struktur für diese Daten ist y → x. Das Beispiel zeigt die Modelluneinigkeit, die hier beschrieben ist, für die zwei ursächlichen Richtungen als eine Funktion des Maximalgewichtshyperparameters bα.
  • Es wird beobachtet, dass die Modelluneinigkeit in der ursächlichen Richtung konsistent kleiner als die Modelluneinigkeit in der antiursächlichen Richtung ist. Entsprechend kann die wahre ursächliche Richtung durch Vergleichen von Modelluneinigkeiten bestimmt werden. Es wird auch beobachtet, dass die Modelluneinigkeit einen zunehmenden Trend variierender Werten des Maximalgewichtshyperparameters bα in der antiursächlichen Richtung und nicht in der ursächlichen Richtung aufweist. Entsprechend kann die wahre ursächliche Richtung auch durch Vergleichen der Trends der Modelluneinigkeit bestimmt werden.
  • Einige mathematische Details von Arten, Gewichte unter Verwendung einer semidefiniten Relaxation der quadrierten maximalen durchschnittlichen Diskrepanz zu bestimmen, werden nun bereitgestellt.
  • Allgemein kann zum Bestimmen der Gewichte das folgende Problem betrachtet werden. Wenn ein Satz von Abtastwerten D x = { x n } n = 1 N
    Figure DE102022209542A1_0055
    aus einer Zufallsvariable x X
    Figure DE102022209542A1_0056
    gegeben ist, finde den Gewichtsvektor α, der die Mischungsverteilung p x , N α
    Figure DE102022209542A1_0057
    in einem Diskrepanzmass D(·,·) maximal verschieden von px,N rendert. Mit dem kernelbasierten MMD-Maß D MMD k X
    Figure DE102022209542A1_0058
    kann dieses Problem formuliert werden, wie folgt: maximiere α  MMD k X 2 ( p x , N α , p x , N )
    Figure DE102022209542A1_0059
    abh a ¨ ngig von 1 N T α = 1, α 0   ( eintragweise )
    Figure DE102022209542A1_0060
    wobei 1N sich auf einen Vektor aus Einsen mit der Dimensionalität N bezieht. Die Größe, die optimiert wird, kann umformuliert werden, wie folgt: MMD k X 2 ( p x , N α , p x , N ) = p x , N α ( x ) p x , N ( x ) H 2
    Figure DE102022209542A1_0061
    = n = 1 N α δ x n 1 N n = 1 N δ x n H 2
    Figure DE102022209542A1_0062
    = n , n ' = 1 N α n α n ' δ x n , δ x n ' 2 N n , n ' = 1 N α n δ x n , δ x n ' + 1 N 2 n , n ' = 1 N δ x n , δ x n '
    Figure DE102022209542A1_0063
    = α T K x x α 2 N α T K x x 1 N + 1 N 2 1 N T K x x 1 N
    Figure DE102022209542A1_0064
    wobei K x x = [ k ( x i , x j ) ] i , j = 1 N
    Figure DE102022209542A1_0065
    Kxx die Gram-Matrix der Kernelfunktion k X : X × X +
    Figure DE102022209542A1_0066
    auf dem Abtastwertesatz Dx ist. Entsprechend kann das Optimierungsproblem geschrieben werden, wie folgt: maximiere α α T K x x α 2 N α T K x x 1 N + 1 N 2 1 N T K x x 1 N
    Figure DE102022209542A1_0067
    abh a ¨ ngig von 1 N T α = 1, α 0   ( eintragsweise )
    Figure DE102022209542A1_0068
  • Dieses Optimierungsproblem ist kein konvexes Optimierungsproblem, da es eine Maximierung einer konvexen Funktion ist. Beachtend, dass der Schätzer in geschlossener Form der quadrierten MMD eine quadratische Form in der Optimierungsvariable α aufweist, kann dieses Problem in einer zweistufigen Prozedur als eine semidefinite Relaxation (SDR) adressiert werden. Zunächst kann das Problem zu einem höherdimensionalen Raum angehoben werden, indem z. B. A = αα definiert wird, wobei die Zielfunktion linear wird. Dann kann eine konvexe Relaxation auf die unlösbaren Einschränkungen angewendet werden. Ohne Beeinflussen der Lösung des Problems und unter Verwendung der Eigenschaften der Spur einer Matrix, können die oben beschriebenen Zielbegriffe umformuliert werden, wie folgt: α T K x x α = trace ( α T K x x α ) = trace ( α α T K x x ) = trace ( A K x x ) = A · K x x
    Figure DE102022209542A1_0069
    und ähnlich für den zweiten Ausdruck: 2 α T K x x 1 N = trace ( α T K x x 1 N ) = trace ( α α T K x x 1 N 1 N T ) = A · K x x 1 N 1 N T
    Figure DE102022209542A1_0070
    wobei · das Skalarprodukt in dem Matrixraum, der als A · Kxx = trace(AKxx) definiert ist, bezeichnet.
  • Aus der Bedingung A = α α T = [ a i j ] i , j = 1 N , N
    Figure DE102022209542A1_0071
    können konvexe Einschränkungen entnommen werden. Die erste ist die eintragsweise Nichtnegativität αij = αjαj ≥ 0 aufgrund der eintragsweisen Nichtnegativität von α ∈ [0,1]N. Die zweite ist die Folge des normierten Vektors 1 N T α = 1,
    Figure DE102022209542A1_0072
    = 1, die in A als 1 N T A 1 = 1 N T α ( 1 N T α ) T = 1
    Figure DE102022209542A1_0073
    ausgedrückt werden kann. Die letzte ist die Ähnlichkeit von A = A nach Definition. Schließlich kann die oben beschriebene Gleichheitsbedingung zu A ≥ αα gelockert werden und in ihrer Schur-Komplementform geschrieben werden.
  • Als Ergebnis kann die folgende Formulierung als eine Relaxation des oben beschriebenen Optimierungsproblems als ein quadratisch beschränktes quadratisches Programm (QCQP) erhalten werden: maximiere A A · ( K x x 2 N K x x 1 N 1 N T ) + 1 N 2 1 N T K x x
    Figure DE102022209542A1_0074
    abhängig von [ A A 1 N 1 N T A 1 ] 0
    Figure DE102022209542A1_0075
    (positive Semidefinitheit) A 0   ( eintragweise )
    Figure DE102022209542A1_0076
    1 N T A 1 N = 1
    Figure DE102022209542A1_0077
    A = A T .
    Figure DE102022209542A1_0078
  • Es kann beobachtet werden, dass dieses Problem eine konvexe Aufgabe (linear) mit konvexen Einschränkungen aufweist, die unter Verwendung von bestehenden Techniken, z. B. des cvxpy-Software-Pakets, gelöst werden können.
  • Ferner kann das folgende Problem betrachtet werden. Gegebene sind zwei Sätze von Abtastwerten { x n } n = 1 N  und  { x ˜ m } m = 1 M
    Figure DE102022209542A1_0079
    aus den zwei Verteilungen px,N bzw. px̃,M, mit den entsprechenden Zufallsvariablen x , x ˜ X ,
    Figure DE102022209542A1_0080
    finde den Gewichtsvektor α̃ ∈ [0DezP1]M, der die Mischungsverteilung p x ˜ , M α ˜
    Figure DE102022209542A1_0081
    in Bezug auf das Diskrepanzmass MMD k X
    Figure DE102022209542A1_0082
    maximal verschieden von px,N rendert.
  • Dieses Problem sein kann formalisiert werden, wie folgt: maximiere α  MMD k X 2 ( p x ˜ , M α ˜ , p x , N )
    Figure DE102022209542A1_0083
    abh a ¨ ngig von  1 M T α ˜ =1 , α ˜ 0   ( eintragsweise )
    Figure DE102022209542A1_0084
  • Wie oben beschrieben ist, kann die Aufgabe wie folgt sein neuformuliert werden: MMD k X 2 ( p x ˜ , N α ˜ , p x , N ) = p x ˜ , N α ˜ ( x ˜ ) p x , N ( x ) H 2
    Figure DE102022209542A1_0085
    = α ˜ T K x ˜ x ˜ α ˜ 2 N α ˜ T K x ˜ x 1 N + 1 N 2 1 N T K x x 1 N
    Figure DE102022209542A1_0086
    und die Zielbegriffe können umgeschrieben werden als: α ˜ T K x ˜ x ˜ α ˜ = A ˜ · K x ˜ x ˜
    Figure DE102022209542A1_0087
    und ähnlich für den zweiten Ausdruck: α ˜ T K x ˜ x 1 N = A ˜ · K x ˜ x 1 N 1 N T
    Figure DE102022209542A1_0088
  • Die Einschränkungen können geändert werden, wie oben beschrieben ist. Daher kann eine Relaxation dieses Optimierungsproblems formuliert werden, wie folgt: maximiere A ˜ A ˜ · ( K x ˜ x ˜ 2 N K x ˜ x 1 N 1 N T ) + 1 N 2 1 N T K x x 1 N
    Figure DE102022209542A1_0089
    abhängig von [ A ˜ A ˜ 1 M 1 M T A ˜ 1 ] 0
    Figure DE102022209542A1_0090
    (positive Semidefinitheit) A ˜ 0   ( eintragsweise )
    Figure DE102022209542A1_0091
    1 M T A ˜ 1 M = 1
    Figure DE102022209542A1_0092
    A ˜ = A ˜ T
    Figure DE102022209542A1_0093
    was ein QCQP an den M2 Optimierungsvariablen in A ˜ = [ α ˜ i j ] i , j = 1 M , M
    Figure DE102022209542A1_0094
    ist.
  • 6 zeigt ein Blockdiagramm eines computer-implementierten Verfahrens 600 zum Detektieren von Anomalien in Sensormesswerten einer physikalischen Größe. Das Verfahren 600 kann einer Operation des Systems 100 von 1 entsprechen. Allerdings ist dies keine Einschränkung dahingehend, dass das Verfahren 600 auch unter Verwendung eines weiteren Systems, einer weiteren Vorrichtung oder einer weiteren Einrichtung durchgeführt werden kann.
  • Das Verfahren 600 kann in einer Operation, die als „MESSEN“ bezeichnet wird, ein Erhalten von 610 Messdaten umfassen, die mehrere Sensormesswerte der physikalischen Größe umfassen. Das Verfahren 600 kann in einer Operation, die als „MAXIMALE DISKREPANZ DER NEUBEWERTUNG“ bezeichnet wird, ein Bestimmen 620 jeweiliger Gewichte für jeweilige Sensormesswerte durch Maximieren einer Diskrepanz zwischen den Messdaten und einer Mischungsverteilung, die durch Neugewichten der Sensormesswerte gemäß den Gewichten erhalten wird, umfassen. Das Verfahren 600 kann in einer Operation, die als „AUSGEBEN“ bezeichnet wird, ein Ausgeben 630 der jeweiligen Gewichte als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte umfassen.
  • Selbstverständlich können im Allgemeinen die Operationen eines Verfahrens 600 von 6 in einer beliebigen geeigneten Reihenfolge, z. B. aufeinanderfolgend, gleichzeitig oder einer Kombination davon durchgeführt werden, abhängig davon, ob, wo anwendbar, eine bestimmte Reihenfolge z. B. durch Eingabe/Ausgabe-Beziehungen erfordert wird.
  • Das eine oder die mehreren Verfahren können in einem Computer als ein computer-implementiertes Verfahren, als fest zugeordnete Hardware oder als eine Kombination von beiden implementiert sein. Wie auch in 7 veranschaulicht ist, können Befehle für den Computer, z. B. ausführbarer Code, in einem computerlesbaren Medium 700 z. B. in Form einer Reihe 710 maschinenlesbarer physischer Markierungen und/oder als eine Reihe von Elementen, die verschiedene elektrische, z. B. magnetische oder optische, Eigenschaften oder Werte aufweisen, gespeichert sein. Das Medium 700 kann transitorisch oder nichttransitorisch sein. Beispiele computerlesbarer Medien enthalten Speichereinrichtungen, optische Speichereinrichtungen, integrierte Schaltungen, Server, Online-Software usw. 7 zeigt einen optischen Datenträger 700.
  • Beispiele, Ausführungsformen oder optionale Merkmale, gleich ob sie als nicht einschränkend angegeben sind oder nicht, sollen nicht als die Erfindung, wie sie beansprucht ist, beschränkend verstanden werden.
  • Es ist festzuhalten, dass die oben erwähnten Ausführungsformen die Erfindung veranschaulichen, statt beschränken, und dass Fachleute viele alternative Ausführungsformen entwerfen können, ohne vom Umfang der beigefügten Ansprüche abzuweichen. In den Ansprüchen sollen beliebige Bezugszeichen, die zwischen Klammern angeordnet sind, nicht als den Anspruch beschränkend ausgelegt werden. Die Verwendung des Verbs „umfassen“ und seiner Konjugationen schließt nicht das Vorliegen von Elementen oder Zustände außer den in einem Anspruch angegebenen aus. Der Artikel „ein“ oder „eine“, der einem Element vorangeht, schließt nicht das Vorliegen einer Mehrzahl derartiger Elemente aus. Ausdrücke wie z. B. „mindestens eine von“ repräsentieren, wenn sie einer Liste oder einer Gruppe von Elementen vorangehen, eine Auswahl aller oder eine beliebige Untermenge von Elementen aus der Liste oder der Gruppe. Zum Beispiel soll der Ausdruck „mindestens eine von A, B und C“ derart verstanden werden, dass er lediglich A, lediglich B, lediglich C, sowohl A als auch B, sowohl A als auch C, sowohl B als auch C oder alle aus A, B und C enthält. Die Erfindung kann mittels Hardware, die mehrere verschiedene Elemente umfasst, und mittels eines geeignet programmierten Computers implementiert sein. In dem Einrichtungsanspruch, der mehrere Mittel aufzählt, können mehrere dieser Mittel durch ein und dasselbe Hardware-Element verkörpert sein. Die reine Tatsache, dass bestimmte Maße in wechselseitig verschiedenen abhängigen Ansprüchen rezitiert sind, gibt nicht an, dass eine Kombination dieser Maße nicht vorteilhaft verwendet werden kann.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • M. Steininger u. a. „Density-based weighting for imbalanced regression“, Machine Learning, 110(8):2187-2211 [0088]

Claims (15)

  1. Computer-implementiertes Verfahren (600) zum Detektieren von Anomalien in Sensormesswerten einer physikalischen Größe, wobei das Verfahren Folgendes umfasst: - Erhalten (610) von Messdaten, wobei die Messdaten mehrere Sensormesswerte der physikalischen Größe umfassen; - Bestimmen (620) jeweiliger Gewichte für jeweilige Sensormesswerte durch Maximieren einer Diskrepanz zwischen den Messdaten und einer Mischungsverteilung, wobei die Mischungsverteilung durch Neugewichten der Sensormesswerte gemäß den Gewichten erhalten wird; und - Ausgeben (630) der jeweiligen Gewichte als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte.
  2. Verfahren (600) nach Anspruch 1, wobei die Messdaten Paare von Sensormesswerten der physikalischen Größe und einer weiteren physikalischen Größe umfassen und das Verfahren ferner Folgendes umfasst: - Trainieren eines ersten maschinell lernbaren Modells, die weitere physikalische Größe aus der physikalischen Größe auf der Grundlage der Messdaten vorherzusagen; - Trainieren eines zweiten maschinell lernbaren Modells, die weitere physikalische Größe aus der physikalischen Größe auf der Grundlage der neugewichteten Sensormesswerte vorherzusagen; und - Bestimmen eines Ursächlichkeitsindikators, der eine ursächliche Wirkung der physikalischen Größe auf die weitere physikalische Größe angibt, wobei der Ursächlichkeitsindikator auf der Grundlage einer Modelluneinigkeit der trainierten Modelle bestimmt wird.
  3. Verfahren (600) nach Anspruch 2, das ein Bestimmen eines weiteren Ursächlichkeitsindikators, der eine ursächliche Wirkung der weiteren physikalischen Größe auf die physikalische Größe angibt, und ein Vergleichen des weiteren Ursächlichkeitsindikators zum Ursächlichkeitsindikator umfasst.
  4. Verfahren (600) nach Anspruch 3, wobei die Messdaten Messwerte von mindestens drei physikalischen Größen umfassen und das Verfahren Folgendes umfasst: - Identifizieren der physikalischen Größe und der weiteren physikalischen Größe unter den mindestens drei physikalischen Größen als eine ursächliche Beziehung aufweisend; und - Verwenden des Vergleichs des weiteren Ursächlichkeitsindikators zum Ursächlichkeitsindikator, um eine Richtung der identifizierten ursächlichen Beziehung zu bestimmen.
  5. Verfahren (600) nach einem der Ansprüche 2-4, wobei das Verfahren zum Durchführen einer Grundursachenanalyse eines Fehlers eines computergesteuerten Systems dient und die Grundursachenanalyse auf der Grundlage des Bestimmens durchgeführt wird, dass die physikalische Größe eine ursächliche Wirkung auf die weitere physikalische Größe aufweist.
  6. Verfahren (600) nach einem der Ansprüche 2-5, wobei die Modelluneinigkeit auf der Grundlage einer maximalen durchschnittlichen Diskrepanz zwischen Vorhersagen der trainierten Modelle bestimmt wird.
  7. Verfahren (600) nach einem der Ansprüche 2-6, wobei das Bestimmen der Gewichte ein Einschränken eines maximalen Gewichts eines Sensormesswerts und/oder ein Einschränken einer maximalen Abweichung von gleichförmig umfasst.
  8. Verfahren (600) nach Anspruch 7, wobei der Ursächlichkeitsindikator auf der Grundlage eines Trends in der Modelluneinigkeit zum Variieren von Werten des maximalen Gewichts bestimmt wird.
  9. Verfahren (600) nach einem der Ansprüche 2-8, wobei die Sensormesswerte von einem computergesteuerten System stammen und das Verfahren ferner ein Steuern des Systems umfasst, die physikalische Größe auf der Grundlage des Bestimmens, dass die physikalische Größe eine ursächliche Wirkung auf die weitere physikalische Größe aufweist, zu beeinflussen.
  10. Verfahren (600) nach einem vorhergehenden Anspruch, wobei die Sensormesswerte von einem computergesteuerten System stammen und das Verfahren ferner ein Ausgeben eines Alarms umfasst, wenn ein bestimmtes Gewicht einen Schwellenwert überschreitet.
  11. Verfahren (600) nach einem vorhergehenden Anspruch, wobei die Diskrepanz eine maximale durchschnittliche Diskrepanz als Grundlage verwendet.
  12. Verfahren (600) nach Anspruch 11, wobei die Diskrepanz eine quadrierte maximale durchschnittliche Diskrepanz als Grundlage verwendet und wobei die Gewichte durch Anwenden einer semidefiniten Entspannung bestimmt werden.
  13. Verfahren (600) nach einem vorhergehenden Anspruch, das ein Bestimmen von Gewichten für eine gewählte Untermenge von Abtastwerten der Messdaten umfasst.
  14. Anomaliedetektionssystem (100) zum Detektieren von Anomalien in Sensormesswerten einer physikalischen Größe, wobei das System Folgendes umfasst: - eine Sensorschnittstelle (160) zum Zugreifen auf Messdaten, wobei die Messdaten mehrere Sensormesswerte der physikalischen Größe umfassen; und - ein Prozessoruntersystem (140), das konfiguriert ist zum - Bestimmen jeweiliger Gewichte für jeweilige Sensormesswerte durch Maximieren einer Diskrepanz zwischen den Messdaten und einer Mischungsverteilung, wobei die Mischungsverteilung durch Neugewichten der Sensormesswerte gemäß den Gewichten erhalten wird; und - Ausgeben der jeweiligen Gewichte als Indikatoren von Ausreißerwahrscheinlichkeiten für die jeweiligen Sensormesswerte.
  15. Transitorisches oder nichttransitorisches computerlesbares Medium (1100), das Daten (1110) umfasst, die Befehle repräsentieren, die, wenn sie durch ein Prozessorsystem ausgeführt werden, das Prozessorsystem veranlassen, das computer-implementierte Verfahren nach einem der Ansprüche 1-13 durchzuführen.
DE102022209542.1A 2022-09-13 2022-09-13 Sensormesswertanomaliedetektion Active DE102022209542B4 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102022209542.1A DE102022209542B4 (de) 2022-09-13 2022-09-13 Sensormesswertanomaliedetektion
US18/465,369 US20240086770A1 (en) 2022-09-13 2023-09-12 Sensor measurement anomaly detection
CN202311175580.3A CN117708728A (zh) 2022-09-13 2023-09-12 传感器测量异常检测
JP2023147754A JP2024041064A (ja) 2022-09-13 2023-09-12 センサ測定値の異常検出

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022209542.1A DE102022209542B4 (de) 2022-09-13 2022-09-13 Sensormesswertanomaliedetektion

Publications (2)

Publication Number Publication Date
DE102022209542A1 true DE102022209542A1 (de) 2024-03-14
DE102022209542B4 DE102022209542B4 (de) 2024-03-21

Family

ID=90054615

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022209542.1A Active DE102022209542B4 (de) 2022-09-13 2022-09-13 Sensormesswertanomaliedetektion

Country Status (4)

Country Link
US (1) US20240086770A1 (de)
JP (1) JP2024041064A (de)
CN (1) CN117708728A (de)
DE (1) DE102022209542B4 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4102412A1 (de) * 2021-06-07 2022-12-14 Robert Bosch GmbH Maschinenlernen auf basis einer wahrscheinlichkeitsverteilung von sensordaten

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GOUDET, Olivier [et al.]: Learning Functional Causal Models with Generative Neural Networks. arXiv preprint arXiv:1709.05321v3, 2018.URL: https://arxiv.org/pdf/1709.05321.pdf [abgerufen am 31.05.2023]
M. Steininger u. a. „Density-based weighting for imbalanced regression", Machine Learning, 110(8):2187-2211
SCHMIDL, Sebastian; WENIG, Phillip; PAPENBROCK, Thorsten: Anomaly detection in time series: a comprehensive evaluation. In: Proceedings of the VLDB Endowment, Vol. 15, May 2022, Nr. 9, S. 1779-1797.
VOWELS, Matthew J.; CAMGOZ, Necati Cihan; BOWDEN, Richard. D'ya like DAGs? A Survey on Structure Learning and Causal Discovery. arXiv preprint arXiv:2103.02582, 2021. URL: http://128.84.4.34/pdf/2103.02582 [abgerufen am 31.05.2023]

Also Published As

Publication number Publication date
JP2024041064A (ja) 2024-03-26
CN117708728A (zh) 2024-03-15
US20240086770A1 (en) 2024-03-14
DE102022209542B4 (de) 2024-03-21

Similar Documents

Publication Publication Date Title
DE112022000106T5 (de) Verfahren zur Getriebefehlerdiagnose und Signalerfassung, eine Vorrichtung und ein elektronisches Gerät
DE102019135474A1 (de) Zuordnung und quantifizierung des einflusses von features neuronaler netze für explainable artificial intelligence
EP3767403B1 (de) Machine-learning gestützte form- und oberflächenmessung zur produktionsüberwachung
DE102019124018A1 (de) Verfahren zum Optimieren von Tests von Regelsystemen für automatisierte Fahrdynamiksysteme
DE102021202189A1 (de) Maschinell erlernte anomalieerkennung
DE102022209542B4 (de) Sensormesswertanomaliedetektion
DE112021002866T5 (de) Modelltreueüberwachung und -neuerstellung zur entscheidungsunterstützung eines fertigungsverfahrens
DE112020003343T5 (de) System und verfahren mit einem robusten tiefen generativen modell
DE102020120141A1 (de) Verfahren zum Optimieren von Tests von Regelsystemen für automatisierte Fahrdynamiksysteme mittels probabilistisch prädizierter Systemantworten
DE102020122980A1 (de) Mikroskopiesystem und verfahren zum überwachen eines lernprozesses eines maschinenlernmodells
DE102023205594A1 (de) Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten
DE112021004118T5 (de) Adaptives system und verfahren zur inspektion von abgebildeten gegenständen
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102018221002A1 (de) Steuereinrichtung zur Steuerung einer Fertigungsanlage sowie Fertigungsanlage und Verfahren
DE102023209512A1 (de) Verfahren und Systeme zum Durchführen einer Grundursachenanalyse mit einem trainierten maschinellen Lernmodell
DE202023104300U1 (de) Ein auf Deep Learning basierendes System zur Erkennung, Klassifizierung und Optimierung der landwirtschaftlichen Produktivität von Obstkrankheiten
DE202019105304U1 (de) Vorrichtung zum Erstellen eines künstlichen neuronalen Netzes
EP3736749A1 (de) Verfahren und vorrichtung zur ansteuerung eines geräts mit einem datensatz
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
DE102020132591A1 (de) Auswählen von rechenkernvarianten unter verwendung neuronaler netzwerke
DE112021000282T5 (de) Lernen mit momentschätzung unter verwendung verschiedener zeitkonstanten
DE102020215136A1 (de) Verfahren zur automatisierten Bewertung eines Simulationsmodells
DE102019002506A1 (de) Gerät zum Anpassen von Messvorgangsparametern, maschinelle Lernvorrichtung und System
DE102019201278A1 (de) Radiometrisches Messgerät
DE102023212367A1 (de) System und Verfahren mit Sequenzmodellierung von Sensordaten für die Fertigung

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R018 Grant decision by examination section/examining division