DE112021006196T5 - Verfahren und einrichtung für visuelles schlussfolgern - Google Patents

Verfahren und einrichtung für visuelles schlussfolgern Download PDF

Info

Publication number
DE112021006196T5
DE112021006196T5 DE112021006196.8T DE112021006196T DE112021006196T5 DE 112021006196 T5 DE112021006196 T5 DE 112021006196T5 DE 112021006196 T DE112021006196 T DE 112021006196T DE 112021006196 T5 DE112021006196 T5 DE 112021006196T5
Authority
DE
Germany
Prior art keywords
modules
inputs
sets
network
pgm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021006196.8T
Other languages
English (en)
Inventor
Ke Su
Chongxuan Li
Hang Su
Jun Zhu
Bo Zhang
Ze Cheng
Siliang Lu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Robert Bosch GmbH
Original Assignee
Tsinghua University
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Robert Bosch GmbH filed Critical Tsinghua University
Publication of DE112021006196T5 publication Critical patent/DE112021006196T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

Die vorliegende Offenbarung stellt ein Verfahren zum visuellen Schlussfolgern bereit. Das Verfahren umfasst: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.

Description

  • GEBIET
  • Gesichtspunkte der vorliegenden Offenbarung beziehen sich im Allgemeinen auf künstliche Intelligenz und insbesondere auf ein Verfahren und ein Netzwerk für visuelles Schlussfolgern.
  • HINTERGRUND
  • Künstliche Intelligenz (KI) wird in einer Vielzahl von Bereichen wie Bildklassifizierung, Objekterkennung, Szenenverständnis, maschinelle Übersetzung und dergleichen eingesetzt. Es besteht ein zunehmendes Interesse an visueller Schlussfolgerung mit einer zunehmenden Wachstum von Anwendungen wie visuelle Fragenbeantwortung (VQA), verkörperte Fragenbeantwortung, visuelle Navigation, Autopilot und dergleichen, wo KI-Modelle im Allgemeinen erforderlich sein können, um Kognitionsprozesse auf hoher Ebene über Wahrnehmungsergebnisse auf niedriger Ebene durchzuführen, zum Beispiel, um abstrakte Schlussfolgerung auf hoher Ebene über einfache visuelle Konzepte wie Linien, Formen und dergleichen durchzuführen.
  • Tiefe neuronale Netze wurden in großem Umfang im Bereich der visuellen Schlussfolgerung angewandt, wo tiefe neuronale Netze trainiert werden können, um die Korrelation zwischen Taskeingabe und -ausgabe zu modellieren und bei verschiedenen Aufgaben der visuellen Schlussfolgerung mit tiefem und reichhaltigem Repräsentationslernen erfolgreich sein zu können, insbesondere bei Wahrnehmungsaufgaben. Zusätzlich haben modularisierte Netzwerke in den letzten Jahren mehr und mehr Aufmerksamkeit für visuelle Schlussfolgerung auf sich gezogen, wodurch Deep Learning und symbolische Schlussfolgerung vereint werden können, wobei der Schwerpunkt auf dem Aufbau neuronal-symbolischer Modelle liegt, mit dem Ziel, das Beste aus Repräsentationslernen und symbolischer Schlussfolgerung zu kombinieren. Die Grundidee besteht darin, neuronale Module, die jeweils einen primitiven Schritt im Schlussfolgerungsprozess darstellen, manuell zu entwerfen und Schlussfolgerungsprobleme zu lösen, indem diese Module zu jeweiligen symbolischen Netzwerken zusammengefügt werden, die den gelösten Schlussfolgerungsproblemen entsprechen.
  • Mit diesem modularisierten Netzwerk mit neuronal-symbolischer Methodik kann ein herkömmliches Problem der visuellen Fragenbeantwortung (VQA) im Allgemeinen richtig gelöst werden, wobei die Fragen im Allgemeinen in Form von Texten vorliegen. Zusätzlich zur VQA wird neuerdings eine abstrakte visuelle Schlussfolgerung vorgeschlagen, um abstrakte Konzepte oder Fragen direkt aus einer visuellen Eingabe ohne natürlichsprachliche Fragestellung, wie aus einem Bild, zu extrahieren und Schlussfolgerungsprozesse dementsprechend durchzuführen. Da Schlussfolgerung über abstrakte Konzepte seit langem eine Herausforderung im Bereich des maschinellen Lernens darstellt, können die derzeitigen Verfahren oder KI-Modelle, wie sie vorstehend beschrieben wurden, bei einer solchen abstrakten visuellen Schlussfolgerung eine unbefriedigende Leistung aufweisen.
  • Es kann wünschenswert sein, noch bessere Verfahren oder KI-Modelle bereitzustellen, um abstrakte visuelle Schlussfolgerungsaufgaben zu verarbeiten.
  • KURZDARSTELLUNG
  • Das Folgende stellt eine vereinfachte Kurzdarstellung eines oder mehrerer Gesichtspunkte gemäß der vorliegenden Offenbarung dar, um ein grundlegendes Verständnis solcher Gesichtspunkte bereitzustellen. Diese Kurzdarstellung ist kein umfassender Überblick über alle in Betracht gezogenen Gesichtspunkte und soll weder Schlüssel- oder kritische Elemente aller Gesichtspunkte identifizieren noch den Umfang eines oder aller Gesichtspunkte abgrenzen. Ihr einziger Zweck besteht darin, einige Konzepte eines oder mehrerer Gesichtspunkte als Vorwegnahme der nachfolgend präsentierten detaillierteren Beschreibung in vereinfachter Form darzustellen.
  • In einem Gesichtspunkt der Offenbarung umfasst ein Verfahren für visuelle Schlussfolgerung: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, abgebildet wird, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
  • In einem weiteren Gesichtspunkt der Offenbarung wird ein Verfahren für visuelles Schlussfolgern mit einem Netzwerk bereitgestellt, das ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst, wobei das Verfahren umfasst: Bereitstellen des Netzwerks mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern; Erzeugen einer Kombination von einem oder mehreren Modulen des Satzes von Modulen basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und dem Satz von Eingabebildern, wobei die Posterior-Verteilung von dem unter Domänenwissen trainierten PGM als eine oder mehrere posteriore Regularisierungsbeschränkungen formuliert wird; Verarbeiten des Satzes von Eingabebildern und des Satzes von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen; und Auswählen eines Kandidatenbildes aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern, die durch das Verarbeiten geschätzt wird.
  • In einem weiteren Gesichtspunkt der Offenbarung umfasst ein Netzwerk für visuelle Schlussfolgerung: einen Satz von Modulen, wobei jeder des Satzes von Modulen als neuronales Netzwerk implementiert ist und mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften aufweist; und ein probabilistisches generatives Modell (PGM), das mit dem Satz von Modulen gekoppelt ist, wobei das PGM konfiguriert ist, um eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen auszugeben.
  • In einem weiteren Gesichtspunkt der Offenbarung umfasst die Vorrichtung für visuelles Denken einen Speicher; und mindestens einen Prozessor, der mit dem Speicher gekoppelt ist. Der mindestens eine Prozessor ist konfiguriert, um ein Netzwerk mit Sätzen von Eingaben und Sätzen von Ausgaben bereitzustellen, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
  • In einem weiteren Gesichtspunkt der Offenbarung umfasst ein Computerprogrammprodukt für visuelles Denken einen durch einen Prozessor ausführbaren Computercode zum Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, abgebildet wird, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
  • In einem weiteren Gesichtspunkt der Offenbarung speichert ein computerlesbares Medium einen Computercode für visuelle Schlussfolgerung. Der Computercode, wenn er durch einen Prozessor ausgeführt wird, veranlasst den Prozessor, ein Netzwerk mit Sätzen von Eingaben und Sätzen von Ausgaben bereitzustellen, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
  • Mit Unterstützung des Domänenwissens können die erzeugten modularisierten Netzwerke Strukturen bereitstellen, die einen von Menschen interpretierbaren Schlussfolgerungsprozess präzise darstellen, was zu einer verbesserten Leistung führen kann.
  • Andere Gesichtspunkte oder Variationen der Offenbarung sowie andere Vorteile werden unter Berücksichtigung der folgenden detaillierten Beschreibung und beigefügten Zeichnungen offensichtlich.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die offenbarten Gesichtspunkte werden nachstehend in Verbindung mit den beigefügten Zeichnungen beschrieben, die bereitgestellt werden, um die offenbarten Gesichtspunkte zu veranschaulichen und nicht zu beschränken.
    • 1 zeigt ein Beispiel für abstrakte visuelle Schlussfolgerung.
    • 2 veranschaulicht ein beispielhaftes Netzwerk, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können.
    • 3A und 38 veranschaulichen beispielhafte modularisierte Netzwerke mit unterschiedlichen Strukturen.
    • 4 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird.
    • 5 stellt ein beispielhaftes Flussdiagramm dar, das einen Optimierungsprozess für eine abstrakte visuelle Schlussfolgerungsaufgabe gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht.
    • 6 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird.
    • 7 veranschaulicht ein weiteres beispielhaftes Netzwerk, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können.
    • 8 stellt ein beispielhaftes Flussdiagramm dar, das einen Optimierungsprozess für eine abstrakte visuelle Schlussfolgerungsaufgabe gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht.
    • 9 veranschaulicht ein Beispiel einer Hardware-Implementierung für eine Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung.
  • DETAILLIERTE BESCHREIBUNG
  • Die vorliegende Offenbarung wird nun unter Bezugnahme auf mehrere beispielhafte Implementierungen erörtert. Es versteht sich, dass diese Implementierungen nur erörtert werden, um es dem Fachmann zu ermöglichen, die Ausführungsformen der vorliegenden Offenbarung besser zu verstehen und somit zu implementieren, und nicht, um Einschränkungen des Schutzumfangs der vorliegenden Offenbarung nahezulegen.
  • Gegenüber den herkömmlichen Computer-Vision-Aufgaben wie Bildklassifizierung und Objekterkennung geht visuelle Schlussfolgerung einen Schritt weiter und erfordert nicht nur ein umfassendes Verständnis des visuellen Inhalts, sondern auch die Fähigkeit, über die extrahierten Konzepte nachzudenken, um Rückschlüsse zu ziehen. 1 zeigt ein Beispiel für abstrakte visuelle Schlussfolgerung, bei dem die acht Bildfelder im linken gestrichelten Kasten eine Reihe von Eingaben und die sechs Bildfelder im rechten gestrichelten Kasten eine Reihe von Ausgaben darstellen. Es können eine oder mehrere gemeinsame Regeln zwischen dem Satz von Eingaben und dem richtigen Satz von Ausgaben vorhanden sein. Um aus mehreren in Frage kommenden Ausgabefeldern das richtige auszuwählen, werden die gemeinsamen Regeln extrahiert und unter Verwendung dieser Regeln auf das richtige Ausgabefeld abgebildet. In dem Beispiel von 1 kann beispielsweise die gemeinsame Regel für die acht Eingabebildfelder eine aufsteigende Anzahl von Formen pro Zeile sein, und das richtige Ausgabefeld D kann basierend auf der Regel ausgewählt werden. Beispielsweise kann das Extrahieren der Regel einer aufsteigenden Anzahl von Formen pro Zeile eine abstrakte Schlussfolgerungsaufgabe auf hoher Ebene sein, die auf einem oder mehreren visuellen Konzepten auf niedriger Ebene basiert, wie verschiedene Formen in jedem der Eingabebildfelder. [0027] Die vorliegende Offenbarung schlägt ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell vor, das mit Domänenwissen regularisiert wird. Ein neuronal-symbolisches Modell kann ein leistungsfähiges Tool bereitstellen, das die symbolische Programmausführung für logisches Denken und tiefes Repräsentationslernen für visuelle Erkennung kombiniert. Beispielsweise kann ein neuronal-symbolisches Modell ein bestimmtes modularisiertes Netzwerk bilden, das für jede Eingabe ein oder mehrere Module umfasst, die jeweils aus einem Satz von Modulen ausgewählt werden, wie einem Bestand an wiederverwendbaren Modulen. Eine probabilistische Formulierung zum Trainieren von Modellen mit stochastischen latenten Variablen kann ein interpretierbares und lesbares Schlussfolgerungssystem mit weniger Überwachungen erhalten.
  • Domänenwissen kann bei der Erzeugung eines angemessenen modularisierten Netzwerks eine Orientierungshilfe bereitstellen, da es sich im Allgemeinen um ein Optimierungsproblem mit einer Mischung aus kontinuierlichen und diskreten Variablen handelt. Mit Unterstützung des Domänenwissens können die erzeugten modularisierten Netzwerke Strukturen bereitstellen, die einen von Menschen interpretierbaren Schlussfolgerungsprozess präzise darstellen, was zu einer verbesserten Leistung führen kann.
  • 2 veranschaulicht ein beispielhaftes Netzwerk 200, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können. Beispielsweise kann das Netzwerk 200 ein probabilistisches generatives Modell (PGM) 210 und einen Satz von Modulen 220 einschließen, wie einen Bestand an wiederverwendbaren Modulen. In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Vielzahl von Kombinationen von einem oder mehreren Modulen aus dem Satz von Modulen 220 ausgewählt werden, um jeweilige Sätze von Eingaben zu lösen, und die Vielzahl von Kombinationen des Satzes von Modulen 220 kann als eine latente Variable betrachtet werden, für die eine Posterior-Verteilung durch das PGM 210 formuliert werden kann, indem ein Datensatz gelernt wird. Beispielsweise können ein oder mehrere Module aus dem Bestand an wiederverwendbaren Modulen ausgewählt werden, um ein modularisiertes Netzwerk mit einer Struktur zusammenzustellen, die die zusammengestellten Module und die Verbindungen dazwischen angibt. Beispielsweise kann die Struktur des zusammengestellten modularisierten Netzwerks als gerichteter azyklischer Graph (DAG) dargestellt werden. Das PGM 210 kann verwendet werden, um eine Verteilung über Strukturen modularisierter Netzwerke zu formulieren, wobei der Satz von Modulen 220 ein Bestand an wiederverwendbaren Modulen für das Zusammenstellen von modularisierten Netzwerken sein kann. Beispielsweise kann das PGM 210 eine Posterior-Verteilung über Strukturen von modularisierten Netzwerken durch Lernen eines Datensatzes formulieren. Die formulierte Posterior-Verteilung über Strukturen von modularisierten Netzwerken kann mit Domänenwissen regularisiert werden.
  • Beispielsweise kann das PGM 210 einen Variations-Autoencoder (VAE) umfassen, wobei ein Encoder eines VAE eine variierende Posterior-Verteilung von Strukturen modularisierter Netzwerke formulieren kann, und ein Decoder des VAE eine generative Verteilung formulieren kann. Die formulierte variierende Posterior-Verteilung von Strukturen modularisierter Netzwerke durch den Encoder kann eine geschätzte Posterior-Verteilung von Strukturen modularisierter Netzwerke basierend auf dem beobachteten Datensatz sein. Die formulierte generative Verteilung durch den Decoder kann zur Rekonstruktion verwendet werden (wie über Route 4 von 8 veranschaulicht). In einigen Gesichtspunkten der vorliegenden Offenbarung kann ein Decoder im PGM 210 weggelassen werden. In anderen Gesichtspunkten der vorliegenden Offenbarung können sowohl ein Encoder als auch ein Decoder im PGM 210 vorhanden sein.
  • Beispielsweise kann der Satz von Modulen 220 ein oder mehrere vorgefertigte neuronale Module umfassen, von denen jedes einen primitiven Schritt in einem Schlussfolgerungsprozess darstellt. Beispielsweise kann jedes Modul des Satzes von Modulen 220 als mehrschichtiges neuronales Netzwerk mit einem oder mehreren trainierbaren Parametern implementiert werden. In einem Gesichtspunkt der vorliegenden Offenbarung kann jedes Modul des Satzes von Modulen 220 dynamisch miteinander verbunden sein, um ein bestimmtes modularisiertes Netzwerk zu bilden, das verwendet werden kann, um einen gegebenen Satz von Eingaben auf die richtige Ausgabe abzubilden. In einem Gesichtspunkt der vorliegenden Offenbarung kann das PGM 210 verwendet werden, um modularisierte Netzwerke mit Strukturen zu erzeugen, die den einzelnen Eingaben entsprechen, um die jeweiligen grundlegenden Regeln innerhalb der einzelnen Eingaben vorherzusagen.
  • 3A und 38 veranschaulichen beispielhafte modularisierte Netzwerke mit unterschiedlichen Strukturen. Beispielsweise kann die Struktur des modularisierten Netzwerks als DAG dargestellt werden, das mit G = (v, A) bezeichnet wird, wobei v G Md, v jeden Knoten (d. h. jedes Modul) der Struktur, M den Satz von Modulen 220, d die Größe der Struktur und A ∈ {0,1}d×d die Adjazenzmatrix darstellt, die die Verbindungen zwischen den Modulen der Struktur darstellen kann. Beispielsweise kann die Anzahl der Scheitelpunkte des Graphen so spezifiziert werden, dass sie kleiner oder gleich einem Schwellenwert ist (z. B. d ≤ 4 oder 6 oder dergleichen), und jeder Scheitelpunkt kann mit einem bestimmten Modul aus dem Satz von Modulen 220 gefüllt werden. Beispielsweise kann der Satz von Modulen M 220 zehn von 0 bis 9 nummerierte Module einschließen, die als v0, v1, v2, v3, v4, v5, v5, v7, v5, v9 dargestellt werden können.
  • Als Beispiel kann die in 3A gezeigte Struktur die Module v1, v2, v3, v4 aufweisen, die jeweils in die Scheitelpunkte 310-1, 310-2, 310-4 und 310-3 gefüllt wurden, sowie eine Adjazenzmatrix A = { 0 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 } .
    Figure DE112021006196T5_0001
  • Als ein weiteres Beispiel kann die in 3B gezeigte Struktur die Module v1, v2, v3, v4 aufweisen, die jeweils in die Scheitelpunkte 310-1, 310-4, 310-3 und 310-2 gefüllt wurden, sowie eine Adjazenzmatrix A = { 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 } .
    Figure DE112021006196T5_0002
  • In einigen Gesichtspunkten der vorliegenden Offenbarung können die modularisierten Netzwerke mit den jeweiligen in 3A und 3B gezeigten Strukturen geeignet sein, unterschiedliche Regeln zu extrahieren, die in unterschiedlichen Sätzen von Eingaben enthalten sind. In einem Gesichtspunkt der vorliegenden Offenbarung kann das Netzwerk 200 oder 700 durch Trainieren eines Datensatzes, umfassend Sätze von Eingaben und Sätze von Ausgaben, die den jeweiligen Sätzen von Eingaben zugeordnet sind, Zuordnungen zwischen den Sätzen von Eingaben und entsprechenden Strukturen erlernen, die dazu verwendet werden können, die jeweiligen korrekten Ausgaben abzubilden. Beispielsweise kann eine Posterior-Verteilung von Strukturen modularisierter Netzwerke durch das PGM 210 erlernt und dazu verwendet werden, eine Struktur eines modularisierten Netzwerks für einen beliebigen Satz von Eingaben abzuleiten. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann Domänenwissen bei der Erzeugung von Strukturen angewendet werden. Beispielsweise kann Domänenwissen auf die Posterior-Verteilung von Strukturen modularisierter Netzwerke angewendet werden, die durch das PGM 210 anhand des Datensatzes als eine oder mehrere posteriore Regularisierungsbeschränkungen gelernt wurden. Unter Zuhilfenahme des Domänenwissens kann die regularisierte Verteilung von Strukturen modularisierter Netzwerke verwendet werden, um eine präzise und interpretierbare Struktur für einen Satz von Eingaben zu erzeugen, die möglicherweise ausgeblendete Regeln innerhalb des Satzes von Eingaben darstellen.
  • Ein Fachmann wird verstehen, dass auch andere Strukturen und andere Darstellungen für mindestens einen Teil des Satzes von Modulen 220 möglich sind.
  • 4 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren 400 zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird. Beispielsweise kann das Verfahren 400 durch das Netzwerk 200 und das Netzwerk 700 durchgeführt werden, die nachfolgend ausführlich beschrieben werden. So kann beispielsweise das Verfahren 400 auch durch andere Netzwerke, Systeme oder Modelle durchgeführt werden.
  • In Block 410 können Sätze von Eingaben und Sätze von Ausgaben einem Netzwerk 200 oder 700 bereitgestellt werden, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen Satz von Ausgaben abgebildet werden kann, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben. Die Sätze von Eingaben und die Sätze von Ausgaben können beispielsweise einen Trainingsdatensatz umfassen, wie den prozedural generierten Matrix (Procedurally Generated Matrice (PGM))-Datensatz oder den relationalen und analogen visuellen rEasoNing-Datensatz (RAVEN) oder dergleichen. Das Netzwerk 200, 700 kann ein probabilistisches generatives Modell (PGM) 210, 710 und einen Satz von Modulen 220, 720 umfassen.
  • Bei Block 420 kann durch das PGM 210, 710 basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben eine Posterior-Verteilung in Bezug auf den Satz von Modulen 220, 720 bestimmt werden. In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 durch das PGM 210, 710 basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben bestimmt werden. In einem Beispiel können die Kombinationen eines oder mehrerer Module des Satzes von Modulen 220, 720 modularisierte Netzwerke umfassen, die aus einem oder mehreren Modulen des Satzes von Modulen 220, 720 zusammengesetzt sind, wobei die modularisierten Netzwerke Strukturen aufweisen können, die als G = (v, A) dargestellt werden können. In einem weiteren Beispiel können die Kombinationen eines oder mehrerer Module des Satzes von Modulen 220 beliebige Permutationen eines oder mehrerer Module aus dem Satz von Modulen 220 umfassen. Beispielsweise kann das PGM 210 ein VAE umfassen. Eine geschätzte Posterior-Verteilung über Strukturen von modularisierten Netzwerken kann durch einen Encoder des VAE basierend auf dem beobachteten Datensatz formuliert werden.
  • In Block 430 kann das Domänenwissen auf die bestimmte Posterior-Verteilung des Satzes von Modulen 220 als eine oder mehrere posteriore Regularisierungsbeschränkungen angewendet werden. Beispielsweise kann ein regularisiertes Bayes'sches Rahmenwerk (RegBayes) verwendet werden, um menschliches Domänenwissen in Bayes'sche Verfahren durch direktes Anwenden von Beschränkungen auf die Posterior-Verteilung zu integrieren. Die Flexibilität von RegBayes kann die explizite Berücksichtigung von Domänenwissen ermöglichen, indem Wissen in beliebige Bayes'sche Modelle als weiche Beschränkungen integriert wird.
  • Unter Zuhilfenahme des Domänenwissens kann das Verfahren 400 genutzt werden, um präzise und interpretierbare Strukturen für unterschiedliche Sätze von Eingaben zu erzeugen, da die erzeugten Strukturen verborgene Regeln zwischen den Sätzen von Eingaben erfassen können.
  • Ein Fachmann wird verstehen, dass auch andere probabilistische generative Modelle möglich sind und andere Verteilungen in Bezug auf den Satz von Modulen 220 möglich sein können.
  • In einem Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere posteriore Regularisierungsbeschränkungen eine oder mehrere Beschränkungen der Logik erster Ordnung (FOL) umfassen, die möglicherweise Domänenwissen enthalten. Beispielsweise kann eine Beschränkungsfunktion aus Berechnungen der Logik erster Ordnung über jede der Strukturen und jeden der Sätze von Eingaben bestehen. Insbesondere nimmt jede Beschränkungsfunktion jede der Strukturen und jeden der Sätze von Eingaben als Eingabe und berechnet den entworfenen Ausdruck der Logik erster Ordnung als Ausgabe. Die Ausgabe der Beschränkungsfunktion kann einen Wert in einem Bereich von [0, 1] annehmen, der den Grad angibt, in dem die Eingabe jeder der Strukturen und jeder der Sätze von Eingaben einer spezifischen Anforderung entspricht, wobei ein niedrigerer Wert eine stärkere Übereinstimmung zeigen kann. Daher kann das Netzwerk 200 durch Minimieren von Werten solcher Beschränkungsfunktionen während der Optimierung der Posterior-Verteilung von Strukturen lernen, Strukturen zu erzeugen, die dem angewendeten Domänenwissen entsprechen können.
  • In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann es vorteilhaft sein, innere Zusammenhänge zwischen Beschränkungen zu berücksichtigen. Beschränkungen, die unterschiedliche Gesichtspunkte des Domänenwissens berücksichtigen, können unabhängig voneinander sein. Andererseits können Beschränkungen, die auf unterschiedliche Knoten einer Struktur angewendet werden, aber den gleichen Gesichtspunkt des Domänenwissens teilen, miteinander korreliert werden. Dementsprechend können die Beschränkungen, die den gleichen Gesichtspunkt des Domänenwissens teilen, in eine Gruppe von Beschränkungen gruppiert werden. Beispielsweise können insgesamt L Gruppen von Beschränkungen vorgeschlagen werden, wobei jede Gruppe einem bestimmten Schlussfolgerungstyp entspricht, einschließlich der booleschen logischen Schlussfolgerung, der zeitlichen Schlussfolgerung, der räumlichen Schlussfolgerung, der arithmetischen Schlussfolgerung und dergleichen.
  • In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können die eine oder die mehreren FOL-Beschränkungen basierend auf einer oder mehreren Eigenschaften eines jeden Satzes von Eingaben erzeugt werden. Beispielsweise kann in einem prozedural generierten Matrix (Procedurally Generated Matrices, PGM)-Datensatz jedes Paar eines Satzes von Eingaben und des entsprechenden Satzes von Ausgaben eine oder mehrere Regeln aufweisen, wobei jede Regel als Tripel dargestellt werden kann, T = { [ r , o , a ] : r R , o O , a A } ,
    Figure DE112021006196T5_0003
     
    Figure DE112021006196T5_0004
    die aus den folgenden primitiven Sätzen gesammelt wird:
    • • Beziehungstypen: (
      Figure DE112021006196T5_0005
      mit Elementen r): Progression, XOR, OR, AND, konsistente Vereinigung
    • • Objekttypen: (
      Figure DE112021006196T5_0006
      mit Elementen o): Form, Linie
    • • Attributtypen: (
      Figure DE112021006196T5_0007
      mit Elementen a): Größe, Typ, Farbe, Position, Nummer
  • Diese Tripel können abstrakte Schlussfolgerungsregeln bestimmen durch einen bestimmten Satz von Eingaben und die entsprechende korrekte Ausgabe. Beispielsweise, wenn
    Figure DE112021006196T5_0008
    das Tripel [Progression, Form, Farbe] enthält, kann der Satz von Eingaben und die entsprechende korrekte Ausgabe eine progressive Beziehung aufweisen, die sich auf die Farbe (z. B. die Graustufenintensität) von Formen bezieht. Beispielsweise kann jeder Attributtyp a A
    Figure DE112021006196T5_0009
    (z. B. Farbe) einen von einer endlichen Anzahl diskreter Werte z ∈ Z annehmen (z. B. 10 Ganzzahlen zwischen [0, 255] für die Graustufenintensität). Daher kann eine gegebene Regel
    Figure DE112021006196T5_0010
    eine Vielzahl von Realisierungen abhängig von den Werten für die Attributtypen aufweisen, aber alle diese Realisierungen können derselben grundlegenden abstrakten Regel unterliegen. Auswahl von r kann die zu realisierenden Werte von z einschränken. Wenn beispielsweise r eine Progression ist, können die Werte von z entlang der Zeilen oder Spalten in der Matrix von Eingabebildfeldern zunehmen und nach dieser Regel mit unterschiedlichen Werten variieren.
  • In einem Gesichtspunkt der vorliegenden Offenbarung können die eine oder die mehreren FOL-Beschränkungen basierend auf mindestens einem von Beziehungstypen, Objekttypen oder Attributtypen der Sätze von Eingaben erzeugt werden. Beispielsweise kann eine beispielhafte Formation einer FOL-Beschränkung gegeben sein durch: Φ j ( G , x ) : = 1 1 [ v j S ( x ) ]
    Figure DE112021006196T5_0011
  • Wobei 1 [•] die Indikatorfunktion ist und vj ∈ s(x) wahr ist, wenn die semantische Darstellung von vj zu finden ist in S(x). Wobei S(x) semantische Attribute eines Satzes von Eingaben x sind, die von einem oder mehreren Tripeln T { [ r , o , a ] }
    Figure DE112021006196T5_0012
    des Satzes von Eingaben x extrahiert werden können. Wobei der j-te Knoten in der Struktur G bezeichnet wird durch vj.
  • In einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung kann eine Gruppe von FOL-Beschränkungen erzeugt werden, basierend auf einem oder mehreren Tripeln T { [ r , o , a ] }
    Figure DE112021006196T5_0013
    des Satzes von Eingaben x, gemäß einem bestimmten Gesichtspunkt des Domänenwissens, wie logische Schlussfolgerung, zeitliche Schlussfolgerung, räumliche Schlussfolgerung oder arithmetische Schlussfolgerung und dergleichen. Beispielsweise kann die logische Schlussfolgerung logische UND, ODER, XOR oder dergleichen umfassen. Beispielsweise kann die arithmetische Schlussfolgerung arithmetische ADD, SUB, MUL und dergleichen umfassen. Beispielsweise kann die räumliche Schlussfolgerung STRUC (Struktur) umfassen, z. B. zum Ändern der Berechnungsregeln von Eingabemodulen und dergleichen. Beispielsweise kann die zeitliche Schlussfolgerung PROG (Fortschritt), ID (Identisch) und dergleichen umfassen.
  • In einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung kann eine Gruppe von FOL-Beschränkungen, die gemäß einem bestimmten Gesichtspunkt des Domänenwissens erzeugt werden, auf jeden der Knoten einer Struktur angewendet werden. Beispielsweise können Beschränkungen in der Gruppe eine FOL-Regel für alle Knoten der Struktur durchführen, die einen bestimmten Gesichtspunkt des Domänenwissens überprüfen kann.
  • Ein Fachmann wird verstehen, dass der eine oder die mehreren der vorstehend beschriebenen Gesichtspunkte durch das Netzwerk 200, 700 oder andere Netzwerke, Systeme oder Modelle durchgeführt werden können.
  • In einem Beispiel können in dem beispielhaften Flussdiagramm von Verfahren 400 Schlussfolgerungsaufgaben durchgeführt werden, indem trainierbare Parameter von PGM 210, 710 und Modulen des Satzes von Modulen 220, 720 optimiert werden, um den Vorhersageverlust über beobachtete Stichproben zu minimieren, wie durch das folgende Ziel formuliert: min φ m i n θ l e r r ( φ , θ ) : = D G q φ [ l o g   p n e t ( y n | x n , G , θ ) ]
    Figure DE112021006196T5_0014
  • Wobei φ trainierbare Parameter im PGM 210,710 bezeichnet, ϑ trainierbare Parameter von Modulen des Satzes von Modulen 220,720 bezeichnet und D = {(xn, yn)}n=1:N einen Datensatz umfasst, der die n-te Eingabe xn, zugeordnet zur Ausgabe yn, bezeichnet.
  • In einem Gesichtspunkt der vorliegenden Offenbarung kann das Netzwerk 200, 700 ein PGM 210, 710 nutzen, um eine generative Verteilung pφ(x|G) und eine Variationsverteilung qφ(G|x) darzustellen. Beispielsweise kann ein Encoder einer VAE die Variationsverteilung qφ(G|x), darstellen, und ein Decoder der VAE kann die generative Verteilung pφ(x|G) darstellen. Insbesondere durch Optimieren der Formulierung (2) wird eine geschätzte Posterior-Verteilung der Strukturen p̃φ0 (G|x) und der entsprechenden Modulparameter ϑ0 erhalten.
  • In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere FOL-Beschränkungen zur Regularisierung angewendet werden, um die neue Posterior-Verteilung der Strukturen (l)darzustellen. Formal lässt sich das Gesamtziel formulieren als: min φ , ξ , η m i n θ   l e r r ( φ , θ ) + C 1 i = 1 L ξ i + C 2 η , s .t i , E x n D | E G q φ [ j = 1 T i Φ i j ( G , x n ) ] | ξ i + ε , K L [ q φ ( G | x ) p ˜ φ 0 ( G | x ) ] η + ε , Wobei  φ 0 = a r g m i n φ l e r r ( φ ; θ )
    Figure DE112021006196T5_0015
  • Wobei qφ(G|x) die regularisierte Posterior-Verteilung der Strukturen ist, p̃φ0 (G|x) die geschätzte Posterior-Verteilung der Strukturen ist, gegeben durch Optimieren der Formulierung (2), ξi=1:L ≥ 0 und η ≥ 0 sind Schlupfvariablen mit entsprechenden Regularisierungsparametern C1 und C2, und e ist ein kleiner positiver Präzisionsparameter.
  • Die Φcij (G, xn) Funktionen in Formulierung (3), deren Werte durch die Schlupfvariablen begrenzt werden können, sind FOL-Beschränkungen. In einem Beispiel kann jede Beschränkungsfunktion einen Wert im Bereich von [0,1] annehmen, wobei ein kleinerer Wert eine bessere Übereinstimmung zwischen der Struktur G und der Eingabe xn gemäß dem Domänenwissen bezeichnen kann. Es ist zu beachten, dass Beschränkungsfunktionen L Gruppen bilden können, anstatt unabhängig voneinander zu sein. Die i-te Gruppe kann Ti korrelierende Beschränkungen umfassen, die einer gemeinsamen Schlupfvariablen (i entsprechen können.
  • Während das Hauptziel von Formulierung (3) darin bestehen kann, den Aufgabenverlust ℓerr, zu minimieren, können die Schlupfvariablen ξi=1:L in der Formulierung die FOL-Beschränkungen berücksichtigen. Der Prozess der Strukturerzeugung kann mit dem angewendeten Domänenwissen regularisiert werden. Um das Minimum des Gesamtziels zu erreichen, kann das Netzwerk 200, 700 lernen, Strukturen zu erzeugen, die den angewendeten FOL-Beschränkungen gerecht werden. Darüber hinaus kann die KL-Divergenz zwischen qφ(G|x) und p̃φ0 (G|x) als zusätzliche Beschränkung betrachtet werden, die verhindern kann, dass das Netzwerk 200 oder 700 übermäßig auf das Domänenwissen reagiert.
  • Außerdem können eine oder mehrere zusätzliche Beschränkungen hinzugefügt werden, und eine oder mehrere der vorstehend beschriebenen beispielhaften Beschränkungen können weggelassen werden.
  • 5 veranschaulicht ein beispielhaftes Flussdiagramm, das einen Optimierungsprozess 500 für die Formulierung (3) gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung darstellt. Beispielsweise kann der Prozess 500 durch das Netzwerk 200, das Netzwerk 700, das nachfolgend ausführlich beschrieben wird, oder andere Netzwerke, Systeme, Modelle oder dergleichen durchgeführt werden.
  • In Block 510 können Parameter des PGM 210, 710 und Parameter von Modulen des Satzes von Modulen 220, 720 alternativ durch Maximieren von Evidenzen der Sätze von Eingaben und der Sätze von Ausgaben aktualisiert werden, um eine geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Sätzen von Modulen des Satzes von Modulen 220, 720 und optimierten Parametern der Module des Satzes von Modulen 220, 720 zu erhalten.
  • In Block 520 können eine oder mehrere Gewichtungen von einer oder mehreren posterioren Regularisierungsbeschränkungen, die auf die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 angewendet werden, aktualisiert werden, um eine oder mehrere optimale Lösungen der einen oder mehreren Gewichtungen zu erhalten.
  • In Block 530 kann die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 durch Anwenden der einen oder der mehreren optimalen Lösungen der einen oder der mehreren Gewichtungen und der einen oder der mehreren Werte der einen oder der mehreren Beschränkungen auf die geschätzte Posterior-Verteilung angepasst werden.
  • In Block 540 können die optimierten Parameter der Module des Satzes von Modulen 220, 720 basierend auf der angepassten geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 aktualisiert werden, um in die aktualisierte Strukturverteilung zu passen.
  • In einem Beispiel, angenommen ϑ ist fest, kann das Ziel des probabilistischen generativen Modells durch Maximieren der Evidenz der beobachteten Datenproben gegeben sein, was geschrieben werden kann als: min φ   l p r o b ( φ , θ ) : = n l o g p ( x n , y n ) = n [ l o g p ( x n ) + l o g p ( y n | x n ) ] n E G q φ [ l o g p φ ( x n | G ) β l o g p φ ( G | x n ) + β l o g p ( G ) + γ l o g p n e t ( y n | x n , G , θ ) ] ,
    Figure DE112021006196T5_0016
  • Wobei der Skalierungs-Hyperparameter die Vorhersagewahrscheinlichkeit ist und ein konstanter Parameter ist, der β > 1 erfüllt. Da ℓprob(φ, θ) für den Erwartungswert EG~qφ , möglicherweise nicht differenzierbar ist, kann der REINFORCE-Algorithmus angewendet werden, um einen geschätzten Gradienten für die Aktualisierungen zu erhalten. Aktualisierungen von können direkt mit Gradienten berechnet werden.
  • Angenommen, die PGM 210, 710-Parameter haben das Optimum erreicht, kann das Optimieren des Prozesses über ϑ zum Optimieren der Ausführungsleistung des Netzwerks werden, was geschrieben werden kann als: m i n θ   l e r r ( φ , θ ) = D G q φ [ l o g   p n e t ( y n | x n , G , θ ) ]
    Figure DE112021006196T5_0017
  • Der Gradient ∇θerr(φ, θ) kann mit stochastischem Gradientenabstieg (SGD) geschätzt werden, wobei die Struktur G während des Trainings erfasst wird.
  • Angenommen, die Ergebnisse des vorstehenden Optimierungsvorgangs in Bezug auf Formulierung (2) werden mit φ0 und θ0, bezeichnet, und die geschätzte Posterior-Verteilung der Strukturen kann mit p̃φ0 (G|x). bezeichnet werden. Um eine angenäherte Lösung für Formulierung (3) zu erhalten, kann φ0 als fest betrachtet werden, und das Ziel kann in eine RegBayes-Formation transformiert werden, die geschrieben werden kann als: m i n φ , ξ , η K L [ q φ ( G | x ) p ˜ φ 0 ( G | x ) ] + C i = 1 L ξ i , s .t E x n D | E G q φ [ j = 1 T i Φ i j ( G , x n ) ] | ξ i + ε ,
    Figure DE112021006196T5_0018
  • In einem Gesichtspunkt der vorliegenden Offenbarung kann ein durch die Konvexanalyse eingeführtes duales Problem zur Lösung der Formulierung (6) angewendet werden. Daher kann durch das Einführen von Variablen des dualen Problems, µ, eine optimale Verteilung des RegBayes-Ziels durch folgende Formulierung erhalten werden: q φ ( G | x ; μ * ) = p ˜ φ 0 ( G | x ) Z ( μ * ) e x p ( i = 1 L μ * | Φ [ i ] ( D ) ( G , x ) )
    Figure DE112021006196T5_0019
  • Wobei Φ [ i ] ( D ) ( G , x )
    Figure DE112021006196T5_0020
    die gruppierte Summierung der FOL-Beschränkungen in der i-ten Gruppe ist, Φ [ i ] ( D ) ( G , x ) : = j = 1 T i Φ i j ( D ) ( G , x )
    Figure DE112021006196T5_0021
  • Wobei jeder Φ i j ( D ) ( G , x )
    Figure DE112021006196T5_0022
    ein Erwartungswert über beobachtete Proben für die entsprechende Beschränkungsfunktion ist, Φ i j ( D ) ( G , x ) : = E x n D [ Φ i j ( G , x n ) ]
    Figure DE112021006196T5_0023
  • Z (µ*) der Normalisierungsfaktor für qφ ist, wobei µ* die optimale Lösung des dualen Problems ist: m a x μ L ( μ ) = l o g Z ( μ ) ε i = 1 L μ i , s . t .   | μ i | C ,   i = 1,2, ., L
    Figure DE112021006196T5_0024
    wobei C und E Hyperparameter in Formulierung (3) sind.
  • Die Optimierung des dualen Problems (10) kann mit einem angenäherten stochastischen Gradientenabstiegsverfahren (SGD) verarbeitet werden. Insbesondere kann der Gradient angenähert werden als: μ i log Z ( μ ) = G q φ ( G | x ) Φ [ i ] ( D ) ( G , x ) Φ ^ [ i ] ( G , x ) ,   i = 1,2, , L
    Figure DE112021006196T5_0025
  • Wobei die erste Gleichung auf die Dualität zurückzuführen ist und die Annäherung darin besteht, den Erwartungswert zu schätzen, Φ̂[i](G,x), der durch gleichmäßiges Abtasten der beobachteten Proben und Berechnen der Beschränkungsfunktionswerte gegeben sein kann. Insbesondere können die Aktualisierungen µi gegeben sein durch die SGD-Regel: μ i ( t + 1 ) = P r o j [ C , C ] ( μ i ( t ) + r t ( μ i l o g Z ( μ ) + ε ) )
    Figure DE112021006196T5_0026
  • Wobei Proj[-C,C] die euklidische Projektion der Eingabe auf [-C, C] bezeichnet und rt die Schrittlänge ist. Nach dem Lösen von µ* kann die regularisierte Posterior-Verteilung der Strukturen qφ(G|x) gegeben sein durch die Formulierung (7). Die Modulparameter ϑ können ferner optimiert werden, damit sie in die aktualisierte Strukturverteilung passen.
  • In einem Beispiel kann die Gesamtpipeline des beispielhaften Optimierungsprozesses 500 in Algorithmus 1 dargestellt werden.
  • Algorithmus 1:
    • ♦ Zufälliges Initialisieren von ϑ, φ und µ
    • ♦ Bei Konvergenz mit
      1. 1) Satz ϑ ist fest, Gradient ∇ℓprob(, ϑ) wird berechnet, um φ gemäß Formulierung (4) zu aktualisieren;
      2. 2) Satz q ist fest, Gradient ∇ϑerr(, ϑ) wird berechnet, um ϑ gemäß Formulierung (5) zu aktualisieren;
    • ♦ Ende
    • ♦ kann φ0 das Ergebnis des vorstehenden Verfahrens bezeichnen;
    • ♦ Bei Konvergenz mit
      • 3) Aktualisieren von µ gemäß dem dualen Problem (10), wobei die Aktualisierungen in der Formulierung (12) gegeben sind;
    • ♦ Ende
    • ♦ 4) Berechnen von q (G|x) in Formulierung (7) mit φ0 und µ*;
    • ♦ Bei Konvergenz mit
      • 5) Berechnen des Gradienten ∇ϑerr(, ϑ) um ϑ gemäß Formulierung (5) zu aktualisieren;
    • ♦ Ende
  • Wobei µ als Gewichtung der FOL-Beschränkungen betrachtet werden kann. In einem Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere FOL-Beschränkungen in eine oder mehrere Gruppen von FOL-Beschränkungen gruppiert werden, und die gruppierten FOL-Beschränkungen können zusammen nur einer Gewichtung entsprechen. Wie in Schritt 3) von Algorithmus 1 veranschaulicht, muss der Optimierungsprozess 500 möglicherweise mehrere Iterationsberechnungen durchführen, um jede der Gewichtungen zu aktualisieren, bis er konvergiert. Die gruppierten FOL-Beschränkungen können die Anzahl der Gewichtungen reduzieren, was dementsprechend Rechenressourcen einsparen kann.
  • In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann ein Wert einer FOL-Beschränkung basierend auf einer Korrelation zwischen einem Satz von Eingaben und einem Modul in einer Kombination von einem oder mehreren Modulen des Satzes von Modulen bestimmt werden, die gemäß der geschätzten posterioren Verteilung angesichts des Satzes von Eingaben erzeugt wurde. Beispielsweise kann sich die Korrelation darauf beziehen, ob die semantische Darstellung eines Moduls in einer Struktur, die gemäß der geschätzten Posterior-Verteilung (z. B. bei xn, φ0) veranschaulicht wird, in S(xn) zu finden ist, wie durch Formulierung (1) veranschaulicht.
  • 6 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren 600 zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird. Beispielsweise kann das Verfahren 600 durch das Netzwerk 200 oder das Netzwerk 700 durchgeführt werden, die nachfolgend ausführlich beschrieben werden. So kann beispielsweise das Verfahren 600 auch durch andere Netzwerke, Systeme oder Modelle durchgeführt werden.
  • In Block 610 kann das Netzwerk 200, 700 mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern bereitgestellt werden.
  • In Block 620 kann eine Kombination von einem oder mehreren Modulen des Satzes von Modulen 220, 720 basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 und dem Satz von Eingabebildern erzeugt werden, wobei die Posterior-Verteilung durch das PGM 210, 710, das unter Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen trainiert wurde, formuliert wird. In einem Beispiel kann der Trainingsprozess gemäß dem Verfahren 400 unter Bezugnahme auf 4, wie vorstehend veranschaulicht, durchgeführt werden.
  • In Block 630 kann der Satz von Eingabebildern und der Satz von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen des Satzes von Modulen 220, 720 verarbeitet werden.
  • In Block 640 kann ein Kandidatenbild ausgewählt werden aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern geschätzt durch das Verarbeiten.
  • 7 veranschaulicht ein weiteres beispielhaftes Netzwerk 700, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können. Das Netzwerk 700 kann ein Beispiel des Netzwerks 200 sein, wie in 2 veranschaulicht. Beispielsweise kann das Netzwerk 700 ein probabilistisches generatives Modell (PGM) 710 und einen Satz von Modulen 720 einschließen, wie einen Bestand an wiederverwendbaren Modulen. Das PGM 710 und der Satz von Modulen 720 können ein Beispiel des PGM 210 bzw. des Satzes von Modulen 220 sein. Jedes Modul des Satzes von Modulen 720 kann eine Verarbeitungsart umfassen, die vorgegeben sein kann, um zu bewerten, ob die Felder eine spezifische Beziehung erfüllen. Die Verarbeitungsarten können die Operatoren logisches UND, logisches ODER, logisches XOR, arithmetisches ADD, arithmetisches SUB, arithmetisches MUL und dergleichen umfassen. Darüber hinaus kann jedes Modul des Satzes von Modulen 720 einen oder mehrere trainierbare Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften umfassen. Beispielsweise kann ein Modul einen Typ eines logischen UND aufweisen und über die trainierbaren Parameter, die durch einen Datensatz trainiert werden, auf unterschiedliche Bildeigenschaften fokussieren. Beispielsweise kann das Modul mit dem Typ eines logischen AND eine logische UND-Verknüpfung zwischen Linienfarben durchführen, und es kann auch eine logische UND-Verknüpfung zwischen Formpositionen durchführen, abhängig von unterschiedlichen trainierten Werten der trainierbaren Parameter.
  • In einem Gesichtspunkt der vorliegenden Offenbarung kann jedes Modul des Satzes von Modulen 720 konfiguriert sein, um einen vorentwickelten Prozess auf einer oder mehreren variablen Bildeigenschaften durchzuführen, und die eine oder die mehreren variablen Bildeigenschaften können sich aus dem Verarbeiten einer Eingabebildmerkmalskarte durch mindestens einen trainierbaren Parameter ergeben. Beispielsweise kann ein Modul mit einem Typ eines logischen UND wie folgt dargestellt werden: ƒ U N D ( d , e ) = ( W d d ) Λ ( W e e )
    Figure DE112021006196T5_0027
  • Wobei d und e Eingabefeldmerkmale sind, Wd und We sind trainierbare Parameter zum Fokussieren auf eine spezifische Feldeigenschaft.
  • In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Bildfeldeigenschaft eine beliebige Eigenschaft umfassen, die auf einem Bild vorhanden sein kann. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere variable Bildeigenschaften unter Zuhilfenahme von Domänenwissen Form, Linie, Größe, Typ, Farbe, Position oder Anzahl oder dergleichen umfassen, die zumindest teilweise auf Tripeln T [ r ,   o ,   a ]
    Figure DE112021006196T5_0028
    basieren, von denen Beschränkungen abhängig sein können.
  • In einem Gesichtspunkt der vorliegenden Offenbarung kann PGM 710 konfiguriert sein, um eine Posterior-Verteilung über Strukturen modularisierter Netzwerke 730 auszugeben, die aus dem Satz von Modulen 720 zusammengesetzt sind, wobei die Strukturen 730 die Typen der zusammengesetzten Module und die Verbindungen dazwischen identifizieren können. Die eine oder die mehreren variablen Bildeigenschaften eines jeden Moduls 740 können durch Trainieren der mindestens einen trainierbaren Parameter bestimmt werden. Die getrennte Erzeugung von Strukturen 730 (z. B. durch das PGM 710 erzeugt) und variablen Bildeigenschaften 740 (z. B. erzeugt basierend auf den trainierbaren Parametern) kann dem Netzwerk 700 mehr Flexibilität bei der Abstraktion von Konzepten auf hoher Ebene und beim repräsentativen Lernen bereitstellen.
  • 8 zeigt ein beispielhaftes Diagramm, das ein Beispiel für das Durchführen des Verfahrens 400, des Optimierungsprozesses 500 oder des Verfahrens 600 durch ein Netzwerk 800 gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht. Beispielsweise kann das Netzwerk 800 ein Beispiel des Netzwerks 200 oder des Netzwerks 700 sein. Beispielsweise kann ein VAE, der einen Encoder 810-1 und einen Decoder 810-2 umfasst, ein Beispiel für das PGM 210 oder 710 sein. Der Satz von Modulen 820 kann ein Beispiel für den Satz von Modulen 220, 720 sein und kann Strukturen G = (v, A) bilden. Das Subnetzwerk 860 kann verwendet werden, um für jedes Kandidatenbildfeld eine Punktzahl zu berechnen, die dementsprechend einen Korrelationsgrad zwischen jedem Kandidatenbildfeld und einem Ergebnis der Verarbeitung eines Satzes von Eingaben gemäß einem erzeugten modularisierten Netzwerk mit einer Struktur G = (v, A) angibt. Beispielsweise kann die Punktzahl basierend auf verschiedenen Metriken, wie einer Energiefunktion, berechnet werden, wobei eine höhere Energie eine bessere Korrelation angeben kann. Die Posterior-Verteilungseinheit 850 kann Parameter einer Posterior-Verteilung speichern, die von dem Encoder 810-1 ausgegeben wird und basierend auf denen eine Struktur erzeugt werden kann, z. B. durch Abtasten gemäß den Parametern der Posterior-Verteilung.
  • In einem Beispiel kann das Verfahren 400 damit beginnen, das Netzwerk 800 mit Sätzen von Eingaben und Sätzen von Ausgaben (z. B. über Route 1) bereitzustellen, wobei jeder Satz von Eingaben (z. B. X1 von 3 × 3 Feldern von 8) der Sätze von Eingaben auf einen Satz von Ausgaben (z. B. das erste Feld in der ersten Zeile von Y1 von 8) der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, und wobei das Netzwerk 800 ein probabilistisches generatives Modell (PGM) (z. B. einen Encoder 810-1 und einen Decoder 810-2) und einen Satz von Modulen 820 umfasst. Der Encoder 810-1 kann den Satz von Eingaben X1 in Verteilungsparameter abbilden oder codieren (z. B. λ1, σ1 bei Annahme von p(G|x)~N(λ, σ)) für eine oder mehrere Variablen (z. B. insgesamt 20 Variablen für eine Summierung von 4x4 Adjazenzmatrixeinträgen und 4 Vertices der Beispiele von 3A und 3B), basierend auf denen eine Struktur G = (v, A) erzeugt werden kann. Die Sätze von Eingaben Xi und/oder Ausgaben Y1 können dem erzeugten modularisierten Netzwerk mit der erzeugten Struktur G = (v, A) über Route 2 bereitgestellt und verarbeitet werden. Das Subnetzwerk 860 kann die verarbeiteten Eingaben Xi und Ausgaben Y1 verwenden, um die Bewertung der richtigen Ausgabe (z. B. das erste Feld in der ersten Zeile von Y1 von 8) über die Routen 3 und 5 zu berechnen.
  • Das Verfahren 400 kann das unter Bezugnahme auf die Eingaben Xi und Ausgaben Y1, beschriebene Verfahren wiederholen, z. B. mit X2, Y2, X3, Y3, ..., Xn, Yn. Die Parameter φ, ϑ des Encoders 810-1, des Decoders 810-2 und der Module des Satzes von Modulen 820 können gemäß dem vorstehend unter Bezugnahme auf 5 beschriebenen Optimierungsprozess 500 aktualisiert werden, um die geschätzte Posterior-Verteilung von Strukturen zu erhalten, die mit p̃φ0 (G|x). bezeichnet werden. Darüber hinaus können optimale Lösungen der Gewichtungen µ* erhalten und zum Berechnen der regularisierten Posterior-Verteilung von Strukturen gemäß dem vorstehend unter Bezugnahme auf 5 beschriebenen Optimierungsprozess 500 verwendet werden, z. B. über Route 6.
  • Vorzugsweise können die Parameter ϑ der Module des Satzes von Modulen 820 ferner so aktualisiert werden, dass sie in die aktualisierte regularisierte Posterior-Verteilung von Strukturen hineinpassen.
  • In einem Gesichtspunkt der vorliegenden Offenbarung kann der Decoder 810-2 für eine Rückwärtspropagation verwendet werden, z. B. über Route 4. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann der Decoder 810-2 weggelassen werden.
  • In einem Beispiel kann das Verfahren 600 für einen Inferenzprozess durchgeführt werden, nachdem das Netzwerk 800 gemäß dem Verfahren 400 und/oder dem Optimierungsprozess 500 trainiert wurde.
  • Ein Fachmann wird verstehen, dass die Posterior-Verteilung 850 und/oder das Subnetzwerk 860 in einen oder mehrere Teile des Netzwerks 800 integriert werden kann, anstatt als separater Teil in 8 veranschaulicht zu sein, abhängig von einer Designpräferenz und/oder einer spezifischen Implementierung, ohne von der vorliegenden Offenbarung abzuweichen.
  • 9 veranschaulicht ein Beispiel einer Hardware-Implementierung für eine Vorrichtung 900 gemäß einer Ausführungsform der vorliegenden Offenbarung. Die Vorrichtung 900 zur visuellen Schlussfolgerung kann einen Speicher 910 und mindestens einen Prozessor 920 umfassen.
  • Der Prozessor 920 kann mit dem Speicher 910 gekoppelt und konfiguriert werden, um das Verfahren 400, den Optimierungsprozess 500 und das Verfahren 600 durchzuführen, wie vorstehend unter Bezugnahme auf 4, 5 und 6 beschrieben. Der Prozessor 920 kann ein Universalcomputer sein oder auch als eine Kombination von Rechenvorrichtungen implementiert werden, z. B. eine Kombination aus einem DSP und einem Mikroprozessor, mehreren Mikroprozessoren, einem oder mehreren Mikroprozessoren in Verbindung mit einem DSP-Kern oder einer beliebigen anderen derartigen Konfiguration. Der Speicher 910 kann die Eingabedaten, Ausgabedaten, durch einen Prozessor 920 erzeugte Daten und/oder durch einen Prozessor 920 ausgeführte Anweisungen speichern.
  • Die verschiedenen Vorgänge, Modelle und Netzwerke, die hierin in Verbindung mit der Offenbarung beschrieben werden, können in Hardware, durch einen Prozessor ausgeführte Software, Firmware oder einer beliebigen Kombination davon implementiert sein. Gemäß einer Ausführungsform der Offenbarung kann ein Computerprogrammprodukt für visuelle Schlussfolgerungen einen durch einen Prozessor ausführbaren Computercode zum Durchführen des Verfahrens 400, des Optimierungsprozesses 500 und des Verfahrens 600 umfassen, die vorstehend unter Bezugnahme auf 4, 5 und 6 beschrieben sind. Gemäß einer anderen Ausführungsform der Offenbarung kann ein computerlesbares Medium Computercode für visuelle Schlussfolgerungen speichern, wobei der Computercode, wenn er von einem Prozessor ausgeführt wird, den Prozessor veranlassen kann, das Verfahren 400, den Optimierungsprozess 500 und das Verfahren 600 durchzuführen, die vorstehend unter Bezugnahme auf 4, 5 und 6 beschrieben sind. Computerlesbare Medien schließen sowohl nicht-transitorische, computerlesbare Speichermedien als auch Kommunikationsmedien einschließlich aller Medien ein, welche die Übertragung eines Computerprogramms von einem Ort zum anderen unterstützen. Jede Verbindung kann als ein computerlesbares Medium bezeichnet werden. Andere Ausführungsformen und Implementierungen liegen innerhalb des Schutzumfangs der Offenbarung.
  • Die vorhergehende Beschreibung der offenbarten Ausführungsformen wird bereitgestellt, um es einem Fachmann zu ermöglichen, die verschiedenen Ausführungsformen herzustellen oder zu verwenden. Verschiedene Modifikationen an diesen Ausführungsformen sind für einen Fachmann leicht ersichtlich, und die hierin definierten generischen Prinzipien können auf andere Ausführungsformen angewendet werden, ohne vom Schutzumfang der verschiedenen Ausführungsformen abzuweichen. Somit sollen die Ansprüche nicht auf die hierin gezeigten Ausführungsformen beschränkt sein, sondern es ist ihnen der breiteste Schutzumfang zu gewähren, der mit den folgenden Ansprüchen und den hierin offenbarten Prinzipien und neuartigen Merkmalen übereinstimmt.

Claims (18)

  1. Verfahren zum visuellen Schlussfolgern, umfassend: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
  2. Verfahren nach Anspruch 1, wobei die eine oder die mehreren posterioren Regularisierungsbeschränkungen gemäß einem oder mehreren Gesichtspunkten des Domänenwissens in eine oder mehrere Gruppen von Beschränkungen gruppiert werden.
  3. Verfahren nach Anspruch 2, wobei die einen oder die mehreren Gesichtspunkte des Domänenwissens eines oder mehrere von logischem Schlussfolgern, zeitlichem Schlussfolgern, räumlichem Schlussfolgern oder arithmetischem Schlussfolgern umfassen.
  4. Verfahren nach Anspruch 1, wobei die eine oder die mehreren posterioren Regularisierungsbeschränkungen eine oder mehrere Beschränkungen der Logik erster Ordnung (FOL) sind.
  5. Verfahren nach Anspruch 4, wobei die eine oder die mehreren FOL-Beschränkungen basierend auf mindestens einem von Beziehungstypen, Objekttypen oder Attributtypen der Sätze von Eingaben erzeugt werden.
  6. Verfahren nach Anspruch 1, wobei jede der Kombinationen von einem oder mehreren Modulen des Satzes von Modulen ein modularisiertes Netzwerk umfasst, wobei das modularisierte Netzwerk aus einem oder mehreren Modulen des Satzes von Modulen mit einer Struktur zusammengesetzt ist, die das zusammengesetzte eine oder mehrere Module und Verbindungen dazwischen angibt.
  7. Verfahren nach Anspruch 6, ferner umfassend: Bestimmen einer Posterior-Verteilung über Strukturen von modularisierten Netzwerken durch das PGM, basierend auf den bereitgestellten Sätzen von Eingaben und den Sätzen von Ausgaben.
  8. Verfahren nach Anspruch 6, wobei jedes Modul des Satzes von Modulen mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften umfasst und konfiguriert ist, um einen vorgefertigten Prozesstyp auf die eine oder die mehreren variablen Bildeigenschaften anzuwenden; und wobei das Verfahren ferner umfasst: Bestimmen, durch das PGM, einer Posterior-Verteilung über Strukturen von modularisierten Netzwerken, welche die Typen des zusammengesetzten einen oder mehrerer Module und der Verbindungen dazwischen angibt, basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben.
  9. Verfahren nach Anspruch 1, wobei das Verfahren ferner das Optimieren des Netzwerks umfasst, durch: Aktualisieren von Parametern des PGM und von Parametern von Modulen des Satzes von Modulen alternativ durch Maximieren von Evidenzen der Sätze von Eingaben und der Sätze von Ausgaben, um eine geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und optimierten Parametern der Module des Satzes von Modulen zu erhalten; Aktualisieren einer oder mehrerer Gewichtungen der einen oder der mehreren posterioren Regularisierungsbeschränkungen, die auf die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen angewendet werden, um eine oder mehrere optimale Lösungen für die eine oder die mehreren Gewichtungen zu erhalten; Anpassen der geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch Anwenden der einen oder mehreren optimalen Lösungen der einen oder mehreren Gewichtungen und eines oder mehrerer Werte der einen oder der mehreren Beschränkungen auf die geschätzte Posterior-Verteilung; und Aktualisieren der optimierten Parameter der Module basierend auf der angepassten geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen aus dem Satz von Modulen.
  10. Verfahren nach Anspruch 9, wobei die eine oder die mehreren posterioren Regularisierungsbeschränkungen in eine oder mehrere Gruppen von Beschränkungen gruppiert sind und eine Gruppe von Beschränkungen einer Gewichtung entspricht.
  11. Verfahren nach Anspruch 9, wobei ein Wert einer Beschränkung basierend auf einer Korrelation zwischen einem Satz von Eingaben und einem Modul in einer Kombination von einem oder mehreren Modulen des Satzes von Modulen bestimmt wird, die gemäß der geschätzten Posterior-Verteilung angesichts des Satzes von Eingaben erzeugt wird.
  12. Verfahren zum visuellen Schlussfolgern mit einem Netzwerk, wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst, wobei das Verfahren umfasst: Bereitstellen des Netzwerks mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern; Erzeugen einer Kombination von einem oder mehreren Modulen des Satzes von Modulen basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und dem Satz von Eingabebildern, wobei die Posterior-Verteilung von dem unter Domänenwissen trainierten PGM als eine oder mehrere posteriore Regularisierungsbeschränkungen formuliert wird; Verarbeiten des Satzes von Eingabebildern und des Satzes von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen; und Auswählen eines Kandidatenbildes aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern, die durch das Verarbeiten geschätzt wird.
  13. Einrichtung für visuelles Schlussfolgern, umfassend: einen Speicher; und mindestens einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist, um das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
  14. Computerprogrammprodukt zum visuellen Schlussfolgern, umfassend: durch einen Prozessor ausführbarer Computercode zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 12.
  15. Computerlesbares Medium, das einen Computercode zum visuellen Schlussfolgern speichert, wobei der Computercode, wenn er durch einen Prozessor ausgeführt wird, den Prozessor veranlasst, das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
  16. Netzwerk zum visuellen Schlussfolgern, umfassend: einen Satz von Modulen, wobei jeder des Satzes von Modulen als neuronales Netzwerk implementiert ist und mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften aufweist; und ein probabilistisches generatives Modell (PGM), das mit dem Satz von Modulen gekoppelt ist, wobei das PGM konfiguriert ist, um eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen auszugeben.
  17. Netzwerk nach Anspruch 16, wobei jeder des Satzes von Modulen konfiguriert ist, um eine vorgefertigte Verarbeitungsart an den einen oder den mehreren variablen Bildeigenschaften durchzuführen, und die einen oder die mehreren variablen Bildeigenschaften aus dem Verarbeiten einer Bildmerkmalskarte durch die mindestens einen trainierbaren Parameter resultieren.
  18. Netzwerk nach Anspruch 17, wobei die eine oder die mehreren variablen Bildeigenschaften eine oder mehrere von Form, Linie, Größe, Typ, Farbe, Position oder Anzahl umfassen und die vorgefertigte Verarbeitungsart ein logisches UND, logisches ODER, logisches XOR, arithmetisches ADD, arithmetisches SUB, arithmetisches MUL, räumliches STRUC, zeitliches PROG oder zeitliche ID umfasst.
DE112021006196.8T 2021-03-03 2021-03-03 Verfahren und einrichtung für visuelles schlussfolgern Pending DE112021006196T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/078877 WO2022183403A1 (en) 2021-03-03 2021-03-03 Method and apparatus for visual reasoning

Publications (1)

Publication Number Publication Date
DE112021006196T5 true DE112021006196T5 (de) 2023-09-28

Family

ID=75252255

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021006196.8T Pending DE112021006196T5 (de) 2021-03-03 2021-03-03 Verfahren und einrichtung für visuelles schlussfolgern

Country Status (3)

Country Link
CN (1) CN117223033A (de)
DE (1) DE112021006196T5 (de)
WO (1) WO2022183403A1 (de)

Also Published As

Publication number Publication date
WO2022183403A1 (en) 2022-09-09
CN117223033A (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102018111905A1 (de) Domänenspezifische Sprache zur Erzeugung rekurrenter neuronaler Netzarchitekturen
DE202017007517U1 (de) Aggregatmerkmale für maschinelles Lernen
DE102018129424A1 (de) System und verfahren zum lernen der struktur von tiefen neuronalen netzwerken
DE112020000584T5 (de) Verfahren für unüberwachte bild-zu-bild-übersetzung mit wenigen aufnahmen
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112020005610T5 (de) Identifizieren von optimalen gewichtungen zum verbessern einervorhersagegenauigkeit bei methoden für maschinelles lernen
DE102021004591A1 (de) Für Graphen vorgesehene neuronale Netzwerke für Datensätze mit Heterophilie
DE102020215942A1 (de) System und verfahren für unüberwachte domänenanpassung mit mischungstraining
DE112020004471T5 (de) Folgerungsvorrichtung, Trainingsvorrichtung, Folgerungsverfahren und Trainingsverfahren
DE112019003910T5 (de) Informationsverarbeitungsverfahren, informationsverarbeitungsvorrichtung und informationsverarbeitungsprogramm
DE102020120479A1 (de) Fusion von Strassenkarten
EP0901658B1 (de) Verfahren zur optimierung eines fuzzy-regelsatzes durch einen rechner
DE102019203634A1 (de) Verfahren und Vorrichtung zum Ansteuern eines Roboters
DE102019210507A1 (de) Vorrichtung und computerimplementiertes Verfahren für die Verarbeitung digitaler Sensordaten und Trainingsverfahren dafür
DE102019205359B4 (de) Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung
DE112021006196T5 (de) Verfahren und einrichtung für visuelles schlussfolgern
DE112019001959T5 (de) Segmentieren unregelmässiger formen in bildern unter verwendung von tiefem bereichswachstum
DE102019204118A1 (de) Verfahren zum Übertragen eines Merkmals eines ersten Bilds an ein zweites Bild
DE102019104571A1 (de) Künstliches neuronales netz
DE102019202816A1 (de) Training neuronaler Netzwerke für effizientes Implementieren auf Hardware
DE102020122979A1 (de) Verfahren zum Bereitstellen eines komprimierten, robusten neuronalen Netzes und Assistenzeinrichtung
DE112021004735T5 (de) Verfahren und einrichtung zum bestimmen der fahrspur eines fahrzeugs durch verwenden eines künstlichen neuronalen netzwerks und navigationsvorrichtung damit
DE102020213176A1 (de) Vorrichtung und Verfahren zum Befüllen eines Knowledge-Graphen, Trainingsverfahren dafür
DE112020007371T5 (de) Verfahren und Einrichtung für ein neuronales Netzwerk basierend auf energiebasierten Modellen einer latenten Variable