DE112021006196T5

DE112021006196T5 - Verfahren und einrichtung für visuelles schlussfolgern

Info

Publication number: DE112021006196T5
Application number: DE112021006196.8T
Authority: DE
Inventors: Ke Su; Chongxuan Li; Hang Su; Jun Zhu; Bo Zhang; Ze Cheng; Siliang Lu
Original assignee: Tsinghua University; Robert Bosch GmbH
Current assignee: Tsinghua University; Robert Bosch GmbH
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-09-28
Also published as: WO2022183403A1; CN117223033A

Abstract

Die vorliegende Offenbarung stellt ein Verfahren zum visuellen Schlussfolgern bereit. Das Verfahren umfasst: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.

Description

GEBIET
Gesichtspunkte der vorliegenden Offenbarung beziehen sich im Allgemeinen auf künstliche Intelligenz und insbesondere auf ein Verfahren und ein Netzwerk für visuelles Schlussfolgern.
HINTERGRUND
Künstliche Intelligenz (KI) wird in einer Vielzahl von Bereichen wie Bildklassifizierung, Objekterkennung, Szenenverständnis, maschinelle Übersetzung und dergleichen eingesetzt. Es besteht ein zunehmendes Interesse an visueller Schlussfolgerung mit einer zunehmenden Wachstum von Anwendungen wie visuelle Fragenbeantwortung (VQA), verkörperte Fragenbeantwortung, visuelle Navigation, Autopilot und dergleichen, wo KI-Modelle im Allgemeinen erforderlich sein können, um Kognitionsprozesse auf hoher Ebene über Wahrnehmungsergebnisse auf niedriger Ebene durchzuführen, zum Beispiel, um abstrakte Schlussfolgerung auf hoher Ebene über einfache visuelle Konzepte wie Linien, Formen und dergleichen durchzuführen.
Tiefe neuronale Netze wurden in großem Umfang im Bereich der visuellen Schlussfolgerung angewandt, wo tiefe neuronale Netze trainiert werden können, um die Korrelation zwischen Taskeingabe und -ausgabe zu modellieren und bei verschiedenen Aufgaben der visuellen Schlussfolgerung mit tiefem und reichhaltigem Repräsentationslernen erfolgreich sein zu können, insbesondere bei Wahrnehmungsaufgaben. Zusätzlich haben modularisierte Netzwerke in den letzten Jahren mehr und mehr Aufmerksamkeit für visuelle Schlussfolgerung auf sich gezogen, wodurch Deep Learning und symbolische Schlussfolgerung vereint werden können, wobei der Schwerpunkt auf dem Aufbau neuronal-symbolischer Modelle liegt, mit dem Ziel, das Beste aus Repräsentationslernen und symbolischer Schlussfolgerung zu kombinieren. Die Grundidee besteht darin, neuronale Module, die jeweils einen primitiven Schritt im Schlussfolgerungsprozess darstellen, manuell zu entwerfen und Schlussfolgerungsprobleme zu lösen, indem diese Module zu jeweiligen symbolischen Netzwerken zusammengefügt werden, die den gelösten Schlussfolgerungsproblemen entsprechen.
Mit diesem modularisierten Netzwerk mit neuronal-symbolischer Methodik kann ein herkömmliches Problem der visuellen Fragenbeantwortung (VQA) im Allgemeinen richtig gelöst werden, wobei die Fragen im Allgemeinen in Form von Texten vorliegen. Zusätzlich zur VQA wird neuerdings eine abstrakte visuelle Schlussfolgerung vorgeschlagen, um abstrakte Konzepte oder Fragen direkt aus einer visuellen Eingabe ohne natürlichsprachliche Fragestellung, wie aus einem Bild, zu extrahieren und Schlussfolgerungsprozesse dementsprechend durchzuführen. Da Schlussfolgerung über abstrakte Konzepte seit langem eine Herausforderung im Bereich des maschinellen Lernens darstellt, können die derzeitigen Verfahren oder KI-Modelle, wie sie vorstehend beschrieben wurden, bei einer solchen abstrakten visuellen Schlussfolgerung eine unbefriedigende Leistung aufweisen.
Es kann wünschenswert sein, noch bessere Verfahren oder KI-Modelle bereitzustellen, um abstrakte visuelle Schlussfolgerungsaufgaben zu verarbeiten.
KURZDARSTELLUNG
Das Folgende stellt eine vereinfachte Kurzdarstellung eines oder mehrerer Gesichtspunkte gemäß der vorliegenden Offenbarung dar, um ein grundlegendes Verständnis solcher Gesichtspunkte bereitzustellen. Diese Kurzdarstellung ist kein umfassender Überblick über alle in Betracht gezogenen Gesichtspunkte und soll weder Schlüssel- oder kritische Elemente aller Gesichtspunkte identifizieren noch den Umfang eines oder aller Gesichtspunkte abgrenzen. Ihr einziger Zweck besteht darin, einige Konzepte eines oder mehrerer Gesichtspunkte als Vorwegnahme der nachfolgend präsentierten detaillierteren Beschreibung in vereinfachter Form darzustellen.
In einem Gesichtspunkt der Offenbarung umfasst ein Verfahren für visuelle Schlussfolgerung: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, abgebildet wird, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
In einem weiteren Gesichtspunkt der Offenbarung wird ein Verfahren für visuelles Schlussfolgern mit einem Netzwerk bereitgestellt, das ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst, wobei das Verfahren umfasst: Bereitstellen des Netzwerks mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern; Erzeugen einer Kombination von einem oder mehreren Modulen des Satzes von Modulen basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und dem Satz von Eingabebildern, wobei die Posterior-Verteilung von dem unter Domänenwissen trainierten PGM als eine oder mehrere posteriore Regularisierungsbeschränkungen formuliert wird; Verarbeiten des Satzes von Eingabebildern und des Satzes von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen; und Auswählen eines Kandidatenbildes aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern, die durch das Verarbeiten geschätzt wird.
In einem weiteren Gesichtspunkt der Offenbarung umfasst ein Netzwerk für visuelle Schlussfolgerung: einen Satz von Modulen, wobei jeder des Satzes von Modulen als neuronales Netzwerk implementiert ist und mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften aufweist; und ein probabilistisches generatives Modell (PGM), das mit dem Satz von Modulen gekoppelt ist, wobei das PGM konfiguriert ist, um eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen auszugeben.
In einem weiteren Gesichtspunkt der Offenbarung umfasst die Vorrichtung für visuelles Denken einen Speicher; und mindestens einen Prozessor, der mit dem Speicher gekoppelt ist. Der mindestens eine Prozessor ist konfiguriert, um ein Netzwerk mit Sätzen von Eingaben und Sätzen von Ausgaben bereitzustellen, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
In einem weiteren Gesichtspunkt der Offenbarung umfasst ein Computerprogrammprodukt für visuelles Denken einen durch einen Prozessor ausführbaren Computercode zum Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, abgebildet wird, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
In einem weiteren Gesichtspunkt der Offenbarung speichert ein computerlesbares Medium einen Computercode für visuelle Schlussfolgerung. Der Computercode, wenn er durch einen Prozessor ausgeführt wird, veranlasst den Prozessor, ein Netzwerk mit Sätzen von Eingaben und Sätzen von Ausgaben bereitzustellen, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
Mit Unterstützung des Domänenwissens können die erzeugten modularisierten Netzwerke Strukturen bereitstellen, die einen von Menschen interpretierbaren Schlussfolgerungsprozess präzise darstellen, was zu einer verbesserten Leistung führen kann.
Andere Gesichtspunkte oder Variationen der Offenbarung sowie andere Vorteile werden unter Berücksichtigung der folgenden detaillierten Beschreibung und beigefügten Zeichnungen offensichtlich.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die offenbarten Gesichtspunkte werden nachstehend in Verbindung mit den beigefügten Zeichnungen beschrieben, die bereitgestellt werden, um die offenbarten Gesichtspunkte zu veranschaulichen und nicht zu beschränken.

1 zeigt ein Beispiel für abstrakte visuelle Schlussfolgerung.
2 veranschaulicht ein beispielhaftes Netzwerk, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können.
3A und 38 veranschaulichen beispielhafte modularisierte Netzwerke mit unterschiedlichen Strukturen.
4 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird.
5 stellt ein beispielhaftes Flussdiagramm dar, das einen Optimierungsprozess für eine abstrakte visuelle Schlussfolgerungsaufgabe gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht.
6 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird.
7 veranschaulicht ein weiteres beispielhaftes Netzwerk, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können.
8 stellt ein beispielhaftes Flussdiagramm dar, das einen Optimierungsprozess für eine abstrakte visuelle Schlussfolgerungsaufgabe gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht.
9 veranschaulicht ein Beispiel einer Hardware-Implementierung für eine Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung.

DETAILLIERTE BESCHREIBUNG
Die vorliegende Offenbarung wird nun unter Bezugnahme auf mehrere beispielhafte Implementierungen erörtert. Es versteht sich, dass diese Implementierungen nur erörtert werden, um es dem Fachmann zu ermöglichen, die Ausführungsformen der vorliegenden Offenbarung besser zu verstehen und somit zu implementieren, und nicht, um Einschränkungen des Schutzumfangs der vorliegenden Offenbarung nahezulegen.
Gegenüber den herkömmlichen Computer-Vision-Aufgaben wie Bildklassifizierung und Objekterkennung geht visuelle Schlussfolgerung einen Schritt weiter und erfordert nicht nur ein umfassendes Verständnis des visuellen Inhalts, sondern auch die Fähigkeit, über die extrahierten Konzepte nachzudenken, um Rückschlüsse zu ziehen. 1 zeigt ein Beispiel für abstrakte visuelle Schlussfolgerung, bei dem die acht Bildfelder im linken gestrichelten Kasten eine Reihe von Eingaben und die sechs Bildfelder im rechten gestrichelten Kasten eine Reihe von Ausgaben darstellen. Es können eine oder mehrere gemeinsame Regeln zwischen dem Satz von Eingaben und dem richtigen Satz von Ausgaben vorhanden sein. Um aus mehreren in Frage kommenden Ausgabefeldern das richtige auszuwählen, werden die gemeinsamen Regeln extrahiert und unter Verwendung dieser Regeln auf das richtige Ausgabefeld abgebildet. In dem Beispiel von 1 kann beispielsweise die gemeinsame Regel für die acht Eingabebildfelder eine aufsteigende Anzahl von Formen pro Zeile sein, und das richtige Ausgabefeld D kann basierend auf der Regel ausgewählt werden. Beispielsweise kann das Extrahieren der Regel einer aufsteigenden Anzahl von Formen pro Zeile eine abstrakte Schlussfolgerungsaufgabe auf hoher Ebene sein, die auf einem oder mehreren visuellen Konzepten auf niedriger Ebene basiert, wie verschiedene Formen in jedem der Eingabebildfelder. [0027] Die vorliegende Offenbarung schlägt ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell vor, das mit Domänenwissen regularisiert wird. Ein neuronal-symbolisches Modell kann ein leistungsfähiges Tool bereitstellen, das die symbolische Programmausführung für logisches Denken und tiefes Repräsentationslernen für visuelle Erkennung kombiniert. Beispielsweise kann ein neuronal-symbolisches Modell ein bestimmtes modularisiertes Netzwerk bilden, das für jede Eingabe ein oder mehrere Module umfasst, die jeweils aus einem Satz von Modulen ausgewählt werden, wie einem Bestand an wiederverwendbaren Modulen. Eine probabilistische Formulierung zum Trainieren von Modellen mit stochastischen latenten Variablen kann ein interpretierbares und lesbares Schlussfolgerungssystem mit weniger Überwachungen erhalten.
Domänenwissen kann bei der Erzeugung eines angemessenen modularisierten Netzwerks eine Orientierungshilfe bereitstellen, da es sich im Allgemeinen um ein Optimierungsproblem mit einer Mischung aus kontinuierlichen und diskreten Variablen handelt. Mit Unterstützung des Domänenwissens können die erzeugten modularisierten Netzwerke Strukturen bereitstellen, die einen von Menschen interpretierbaren Schlussfolgerungsprozess präzise darstellen, was zu einer verbesserten Leistung führen kann.
2 veranschaulicht ein beispielhaftes Netzwerk 200, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können. Beispielsweise kann das Netzwerk 200 ein probabilistisches generatives Modell (PGM) 210 und einen Satz von Modulen 220 einschließen, wie einen Bestand an wiederverwendbaren Modulen. In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Vielzahl von Kombinationen von einem oder mehreren Modulen aus dem Satz von Modulen 220 ausgewählt werden, um jeweilige Sätze von Eingaben zu lösen, und die Vielzahl von Kombinationen des Satzes von Modulen 220 kann als eine latente Variable betrachtet werden, für die eine Posterior-Verteilung durch das PGM 210 formuliert werden kann, indem ein Datensatz gelernt wird. Beispielsweise können ein oder mehrere Module aus dem Bestand an wiederverwendbaren Modulen ausgewählt werden, um ein modularisiertes Netzwerk mit einer Struktur zusammenzustellen, die die zusammengestellten Module und die Verbindungen dazwischen angibt. Beispielsweise kann die Struktur des zusammengestellten modularisierten Netzwerks als gerichteter azyklischer Graph (DAG) dargestellt werden. Das PGM 210 kann verwendet werden, um eine Verteilung über Strukturen modularisierter Netzwerke zu formulieren, wobei der Satz von Modulen 220 ein Bestand an wiederverwendbaren Modulen für das Zusammenstellen von modularisierten Netzwerken sein kann. Beispielsweise kann das PGM 210 eine Posterior-Verteilung über Strukturen von modularisierten Netzwerken durch Lernen eines Datensatzes formulieren. Die formulierte Posterior-Verteilung über Strukturen von modularisierten Netzwerken kann mit Domänenwissen regularisiert werden.
Beispielsweise kann das PGM 210 einen Variations-Autoencoder (VAE) umfassen, wobei ein Encoder eines VAE eine variierende Posterior-Verteilung von Strukturen modularisierter Netzwerke formulieren kann, und ein Decoder des VAE eine generative Verteilung formulieren kann. Die formulierte variierende Posterior-Verteilung von Strukturen modularisierter Netzwerke durch den Encoder kann eine geschätzte Posterior-Verteilung von Strukturen modularisierter Netzwerke basierend auf dem beobachteten Datensatz sein. Die formulierte generative Verteilung durch den Decoder kann zur Rekonstruktion verwendet werden (wie über Route 4 von 8 veranschaulicht). In einigen Gesichtspunkten der vorliegenden Offenbarung kann ein Decoder im PGM 210 weggelassen werden. In anderen Gesichtspunkten der vorliegenden Offenbarung können sowohl ein Encoder als auch ein Decoder im PGM 210 vorhanden sein.
Beispielsweise kann der Satz von Modulen 220 ein oder mehrere vorgefertigte neuronale Module umfassen, von denen jedes einen primitiven Schritt in einem Schlussfolgerungsprozess darstellt. Beispielsweise kann jedes Modul des Satzes von Modulen 220 als mehrschichtiges neuronales Netzwerk mit einem oder mehreren trainierbaren Parametern implementiert werden. In einem Gesichtspunkt der vorliegenden Offenbarung kann jedes Modul des Satzes von Modulen 220 dynamisch miteinander verbunden sein, um ein bestimmtes modularisiertes Netzwerk zu bilden, das verwendet werden kann, um einen gegebenen Satz von Eingaben auf die richtige Ausgabe abzubilden. In einem Gesichtspunkt der vorliegenden Offenbarung kann das PGM 210 verwendet werden, um modularisierte Netzwerke mit Strukturen zu erzeugen, die den einzelnen Eingaben entsprechen, um die jeweiligen grundlegenden Regeln innerhalb der einzelnen Eingaben vorherzusagen.
3A und 38 veranschaulichen beispielhafte modularisierte Netzwerke mit unterschiedlichen Strukturen. Beispielsweise kann die Struktur des modularisierten Netzwerks als DAG dargestellt werden, das mit G = (v, A) bezeichnet wird, wobei v G M^d, v jeden Knoten (d. h. jedes Modul) der Struktur, M den Satz von Modulen 220, d die Größe der Struktur und A ∈ {0,1}^d×d die Adjazenzmatrix darstellt, die die Verbindungen zwischen den Modulen der Struktur darstellen kann. Beispielsweise kann die Anzahl der Scheitelpunkte des Graphen so spezifiziert werden, dass sie kleiner oder gleich einem Schwellenwert ist (z. B. d ≤ 4 oder 6 oder dergleichen), und jeder Scheitelpunkt kann mit einem bestimmten Modul aus dem Satz von Modulen 220 gefüllt werden. Beispielsweise kann der Satz von Modulen M 220 zehn von 0 bis 9 nummerierte Module einschließen, die als v₀, v₁, v₂, v₃, v₄, v₅, v₅, v₇, v₅, v₉ dargestellt werden können.
Als Beispiel kann die in 3A gezeigte Struktur die Module v₁, v₂, v₃, v₄ aufweisen, die jeweils in die Scheitelpunkte 310-1, 310-2, 310-4 und 310-3 gefüllt wurden, sowie eine Adjazenzmatrix $A = {\begin{matrix} 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{matrix}} .$
Als ein weiteres Beispiel kann die in 3B gezeigte Struktur die Module v₁, v₂, v₃, v₄ aufweisen, die jeweils in die Scheitelpunkte 310-1, 310-4, 310-3 und 310-2 gefüllt wurden, sowie eine Adjazenzmatrix $A = {\begin{matrix} 0 & 1 & 0 & 1 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{matrix}} .$
In einigen Gesichtspunkten der vorliegenden Offenbarung können die modularisierten Netzwerke mit den jeweiligen in 3A und 3B gezeigten Strukturen geeignet sein, unterschiedliche Regeln zu extrahieren, die in unterschiedlichen Sätzen von Eingaben enthalten sind. In einem Gesichtspunkt der vorliegenden Offenbarung kann das Netzwerk 200 oder 700 durch Trainieren eines Datensatzes, umfassend Sätze von Eingaben und Sätze von Ausgaben, die den jeweiligen Sätzen von Eingaben zugeordnet sind, Zuordnungen zwischen den Sätzen von Eingaben und entsprechenden Strukturen erlernen, die dazu verwendet werden können, die jeweiligen korrekten Ausgaben abzubilden. Beispielsweise kann eine Posterior-Verteilung von Strukturen modularisierter Netzwerke durch das PGM 210 erlernt und dazu verwendet werden, eine Struktur eines modularisierten Netzwerks für einen beliebigen Satz von Eingaben abzuleiten. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann Domänenwissen bei der Erzeugung von Strukturen angewendet werden. Beispielsweise kann Domänenwissen auf die Posterior-Verteilung von Strukturen modularisierter Netzwerke angewendet werden, die durch das PGM 210 anhand des Datensatzes als eine oder mehrere posteriore Regularisierungsbeschränkungen gelernt wurden. Unter Zuhilfenahme des Domänenwissens kann die regularisierte Verteilung von Strukturen modularisierter Netzwerke verwendet werden, um eine präzise und interpretierbare Struktur für einen Satz von Eingaben zu erzeugen, die möglicherweise ausgeblendete Regeln innerhalb des Satzes von Eingaben darstellen.
Ein Fachmann wird verstehen, dass auch andere Strukturen und andere Darstellungen für mindestens einen Teil des Satzes von Modulen 220 möglich sind.
4 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren 400 zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird. Beispielsweise kann das Verfahren 400 durch das Netzwerk 200 und das Netzwerk 700 durchgeführt werden, die nachfolgend ausführlich beschrieben werden. So kann beispielsweise das Verfahren 400 auch durch andere Netzwerke, Systeme oder Modelle durchgeführt werden.
In Block 410 können Sätze von Eingaben und Sätze von Ausgaben einem Netzwerk 200 oder 700 bereitgestellt werden, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen Satz von Ausgaben abgebildet werden kann, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben. Die Sätze von Eingaben und die Sätze von Ausgaben können beispielsweise einen Trainingsdatensatz umfassen, wie den prozedural generierten Matrix (Procedurally Generated Matrice (PGM))-Datensatz oder den relationalen und analogen visuellen rEasoNing-Datensatz (RAVEN) oder dergleichen. Das Netzwerk 200, 700 kann ein probabilistisches generatives Modell (PGM) 210, 710 und einen Satz von Modulen 220, 720 umfassen.
Bei Block 420 kann durch das PGM 210, 710 basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben eine Posterior-Verteilung in Bezug auf den Satz von Modulen 220, 720 bestimmt werden. In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 durch das PGM 210, 710 basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben bestimmt werden. In einem Beispiel können die Kombinationen eines oder mehrerer Module des Satzes von Modulen 220, 720 modularisierte Netzwerke umfassen, die aus einem oder mehreren Modulen des Satzes von Modulen 220, 720 zusammengesetzt sind, wobei die modularisierten Netzwerke Strukturen aufweisen können, die als G = (v, A) dargestellt werden können. In einem weiteren Beispiel können die Kombinationen eines oder mehrerer Module des Satzes von Modulen 220 beliebige Permutationen eines oder mehrerer Module aus dem Satz von Modulen 220 umfassen. Beispielsweise kann das PGM 210 ein VAE umfassen. Eine geschätzte Posterior-Verteilung über Strukturen von modularisierten Netzwerken kann durch einen Encoder des VAE basierend auf dem beobachteten Datensatz formuliert werden.
In Block 430 kann das Domänenwissen auf die bestimmte Posterior-Verteilung des Satzes von Modulen 220 als eine oder mehrere posteriore Regularisierungsbeschränkungen angewendet werden. Beispielsweise kann ein regularisiertes Bayes'sches Rahmenwerk (RegBayes) verwendet werden, um menschliches Domänenwissen in Bayes'sche Verfahren durch direktes Anwenden von Beschränkungen auf die Posterior-Verteilung zu integrieren. Die Flexibilität von RegBayes kann die explizite Berücksichtigung von Domänenwissen ermöglichen, indem Wissen in beliebige Bayes'sche Modelle als weiche Beschränkungen integriert wird.
Unter Zuhilfenahme des Domänenwissens kann das Verfahren 400 genutzt werden, um präzise und interpretierbare Strukturen für unterschiedliche Sätze von Eingaben zu erzeugen, da die erzeugten Strukturen verborgene Regeln zwischen den Sätzen von Eingaben erfassen können.
Ein Fachmann wird verstehen, dass auch andere probabilistische generative Modelle möglich sind und andere Verteilungen in Bezug auf den Satz von Modulen 220 möglich sein können.
In einem Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere posteriore Regularisierungsbeschränkungen eine oder mehrere Beschränkungen der Logik erster Ordnung (FOL) umfassen, die möglicherweise Domänenwissen enthalten. Beispielsweise kann eine Beschränkungsfunktion aus Berechnungen der Logik erster Ordnung über jede der Strukturen und jeden der Sätze von Eingaben bestehen. Insbesondere nimmt jede Beschränkungsfunktion jede der Strukturen und jeden der Sätze von Eingaben als Eingabe und berechnet den entworfenen Ausdruck der Logik erster Ordnung als Ausgabe. Die Ausgabe der Beschränkungsfunktion kann einen Wert in einem Bereich von [0, 1] annehmen, der den Grad angibt, in dem die Eingabe jeder der Strukturen und jeder der Sätze von Eingaben einer spezifischen Anforderung entspricht, wobei ein niedrigerer Wert eine stärkere Übereinstimmung zeigen kann. Daher kann das Netzwerk 200 durch Minimieren von Werten solcher Beschränkungsfunktionen während der Optimierung der Posterior-Verteilung von Strukturen lernen, Strukturen zu erzeugen, die dem angewendeten Domänenwissen entsprechen können.
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann es vorteilhaft sein, innere Zusammenhänge zwischen Beschränkungen zu berücksichtigen. Beschränkungen, die unterschiedliche Gesichtspunkte des Domänenwissens berücksichtigen, können unabhängig voneinander sein. Andererseits können Beschränkungen, die auf unterschiedliche Knoten einer Struktur angewendet werden, aber den gleichen Gesichtspunkt des Domänenwissens teilen, miteinander korreliert werden. Dementsprechend können die Beschränkungen, die den gleichen Gesichtspunkt des Domänenwissens teilen, in eine Gruppe von Beschränkungen gruppiert werden. Beispielsweise können insgesamt L Gruppen von Beschränkungen vorgeschlagen werden, wobei jede Gruppe einem bestimmten Schlussfolgerungstyp entspricht, einschließlich der booleschen logischen Schlussfolgerung, der zeitlichen Schlussfolgerung, der räumlichen Schlussfolgerung, der arithmetischen Schlussfolgerung und dergleichen.
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können die eine oder die mehreren FOL-Beschränkungen basierend auf einer oder mehreren Eigenschaften eines jeden Satzes von Eingaben erzeugt werden. Beispielsweise kann in einem prozedural generierten Matrix (Procedurally Generated Matrices, PGM)-Datensatz jedes Paar eines Satzes von Eingaben und des entsprechenden Satzes von Ausgaben eine oder mehrere Regeln aufweisen, wobei jede Regel als Tripel dargestellt werden kann, $T = {[r, o, a] : r \in R, o \in O, a \in A},$

die aus den folgenden primitiven Sätzen gesammelt wird:

• Beziehungstypen: (
mit Elementen r): Progression, XOR, OR, AND, konsistente Vereinigung
• Objekttypen: (
mit Elementen o): Form, Linie
• Attributtypen: (
mit Elementen a): Größe, Typ, Farbe, Position, Nummer

Diese Tripel können abstrakte Schlussfolgerungsregeln bestimmen durch einen bestimmten Satz von Eingaben und die entsprechende korrekte Ausgabe. Beispielsweise, wenn
das Tripel [Progression, Form, Farbe] enthält, kann der Satz von Eingaben und die entsprechende korrekte Ausgabe eine progressive Beziehung aufweisen, die sich auf die Farbe (z. B. die Graustufenintensität) von Formen bezieht. Beispielsweise kann jeder Attributtyp $a \in A$
(z. B. Farbe) einen von einer endlichen Anzahl diskreter Werte z ∈ Z annehmen (z. B. 10 Ganzzahlen zwischen [0, 255] für die Graustufenintensität). Daher kann eine gegebene Regel
eine Vielzahl von Realisierungen abhängig von den Werten für die Attributtypen aufweisen, aber alle diese Realisierungen können derselben grundlegenden abstrakten Regel unterliegen. Auswahl von r kann die zu realisierenden Werte von z einschränken. Wenn beispielsweise r eine Progression ist, können die Werte von z entlang der Zeilen oder Spalten in der Matrix von Eingabebildfeldern zunehmen und nach dieser Regel mit unterschiedlichen Werten variieren.
In einem Gesichtspunkt der vorliegenden Offenbarung können die eine oder die mehreren FOL-Beschränkungen basierend auf mindestens einem von Beziehungstypen, Objekttypen oder Attributtypen der Sätze von Eingaben erzeugt werden. Beispielsweise kann eine beispielhafte Formation einer FOL-Beschränkung gegeben sein durch: $Φ_{j} (G, x) : = 1 - 1 [v_{j} \in S (x)]$
Wobei 1 [•] die Indikatorfunktion ist und v_j ∈ s(x) wahr ist, wenn die semantische Darstellung von v_j zu finden ist in S(x). Wobei S(x) semantische Attribute eines Satzes von Eingaben x sind, die von einem oder mehreren Tripeln $T {[r, o, a]}$
des Satzes von Eingaben x extrahiert werden können. Wobei der j-te Knoten in der Struktur G bezeichnet wird durch v_j.
In einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung kann eine Gruppe von FOL-Beschränkungen erzeugt werden, basierend auf einem oder mehreren Tripeln $T {[r, o, a]}$
des Satzes von Eingaben x, gemäß einem bestimmten Gesichtspunkt des Domänenwissens, wie logische Schlussfolgerung, zeitliche Schlussfolgerung, räumliche Schlussfolgerung oder arithmetische Schlussfolgerung und dergleichen. Beispielsweise kann die logische Schlussfolgerung logische UND, ODER, XOR oder dergleichen umfassen. Beispielsweise kann die arithmetische Schlussfolgerung arithmetische ADD, SUB, MUL und dergleichen umfassen. Beispielsweise kann die räumliche Schlussfolgerung STRUC (Struktur) umfassen, z. B. zum Ändern der Berechnungsregeln von Eingabemodulen und dergleichen. Beispielsweise kann die zeitliche Schlussfolgerung PROG (Fortschritt), ID (Identisch) und dergleichen umfassen.
In einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung kann eine Gruppe von FOL-Beschränkungen, die gemäß einem bestimmten Gesichtspunkt des Domänenwissens erzeugt werden, auf jeden der Knoten einer Struktur angewendet werden. Beispielsweise können Beschränkungen in der Gruppe eine FOL-Regel für alle Knoten der Struktur durchführen, die einen bestimmten Gesichtspunkt des Domänenwissens überprüfen kann.
Ein Fachmann wird verstehen, dass der eine oder die mehreren der vorstehend beschriebenen Gesichtspunkte durch das Netzwerk 200, 700 oder andere Netzwerke, Systeme oder Modelle durchgeführt werden können.
In einem Beispiel können in dem beispielhaften Flussdiagramm von Verfahren 400 Schlussfolgerungsaufgaben durchgeführt werden, indem trainierbare Parameter von PGM 210, 710 und Modulen des Satzes von Modulen 220, 720 optimiert werden, um den Vorhersageverlust über beobachtete Stichproben zu minimieren, wie durch das folgende Ziel formuliert: ${min}_{φ} m i n_{θ} l_{e r r} (φ, θ) : = \sum_{D} \sum_{G \sim q_{φ}} [- l o g p_{n e t} (y_{n} | x_{n}, G, θ)]$
Wobei φ trainierbare Parameter im PGM 210,710 bezeichnet, ϑ trainierbare Parameter von Modulen des Satzes von Modulen 220,720 bezeichnet und D = {(x_n, y_n)}_n=1:N einen Datensatz umfasst, der die n-te Eingabe x_n, zugeordnet zur Ausgabe y_n, bezeichnet.
In einem Gesichtspunkt der vorliegenden Offenbarung kann das Netzwerk 200, 700 ein PGM 210, 710 nutzen, um eine generative Verteilung p_φ(x|G) und eine Variationsverteilung q_φ(G|x) darzustellen. Beispielsweise kann ein Encoder einer VAE die Variationsverteilung q_φ(G|x), darstellen, und ein Decoder der VAE kann die generative Verteilung p_φ(x|G) darstellen. Insbesondere durch Optimieren der Formulierung (2) wird eine geschätzte Posterior-Verteilung der Strukturen p̃_φ0 (G|x) und der entsprechenden Modulparameter ϑ₀ erhalten.
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere FOL-Beschränkungen zur Regularisierung angewendet werden, um die neue Posterior-Verteilung der Strukturen (l)darzustellen. Formal lässt sich das Gesamtziel formulieren als: $\begin{matrix} {min}_{φ, ξ, η} m i n_{θ} l_{e r r} (φ, θ) + C_{1} \sum_{i = 1}^{L} ξ_{i} + C_{2} η, \\ \begin{matrix} s .t . \forall i, & E_{x_{n} \in D} | E_{G \sim q_{φ}} [\sum_{j = 1}^{T_{i}} Φ_{i j} (G, x_{n})] | \leq ξ_{i} + ε, \end{matrix} \\ K L [q_{φ} (G | x) ‖ {\tilde{p}}_{φ_{0}} (G | x)] \leq η + ε, \\ Wobei φ_{0} = a r g m i n_{φ} l_{e r r} (φ; θ) \end{matrix}$
Wobei q_φ(G|x) die regularisierte Posterior-Verteilung der Strukturen ist, p̃_φ0(G|x) die geschätzte Posterior-Verteilung der Strukturen ist, gegeben durch Optimieren der Formulierung (2), ξi=1:L ≥ 0 und η ≥ 0 sind Schlupfvariablen mit entsprechenden Regularisierungsparametern C₁ und C₂, und e ist ein kleiner positiver Präzisionsparameter.
Die Φc_ij (G, x_n) Funktionen in Formulierung (3), deren Werte durch die Schlupfvariablen begrenzt werden können, sind FOL-Beschränkungen. In einem Beispiel kann jede Beschränkungsfunktion einen Wert im Bereich von [0,1] annehmen, wobei ein kleinerer Wert eine bessere Übereinstimmung zwischen der Struktur G und der Eingabe x_n gemäß dem Domänenwissen bezeichnen kann. Es ist zu beachten, dass Beschränkungsfunktionen L Gruppen bilden können, anstatt unabhängig voneinander zu sein. Die i-te Gruppe kann T_i korrelierende Beschränkungen umfassen, die einer gemeinsamen Schlupfvariablen (i entsprechen können.
Während das Hauptziel von Formulierung (3) darin bestehen kann, den Aufgabenverlust ℓ_err, zu minimieren, können die Schlupfvariablen ξi=1:L in der Formulierung die FOL-Beschränkungen berücksichtigen. Der Prozess der Strukturerzeugung kann mit dem angewendeten Domänenwissen regularisiert werden. Um das Minimum des Gesamtziels zu erreichen, kann das Netzwerk 200, 700 lernen, Strukturen zu erzeugen, die den angewendeten FOL-Beschränkungen gerecht werden. Darüber hinaus kann die KL-Divergenz zwischen q_φ(G|x) und p̃_φ0(G|x) als zusätzliche Beschränkung betrachtet werden, die verhindern kann, dass das Netzwerk 200 oder 700 übermäßig auf das Domänenwissen reagiert.
Außerdem können eine oder mehrere zusätzliche Beschränkungen hinzugefügt werden, und eine oder mehrere der vorstehend beschriebenen beispielhaften Beschränkungen können weggelassen werden.
5 veranschaulicht ein beispielhaftes Flussdiagramm, das einen Optimierungsprozess 500 für die Formulierung (3) gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung darstellt. Beispielsweise kann der Prozess 500 durch das Netzwerk 200, das Netzwerk 700, das nachfolgend ausführlich beschrieben wird, oder andere Netzwerke, Systeme, Modelle oder dergleichen durchgeführt werden.
In Block 510 können Parameter des PGM 210, 710 und Parameter von Modulen des Satzes von Modulen 220, 720 alternativ durch Maximieren von Evidenzen der Sätze von Eingaben und der Sätze von Ausgaben aktualisiert werden, um eine geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Sätzen von Modulen des Satzes von Modulen 220, 720 und optimierten Parametern der Module des Satzes von Modulen 220, 720 zu erhalten.
In Block 520 können eine oder mehrere Gewichtungen von einer oder mehreren posterioren Regularisierungsbeschränkungen, die auf die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 angewendet werden, aktualisiert werden, um eine oder mehrere optimale Lösungen der einen oder mehreren Gewichtungen zu erhalten.
In Block 530 kann die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 durch Anwenden der einen oder der mehreren optimalen Lösungen der einen oder der mehreren Gewichtungen und der einen oder der mehreren Werte der einen oder der mehreren Beschränkungen auf die geschätzte Posterior-Verteilung angepasst werden.
In Block 540 können die optimierten Parameter der Module des Satzes von Modulen 220, 720 basierend auf der angepassten geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 aktualisiert werden, um in die aktualisierte Strukturverteilung zu passen.
In einem Beispiel, angenommen ϑ ist fest, kann das Ziel des probabilistischen generativen Modells durch Maximieren der Evidenz der beobachteten Datenproben gegeben sein, was geschrieben werden kann als: $\begin{matrix} {min}_{φ} l_{p r o b} (φ, θ) : = \sum_{n} - l o g p (x_{n}, y_{n}) \\ = \sum_{n} - [l o g p (x_{n}) + l o g p (y_{n} | x_{n})] \\ \approx \sum_{n} - E_{G \sim q_{φ}} [l o g p_{φ} (x_{n} | G) - β l o g p_{φ} (G | x_{n}) + β l o g p (G) + γ l o g p_{n e t} (y_{n} | x_{n}, G, θ)], \end{matrix}$
Wobei der Skalierungs-Hyperparameter die Vorhersagewahrscheinlichkeit ist und ein konstanter Parameter ist, der β > 1 erfüllt. Da ℓ_prob(φ, θ) für den Erwartungswert E_G~_qφ, möglicherweise nicht differenzierbar ist, kann der REINFORCE-Algorithmus angewendet werden, um einen geschätzten Gradienten für die Aktualisierungen zu erhalten. Aktualisierungen von können direkt mit Gradienten berechnet werden.
Angenommen, die PGM 210, 710-Parameter haben das Optimum erreicht, kann das Optimieren des Prozesses über ϑ zum Optimieren der Ausführungsleistung des Netzwerks werden, was geschrieben werden kann als: $m i n_{θ} l_{e r r} (φ, θ) = \sum_{D} \sum_{G \sim q_{φ}} [- l o g p_{n e t} (y_{n} | x_{n}, G, θ)]$
Der Gradient ∇_θ ℓ_err(φ, θ) kann mit stochastischem Gradientenabstieg (SGD) geschätzt werden, wobei die Struktur G während des Trainings erfasst wird.
Angenommen, die Ergebnisse des vorstehenden Optimierungsvorgangs in Bezug auf Formulierung (2) werden mit φ₀ und θ₀, bezeichnet, und die geschätzte Posterior-Verteilung der Strukturen kann mit p̃_φ0 (G|x). bezeichnet werden. Um eine angenäherte Lösung für Formulierung (3) zu erhalten, kann φ0 als fest betrachtet werden, und das Ziel kann in eine RegBayes-Formation transformiert werden, die geschrieben werden kann als: $\begin{matrix} m i n_{φ, ξ, η} K L [q_{φ} (G | x) ‖ {\tilde{p}}_{φ_{0}} (G | x)] + C \sum_{i = 1}^{L} ξ_{i}, \\ s .t . E_{x_{n} \in D} | E_{G \sim q_{φ}} [\sum_{j = 1}^{T_{i}} Φ_{i j} (G, x_{n})] | \leq ξ_{i} + ε, \end{matrix}$
In einem Gesichtspunkt der vorliegenden Offenbarung kann ein durch die Konvexanalyse eingeführtes duales Problem zur Lösung der Formulierung (6) angewendet werden. Daher kann durch das Einführen von Variablen des dualen Problems, µ, eine optimale Verteilung des RegBayes-Ziels durch folgende Formulierung erhalten werden: $q_{φ} (G | x; μ *) = \frac{{\tilde{p}}_{φ_{0}} (G | x)}{Z (μ *)} e x p (\sum_{i = 1}^{L} μ * | Φ_{[i]}^{(D)} (G, x))$
Wobei $Φ_{[i]}^{(D)} (G, x)$
die gruppierte Summierung der FOL-Beschränkungen in der i-ten Gruppe ist, $Φ_{[i]}^{(D)} (G, x) : = \sum_{j = 1}^{T_{i}} Φ_{i j}^{(D)} (G, x)$
Wobei jeder $Φ_{i j}^{(D)} (G, x)$
ein Erwartungswert über beobachtete Proben für die entsprechende Beschränkungsfunktion ist, $Φ_{i j}^{(D)} (G, x) : = E_{x_{n} \in D} [Φ_{i j} (G, x_{n})]$
Z (µ*) der Normalisierungsfaktor für q_φ ist, wobei µ* die optimale Lösung des dualen Problems ist: $\begin{array}{l} m a x_{μ} L (μ) = - l o g Z (μ) - ε \sum_{i = 1}^{L} μ_{i}, \\ s . t . | μ_{i} | \leq C, \forall i = 1,2, \dots ., L \end{array}$
wobei C und E Hyperparameter in Formulierung (3) sind.
Die Optimierung des dualen Problems (10) kann mit einem angenäherten stochastischen Gradientenabstiegsverfahren (SGD) verarbeitet werden. Insbesondere kann der Gradient angenähert werden als: $\partial_{μ_{i}} log Z (μ) = \sum_{G} q_{φ} (G | x) Φ_{[i]}^{(D)} (G, x) \approx {\hat{Φ}}_{[i]} (G, x), \forall i = 1,2, \dots, L$
Wobei die erste Gleichung auf die Dualität zurückzuführen ist und die Annäherung darin besteht, den Erwartungswert zu schätzen, Φ̂_[i](G,x), der durch gleichmäßiges Abtasten der beobachteten Proben und Berechnen der Beschränkungsfunktionswerte gegeben sein kann. Insbesondere können die Aktualisierungen µ_i gegeben sein durch die SGD-Regel: $μ_{i}^{(t + 1)} = P r o j_{[- C, C]} (μ_{i}^{(t)} + r_{t} (- \partial_{μ_{i}} l o g Z (μ) + ε))$
Wobei Proj_[-C,C] die euklidische Projektion der Eingabe auf [-C, C] bezeichnet und r_t die Schrittlänge ist. Nach dem Lösen von µ* kann die regularisierte Posterior-Verteilung der Strukturen q_φ(G|x) gegeben sein durch die Formulierung (7). Die Modulparameter ϑ können ferner optimiert werden, damit sie in die aktualisierte Strukturverteilung passen.
In einem Beispiel kann die Gesamtpipeline des beispielhaften Optimierungsprozesses 500 in Algorithmus 1 dargestellt werden.
Algorithmus 1:

♦ Zufälliges Initialisieren von ϑ, φ und µ
♦ Bei Konvergenz mit
1. 1) Satz ϑ ist fest, Gradient ∇ℓ_prob(, ϑ) wird berechnet, um φ gemäß Formulierung (4) zu aktualisieren;
2. 2) Satz q ist fest, Gradient ∇_ϑ ℓ_err(, ϑ) wird berechnet, um ϑ gemäß Formulierung (5) zu aktualisieren;
♦ Ende
♦ kann φ₀ das Ergebnis des vorstehenden Verfahrens bezeichnen;
♦ Bei Konvergenz mit
- 3) Aktualisieren von µ gemäß dem dualen Problem (10), wobei die Aktualisierungen in der Formulierung (12) gegeben sind;
♦ Ende
♦ 4) Berechnen von q (G|x) in Formulierung (7) mit φ₀ und µ*;
♦ Bei Konvergenz mit
- 5) Berechnen des Gradienten ∇_ϑ ℓ_err(, ϑ) um ϑ gemäß Formulierung (5) zu aktualisieren;
♦ Ende

Wobei µ als Gewichtung der FOL-Beschränkungen betrachtet werden kann. In einem Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere FOL-Beschränkungen in eine oder mehrere Gruppen von FOL-Beschränkungen gruppiert werden, und die gruppierten FOL-Beschränkungen können zusammen nur einer Gewichtung entsprechen. Wie in Schritt 3) von Algorithmus 1 veranschaulicht, muss der Optimierungsprozess 500 möglicherweise mehrere Iterationsberechnungen durchführen, um jede der Gewichtungen zu aktualisieren, bis er konvergiert. Die gruppierten FOL-Beschränkungen können die Anzahl der Gewichtungen reduzieren, was dementsprechend Rechenressourcen einsparen kann.
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann ein Wert einer FOL-Beschränkung basierend auf einer Korrelation zwischen einem Satz von Eingaben und einem Modul in einer Kombination von einem oder mehreren Modulen des Satzes von Modulen bestimmt werden, die gemäß der geschätzten posterioren Verteilung angesichts des Satzes von Eingaben erzeugt wurde. Beispielsweise kann sich die Korrelation darauf beziehen, ob die semantische Darstellung eines Moduls in einer Struktur, die gemäß der geschätzten Posterior-Verteilung (z. B. bei x_n, φ₀) veranschaulicht wird, in S(x_n) zu finden ist, wie durch Formulierung (1) veranschaulicht.
6 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren 600 zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird. Beispielsweise kann das Verfahren 600 durch das Netzwerk 200 oder das Netzwerk 700 durchgeführt werden, die nachfolgend ausführlich beschrieben werden. So kann beispielsweise das Verfahren 600 auch durch andere Netzwerke, Systeme oder Modelle durchgeführt werden.
In Block 610 kann das Netzwerk 200, 700 mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern bereitgestellt werden.
In Block 620 kann eine Kombination von einem oder mehreren Modulen des Satzes von Modulen 220, 720 basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 und dem Satz von Eingabebildern erzeugt werden, wobei die Posterior-Verteilung durch das PGM 210, 710, das unter Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen trainiert wurde, formuliert wird. In einem Beispiel kann der Trainingsprozess gemäß dem Verfahren 400 unter Bezugnahme auf 4, wie vorstehend veranschaulicht, durchgeführt werden.
In Block 630 kann der Satz von Eingabebildern und der Satz von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen des Satzes von Modulen 220, 720 verarbeitet werden.
In Block 640 kann ein Kandidatenbild ausgewählt werden aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern geschätzt durch das Verarbeiten.
7 veranschaulicht ein weiteres beispielhaftes Netzwerk 700, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können. Das Netzwerk 700 kann ein Beispiel des Netzwerks 200 sein, wie in 2 veranschaulicht. Beispielsweise kann das Netzwerk 700 ein probabilistisches generatives Modell (PGM) 710 und einen Satz von Modulen 720 einschließen, wie einen Bestand an wiederverwendbaren Modulen. Das PGM 710 und der Satz von Modulen 720 können ein Beispiel des PGM 210 bzw. des Satzes von Modulen 220 sein. Jedes Modul des Satzes von Modulen 720 kann eine Verarbeitungsart umfassen, die vorgegeben sein kann, um zu bewerten, ob die Felder eine spezifische Beziehung erfüllen. Die Verarbeitungsarten können die Operatoren logisches UND, logisches ODER, logisches XOR, arithmetisches ADD, arithmetisches SUB, arithmetisches MUL und dergleichen umfassen. Darüber hinaus kann jedes Modul des Satzes von Modulen 720 einen oder mehrere trainierbare Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften umfassen. Beispielsweise kann ein Modul einen Typ eines logischen UND aufweisen und über die trainierbaren Parameter, die durch einen Datensatz trainiert werden, auf unterschiedliche Bildeigenschaften fokussieren. Beispielsweise kann das Modul mit dem Typ eines logischen AND eine logische UND-Verknüpfung zwischen Linienfarben durchführen, und es kann auch eine logische UND-Verknüpfung zwischen Formpositionen durchführen, abhängig von unterschiedlichen trainierten Werten der trainierbaren Parameter.
In einem Gesichtspunkt der vorliegenden Offenbarung kann jedes Modul des Satzes von Modulen 720 konfiguriert sein, um einen vorentwickelten Prozess auf einer oder mehreren variablen Bildeigenschaften durchzuführen, und die eine oder die mehreren variablen Bildeigenschaften können sich aus dem Verarbeiten einer Eingabebildmerkmalskarte durch mindestens einen trainierbaren Parameter ergeben. Beispielsweise kann ein Modul mit einem Typ eines logischen UND wie folgt dargestellt werden: $ƒ_{U N D} (d, e) = (W_{d} \cdot d) Λ (W_{e} \cdot e)$
Wobei d und e Eingabefeldmerkmale sind, W_d und W_e sind trainierbare Parameter zum Fokussieren auf eine spezifische Feldeigenschaft.
In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Bildfeldeigenschaft eine beliebige Eigenschaft umfassen, die auf einem Bild vorhanden sein kann. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere variable Bildeigenschaften unter Zuhilfenahme von Domänenwissen Form, Linie, Größe, Typ, Farbe, Position oder Anzahl oder dergleichen umfassen, die zumindest teilweise auf Tripeln $T [r, o, a]$
basieren, von denen Beschränkungen abhängig sein können.
In einem Gesichtspunkt der vorliegenden Offenbarung kann PGM 710 konfiguriert sein, um eine Posterior-Verteilung über Strukturen modularisierter Netzwerke 730 auszugeben, die aus dem Satz von Modulen 720 zusammengesetzt sind, wobei die Strukturen 730 die Typen der zusammengesetzten Module und die Verbindungen dazwischen identifizieren können. Die eine oder die mehreren variablen Bildeigenschaften eines jeden Moduls 740 können durch Trainieren der mindestens einen trainierbaren Parameter bestimmt werden. Die getrennte Erzeugung von Strukturen 730 (z. B. durch das PGM 710 erzeugt) und variablen Bildeigenschaften 740 (z. B. erzeugt basierend auf den trainierbaren Parametern) kann dem Netzwerk 700 mehr Flexibilität bei der Abstraktion von Konzepten auf hoher Ebene und beim repräsentativen Lernen bereitstellen.
8 zeigt ein beispielhaftes Diagramm, das ein Beispiel für das Durchführen des Verfahrens 400, des Optimierungsprozesses 500 oder des Verfahrens 600 durch ein Netzwerk 800 gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht. Beispielsweise kann das Netzwerk 800 ein Beispiel des Netzwerks 200 oder des Netzwerks 700 sein. Beispielsweise kann ein VAE, der einen Encoder 810-1 und einen Decoder 810-2 umfasst, ein Beispiel für das PGM 210 oder 710 sein. Der Satz von Modulen 820 kann ein Beispiel für den Satz von Modulen 220, 720 sein und kann Strukturen G = (v, A) bilden. Das Subnetzwerk 860 kann verwendet werden, um für jedes Kandidatenbildfeld eine Punktzahl zu berechnen, die dementsprechend einen Korrelationsgrad zwischen jedem Kandidatenbildfeld und einem Ergebnis der Verarbeitung eines Satzes von Eingaben gemäß einem erzeugten modularisierten Netzwerk mit einer Struktur G = (v, A) angibt. Beispielsweise kann die Punktzahl basierend auf verschiedenen Metriken, wie einer Energiefunktion, berechnet werden, wobei eine höhere Energie eine bessere Korrelation angeben kann. Die Posterior-Verteilungseinheit 850 kann Parameter einer Posterior-Verteilung speichern, die von dem Encoder 810-1 ausgegeben wird und basierend auf denen eine Struktur erzeugt werden kann, z. B. durch Abtasten gemäß den Parametern der Posterior-Verteilung.
In einem Beispiel kann das Verfahren 400 damit beginnen, das Netzwerk 800 mit Sätzen von Eingaben und Sätzen von Ausgaben (z. B. über Route 1) bereitzustellen, wobei jeder Satz von Eingaben (z. B. X₁ von 3 × 3 Feldern von 8) der Sätze von Eingaben auf einen Satz von Ausgaben (z. B. das erste Feld in der ersten Zeile von Y₁ von 8) der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, und wobei das Netzwerk 800 ein probabilistisches generatives Modell (PGM) (z. B. einen Encoder 810-1 und einen Decoder 810-2) und einen Satz von Modulen 820 umfasst. Der Encoder 810-1 kann den Satz von Eingaben X₁ in Verteilungsparameter abbilden oder codieren (z. B. λ1, σ1 bei Annahme von p(G|x)~N(λ, σ)) für eine oder mehrere Variablen (z. B. insgesamt 20 Variablen für eine Summierung von 4x4 Adjazenzmatrixeinträgen und 4 Vertices der Beispiele von 3A und 3B), basierend auf denen eine Struktur G = (v, A) erzeugt werden kann. Die Sätze von Eingaben Xi und/oder Ausgaben Y₁ können dem erzeugten modularisierten Netzwerk mit der erzeugten Struktur G = (v, A) über Route 2 bereitgestellt und verarbeitet werden. Das Subnetzwerk 860 kann die verarbeiteten Eingaben Xi und Ausgaben Y₁ verwenden, um die Bewertung der richtigen Ausgabe (z. B. das erste Feld in der ersten Zeile von Y₁ von 8) über die Routen 3 und 5 zu berechnen.
Das Verfahren 400 kann das unter Bezugnahme auf die Eingaben Xi und Ausgaben Y1, beschriebene Verfahren wiederholen, z. B. mit X₂, Y₂, X₃, Y₃, ..., X_n, Y_n. Die Parameter φ, ϑ des Encoders 810-1, des Decoders 810-2 und der Module des Satzes von Modulen 820 können gemäß dem vorstehend unter Bezugnahme auf 5 beschriebenen Optimierungsprozess 500 aktualisiert werden, um die geschätzte Posterior-Verteilung von Strukturen zu erhalten, die mit p̃_φ0(G|x). bezeichnet werden. Darüber hinaus können optimale Lösungen der Gewichtungen µ* erhalten und zum Berechnen der regularisierten Posterior-Verteilung von Strukturen gemäß dem vorstehend unter Bezugnahme auf 5 beschriebenen Optimierungsprozess 500 verwendet werden, z. B. über Route 6.
Vorzugsweise können die Parameter ϑ der Module des Satzes von Modulen 820 ferner so aktualisiert werden, dass sie in die aktualisierte regularisierte Posterior-Verteilung von Strukturen hineinpassen.
In einem Gesichtspunkt der vorliegenden Offenbarung kann der Decoder 810-2 für eine Rückwärtspropagation verwendet werden, z. B. über Route 4. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann der Decoder 810-2 weggelassen werden.
In einem Beispiel kann das Verfahren 600 für einen Inferenzprozess durchgeführt werden, nachdem das Netzwerk 800 gemäß dem Verfahren 400 und/oder dem Optimierungsprozess 500 trainiert wurde.
Ein Fachmann wird verstehen, dass die Posterior-Verteilung 850 und/oder das Subnetzwerk 860 in einen oder mehrere Teile des Netzwerks 800 integriert werden kann, anstatt als separater Teil in 8 veranschaulicht zu sein, abhängig von einer Designpräferenz und/oder einer spezifischen Implementierung, ohne von der vorliegenden Offenbarung abzuweichen.
9 veranschaulicht ein Beispiel einer Hardware-Implementierung für eine Vorrichtung 900 gemäß einer Ausführungsform der vorliegenden Offenbarung. Die Vorrichtung 900 zur visuellen Schlussfolgerung kann einen Speicher 910 und mindestens einen Prozessor 920 umfassen.
Der Prozessor 920 kann mit dem Speicher 910 gekoppelt und konfiguriert werden, um das Verfahren 400, den Optimierungsprozess 500 und das Verfahren 600 durchzuführen, wie vorstehend unter Bezugnahme auf 4, 5 und 6 beschrieben. Der Prozessor 920 kann ein Universalcomputer sein oder auch als eine Kombination von Rechenvorrichtungen implementiert werden, z. B. eine Kombination aus einem DSP und einem Mikroprozessor, mehreren Mikroprozessoren, einem oder mehreren Mikroprozessoren in Verbindung mit einem DSP-Kern oder einer beliebigen anderen derartigen Konfiguration. Der Speicher 910 kann die Eingabedaten, Ausgabedaten, durch einen Prozessor 920 erzeugte Daten und/oder durch einen Prozessor 920 ausgeführte Anweisungen speichern.
Die verschiedenen Vorgänge, Modelle und Netzwerke, die hierin in Verbindung mit der Offenbarung beschrieben werden, können in Hardware, durch einen Prozessor ausgeführte Software, Firmware oder einer beliebigen Kombination davon implementiert sein. Gemäß einer Ausführungsform der Offenbarung kann ein Computerprogrammprodukt für visuelle Schlussfolgerungen einen durch einen Prozessor ausführbaren Computercode zum Durchführen des Verfahrens 400, des Optimierungsprozesses 500 und des Verfahrens 600 umfassen, die vorstehend unter Bezugnahme auf 4, 5 und 6 beschrieben sind. Gemäß einer anderen Ausführungsform der Offenbarung kann ein computerlesbares Medium Computercode für visuelle Schlussfolgerungen speichern, wobei der Computercode, wenn er von einem Prozessor ausgeführt wird, den Prozessor veranlassen kann, das Verfahren 400, den Optimierungsprozess 500 und das Verfahren 600 durchzuführen, die vorstehend unter Bezugnahme auf 4, 5 und 6 beschrieben sind. Computerlesbare Medien schließen sowohl nicht-transitorische, computerlesbare Speichermedien als auch Kommunikationsmedien einschließlich aller Medien ein, welche die Übertragung eines Computerprogramms von einem Ort zum anderen unterstützen. Jede Verbindung kann als ein computerlesbares Medium bezeichnet werden. Andere Ausführungsformen und Implementierungen liegen innerhalb des Schutzumfangs der Offenbarung.
Die vorhergehende Beschreibung der offenbarten Ausführungsformen wird bereitgestellt, um es einem Fachmann zu ermöglichen, die verschiedenen Ausführungsformen herzustellen oder zu verwenden. Verschiedene Modifikationen an diesen Ausführungsformen sind für einen Fachmann leicht ersichtlich, und die hierin definierten generischen Prinzipien können auf andere Ausführungsformen angewendet werden, ohne vom Schutzumfang der verschiedenen Ausführungsformen abzuweichen. Somit sollen die Ansprüche nicht auf die hierin gezeigten Ausführungsformen beschränkt sein, sondern es ist ihnen der breiteste Schutzumfang zu gewähren, der mit den folgenden Ansprüchen und den hierin offenbarten Prinzipien und neuartigen Merkmalen übereinstimmt.

Claims

Verfahren zum visuellen Schlussfolgern, umfassend: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.
Verfahren nach Anspruch 1, wobei die eine oder die mehreren posterioren Regularisierungsbeschränkungen gemäß einem oder mehreren Gesichtspunkten des Domänenwissens in eine oder mehrere Gruppen von Beschränkungen gruppiert werden.
Verfahren nach Anspruch 2, wobei die einen oder die mehreren Gesichtspunkte des Domänenwissens eines oder mehrere von logischem Schlussfolgern, zeitlichem Schlussfolgern, räumlichem Schlussfolgern oder arithmetischem Schlussfolgern umfassen.
Verfahren nach Anspruch 1, wobei die eine oder die mehreren posterioren Regularisierungsbeschränkungen eine oder mehrere Beschränkungen der Logik erster Ordnung (FOL) sind.
Verfahren nach Anspruch 4, wobei die eine oder die mehreren FOL-Beschränkungen basierend auf mindestens einem von Beziehungstypen, Objekttypen oder Attributtypen der Sätze von Eingaben erzeugt werden.
Verfahren nach Anspruch 1, wobei jede der Kombinationen von einem oder mehreren Modulen des Satzes von Modulen ein modularisiertes Netzwerk umfasst, wobei das modularisierte Netzwerk aus einem oder mehreren Modulen des Satzes von Modulen mit einer Struktur zusammengesetzt ist, die das zusammengesetzte eine oder mehrere Module und Verbindungen dazwischen angibt.
Verfahren nach Anspruch 6, ferner umfassend: Bestimmen einer Posterior-Verteilung über Strukturen von modularisierten Netzwerken durch das PGM, basierend auf den bereitgestellten Sätzen von Eingaben und den Sätzen von Ausgaben.
Verfahren nach Anspruch 6, wobei jedes Modul des Satzes von Modulen mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften umfasst und konfiguriert ist, um einen vorgefertigten Prozesstyp auf die eine oder die mehreren variablen Bildeigenschaften anzuwenden; und wobei das Verfahren ferner umfasst: Bestimmen, durch das PGM, einer Posterior-Verteilung über Strukturen von modularisierten Netzwerken, welche die Typen des zusammengesetzten einen oder mehrerer Module und der Verbindungen dazwischen angibt, basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben.
Verfahren nach Anspruch 1, wobei das Verfahren ferner das Optimieren des Netzwerks umfasst, durch: Aktualisieren von Parametern des PGM und von Parametern von Modulen des Satzes von Modulen alternativ durch Maximieren von Evidenzen der Sätze von Eingaben und der Sätze von Ausgaben, um eine geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und optimierten Parametern der Module des Satzes von Modulen zu erhalten; Aktualisieren einer oder mehrerer Gewichtungen der einen oder der mehreren posterioren Regularisierungsbeschränkungen, die auf die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen angewendet werden, um eine oder mehrere optimale Lösungen für die eine oder die mehreren Gewichtungen zu erhalten; Anpassen der geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch Anwenden der einen oder mehreren optimalen Lösungen der einen oder mehreren Gewichtungen und eines oder mehrerer Werte der einen oder der mehreren Beschränkungen auf die geschätzte Posterior-Verteilung; und Aktualisieren der optimierten Parameter der Module basierend auf der angepassten geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen aus dem Satz von Modulen.
Verfahren nach Anspruch 9, wobei die eine oder die mehreren posterioren Regularisierungsbeschränkungen in eine oder mehrere Gruppen von Beschränkungen gruppiert sind und eine Gruppe von Beschränkungen einer Gewichtung entspricht.
Verfahren nach Anspruch 9, wobei ein Wert einer Beschränkung basierend auf einer Korrelation zwischen einem Satz von Eingaben und einem Modul in einer Kombination von einem oder mehreren Modulen des Satzes von Modulen bestimmt wird, die gemäß der geschätzten Posterior-Verteilung angesichts des Satzes von Eingaben erzeugt wird.
Verfahren zum visuellen Schlussfolgern mit einem Netzwerk, wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst, wobei das Verfahren umfasst: Bereitstellen des Netzwerks mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern; Erzeugen einer Kombination von einem oder mehreren Modulen des Satzes von Modulen basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und dem Satz von Eingabebildern, wobei die Posterior-Verteilung von dem unter Domänenwissen trainierten PGM als eine oder mehrere posteriore Regularisierungsbeschränkungen formuliert wird; Verarbeiten des Satzes von Eingabebildern und des Satzes von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen; und Auswählen eines Kandidatenbildes aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern, die durch das Verarbeiten geschätzt wird.
Einrichtung für visuelles Schlussfolgern, umfassend: einen Speicher; und mindestens einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist, um das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
Computerprogrammprodukt zum visuellen Schlussfolgern, umfassend: durch einen Prozessor ausführbarer Computercode zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 12.
Computerlesbares Medium, das einen Computercode zum visuellen Schlussfolgern speichert, wobei der Computercode, wenn er durch einen Prozessor ausgeführt wird, den Prozessor veranlasst, das Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen.
Netzwerk zum visuellen Schlussfolgern, umfassend: einen Satz von Modulen, wobei jeder des Satzes von Modulen als neuronales Netzwerk implementiert ist und mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften aufweist; und ein probabilistisches generatives Modell (PGM), das mit dem Satz von Modulen gekoppelt ist, wobei das PGM konfiguriert ist, um eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen auszugeben.
Netzwerk nach Anspruch 16, wobei jeder des Satzes von Modulen konfiguriert ist, um eine vorgefertigte Verarbeitungsart an den einen oder den mehreren variablen Bildeigenschaften durchzuführen, und die einen oder die mehreren variablen Bildeigenschaften aus dem Verarbeiten einer Bildmerkmalskarte durch die mindestens einen trainierbaren Parameter resultieren.
Netzwerk nach Anspruch 17, wobei die eine oder die mehreren variablen Bildeigenschaften eine oder mehrere von Form, Linie, Größe, Typ, Farbe, Position oder Anzahl umfassen und die vorgefertigte Verarbeitungsart ein logisches UND, logisches ODER, logisches XOR, arithmetisches ADD, arithmetisches SUB, arithmetisches MUL, räumliches STRUC, zeitliches PROG oder zeitliche ID umfasst.