DE112021006196T5 - METHOD AND APPARATUS FOR VISUAL INFERENCE - Google Patents
METHOD AND APPARATUS FOR VISUAL INFERENCE Download PDFInfo
- Publication number
- DE112021006196T5 DE112021006196T5 DE112021006196.8T DE112021006196T DE112021006196T5 DE 112021006196 T5 DE112021006196 T5 DE 112021006196T5 DE 112021006196 T DE112021006196 T DE 112021006196T DE 112021006196 T5 DE112021006196 T5 DE 112021006196T5
- Authority
- DE
- Germany
- Prior art keywords
- modules
- inputs
- sets
- network
- pgm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000000007 visual effect Effects 0.000 title claims abstract description 51
- 238000009826 distribution Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims 1
- 239000000203 mixture Substances 0.000 description 20
- 238000009472 formulation Methods 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000005457 optimization Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
Die vorliegende Offenbarung stellt ein Verfahren zum visuellen Schlussfolgern bereit. Das Verfahren umfasst: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.The present disclosure provides a method for visual reasoning. The method includes: providing a network having sets of inputs and sets of outputs, each set of inputs from the sets of inputs being mapped to one of a set of outputs corresponding to the set of inputs based on visual information about the set of inputs , and wherein the network includes a probabilistic generative model (PGM) and a set of modules; determining by the PGM a posterior distribution over combinations of one or more modules of the set of modules based on the sets of inputs and sets of outputs; and applying domain knowledge as one or more posterior regularization constraints to the particular posterior distribution.
Description
GEBIETAREA
Gesichtspunkte der vorliegenden Offenbarung beziehen sich im Allgemeinen auf künstliche Intelligenz und insbesondere auf ein Verfahren und ein Netzwerk für visuelles Schlussfolgern.Aspects of the present disclosure relate generally to artificial intelligence, and more particularly to a method and network for visual reasoning.
HINTERGRUNDBACKGROUND
Künstliche Intelligenz (KI) wird in einer Vielzahl von Bereichen wie Bildklassifizierung, Objekterkennung, Szenenverständnis, maschinelle Übersetzung und dergleichen eingesetzt. Es besteht ein zunehmendes Interesse an visueller Schlussfolgerung mit einer zunehmenden Wachstum von Anwendungen wie visuelle Fragenbeantwortung (VQA), verkörperte Fragenbeantwortung, visuelle Navigation, Autopilot und dergleichen, wo KI-Modelle im Allgemeinen erforderlich sein können, um Kognitionsprozesse auf hoher Ebene über Wahrnehmungsergebnisse auf niedriger Ebene durchzuführen, zum Beispiel, um abstrakte Schlussfolgerung auf hoher Ebene über einfache visuelle Konzepte wie Linien, Formen und dergleichen durchzuführen.Artificial intelligence (AI) is used in a variety of areas such as image classification, object recognition, scene understanding, machine translation and the like. There is increasing interest in visual reasoning with an increasing growth of applications such as visual question answering (VQA), embodied question answering, visual navigation, autopilot and the like, where AI models may generally be required to predict high-level cognitive processes over low-level perceptual outcomes level, for example, to perform high-level abstract reasoning about simple visual concepts such as lines, shapes, and the like.
Tiefe neuronale Netze wurden in großem Umfang im Bereich der visuellen Schlussfolgerung angewandt, wo tiefe neuronale Netze trainiert werden können, um die Korrelation zwischen Taskeingabe und -ausgabe zu modellieren und bei verschiedenen Aufgaben der visuellen Schlussfolgerung mit tiefem und reichhaltigem Repräsentationslernen erfolgreich sein zu können, insbesondere bei Wahrnehmungsaufgaben. Zusätzlich haben modularisierte Netzwerke in den letzten Jahren mehr und mehr Aufmerksamkeit für visuelle Schlussfolgerung auf sich gezogen, wodurch Deep Learning und symbolische Schlussfolgerung vereint werden können, wobei der Schwerpunkt auf dem Aufbau neuronal-symbolischer Modelle liegt, mit dem Ziel, das Beste aus Repräsentationslernen und symbolischer Schlussfolgerung zu kombinieren. Die Grundidee besteht darin, neuronale Module, die jeweils einen primitiven Schritt im Schlussfolgerungsprozess darstellen, manuell zu entwerfen und Schlussfolgerungsprobleme zu lösen, indem diese Module zu jeweiligen symbolischen Netzwerken zusammengefügt werden, die den gelösten Schlussfolgerungsproblemen entsprechen.Deep neural networks have been widely applied in the field of visual inference, where deep neural networks can be trained to model the correlation between task input and output and can succeed in various visual inference tasks with deep and rich representation learning, in particular in perceptual tasks. Additionally, in recent years, modularized networks have attracted more and more attention to visual inference, allowing deep learning and symbolic inference to be combined, with a focus on building neural-symbolic models, aiming to get the best of representation learning and to combine symbolic conclusions. The basic idea is to manually design neural modules, each representing a primitive step in the reasoning process, and solve reasoning problems by assembling these modules into respective symbolic networks corresponding to the solved reasoning problems.
Mit diesem modularisierten Netzwerk mit neuronal-symbolischer Methodik kann ein herkömmliches Problem der visuellen Fragenbeantwortung (VQA) im Allgemeinen richtig gelöst werden, wobei die Fragen im Allgemeinen in Form von Texten vorliegen. Zusätzlich zur VQA wird neuerdings eine abstrakte visuelle Schlussfolgerung vorgeschlagen, um abstrakte Konzepte oder Fragen direkt aus einer visuellen Eingabe ohne natürlichsprachliche Fragestellung, wie aus einem Bild, zu extrahieren und Schlussfolgerungsprozesse dementsprechend durchzuführen. Da Schlussfolgerung über abstrakte Konzepte seit langem eine Herausforderung im Bereich des maschinellen Lernens darstellt, können die derzeitigen Verfahren oder KI-Modelle, wie sie vorstehend beschrieben wurden, bei einer solchen abstrakten visuellen Schlussfolgerung eine unbefriedigende Leistung aufweisen.This modularized network using neural-symbolic methodology can generally correctly solve a traditional visual question answering (VQA) problem, where the questions are generally in the form of texts. In addition to VQA, abstract visual inference is recently proposed to extract abstract concepts or questions directly from a visual input without natural language questioning, such as from an image, and perform inference processes accordingly. Since inference about abstract concepts has long been a challenge in the field of machine learning, current methods or AI models as described above may have unsatisfactory performance in such abstract visual inference.
Es kann wünschenswert sein, noch bessere Verfahren oder KI-Modelle bereitzustellen, um abstrakte visuelle Schlussfolgerungsaufgaben zu verarbeiten.It may be desirable to provide even better methods or AI models to process abstract visual reasoning tasks.
KURZDARSTELLUNGSHORT PRESENTATION
Das Folgende stellt eine vereinfachte Kurzdarstellung eines oder mehrerer Gesichtspunkte gemäß der vorliegenden Offenbarung dar, um ein grundlegendes Verständnis solcher Gesichtspunkte bereitzustellen. Diese Kurzdarstellung ist kein umfassender Überblick über alle in Betracht gezogenen Gesichtspunkte und soll weder Schlüssel- oder kritische Elemente aller Gesichtspunkte identifizieren noch den Umfang eines oder aller Gesichtspunkte abgrenzen. Ihr einziger Zweck besteht darin, einige Konzepte eines oder mehrerer Gesichtspunkte als Vorwegnahme der nachfolgend präsentierten detaillierteren Beschreibung in vereinfachter Form darzustellen.The following presents a simplified summary of one or more aspects in accordance with the present disclosure to provide a basic understanding of such aspects. This brief is not a comprehensive overview of all considerations and is not intended to identify key or critical elements of all considerations nor to delineate the scope of any or all considerations. Its sole purpose is to present in a simplified form some concepts of one or more points of view in anticipation of the more detailed description presented below.
In einem Gesichtspunkt der Offenbarung umfasst ein Verfahren für visuelle Schlussfolgerung: Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, abgebildet wird, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.In one aspect of the disclosure, a method for visual reasoning includes: providing a network having sets of inputs and sets of outputs, each set of inputs of the sets of inputs being based on one of a set of outputs corresponding to the set of inputs information about the set of inputs, and wherein the network comprises a probabilistic generative model (PGM) and a set of modules; determining by the PGM a posterior distribution over combinations of one or more modules of the set of modules based on the sets of inputs and sets of outputs; and applying domain knowledge sen as one or more posterior regularization constraints on the particular posterior distribution.
In einem weiteren Gesichtspunkt der Offenbarung wird ein Verfahren für visuelles Schlussfolgern mit einem Netzwerk bereitgestellt, das ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst, wobei das Verfahren umfasst: Bereitstellen des Netzwerks mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern; Erzeugen einer Kombination von einem oder mehreren Modulen des Satzes von Modulen basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen und dem Satz von Eingabebildern, wobei die Posterior-Verteilung von dem unter Domänenwissen trainierten PGM als eine oder mehrere posteriore Regularisierungsbeschränkungen formuliert wird; Verarbeiten des Satzes von Eingabebildern und des Satzes von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen; und Auswählen eines Kandidatenbildes aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern, die durch das Verarbeiten geschätzt wird.In another aspect of the disclosure, there is provided a method for visual reasoning with a network comprising a probabilistic generative model (PGM) and a set of modules, the method comprising: providing the network with a set of input images and a set of candidate images ; Generating a combination of one or more modules of the set of modules based on a posterior distribution over combinations of one or more modules of the set of modules and the set of input images, where the posterior distribution of the PGM trained under domain knowledge is one or more posterior regularization constraints are formulated; processing the set of input images and the set of candidate images through the generated combination of one or more modules; and selecting a candidate image from the set of candidate images based on a score of each candidate image in the set of candidate images estimated by the processing.
In einem weiteren Gesichtspunkt der Offenbarung umfasst ein Netzwerk für visuelle Schlussfolgerung: einen Satz von Modulen, wobei jeder des Satzes von Modulen als neuronales Netzwerk implementiert ist und mindestens einen trainierbaren Parameter zum Fokussieren dieses Moduls auf eine oder mehrere variable Bildeigenschaften aufweist; und ein probabilistisches generatives Modell (PGM), das mit dem Satz von Modulen gekoppelt ist, wobei das PGM konfiguriert ist, um eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen auszugeben.In another aspect of the disclosure, a visual inference network includes: a set of modules, each of the set of modules being implemented as a neural network and having at least one trainable parameter for focusing that module on one or more variable image properties; and a probabilistic generative model (PGM) coupled to the set of modules, the PGM configured to output a posterior distribution over combinations of one or more modules of the set of modules.
In einem weiteren Gesichtspunkt der Offenbarung umfasst die Vorrichtung für visuelles Denken einen Speicher; und mindestens einen Prozessor, der mit dem Speicher gekoppelt ist. Der mindestens eine Prozessor ist konfiguriert, um ein Netzwerk mit Sätzen von Eingaben und Sätzen von Ausgaben bereitzustellen, wobei jeder Satz von Eingaben aus den Sätzen von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben basierend auf visuellen Informationen über den Satz von Eingaben entspricht, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.In another aspect of the disclosure, the visual reasoning device includes a memory; and at least one processor coupled to the memory. The at least one processor is configured to provide a network with sets of inputs and sets of outputs, each set of inputs from the sets of inputs being mapped to one of a set of outputs corresponding to the set of inputs based on visual information about the set of inputs, and wherein the network comprises a probabilistic generative model (PGM) and a set of modules; determining by the PGM a posterior distribution over combinations of one or more modules of the set of modules based on the sets of inputs and sets of outputs; and applying domain knowledge as one or more posterior regularization constraints to the particular posterior distribution.
In einem weiteren Gesichtspunkt der Offenbarung umfasst ein Computerprogrammprodukt für visuelles Denken einen durch einen Prozessor ausführbaren Computercode zum Bereitstellen eines Netzwerks mit Sätzen von Eingaben und Sätzen von Ausgaben, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, abgebildet wird, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.In another aspect of the disclosure, a visual reasoning computer program product includes processor-executable computer code for providing a network having sets of inputs and sets of outputs, each set of inputs of the sets of inputs being responsive to one of a set of outputs corresponding to the set of inputs is mapped based on visual information about the set of inputs, and wherein the network comprises a probabilistic generative model (PGM) and a set of modules; determining by the PGM a posterior distribution over combinations of one or more modules of the set of modules based on the sets of inputs and sets of outputs; and applying domain knowledge as one or more posterior regularization constraints to the particular posterior distribution.
In einem weiteren Gesichtspunkt der Offenbarung speichert ein computerlesbares Medium einen Computercode für visuelle Schlussfolgerung. Der Computercode, wenn er durch einen Prozessor ausgeführt wird, veranlasst den Prozessor, ein Netzwerk mit Sätzen von Eingaben und Sätzen von Ausgaben bereitzustellen, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen eines Satzes von Ausgaben abgebildet wird, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben, und wobei das Netzwerk ein probabilistisches generatives Modell (PGM) und einen Satz von Modulen umfasst; Bestimmen einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen durch das PGM, basierend auf den Sätzen von Eingaben und Sätzen von Ausgaben; und Anwenden von Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen auf die bestimmte Posterior-Verteilung.In another aspect of the disclosure, a computer-readable medium stores computer code for visual reasoning. The computer code, when executed by a processor, causes the processor to provide a network of sets of inputs and sets of outputs, each set of inputs of the sets of inputs being mapped to one of a set of outputs corresponding to the set of inputs based on visual information about the set of inputs, and wherein the network comprises a probabilistic generative model (PGM) and a set of modules; determining by the PGM a posterior distribution over combinations of one or more modules of the set of modules based on the sets of inputs and sets of outputs; and applying domain knowledge as one or more posterior regularization constraints to the particular posterior distribution.
Mit Unterstützung des Domänenwissens können die erzeugten modularisierten Netzwerke Strukturen bereitstellen, die einen von Menschen interpretierbaren Schlussfolgerungsprozess präzise darstellen, was zu einer verbesserten Leistung führen kann.With the support of domain knowledge, the generated modularized networks can provide structures that accurately represent a human-interpretable reasoning process, which can lead to improved performance.
Andere Gesichtspunkte oder Variationen der Offenbarung sowie andere Vorteile werden unter Berücksichtigung der folgenden detaillierten Beschreibung und beigefügten Zeichnungen offensichtlich.Other aspects or variations of the disclosure, as well as other advantages, will become apparent upon consideration of the following detailed description and accompanying drawings.
KURZBESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF DRAWINGS
Die offenbarten Gesichtspunkte werden nachstehend in Verbindung mit den beigefügten Zeichnungen beschrieben, die bereitgestellt werden, um die offenbarten Gesichtspunkte zu veranschaulichen und nicht zu beschränken.
-
1 zeigt ein Beispiel für abstrakte visuelle Schlussfolgerung. -
2 veranschaulicht ein beispielhaftes Netzwerk, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können. -
3A und38 veranschaulichen beispielhafte modularisierte Netzwerke mit unterschiedlichen Strukturen. -
4 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird. -
5 stellt ein beispielhaftes Flussdiagramm dar, das einen Optimierungsprozess für eine abstrakte visuelle Schlussfolgerungsaufgabe gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht. -
6 zeigt ein beispielhaftes Flussdiagramm, das ein Verfahren zum Durchführen einer abstrakten visuellen Schlussfolgerungsaufgabe mit einem probabilistischen neuronal-symbolischen Modell veranschaulicht, das gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung mit Domänenwissen regularisiert wird. -
7 veranschaulicht ein weiteres beispielhaftes Netzwerk, in dem Gesichtspunkte der vorliegenden Offenbarung durchgeführt werden können. -
8 stellt ein beispielhaftes Flussdiagramm dar, das einen Optimierungsprozess für eine abstrakte visuelle Schlussfolgerungsaufgabe gemäß einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung veranschaulicht. -
9 veranschaulicht ein Beispiel einer Hardware-Implementierung für eine Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung.
-
1 shows an example of abstract visual inference. -
2 illustrates an example network in which aspects of the present disclosure may be implemented. -
3A and38 illustrate exemplary modularized networks with different structures. -
4 shows an example flowchart illustrating a method for performing an abstract visual reasoning task with a probabilistic neural-symbolic model regularized with domain knowledge in accordance with one or more aspects of the present disclosure. -
5 depicts an example flowchart illustrating an optimization process for an abstract visual reasoning task in accordance with one or more aspects of the present disclosure. -
6 shows an example flowchart illustrating a method for performing an abstract visual reasoning task with a probabilistic neural-symbolic model regularized with domain knowledge in accordance with one or more aspects of the present disclosure. -
7 illustrates another example network in which aspects of the present disclosure may be implemented. -
8th depicts an example flowchart illustrating an optimization process for an abstract visual reasoning task in accordance with one or more aspects of the present disclosure. -
9 illustrates an example of a hardware implementation for a device according to an embodiment of the present disclosure.
DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION
Die vorliegende Offenbarung wird nun unter Bezugnahme auf mehrere beispielhafte Implementierungen erörtert. Es versteht sich, dass diese Implementierungen nur erörtert werden, um es dem Fachmann zu ermöglichen, die Ausführungsformen der vorliegenden Offenbarung besser zu verstehen und somit zu implementieren, und nicht, um Einschränkungen des Schutzumfangs der vorliegenden Offenbarung nahezulegen.The present disclosure will now be discussed with reference to several example implementations. It is understood that these implementations are discussed only to enable those skilled in the art to better understand and thus implement the embodiments of the present disclosure, and not to suggest limitations on the scope of the present disclosure.
Gegenüber den herkömmlichen Computer-Vision-Aufgaben wie Bildklassifizierung und Objekterkennung geht visuelle Schlussfolgerung einen Schritt weiter und erfordert nicht nur ein umfassendes Verständnis des visuellen Inhalts, sondern auch die Fähigkeit, über die extrahierten Konzepte nachzudenken, um Rückschlüsse zu ziehen.
Domänenwissen kann bei der Erzeugung eines angemessenen modularisierten Netzwerks eine Orientierungshilfe bereitstellen, da es sich im Allgemeinen um ein Optimierungsproblem mit einer Mischung aus kontinuierlichen und diskreten Variablen handelt. Mit Unterstützung des Domänenwissens können die erzeugten modularisierten Netzwerke Strukturen bereitstellen, die einen von Menschen interpretierbaren Schlussfolgerungsprozess präzise darstellen, was zu einer verbesserten Leistung führen kann.Domain knowledge can provide guidance in generating an appropriate modularized network, as it is generally an optimization problem with a mix of continuous and discrete variables. With the support of domain knowledge, the generated modularized networks can provide structures that accurately represent a human-interpretable reasoning process, which can lead to improved performance.
Beispielsweise kann das PGM 210 einen Variations-Autoencoder (VAE) umfassen, wobei ein Encoder eines VAE eine variierende Posterior-Verteilung von Strukturen modularisierter Netzwerke formulieren kann, und ein Decoder des VAE eine generative Verteilung formulieren kann. Die formulierte variierende Posterior-Verteilung von Strukturen modularisierter Netzwerke durch den Encoder kann eine geschätzte Posterior-Verteilung von Strukturen modularisierter Netzwerke basierend auf dem beobachteten Datensatz sein. Die formulierte generative Verteilung durch den Decoder kann zur Rekonstruktion verwendet werden (wie über Route 4 von
Beispielsweise kann der Satz von Modulen 220 ein oder mehrere vorgefertigte neuronale Module umfassen, von denen jedes einen primitiven Schritt in einem Schlussfolgerungsprozess darstellt. Beispielsweise kann jedes Modul des Satzes von Modulen 220 als mehrschichtiges neuronales Netzwerk mit einem oder mehreren trainierbaren Parametern implementiert werden. In einem Gesichtspunkt der vorliegenden Offenbarung kann jedes Modul des Satzes von Modulen 220 dynamisch miteinander verbunden sein, um ein bestimmtes modularisiertes Netzwerk zu bilden, das verwendet werden kann, um einen gegebenen Satz von Eingaben auf die richtige Ausgabe abzubilden. In einem Gesichtspunkt der vorliegenden Offenbarung kann das PGM 210 verwendet werden, um modularisierte Netzwerke mit Strukturen zu erzeugen, die den einzelnen Eingaben entsprechen, um die jeweiligen grundlegenden Regeln innerhalb der einzelnen Eingaben vorherzusagen.For example, the set of
Als Beispiel kann die in
Als ein weiteres Beispiel kann die in
In einigen Gesichtspunkten der vorliegenden Offenbarung können die modularisierten Netzwerke mit den jeweiligen in
Ein Fachmann wird verstehen, dass auch andere Strukturen und andere Darstellungen für mindestens einen Teil des Satzes von Modulen 220 möglich sind.One skilled in the art will understand that other structures and other representations for at least a portion of the set of
In Block 410 können Sätze von Eingaben und Sätze von Ausgaben einem Netzwerk 200 oder 700 bereitgestellt werden, wobei jeder Satz von Eingaben der Sätze von Eingaben auf einen Satz von Ausgaben abgebildet werden kann, der dem Satz von Eingaben entspricht, basierend auf visuellen Informationen über den Satz von Eingaben. Die Sätze von Eingaben und die Sätze von Ausgaben können beispielsweise einen Trainingsdatensatz umfassen, wie den prozedural generierten Matrix (Procedurally Generated Matrice (PGM))-Datensatz oder den relationalen und analogen visuellen rEasoNing-Datensatz (RAVEN) oder dergleichen. Das Netzwerk 200, 700 kann ein probabilistisches generatives Modell (PGM) 210, 710 und einen Satz von Modulen 220, 720 umfassen.In
Bei Block 420 kann durch das PGM 210, 710 basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben eine Posterior-Verteilung in Bezug auf den Satz von Modulen 220, 720 bestimmt werden. In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 durch das PGM 210, 710 basierend auf den bereitgestellten Sätzen von Eingaben und Sätzen von Ausgaben bestimmt werden. In einem Beispiel können die Kombinationen eines oder mehrerer Module des Satzes von Modulen 220, 720 modularisierte Netzwerke umfassen, die aus einem oder mehreren Modulen des Satzes von Modulen 220, 720 zusammengesetzt sind, wobei die modularisierten Netzwerke Strukturen aufweisen können, die als G = (v, A) dargestellt werden können. In einem weiteren Beispiel können die Kombinationen eines oder mehrerer Module des Satzes von Modulen 220 beliebige Permutationen eines oder mehrerer Module aus dem Satz von Modulen 220 umfassen. Beispielsweise kann das PGM 210 ein VAE umfassen. Eine geschätzte Posterior-Verteilung über Strukturen von modularisierten Netzwerken kann durch einen Encoder des VAE basierend auf dem beobachteten Datensatz formuliert werden.At
In Block 430 kann das Domänenwissen auf die bestimmte Posterior-Verteilung des Satzes von Modulen 220 als eine oder mehrere posteriore Regularisierungsbeschränkungen angewendet werden. Beispielsweise kann ein regularisiertes Bayes'sches Rahmenwerk (RegBayes) verwendet werden, um menschliches Domänenwissen in Bayes'sche Verfahren durch direktes Anwenden von Beschränkungen auf die Posterior-Verteilung zu integrieren. Die Flexibilität von RegBayes kann die explizite Berücksichtigung von Domänenwissen ermöglichen, indem Wissen in beliebige Bayes'sche Modelle als weiche Beschränkungen integriert wird.In
Unter Zuhilfenahme des Domänenwissens kann das Verfahren 400 genutzt werden, um präzise und interpretierbare Strukturen für unterschiedliche Sätze von Eingaben zu erzeugen, da die erzeugten Strukturen verborgene Regeln zwischen den Sätzen von Eingaben erfassen können.Using domain knowledge,
Ein Fachmann wird verstehen, dass auch andere probabilistische generative Modelle möglich sind und andere Verteilungen in Bezug auf den Satz von Modulen 220 möglich sein können.One skilled in the art will understand that other probabilistic generative models are also possible and other distributions may be possible with respect to the set of
In einem Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere posteriore Regularisierungsbeschränkungen eine oder mehrere Beschränkungen der Logik erster Ordnung (FOL) umfassen, die möglicherweise Domänenwissen enthalten. Beispielsweise kann eine Beschränkungsfunktion aus Berechnungen der Logik erster Ordnung über jede der Strukturen und jeden der Sätze von Eingaben bestehen. Insbesondere nimmt jede Beschränkungsfunktion jede der Strukturen und jeden der Sätze von Eingaben als Eingabe und berechnet den entworfenen Ausdruck der Logik erster Ordnung als Ausgabe. Die Ausgabe der Beschränkungsfunktion kann einen Wert in einem Bereich von [0, 1] annehmen, der den Grad angibt, in dem die Eingabe jeder der Strukturen und jeder der Sätze von Eingaben einer spezifischen Anforderung entspricht, wobei ein niedrigerer Wert eine stärkere Übereinstimmung zeigen kann. Daher kann das Netzwerk 200 durch Minimieren von Werten solcher Beschränkungsfunktionen während der Optimierung der Posterior-Verteilung von Strukturen lernen, Strukturen zu erzeugen, die dem angewendeten Domänenwissen entsprechen können.In one aspect of the present disclosure, one or more posterior regularization constraints may include one or more first-order logic (FOL) constraints that may include domain knowledge. For example, a constraint function may consist of first-order logic calculations over each of the structures and each of the sets of inputs. Specifically, each constraint function takes each of the structures and each of the sets of inputs as input and calculates the designed first-order logic expression as output. The output of the constraint function may take a value in a range of [0, 1] indicating the degree to which the input of each of the structures and each of the sets of inputs conforms to a specific requirement, where a lower value may indicate a stronger match . Therefore, by minimizing values of such constraint functions while optimizing the posterior distribution of structures, the
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann es vorteilhaft sein, innere Zusammenhänge zwischen Beschränkungen zu berücksichtigen. Beschränkungen, die unterschiedliche Gesichtspunkte des Domänenwissens berücksichtigen, können unabhängig voneinander sein. Andererseits können Beschränkungen, die auf unterschiedliche Knoten einer Struktur angewendet werden, aber den gleichen Gesichtspunkt des Domänenwissens teilen, miteinander korreliert werden. Dementsprechend können die Beschränkungen, die den gleichen Gesichtspunkt des Domänenwissens teilen, in eine Gruppe von Beschränkungen gruppiert werden. Beispielsweise können insgesamt L Gruppen von Beschränkungen vorgeschlagen werden, wobei jede Gruppe einem bestimmten Schlussfolgerungstyp entspricht, einschließlich der booleschen logischen Schlussfolgerung, der zeitlichen Schlussfolgerung, der räumlichen Schlussfolgerung, der arithmetischen Schlussfolgerung und dergleichen.In another aspect of the present disclosure, it may be advantageous to consider internal connections between constraints. Constraints that take into account different aspects of domain knowledge can be independent of each other. On the other hand, constraints applied to different nodes of a structure but sharing the same domain knowledge viewpoint can be correlated with each other. Accordingly, the constraints that share the same domain knowledge viewpoint can be grouped into a group of constraints. For example, a total of L groups of constraints may be proposed, each group corresponding to a particular type of inference, including Boolean logical inference, temporal inference, spatial inference, arithmetic inference, and the like.
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können die eine oder die mehreren FOL-Beschränkungen basierend auf einer oder mehreren Eigenschaften eines jeden Satzes von Eingaben erzeugt werden. Beispielsweise kann in einem prozedural generierten Matrix (Procedurally Generated Matrices, PGM)-Datensatz jedes Paar eines Satzes von Eingaben und des entsprechenden Satzes von Ausgaben eine oder mehrere Regeln aufweisen, wobei jede Regel als Tripel dargestellt werden kann,
- • Beziehungstypen: (mit Elementen r): Progression, XOR, OR, AND, konsistente Vereinigung
- • Objekttypen: (mit Elementen o): Form, Linie
- • Attributtypen: (mit Elementen a): Größe, Typ, Farbe, Position, Nummer
- • Relationship types: ( with elements r): progression, XOR, OR, AND, consistent union
- • Object types: ( with elements o): shape, line
- • Attribute types: ( with elements a): size, type, color, position, number
Diese Tripel können abstrakte Schlussfolgerungsregeln bestimmen durch einen bestimmten Satz von Eingaben und die entsprechende korrekte Ausgabe. Beispielsweise, wenndas Tripel [Progression, Form, Farbe] enthält, kann der Satz von Eingaben und die entsprechende korrekte Ausgabe eine progressive Beziehung aufweisen, die sich auf die Farbe (z. B. die Graustufenintensität) von Formen bezieht. Beispielsweise kann jeder Attributtyp
In einem Gesichtspunkt der vorliegenden Offenbarung können die eine oder die mehreren FOL-Beschränkungen basierend auf mindestens einem von Beziehungstypen, Objekttypen oder Attributtypen der Sätze von Eingaben erzeugt werden. Beispielsweise kann eine beispielhafte Formation einer FOL-Beschränkung gegeben sein durch:
Wobei 1 [•] die Indikatorfunktion ist und vj ∈ s(x) wahr ist, wenn die semantische Darstellung von vj zu finden ist in S(x). Wobei S(x) semantische Attribute eines Satzes von Eingaben x sind, die von einem oder mehreren Tripeln
In einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung kann eine Gruppe von FOL-Beschränkungen erzeugt werden, basierend auf einem oder mehreren Tripeln
In einem oder mehreren Gesichtspunkten der vorliegenden Offenbarung kann eine Gruppe von FOL-Beschränkungen, die gemäß einem bestimmten Gesichtspunkt des Domänenwissens erzeugt werden, auf jeden der Knoten einer Struktur angewendet werden. Beispielsweise können Beschränkungen in der Gruppe eine FOL-Regel für alle Knoten der Struktur durchführen, die einen bestimmten Gesichtspunkt des Domänenwissens überprüfen kann.In one or more aspects of the present disclosure, a set of FOL constraints generated according to a particular aspect of domain knowledge may be applied to each of the nodes of a structure. For example, constraints in the group can perform a FOL rule on all nodes of the tree, which can check a specific aspect of domain knowledge.
Ein Fachmann wird verstehen, dass der eine oder die mehreren der vorstehend beschriebenen Gesichtspunkte durch das Netzwerk 200, 700 oder andere Netzwerke, Systeme oder Modelle durchgeführt werden können.One skilled in the art will understand that one or more of the aspects described above may be performed by
In einem Beispiel können in dem beispielhaften Flussdiagramm von Verfahren 400 Schlussfolgerungsaufgaben durchgeführt werden, indem trainierbare Parameter von PGM 210, 710 und Modulen des Satzes von Modulen 220, 720 optimiert werden, um den Vorhersageverlust über beobachtete Stichproben zu minimieren, wie durch das folgende Ziel formuliert:
Wobei φ trainierbare Parameter im PGM 210,710 bezeichnet, ϑ trainierbare Parameter von Modulen des Satzes von Modulen 220,720 bezeichnet und D = {(xn, yn)}n=1:N einen Datensatz umfasst, der die n-te Eingabe xn, zugeordnet zur Ausgabe yn, bezeichnet.Where φ denotes trainable parameters in the PGM 210,710, ϑ denotes trainable parameters of modules of the set of modules 220,720 and D = {(x n , y n )} n=1:N comprises a data set containing the nth input x n , assigned to the output y n , denoted.
In einem Gesichtspunkt der vorliegenden Offenbarung kann das Netzwerk 200, 700 ein PGM 210, 710 nutzen, um eine generative Verteilung pφ(x|G) und eine Variationsverteilung qφ(G|x) darzustellen. Beispielsweise kann ein Encoder einer VAE die Variationsverteilung qφ(G|x), darstellen, und ein Decoder der VAE kann die generative Verteilung pφ(x|G) darstellen. Insbesondere durch Optimieren der Formulierung (2) wird eine geschätzte Posterior-Verteilung der Strukturen p̃φ
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere FOL-Beschränkungen zur Regularisierung angewendet werden, um die neue Posterior-Verteilung der Strukturen (l)darzustellen. Formal lässt sich das Gesamtziel formulieren als:
Wobei qφ(G|x) die regularisierte Posterior-Verteilung der Strukturen ist, p̃φ
Die Φcij (G, xn) Funktionen in Formulierung (3), deren Werte durch die Schlupfvariablen begrenzt werden können, sind FOL-Beschränkungen. In einem Beispiel kann jede Beschränkungsfunktion einen Wert im Bereich von [0,1] annehmen, wobei ein kleinerer Wert eine bessere Übereinstimmung zwischen der Struktur G und der Eingabe xn gemäß dem Domänenwissen bezeichnen kann. Es ist zu beachten, dass Beschränkungsfunktionen L Gruppen bilden können, anstatt unabhängig voneinander zu sein. Die i-te Gruppe kann Ti korrelierende Beschränkungen umfassen, die einer gemeinsamen Schlupfvariablen (i entsprechen können.The Φc ij (G, x n ) functions in formulation (3), whose values can be bounded by the slack variables, are FOL constraints. In an example, each constraint function may take a value in the range [0,1], where a smaller value may denote a better match between the structure G and the input x n according to the domain knowledge. Note that constraint functions can form L groups instead of being independent of each other. The i-th group may include T i correlated constraints, which may correspond to a common slack variable (i.
Während das Hauptziel von Formulierung (3) darin bestehen kann, den Aufgabenverlust ℓerr, zu minimieren, können die Schlupfvariablen ξi=1:L in der Formulierung die FOL-Beschränkungen berücksichtigen. Der Prozess der Strukturerzeugung kann mit dem angewendeten Domänenwissen regularisiert werden. Um das Minimum des Gesamtziels zu erreichen, kann das Netzwerk 200, 700 lernen, Strukturen zu erzeugen, die den angewendeten FOL-Beschränkungen gerecht werden. Darüber hinaus kann die KL-Divergenz zwischen qφ(G|x) und p̃φ
Außerdem können eine oder mehrere zusätzliche Beschränkungen hinzugefügt werden, und eine oder mehrere der vorstehend beschriebenen beispielhaften Beschränkungen können weggelassen werden.Additionally, one or more additional restrictions may be added and one or more of the example restrictions described above may be omitted.
In Block 510 können Parameter des PGM 210, 710 und Parameter von Modulen des Satzes von Modulen 220, 720 alternativ durch Maximieren von Evidenzen der Sätze von Eingaben und der Sätze von Ausgaben aktualisiert werden, um eine geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Sätzen von Modulen des Satzes von Modulen 220, 720 und optimierten Parametern der Module des Satzes von Modulen 220, 720 zu erhalten.In
In Block 520 können eine oder mehrere Gewichtungen von einer oder mehreren posterioren Regularisierungsbeschränkungen, die auf die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 angewendet werden, aktualisiert werden, um eine oder mehrere optimale Lösungen der einen oder mehreren Gewichtungen zu erhalten.In
In Block 530 kann die geschätzte Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 durch Anwenden der einen oder der mehreren optimalen Lösungen der einen oder der mehreren Gewichtungen und der einen oder der mehreren Werte der einen oder der mehreren Beschränkungen auf die geschätzte Posterior-Verteilung angepasst werden.In
In Block 540 können die optimierten Parameter der Module des Satzes von Modulen 220, 720 basierend auf der angepassten geschätzten Posterior-Verteilung über die Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 aktualisiert werden, um in die aktualisierte Strukturverteilung zu passen.In
In einem Beispiel, angenommen ϑ ist fest, kann das Ziel des probabilistischen generativen Modells durch Maximieren der Evidenz der beobachteten Datenproben gegeben sein, was geschrieben werden kann als:
Wobei der Skalierungs-Hyperparameter die Vorhersagewahrscheinlichkeit ist und ein konstanter Parameter ist, der β > 1 erfüllt. Da ℓprob(φ, θ) für den Erwartungswert EG~q
Angenommen, die PGM 210, 710-Parameter haben das Optimum erreicht, kann das Optimieren des Prozesses über ϑ zum Optimieren der Ausführungsleistung des Netzwerks werden, was geschrieben werden kann als:
Der Gradient ∇θ ℓerr(φ, θ) kann mit stochastischem Gradientenabstieg (SGD) geschätzt werden, wobei die Struktur G während des Trainings erfasst wird.The gradient ∇ θ ℓ err (φ, θ) can be estimated using stochastic gradient descent (SGD), where the structure G is captured during training.
Angenommen, die Ergebnisse des vorstehenden Optimierungsvorgangs in Bezug auf Formulierung (2) werden mit φ0 und θ0, bezeichnet, und die geschätzte Posterior-Verteilung der Strukturen kann mit p̃φ
In einem Gesichtspunkt der vorliegenden Offenbarung kann ein durch die Konvexanalyse eingeführtes duales Problem zur Lösung der Formulierung (6) angewendet werden. Daher kann durch das Einführen von Variablen des dualen Problems, µ, eine optimale Verteilung des RegBayes-Ziels durch folgende Formulierung erhalten werden:
Wobei
Wobei jeder
Z (µ*) der Normalisierungsfaktor für qφ ist, wobei µ* die optimale Lösung des dualen Problems ist:
Die Optimierung des dualen Problems (10) kann mit einem angenäherten stochastischen Gradientenabstiegsverfahren (SGD) verarbeitet werden. Insbesondere kann der Gradient angenähert werden als:
Wobei die erste Gleichung auf die Dualität zurückzuführen ist und die Annäherung darin besteht, den Erwartungswert zu schätzen, Φ̂[i](G,x), der durch gleichmäßiges Abtasten der beobachteten Proben und Berechnen der Beschränkungsfunktionswerte gegeben sein kann. Insbesondere können die Aktualisierungen µi gegeben sein durch die SGD-Regel:
Wobei Proj[-C,C] die euklidische Projektion der Eingabe auf [-C, C] bezeichnet und rt die Schrittlänge ist. Nach dem Lösen von µ* kann die regularisierte Posterior-Verteilung der Strukturen qφ(G|x) gegeben sein durch die Formulierung (7). Die Modulparameter ϑ können ferner optimiert werden, damit sie in die aktualisierte Strukturverteilung passen.Where Proj [-C,C] denotes the Euclidean projection of the input onto [-C, C] and r t is the step length. After solving µ*, the regularized posterior distribution of the structures q φ (G|x) can be given by the formulation (7). The module parameters ϑ can be further optimized to fit the updated structure distribution.
In einem Beispiel kann die Gesamtpipeline des beispielhaften Optimierungsprozesses 500 in Algorithmus 1 dargestellt werden.In one example, the overall pipeline of the
Algorithmus 1:
- ♦ Zufälliges Initialisieren von ϑ, φ und µ
- ♦ Bei Konvergenz mit
- 1) Satz ϑ ist fest, Gradient ∇ℓprob(, ϑ) wird berechnet, um φ gemäß Formulierung (4) zu aktualisieren;
- 2) Satz q ist fest, Gradient ∇ϑ ℓerr(, ϑ) wird berechnet, um ϑ gemäß Formulierung (5) zu aktualisieren;
- ♦ Ende
- ♦ kann φ0 das Ergebnis des vorstehenden Verfahrens bezeichnen;
- ♦ Bei Konvergenz mit
- 3) Aktualisieren von µ gemäß dem dualen Problem (10), wobei die Aktualisierungen in der Formulierung (12) gegeben sind;
- ♦ Ende
- ♦ 4) Berechnen von q (G|x) in Formulierung (7) mit φ0 und µ*;
- ♦ Bei Konvergenz mit
- 5) Berechnen des Gradienten ∇ϑ ℓerr(, ϑ) um ϑ gemäß Formulierung (5) zu aktualisieren;
- ♦ Ende
- ♦ Random initialization of ϑ, φ and µ
- ♦ When convergent with
- 1) Set ϑ is fixed, gradient ∇ℓ prob (, ϑ) is calculated to update φ according to formulation (4);
- 2) Set q is fixed, gradient ∇ ϑ ℓ err (, ϑ) is calculated to update ϑ according to formulation (5);
- ♦ End
- ♦ φ 0 can denote the result of the above procedure;
- ♦ When convergent with
- 3) updating µ according to the dual problem (10), where the updates are given in the formulation (12);
- ♦ End
- ♦ 4) Calculate q (G|x) in formulation (7) with φ 0 and µ*;
- ♦ When convergent with
- 5) Calculate the gradient ∇ ϑ ℓ err (, ϑ) to update ϑ according to formulation (5);
- ♦ End
Wobei µ als Gewichtung der FOL-Beschränkungen betrachtet werden kann. In einem Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere FOL-Beschränkungen in eine oder mehrere Gruppen von FOL-Beschränkungen gruppiert werden, und die gruppierten FOL-Beschränkungen können zusammen nur einer Gewichtung entsprechen. Wie in Schritt 3) von Algorithmus 1 veranschaulicht, muss der Optimierungsprozess 500 möglicherweise mehrere Iterationsberechnungen durchführen, um jede der Gewichtungen zu aktualisieren, bis er konvergiert. Die gruppierten FOL-Beschränkungen können die Anzahl der Gewichtungen reduzieren, was dementsprechend Rechenressourcen einsparen kann.Where µ can be viewed as the weight of the FOL constraints. In one aspect of the present disclosure, one or more FOL constraints may be grouped into one or more groups of FOL constraints, and the grouped FOL constraints may together correspond to only one weight. As illustrated in step 3) of
In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann ein Wert einer FOL-Beschränkung basierend auf einer Korrelation zwischen einem Satz von Eingaben und einem Modul in einer Kombination von einem oder mehreren Modulen des Satzes von Modulen bestimmt werden, die gemäß der geschätzten posterioren Verteilung angesichts des Satzes von Eingaben erzeugt wurde. Beispielsweise kann sich die Korrelation darauf beziehen, ob die semantische Darstellung eines Moduls in einer Struktur, die gemäß der geschätzten Posterior-Verteilung (z. B. bei xn, φ0) veranschaulicht wird, in S(xn) zu finden ist, wie durch Formulierung (1) veranschaulicht. In another aspect of the present disclosure, a value of a FOL constraint may be determined based on a correlation between a set of inputs and a module in a combination of one or more modules of the set of modules according to the estimated posterior distribution given the set generated from inputs. For example, the correlation may refer to whether the semantic representation of a module in a structure illustrated according to the estimated posterior distribution (e.g. at x n , φ 0 ) can be found in S(x n ), as illustrated by formulation (1).
In Block 610 kann das Netzwerk 200, 700 mit einem Satz von Eingabebildern und einem Satz von Kandidatenbildern bereitgestellt werden.In
In Block 620 kann eine Kombination von einem oder mehreren Modulen des Satzes von Modulen 220, 720 basierend auf einer Posterior-Verteilung über Kombinationen von einem oder mehreren Modulen des Satzes von Modulen 220, 720 und dem Satz von Eingabebildern erzeugt werden, wobei die Posterior-Verteilung durch das PGM 210, 710, das unter Domänenwissen als eine oder mehrere posteriore Regularisierungsbeschränkungen trainiert wurde, formuliert wird. In einem Beispiel kann der Trainingsprozess gemäß dem Verfahren 400 unter Bezugnahme auf
In Block 630 kann der Satz von Eingabebildern und der Satz von Kandidatenbildern durch die erzeugte Kombination von einem oder mehreren Modulen des Satzes von Modulen 220, 720 verarbeitet werden.In
In Block 640 kann ein Kandidatenbild ausgewählt werden aus dem Satz von Kandidatenbildern basierend auf einer Bewertung jedes Kandidatenbildes in dem Satz von Kandidatenbildern geschätzt durch das Verarbeiten.At
In einem Gesichtspunkt der vorliegenden Offenbarung kann jedes Modul des Satzes von Modulen 720 konfiguriert sein, um einen vorentwickelten Prozess auf einer oder mehreren variablen Bildeigenschaften durchzuführen, und die eine oder die mehreren variablen Bildeigenschaften können sich aus dem Verarbeiten einer Eingabebildmerkmalskarte durch mindestens einen trainierbaren Parameter ergeben. Beispielsweise kann ein Modul mit einem Typ eines logischen UND wie folgt dargestellt werden:
Wobei d und e Eingabefeldmerkmale sind, Wd und We sind trainierbare Parameter zum Fokussieren auf eine spezifische Feldeigenschaft.Where d and e are input field features, W d and W e are trainable parameters for focusing on a specific field feature.
In einem Gesichtspunkt der vorliegenden Offenbarung kann eine Bildfeldeigenschaft eine beliebige Eigenschaft umfassen, die auf einem Bild vorhanden sein kann. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung können eine oder mehrere variable Bildeigenschaften unter Zuhilfenahme von Domänenwissen Form, Linie, Größe, Typ, Farbe, Position oder Anzahl oder dergleichen umfassen, die zumindest teilweise auf Tripeln
In einem Gesichtspunkt der vorliegenden Offenbarung kann PGM 710 konfiguriert sein, um eine Posterior-Verteilung über Strukturen modularisierter Netzwerke 730 auszugeben, die aus dem Satz von Modulen 720 zusammengesetzt sind, wobei die Strukturen 730 die Typen der zusammengesetzten Module und die Verbindungen dazwischen identifizieren können. Die eine oder die mehreren variablen Bildeigenschaften eines jeden Moduls 740 können durch Trainieren der mindestens einen trainierbaren Parameter bestimmt werden. Die getrennte Erzeugung von Strukturen 730 (z. B. durch das PGM 710 erzeugt) und variablen Bildeigenschaften 740 (z. B. erzeugt basierend auf den trainierbaren Parametern) kann dem Netzwerk 700 mehr Flexibilität bei der Abstraktion von Konzepten auf hoher Ebene und beim repräsentativen Lernen bereitstellen.In one aspect of the present disclosure,
In einem Beispiel kann das Verfahren 400 damit beginnen, das Netzwerk 800 mit Sätzen von Eingaben und Sätzen von Ausgaben (z. B. über Route 1) bereitzustellen, wobei jeder Satz von Eingaben (z. B. X1 von 3 × 3 Feldern von
Das Verfahren 400 kann das unter Bezugnahme auf die Eingaben Xi und Ausgaben Y1, beschriebene Verfahren wiederholen, z. B. mit X2, Y2, X3, Y3, ..., Xn, Yn. Die Parameter φ, ϑ des Encoders 810-1, des Decoders 810-2 und der Module des Satzes von Modulen 820 können gemäß dem vorstehend unter Bezugnahme auf
Vorzugsweise können die Parameter ϑ der Module des Satzes von Modulen 820 ferner so aktualisiert werden, dass sie in die aktualisierte regularisierte Posterior-Verteilung von Strukturen hineinpassen.Preferably, the parameters ϑ of the modules of the set of
In einem Gesichtspunkt der vorliegenden Offenbarung kann der Decoder 810-2 für eine Rückwärtspropagation verwendet werden, z. B. über Route 4. In einem weiteren Gesichtspunkt der vorliegenden Offenbarung kann der Decoder 810-2 weggelassen werden.In one aspect of the present disclosure, the decoder 810-2 may be used for backward propagation, e.g. via
In einem Beispiel kann das Verfahren 600 für einen Inferenzprozess durchgeführt werden, nachdem das Netzwerk 800 gemäß dem Verfahren 400 und/oder dem Optimierungsprozess 500 trainiert wurde.In one example, the
Ein Fachmann wird verstehen, dass die Posterior-Verteilung 850 und/oder das Subnetzwerk 860 in einen oder mehrere Teile des Netzwerks 800 integriert werden kann, anstatt als separater Teil in
Der Prozessor 920 kann mit dem Speicher 910 gekoppelt und konfiguriert werden, um das Verfahren 400, den Optimierungsprozess 500 und das Verfahren 600 durchzuführen, wie vorstehend unter Bezugnahme auf
Die verschiedenen Vorgänge, Modelle und Netzwerke, die hierin in Verbindung mit der Offenbarung beschrieben werden, können in Hardware, durch einen Prozessor ausgeführte Software, Firmware oder einer beliebigen Kombination davon implementiert sein. Gemäß einer Ausführungsform der Offenbarung kann ein Computerprogrammprodukt für visuelle Schlussfolgerungen einen durch einen Prozessor ausführbaren Computercode zum Durchführen des Verfahrens 400, des Optimierungsprozesses 500 und des Verfahrens 600 umfassen, die vorstehend unter Bezugnahme auf
Die vorhergehende Beschreibung der offenbarten Ausführungsformen wird bereitgestellt, um es einem Fachmann zu ermöglichen, die verschiedenen Ausführungsformen herzustellen oder zu verwenden. Verschiedene Modifikationen an diesen Ausführungsformen sind für einen Fachmann leicht ersichtlich, und die hierin definierten generischen Prinzipien können auf andere Ausführungsformen angewendet werden, ohne vom Schutzumfang der verschiedenen Ausführungsformen abzuweichen. Somit sollen die Ansprüche nicht auf die hierin gezeigten Ausführungsformen beschränkt sein, sondern es ist ihnen der breiteste Schutzumfang zu gewähren, der mit den folgenden Ansprüchen und den hierin offenbarten Prinzipien und neuartigen Merkmalen übereinstimmt.The foregoing description of the disclosed embodiments is provided to enable one skilled in the art to make or use the various embodiments. Various modifications to these embodiments will be readily apparent to those skilled in the art, and the generic principles defined herein may be applied to other embodiments without departing from the scope of the various embodiments. Thus, the claims are not intended to be limited to the embodiments shown herein, but are to be accorded the broadest scope consistent with the following claims and the principles and novel features disclosed herein.
Claims (18)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/078877 WO2022183403A1 (en) | 2021-03-03 | 2021-03-03 | Method and apparatus for visual reasoning |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112021006196T5 true DE112021006196T5 (en) | 2023-09-28 |
Family
ID=75252255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112021006196.8T Pending DE112021006196T5 (en) | 2021-03-03 | 2021-03-03 | METHOD AND APPARATUS FOR VISUAL INFERENCE |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240185023A1 (en) |
CN (1) | CN117223033A (en) |
DE (1) | DE112021006196T5 (en) |
WO (1) | WO2022183403A1 (en) |
-
2021
- 2021-03-03 WO PCT/CN2021/078877 patent/WO2022183403A1/en active Application Filing
- 2021-03-03 DE DE112021006196.8T patent/DE112021006196T5/en active Pending
- 2021-03-03 CN CN202180095178.7A patent/CN117223033A/en active Pending
- 2021-03-03 US US18/546,842 patent/US20240185023A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN117223033A (en) | 2023-12-12 |
WO2022183403A1 (en) | 2022-09-09 |
US20240185023A1 (en) | 2024-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112017002799B4 (en) | METHOD AND SYSTEM FOR GENERATION OF MULTIMODAL DIGITAL IMAGES | |
DE102018111905A1 (en) | Domain-specific language for generating recurrent neural network architectures | |
DE202017007517U1 (en) | Aggregate characteristics for machine learning | |
DE102018129424A1 (en) | SYSTEM AND METHOD FOR LEARNING THE STRUCTURE OF DEEP NEURONAL NETWORKS | |
DE112020000281T5 (en) | COMBINING MODELS THAT HAVE RESPECTIVE TARGET CLASSES WITH DISTILLATION | |
DE112020000584T5 (en) | PROCEDURE FOR UNSUITIZED PICTURE-TO-PICTURE TRANSLATION WITH FEW IMAGES | |
DE102021004591A1 (en) | Graph-enabled neural networks for datasets with heterophilia | |
DE112020005610T5 (en) | IDENTIFYING OPTIMAL WEIGHTS TO IMPROVE PREDICTIVE ACCURACY IN MACHINE LEARNING METHODS | |
DE102020215942A1 (en) | SYSTEM AND PROCEDURES FOR UNMATCHED DOMAIN ADAPTATION WITH MIXED TRAINING | |
DE112020004471T5 (en) | Inference device, training device, inference method and training method | |
DE112019003910T5 (en) | INFORMATION PROCESSING METHOD, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROGRAM | |
DE102022201753A1 (en) | Extension of graph-based labeling rules for low-supervision training of machine learning-based proper noun recognition | |
DE102019203634A1 (en) | Method and device for controlling a robot | |
EP0901658B1 (en) | Process for optimizing fuzzy rules using a computer | |
DE102019210507A1 (en) | Device and computer-implemented method for processing digital sensor data and training methods therefor | |
DE102019205359B4 (en) | Method and device for controlling a technical device | |
DE112021006196T5 (en) | METHOD AND APPARATUS FOR VISUAL INFERENCE | |
DE112019001959T5 (en) | SEGMENTING IRREGULAR SHAPES IN PICTURES USING DEEP AREA GROWTH | |
DE102019204118A1 (en) | Method for transferring a feature of a first image to a second image | |
DE102019104571A1 (en) | ARTIFICIAL NEURAL NETWORK | |
DE102020213176A1 (en) | Device and method for filling a knowledge graph, training method therefor | |
DE112020007371T5 (en) | Method and apparatus for a neural network based on energy-based latent variable models | |
DE102011087803B4 (en) | Method and apparatus for merging classified traffic situation information | |
DE102007033019B4 (en) | Methods and data processing systems for computerized reasoning | |
DE102013221669A1 (en) | Accurate simulation of progeny derived from recombination of parents |