DE102019217444A1 - Method and device for classifying digital image data - Google Patents
Method and device for classifying digital image data Download PDFInfo
- Publication number
- DE102019217444A1 DE102019217444A1 DE102019217444.2A DE102019217444A DE102019217444A1 DE 102019217444 A1 DE102019217444 A1 DE 102019217444A1 DE 102019217444 A DE102019217444 A DE 102019217444A DE 102019217444 A1 DE102019217444 A1 DE 102019217444A1
- Authority
- DE
- Germany
- Prior art keywords
- context information
- digital image
- data
- arrangement
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Verfahren und Vorrichtung zur Klassifizierung digitaler Bilddaten, insbesondere zur Objektdetektion, gekennzeichnet durch Empfangen von Daten eines digitalen Bildes (102) und Kontextinformationen (104) für das digitale Bild (102), Bestimmen einer Darstellung (108) der Kontextinformationen für das digitale Bild an einer Einbettungsanordnung (106) in Abhängigkeit von den Kontextinformationen (104), wobei die Einbettungsanordnung (106) trainiert ist, Darstellungen von Kontextinformationen von digitalen Bildern aus Kontextinformationen für die digitalen Bilder zu bestimmen, Bestimmen (208, 408, 608, 808) einer Klasse (112) für das digitale Bild an einer Klassifizierungsanordnung (110) in Abhängigkeit von den Daten des digitalen Bildes (102) und in Abhängigkeit von der Darstellung (108) der Kontextinformationen (104) für das digitale Bild (102), wobei die Klassifizierungsanordnung (110) trainiert ist, Klassen für digitale Bilder in Abhängigkeit von Daten von digitalen Bildern und Darstellungen von Kontextinformationen für digitale Bilder zu bestimmen, wobei zumindest eine Zustandsvariable (114) der Klassifizierungsanordnung (110) in Abhängigkeit von der Darstellung (108) der Kontextinformationen (104) bestimmt wird und wobei die Klasse (112) des digitalen Bildes (102) in Abhängigkeit von der zumindest einen Zustandsvariable (114) bestimmt wird.Method and device for classifying digital image data, in particular for object detection, characterized by receiving data from a digital image (102) and context information (104) for the digital image (102), determining a representation (108) of the context information for the digital image on a Embedding arrangement (106) as a function of the context information (104), the embedding arrangement (106) being trained to determine representations of context information of digital images from context information for the digital images, determining (208, 408, 608, 808) a class ( 112) for the digital image to a classification arrangement (110) as a function of the data of the digital image (102) and as a function of the representation (108) of the context information (104) for the digital image (102), the classification arrangement (110 ) is trained to create classes for digital images depending on data from digital images and representations gen of context information for digital images, wherein at least one state variable (114) of the classification arrangement (110) is determined as a function of the representation (108) of the context information (104) and wherein the class (112) of the digital image (102) in Depending on the at least one state variable (114) is determined.
Description
Stand der TechnikState of the art
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Klassifizierung digitaler Bilddaten, die insbesondere zur Objekterkennung verwendet werden.The invention relates to a method and a device for classifying digital image data, which are used in particular for object recognition.
Es ist wünschenswert, ein in hohem Maße robustes und effizientes Verfahren und eine entsprechende Vorrichtung zur Klassifizierung digitaler Bilddaten zur Objekterkennung bereitzustellen.It is desirable to provide a highly robust and efficient method and a corresponding device for classifying digital image data for object recognition.
Kurze Darstellung der ErfindungSummary of the invention
Ein Verfahren und eine Vorrichtung entsprechend den unabhängigen Ansprüchen erreichen dies.A method and an apparatus according to the independent claims achieve this.
Ein Verfahren zur Klassifizierung digitaler Bilddaten, insbesondere zur Objektdetektion, umfasst Empfangen von Daten eines digitalen Bildes und Kontextinformationen für das digitale Bild, Bestimmen einer Darstellung der Kontextinformationen für das digitale Bild an einer Einbettungsanordnung in Abhängigkeit von den Kontextinformationen, wobei die Einbettungsanordnung trainiert ist, Darstellungen von Kontextinformationen von digitalen Bildern aus Kontextinformationen für die digitalen Bilder zu bestimmen, Bestimmen einer Klasse für das digitale Bild an einer Klassifizierungsanordnung in Abhängigkeit von den Daten des digitalen Bildes und in Abhängigkeit von der Darstellung der Kontextinformationen für das digitale Bild, wobei die Klassifizierungsanordnung trainiert ist, Klassen für digitale Bilder in Abhängigkeit von Daten von digitalen Bildern und Darstellungen von Kontextinformationen für digitale Bilder zu bestimmen, wobei zumindest eine Zustandsvariable der Klassifizierungsanordnung in Abhängigkeit von der Darstellung der Kontextinformationen bestimmt wird und wobei die Klasse des digitalen Bildes in Abhängigkeit von der zumindest einen Zustandsvariable bestimmt wird. Das System besteht aus zwei Hauptkomponenten: der Kontexteinbettungsanordnung, die verwendet wird, um Informationen aus Metadaten des digitalen Bildes zu codieren, und der Klassifizierungsanordnung, die die tatsächliche Erkennungsaufgabe durchführt, die als Eingabe sowohl Bilddaten als auch die durch die Einbettungsanordnung berechnete Kontexteinbettung empfängt. Die Kontexteinbettung kann auf Metadaten, Kontextdaten oder A-priori-Wissen über die Domäne/Szene basieren. Dieses Verfahren erlaubt robustes Klassifizieren digitaler Bilder basierend auf dem Kontext.A method for classifying digital image data, in particular for object detection, comprises receiving data of a digital image and context information for the digital image, determining a representation of the context information for the digital image on an embedding arrangement as a function of the context information, the embedding arrangement being trained, representations to determine context information of digital images from context information for the digital images, determining a class for the digital image on a classification arrangement as a function of the data of the digital image and as a function of the representation of the context information for the digital image, the classification arrangement being trained To determine classes for digital images as a function of data from digital images and representations of context information for digital images, wherein at least one state variable of the classification arrangement is determined as a function of the representation of the context information and wherein the class of the digital image is determined as a function of the at least one state variable. The system consists of two main components: the context embedding device, which is used to encode information from metadata of the digital image, and the classification device, which performs the actual recognition task, which receives as input both image data and the context embedding computed by the embedding device. Context embedding can be based on metadata, context data or a priori knowledge of the domain / scene. This method allows robust classification of digital images based on context.
Vorzugsweise werden die Kontextinformationen durch Metadaten definiert, die den Kontext des digitalen Bildes beschreiben, insbesondere einen Ort, eine Zeit, ein Datum und Sensordaten. Diese Metadaten, Kontextdaten oder dieses A-priori-Wissen über die Domäne/Szene ist problemlos aus Bildern verfügbar und verbessert die Klassifizierung deutlich.The context information is preferably defined by metadata that describe the context of the digital image, in particular a location, a time, a date and sensor data. This metadata, context data or this a priori knowledge about the domain / scene is easily available from images and significantly improves the classification.
Vorzugsweise umfasst die Einbettungsanordnung eine Darstellung eines Graphen, der Kontextinformationen für digitale Bilder auf Elemente abbildet, die Kontextinformationen darstellen, wobei ein Untergraph, der Elemente definiert, die die Kontextinformationen für das digitale Bild darstellen, in Abhängigkeit von den Kontextinformationen für das digitale Bild bestimmt wird und wobei die Zustandsvariable der Klassifizierungsanordnung in Abhängigkeit von den durch den Untergraphen definierten Elementen bestimmt wird. Dies bietet eine effektive Klassifizierung für Objekterkennung.The embedding arrangement preferably comprises a representation of a graph that maps context information for digital images onto elements that represent context information, a subgraph that defines elements that represent the context information for the digital image being determined as a function of the context information for the digital image and wherein the state variable of the classification arrangement is determined as a function of the elements defined by the subgraph. This provides an effective classification for object recognition.
Vorzugsweise ist die Darstellung der Kontextinformationen ein Vektor, insbesondere mit einer vorbestimmten Dimension, in einem Vektorraum, wobei die Einbettungsanordnung ein künstliches neuronales Netzwerk umfasst, das trainiert ist, um den Vektor in Abhängigkeit von den Kontextinformationen zu bestimmen. Diese Darstellung der Kontextinformationen ist einfach in ein künstliches neuronales Netzwerk zu integrieren.The representation of the context information is preferably a vector, in particular with a predetermined dimension, in a vector space, the embedding arrangement comprising an artificial neural network which is trained to determine the vector as a function of the context information. This representation of the context information can be easily integrated into an artificial neural network.
Vorzugsweise umfasst die Klassifizierungsanordnung ein künstliches neuronales Netzwerk mit einer Eingabeschicht für Daten von digitalen Bildern und einer Ausgabeschicht für die Klasse, wobei die Zustandsvariable einen Zustand einer verborgenen Schicht in einem Zustandsraum definiert, wobei die verborgene Schicht zwischen der Eingabeschicht und der Ausgabeschicht des künstlichen neuronalen Netzwerks angeordnet ist.Preferably, the classification arrangement comprises an artificial neural network with an input layer for data from digital images and an output layer for the class, the state variable defining a state of a hidden layer in a state space, the hidden layer between the input layer and the output layer of the artificial neural network is arranged.
Vorzugsweise wird zumindest ein Attribut für das digitale Bild in Abhängigkeit von den Daten des digitalen Bildes und der Darstellung der Kontextinformationen für das digitale Bild bestimmt, wobei die Klassifizierungsanordnung trainiert ist, Attribute für digitale Bilder in Abhängigkeit von Daten von digitalen Bildern und Kontextinformationen für digitale Bilder zu bestimmen. Dies stellt sicher, dass die berechnete Merkmalsdarstellung des Eingabebildes konsistent mit den im Wissensgraphen enthaltenen Informationen ist.At least one attribute for the digital image is preferably determined as a function of the data of the digital image and the representation of the context information for the digital image, the classification arrangement being trained, attributes for digital images as a function of data from digital images and context information for digital images to determine. This ensures that the calculated feature representation of the input image is consistent with the information contained in the knowledge graph.
Vorzugsweise umfasst die Klassifizierungsanordnung ein künstliches neuronales Netzwerk mit einer Eingabeschicht für Daten von digitalen Bildern und einer Ausgabeschicht für Ausgabe der Klasse, wobei die Zustandsvariable einen Zustand der Eingabeschicht des künstlichen neuronalen Netzwerks im Zustandsraum definiert. Dies ist ein einfacher Weg des Integrierens der Kontextinformationen in das neuronale Netzwerk.The classification arrangement preferably comprises an artificial neural network with an input layer for data from digital images and an output layer for output of the class, the state variable defining a state of the input layer of the artificial neural network in the state space. This is a simple way of integrating the context information into the neural network.
Die Klassifizierungsanordnung kann ein künstliches neuronales Netzwerk mit einer Eingabeschicht für Daten von digitalen Bildern und einer Ausgabeschicht für Ausgabe der Klasse umfassen, wobei die Zustandsvariable einen Zustand der Ausgabeschicht des künstlichen neuronalen Netzwerks im Zustandsraum definiert. Dieses künstliche neuronale Netzwerk kann durch Trainieren der Parameter lediglich der Ausgabeschicht neu trainiert werden.The classification arrangement may comprise an artificial neural network with an input layer for data from digital images and an output layer for output of the class, the state variable defining a state of the output layer of the artificial neural network in the state space. This artificial neural network can be retrained by training the parameters of only the output layer.
Ein Verfahren zum Trainieren der Anordnungen umfasst Bereitstellen von Trainingsdaten, wobei die Trainingsdaten Trainingsdatenpunkte umfassen, wobei jeder der Trainingsdatenpunkte Daten eines digitalen Bildes, Kontextinformationen für das digitale Bild und Informationen über die Klasse für das digitale Bild umfasst, wobei das Verfahren umfasst, für jeden Trainingsdatenpunkt an einer Einbettungsanordnung die Darstellung der Kontextinformationen in Abhängigkeit von den Kontextinformationen und an der Klassifizierungsanordnung eine Klasse für das digitale Bild in Abhängigkeit von den Daten des digitalen Bildes und der Darstellung der Kontextinformationen zu bestimmen, wobei zumindest eine Zustandsvariable der Klassifizierungsanordnung in Abhängigkeit von der Darstellung der Kontextinformationen bestimmt wird, und wobei die Klasse des digitalen Bildes in Abhängigkeit von der zumindest einen Zustandsvariable bestimmt wird, wobei ein Parameter für die Klassifizierungsanordnung und/oder die Einbettungsanordnung in einem Gradientenverfahren in Abhängigkeit von mehreren Trainingsdatenpunkten und von für die mehreren Trainingsdatenpunkte bestimmten Klassen bestimmt wird.A method for training the arrangements comprises providing training data, the training data comprising training data points, each of the training data points comprising data of a digital image, context information for the digital image and information about the class for the digital image, the method comprising for each training data point to determine the representation of the context information on an embedding arrangement as a function of the context information and on the classification arrangement a class for the digital image as a function of the data of the digital image and the representation of the context information, with at least one state variable of the classification arrangement depending on the representation of the Context information is determined, and the class of the digital image is determined as a function of the at least one state variable, a parameter for the classification arrangement and / or the E embedding arrangement is determined in a gradient method as a function of several training data points and of classes intended for the several training data points.
Eine entsprechende Vorrichtung zum Klassifizieren digitaler Bilddaten, insbesondere für Objekterkennung, umfasst eine Klassifizierungsanordnung und eine Einbettungsanordnung, die dazu angepasst sind, das Verfahren auszuführen.A corresponding device for classifying digital image data, in particular for object recognition, comprises a classification arrangement and an embedding arrangement which are adapted to carry out the method.
Weitere vorteilhafte Aspekte werden in der folgenden Beschreibung und den Zeichnungen offenbart. In den Zeichnungen:
-
1 stellt Aspekte einer Vorrichtung für Objekterkennung dar, -
2 stellt Schritte in einem Verfahren zur Objekterkennung dar, -
3 stellt weitere Aspekte der Vorrichtung für Objekterkennung dar, -
4 stellt Aspekte des Verfahrens zur Objekterkennung dar, -
5 stellt weitere Aspekte der Vorrichtung für Objekterkennung dar, -
6 stellt weitere Aspekte des Verfahrens zur Objekterkennung dar, -
7 stellt weitere Aspekte der Vorrichtung für Objekterkennung dar, -
8 stellt weitere Aspekte des Verfahrens zur Objekterkennung dar, -
9 stellt Aspekte eines Trainingsverfahrens dar.
-
1 represents aspects of a device for object recognition, -
2 represents steps in a method for object recognition, -
3rd represents further aspects of the device for object recognition, -
4th represents aspects of the method for object recognition, -
5 represents further aspects of the device for object recognition, -
6th represents further aspects of the method for object recognition, -
7th represents further aspects of the device for object recognition, -
8th represents further aspects of the method for object recognition, -
9 represents aspects of a training procedure.
Die Vorrichtung
Die Vorrichtung
Die Bilddaten werden in dem Beispiel als ein Tensor verarbeitet, umfassend Intensitätswerte jedes Pixel des digitalen Bildes
Die Klassifizierungsanordnung
Ein Verfahren zum Klassifizieren digitaler Bilddaten insbesondere zur Objektdetektion wird nachfolgend Bezug nehmend auf
Nach dem Start wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach endet das Verfahren.Then the process ends.
In
Die Einbettungsanordnung
Die Einbettungsanordnung
Die Einbettungsanordnung
Dieses System besteht aus zwei Hauptkomponenten: einer Graphen-Einbettungsanordnung, die verwendet wird, um Informationen, die in einem (aufgabenspezifischen) Wissensgraphen enthalten sind, zu codieren; der Klassifizierungsanordnung, z. B. einem faltenden neuronalen Netzwerk, die die tatsächliche Erkennungsaufgabe durchführt, die als Eingabe sowohl Bilddaten als auch die durch die Graphen-Einbettungsanordnung berechnete Kontexteinbettung empfängt. Um für Objekterkennung zu trainieren oder um Objekterkennung durchzuführen, werden die folgenden Berechnungen ausgeführt: Das System erhält als Eingabe ein Bild, z. B. eines Straßenzeichens, sowie Metadaten, Kontextdaten oder A-priori-Wissen über die Domäne/Szene, die den Kontext des Bildes beschreibt, z. B. Ort, Zeit, Datum, Sensordaten. Die Kontextdaten werden dann verwendet, um den Untergraphen aus dem Wissensgraphen zu extrahieren, beispielsweise durch Auswählen aller Knoten, die mit Objekten verbunden sind, die in den Metadaten, Kontextdaten oder im A-priori-Wissen über die Domäne/Szene vorhanden sind. Als ein Beispiel könnten, in einem Verwendungsfall von Straßenzeichenerkennung, Metadaten, Kontextdaten oder A-priori-Wissen über die Domäne/Szene aus Land und Straßentyp, z.B. Stadtstraße, Autobahn, bestehen. Der Untergraph wird dann in einem Vektorraum mit fester Dimension unter Verwendung der Graphen-Einbettungsanordnung, beispielsweise eines neuronalen Graphen-Netzwerks, codiert. Die Bilddaten dienen als Eingabe in das faltende neuronale Netzwerk. Zusätzlich wird, zu den regelmäßigen Faltungen, ein Aufmerksamkeitsmechanismus verwendet, um die Darstellungen in den verborgenen Schichten basierend auf dem Kontextvektor zu modifizieren. Beispielsweise werden die verborgenen Schichten durch die Ausgabe einer linearen Transformation des Kontextvektors gewichtet, gefolgt von einer Softmax-Nichtlinearität, die nach jeder regelmäßigen Faltung im Netzwerk durchgeführt wird. Das faltende Netzwerk sowie die Gewichte des Aufmerksamkeitsmechanismus werden in einer Standardweise unter Verwendung von Rückpropagierung trainiert, wie nachfolgend beschrieben. Im Falle von neuronalen Graphen-Netzwerken kann die Grapheneinbettung Endezu-Ende gelernt werden, zusätzlich zu dem faltenden Netzwerk für die Bilddaten.This system consists of two main components: a graph embedding arrangement which is used to encode information contained in a (task-specific) knowledge graph; the classification arrangement, e.g. A convolutional neural network that performs the actual recognition task that receives as input both image data and the context embedding computed by the graph embedding arrangement. To train for object recognition or to perform object recognition, the following calculations are performed: The system receives an image as input, e.g. B. a street sign, as well as metadata, context data or a priori knowledge about the domain / scene that describes the context of the image, e.g. B. Place, time, date, sensor data. The context data is then used to extract the subgraph from the knowledge graph, for example by selecting all nodes associated with objects that are present in the metadata, context data or in the a priori knowledge about the domain / scene. As an example, in a use case of road sign recognition, metadata, context data or a priori knowledge of the domain / scene could consist of the country and the type of road, eg city road, highway. The subgraph is then encoded in a fixed dimension vector space using the graph embedding arrangement such as a graph neural network. The image data serve as input to the folding neural network. In addition to the regular convolutions, an attention mechanism is used to modify the representations in the hidden layers based on the context vector. For example, the hidden layers are weighted by outputting a linear transformation of the context vector, followed by a softmax non-linearity that is performed after every regular convolution in the network. The folding network as well as the weights of the attention mechanism are trained in a standard manner using back propagation, as described below. In the case of neural graph networks, the graph embedding can be learned end-to-end, in addition to the convolving network for the image data.
Die Darstellung
Die Klassifizierungsanordnung
In dem Beispiel wird der Vektor
Optional kann die Klassifizierungsanordnung
Das künstliche neuronale Netzwerk
Das künstliche neuronale Netzwerk
Ein Verfahren für diese Vorrichtung entsprechend
Nach dem Start wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird der Schritt
In Schritt
In dem Beispiel wird der Vektor
Das bedeutet, dass die Zustandsvariable
Danach wird ein Schritt
In Schritt
Optional wird ein Schritt
In Schritt
Danach endet das Verfahren.Then the process ends.
Dies bietet eine strukturell einfachere Alternative als die vorherige Anordnung. Zum Bereitstellen der Kontextinformationen für das faltende neuronale Netzwerk. In dieser Alternative wird jeder Eintrag des Kontextvektors auf die Höhe und Breite des Eingabebildes repliziert. Dieser replizierte Kontextvektor wird als zusätzliche Eingabekanäle an das faltende neuronale Netzwerk angekettet.This offers a structurally simpler alternative than the previous arrangement. To provide the context information for the convolutional neural network. In this alternative, each entry of the context vector is replicated to the height and width of the input image. This replicated context vector is chained to the folding neural network as additional input channels.
Die Einbettungsanordnung
Die Einbettungsanordnung
Die Darstellung
Die Klassifizierungsanordnung
Die Zustandsvariable
Die Klassifizierungsanordnung
Nach dem Start wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach endet das Verfahren.Then the process ends.
Ein Ansatz zum Integrieren des Kontexts, ohne den Merkmalsextraktor des faltenden neuronalen Netzwerks neu trainieren zu müssen, ist, zuerst unter Verwendung eines vorab trainierten Backbones eines faltenden neuronalen Netzwerks eine Merkmalsdarstellung des Eingabebildes zu berechnen und den Kontextvektor nur in der abschließenden Klassifizierungsschicht zu integrieren. Zu diesem Zweck wird eine Lineartransformation auf den Kontextvektor angewendet, gefolgt von einer punktweisen Sigmoid-Nichtlinearität, und das Ergebnis wird mit dem Merkmalsvektor des durch das faltende neuronale Netzwerk berechneten Eingabebildes multipliziert (Gating-Mechanismus). Bei diesem Ansatz müssen nur die Gewichte in der Klassifizierungsschicht trainiert werden.One approach to integrating the context without having to retrain the feature extractor of the folding neural network is to first compute a feature representation of the input image using a pre-trained backbone of a folding neural network and only integrate the context vector in the final classification layer. For this purpose, a linear transformation is applied to the context vector, followed by a point-wise sigmoid non-linearity, and the result is multiplied by the feature vector of the input image calculated by the convolutional neural network (gating mechanism). With this approach only the weights in the classification layer need to be trained.
Die Einbettungsanordnung
Die Einbettungsanordnung
Die Darstellung
Die Klassifizierungsanordnung
Die Klassifizierungsanordnung
Das künstliche neuronale Netzwerk
Nach dem Start wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach wird ein Schritt
In Schritt
Danach endet das Verfahren.Then the process ends.
Ein Verfahren zum Trainieren wird nachfolgend Bezug nehmend auf
Nach dem Start werden, in einem Schritt
Danach umfasst das Verfahren für jeden Trainingsdatenpunkt einen Schritt
In Schritt
In Schritt
In Schritt
Danach wird, in einem Schritt
Um sicherzustellen, dass die Merkmalsdarstellung des durch das faltende neuronale Netzwerk berechneten Eingabebildes konsistent mit im Wissensgraph enthaltenen Informationen ist, wird bevorzugt, das faltende neuronale Netzwerk nicht nur zu trainieren, um den spezifischen Objekttyp vorherzusagen, sondern auch Attribute des Objekts, die in dem Wissensgraph dargestellt werden, wie für das Beispiel aus
Danach endet das Verfahren.Then the process ends.
Ein beliebiges der oben beschriebenen künstlichen neuronalen Netzwerke kann durch dieses Verfahren trainiert werden. Das so trainierte künstliche neuronale Netzwerk kann als trainierte Anordnung verwendet werden, wie oben beschrieben.Any of the artificial neural networks described above can be trained by this method. The artificial neural network thus trained can be used as a trained arrangement as described above.
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019217444.2A DE102019217444A1 (en) | 2019-11-12 | 2019-11-12 | Method and device for classifying digital image data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019217444.2A DE102019217444A1 (en) | 2019-11-12 | 2019-11-12 | Method and device for classifying digital image data |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019217444A1 true DE102019217444A1 (en) | 2021-05-12 |
Family
ID=75584166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019217444.2A Pending DE102019217444A1 (en) | 2019-11-12 | 2019-11-12 | Method and device for classifying digital image data |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102019217444A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160321542A1 (en) * | 2015-04-28 | 2016-11-03 | Qualcomm Incorporated | Incorporating top-down information in deep neural networks via the bias term |
-
2019
- 2019-11-12 DE DE102019217444.2A patent/DE102019217444A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160321542A1 (en) * | 2015-04-28 | 2016-11-03 | Qualcomm Incorporated | Incorporating top-down information in deep neural networks via the bias term |
Non-Patent Citations (3)
Title |
---|
KUAN, Kingsley, et al. Region average pooling for context-aware object detection. In: 2017 IEEE International Conference on Image Processing (ICIP). IEEE, 2017. S. 1347-1351 * |
YANG, Jufeng, et al. Historical context-based style classification of painting images via label distribution learning. In: Proceedings of the 26th ACM international conference on Multimedia. 2018. S. 1154-1162 * |
Zhang D, Cui M, Yang Y, Yang P, Xie C, Liu D, Yu B, Chen Z. Knowledge graph-based image classification refinement. IEEE Access. 2019 Apr 24;7:57678-90 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60215063T2 (en) | SYSTEM AND METHOD FOR DETERMINING IMAGE LENGTH | |
DE102018216413A1 (en) | Device and method for automatic image enhancement in vehicles | |
DE102020007951A1 (en) | Use of a neural network used for coloring to generate colored images based on interactive colored edges | |
DE102014223220A1 (en) | Learning device, learning program and learning process | |
DE102018004117A1 (en) | Network for extracting a form structure | |
DE102017127592A1 (en) | A method of classifying image scenes in a driving support system | |
CN109657715B (en) | Semantic segmentation method, device, equipment and medium | |
DE102018102688A1 (en) | Image processing apparatus, image processing program and image processing system | |
DE112017005651T5 (en) | Device for classifying data | |
CN106570503A (en) | Method and system for identifying vehicle body color | |
CN109740451A (en) | Road scene image semantic segmentation method based on importance weighting | |
CN106960176A (en) | A kind of pedestrian's gender identification method based on transfinite learning machine and color characteristic fusion | |
WO2019206792A1 (en) | Method and device for converting an input image of a first domain into an output image of a second domain | |
DE102021201124A1 (en) | TRAINING IMAGE CLASSIFIER NETWORKS | |
DE60033580T2 (en) | METHOD AND APPARATUS FOR CLASSIFYING AN IMAGE | |
DE202017007534U1 (en) | Multiscale 3D texture synthesis | |
DE10017551C2 (en) | Process for cyclic, interactive image analysis and computer system and computer program for executing the process | |
DE102018113621A1 (en) | A method of training a convolutional neural network for processing image data for use in a driving support system | |
CN109102457A (en) | A kind of intelligent color change system and method based on convolutional neural networks | |
DE102019217444A1 (en) | Method and device for classifying digital image data | |
DE102022209528A1 (en) | Visual analysis systems to diagnose and improve deep learning models for moving objects in autonomous driving | |
DE202022104021U1 (en) | Image matting system to enhance the subtleties of images | |
EP2399241B1 (en) | Method for the entropy-based determination of object edge curves | |
DE102020208765A1 (en) | Image classifier with variable receptive fields in convolutional layers | |
DE102007051612A1 (en) | Method and apparatus for automatically comparing two sets of measurements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |