DE102021201124A1 - TRAINING IMAGE CLASSIFIER NETWORKS - Google Patents
TRAINING IMAGE CLASSIFIER NETWORKS Download PDFInfo
- Publication number
- DE102021201124A1 DE102021201124A1 DE102021201124.1A DE102021201124A DE102021201124A1 DE 102021201124 A1 DE102021201124 A1 DE 102021201124A1 DE 102021201124 A DE102021201124 A DE 102021201124A DE 102021201124 A1 DE102021201124 A1 DE 102021201124A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- sample
- image sample
- samples
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Ein Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zur Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz, das Empfangen einer anfänglichen Trainingsdatenmenge, die eine erste Vielzahl von Bildstichproben umfasst, wobei jede Bildstichprobe mit einer Klassenkennzeichnung einer Vielzahl bekannter Klassen gekennzeichnet ist, Trainieren eines Teil-Segmentierungsnetzes auf der Basis der anfänglichen Trainingsdatenmenge zum Aufteilen jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben in mehrere Regionen und Erzeugen einer Menge von Regionenmerkmalen für jede Bildstichprobe, wobei jedes Regionenmerkmal auf Bilddaten in einer jeweiligen Region der mehreren Regionen basiert, und Erzeugen einer Trainingsdatenmenge, die eine Vielzahl neuer Bildstichproben umfasst, auf der Basis der ersten Vielzahl von Bildstichproben umfasst. Der Erzeugungsschritt umfasst Extrahieren der Menge von Regionenmerkmalen einer ersten Bildstichprobe und einer zweiten Bildstichprobe der ersten Vielzahl von Bildstichproben unter Verwendung des trainierten Teil-Segmentierungsnetzes, wobei die erste Bildstichprobe mit einer ersten Klassenkennzeichnung gekennzeichnet ist und die zweite Bildstichprobe mit einer zweiten Klassenkennzeichnung gekennzeichnet ist, die von der ersten Klassenkennzeichnung verschieden ist. Der Schritt des Erzeugens der Trainingsdatenmenge umfasst ferner Ersetzen mindestens eines Regionenmerkmals aus der Menge von Regionenmerkmalen der ersten Bildstichprobe mit dem entsprechenden Regionenmerkmal aus der Menge von Regionenmerkmalen der zweiten Bildstichprobe, um dadurch eine neue Bildstichprobe für die Trainingsdatenmenge zu erzeugen.One aspect of the present disclosure relates to a method for generating a training data set for an image classifier network, receiving an initial training data set comprising a first plurality of image samples, each image sample being labeled with a class identifier of a plurality of known classes, training a partial segmentation network on the Based on the initial training data set, dividing each image sample from the first plurality of image samples into a plurality of regions and generating a set of region features for each image sample, each region feature being based on image data in a respective one of the plurality of regions, and generating a training data set that includes a plurality of new ones includes image samples based on the first plurality of image samples. The generating step includes extracting the set of region features of a first image sample and a second image sample of the first plurality of image samples using the trained sub-segmentation network, the first image sample being labeled with a first class identifier and the second image sample being labeled with a second class identifier that is different from the first class designation. The step of generating the training data set further comprises replacing at least one region feature from the set of region features of the first sample image with the corresponding region feature from the set of region features of the second sample image to thereby generate a new sample image for the training data set.
Description
TECHNISCHES GEBIETTECHNICAL AREA
Die vorliegende Beschreibung betrifft ein Verfahren zur Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz. Ein anderer Aspekt betrifft ein Verfahren zum Trainieren eines Bildklassifizierernetzes unter Verwendung der erzeugten Trainingsdatenmenge und Verwenden eines trainierten Bildklassifizierernetzes. Zugeordnete Aspekte betreffen ein computerimplementiertes System, das dafür ausgelegt ist, ein Bildklassifizierernetz für eine Vorrichtung zu erzeugen und/oder zu verwenden, und ein Computerprogramm.The present description relates to a method for generating a training data set for an image classifier network. Another aspect relates to a method for training an image classifier network using the generated training data set and using a trained image classifier network. Associated aspects relate to a computer-implemented system configured to create and/or use an image classifier network for a device and a computer program.
HINTERGRUNDBACKGROUND
Es besteht wachsendes Interesse an der Implementierung von Techniken des tiefen Lernens für vielfältige komplexe Bildklassifikationsaufgaben. Viele vorbekannte Verfahren sind auf eine Annahme geschlossener Mengen beschränkt, wobei alle möglichen Testklassen während des Trainings „bekannt“ sind. Dadurch werden einige der vorbekannten Verfahren für einige realistische Klassifikationsszenarien, bei denen es nicht möglich ist, alle potentiell auftretenden Klassen abzudecken, da dies rechnerisch nicht durchführbar sein kann und/oder aufgrund nichtexistierender Trainingsdatenmengen für bestimmte Klassen, ungeeignet. In letzter Zeit haben OSR-Techniken (Open-Set Recognition - Erkennung offener Mengen) die Standard-Klassifikationsaufgaben erweitert, um mit unbekannten Klassen umzugehen, die nicht in einer gegebenen Trainingsdatenmenge enthalten sind, und sind somit in der Lage, bekannte von unbekannten Stichproben zu unterscheiden sowie bekannte zu klassifizieren. Die OSR-Techniken können in vielen Anwendungen verwendet werden, die z. B. von der Detektion von Ausfällen in Herstellungssystemen bis zur Detektion von Verkehrsschildern oder anderen Elementen in Anwendungen des autonomen Fahrens reichen. In einigen Realweltbereichen kann jedoch der Unterschied bei einem visuellen Aussehen über Klassen hinweg unterschwellig sein. In diesem Kontext sollten die OSR-Techniken in der Lage sein, auf einer feinkörnigen Ebene zwischen verschiedenen Objekten zu unterscheiden, was eine schwierige Aufgabe ist.There is growing interest in implementing deep learning techniques for a variety of complex image classification tasks. Many prior art methods are limited to a closed set assumption, where all possible test classes are "known" during training. This makes some of the previously known methods unsuitable for some realistic classification scenarios where it is not possible to cover all potentially occurring classes, since this may not be computationally feasible and/or due to non-existent training data sets for certain classes. Recently, open-set recognition (OSR) techniques have extended standard classification tasks to deal with unknown classes that are not in a given training data set, and are thus able to separate known from unknown samples distinguish as well as classify known. The OSR techniques can be used in many applications, e.g. B. range from the detection of failures in manufacturing systems to the detection of traffic signs or other elements in autonomous driving applications. However, in some real world areas, the difference in visual appearance across classes can be subtle. In this context, the OSR techniques should be able to distinguish between different objects at a fine-grained level, which is a difficult task.
Einige bekannte Techniken auf der Basis von OSR konzentrieren sich jedoch auf die Bereiche, bei denen visuelle Unterschiede über Klassen hinweg nicht feinkörnig sind. Deshalb besteht eine Notwendigkeit, neue effiziente feinkörnige OSR-Techniken zur Bilderkennung zu entwickeln.However, some known OSR-based techniques focus on the areas where visual differences across classes are not fine-grained. Therefore, there is a need to develop new efficient fine-grained OSR techniques for image recognition.
KURZFASSUNGSHORT VERSION
Ein erster Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Erzeugen einer Trainingsdatenmenge für ein Bildklassifizierernetz. Das Verfahren der vorliegenden Offenbarung umfasst Empfangen einer anfänglichen Trainingsdatenmenge, die eine erste Vielzahl von Bildstichproben umfasst, wobei jede Bildstichprobe mit einer Klassenkennzeichnung einer Vielzahl bekannter Klassen gekennzeichnet wird. Das Verfahren umfasst ferner Trainieren eines Teil-Segmentierungsnetzes auf der Basis der anfänglichen Trainingsdatenmenge zum Aufteilen jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben in mehrere Regionen und Erzeugen einer Menge von Regionenmerkmalen für jede Bildstichprobe, wobei jedes Regionenmerkmal auf Bilddaten in einer jeweiligen Region der mehreren Regionen basiert. Das Verfahren des ersten Aspekts umfasst ferner Erzeugen einer Trainingsdatenmenge, die eine Vielzahl neuer Bildstichproben umfasst, auf der Basis der ersten Vielzahl von Bildstichproben. Der Erzeugungsschritt umfasst Extrahieren der Menge von Regionenmerkmalen einer ersten Bildstichprobe und einer zweiten Bildstichprobe der ersten Vielzahl von Bildstichproben unter Verwendung des trainierten Teil-Segmentierungsnetzes, wobei die erste Bildstichprobe mit einer ersten Klassenkennzeichnung gekennzeichnet ist und die zweite Bildstichprobe mit einer zweiten Klassenkennzeichnung gekennzeichnet ist, die von der ersten Klassenkennzeichnung verschieden ist. Der Schritt des Erzeugens der Trainingsdatenmenge umfasst ferner Ersetzen mindestens eines Regionenmerkmals aus der Menge von Regionenmerkmalen der ersten Bildstichprobe mit dem entsprechenden Regionenmerkmal aus der Menge von Regionenmerkmalen der zweiten Bildstichprobe, um dadurch eine neue Bildstichprobe für die Trainingsdatenmenge zu erzeugen.A first aspect of the present disclosure relates to a method for generating a training data set for an image classifier network. The method of the present disclosure includes receiving an initial training data set that includes a first plurality of image samples, wherein each image sample is labeled with a class label of a plurality of known classes. The method further comprises training a sub-segmentation network based on the initial training data set for dividing each image sample from the first plurality of image samples into a plurality of regions and generating a set of region features for each image sample, each region feature being based on image data in a respective one of the plurality of regions based. The method of the first aspect further comprises generating a training data set comprising a plurality of new image samples based on the first plurality of image samples. The generating step includes extracting the set of region features of a first image sample and a second image sample of the first plurality of image samples using the trained sub-segmentation network, the first image sample being labeled with a first class identifier and the second image sample being labeled with a second class identifier that is different from the first class designation. The step of generating the training data set further comprises replacing at least one region feature from the set of region features of the first sample image with the corresponding region feature from the set of region features of the second sample image to thereby generate a new sample image for the training data set.
In einem zweiten Aspekt betrifft die vorliegende Offenbarung ein Verfahren zum Trainieren eines Bildklassifizierernetzes unter Verwendung der gemäß dem ersten Aspekt erzeugten Trainingsdatenmenge oder seiner Ausführungsformen. In a second aspect, the present disclosure relates to a method for training an image classifier network using the training data set generated according to the first aspect or its embodiments.
Ein dritter Aspekt stellt ein computerimplementiertes System bereit, das dafür ausgelegt ist, ein Bildklassifizierernetz für eine Vorrichtung gemäß den Techniken des zweiten Aspekts oder seiner Ausführungsformen zu erzeugen und/oder zu verwenden.A third aspect provides a computer-implemented system adapted to create and/or use an image classifier network for a device according to the techniques of the second aspect or its embodiments.
Ein vierter Aspekt stellt ein Computerprogramm bereit, das dafür ausgelegt ist, beliebige der Schritte der Techniken gemäß dem ersten und/oder zweiten Aspekt auszuführen.A fourth aspect provides a computer program arranged to carry out any of the steps of the techniques according to the first and/or second aspect.
Die Technik des ersten bis vierten Aspekts kann vorteilhafte technische Auswirkungen haben.The technique of the first to fourth aspects can have advantageous technical effects.
Als Erstes umfassen die Techniken der vorliegenden Offenbarung in einigen Situationen Erzeugen einer Trainingsdatenmenge für ein Bildklassifizierernetz, das ohne komplizierte Einstellungen und/oder Parameterabstimmungen von Architekturen auf Netzbasis zur Bilderkennung realisiert werden kann. Dies kann zu einer Verringerung der Trainingskosten und einer Möglichkeit führen, das Bildklassifizierernetz sogar mit begrenzten Hardwareressourcen zu implementieren.First, in some situations, the techniques of the present disclosure include generating a training data set for an image classifier network that can be implemented without complicated settings and/or parameter tuning of network-based image recognition architectures. This can lead to a reduction in training costs and an opportunity to implement the image classifier network even with limited hardware resources.
Zweitens können komplexe nichtlineare generative Techniken einiger vorbekannter Techniken vergleichsweise große Datenmengen zum Training von Architekturen auf Netzbasis erfordern. Bei Verwendung der vorliegenden Techniken können in einigen Beispielen solche komplexen und rechnerisch kostspieligen Techniken vermieden werden. Verglichen mit einigen vorbekannten Techniken kann deshalb eine Größe der Trainingsdatenmenge kleiner sein und die Anforderungen an Speicherungsvorrichtungen können weniger einschränkend sein.Second, complex non-linear generative techniques of some prior art techniques may require comparatively large amounts of data to train network-based architectures. In some instances, using the present techniques, such complex and computationally expensive techniques can be avoided. Therefore, compared to some prior art techniques, a size of the training dataset can be smaller and the requirements on storage devices can be less restrictive.
Drittens können die vorliegenden Techniken durch Rekombinieren lokaler Merkmale über Bildstichproben der anfänglichen Trainingsdatenmenge hinweg effiziente Erzeugung neuartiger Bildstichproben bereitstellen, die sich in feinkörnigen Details von den anfänglichen Trainingsstichproben unterscheiden. Als Ergebnis können Netze für Bilderkennung, die mit diesen neu erzeugten Bildstichproben trainiert werden, feinkörnige Unterschiede zwischen Bildstichproben besser als gewisse vorbekannte Techniken erkennen. Zusätzlich und als Ergebnis können mit den Trainingsdatenmengen gemäß der vorliegenden Offenbarung trainierte Bildklassifizierernetze besser beim Lösen von OSR-Aufgaben (z. B. Detektieren fehlerhafter Teile oder Komponenten in einem Herstellungs- oder Untersuchungssystem) funktionieren.Third, by recombining local features across image samples of the initial training data set, the present techniques can provide efficient generation of novel image samples that differ in fine-grain detail from the initial training samples. As a result, image recognition networks trained with these newly generated image samples can detect fine-grain differences between image samples better than certain prior art techniques. Additionally and as a result, image classifier networks trained with the training data sets according to the present disclosure may perform better in solving OSR tasks (e.g., detecting defective parts or components in a manufacturing or inspection system).
Der Ausdruck „Bildstichprobe“ kann sich auf ein Bild (zum Beispiel durch eine Fläche von Pixeln dargestelltes Digitalbild) beziehen, das durch eine Bildgebungsvorrichtung, z. B. eine Digitalkamera, aufgezeichnet wird, die auch auf anderen Vorrichtungen angebracht oder Teil dieser sein kann. Außerdem umfasst der Ausdruck „Bildstichprobe“, so wie er hier gebraucht wird, nicht nur ein durch eine Bildgebungsvorrichtung aufgezeichnetes Original-Digitalbild, sondern auch Informationen, die durch digitale Nachverarbeitung des durch die Bildgebungsvorrichtung aufgezeichneten entsprechenden Digitalbilds erhalten werden. Bei einigen Ausführungsformen können Bildstichproben in einem Bildraum repräsentiert werden, bei dem gewöhnliche Pixeldarstellung involviert ist, wobei jedes Pixel durch eine Menge diskreter Größen, wie z. B. seine räumlichen Koordinaten und eine Farbe, definiert wird. Bei anderen Ausführungsformen können Bildstichproben in einem vergleichsweise kleineren Merkmalraum repräsentiert werden, wie etwa 2D-Merkmalabbildungen, die durch Anwendung der in der Technik bekannten Faltungsoperation auf Original-Digitalbildstichproben (z. B. unter Verwendung eines Faltungs-Neuronalnetzes) erhalten werden.The term "image sample" may refer to an image (e.g., digital image represented by an area of pixels) captured by an imaging device, e.g. a digital camera, which may also be mounted on or be part of other devices. Furthermore, as used herein, the term "image sample" includes not only an original digital image recorded by an imaging device, but also information obtained by digitally post-processing the corresponding digital image recorded by the imaging device. In some embodiments, image samples may be represented in an image space involving ordinary pixel representation, where each pixel is represented by a set of discrete quantities, e.g. B. its spatial coordinates and a color is defined. In other embodiments, image samples may be represented in a comparatively smaller feature space, such as 2D feature maps obtained by applying the convolution operation known in the art to original digital image samples (e.g., using a convolutional neural network).
Der Ausdruck „Region“ kann sich auf einen räumlich beschränkten Teil einer in einem Bild abgebildeten Szene beziehen. Zum Beispiel kann sich eine Region auf eine beliebige Menge von Pixeln einer Bildstichprobe (zum Beispiel einer Original-Digitalbildstichprobe oder nachverarbeiteten Digitalbildstichprobe) beziehen. In einigen Beispielen bildet die Menge von Pixeln eine oder mehrere zusammenhängende Gruppen (z. B. eine einzige zusammenhängende Gruppe). Eine Region kann einen visuell unterscheidbaren Teil einer in einem Bild abgebildeten Szene (z. B. einen Teil eines Objekts) repräsentieren. Somit kann „mehrere Regionen“ mehrere Mengen von Pixeln umfassen, wobei jede Menge von Pixeln einen jeweiligen (räumlichen) Teil eines Objekts in einer aufgezeichneten oder verarbeiteten Bildstichprobe repräsentieren.The term "region" can refer to a spatially restricted part of a scene depicted in an image. For example, a region may refer to any set of pixels of an image sample (e.g., an original digital image sample or a post-processed digital image sample). In some examples, the set of pixels forms one or more contiguous groups (e.g., a single contiguous group). A region may represent a visually distinguishable part of a scene (e.g., part of an object) depicted in an image. Thus, "multiple regions" may include multiple sets of pixels, each set of pixels representing a respective (spatial) portion of an object in a recorded or processed image sample.
Ein „Regionenmerkmal“ beschreibt eine Region wie oben besprochen, z. B. einen räumlich beschränkten Teil einer in einem Bild abgebildeten Szene und/oder eine Menge von Pixeln, die einer jeweiligen Region einer Bildstichprobe entsprechen. Zum Beispiel kann ein Regionenmerkmal durch Verarbeiten von Merkmalen auf niedriger Ebene (z. B. Rändern oder Pixelattributen) der Region bestimmt werden. Ein „Regionenmerkmal“ kann mehrere Elemente umfassen (z. B. organisiert in einem Vektor, Tensor oder in einer beliebigen anderen Menge von endlichen diskreten Elementen, die in der Technik bekannt sind).A “Region Feature” describes a region as discussed above, e.g. B. a spatially limited part of a scene depicted in an image and/or a set of pixels corresponding to a respective region of an image sample. For example, a region feature may be determined by processing low-level features (e.g., edges or pixel attributes) of the region. A "region feature" may include multiple elements (e.g., organized into a vector, tensor, or any other set of finite discrete elements known in the art).
Eine „Menge von Regionenmerkmalen“ bezieht sich dementsprechend auf mehrere Regionenmerkmale für jeweilige Regionen. Zum Beispiel kann eine Menge von Regionenmerkmalen ein erstes Regionenmerkmal für eine erste Region eines Bildes und ein zweites Regionenmerkmal für eine zweite Region des Bildes umfassen und so weiter.Accordingly, a “set of region features” refers to a plurality of region features for respective regions. For example, a set of region features may include a first region feature for a first region of an image and a second region feature for a second region of the image, and so on.
Der Ausdruck „Bildklassifizierernetz“, so wie er hier benutzt wird, kann sich auf jede Art von neuronalem Netz beziehen, die im Kontext des Maschinenlernens und der künstlichen Intelligenz bekannt ist. Gemäß bestimmten Ausführungsformen kann das Bildklassifizierernetz ein Faltungs-Neuronalnetz (CNN) (definiert z. B. durch die Anzahl von Filter, Filtergrößen, Strides usw.) sein, das eine oder mehrere gewöhnliche Transformationen von Digitalbildern, die Fachleuten bekannt sind, umfassen kann, die zum Beispiel auf Faltung, Nichtlinearität (ReLu), Pooling- oder Klassifikationsoperationen basieren. Bei anderen Ausführungsformen kann das Bildklassifizierernetz auf der Basis anderer Arten von Neuronalnetzen, wie etwa eines Mehrschicht-Perceptrons, eines Vorwärtskopplungs-Neuronalnetzes, eines modularen Neuronalnetzes oder eines rekurrenten Neuronalnetzes, wobei es sich um eine Liste mehrerer nichterschöpfender Beispiele handelt, realisiert werden. Ein Bildklassifizierernetz kann dafür ausgelegt werden, Merkmale auf niedriger Ebene (z. B. Ränder oder Pixelattribute) eines Bildes zu verarbeiten, um das Bild zu klassifizieren.The term "image classifier network" as used herein can refer to any type of neural network known in the context of machine learning and artificial intelligence. According to certain embodiments, the image classifier network may be a convolutional neural network (CNN) (defined e.g. by the number of filters, filter sizes, strides, etc.), which may include one or more common transformations of digital images known to those skilled in the art. based for example on convolution, non-linearity (ReLu), pooling or classification operations. In other embodiments, the image classifier network may be implemented based on other types of neural networks, such as a multilayer perceptron, a feedforward neural network, a modular neural network, or a recurrent neural network, which is a list of several non-exhaustive examples. An image classifier network can be designed to process low-level features (e.g., edges or pixel attributes) of an image to classify the image.
Ähnlich wie der Ausdruck „Bildklassifizierernetz“ kann sich der Ausdruck „Teil-Segmentierungsnetz“ auf jede oben erwähnte Art von Neuronalnetz beziehen. Außerdem kann das „Teil-Segmentierungsnetz“ eine Bildstichprobe entwirren, um „Mengen von Regionenmerkmalen“ zu erhalten, die einzelne Objektteile repräsentieren.Similar to the term "image classifier network", the term "sub-segmentation network" can refer to any type of neural network mentioned above. In addition, the "partial segmentation mesh" can disentangle an image sample to obtain "region feature sets" representing individual object parts.
Figurenlistecharacter list
-
1A ist ein Flussdiagramm eines Verfahrens zur Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz gemäß dem ersten Aspekt.1A Figure 12 is a flow chart of a method for generating a training data set for an image classifier network according to the first aspect. -
1B und1C sind Flussdiagramme weiterer möglicher Verfahrensschritte gemäß dem ersten Aspekt.1B and1C are flow charts of further possible method steps according to the first aspect. -
2 zeigt schematisch eine Architektur, in der eine Trainingsdatenmenge des ersten Aspekts erzeugt werden kann.2 Figure 12 shows schematically an architecture in which a training data set of the first aspect can be generated. -
3 ist ein Beispiel für die Teil-Segmentierung einer Bildstichprobe. Verschiedene Zahlen repräsentieren verschiedene Objektteile. Ein Panel mit Teileindizes unten veranschaulicht eine Ordnung jedes in einer Menge von Regionenmerkmalen (Z) adressierten Objektteils. Der Teilindex 1, 2, 3, 4 und 5 kann jeweils „Unterkörper“, „Rücken“, „Bauch“ und „Kopf“ eines Objekts „Vogel“ und „Hintergrund“ zugeordnet sein.3 is an example of partial segmentation of an image sample. Different numbers represent different parts of the object. A panel with part indices below illustrates an ordering of each object part addressed in a set of region features (Z). The 1, 2, 3, 4 and 5 can be assigned to "lower body", "back", "belly" and "head" of a "bird" and "background" object, respectively.sub-index -
4 ist ein Flussdiagramm eines Verfahrens zum Trainieren eines Bildklassifizierernetzes gemäß dem zweiten Aspekt unter Verwendung der erzeugten Trainingsdatenmenge gemäß dem ersten Aspekt.4 Figure 12 is a flow chart of a method for training an image classifier network according to the second aspect using the generated training data set according to the first aspect. -
5 zeigt die Leistungsfähigkeit des Verfahrens gemäß den vorliegenden Techniken. Es ist die Mikro-F-Maß-Metrik von OSR (Open Set Recognition) als Funktion eines Gewichtungsfaktors α angezeigt, der einen Beitrag des entropieübergreifenden Verlusts der erzeugten Stichproben (Lerzeugt) mit Bezug auf den der bekannten Stichproben (Lbekannt) gewichtet.5 shows the performance of the method according to the present techniques. The micro-F-measure metric of OSR (Open Set Recognition) is displayed as a function of a weighting factor α that weights a cross-entropy loss contribution of the generated samples (L produced ) with respect to that of the known samples (L known ).
AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION
Als Erstes werden einige allgemeine Aspekte in Bezug auf die Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz und das Training eines Bildklassifizierernetzes mittels der erzeugten trainierten Datenmenge besprochen, bevor einige mögliche Implementierungen erläutert werden. Eine Übersicht über den ersten Aspekt der vorliegenden Offenbarung in Bezug auf Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz wird in Verbindung mit in
In
Der nächste Schritt des Verfahrens kann Trainieren 110 eines Teil-Segmentierungsnetzes 111 auf der Basis der anfänglichen Trainingsdatenmenge umfassen. In bevorzugten Beispielen kann das Teil-Segmentierungsnetz jede Bildstichprobe aus der ersten Vielzahl von Bildstichproben in mehrere Regionen 112 aufteilen (siehe die Kennzeichnungen „Teil 1“, „Teil 2“, ..., „Teil „K“ des schematischen Blocks 112 in
In diesem Kontext können eine geeignete Anzahl von Filtern, Filtergröße, Stride, Architektur usw. für das Teil-Segmentierungsnetz auf CCN-Basis vor dem Trainingsprozess ausgewählt werden, und das CNN kann die Filterwerte während des Trainingsprozesses alleine lernen.In this context, an appropriate number of filters, filter size, stride, architecture, etc. for the CCN-based sub-segmentation network can be selected before the training process, and the CNN can learn the filter values alone during the training process.
Der nächste Schritt der vorliegenden Techniken kann Erzeugen 140 einer Trainingsdatenmenge, die eine Vielzahl neuer Bildstichproben umfasst, auf der Basis der ersten Vielzahl von Bildstichproben Ii umfassen. In einigen Beispielen können die Techniken der vorliegenden Offenbarung den Umstand ausnutzen, dass sich Bildstichproben aus neuen (d.h. unbekannten) Klassen einen Großteil ihrer Merkmale mit Bildstichproben aus bekannten Klassen teilen können. Zum Beispiel sind unbekannte Vögel immer noch Vögel, können aber etwas unterschiedliche Attribute als Vögel aus bekannten Klassen aufweisen. Das Erzeugen unbekannter Bildstichproben aus bekannten kann deshalb vorteilhaft sein, da es nicht erfordert, eine Trainingsdatenmenge mit einer beträchtlichen Anzahl von Bildstichproben zu speichern und zu verarbeiten, die sich nur auf einer feinkörnigen Ebene voneinander unterscheiden können. Zum Beispiel können Vögel unbekannter Klassen Kopf- und Körperattribute aufweisen, die denen ähnlich sind, die durch Mischen eines Kopfattributs von einer bekannten Klasse mit einem Körperattribut einer anderen bekannten Klasse erhalten werden. Außerdem kann es möglich sein, die anfängliche Datenmenge von Bildern, die gegeben ist, durch Erzeugen der Vielzahl neuer Bildstichproben zu ergänzen, was wiederum zu besserer Leistungsfähigkeit eines mit der erzeugten Trainingsdatenmenge trainierten Bildklassifizierernetzes führen kann. Wie bereits erwähnt, ist es nützlich, Bildstichproben nicht im Bildraum, sondern im Merkmalraum anzugehen. In bevorzugten Beispielen kann die Vielzahl neuer Bildstichproben deshalb im Merkmalraum erzeugt werden, um die unnötige Komplexität feinkörniger Bildkonstruktion zu vermeiden.The next step of the present techniques may include generating 140 a training data set comprising a plurality of new image samples based on the first plurality of image samples I i . In some examples, the techniques of the present disclosure may take advantage of the fact that image samples from new (ie, unknown) classes may share much of their features with image samples from known classes. For example, unknown birds are still birds, can but have somewhat different attributes than birds from known classes. Generating unknown image samples from known ones can be advantageous because it does not require storing and processing a training data set with a significant number of image samples that can only differ from one another at a fine-grained level. For example, birds of unknown classes may have head and body attributes similar to those obtained by merging a head attribute from one known class with a body attribute from another known class. In addition, it may be possible to supplement the initial data set of images given by generating the plurality of new image samples, which in turn may lead to better performance of an image classifier network trained with the generated training data set. As mentioned earlier, it is useful to approach image sampling in feature space rather than in image space. In preferred examples, therefore, the plurality of new image samples can be generated in feature space to avoid the unnecessary complexity of fine-grain image construction.
Bei den vorliegenden Techniken kann der Schritt des Erzeugens 140 der Trainingsdatenmenge Extrahieren 120 der Menge von Regionenmerkmalen einer ersten Bildstichprobe und einer zweiten Bildstichprobe der ersten Vielzahl von Bildstichproben unter Verwendung des trainierten Teil-Segmentierungsnetzes 111 umfassen. In diesem Fall kann die erste Bildstichprobe mit ersten Klassenkennzeichnung (z. B. „Klasse 1“) gekennzeichnet werden, und die zweite Bildstichprobe kann mit einer zweiten Klassenkennzeichnung (zum Beispiel „Klasse 2“) gekennzeichnet werden, die von der ersten Klassenkennzeichnung verschieden ist. Wieder mit Bezug auf das Beispiel von Vogelspezies kann sich die erste Klassenkennzeichnung auf eine „Ente“ beziehen, während die zweite Klasse für eine „Gans“ stehen kann. Im nächsten Schritt kann der Erzeugungsschritt Ersetzen 130 mindestens eines Regionenmerkmals (zk) aus der Menge von Regionenmerkmalen 112; Z der ersten Bildstichprobe mit dem entsprechenden Regionenmerkmal (zk) aus der Menge von Regionenmerkmalen 112; Z der zweiten Bildstichprobe umfassen. Auf diese Weise kann eine neue Bildstichprobe für die Trainingsdatenmenge erzeugt werden. Angesichts der obigen Besprechungen kann es in einigen Beispielen vorzuziehen sein, nur Bildstichproben zu behandeln, die zu verschiedenen Klassen (z. B. zu „Klasse 1“ und „Klasse 2“, zu „Klasse 1“ und „Klasse 3“ oder zu einer beliebigen Kombination der Vielzahl bekannter Klassen (N)) gehören, weil nur die Bildstichproben, die sich dieselbe Klasse teilen, Regionenmerkmale besitzen könnten, die sich auf der marginalen Ebene voneinander unterscheiden. Folglich können neu erzeugte Bilder von denen in der anfänglichen Trainingsdatenmenge ununterscheidbar sein, wodurch ihre Verwendung redundant wird. In einem Beispiel kann eine Anzahl neuer Bildstichproben aus der Vielzahl neuer Bildstichproben, die auf diese Weise erzeugt werden, mit der Anzahl von Bildstichproben der ersten Vielzahl von Bildstichproben aus der anfänglichen Trainingsdatenmenge zusammenfallen. In anderen Beispielen kann die Anzahl neuer Bildstichproben kleiner als die Anzahl von Bildstichproben aus der anfänglichen Datenmenge sein (z. B. eine Hälfte, ein Viertel oder ein Achtel dieser Zahl). In noch anderen Beispielen kann die Anzahl neuer Bildstichproben größer als die Anzahl von Bildstichproben aus der anfänglichen Trainingsdatenmenge sein (z. B. anderthalbmal, zweimal oder dreimal so groß wie diese Zahl).In the present techniques, the step of generating 140 the training data set may include extracting 120 the set of region features of a first sample image and a second sample image of the first plurality of sample images using the trained
In einigen Beispielen für die vorliegenden Techniken kann Trainieren 110 des Teil-Segmentierungsnetzes ferner Klassifizieren 150 jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge durch ein (in der Ausführungsform
Gemäß der vorliegenden Beschreibung kann das zweite Bildklassifizierernetz 151 auf der Basis der anfänglichen Trainingsdatenmenge trainiert werden 160. In einigen Beispielen kann das Training 160 des zweiten Bildklassifizierernetzes 151 darauf abzielen, das Teil-Segmentierungsnetz 111 zu trainieren 110. Zum Beispiel kann, nachdem es trainiert wurde, das zweite Bildklassifizierernetz 151 die höchste Vorhersagewahrscheinlichkeit für eine mit einer bekannten Klasse (z. B. „Klasse 1“) gekennzeichnete Bildstichprobe, dass dieses Bild zu der bekannten Klasse (z. B. „Klasse 1“) gehört, erzeugen. Anders ausgedrückt, kann eine Ausgangsvorhersagewahrscheinlichkeit für jede Klasse der Vielzahl bekannter Klassen (N), die durch das zweite Bildklassifizierernetz 151 erzeugt werden, optimiert werden. Auf diese Weise kann auch das Teil-Segmentierungsnetz 111 trainiert werden 110, weil die durch das Teil-Segmentierungsnetz erzeugte Menge von Regionenmerkmalen als Eingabe für das zweite Bildklassifizierernetz 151 verwendet werden kann. Folglich kann auch eine Aufteilungs- und/oder Erzeugungsleistungsfähigkeit des Teil-Segmentierungsnetzes 111 verbessert werden. Außerdem kann in einigen Beispielen Verwendung des trainierten zweiten Bildklassifizierernetzes Training 110 des Teil-Segmentierungsnetzes 111 (zum Beispiel aufgrund eines kombinierten Trainings sowohl des Teil-Segmentierungsnetzes 111 als auch des zweiten Bildklassifizierernetzes 151) erleichtern und beschleunigen. In einigen Beispielen kann das Teil-Segmentierungsnetz 111 direkt mit dem zweiten Bildklassifizierernetz 151 verbunden sein. In anderen Beispielen kann das Teil-Segmentierungsnetz 111 über dazwischentretende Elemente 114 mit dem zweiten Bildklassifizierernetz 151 verbunden sein, um die durch das Teil-Segmentierungsnetz 111 erzeugte Menge von Regionenmerkmalen 112; Z zu transformieren, wie in der Architektur von
In einem weiteren Schritt kann der Ersetzungsschritt 130 mindestens eines Regionenmerkmals (zk) aus der Menge von Regionenmerkmalen 112; Z der ersten Bildstichprobe ferner Folgendes umfassen: iteratives Ersetzen 130 von Regionenmerkmalen (zk) der Menge von Regionenmerkmalen 112; Z der ersten Bildstichprobe mit den entsprechenden Regionenmerkmalen (zk) der Menge von Regionenmerkmalen (112; Z) der zweiten Bildstichprobe. In einigen Beispielen kann die zweite Bildstichprobe eine aus der ersten Vielzahl von Bildstichproben in diesem Kontext ausgewählte einzelne Bildstichprobe sein. In anderen Beispielen kann die zweite Bildstichprobe zwei oder mehr aus der ersten Vielzahl von Bildstichproben ausgewählten Bildstichproben entsprechen, wenn die Schritte des iterativen Ersetzens ausgeführt werden. Zum Beispiel kann im n-ten Iterationsschritt eine m-te Bildstichprobe aus der ersten Vielzahl von Bildstichproben ausgewählt werden, während im (n + 1)-ten Iterationsschritt eine (m + k)-te Bildstichprobe aus der ersten Vielzahl von Bildstichproben ausgewählt werden kann. (Hier sind m, n und k einige ganze Zahlen).In a further step, the replacement step 130 can include at least one region feature (z k ) from the set of region features 112; Z of the first image sample further comprises: iteratively replacing 130 region features (z k ) of the set of region features 112; Z of the first image sample with the corresponding region features (z k ) of the set of region features (112; Z) of the second image sample. In some examples, the second image sample may be a single image sample selected from the first plurality of image samples in that context. In other examples, the second image sample may correspond to two or more image samples selected from the first plurality of image samples when the iterative replacement steps are performed. For example, at the nth iteration, an mth image sample may be selected from the first plurality of image samples, while at the (n+1)th iteration, an (m+k)th image sample may be selected from the first plurality of image samples . (Here m, n and k are some integers).
Im nächsten Schritt kann eine Klasse der ersten Bildstichprobe nach jeder Iteration unter Verwendung des zweiten Bildklassifizierernetzes 151 bestimmt werden. Bei den Techniken der vorliegenden Offenbarung kann iteratives Ersetzen wie oben definiert beendet werden, wenn die durch das Netz des zweiten Bildklassifizierers (151) vorhergesagte bestimmte Klasse von der Klasse der ersten Bildstichprobe der ersten Vielzahl von Bildstichproben verschieden ist (d.h. verschieden von der Klasse der ersten Bildstichprobe, die aus der anfänglichen Datenmenge vor iterativem Ersetzen genommen wird). In einem weiteren Schritt kann die vor dem Beendigungsschritt erzeugte erste Bildstichprobe als die neue Bildstichprobe verwendet werden. Die auf diese Weise erzeugte neue Bildstichprobe kann dann in die Vielzahl neuer Bildstichproben der Trainingsdatenmenge aufgenommen werden. Anders ausgedrückt, können bei den vorliegenden Techniken neue Bildstichproben erzeugt werden, die neuartige Rekombinationen lokaler Merkmale repräsentieren, die aus Bildstichproben der anfänglichen Trainingsdatenmenge extrahiert werden, dergestalt, dass diese neuen Merkmalkombinationen nicht in der Trainingsdatenmenge zu finden sind. Gleichzeitig kann der oben definierte Beendigungsschritt sicherstellen, dass sich die neu erzeugten Bildstichproben von denen der bekannten Klasse der ersten Bildstichprobe (d.h. einer aus der anfänglichen Trainingsdatenmenge vor dem Ersetzungsschritt ausgewählten Stichprobe) auf einer lokalen feinkörnigen Ebene unterscheiden können, während der Gesamtrealismus der erzeugten Bildstichproben bewahrt wird, indem sie in derselben Klasse gehalten werden. In einigen Beispielen kann diese Technik Realweltszenarien entsprechen, wobei visuelle Erscheinungen von Stichproben aus den unbekannten Klassen Mischungen lokaler Erscheinungen aus bekannten Klassen sein können. Gleichzeitig kann der gesamte offenbarte Erzeugungsprozess ausgeführt werden, ohne gewöhnlich für feinkörnige Szenarien verwendete komplexe nichtlineare generative Techniken zu erfordern.In the next step, a class of the first image sample can be determined after each iteration using the second
In einem Beispiel kann der iterative Ersetzungsschritt der Regionenmerkmale (zk) aus der Menge von Regionenmerkmalen 112; Z in einer sequentiellen Reihenfolge ausgeführt werden. In einigen Beispielen können Regionenmerkmale in der Menge von Regionenmerkmalen in einer bestimmten Reihenfolge (z. B. als eine Menge von Zeilen, Spalten, Vektoren usw.) angeordnet werden, dergestalt, dass eine Struktur der Mengen von Regionenmerkmalen für Bildstichproben für alle Bildstichproben dieselbe sein kann. Somit können zum Beispiel Zeilen aus der Menge von Regionenmerkmalen der ersten Bildstichprobe sukzessiv eine nach der anderen mit den entsprechenden Zeilen aus der Menge von Regionenmerkmalen der zweiten Bildstichprobe ersetzt werden, so wie in den Mengen von Regionenmerkmalen angeordnet sind. In anderen Beispielen kann der iterative Ersetzungsschritt der Regionenmerkmale (zk) in einer zufälligen Reihenfolge ausgeführt werden. In diesem Fall können zum Beispiel die Regionenmerkmale aus der Menge von Regionenmerkmalen des ersten Bildes iterativ in einer zufälligen Reihenfolge ausgesucht und durch die entsprechenden Regionenmerkmale der Menge von Regionenmerkmalen des zweiten Bildes ersetzt werden. In einigen Beispielen kann das erste Bild zufällig aus der ersten Vielzahl von Bildstichproben entnommen werden. In anderen Beispielen kann das erste Bild sequentiell aus der ersten Vielzahl von Bildstichproben ausgewählt werden. In beiden Fällen können die vorliegenden Techniken das Sammeln der erzeugten neuen Bildstichproben erlauben.In an example, the iterative step of replacing the region features (z k ) from the set of region features 112; Z are executed in a sequential order. In some examples, region features in the set of region features may be arranged in a particular order (e.g., as a set of rows, columns, vectors, etc.) such that a structure of the sets of region features for image samples may be the same for all image samples can. Thus, for example, rows from the set of region features of the first image sample can be successively replaced one by one with the corresponding rows from the set of region features of the second image sample as arranged in the sets of region features. In other examples, the iterative step of replacing the region features (z k ) may be performed in a random order. In this case, for example, the region features can be selected iteratively in a random order from the set of region features of the first image and replaced by the corresponding region features of the set of region features of the second image. In some examples, the first image may be randomly selected from the first plurality of image samples. In other In other examples, the first image may be selected sequentially from the first plurality of image samples. In either case, the present techniques may allow the collection of the new image samples created.
Die Techniken der vorliegenden Offenbarung können ferner Folgendes umfassen: Erlernen eines Wörterbuchs von Objektteilen 113; D, auf dessen Basis zum Beispiel das Teil-Segmentierungsnetz 111 ein beliebiges gegebenes Bild im Merkmalraum (z. B. einer 2D-Merkmalabbildung) in eine Menge von Regionenmerkmalen (d.h. in „Objektteil“-Segmente, siehe die Kennzeichnungen 1 bis 5 in
In einigen Beispielen kann das erlernte oder vorbestimmte Wörterbuch von Objektteilen eine Menge von Wörterbuchvektoren (dk) umfassen. In diesen Beispielen kann eine Anzahl der Wörterbuchvektoren in der Menge von Wörterbuchvektoren einer Anzahl von Objektteilen (K) entsprechen. In einigen Beispielen kann das erlernte Wörterbuch mathematisch als D = [d1, d2, ...,dk] repräsentiert werden. In diesem Beispiel kann jeder Wörterbuchvektor ein D-dimensionaler Vektor dk ∈ RD sein, und das erlernte oder vorbestimmte Wörterbuch kann im Raum D ∈ ℝD×K definiert werden. In einigen Beispielen kann die Menge von Regionenmerkmalen der Bildstichprobe aus der ersten Vielzahl von Bildstichproben oder aus der Vielzahl neuer Bildstichproben durch eine Menge von Merkmalvektoren repräsentiert werden. In diesem Fall kann jedes Regionenmerkmal aus der Menge von Regionenmerkmalen dem jeweiligen Merkmalvektor entsprechen, und eine Anzahl der Merkmalvektoren in der Menge von Merkmalvektoren kann mit den Wörterbuchvektoren (d.h. mit der Anzahl von Objektteilen (K)) zusammenfallen. Ähnlich wie die Menge von Wörterbuchvektoren kann die Menge von Regionenmerkmalen in einigen Beispielen als Z = [z1, z2, ..., zk] geschrieben werden. In diesem Fall kann jeder Merkmalvektor ein D -dimensionaler Vektor zk ∈ RD sein, und die Menge von Merkmalvektoren kann im Raum Z ∈ ℝD×K definiert werden.In some examples, the learned or predetermined dictionary of object parts may include a set of dictionary vectors (d k ). In these examples, a number of the dictionary vectors in the set of dictionary vectors may correspond to a number of object parts (K). In some examples, the learned dictionary can be represented mathematically as D=[d 1 , d 2 ,...,d k ]. In this example, each dictionary vector can be a D-dimensional vector d k ∈ RD, and the learned or predetermined dictionary can be defined in the space D ∈ ℝ D ×K . In some examples, the set of region features of the image sample from the first plurality of image samples or from the plurality of new image samples may be represented by a set of feature vectors. In this case, each region feature from the set of region features can correspond to the respective feature vector, and a number of the feature vectors in the set of feature vectors can coincide with the dictionary vectors (ie with the number of object parts (K)). Similar to the set of dictionary vectors, the set of region features can be written as Z=[z 1 ,z 2 ,...,z k ] in some examples. In this case, each feature vector can be a D -dimensional vector z k ∈ R D and the set of feature vectors can be defined in the space Z ∈ ℝ D×K .
In einigen Beispielen kann Aufteilen jeder Bildstichprobe ferner Berechnen einer Distanz von jedem Pixel des Regionenmerkmals der Bildstichprobe zu jedem Objektteil des erlernten oder vorbestimmten Wörterbuchs von Objektteilen umfassen. In einigen Beispielen kann der Berechnungsschritt Berechnen einer Distanz von jedem Pixel des Regionenmerkmals der Bildstichprobe (z. B. definiert im Merkmalraum) zu jedem Wörterbuchvektor (dk) involvieren. Bei der vorliegenden Technik kann Aufteilen jeder Bildstichprobe ferner Berechnen einer Wahrscheinlichkeit umfassen, dass das Pixel des Regionenmerkmals der Bildstichprobe einem Objektteil (k) aus dem erlernten oder vorbestimmten Wörterbuch von Objekteilen zugewiesen werden kann. In einigen Beispielen kann diese Wahrscheinlichkeit auf der Distanz von Pixeln des Regionenmerkmals der Bildstichprobe zu jedem Objektteil des erlernten oder vorbestimmten Wörterbuchs von Objektteilen (zum Beispiel zu jedem Wörterbuchvektor (dk)) basieren. In einigen Beispielen kann das Berechnen der Wahrscheinlichkeit ferner Berechnen einer Wahrscheinlichkeitszuweisungsmatrix
In einigen Beispielen für die vorliegenden Techniken kann Berechnen der Menge von Merkmalvektoren 112; Z Pooling von Regionenmerkmalen aus einer Bildmerkmalabbildung (X) der Bildstichprobe umfassen - der Schritt, der die Dimensionalität von Merkmalabbildungen reduziert, aber die wichtigsten darin enthaltenen Informationen bewahrt. In einigen Beispielen kann jeder berechnete Vektor (zk) nach dem Pooling von Regionenmerkmalen durch eine nichtlineare Funktion repräsentiert werden, die von der Wahrscheinlichkeitszuweisungsmatrix
Gemäß der vorliegenden Beschreibung kann Trainieren 110 des Teil-Segmentierungsnetzes 111 ferner Verwendung einer Vordergrund-Segmentierungsmaske (siehe Mi in
Die vorliegenden Techniken können ferner Verarbeiten der Menge von Regionenmerkmalen 112; Z der Bildstichprobe (z. B. eines beliebigen Bildes aus der ersten Vielzahl von Bildstichproben oder aus der Vielzahl neuer Bildstichproben) durch ein Faltungsnetz 114 umfassen, um eine sekundäre Menge von Regionenmerkmalen 115;
Gemäß der vorliegenden Beschreibung kann Klassifizieren jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben durch den zweiten Bildklassifizier auf der sekundären Menge von Regionenmerkmalen 115;
In den bevorzugten Beispielen kann jede neue Bildstichprobe aus der Vielzahl von neuen Bildstichproben für die Trainingsdatenmenge durch die sekundäre Menge von Regionenmerkmalen 116;
Die Techniken der vorliegenden Offenbarung können auch Empfangen 170 einer Validierungsdatenmenge umfassen, die eine Vielzahl von Bildstichproben zur Validierung umfasst. In einigen Beispielen kann das zweite Bildklassifizierernetz 151 auf der Basis der empfangenen Validierungsdatenmenge trainiert werden 160. In einem weiteren Schritt können die vorliegenden Techniken Zurückweisen von null, einer oder mehreren neu erzeugten Stichproben umfassen, die potentiell die Vorhersagegenauigkeit bekannter Klassen verschlechtern können. In bevorzugten Beispielen kann diese Zurückweisungsprozedur auf Basis von Bildstichproben aus der Validierungs- und anfänglichen Datenmenge ausgeführt werden. In einigen Beispielen kann Zurückweisen Auswählen von Bildstichproben 180 aus der Vielzahl von Bildstichproben zur Validierung, die mit der Klassenkennzeichnung aus der gegebenen Anzahl bekannter Klassen (N) gekennzeichnet sind, für Validierung umfassen. Dann können die folgenden Schritte für jede ausgewählte Bildstichprobe aus der Vielzahl von Bildstichproben zur Validierung ausgeführt werden. In einigen Beispielen kann durch Vergleichen jeder Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben mit der ausgewählten Bildstichprobe eine erste nächstliegende Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben zu der ausgewählten Bildstichprobe bestimmt werden 190. In einem nächsten Schritt kann eine zweite nächstliegende Bildstichprobe aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge zu der ausgewählten Bildstichprobe durch Vergleichen jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben mit der ausgewählten Bildstichprobe bestimmt werden 200. In einem weiteren Schritt kann die neue Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben, die der ersten nächstliegenden Bildstichprobe entspricht, zurückgewiesen werden 210, wenn die erste nächstliegende Bildstichprobe der ausgewählten Bildstichprobe näher als die zweite nächstliegende Bildstichprobe ist. Die oben als Beispiel offenbarte Zurückweisungstechnik kann somit einen erzeugten Bildstichprobenkandidaten als neue Bildstichprobe unter der Idee akzeptieren, dass eine gute neue Stichprobe Validierungsbildstichproben nicht näher kommen sollte als ihre verglichenen nächstliegenden Trainingsbildstichproben. Mit diesem Prinzip kann die erzeugte Bildstichprobe zurückgewiesen werden, wenn sie einer Validierungsbildstichprobe mehr als ihren verglichenen Trainingsbildstichproben näher kommt. In einigen Beispielen kann für rechnerische Effizienz diese Nähebedingung nicht für alle Validierungsbildstichproben geprüft werden, sondern nur für nächstliegende Validierungsbildstichproben mit Bezug auf die erzeugten Bildstichproben (z. B. kann die Anzahl nächstliegender Validierungsbildstichproben zwischen 5 und 100 oder 50 und 1000 oder 5000 und 10000 gewählt werden). In bevorzugten Beispielen kann die vorliegende Technik Regenerieren 220 einer neuen Ergänzungsbildstichprobe gemäß den zuvor offenbarten Schritten des Extrahierens und Ersetzens umfassen, wenn die neue Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben zurückgewiesen wird.The techniques of the present disclosure may also include receiving 170 a validation data set that includes a plurality of image samples for validation. In some examples, the second
In einigen Beispielen kann Bestimmen der ersten nächstliegenden Bildstichprobe implementiert werden durch Berechnen einer ersten nächsten charakteristischen Distanz zwischen der sekundären Menge von neuen Merkmalvektoren
Ferner wird ein Verfahren zum Trainieren eines Bildklassifizierernetzes offenbart und vorgeschlagen. Die vorliegenden Techniken können Erzeugen 140 einer Trainingsdatenmenge für das Bildklassifizierernetz gemäß dem ersten Aspekt der vorliegenden Beschreibung umfassen. Dann kann in einigen Beispielen ein Bildklassifizierernetz 301 auf der Basis der erzeugten Trainingsdatenmenge trainiert werden 300. In einigen Beispielen kann Training 300 des Bildklassifizierernetzes somit nicht nur gemeinsame anfängliche Datenmenge sondern auch die erzeugte Trainingsdatenmenge umfassen, um dadurch eine Gesamtdatenmenge, die zum Training des Bildklassifizierernetzes verwendet wird, zu ergänzen. In einigen Beispielen umfasst Training des Bildklassifizierernetzes Behandeln der erzeugten Vielzahl neuer Bildstichproben als eine Vielzahl unbekannter Bildstichproben. Außerdem kann jede Bildstichprobe aus der Vielzahl unbekannter Bildstichproben durch das Bildklassifizierernetz 301 klassifiziert werden 310.A method for training an image classifier network is also disclosed and proposed. The present techniques may include generating 140 a training data set for the image classifier network according to the first aspect of the present description. Then, in some examples, an
In den vorliegenden Techniken kann Klassifizieren durch das Bildklassifizierernetz 301 Klassifizieren einer gegebenen Bildstichprobe als aus der Vielzahl bekannter Klassen (N) stammend oder zu einer unbekannten Klasse gehörend umfassen. In bevorzugten Beispielen kann deshalb das zweite Bildklassifizierernetz 151 eine Anzahl von Ausgängen (N) gleich der gegebenen Anzahl von bekannten Klassen (N) aufweisen, während das Bildklassifizierernetz 301 eine Anzahl von Ausgängen (N + 1) aufweisen kann, die die gegebene Anzahl bekannter Klassen um mindestens eine übersteigt, die eine Vorhersage unbekannter Klassen repräsentiert.In the present techniques, classification by the
In einigen Beispielen kann Training 300 des Bildklassifizierernetzes Training des Bildklassifizierernetzes durch Verwenden 320 der Menge von Regionenmerkmalen 112; Z für eines oder mehrere Bilder aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge umfassen. In bevorzugten Beispielen kann Training 300 des Bildklassifizierernetzes Training des Bildklassifizierernetzes durch Verwenden 320 der sekundären Menge von Regionenmerkmalen 115;
In einem nächsten Schritt kann der Trainingsschritt des Bildklassifizierernetzes Berechnen einer ersten Verlustfunktion (Lbekannt) auf der Basis bekannter Bildstichproben unter Verwendung der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge umfassen. Dann kann eine zweite Verlustfunktion ( erzeugt) auf der Basis der Vielzahl unbekannter Bildstichproben unter Verwendung der erzeugten Vielzahl neuer Bildstichproben berechnet werden. In einem weiteren Schritt kann durch Summieren der ersten Verlustfunktion und einer gewichteten zweiten Verlustfunktion eine Zielfunktion () berechnet werden. In einigen Beispielen kann die gewichtete zweite Verlustfunktion ein Produkt der zweiten Verlustfunktion und eines Gewichtungsfaktors (α) sein, so dass die Zielfunktion folgendermaßen lautet: = bekannt + α · erzeugt. In einem letzten Schritt kann die Zielfunktion minimiert werden, um das Bildklassifizierernetz zu trainieren.In a next step, the step of training the image classifier network may comprise computing a first loss function (L known ) based on known image samples using the first plurality of image samples of the initial training data set. Then a second loss function ( generated ) based on the plurality of unknown image samples using the generated plurality of new image samples. In a further step, a target function ( ) be calculated. In some examples, the weighted second loss function may be a product of the second loss function and a weighting factor (α), such that the objective function is: = known + α generated . In a final step, the objective function can be minimized to train the image classifier network.
Zur Veranschaulichung ist in
Die Techniken der vorliegenden Offenbarung können ferner Verwendung des trainierten Bildklassifizierernetzes zum Klassifizieren von Bilddaten umfassen. In einigen Beispielen können die Bilddaten Einzelbilder oder Videodaten umfassen. Verwendung des trainierten Bildklassifizierers kann Überwachen einer Umgebung durch eine Überwachungseinrichtung umfassen. Zusätzlich oder als Alternative können die Verfahren des ersten und zweiten Aspekts Überwachen einer Vorrichtung durch eine Überwachungsvorrichtung umfassen. In einigen Beispielen können Bilddaten der Umgebung durch die Überwachungsvorrichtung aufgezeichnet werden (z. B. durch eine Bildgebungsvorrichtung wie eine Digitalkamera, die sich zum Beispiel an der Überwachungsvorrichtung befindet oder sich getrennt mit der Überwachungsvorrichtung in Kommunikation befindet). In einem nächsten Schritt kann das trainierte Bildklassifizierernetz zum Klassifizieren der aufgezeichneten Bilddaten verwendet werden.The techniques of the present disclosure may further include using the trained image classifier network to classify image data. In some examples, the image data may include still images or video data. Using the trained image classifier may include monitoring an environment by a monitoring device. Additionally or alternatively, the methods of the first and second aspects may comprise monitoring a device by a monitoring device. In some examples, image data of the environment may be recorded by the monitoring device (e.g., by an imaging device such as a digital camera, for example, located on the monitoring device or in communication with the monitoring device separately). In a next step, the trained image classifier network can be used to classify the recorded image data.
In einigen Beispielen kann ein Umgebungszustand der überwachten Umgebung auf der Basis der klassifizierten Bilddaten kontrolliert werden. Zusätzlich oder als Alternative kann die Vorrichtung auf der Basis der klassifizierten Bilddaten kontrolliert werden. In einigen Beispielen kann auf der Basis der klassifizierten Bilddaten ein Statusindikator hinsichtlich eines Umgebungszustands der überwachten Umgebung erzeugt werden. Zusätzlich oder als Alternative kann auf der Basis der klassifizierten Bilddaten ein Statusindikator hinsichtlich eines Status der Vorrichtung erzeugt werden.In some examples, an environmental condition of the monitored environment can be controlled based on the classified image data. Additionally or alternatively, the device can be controlled based on the classified image data. In some examples, a status indicator regarding an environmental condition of the monitored environment may be generated based on the classified image data. Additionally or alternatively, a status indicator regarding a status of the device may be generated based on the classified image data.
In einem Beispiel kann die Überwachungsvorrichtung die Umgebung mindestens eines halbautonomen Roboters überwachen. In anderen Beispielen kann die Überwachungsvorrichtung in einem Herstellungs- oder Untersuchungssystem oder in einem medizinischen Bildgebungssystem eingesetzt werden. In einigen Beispielen, bei denen die Überwachungsvorrichtung in einem medizinischen Bildgebungssystem eingesetzt wird, können die vorliegenden Techniken ferner Ausgeben von Diagnostikergebnissen durch das medizinische Bildgebungssystem auf der Basis der klassifizierten Bilddaten umfassen.In one example, the monitoring device can monitor the surroundings of at least one semi-autonomous robot. In other examples, the monitoring device may be deployed in a manufacturing or inspection system, or in a medical imaging system. In some examples where the monitoring device is deployed in a medical imaging system, the present techniques may further include the medical imaging system outputting diagnostic results based on the classified image data.
In einigen Beispielen kann der halbautonome Roboter ein Industrieroboter, ein Haushaltsroboter oder ein mindestens halbautonomes Fahrzeug sein. Die Techniken der vorliegenden Offenbarung können ferner Steuern eines Herstellungsprozesses und/oder von Qualitätssicherung von Produkten durch den Industrieroboter oder einer Funktionsweise des autonomen Fahrzeugs auf der Basis der klassifizierten Bilddaten umfassen. In einigen Beispielen kann auf der Basis des Klassifizierungsschritts des Bildklassifizierernetzes eine automatische Reaktion ausgelöst werden. In einigen Beispielen kann die Reaktion Angabe des Zustands auf einer grafischen Benutzeroberfläche und/oder Bereitstellung von Informationen hinsichtlich des Zustands einer entfernten Vorrichtung umfassen. Zusätzlich oder als Alternative kann die Reaktion Erzeugung eines Alarms und/oder Ändern oder Stoppen eines Betriebs einer überwachten Vorrichtung involvieren.In some examples, the semi-autonomous robot can be an industrial robot, a domestic robot, or at least a semi-autonomous vehicle. The techniques of the present disclosure may further include controlling a manufacturing process and/or quality assurance of products by the industrial robot or an operation of the autonomous vehicle based on the classified image data. In some examples, an automatic response may be triggered based on the classification step of the image classifier network. In some examples, the response may include indicating the status in a graphical user interface and/or providing information regarding the status of a remote device. Additionally or alternatively, the response may involve generating an alarm and/or changing or stopping operation of a monitored device.
Bei den vorliegenden Techniken in Bezug auf die Überwachungsvorrichtung, die in einem Herstellungs- oder Untersuchungssystem verwendet wird, kann auf der Basis des Klassifizierungsschritts des Bildklassifizierernetzes eine Reaktion automatisch ausgelöst werden. In einigen Beispielen kann diese Reaktion umfassen, anzugeben, ob eine Komponente oder ein Teil, die bzw. das hergestellt und/oder untersucht wird, als normal oder abnorm klassifiziert wird. In einigen Beispielen, bei denen die Überwachungsvorrichtung in einem Herstellungs- oder Untersuchungssystem (zum Beispiel einer Herstellungs- oder Untersuchungslinie für Leiterplatten (PCB)) verwendet wird, können die Techniken der vorliegenden Offenbarung ferner Scannen einer Vielzahl von Komponenten oder Teilen (z. B. durch eine Bildgebungsvorrichtung wie eine Kamera) involvieren. In einem nächsten Schritt kann eine Komponente oder ein Teil der Vielzahl von Komponenten oder Teilen als normal ohne Defekt oder defekt als einen Defekt aufweisend klassifiziert werden. In einigen Beispielen können die vorliegenden Techniken als Reaktion auf Klassifizieren der Komponente oder des Teils als defekt Bestimmen, ob der Defekt von der bekannten Klasse aus der Vielzahl bekannter Klassen oder der unbekannten Klasse ist, involvieren. In einigen Beispielen können die vorliegenden Techniken effizient sein, wenn die Objekte/Produkte im Eingangsbereich sich eine ähnliche Struktur teilen. Zum Beispiel können im Kontext der PCB- bzw. Leiterplatten-Produktpipeline, die verschiedene Entwürfe von PCB produzieren kann, alle PCB gemeinsame Komponenten (z. B. Transistoren, Chips usw.) aufweisen. Wenn sie einige Defekte aufweisen, werden die Defekte gewöhnlich als unterschwellige (d.h. feinkörnige) Änderungen in Bildern erscheinen, wie etwa versehentliche Mischung falscher Arten von Transistoren oder Chips über Entwürfe von PCB hinweg. In einigen Beispielen kann es durch Verwendung der vorliegenden Technik des Erzeugens einer Trainingsdatenmenge für ein Bildklassifizierernetz auf der Basis einer Rekombination der aus den Bildstichproben der anfänglichen Trainingsmenge extrahierten lokalen Merkmale möglich sein, das Bildklassifizierernetz an einer solchen falschen Mischung effizient lernen zu lassen. Zum Beispiel kann das trainierte Bildklassifizierernetz mehrere PCB als zu derselben Defektklasse gehörend klassifizieren, obwohl sich derselbe Teil (z. B. Transistor oder Chip) dieser PCB fälschlicherweise an verschiedenen räumlichen Orten befindet. Bei den vorliegenden Techniken kann es ausreichend sein, wenn diese Klassifikation nur eine einzige „repräsentative“ Bildstichprobe mit einem solchen Ort defekter Komponenten auf einer PCB in der anfänglichen Trainingsdatenmenge bereitstellt.In the present techniques relating to the monitoring device used in a manufacturing or inspection system, a response can be automatically triggered based on the classification step of the image classifier network. In some examples, this response may include indicating whether a component or part being manufactured and/or inspected is classified as normal or abnormal. In some examples where the monitoring device is used in a manufacturing or inspection system (e.g., a printed circuit board (PCB) manufacturing or inspection line), the techniques of the present disclosure may further scan a variety of components or parts (e.g., by an imaging device such as a camera). In a next step, a component or part of the plurality of components or parts can be classified as normal with no defect or defective as having a defect. In some examples, in response to classifying the component or part as defective, the present techniques may involve determining whether the defect is of the known class of the plurality of known classes or the unknown class. In some examples, the present techniques may be efficient when the objects/products in the entryway share a similar structure. For example, in the context of the PCB product pipeline, which may produce different designs of PCBs, all PCBs may have common components (e.g., transistors, chips, etc.). If they have some defects, the defects will usually show up as subtle (ie, fine-grained) changes in images, such as accidental mixing of wrong types of transistors or chips across PCB designs. In some examples, by using the present technique of generating a training data set for an image classifier network based on a recombination of the local features extracted from the image samples of the initial training set, it may be possible to have the image classifier network learn efficiently on such an incorrect mixture. For example it can trained image classifier network can classify multiple PCBs as belonging to the same defect class even though the same part (e.g. transistor or chip) of that PCB is erroneously located at different spatial locations. In the present techniques, it may be sufficient if this classification provides only a single "representative" image sample with such defective component location on a PCB in the initial training data set.
Bei einigen Ausführungsformen kann die Komponente oder der Teil (z. B. eine PCB) zu einer nächsten Stufe der Produktionspipeline weitergeleitet werden, wenn die Komponente oder der Teil als normal klassifiziert wird. In einigen Beispielen kann die defekte Komponente oder der defekte Teil zu einem vordefinierten Handhabungsmodul weitergeleitet werden, wenn der bestimmte Defekt von der bekannten Klasse ist. In anderen Beispielen kann das defekte Produkt zu einer detaillierten Untersuchung weitergeleitet werden, wenn der bestimmte Defekt von der unbekannten Klasse ist.In some embodiments, if the component or part is classified as normal, the component or part (e.g., a PCB) may be forwarded to a next stage of the production pipeline. In some examples, the defective component or part may be forwarded to a predefined handling module if the particular defect is of the known class. In other examples, if the particular defect is of the unknown class, the defective product may be forwarded for detailed investigation.
Ein dritter Aspekt stellt ein computerimplementiertes System bereit, das dafür ausgelegt ist, ein Bildklassifizierernetz für eine Vorrichtung gemäß den Techniken des zweiten Aspekts oder seinen Ausführungsformen zu erzeugen und/oder zu verwenden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme umfassen kann, die, wenn sie ausgeführt werden, die Verfahrensschritte gemäß dem ersten und/oder zweiten Aspekt ausführen) und mindestens eine Schnittstelle für Eingaben und Ausgaben umfassen. In einigen Beispielen kann das computerimplementierte System eine selbständige Computervorrichtung sein. In anderen Beispielen kann das computerimplementierte System in eine Computervorrichtung oder ein System integriert sein, die bzw. das auch anderen Zwecken als Ausführen der Schritte der Techniken der vorliegenden Offenbarung dient. In noch anderen Beispielen kann das computerimplementierte System ein verteiltes System sein, das über ein Netzwerk (z. B. das Internet) kommuniziert.A third aspect provides a computer-implemented system adapted to create and/or use an image classifier network for a device according to the techniques of the second aspect or its embodiments. The computer-implemented system may include at least one processor, at least one memory (which may include programs that, when executed, perform the method steps according to the first and/or second aspect) and at least one interface for inputs and outputs. In some examples, the computer-implemented system may be a standalone computing device. In other examples, the computer-implemented system may be integrated into a computing device or system that also serves purposes other than performing the steps of the techniques of the present disclosure. In still other examples, the computer-implemented system may be a distributed system that communicates over a network (e.g., the Internet).
Ein vierter Aspekt stellt ein Computerprogramm bereit, das dafür ausgelegt ist, beliebige der Schritte der Techniken gemäß dem ersten und/oder zweiten Aspekt auszuführen.A fourth aspect provides a computer program arranged to carry out any of the steps of the techniques according to the first and/or second aspect.
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021201124.1A DE102021201124A1 (en) | 2021-02-08 | 2021-02-08 | TRAINING IMAGE CLASSIFIER NETWORKS |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021201124.1A DE102021201124A1 (en) | 2021-02-08 | 2021-02-08 | TRAINING IMAGE CLASSIFIER NETWORKS |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102021201124A1 true DE102021201124A1 (en) | 2022-08-11 |
Family
ID=82493302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102021201124.1A Pending DE102021201124A1 (en) | 2021-02-08 | 2021-02-08 | TRAINING IMAGE CLASSIFIER NETWORKS |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102021201124A1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432091A (en) * | 2023-06-15 | 2023-07-14 | 山东能源数智云科技有限公司 | Equipment fault diagnosis method based on small sample, construction method and device of model |
CN116484266A (en) * | 2023-05-18 | 2023-07-25 | 广东国地规划科技股份有限公司 | Fine urban land type recognition model training method |
CN117853875A (en) * | 2024-03-04 | 2024-04-09 | 华东交通大学 | Fine-granularity image recognition method and system |
-
2021
- 2021-02-08 DE DE102021201124.1A patent/DE102021201124A1/en active Pending
Non-Patent Citations (4)
Title |
---|
HUANG, Zixuan ; LI, Yin: Interpretable and Accurate Fine-grained Recognition via Region Grouping. Version 1, arXiv: 2005.10411v1. 21-05-2020. S. 1-12. URL: https://arxiv.org/pdf/2005.10411 [abgerufen am 2021-03-25]. |
UDDIN, A. F. M., et al. Saliencymix: A saliency guided data augmentation strategy for better regularization. arXiv preprint arXiv:2006.01791v1, 2020 |
WALAWALKAR, Devesh, et al. Attentive cutmix: An enhanced data augmentation approach for deep learning based image classification. arXiv preprint arXiv:2003.13048v2, 2020 |
ZHANG, Yan; HE, Binyu; SUN, Li. Progressive Multi-stage Feature Mix for Person Re-Identification. arXiv preprint arXiv:2007.08779v2, 2020 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484266A (en) * | 2023-05-18 | 2023-07-25 | 广东国地规划科技股份有限公司 | Fine urban land type recognition model training method |
CN116484266B (en) * | 2023-05-18 | 2023-11-24 | 广东国地规划科技股份有限公司 | Fine urban land type recognition model training method |
CN116432091A (en) * | 2023-06-15 | 2023-07-14 | 山东能源数智云科技有限公司 | Equipment fault diagnosis method based on small sample, construction method and device of model |
CN116432091B (en) * | 2023-06-15 | 2023-09-26 | 山东能源数智云科技有限公司 | Equipment fault diagnosis method based on small sample, construction method and device of model |
CN117853875A (en) * | 2024-03-04 | 2024-04-09 | 华东交通大学 | Fine-granularity image recognition method and system |
CN117853875B (en) * | 2024-03-04 | 2024-05-14 | 华东交通大学 | Fine-granularity image recognition method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102021201124A1 (en) | TRAINING IMAGE CLASSIFIER NETWORKS | |
DE112017001311T5 (en) | System and method for training an object classifier by machine learning | |
DE112017005651T5 (en) | Device for classifying data | |
DE102018128531A1 (en) | System and method for analyzing a three-dimensional environment represented by a point cloud through deep learning | |
DE102006010607A1 (en) | Object localization method, involves calculating probability values for limitation boxes in input image based on probability that object is arranged in these locations, and selecting box with highest probability as location of object | |
DE112010002232T5 (en) | Semantic scene segmentation using random multinominal logit (RML) | |
DE102019127282A1 (en) | System and method for analyzing a three-dimensional environment through deep learning | |
DE102019209560A1 (en) | Apparatus and method for training a neural network | |
DE112020000448T5 (en) | CAMERA SELF CALIBRATION NETWORK | |
DE102019209644A1 (en) | Method for training a neural network | |
DE102019204139A1 (en) | Training for artificial neural networks with better utilization of the learning data sets | |
DE102020103769A1 (en) | Adversarial attack on the algorithm for detecting black box objects | |
DE102021207613A1 (en) | Process for quality assurance of a system | |
DE112018007277T5 (en) | DEVICE AND METHOD FOR AUTOMATIC ERROR THRESHOLD DETECTION FOR IMAGES | |
DE102020200503A1 (en) | Method for generating labeled data, in particular for training a neural network, by improving initial labels | |
DE102023107476A1 (en) | ULTRASONIC DEFECT DETECTION AND CLASSIFICATION SYSTEM USING MACHINE LEARNING | |
DE102019129029A1 (en) | OBJECT DETECTION SYSTEM AND METHOD | |
DE102019117680A1 (en) | AUTOMATED SEGMENTATION PROCESS FOR QUALITY INSPECTION | |
DE102022201679A1 (en) | Method and device for training a neural network | |
DE102021128523A1 (en) | HIERARCHICAL IMAGE DECOMPOSITION FOR DEFECT DETECTION | |
DE102021212731A1 (en) | REVIEWING TESTING AND/OR TRAINING RECORDS FOR A COMPUTER-BASED MACHINE LEARNING MODULE | |
DE102022110871A1 (en) | AUTOMATIC ANNOTATION USING GROUND TRUTH DATA FOR MACHINE LEARNING MODELS | |
DE102021212732A1 (en) | REVIEWING TESTING AND/OR TRAINING RECORDS FOR A COMPUTER-BASED MACHINE LEARNING MODULE | |
DE102022110870A1 (en) | Method and training device for training a machine learning model by efficiently providing uncertainty-based training data | |
DE102022204263A1 (en) | Method and device for training a neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |
|
R163 | Identified publications notified |