DE102021201124A1

DE102021201124A1 - TRAINING IMAGE CLASSIFIER NETWORKS

Info

Publication number: DE102021201124A1
Application number: DE102021201124.1A
Authority: DE
Inventors: Volker Fischer; Andres Mauricio Munoz Delgado; Piyapat Saranrittichai
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-08-11

Abstract

Ein Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zur Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz, das Empfangen einer anfänglichen Trainingsdatenmenge, die eine erste Vielzahl von Bildstichproben umfasst, wobei jede Bildstichprobe mit einer Klassenkennzeichnung einer Vielzahl bekannter Klassen gekennzeichnet ist, Trainieren eines Teil-Segmentierungsnetzes auf der Basis der anfänglichen Trainingsdatenmenge zum Aufteilen jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben in mehrere Regionen und Erzeugen einer Menge von Regionenmerkmalen für jede Bildstichprobe, wobei jedes Regionenmerkmal auf Bilddaten in einer jeweiligen Region der mehreren Regionen basiert, und Erzeugen einer Trainingsdatenmenge, die eine Vielzahl neuer Bildstichproben umfasst, auf der Basis der ersten Vielzahl von Bildstichproben umfasst. Der Erzeugungsschritt umfasst Extrahieren der Menge von Regionenmerkmalen einer ersten Bildstichprobe und einer zweiten Bildstichprobe der ersten Vielzahl von Bildstichproben unter Verwendung des trainierten Teil-Segmentierungsnetzes, wobei die erste Bildstichprobe mit einer ersten Klassenkennzeichnung gekennzeichnet ist und die zweite Bildstichprobe mit einer zweiten Klassenkennzeichnung gekennzeichnet ist, die von der ersten Klassenkennzeichnung verschieden ist. Der Schritt des Erzeugens der Trainingsdatenmenge umfasst ferner Ersetzen mindestens eines Regionenmerkmals aus der Menge von Regionenmerkmalen der ersten Bildstichprobe mit dem entsprechenden Regionenmerkmal aus der Menge von Regionenmerkmalen der zweiten Bildstichprobe, um dadurch eine neue Bildstichprobe für die Trainingsdatenmenge zu erzeugen.One aspect of the present disclosure relates to a method for generating a training data set for an image classifier network, receiving an initial training data set comprising a first plurality of image samples, each image sample being labeled with a class identifier of a plurality of known classes, training a partial segmentation network on the Based on the initial training data set, dividing each image sample from the first plurality of image samples into a plurality of regions and generating a set of region features for each image sample, each region feature being based on image data in a respective one of the plurality of regions, and generating a training data set that includes a plurality of new ones includes image samples based on the first plurality of image samples. The generating step includes extracting the set of region features of a first image sample and a second image sample of the first plurality of image samples using the trained sub-segmentation network, the first image sample being labeled with a first class identifier and the second image sample being labeled with a second class identifier that is different from the first class designation. The step of generating the training data set further comprises replacing at least one region feature from the set of region features of the first sample image with the corresponding region feature from the set of region features of the second sample image to thereby generate a new sample image for the training data set.

Description

TECHNISCHES GEBIETTECHNICAL AREA

Die vorliegende Beschreibung betrifft ein Verfahren zur Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz. Ein anderer Aspekt betrifft ein Verfahren zum Trainieren eines Bildklassifizierernetzes unter Verwendung der erzeugten Trainingsdatenmenge und Verwenden eines trainierten Bildklassifizierernetzes. Zugeordnete Aspekte betreffen ein computerimplementiertes System, das dafür ausgelegt ist, ein Bildklassifizierernetz für eine Vorrichtung zu erzeugen und/oder zu verwenden, und ein Computerprogramm.The present description relates to a method for generating a training data set for an image classifier network. Another aspect relates to a method for training an image classifier network using the generated training data set and using a trained image classifier network. Associated aspects relate to a computer-implemented system configured to create and/or use an image classifier network for a device and a computer program.

HINTERGRUNDBACKGROUND

Es besteht wachsendes Interesse an der Implementierung von Techniken des tiefen Lernens für vielfältige komplexe Bildklassifikationsaufgaben. Viele vorbekannte Verfahren sind auf eine Annahme geschlossener Mengen beschränkt, wobei alle möglichen Testklassen während des Trainings „bekannt“ sind. Dadurch werden einige der vorbekannten Verfahren für einige realistische Klassifikationsszenarien, bei denen es nicht möglich ist, alle potentiell auftretenden Klassen abzudecken, da dies rechnerisch nicht durchführbar sein kann und/oder aufgrund nichtexistierender Trainingsdatenmengen für bestimmte Klassen, ungeeignet. In letzter Zeit haben OSR-Techniken (Open-Set Recognition - Erkennung offener Mengen) die Standard-Klassifikationsaufgaben erweitert, um mit unbekannten Klassen umzugehen, die nicht in einer gegebenen Trainingsdatenmenge enthalten sind, und sind somit in der Lage, bekannte von unbekannten Stichproben zu unterscheiden sowie bekannte zu klassifizieren. Die OSR-Techniken können in vielen Anwendungen verwendet werden, die z. B. von der Detektion von Ausfällen in Herstellungssystemen bis zur Detektion von Verkehrsschildern oder anderen Elementen in Anwendungen des autonomen Fahrens reichen. In einigen Realweltbereichen kann jedoch der Unterschied bei einem visuellen Aussehen über Klassen hinweg unterschwellig sein. In diesem Kontext sollten die OSR-Techniken in der Lage sein, auf einer feinkörnigen Ebene zwischen verschiedenen Objekten zu unterscheiden, was eine schwierige Aufgabe ist.There is growing interest in implementing deep learning techniques for a variety of complex image classification tasks. Many prior art methods are limited to a closed set assumption, where all possible test classes are "known" during training. This makes some of the previously known methods unsuitable for some realistic classification scenarios where it is not possible to cover all potentially occurring classes, since this may not be computationally feasible and/or due to non-existent training data sets for certain classes. Recently, open-set recognition (OSR) techniques have extended standard classification tasks to deal with unknown classes that are not in a given training data set, and are thus able to separate known from unknown samples distinguish as well as classify known. The OSR techniques can be used in many applications, e.g. B. range from the detection of failures in manufacturing systems to the detection of traffic signs or other elements in autonomous driving applications. However, in some real world areas, the difference in visual appearance across classes can be subtle. In this context, the OSR techniques should be able to distinguish between different objects at a fine-grained level, which is a difficult task.

Einige bekannte Techniken auf der Basis von OSR konzentrieren sich jedoch auf die Bereiche, bei denen visuelle Unterschiede über Klassen hinweg nicht feinkörnig sind. Deshalb besteht eine Notwendigkeit, neue effiziente feinkörnige OSR-Techniken zur Bilderkennung zu entwickeln.However, some known OSR-based techniques focus on the areas where visual differences across classes are not fine-grained. Therefore, there is a need to develop new efficient fine-grained OSR techniques for image recognition.

KURZFASSUNGSHORT VERSION

Ein erster Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Erzeugen einer Trainingsdatenmenge für ein Bildklassifizierernetz. Das Verfahren der vorliegenden Offenbarung umfasst Empfangen einer anfänglichen Trainingsdatenmenge, die eine erste Vielzahl von Bildstichproben umfasst, wobei jede Bildstichprobe mit einer Klassenkennzeichnung einer Vielzahl bekannter Klassen gekennzeichnet wird. Das Verfahren umfasst ferner Trainieren eines Teil-Segmentierungsnetzes auf der Basis der anfänglichen Trainingsdatenmenge zum Aufteilen jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben in mehrere Regionen und Erzeugen einer Menge von Regionenmerkmalen für jede Bildstichprobe, wobei jedes Regionenmerkmal auf Bilddaten in einer jeweiligen Region der mehreren Regionen basiert. Das Verfahren des ersten Aspekts umfasst ferner Erzeugen einer Trainingsdatenmenge, die eine Vielzahl neuer Bildstichproben umfasst, auf der Basis der ersten Vielzahl von Bildstichproben. Der Erzeugungsschritt umfasst Extrahieren der Menge von Regionenmerkmalen einer ersten Bildstichprobe und einer zweiten Bildstichprobe der ersten Vielzahl von Bildstichproben unter Verwendung des trainierten Teil-Segmentierungsnetzes, wobei die erste Bildstichprobe mit einer ersten Klassenkennzeichnung gekennzeichnet ist und die zweite Bildstichprobe mit einer zweiten Klassenkennzeichnung gekennzeichnet ist, die von der ersten Klassenkennzeichnung verschieden ist. Der Schritt des Erzeugens der Trainingsdatenmenge umfasst ferner Ersetzen mindestens eines Regionenmerkmals aus der Menge von Regionenmerkmalen der ersten Bildstichprobe mit dem entsprechenden Regionenmerkmal aus der Menge von Regionenmerkmalen der zweiten Bildstichprobe, um dadurch eine neue Bildstichprobe für die Trainingsdatenmenge zu erzeugen.A first aspect of the present disclosure relates to a method for generating a training data set for an image classifier network. The method of the present disclosure includes receiving an initial training data set that includes a first plurality of image samples, wherein each image sample is labeled with a class label of a plurality of known classes. The method further comprises training a sub-segmentation network based on the initial training data set for dividing each image sample from the first plurality of image samples into a plurality of regions and generating a set of region features for each image sample, each region feature being based on image data in a respective one of the plurality of regions based. The method of the first aspect further comprises generating a training data set comprising a plurality of new image samples based on the first plurality of image samples. The generating step includes extracting the set of region features of a first image sample and a second image sample of the first plurality of image samples using the trained sub-segmentation network, the first image sample being labeled with a first class identifier and the second image sample being labeled with a second class identifier that is different from the first class designation. The step of generating the training data set further comprises replacing at least one region feature from the set of region features of the first sample image with the corresponding region feature from the set of region features of the second sample image to thereby generate a new sample image for the training data set.

In einem zweiten Aspekt betrifft die vorliegende Offenbarung ein Verfahren zum Trainieren eines Bildklassifizierernetzes unter Verwendung der gemäß dem ersten Aspekt erzeugten Trainingsdatenmenge oder seiner Ausführungsformen. In a second aspect, the present disclosure relates to a method for training an image classifier network using the training data set generated according to the first aspect or its embodiments.

Ein dritter Aspekt stellt ein computerimplementiertes System bereit, das dafür ausgelegt ist, ein Bildklassifizierernetz für eine Vorrichtung gemäß den Techniken des zweiten Aspekts oder seiner Ausführungsformen zu erzeugen und/oder zu verwenden.A third aspect provides a computer-implemented system adapted to create and/or use an image classifier network for a device according to the techniques of the second aspect or its embodiments.

Ein vierter Aspekt stellt ein Computerprogramm bereit, das dafür ausgelegt ist, beliebige der Schritte der Techniken gemäß dem ersten und/oder zweiten Aspekt auszuführen.A fourth aspect provides a computer program arranged to carry out any of the steps of the techniques according to the first and/or second aspect.

Die Technik des ersten bis vierten Aspekts kann vorteilhafte technische Auswirkungen haben.The technique of the first to fourth aspects can have advantageous technical effects.

Als Erstes umfassen die Techniken der vorliegenden Offenbarung in einigen Situationen Erzeugen einer Trainingsdatenmenge für ein Bildklassifizierernetz, das ohne komplizierte Einstellungen und/oder Parameterabstimmungen von Architekturen auf Netzbasis zur Bilderkennung realisiert werden kann. Dies kann zu einer Verringerung der Trainingskosten und einer Möglichkeit führen, das Bildklassifizierernetz sogar mit begrenzten Hardwareressourcen zu implementieren.First, in some situations, the techniques of the present disclosure include generating a training data set for an image classifier network that can be implemented without complicated settings and/or parameter tuning of network-based image recognition architectures. This can lead to a reduction in training costs and an opportunity to implement the image classifier network even with limited hardware resources.

Zweitens können komplexe nichtlineare generative Techniken einiger vorbekannter Techniken vergleichsweise große Datenmengen zum Training von Architekturen auf Netzbasis erfordern. Bei Verwendung der vorliegenden Techniken können in einigen Beispielen solche komplexen und rechnerisch kostspieligen Techniken vermieden werden. Verglichen mit einigen vorbekannten Techniken kann deshalb eine Größe der Trainingsdatenmenge kleiner sein und die Anforderungen an Speicherungsvorrichtungen können weniger einschränkend sein.Second, complex non-linear generative techniques of some prior art techniques may require comparatively large amounts of data to train network-based architectures. In some instances, using the present techniques, such complex and computationally expensive techniques can be avoided. Therefore, compared to some prior art techniques, a size of the training dataset can be smaller and the requirements on storage devices can be less restrictive.

Drittens können die vorliegenden Techniken durch Rekombinieren lokaler Merkmale über Bildstichproben der anfänglichen Trainingsdatenmenge hinweg effiziente Erzeugung neuartiger Bildstichproben bereitstellen, die sich in feinkörnigen Details von den anfänglichen Trainingsstichproben unterscheiden. Als Ergebnis können Netze für Bilderkennung, die mit diesen neu erzeugten Bildstichproben trainiert werden, feinkörnige Unterschiede zwischen Bildstichproben besser als gewisse vorbekannte Techniken erkennen. Zusätzlich und als Ergebnis können mit den Trainingsdatenmengen gemäß der vorliegenden Offenbarung trainierte Bildklassifizierernetze besser beim Lösen von OSR-Aufgaben (z. B. Detektieren fehlerhafter Teile oder Komponenten in einem Herstellungs- oder Untersuchungssystem) funktionieren.Third, by recombining local features across image samples of the initial training data set, the present techniques can provide efficient generation of novel image samples that differ in fine-grain detail from the initial training samples. As a result, image recognition networks trained with these newly generated image samples can detect fine-grain differences between image samples better than certain prior art techniques. Additionally and as a result, image classifier networks trained with the training data sets according to the present disclosure may perform better in solving OSR tasks (e.g., detecting defective parts or components in a manufacturing or inspection system).

Der Ausdruck „Bildstichprobe“ kann sich auf ein Bild (zum Beispiel durch eine Fläche von Pixeln dargestelltes Digitalbild) beziehen, das durch eine Bildgebungsvorrichtung, z. B. eine Digitalkamera, aufgezeichnet wird, die auch auf anderen Vorrichtungen angebracht oder Teil dieser sein kann. Außerdem umfasst der Ausdruck „Bildstichprobe“, so wie er hier gebraucht wird, nicht nur ein durch eine Bildgebungsvorrichtung aufgezeichnetes Original-Digitalbild, sondern auch Informationen, die durch digitale Nachverarbeitung des durch die Bildgebungsvorrichtung aufgezeichneten entsprechenden Digitalbilds erhalten werden. Bei einigen Ausführungsformen können Bildstichproben in einem Bildraum repräsentiert werden, bei dem gewöhnliche Pixeldarstellung involviert ist, wobei jedes Pixel durch eine Menge diskreter Größen, wie z. B. seine räumlichen Koordinaten und eine Farbe, definiert wird. Bei anderen Ausführungsformen können Bildstichproben in einem vergleichsweise kleineren Merkmalraum repräsentiert werden, wie etwa 2D-Merkmalabbildungen, die durch Anwendung der in der Technik bekannten Faltungsoperation auf Original-Digitalbildstichproben (z. B. unter Verwendung eines Faltungs-Neuronalnetzes) erhalten werden.The term "image sample" may refer to an image (e.g., digital image represented by an area of pixels) captured by an imaging device, e.g. a digital camera, which may also be mounted on or be part of other devices. Furthermore, as used herein, the term "image sample" includes not only an original digital image recorded by an imaging device, but also information obtained by digitally post-processing the corresponding digital image recorded by the imaging device. In some embodiments, image samples may be represented in an image space involving ordinary pixel representation, where each pixel is represented by a set of discrete quantities, e.g. B. its spatial coordinates and a color is defined. In other embodiments, image samples may be represented in a comparatively smaller feature space, such as 2D feature maps obtained by applying the convolution operation known in the art to original digital image samples (e.g., using a convolutional neural network).

Der Ausdruck „Region“ kann sich auf einen räumlich beschränkten Teil einer in einem Bild abgebildeten Szene beziehen. Zum Beispiel kann sich eine Region auf eine beliebige Menge von Pixeln einer Bildstichprobe (zum Beispiel einer Original-Digitalbildstichprobe oder nachverarbeiteten Digitalbildstichprobe) beziehen. In einigen Beispielen bildet die Menge von Pixeln eine oder mehrere zusammenhängende Gruppen (z. B. eine einzige zusammenhängende Gruppe). Eine Region kann einen visuell unterscheidbaren Teil einer in einem Bild abgebildeten Szene (z. B. einen Teil eines Objekts) repräsentieren. Somit kann „mehrere Regionen“ mehrere Mengen von Pixeln umfassen, wobei jede Menge von Pixeln einen jeweiligen (räumlichen) Teil eines Objekts in einer aufgezeichneten oder verarbeiteten Bildstichprobe repräsentieren.The term "region" can refer to a spatially restricted part of a scene depicted in an image. For example, a region may refer to any set of pixels of an image sample (e.g., an original digital image sample or a post-processed digital image sample). In some examples, the set of pixels forms one or more contiguous groups (e.g., a single contiguous group). A region may represent a visually distinguishable part of a scene (e.g., part of an object) depicted in an image. Thus, "multiple regions" may include multiple sets of pixels, each set of pixels representing a respective (spatial) portion of an object in a recorded or processed image sample.

Ein „Regionenmerkmal“ beschreibt eine Region wie oben besprochen, z. B. einen räumlich beschränkten Teil einer in einem Bild abgebildeten Szene und/oder eine Menge von Pixeln, die einer jeweiligen Region einer Bildstichprobe entsprechen. Zum Beispiel kann ein Regionenmerkmal durch Verarbeiten von Merkmalen auf niedriger Ebene (z. B. Rändern oder Pixelattributen) der Region bestimmt werden. Ein „Regionenmerkmal“ kann mehrere Elemente umfassen (z. B. organisiert in einem Vektor, Tensor oder in einer beliebigen anderen Menge von endlichen diskreten Elementen, die in der Technik bekannt sind).A “Region Feature” describes a region as discussed above, e.g. B. a spatially limited part of a scene depicted in an image and/or a set of pixels corresponding to a respective region of an image sample. For example, a region feature may be determined by processing low-level features (e.g., edges or pixel attributes) of the region. A "region feature" may include multiple elements (e.g., organized into a vector, tensor, or any other set of finite discrete elements known in the art).

Eine „Menge von Regionenmerkmalen“ bezieht sich dementsprechend auf mehrere Regionenmerkmale für jeweilige Regionen. Zum Beispiel kann eine Menge von Regionenmerkmalen ein erstes Regionenmerkmal für eine erste Region eines Bildes und ein zweites Regionenmerkmal für eine zweite Region des Bildes umfassen und so weiter.Accordingly, a “set of region features” refers to a plurality of region features for respective regions. For example, a set of region features may include a first region feature for a first region of an image and a second region feature for a second region of the image, and so on.

Der Ausdruck „Bildklassifizierernetz“, so wie er hier benutzt wird, kann sich auf jede Art von neuronalem Netz beziehen, die im Kontext des Maschinenlernens und der künstlichen Intelligenz bekannt ist. Gemäß bestimmten Ausführungsformen kann das Bildklassifizierernetz ein Faltungs-Neuronalnetz (CNN) (definiert z. B. durch die Anzahl von Filter, Filtergrößen, Strides usw.) sein, das eine oder mehrere gewöhnliche Transformationen von Digitalbildern, die Fachleuten bekannt sind, umfassen kann, die zum Beispiel auf Faltung, Nichtlinearität (ReLu), Pooling- oder Klassifikationsoperationen basieren. Bei anderen Ausführungsformen kann das Bildklassifizierernetz auf der Basis anderer Arten von Neuronalnetzen, wie etwa eines Mehrschicht-Perceptrons, eines Vorwärtskopplungs-Neuronalnetzes, eines modularen Neuronalnetzes oder eines rekurrenten Neuronalnetzes, wobei es sich um eine Liste mehrerer nichterschöpfender Beispiele handelt, realisiert werden. Ein Bildklassifizierernetz kann dafür ausgelegt werden, Merkmale auf niedriger Ebene (z. B. Ränder oder Pixelattribute) eines Bildes zu verarbeiten, um das Bild zu klassifizieren.The term "image classifier network" as used herein can refer to any type of neural network known in the context of machine learning and artificial intelligence. According to certain embodiments, the image classifier network may be a convolutional neural network (CNN) (defined e.g. by the number of filters, filter sizes, strides, etc.), which may include one or more common transformations of digital images known to those skilled in the art. based for example on convolution, non-linearity (ReLu), pooling or classification operations. In other embodiments, the image classifier network may be implemented based on other types of neural networks, such as a multilayer perceptron, a feedforward neural network, a modular neural network, or a recurrent neural network, which is a list of several non-exhaustive examples. An image classifier network can be designed to process low-level features (e.g., edges or pixel attributes) of an image to classify the image.

Ähnlich wie der Ausdruck „Bildklassifizierernetz“ kann sich der Ausdruck „Teil-Segmentierungsnetz“ auf jede oben erwähnte Art von Neuronalnetz beziehen. Außerdem kann das „Teil-Segmentierungsnetz“ eine Bildstichprobe entwirren, um „Mengen von Regionenmerkmalen“ zu erhalten, die einzelne Objektteile repräsentieren.Similar to the term "image classifier network", the term "sub-segmentation network" can refer to any type of neural network mentioned above. In addition, the "partial segmentation mesh" can disentangle an image sample to obtain "region feature sets" representing individual object parts.

Figurenlistecharacter list

1A Figure 12 is a flow chart of a method for generating a training data set for an image classifier network according to the first aspect.
1B and 1C are flow charts of further possible method steps according to the first aspect.
2 Figure 12 shows schematically an architecture in which a training data set of the first aspect can be generated.
3 is an example of partial segmentation of an image sample. Different numbers represent different parts of the object. A panel with part indices below illustrates an ordering of each object part addressed in a set of region features (Z). The sub-index 1, 2, 3, 4 and 5 can be assigned to "lower body", "back", "belly" and "head" of a "bird" and "background" object, respectively.
4 Figure 12 is a flow chart of a method for training an image classifier network according to the second aspect using the generated training data set according to the first aspect.
5 shows the performance of the method according to the present techniques. The micro-F-measure metric of OSR (Open Set Recognition) is displayed as a function of a weighting factor α that weights a cross-entropy loss contribution of the generated samples (L produced ) with respect to that of the known samples (L known ).

AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION

Als Erstes werden einige allgemeine Aspekte in Bezug auf die Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz und das Training eines Bildklassifizierernetzes mittels der erzeugten trainierten Datenmenge besprochen, bevor einige mögliche Implementierungen erläutert werden. Eine Übersicht über den ersten Aspekt der vorliegenden Offenbarung in Bezug auf Erzeugung einer Trainingsdatenmenge für ein Bildklassifizierernetz wird in Verbindung mit in 1A-1C gezeigten Flussdiagrammen gegeben. Dann wird in 2 eine beispielhafte Architektur angezeigt, in der eine Trainingsdatenmenge des ersten Aspekts erzeugt werden kann. Ein Beispiel für die Teil-Segmentierung einer Bildstichprobe gemäß dem ersten Aspekt ist in 3 abgebildet. Der zweite Aspekt mit Bezug auf Training eines Bildklassifizierernetzes unter Verwendung der erzeugten Trainingsdatenmenge gemäß dem ersten Aspekt wird danach in einem in 4 gezeigten Flussdiagramm zusammengefasst. Als Letztes wird die Leistungsfähigkeit des Verfahrens in Verbindung mit 5 demonstriert.First, some general aspects related to the generation of a training data set for an image classifier network and the training of an image classifier network using the generated trained data set will be discussed before explaining some possible implementations. An overview of the first aspect of the present disclosure relating to generation of a training data set for an image classifier network is provided in connection with in 1A-1C flowcharts shown. Then in 2 an exemplary architecture in which a training data set of the first aspect can be generated is shown. An example for the partial segmentation of an image sample according to the first aspect is in 3 pictured. The second aspect relating to training of an image classifier network using the generated training data set according to the first aspect is then described in an in 4 shown flowchart summarized. Finally, the performance of the method in connection with 5 demonstrated.

In 1A-1C wird ein Verfahren zum Erzeugen einer Trainingsdatenmenge für ein Bildklassifizierernetz gemäß dem ersten Aspekt der vorliegenden Offenbarung offenbart und vorgeschlagen. Die Verfahrensschritte des entsprechenden unabhängigen Anspruchs werden in Kästen zusammengefasst, die in 1A-1C mit durchgezogenen Linien gezeichnet sind, während die Verfahrensschritte abhängiger Ansprüche in gestrichelt gezeichneten Kästen gezeigt werden. Die vorliegende Technik zur Erzeugung der Trainingsdatenmenge umfasst Empfangen 100 einer anfänglichen Trainingsdatenmenge, die eine erste Vielzahl von Bildstichproben (I_i) umfasst. Bei den vorliegenden Techniken kann jedes Bild (das zum Beispiel ein aufgezeichnetes Objekt repräsentiert) mit einer Klassenkennzeichnung einer Vielzahl bekannter Klassen (N) gekennzeichnet werden. In einigen Beispielen können Bildstichproben Digitalbilder von Objekten sein, die z. B. durch eine Bildgebungsvorrichtung aufgezeichnet werden. In einem Beispiel können Bildstichproben Digitalbilder von menschlichen Gesichtern oder Digitalbilder von Geweben sein, die zum Beispiel in der Diagnostik verwendet werden. In anderen Beispielen können Bildstichproben Spezies von Vögeln, Säugetieren oder Pflanzen sein. In noch anderen Beispielen können Bildstichproben gescannte Digitalbilder von Objekten, zum Beispiel hergestellten Produkten (z. B. Leiterplatten) aus einer Produktionspipeline repräsentieren. In weiteren Beispielen können Bildstichproben Digitalbilder von sich bewegenden Autos, Fußgängern oder stationären Objekten im Kontext des autonomen Fahrens sein. In einem Beispiel können die bekannten Klassen auf bekannte Spezies von Vögeln bezogen werden, die zum Beispiel merkliche Unterschiede des visuellen Aussehens über Klassen hinweg (z. B. verschiedene Struktur und/oder Größe von Flügeln innerhalb verschiedener Vogelklassen) zeigen können. In anderen Beispielen können die bekannten Vogelklassen über Klassen hinweg unterschwellige Unterschiede des visuellen Aussehens zeigen (z. B. kann der Unterschied zwischen zwei Vogelklassen ihren unterschiedlichen Augenfarben zugeschrieben werden).In 1A-1C discloses and proposes a method for generating a training data set for an image classifier network according to the first aspect of the present disclosure. The method steps of the corresponding independent claim are summarized in boxes that appear in 1A-1C are drawn in solid lines, while the method steps of dependent claims are shown in boxes drawn in dashed lines. The present technique for generating the training data set includes receiving 100 an initial training data set comprising a first plurality of image samples (I _i ). With the present techniques, each image (which, for example, is a recorded th object represented) can be identified with a class identifier of a plurality of known classes (N). In some examples, image samples may be digital images of objects, e.g. B. be recorded by an imaging device. In an example, image samples may be digital images of human faces or digital images of tissues used in diagnostics, for example. In other examples, image samples may be bird, mammalian, or plant species. In still other examples, image samples may represent scanned digital images of objects, such as manufactured products (e.g., circuit boards) from a production pipeline. In other examples, image samples may be digital images of moving cars, pedestrians, or stationary objects in the context of autonomous driving. In one example, the known classes may relate to known species of birds, which may exhibit noticeable differences in visual appearance across classes (e.g., different structure and/or size of wings within different bird classes), for example. In other examples, the known classes of birds may exhibit subtle differences in visual appearance across classes (e.g., the difference between two classes of birds may be attributed to their different eye colors).

Der nächste Schritt des Verfahrens kann Trainieren 110 eines Teil-Segmentierungsnetzes 111 auf der Basis der anfänglichen Trainingsdatenmenge umfassen. In bevorzugten Beispielen kann das Teil-Segmentierungsnetz jede Bildstichprobe aus der ersten Vielzahl von Bildstichproben in mehrere Regionen 112 aufteilen (siehe die Kennzeichnungen „Teil 1“, „Teil 2“, ..., „Teil „K“ des schematischen Blocks 112 in 2). In einem Beispiel kann das trainierte Teil-Segmentierungsnetz für jede Bildstichprobe eine Menge von Regionenmerkmalen (Z) erzeugen (siehe die in der Architektur von 2 als Beispiel gezeigte „primäre Regionenmerkmalmenge“). In diesem Fall kann jedes Regionenmerkmal (z_k) aus der Menge von Regionenmerkmalen auf Bilddaten in einer jeweiligen Region (k) der mehreren Regionen (K) basieren. Anders ausgedrückt, kann das Verfahren des ersten Aspekts in der Lage sein, globale Objektmerkmale in einem Bild zu mehreren Regionenmerkmalen zu entwirren, die einzelne Objektteile repräsentieren (die z. B. „Unterkörper“ 1, „Rücken“ 2, „Bauch“ 3, „Kopf“ 4 eines Objekts „Vogel“ und „Hintergrund“ 5 zugeordnet sind, wie in dem oberen rechten Bild von 2 und in 3 dargestellt). In einigen Beispielen können die vorliegenden Techniken auf dem jüngst entwickelten Regionengruppierungsverfahren basieren, das darauf abzielt, auf entwirrte, räumlich lokale Merkmale von Bildern, die einzelnen Objektteilen entsprechen, zu schließen (siehe den Artikel von Z. Huang und Y. Li mit dem Titel „Interpretable and Accurate Fine-grained Recognition via Region Grouping“, erhältlich bei https://arxiv.org/pdf/2005.10411vl.pdf). Im Gegensatz zu einigen vorbekannten Verfahren kann das vorliegende Verfahren somit erlauben, mit Bildstichproben im Merkmalraum statt dem Bildraum zu arbeiten. In einigen Beispielen kann die Formulierung des Problems im Merkmalraum die Techniken der vorliegenden Offenbarung zur Erfassung feinkörniger Details von Digitalbildern im hochdimensionalen Bildraum weniger notwendig machen. Das Angehen der Bildstichproben im Merkmalraum kann somit besonders nützlich sein, wenn Unterschiede eines visuellen Aussehens über verschiedene Klassen von Objekten und Unterschiede in ihren resultierenden Digitalbildern unterschwellig sind, so dass Hardware-Implementierung des Verfahrens, die Trainieren des Teil-Segmentierungsnetzes im gewöhnlichen Bildraum umfasst, rechnerisch kostspielig oder aufgrund beschränkter Hardwareressourcen überhaupt nicht möglich sein kann. In einigen Beispielen kann das durch die vorliegenden Techniken trainierte Teil-Segmentierungsnetz ein CNN (Faltungs-Neuronalnetz) sein, das eine oder mehrere gewöhnliche Transformationen an Digitalbildern, die Fachleuten bekannt sind, umfassen kann, die zum Beispiel auf Faltung, Nichtlinearität (ReLu), Pooling- oder Klassifikations-Operationen basieren. In einigen Beispielen kann das Trainieren des Teil-Segmentierungsnetzes auf CCN-Basis der vorliegenden Offenbarung Produzieren von Merkmalabbildungen aus Bildstichproben umfassen, die z. B. durch Matrizen von verglichen mit denen für die Bildstichproben der anfänglichen Datenmenge stehenden wesentlich kleineren Dimensionen repräsentiert werden können. In einem Beispiel kann die Größe der Merkmalabbildungen zum Beispiel abhängig von der Komplexität der anfänglichen Trainingsdatenmenge (z. B. Anzahl der Bildstichproben, erwartete Anzahl von Objektteilen und die resultierenden Regionenmerkmale, Unterscheidbarkeit zwischen verschiedenen Objekten und den resultierenden Bildstichproben innerhalb der anfänglichen Datenmenge usw.) gewählt werden. The next step of the method may include training 110 a sub-segmentation network 111 based on the initial training data set. In preferred examples, the sub-segmentation mesh may divide each image sample from the first plurality of image samples into multiple regions 112 (see labels "Part 1", "Part 2", ..., "Part "K" of schematic block 112 in 2 ). In one example, the trained sub-segmentation network can generate a set of region features (Z) for each image sample (see the architecture of 2 "primary region feature set" shown as an example). In this case, each region feature (z _k ) from the set of region features can be based on image data in a respective region (k) of the plurality of regions (K). In other words, the method of the first aspect may be able to disentangle global object features in an image into multiple region features representing individual object parts (e.g., "lower body" 1, "back" 2, "belly" 3, "Head" 4 of an object "bird" and "background" 5 are assigned, as in the upper right image of 2 and in 3 shown). In some examples, the present techniques may be based on the recently developed region grouping method, which aims to infer unraveled, spatially local features of images corresponding to individual object parts (see the article by Z. Huang and Y. Li entitled " Interpretable and Accurate Fine-grained Recognition via Region Grouping, available at https://arxiv.org/pdf/2005.10411vl.pdf). Thus, in contrast to some prior art methods, the present method may allow to work with image samples in feature space rather than image space. In some examples, formulating the problem in feature space may make the techniques of the present disclosure less necessary for capturing fine-grain details of digital images in high-dimensional image space. Tackling image sampling in feature space can thus be particularly useful when differences in visual appearance across different classes of objects and differences in their resulting digital images are subliminal, so hardware implementation of the method involving training the sub-segmentation network in ordinary image space, computationally expensive or not possible at all due to limited hardware resources. In some examples, the sub-segmentation network trained by the present techniques may be a CNN (convolutional neural network), which may include one or more common transformations on digital images known to those skilled in the art, based on, for example, convolution, non-linearity (ReLu), Pooling or classification operations are based. In some examples, training the CCN-based sub-segmentation network of the present disclosure may include producing feature maps from image samples, e.g. B. can be represented by matrices of much smaller dimensions compared to those standing for the image samples of the initial data set. For example, in one example, the size of the feature maps may vary depending on the complexity of the initial training data set (e.g., number of image samples, expected number of object parts and the resulting region features, distinguishability between different objects and the resulting image samples within the initial data set, etc.) to get voted.

In diesem Kontext können eine geeignete Anzahl von Filtern, Filtergröße, Stride, Architektur usw. für das Teil-Segmentierungsnetz auf CCN-Basis vor dem Trainingsprozess ausgewählt werden, und das CNN kann die Filterwerte während des Trainingsprozesses alleine lernen.In this context, an appropriate number of filters, filter size, stride, architecture, etc. for the CCN-based sub-segmentation network can be selected before the training process, and the CNN can learn the filter values alone during the training process.

Der nächste Schritt der vorliegenden Techniken kann Erzeugen 140 einer Trainingsdatenmenge, die eine Vielzahl neuer Bildstichproben umfasst, auf der Basis der ersten Vielzahl von Bildstichproben I_i umfassen. In einigen Beispielen können die Techniken der vorliegenden Offenbarung den Umstand ausnutzen, dass sich Bildstichproben aus neuen (d.h. unbekannten) Klassen einen Großteil ihrer Merkmale mit Bildstichproben aus bekannten Klassen teilen können. Zum Beispiel sind unbekannte Vögel immer noch Vögel, können aber etwas unterschiedliche Attribute als Vögel aus bekannten Klassen aufweisen. Das Erzeugen unbekannter Bildstichproben aus bekannten kann deshalb vorteilhaft sein, da es nicht erfordert, eine Trainingsdatenmenge mit einer beträchtlichen Anzahl von Bildstichproben zu speichern und zu verarbeiten, die sich nur auf einer feinkörnigen Ebene voneinander unterscheiden können. Zum Beispiel können Vögel unbekannter Klassen Kopf- und Körperattribute aufweisen, die denen ähnlich sind, die durch Mischen eines Kopfattributs von einer bekannten Klasse mit einem Körperattribut einer anderen bekannten Klasse erhalten werden. Außerdem kann es möglich sein, die anfängliche Datenmenge von Bildern, die gegeben ist, durch Erzeugen der Vielzahl neuer Bildstichproben zu ergänzen, was wiederum zu besserer Leistungsfähigkeit eines mit der erzeugten Trainingsdatenmenge trainierten Bildklassifizierernetzes führen kann. Wie bereits erwähnt, ist es nützlich, Bildstichproben nicht im Bildraum, sondern im Merkmalraum anzugehen. In bevorzugten Beispielen kann die Vielzahl neuer Bildstichproben deshalb im Merkmalraum erzeugt werden, um die unnötige Komplexität feinkörniger Bildkonstruktion zu vermeiden.The next step of the present techniques may include generating 140 a training data set comprising a plurality of new image samples based on the first plurality of image samples I _i . In some examples, the techniques of the present disclosure may take advantage of the fact that image samples from new (ie, unknown) classes may share much of their features with image samples from known classes. For example, unknown birds are still birds, can but have somewhat different attributes than birds from known classes. Generating unknown image samples from known ones can be advantageous because it does not require storing and processing a training data set with a significant number of image samples that can only differ from one another at a fine-grained level. For example, birds of unknown classes may have head and body attributes similar to those obtained by merging a head attribute from one known class with a body attribute from another known class. In addition, it may be possible to supplement the initial data set of images given by generating the plurality of new image samples, which in turn may lead to better performance of an image classifier network trained with the generated training data set. As mentioned earlier, it is useful to approach image sampling in feature space rather than in image space. In preferred examples, therefore, the plurality of new image samples can be generated in feature space to avoid the unnecessary complexity of fine-grain image construction.

Bei den vorliegenden Techniken kann der Schritt des Erzeugens 140 der Trainingsdatenmenge Extrahieren 120 der Menge von Regionenmerkmalen einer ersten Bildstichprobe und einer zweiten Bildstichprobe der ersten Vielzahl von Bildstichproben unter Verwendung des trainierten Teil-Segmentierungsnetzes 111 umfassen. In diesem Fall kann die erste Bildstichprobe mit ersten Klassenkennzeichnung (z. B. „Klasse 1“) gekennzeichnet werden, und die zweite Bildstichprobe kann mit einer zweiten Klassenkennzeichnung (zum Beispiel „Klasse 2“) gekennzeichnet werden, die von der ersten Klassenkennzeichnung verschieden ist. Wieder mit Bezug auf das Beispiel von Vogelspezies kann sich die erste Klassenkennzeichnung auf eine „Ente“ beziehen, während die zweite Klasse für eine „Gans“ stehen kann. Im nächsten Schritt kann der Erzeugungsschritt Ersetzen 130 mindestens eines Regionenmerkmals (z_k) aus der Menge von Regionenmerkmalen 112; Z der ersten Bildstichprobe mit dem entsprechenden Regionenmerkmal (z_k) aus der Menge von Regionenmerkmalen 112; Z der zweiten Bildstichprobe umfassen. Auf diese Weise kann eine neue Bildstichprobe für die Trainingsdatenmenge erzeugt werden. Angesichts der obigen Besprechungen kann es in einigen Beispielen vorzuziehen sein, nur Bildstichproben zu behandeln, die zu verschiedenen Klassen (z. B. zu „Klasse 1“ und „Klasse 2“, zu „Klasse 1“ und „Klasse 3“ oder zu einer beliebigen Kombination der Vielzahl bekannter Klassen (N)) gehören, weil nur die Bildstichproben, die sich dieselbe Klasse teilen, Regionenmerkmale besitzen könnten, die sich auf der marginalen Ebene voneinander unterscheiden. Folglich können neu erzeugte Bilder von denen in der anfänglichen Trainingsdatenmenge ununterscheidbar sein, wodurch ihre Verwendung redundant wird. In einem Beispiel kann eine Anzahl neuer Bildstichproben aus der Vielzahl neuer Bildstichproben, die auf diese Weise erzeugt werden, mit der Anzahl von Bildstichproben der ersten Vielzahl von Bildstichproben aus der anfänglichen Trainingsdatenmenge zusammenfallen. In anderen Beispielen kann die Anzahl neuer Bildstichproben kleiner als die Anzahl von Bildstichproben aus der anfänglichen Datenmenge sein (z. B. eine Hälfte, ein Viertel oder ein Achtel dieser Zahl). In noch anderen Beispielen kann die Anzahl neuer Bildstichproben größer als die Anzahl von Bildstichproben aus der anfänglichen Trainingsdatenmenge sein (z. B. anderthalbmal, zweimal oder dreimal so groß wie diese Zahl).In the present techniques, the step of generating 140 the training data set may include extracting 120 the set of region features of a first sample image and a second sample image of the first plurality of sample images using the trained sub-segmentation network 111 . In this case, the first image sample can be labeled with a first class identifier (e.g., "Class 1"), and the second image sample can be labeled with a second class identifier (e.g., "Class 2") that is different from the first class identifier . Referring again to the bird species example, the first class designation may refer to a "duck" while the second class may represent a "goose". In the next step, the generation step can replace 130 at least one region feature (z _k ) from the set of region features 112; Z of the first image sample with the corresponding region feature (z _k ) from the set of region features 112; Z of the second image sample. In this way, a new image sample can be generated for the training data set. Given the discussions above, it may be preferable in some examples to only deal with image samples that belong to different classes (e.g., to "Class 1" and "Class 2", to "Class 1" and "Class 3", or to one belong to any combination of the plurality of known classes (N)) because only the image samples sharing the same class could have region features that differ from each other at the marginal level. Consequently, newly generated images may be indistinguishable from those in the initial training data set, rendering their use redundant. In one example, a number of new image samples of the plurality of new image samples generated in this manner may coincide with the number of image samples of the first plurality of image samples from the initial training data set. In other examples, the number of new image samples may be less than the number of image samples from the initial data set (e.g., one half, one quarter, or one eighth that number). In still other examples, the number of new image samples may be greater than the number of image samples from the initial training data set (e.g., one and a half times, twice, or three times that number).

In einigen Beispielen für die vorliegenden Techniken kann Trainieren 110 des Teil-Segmentierungsnetzes ferner Klassifizieren 150 jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge durch ein (in der Ausführungsform 2 als „auf Aufmerksamkeit basierender Klassifizierer“ 151 bezeichnetes) zweites Bildklassifizierernetz in eine der Vielzahl bekannter Klassen (N) auf der Basis der Menge von Regionenmerkmalen der Bildstichprobe, die durch das Teil-Segmentierungsnetz 111 erzeugt wird, umfassen. In bevorzugten Beispielen kann Trainieren 110 des Teil-Segmentierungsnetzes darauf abzielen, eine Klassifikationsleistungsfähigkeit des zweiten Bildklassifizierernetzes zu verbessern.In some examples of the present techniques, training 110 the sub-segmentation network may further classify 150 each image sample from the first plurality of image samples of the initial training data set by a (in the embodiment 2 (referred to as "attention-based classifier" 151 ) into one of the plurality of known classes (N) based on the set of region features of the image sample generated by the sub-segmentation network 111 . In preferred examples, training 110 of the sub-segmentation network may aim to improve a classification performance of the second image classifier network.

Gemäß der vorliegenden Beschreibung kann das zweite Bildklassifizierernetz 151 auf der Basis der anfänglichen Trainingsdatenmenge trainiert werden 160. In einigen Beispielen kann das Training 160 des zweiten Bildklassifizierernetzes 151 darauf abzielen, das Teil-Segmentierungsnetz 111 zu trainieren 110. Zum Beispiel kann, nachdem es trainiert wurde, das zweite Bildklassifizierernetz 151 die höchste Vorhersagewahrscheinlichkeit für eine mit einer bekannten Klasse (z. B. „Klasse 1“) gekennzeichnete Bildstichprobe, dass dieses Bild zu der bekannten Klasse (z. B. „Klasse 1“) gehört, erzeugen. Anders ausgedrückt, kann eine Ausgangsvorhersagewahrscheinlichkeit für jede Klasse der Vielzahl bekannter Klassen (N), die durch das zweite Bildklassifizierernetz 151 erzeugt werden, optimiert werden. Auf diese Weise kann auch das Teil-Segmentierungsnetz 111 trainiert werden 110, weil die durch das Teil-Segmentierungsnetz erzeugte Menge von Regionenmerkmalen als Eingabe für das zweite Bildklassifizierernetz 151 verwendet werden kann. Folglich kann auch eine Aufteilungs- und/oder Erzeugungsleistungsfähigkeit des Teil-Segmentierungsnetzes 111 verbessert werden. Außerdem kann in einigen Beispielen Verwendung des trainierten zweiten Bildklassifizierernetzes Training 110 des Teil-Segmentierungsnetzes 111 (zum Beispiel aufgrund eines kombinierten Trainings sowohl des Teil-Segmentierungsnetzes 111 als auch des zweiten Bildklassifizierernetzes 151) erleichtern und beschleunigen. In einigen Beispielen kann das Teil-Segmentierungsnetz 111 direkt mit dem zweiten Bildklassifizierernetz 151 verbunden sein. In anderen Beispielen kann das Teil-Segmentierungsnetz 111 über dazwischentretende Elemente 114 mit dem zweiten Bildklassifizierernetz 151 verbunden sein, um die durch das Teil-Segmentierungsnetz 111 erzeugte Menge von Regionenmerkmalen 112; Z zu transformieren, wie in der Architektur von 2 dargestellt und nachfolgend ausführlicher offenbart wird. In einigen Beispielen kann das trainierte zweite Bildklassifizierernetz 151 der vorliegenden Techniken auf der Basis eines CNN (Faltungs-Neuronalnetzes) implementiert werden, dessen Parameter gemäß einer Strategie ausgewählt werden können, die für das Teil-Segmentierungsnetz auf CNN-Basis verwendeten ähnlich ist. In einigen Beispielen können, sobald das Teil-Segmentierungsnetz 111 und das zweite Bildklassifizierernetz 151 trainiert wurden, ihre Parameter zur weiteren Verwendung beider Netze gemäß der nachfolgenden Offenbarung eingefroren werden. In einigen Beispielen kann die Vielzahl neuer Bildstichproben unter Verwendung des trainierten zweiten Bildklassifizierernetzes 151 klassifiziert werden.According to the present description, the second image classifier network 151 can be trained 160 based on the initial training data set. In some examples, the training 160 of the second image classifier network 151 can aim to train 110 the sub-segmentation network 111. For example, after it has been trained , the second image classifier network 151 generate the highest prediction probability for an image sample labeled with a known class (e.g. "Class 1") that this image belongs to the known class (e.g. "Class 1"). In other words, an output prediction probability for each class of the plurality of known classes (N) generated by the second image classifier network 151 can be optimized. In this way, the sub-segmentation network 111 can also be trained 110 because the set of region features generated by the sub-segmentation network can be used as input for the second image classifier network 151 . Consequently, a splitting and/or generating performance of the sub-segmentation network 111 can also be improved. Also, in some examples, use of the trained second image classifier network can facilitate training 110 of the sub-segmentation network 111 (e.g., due to combined training of both the sub-segmentation network 111 and the second image classifier network 151). ter and accelerate. In some examples, the sub-segmentation network 111 may be directly connected to the second image classifier network 151 . In other examples, the sub-segmentation mesh 111 may be connected to the second image classifier mesh 151 via intervening elements 114 to classify the set of region features 112 generated by the sub-segmentation mesh 111; Z to transform as in the architecture of 2 illustrated and disclosed in more detail below. In some examples, the trained second image classifier network 151 of the present techniques may be implemented based on a CNN (convolutional neural network) whose parameters may be selected according to a strategy similar to that used for the CNN-based sub-segmentation network. In some examples, once the sub-segmentation network 111 and the second image classifier network 151 have been trained, their parameters can be frozen for further use of both networks according to the disclosure below. In some examples, the plurality of new image samples may be classified using the trained second image classifier network 151 .

In einem weiteren Schritt kann der Ersetzungsschritt 130 mindestens eines Regionenmerkmals (z_k) aus der Menge von Regionenmerkmalen 112; Z der ersten Bildstichprobe ferner Folgendes umfassen: iteratives Ersetzen 130 von Regionenmerkmalen (z_k) der Menge von Regionenmerkmalen 112; Z der ersten Bildstichprobe mit den entsprechenden Regionenmerkmalen (z_k) der Menge von Regionenmerkmalen (112; Z) der zweiten Bildstichprobe. In einigen Beispielen kann die zweite Bildstichprobe eine aus der ersten Vielzahl von Bildstichproben in diesem Kontext ausgewählte einzelne Bildstichprobe sein. In anderen Beispielen kann die zweite Bildstichprobe zwei oder mehr aus der ersten Vielzahl von Bildstichproben ausgewählten Bildstichproben entsprechen, wenn die Schritte des iterativen Ersetzens ausgeführt werden. Zum Beispiel kann im n-ten Iterationsschritt eine m-te Bildstichprobe aus der ersten Vielzahl von Bildstichproben ausgewählt werden, während im (n + 1)-ten Iterationsschritt eine (m + k)-te Bildstichprobe aus der ersten Vielzahl von Bildstichproben ausgewählt werden kann. (Hier sind m, n und k einige ganze Zahlen).In a further step, the replacement step 130 can include at least one region feature (z _k ) from the set of region features 112; Z of the first image sample further comprises: iteratively replacing 130 region features (z _k ) of the set of region features 112; Z of the first image sample with the corresponding region features (z _k ) of the set of region features (112; Z) of the second image sample. In some examples, the second image sample may be a single image sample selected from the first plurality of image samples in that context. In other examples, the second image sample may correspond to two or more image samples selected from the first plurality of image samples when the iterative replacement steps are performed. For example, at the nth iteration, an mth image sample may be selected from the first plurality of image samples, while at the (n+1)th iteration, an (m+k)th image sample may be selected from the first plurality of image samples . (Here m, n and k are some integers).

Im nächsten Schritt kann eine Klasse der ersten Bildstichprobe nach jeder Iteration unter Verwendung des zweiten Bildklassifizierernetzes 151 bestimmt werden. Bei den Techniken der vorliegenden Offenbarung kann iteratives Ersetzen wie oben definiert beendet werden, wenn die durch das Netz des zweiten Bildklassifizierers (151) vorhergesagte bestimmte Klasse von der Klasse der ersten Bildstichprobe der ersten Vielzahl von Bildstichproben verschieden ist (d.h. verschieden von der Klasse der ersten Bildstichprobe, die aus der anfänglichen Datenmenge vor iterativem Ersetzen genommen wird). In einem weiteren Schritt kann die vor dem Beendigungsschritt erzeugte erste Bildstichprobe als die neue Bildstichprobe verwendet werden. Die auf diese Weise erzeugte neue Bildstichprobe kann dann in die Vielzahl neuer Bildstichproben der Trainingsdatenmenge aufgenommen werden. Anders ausgedrückt, können bei den vorliegenden Techniken neue Bildstichproben erzeugt werden, die neuartige Rekombinationen lokaler Merkmale repräsentieren, die aus Bildstichproben der anfänglichen Trainingsdatenmenge extrahiert werden, dergestalt, dass diese neuen Merkmalkombinationen nicht in der Trainingsdatenmenge zu finden sind. Gleichzeitig kann der oben definierte Beendigungsschritt sicherstellen, dass sich die neu erzeugten Bildstichproben von denen der bekannten Klasse der ersten Bildstichprobe (d.h. einer aus der anfänglichen Trainingsdatenmenge vor dem Ersetzungsschritt ausgewählten Stichprobe) auf einer lokalen feinkörnigen Ebene unterscheiden können, während der Gesamtrealismus der erzeugten Bildstichproben bewahrt wird, indem sie in derselben Klasse gehalten werden. In einigen Beispielen kann diese Technik Realweltszenarien entsprechen, wobei visuelle Erscheinungen von Stichproben aus den unbekannten Klassen Mischungen lokaler Erscheinungen aus bekannten Klassen sein können. Gleichzeitig kann der gesamte offenbarte Erzeugungsprozess ausgeführt werden, ohne gewöhnlich für feinkörnige Szenarien verwendete komplexe nichtlineare generative Techniken zu erfordern.In the next step, a class of the first image sample can be determined after each iteration using the second image classifier network 151 . In the techniques of the present disclosure, iterative replacement as defined above may be terminated when the particular class predicted by the network of the second image classifier (151) is different from the class of the first image sample of the first plurality of image samples (i.e. different from the class of the first Image sample taken from the initial dataset before iterative replacement). In a further step, the first image sample generated before the ending step can be used as the new image sample. The new image sample generated in this way can then be included in the large number of new image samples of the training data set. In other words, with the present techniques, new image samples can be generated that represent novel recombinations of local features extracted from image samples of the initial training data set, such that these new feature combinations are not found in the training data set. At the same time, the termination step defined above can ensure that the newly generated image samples can differ from those of the known class of the first image sample (i.e. a sample selected from the initial training data set before the replacement step) at a local fine-grain level, while preserving the overall realism of the generated image samples by keeping them in the same class. In some examples, this technique may correspond to real-world scenarios where visual appearances of samples from the unknown classes may be mixtures of local appearances from known classes. At the same time, the entire disclosed generation process can be performed without requiring complex non-linear generative techniques commonly used for fine-grain scenarios.

In einem Beispiel kann der iterative Ersetzungsschritt der Regionenmerkmale (z_k) aus der Menge von Regionenmerkmalen 112; Z in einer sequentiellen Reihenfolge ausgeführt werden. In einigen Beispielen können Regionenmerkmale in der Menge von Regionenmerkmalen in einer bestimmten Reihenfolge (z. B. als eine Menge von Zeilen, Spalten, Vektoren usw.) angeordnet werden, dergestalt, dass eine Struktur der Mengen von Regionenmerkmalen für Bildstichproben für alle Bildstichproben dieselbe sein kann. Somit können zum Beispiel Zeilen aus der Menge von Regionenmerkmalen der ersten Bildstichprobe sukzessiv eine nach der anderen mit den entsprechenden Zeilen aus der Menge von Regionenmerkmalen der zweiten Bildstichprobe ersetzt werden, so wie in den Mengen von Regionenmerkmalen angeordnet sind. In anderen Beispielen kann der iterative Ersetzungsschritt der Regionenmerkmale (z_k) in einer zufälligen Reihenfolge ausgeführt werden. In diesem Fall können zum Beispiel die Regionenmerkmale aus der Menge von Regionenmerkmalen des ersten Bildes iterativ in einer zufälligen Reihenfolge ausgesucht und durch die entsprechenden Regionenmerkmale der Menge von Regionenmerkmalen des zweiten Bildes ersetzt werden. In einigen Beispielen kann das erste Bild zufällig aus der ersten Vielzahl von Bildstichproben entnommen werden. In anderen Beispielen kann das erste Bild sequentiell aus der ersten Vielzahl von Bildstichproben ausgewählt werden. In beiden Fällen können die vorliegenden Techniken das Sammeln der erzeugten neuen Bildstichproben erlauben.In an example, the iterative step of replacing the region features (z _k ) from the set of region features 112; Z are executed in a sequential order. In some examples, region features in the set of region features may be arranged in a particular order (e.g., as a set of rows, columns, vectors, etc.) such that a structure of the sets of region features for image samples may be the same for all image samples can. Thus, for example, rows from the set of region features of the first image sample can be successively replaced one by one with the corresponding rows from the set of region features of the second image sample as arranged in the sets of region features. In other examples, the iterative step of replacing the region features (z _k ) may be performed in a random order. In this case, for example, the region features can be selected iteratively in a random order from the set of region features of the first image and replaced by the corresponding region features of the set of region features of the second image. In some examples, the first image may be randomly selected from the first plurality of image samples. In other In other examples, the first image may be selected sequentially from the first plurality of image samples. In either case, the present techniques may allow the collection of the new image samples created.

Die Techniken der vorliegenden Offenbarung können ferner Folgendes umfassen: Erlernen eines Wörterbuchs von Objektteilen 113; D, auf dessen Basis zum Beispiel das Teil-Segmentierungsnetz 111 ein beliebiges gegebenes Bild im Merkmalraum (z. B. einer 2D-Merkmalabbildung) in eine Menge von Regionenmerkmalen (d.h. in „Objektteil“-Segmente, siehe die Kennzeichnungen 1 bis 5 in 3 als Beispiel) aufteilen (oder anders ausgedrückt gruppieren) kann. In einigen Beispielen kann das Verfahren des ersten Aspekts das Wörterbuch von Objektteilen 113; D während des Trainingsprozesses des Teil-Segmentierungsnetzes 111 auf der Basis der anfänglichen Trainingsdatenmenge erlernen. In alternativen Beispielen kann das Verfahren Bereitstellen eines vorbestimmten Wörterbuchs von Objektteilen 113; D umfassen (zum Beispiel kann das vorbestimmte Wörterbuch von Objektteilen vorläufig gespeicherte Daten sein, die zur weiteren Verwendung im Verfahren des ersten Aspekts gespeichert werden). In einem nächsten Schritt kann das erlernte oder vorbestimmte Wörterbuch von Objektteilen 113; D verwendet werden, um alle Regionenmerkmale (z_k) aus der Menge von Regionenmerkmalen der Bildstichprobe einem entsprechenden Objektteil zuzuweisen. In einigen Beispielen kann dieser Schritt auf der Basis des oben erwähnten Regionengruppierungsverfahrens realisiert werden (siehe arXiv:2005.10411 für weitere Einzelheiten).The techniques of the present disclosure may further include: learning a dictionary of object parts 113; D, on the basis of which, for example, the sub-segmentation mesh 111 converts any given image in feature space (e.g. a 2D feature map) into a set of region features (i.e. into "object part" segments, see labels 1 to 5 in 3 as an example) can divide (or in other words group). In some examples, the method of the first aspect may use the dictionary of object parts 113; Learn D during the training process of the sub-segmentation network 111 based on the initial training data set. In alternative examples, the method may include providing a predetermined dictionary of object parts 113; D (e.g. the predetermined dictionary of object parts may be pre-stored data stored for further use in the method of the first aspect). In a next step, the learned or predetermined dictionary of object parts 113; D can be used to allocate all region features (z _k ) from the set of region features of the image sample to a corresponding object part. In some examples, this step can be implemented based on the region grouping method mentioned above (see arXiv:2005.10411 for more details).

In einigen Beispielen kann das erlernte oder vorbestimmte Wörterbuch von Objektteilen eine Menge von Wörterbuchvektoren (d_k) umfassen. In diesen Beispielen kann eine Anzahl der Wörterbuchvektoren in der Menge von Wörterbuchvektoren einer Anzahl von Objektteilen (K) entsprechen. In einigen Beispielen kann das erlernte Wörterbuch mathematisch als D = [d₁, d₂, ...,d_k] repräsentiert werden. In diesem Beispiel kann jeder Wörterbuchvektor ein D-dimensionaler Vektor d_k ∈ R^D sein, und das erlernte oder vorbestimmte Wörterbuch kann im Raum D ∈ ℝ^D×K definiert werden. In einigen Beispielen kann die Menge von Regionenmerkmalen der Bildstichprobe aus der ersten Vielzahl von Bildstichproben oder aus der Vielzahl neuer Bildstichproben durch eine Menge von Merkmalvektoren repräsentiert werden. In diesem Fall kann jedes Regionenmerkmal aus der Menge von Regionenmerkmalen dem jeweiligen Merkmalvektor entsprechen, und eine Anzahl der Merkmalvektoren in der Menge von Merkmalvektoren kann mit den Wörterbuchvektoren (d.h. mit der Anzahl von Objektteilen (K)) zusammenfallen. Ähnlich wie die Menge von Wörterbuchvektoren kann die Menge von Regionenmerkmalen in einigen Beispielen als Z = [z₁, z₂, ..., z_k] geschrieben werden. In diesem Fall kann jeder Merkmalvektor ein D -dimensionaler Vektor z_k ∈ R^D sein, und die Menge von Merkmalvektoren kann im Raum Z ∈ ℝ^D×K definiert werden.In some examples, the learned or predetermined dictionary of object parts may include a set of dictionary vectors (d _k ). In these examples, a number of the dictionary vectors in the set of dictionary vectors may correspond to a number of object parts (K). In some examples, the learned dictionary can be represented mathematically as D=[d ₁ , d ₂ ,...,d _k ]. In this example, each dictionary vector can be a D-dimensional vector d _k ∈ RD, and the learned or predetermined dictionary can be defined in the space D ∈ ℝ ^D ^×K . In some examples, the set of region features of the image sample from the first plurality of image samples or from the plurality of new image samples may be represented by a set of feature vectors. In this case, each region feature from the set of region features can correspond to the respective feature vector, and a number of the feature vectors in the set of feature vectors can coincide with the dictionary vectors (ie with the number of object parts (K)). Similar to the set of dictionary vectors, the set of region features can be written as Z=[z ₁ ,z ₂ ,...,z _k ] in some examples. In this case, each feature vector can be a D -dimensional vector z _k ∈ R ^D and the set of feature vectors can be defined in the space Z ∈ ℝ ^D×K .

In einigen Beispielen kann Aufteilen jeder Bildstichprobe ferner Berechnen einer Distanz von jedem Pixel des Regionenmerkmals der Bildstichprobe zu jedem Objektteil des erlernten oder vorbestimmten Wörterbuchs von Objektteilen umfassen. In einigen Beispielen kann der Berechnungsschritt Berechnen einer Distanz von jedem Pixel des Regionenmerkmals der Bildstichprobe (z. B. definiert im Merkmalraum) zu jedem Wörterbuchvektor (d_k) involvieren. Bei der vorliegenden Technik kann Aufteilen jeder Bildstichprobe ferner Berechnen einer Wahrscheinlichkeit umfassen, dass das Pixel des Regionenmerkmals der Bildstichprobe einem Objektteil (k) aus dem erlernten oder vorbestimmten Wörterbuch von Objekteilen zugewiesen werden kann. In einigen Beispielen kann diese Wahrscheinlichkeit auf der Distanz von Pixeln des Regionenmerkmals der Bildstichprobe zu jedem Objektteil des erlernten oder vorbestimmten Wörterbuchs von Objektteilen (zum Beispiel zu jedem Wörterbuchvektor (d_k)) basieren. In einigen Beispielen kann das Berechnen der Wahrscheinlichkeit ferner Berechnen einer Wahrscheinlichkeitszuweisungsmatrix $(q_{i j}^{k})$

umfassen. In einem Beispiel kann jedes Element der Wahrscheinlichkeitszuweisungsmatrix eine Wahrscheinlichkeit zuweisen, dass das Pixel des Regionenmerkmals der Bildstichprobe an einem gegebenen Ort auf einer Bildmerkmalabbildung (zum Beispiel an einem Ort x_ij) der Bildstichprobe zu dem Objektteil k gehört, der durch den jeweiligen Wörterbuchvektor (d_k) repräsentiert wird. In einem spezifischen Beispiel kann die Zuweisungsmatrix folgendermaßen lauten:

q_{i j}^{k} = \frac{exp (- ‖ (x_{i j} - d_{k}) / σ_{k} ‖ / 2)}{\sum_{l = 1}^{K} exp (- ‖ (x_{i j} - d_{k}) / σ_{k} ‖ / 2)},

wobei σ_l für einen Glättungsfaktor steht.In some examples, dividing each image sample may further include calculating a distance from each pixel of the region feature of the image sample to each object part of the learned or predetermined dictionary of object parts. In some examples, the calculating step may involve calculating a distance from each pixel of the image sample's region feature (e.g., defined in feature space) to each dictionary vector (d _k ). In the present technique, dividing each image sample may further include calculating a probability that the pixel of the region feature of the image sample can be assigned to an object part (k) from the learned or predetermined dictionary of object parts. In some examples, this probability may be based on the distance of pixels of the region feature of the image sample to each object part of the learned or predetermined dictionary of object parts (e.g. to each dictionary vector (d _k )). In some examples, calculating the probability can further calculate a probability assignment matrix

(q_{i j}^{k})

include. In one example, each element of the probability assignment matrix may assign a probability that the pixel of the image sample's region feature at a given location on an image feature map (e.g., at a location x _ij ) of the image sample belongs to the object part k defined by the respective dictionary vector (i.e _k ) is represented. In a specific example, the assignment matrix can be:

q_{i j}^{k} = \frac{ex (- ‖ (x_{i j} - {i.e}_{k}) / σ_{k} ‖ / 2)}{\sum_{l = 1}^{K} ex (- ‖ (x_{i j} - {i.e}_{k}) / σ_{k} ‖ / 2)},

where σ _l stands for a smoothing factor.

In einigen Beispielen für die vorliegenden Techniken kann Berechnen der Menge von Merkmalvektoren 112; Z Pooling von Regionenmerkmalen aus einer Bildmerkmalabbildung (X) der Bildstichprobe umfassen - der Schritt, der die Dimensionalität von Merkmalabbildungen reduziert, aber die wichtigsten darin enthaltenen Informationen bewahrt. In einigen Beispielen kann jeder berechnete Vektor (z_k) nach dem Pooling von Regionenmerkmalen durch eine nichtlineare Funktion repräsentiert werden, die von der Wahrscheinlichkeitszuweisungsmatrix $(q_{i j}^{k}),$

von einer Differenz zwischen dem gegebenen Ort (z. B. zwischen dem Ort x_ij) des Pixels des Regionenmerkmals und dem jeweiligen Wörterbuchvektor (d_k) abhängen kann. In einigen Beispielen kann Berechnen der Menge von Merkmalvektoren 112; Z ein in der Technik bekanntes nichtlineares Merkmalcodierungsschema involvieren. Somit kann jeder berechnete Vektor aus der Menge von Merkmalvektoren (z. B. der Vektor z_k) als das Regionenmerkmal aus Pixeln interpretiert werden, die dem entsprechenden Wörterbuchvektor (z. B. dem Wörterbuchvektor d_k) zugewiesen sind. In einem spezifischen Beispiel kann der (normierte) Merkmalvektor z_k durch den folgenden Ausdruck gegeben werden:

z_{k} = {\tilde{z}}_{k} / ‖ {\tilde{z}}_{k} ‖, mit {\tilde{z}}_{k} = \frac{1}{\sum_{i j} q_{i j}^{k}} \sum_{i j} q_{i j}^{k} (x_{i j} - d_{k}) / σ_{k} .

In some examples of the present techniques, computing the set of feature vectors 112; Z Pooling of region features from an image feature map (X) of the image sample sen - the step that reduces the dimensionality of feature maps but preserves the key information contained within. In some examples, each computed vector (z _k ) after pooling region features can be represented by a non-linear function derived from the probability assignment matrix

(q_{i j}^{k}),

may depend on a difference between the given location (e.g. between the location x _ij ) of the pixel of the region feature and the respective dictionary vector (d _k ). In some examples, computing the set of feature vectors 112; Z involve a non-linear feature coding scheme known in the art. Thus, each computed vector from the set of feature vectors (e.g., vector z _k ) can be interpreted as the region feature of pixels associated with the corresponding dictionary vector (e.g., dictionary vector d _k ). In a specific example, the (normalized) feature vector z _k can be given by the following expression:

{e.g}_{k} = {\tilde{e.g}}_{k} / ‖ {\tilde{e.g}}_{k} ‖, With {\tilde{e.g}}_{k} = \frac{1}{\sum_{i j} q_{i j}^{k}} \sum_{i j} q_{i j}^{k} (x_{i j} - {i.e}_{k}) / σ_{k} .

Gemäß der vorliegenden Beschreibung kann Trainieren 110 des Teil-Segmentierungsnetzes 111 ferner Verwendung einer Vordergrund-Segmentierungsmaske (siehe M_i in 2) umfassen, um alle Hintergrundpixel der Bildstichprobe einem einzigen Objektteil (k) aus der Anzahl von Objektteilen (K) zuzuweisen. Der Hintergrundpixeln zugeschriebene Objektteil kann aus dem Intervall k ∈ [1,...,K] ausgewählt werden. Auf diese Weise können Hintergrundpixel, deren Differenzen möglicherweise im Kontext der Trainingsdatenmenge mit aufgezeichnete Objekte repräsentierenden Bildstichproben nicht nützlich sind, gruppiert und als ein einziger Teil behandelt werden. Dies kann zu einer Verringerung der Dimension zum Beispiel der Wahrscheinlichkeitszuweisungsmatrix führen, Berechnungen beschleunigen und potentiell die Komplexität des Teil-Segmentierungs- und zweiten Klassifizierernetzes (z. B. in der Architektur von 2 verwendet) verringern. In einigen Beispielen kann das Verfahren des ersten Aspekts ferner Berechnen einer modifizierten Wahrscheinlichkeitszuweisungsmatrix $(\tilde{q_{i j}^{k}})$

umfassen, die aus der Wahrscheinlichkeitszuweisungsmatrix

(q_{i j}^{k})

erhalten wird, indem alle Elemente der Wahrscheinlichkeitszuweisungsmatrix

(q_{i j}^{k}),

die Beiträge von den Hintergrundpixeln beschreiben, einem konstanten Wert zugewiesen werden. In einem spezifischen Beispiel kann die modifizierte Wahrscheinlichkeitszuweisungsmatrix folgendermaßen beschrieben werden:

\tilde{q_{i j}^{k}} = {\begin{cases} \frac{exp (- ‖ (x_{i j} - d_{k}) / σ_{k} ‖ / 2)}{\sum_{l = 1}^{K - 1} exp (- ‖ (x_{i j} - d_{l}) / σ_{l} ‖ / 2)} im FALL M_{i j} \equiv 1, \\ 1 i f k \equiv K andernfalls 0 im FALL M_{i j} \equiv 0. \end{cases}

According to the present description, training 110 of the partial segmentation network 111 can further use a foreground segmentation mask (see M _i in 2 ) to assign all background pixels of the image sample to a single object part (k) from the number of object parts (K). The object part attributed to background pixels can be chosen from the interval k ∈ [1,...,K]. In this way, background pixels whose differences may not be useful in the context of the training data set with image samples representing recorded objects can be grouped and treated as a single part. This can lead to a reduction in the dimension of, for example, the probability assignment matrix, speed up calculations and potentially reduce the complexity of the sub-segmentation and second classifier network (e.g. in the architecture of 2 used) decrease. In some examples, the method of the first aspect can further calculate a modified probability assignment matrix

(\tilde{q_{i j}^{k}})

include those from the probability assignment matrix

(q_{i j}^{k})

is obtained by dividing all elements of the probability assignment matrix

(q_{i j}^{k}),

describing contributions from the background pixels are assigned a constant value. In a specific example, the modified probability assignment matrix can be described as follows:

\tilde{q_{i j}^{k}} = {\begin{cases} \frac{ex (- ‖ (x_{i j} - {i.e}_{k}) / σ_{k} ‖ / 2)}{\sum_{l = 1}^{K - 1} ex (- ‖ (x_{i j} - {i.e}_{l}) / σ_{l} ‖ / 2)} in the case M_{i j} \equiv 1, \\ 1 i f k \equiv K otherwise 0 in CASE M_{i j} \equiv 0 \end{cases}

Die vorliegenden Techniken können ferner Verarbeiten der Menge von Regionenmerkmalen 112; Z der Bildstichprobe (z. B. eines beliebigen Bildes aus der ersten Vielzahl von Bildstichproben oder aus der Vielzahl neuer Bildstichproben) durch ein Faltungsnetz 114 umfassen, um eine sekundäre Menge von Regionenmerkmalen 115; $\bar{Z}$

der Bildstichprobe (I_i) zu erhalten. In einigen Beispielen kann die sekundäre Menge von Regionenmerkmalen, die durch Verarbeiten der Menge von Regionenmerkmalen 112; Z der Bildstichprobe mit dem Faltungsnetz 114 erhalten wird, semantische Merkmale auf höherer Ebene repräsentieren, die die Unterscheidungsfähigkeit der folgenden Bildklassifizierernetze (zum Beispiel des zweiten Bildklassifizierernetzes 151) verbessern können. In einigen Beispielen kann das Faltungsnetz 114 ein 1×1-Faltungsnetz sein. In einem Beispiel kann die sekundäre Menge von Regionenmerkmalen 115;

\bar{Z}

der Bildstichprobe eine Menge von sekundären Merkmalvektoren

({\bar{z}}_{k})

umfassen. Die Menge von sekundären Merkmalvektoren (z_k) kann somit durch Verarbeiten der Menge von Merkmalvektoren (z_k) mit dem 1×1-Faltungsnetz (114) erhalten werden. Bei der in 2 dargestellten Ausführungsform können die sekundären Mengen von Regionenmerkmalen 115;

\bar{Z}

von Bildstichproben als Eingabe für das zweite Bildklassifizierernetz (siehe „auf Aufmerksamkeit basierender Klassifizierer“ 151 in 2) verwendet werden, das Ausgangsvorhersagewahrscheinlichkeiten für die bekannten Klassen (N) von Bildstichproben aus der anfänglichen Trainingsdatenmenge erzeugt.The present techniques can further process the set of region features 112; Z of the image sample (e.g., any image from the first plurality of image samples or from the plurality of new image samples) by a convolution mesh 114 to form a secondary set of region features 115;

\bar{Z}

of the image sample (I _i ). In some examples, the secondary set of region features obtained by processing the set of region features 112; Z of the image sample obtained with the convolution network 114 represent higher level semantic features that can improve the discrimination ability of the following image classifier networks (e.g. the second image classifier network 151). In some examples, the convolution mesh 114 may be a 1×1 convolution mesh. In one example, the secondary set of region features 115;

\bar{Z}

the image sample a set of secondary feature vectors

({\bar{e.g}}_{k})

include. The set of secondary feature vectors (z _k ) can thus be obtained by processing the set of feature vectors (z _k ) with the 1×1 convolutional network (114). At the in 2 illustrated embodiment, the secondary sets of region features 115;

\bar{Z}

of image samples as input to the second image classifier network (see "Attention-based classifier" 151 in 2 ) can be used, which produces output prediction probabilities for the known classes (N) of image samples from the initial training data set.

Gemäß der vorliegenden Beschreibung kann Klassifizieren jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben durch den zweiten Bildklassifizier auf der sekundären Menge von Regionenmerkmalen 115; $\bar{Z}$

der Bildstichprobe und auf einem Aufmerksamkeits-Gewichtsparameter (α) basieren. In einigen Beispielen kann der Aufmerksamkeits-Gewichtsparameter einen Beitrag verschiedener Regionenmerkmale der Menge von Regionenmerkmalen der Bildstichprobe zu einem End-Vorhersageergebnis des zweiten Bildklassifizierers 151 steuern. Bei einigen Ausführungsformen kann der Aufmerksamkeits-Gewichtsparameter durch einen Aufmerksamkeits-Gewichtsvektor (α) beschrieben werden. In diesem Fall kann der Klassifizierungsschritt auf dem Aufmerksamkeits-Gewichtsvektor (α), auf der Menge von sekundären Merkmalvektoren (z_k) und Gewichten eines zusätzlichen linearen Klassifizierers W, der eine Anzahl von Ausgängen (N) gleich der gegebenen Anzahl bekannter Klassen (N) aufweisen kann, basieren. In bevorzugten Beispielen kann der Aufmerksamkeits-Gewichtsparameter (a) auf der Basis der sekundären Menge von Regionenmerkmalen

({\bar{z}}_{k})

statt der Menge von Merkmalvektoren (z_k) berechnet werden. Im ersteren Fall können, wenn der Aufmerksamkeits-Gewichtsparameter (α) auf der Basis der sekundären Menge von Regionenmerkmalen

({\bar{z}}_{k})

berechnet wird, die erzeugten Bildstichproben direkt in das zweite Bildklassifizierernetz 151 (siehe 2) geleitetet werden. In einigen Beispielen kann der auf Aufmerksamkeits-Gewichtsvektor (α) einen Beitrag jedes Pixels des Regionenmerkmals auf einer Bildmerkmalabbildung (X) zu dem End-Vorhersageergebnis des zweiten Bildklassifizierers 151 steuern.According to the present description, classifying each image sample from the first plurality of image samples by the second image classifier on the secondary set of region features 115;

\bar{Z}

of the image sample and on an attention weight parameter (α). In some examples, the attention weight parameter may control a contribution of different region features of the set of region features of the image sample to a final prediction result of the second image classifier 151 . In some embodiments, the attention weight parameter can be described by an attention weight vector (α). In this case the classification step can be based on the attention weight vector (α), on the set of secondary feature vectors (z _k ) and weights of an additional linear classifier W having a number of outputs (N) equal to the given number of known classes (N) may have based. In preferred examples, the attentional weight parameter (a) may be based on the secondary set of region features

({\bar{e.g}}_{k})

instead of calculating the set of feature vectors (z _k ). In the former case, if the attentional weight parameter (α) based on the secondary set of region features

({\bar{e.g}}_{k})

is calculated, the generated image samples directly into the second image classifier network 151 (see 2 ) to be conducted. In some examples, the attentional weight vector (α) may control a contribution of each pixel of the region feature on an image feature map (X) to the final prediction result of the second image classifier 151 .

In den bevorzugten Beispielen kann jede neue Bildstichprobe aus der Vielzahl von neuen Bildstichproben für die Trainingsdatenmenge durch die sekundäre Menge von Regionenmerkmalen 116; $\bar{Z}'$

repräsentiert werden. In einigen Beispielen kann die sekundäre Menge von Regionenmerkmalen 116;

\bar{Z}'

der neuen Bildstichprobe durch die Menge von sekundären Merkmalvektoren

({\bar{z}}_{k}^{'})

repräsentiert werden. In diesem Sinne können neue Bildstichproben und Bildstichproben aus der anfänglichen Datenmenge durch Mengen und Vektoren mit ähnlicher Struktur repräsentiert und auf ähnliche Weise (z. B. in dem Beispiel von 2 durch das Faltungsnetz 114) verarbeitet werden.In the preferred examples, each new image sample from the plurality of new image samples for the training data set can be characterized by the secondary set of region features 116;

\bar{Z}'

be represented. In some examples, the secondary set of region features 116;

\bar{Z}'

of the new image sample by the set of secondary feature vectors

({\bar{e.g}}_{k}^{'})

be represented. In this sense, new image samples and image samples from the initial data set can be represented by sets and vectors with similar structure and in a similar way (e.g. in the example of 2 processed by the convolution network 114).

Die Techniken der vorliegenden Offenbarung können auch Empfangen 170 einer Validierungsdatenmenge umfassen, die eine Vielzahl von Bildstichproben zur Validierung umfasst. In einigen Beispielen kann das zweite Bildklassifizierernetz 151 auf der Basis der empfangenen Validierungsdatenmenge trainiert werden 160. In einem weiteren Schritt können die vorliegenden Techniken Zurückweisen von null, einer oder mehreren neu erzeugten Stichproben umfassen, die potentiell die Vorhersagegenauigkeit bekannter Klassen verschlechtern können. In bevorzugten Beispielen kann diese Zurückweisungsprozedur auf Basis von Bildstichproben aus der Validierungs- und anfänglichen Datenmenge ausgeführt werden. In einigen Beispielen kann Zurückweisen Auswählen von Bildstichproben 180 aus der Vielzahl von Bildstichproben zur Validierung, die mit der Klassenkennzeichnung aus der gegebenen Anzahl bekannter Klassen (N) gekennzeichnet sind, für Validierung umfassen. Dann können die folgenden Schritte für jede ausgewählte Bildstichprobe aus der Vielzahl von Bildstichproben zur Validierung ausgeführt werden. In einigen Beispielen kann durch Vergleichen jeder Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben mit der ausgewählten Bildstichprobe eine erste nächstliegende Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben zu der ausgewählten Bildstichprobe bestimmt werden 190. In einem nächsten Schritt kann eine zweite nächstliegende Bildstichprobe aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge zu der ausgewählten Bildstichprobe durch Vergleichen jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben mit der ausgewählten Bildstichprobe bestimmt werden 200. In einem weiteren Schritt kann die neue Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben, die der ersten nächstliegenden Bildstichprobe entspricht, zurückgewiesen werden 210, wenn die erste nächstliegende Bildstichprobe der ausgewählten Bildstichprobe näher als die zweite nächstliegende Bildstichprobe ist. Die oben als Beispiel offenbarte Zurückweisungstechnik kann somit einen erzeugten Bildstichprobenkandidaten als neue Bildstichprobe unter der Idee akzeptieren, dass eine gute neue Stichprobe Validierungsbildstichproben nicht näher kommen sollte als ihre verglichenen nächstliegenden Trainingsbildstichproben. Mit diesem Prinzip kann die erzeugte Bildstichprobe zurückgewiesen werden, wenn sie einer Validierungsbildstichprobe mehr als ihren verglichenen Trainingsbildstichproben näher kommt. In einigen Beispielen kann für rechnerische Effizienz diese Nähebedingung nicht für alle Validierungsbildstichproben geprüft werden, sondern nur für nächstliegende Validierungsbildstichproben mit Bezug auf die erzeugten Bildstichproben (z. B. kann die Anzahl nächstliegender Validierungsbildstichproben zwischen 5 und 100 oder 50 und 1000 oder 5000 und 10000 gewählt werden). In bevorzugten Beispielen kann die vorliegende Technik Regenerieren 220 einer neuen Ergänzungsbildstichprobe gemäß den zuvor offenbarten Schritten des Extrahierens und Ersetzens umfassen, wenn die neue Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben zurückgewiesen wird.The techniques of the present disclosure may also include receiving 170 a validation data set that includes a plurality of image samples for validation. In some examples, the second image classifier network 151 can be trained 160 based on the received validation data set. In a further step, the present techniques can include rejecting zero, one or more newly generated samples that can potentially degrade the prediction accuracy of known classes. In preferred examples, this rejection procedure can be performed based on image samples from the validation and initial data set. In some examples, rejecting may include selecting image samples 180 from the plurality of image samples for validation that are labeled with the class identifier from the given number of known classes (N) for validation. Then the following steps can be performed for each selected image sample from the plurality of image samples for validation. In some examples, by comparing each image sample from the generated plurality of new image samples to the selected image sample, a first closest image sample from the generated plurality of new image samples to the selected image sample can be determined 190. In a next step, a second closest image sample from the first plurality of Image samples of the initial training data set to the selected image sample are determined by comparing each image sample from the first plurality of image samples with the selected image sample 200. In a further step, the new image sample from the generated plurality of new image samples corresponding to the first closest image sample can be rejected 210 if the first closest image sample is closer to the selected image sample than the second closest image sample. The rejection technique disclosed above as an example can thus accept a generated candidate image sample as a new image sample under the idea that a good new sample should not come closer to validation image samples than its compared closest training image samples. Using this principle, the generated image sample can be rejected if it more closely approximates a validation image sample than its compared training image samples. In some examples, for computational efficiency, this proximity condition may not be checked for all validation image samples, but only for closest validation image samples with respect to the generated image samples (e.g., the number of closest validation image samples can be chosen between 5 and 100, or 50 and 1000, or 5000 and 10000 will). In preferred examples, the present technique may include regenerating 220 a new supplemental image sample according to the previously disclosed extracting and replacing steps if the new image sample is rejected from the generated plurality of new image samples.

In einigen Beispielen kann Bestimmen der ersten nächstliegenden Bildstichprobe implementiert werden durch Berechnen einer ersten nächsten charakteristischen Distanz zwischen der sekundären Menge von neuen Merkmalvektoren $({\bar{z}}_{k}^{'})$

jeder neuen Bildstichprobe aus der erzeugten Vielzahl neuer Bildstichproben und der entsprechenden Menge von Merkmalvektoren der ausgewählten Bildstichprobe. In diesen Beispielen kann Bestimmen der zweiten nächstliegenden Bildstichprobe ähnlich Berechnen einer zweiten nächsten charakteristischen Distanz zwischen der zweiten Menge von Merkmalvektoren

({\bar{z}}_{k}^{'})

jeder Bildstichprobe aus der ersten Vielzahl von Bildstichproben und einer entsprechenden Menge von Merkmalvektoren der ausgewählten Bildstichprobe involvieren.In some examples, determining the first closest image sample may be implemented by computing a first closest characteristic distance between the secondary set of new feature vectors

({\bar{e.g}}_{k}^{'})

each new image sample from the generated plurality of new image samples and the corresponding set of feature vectors of the selected image sample. In these examples, determining the second closest image sample may be similar to computing a second closest characteristic distance between the second set of feature vectors

({\bar{e.g}}_{k}^{'})

every image stitch sample from the first plurality of image samples and a corresponding set of feature vectors of the selected image sample.

Ferner wird ein Verfahren zum Trainieren eines Bildklassifizierernetzes offenbart und vorgeschlagen. Die vorliegenden Techniken können Erzeugen 140 einer Trainingsdatenmenge für das Bildklassifizierernetz gemäß dem ersten Aspekt der vorliegenden Beschreibung umfassen. Dann kann in einigen Beispielen ein Bildklassifizierernetz 301 auf der Basis der erzeugten Trainingsdatenmenge trainiert werden 300. In einigen Beispielen kann Training 300 des Bildklassifizierernetzes somit nicht nur gemeinsame anfängliche Datenmenge sondern auch die erzeugte Trainingsdatenmenge umfassen, um dadurch eine Gesamtdatenmenge, die zum Training des Bildklassifizierernetzes verwendet wird, zu ergänzen. In einigen Beispielen umfasst Training des Bildklassifizierernetzes Behandeln der erzeugten Vielzahl neuer Bildstichproben als eine Vielzahl unbekannter Bildstichproben. Außerdem kann jede Bildstichprobe aus der Vielzahl unbekannter Bildstichproben durch das Bildklassifizierernetz 301 klassifiziert werden 310.A method for training an image classifier network is also disclosed and proposed. The present techniques may include generating 140 a training data set for the image classifier network according to the first aspect of the present description. Then, in some examples, an image classifier network 301 can be trained 300 on the basis of the generated training dataset. In some examples, training 300 of the image classifier network can thus include not only the common initial dataset but also the generated training dataset, thereby providing a total dataset used to train the image classifier network will, to supplement. In some examples, training the image classifier network includes treating the generated plurality of new image samples as a plurality of unknown image samples. In addition, each image sample of the plurality of unknown image samples can be classified 310 by the image classifier network 301.

In den vorliegenden Techniken kann Klassifizieren durch das Bildklassifizierernetz 301 Klassifizieren einer gegebenen Bildstichprobe als aus der Vielzahl bekannter Klassen (N) stammend oder zu einer unbekannten Klasse gehörend umfassen. In bevorzugten Beispielen kann deshalb das zweite Bildklassifizierernetz 151 eine Anzahl von Ausgängen (N) gleich der gegebenen Anzahl von bekannten Klassen (N) aufweisen, während das Bildklassifizierernetz 301 eine Anzahl von Ausgängen (N + 1) aufweisen kann, die die gegebene Anzahl bekannter Klassen um mindestens eine übersteigt, die eine Vorhersage unbekannter Klassen repräsentiert.In the present techniques, classification by the image classifier network 301 may include classifying a given image sample as being from the plurality of known classes (N) or as belonging to an unknown class. In preferred examples, therefore, the second image classifier network 151 may have a number of outputs (N) equal to the given number of known classes (N), while the image classifier network 301 may have a number of outputs (N+1) equal to the given number of known classes by at least one, representing a prediction of unknown classes.

In einigen Beispielen kann Training 300 des Bildklassifizierernetzes Training des Bildklassifizierernetzes durch Verwenden 320 der Menge von Regionenmerkmalen 112; Z für eines oder mehrere Bilder aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge umfassen. In bevorzugten Beispielen kann Training 300 des Bildklassifizierernetzes Training des Bildklassifizierernetzes durch Verwenden 320 der sekundären Menge von Regionenmerkmalen 115; Z für ein oder mehrere Bilder aus der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge umfassen. In einigen Beispielen kann Training 300 des Bildklassifizierernetzes auch Training des Bildklassifizierernetzes durch Verwendung der empfangenen Validierungsdatenmenge umfassen.In some examples, training 300 the image classifier network may train the image classifier network by using 320 the set of region features 112; Z for one or more images from the first plurality of image samples of the initial training data set. In preferred examples, training 300 of the image classifier network can train the image classifier network by using 320 the secondary set of region features 115; Z for one or more images from the first plurality of image samples of the initial training data set. In some examples, training 300 of the image classifier network may also include training the image classifier network using the received validation data set.

In einem nächsten Schritt kann der Trainingsschritt des Bildklassifizierernetzes Berechnen einer ersten Verlustfunktion (L_bekannt) auf der Basis bekannter Bildstichproben unter Verwendung der ersten Vielzahl von Bildstichproben der anfänglichen Trainingsdatenmenge umfassen. Dann kann eine zweite Verlustfunktion (

_erzeugt) auf der Basis der Vielzahl unbekannter Bildstichproben unter Verwendung der erzeugten Vielzahl neuer Bildstichproben berechnet werden. In einem weiteren Schritt kann durch Summieren der ersten Verlustfunktion und einer gewichteten zweiten Verlustfunktion eine Zielfunktion (

) berechnet werden. In einigen Beispielen kann die gewichtete zweite Verlustfunktion ein Produkt der zweiten Verlustfunktion und eines Gewichtungsfaktors (α) sein, so dass die Zielfunktion folgendermaßen lautet:

=

_bekannt + α ·

_erzeugt. In einem letzten Schritt kann die Zielfunktion minimiert werden, um das Bildklassifizierernetz zu trainieren.In a next step, the step of training the image classifier network may comprise computing a first loss function (L _known ) based on known image samples using the first plurality of image samples of the initial training data set. Then a second loss function (

_generated ) based on the plurality of unknown image samples using the generated plurality of new image samples. In a further step, a target function (

) be calculated. In some examples, the weighted second loss function may be a product of the second loss function and a weighting factor (α), such that the objective function is:

=

_known + α

_generated . In a final step, the objective function can be minimized to train the image classifier network.

Zur Veranschaulichung ist in 5 der Effekt des Gewichtungsfaktors auf die Leistungsfähigkeit des Bildklassifizierernetzes gezeigt, das mit der Trainingsdatenmenge trainiert wird, die die Vielzahl neuer Bildstichproben umfasst, die gemäß dem ersten Aspekt erzeugt wird. In dieser Figur werden die Ergebnisse von Berechnungen für eine F-Maßmetrik als Funktion des Gewichtungsfaktors α für zwei Fälle des Erzeugens neuer Bildstichproben gemäß dem ersten Aspekt dargestellt, nämlich (a) ohne Zurückweisung neu erzeugter Bildstichproben (Minimal-Teil-Editiergenerator oder MPGen); (b) mit Zurückweisung auf der Basis der in der Validierungsdatenmenge enthaltenen Informationen, wie oben erläutert (MPGen mit Zurückweisung oder MPGen-R). Das F-Maß ist auf der Basis definiert, dass unbekannte Klassen während Evaluierung nicht als eine einzige Klasse behandelt werden sollten und größere Werte des F-Maßes einer besseren Leistungsfähigkeit entsprechen. Der Wert α = 0 bedeutet, dass das Netz mit nur der bekannten Entropiefunktion (

_bekannt) trainiert wird. Je höher der Wert von α ist, desto mehr Effekt aus

_erzeugt wird berücksichtigt. Die Werte von α werden 0 bis 0,4 mit der Schrittgröße 0,1 durchlaufen gelassen. Die Experimente basieren auf der CUB-Datenmenge (verfügbar bei http://www.vision.caltech.edu/visipedia/CUB-200.html). Die gesamte Datenmenge von Bildstichproben wird in drei Aufteilungen aufgeteilt: Trainings-, Validierungs- und Testdatenmenge. 150 bekannte Klassen werden als bekannte Klassen zugewiesen. Die übrigen 50 Klassen werden als unbekannte Klassen behandelt. Die Ergebnisse von Berechnungen zeigen, dass F-Maße abhängig von dem betrachteten Generator mit zunehmenden Werten von α bis zum Optimalpunkt bei etwa 0,2-0,3 zunehmen. Es ist auch ersichtlich, dass MPGen-R durchweg besser als MPGen ist. Diese Ergebnisse zeigen die Wichtigkeit des in die MPGen-R-Techniken eingeführten Zurückweisers. Es sollte auch beachtet werden, dass die vorliegenden Techniken (mit oder ohne Zurückweiser) besser abschneiden als einige vorbekannte Verfahren, was aus den Ergebnissen von Berechnungen des F-Maßes (in 5 nicht gezeigt) folgt.For illustration is in 5 Figure 12 shows the effect of the weighting factor on the performance of the image classifier network trained on the training data set comprising the plurality of new image samples generated according to the first aspect. Shown in this figure are the results of calculations for an F-measure metric as a function of the weighting factor α for two cases of generating new image samples according to the first aspect, namely (a) without rejecting newly generated image samples (minimal partial edit generator or MPGen); (b) with rejection based on the information contained in the validation data set as explained above (MPGen with rejection or MPGen-R). The F-measure is defined on the basis that unknown classes should not be treated as a single class during evaluation and larger values of the F-measure correspond to better performance. The value α = 0 means that the mesh with only the known entropy function (

_known ) is trained. The higher the value of α, the more effect

_generated is taken into account. The values of α are stepped from 0 to 0.4 with a step size of 0.1. The experiments are based on the CUB data set (available at http://www.vision.caltech.edu/visipedia/CUB-200.html). The total data set of image samples is divided into three partitions: training, validation and test data set. 150 known classes are assigned as known classes. The remaining 50 classes are treated as unknown classes. The results of calculations show that F-dimensions increase with increasing values of α up to the optimal point at about 0.2-0.3, depending on the considered generator. It can also be seen that MPGen-R is consistently better than MPGen. These results demonstrate the importance of the rejector introduced into MPGen-R techniques. It should also be noted that the Present techniques (with or without rejectors) perform better than some previously known methods, as evidenced by the results of F-measure calculations (in 5 not shown) follows.

Die Techniken der vorliegenden Offenbarung können ferner Verwendung des trainierten Bildklassifizierernetzes zum Klassifizieren von Bilddaten umfassen. In einigen Beispielen können die Bilddaten Einzelbilder oder Videodaten umfassen. Verwendung des trainierten Bildklassifizierers kann Überwachen einer Umgebung durch eine Überwachungseinrichtung umfassen. Zusätzlich oder als Alternative können die Verfahren des ersten und zweiten Aspekts Überwachen einer Vorrichtung durch eine Überwachungsvorrichtung umfassen. In einigen Beispielen können Bilddaten der Umgebung durch die Überwachungsvorrichtung aufgezeichnet werden (z. B. durch eine Bildgebungsvorrichtung wie eine Digitalkamera, die sich zum Beispiel an der Überwachungsvorrichtung befindet oder sich getrennt mit der Überwachungsvorrichtung in Kommunikation befindet). In einem nächsten Schritt kann das trainierte Bildklassifizierernetz zum Klassifizieren der aufgezeichneten Bilddaten verwendet werden.The techniques of the present disclosure may further include using the trained image classifier network to classify image data. In some examples, the image data may include still images or video data. Using the trained image classifier may include monitoring an environment by a monitoring device. Additionally or alternatively, the methods of the first and second aspects may comprise monitoring a device by a monitoring device. In some examples, image data of the environment may be recorded by the monitoring device (e.g., by an imaging device such as a digital camera, for example, located on the monitoring device or in communication with the monitoring device separately). In a next step, the trained image classifier network can be used to classify the recorded image data.

In einigen Beispielen kann ein Umgebungszustand der überwachten Umgebung auf der Basis der klassifizierten Bilddaten kontrolliert werden. Zusätzlich oder als Alternative kann die Vorrichtung auf der Basis der klassifizierten Bilddaten kontrolliert werden. In einigen Beispielen kann auf der Basis der klassifizierten Bilddaten ein Statusindikator hinsichtlich eines Umgebungszustands der überwachten Umgebung erzeugt werden. Zusätzlich oder als Alternative kann auf der Basis der klassifizierten Bilddaten ein Statusindikator hinsichtlich eines Status der Vorrichtung erzeugt werden.In some examples, an environmental condition of the monitored environment can be controlled based on the classified image data. Additionally or alternatively, the device can be controlled based on the classified image data. In some examples, a status indicator regarding an environmental condition of the monitored environment may be generated based on the classified image data. Additionally or alternatively, a status indicator regarding a status of the device may be generated based on the classified image data.

In einem Beispiel kann die Überwachungsvorrichtung die Umgebung mindestens eines halbautonomen Roboters überwachen. In anderen Beispielen kann die Überwachungsvorrichtung in einem Herstellungs- oder Untersuchungssystem oder in einem medizinischen Bildgebungssystem eingesetzt werden. In einigen Beispielen, bei denen die Überwachungsvorrichtung in einem medizinischen Bildgebungssystem eingesetzt wird, können die vorliegenden Techniken ferner Ausgeben von Diagnostikergebnissen durch das medizinische Bildgebungssystem auf der Basis der klassifizierten Bilddaten umfassen.In one example, the monitoring device can monitor the surroundings of at least one semi-autonomous robot. In other examples, the monitoring device may be deployed in a manufacturing or inspection system, or in a medical imaging system. In some examples where the monitoring device is deployed in a medical imaging system, the present techniques may further include the medical imaging system outputting diagnostic results based on the classified image data.

In einigen Beispielen kann der halbautonome Roboter ein Industrieroboter, ein Haushaltsroboter oder ein mindestens halbautonomes Fahrzeug sein. Die Techniken der vorliegenden Offenbarung können ferner Steuern eines Herstellungsprozesses und/oder von Qualitätssicherung von Produkten durch den Industrieroboter oder einer Funktionsweise des autonomen Fahrzeugs auf der Basis der klassifizierten Bilddaten umfassen. In einigen Beispielen kann auf der Basis des Klassifizierungsschritts des Bildklassifizierernetzes eine automatische Reaktion ausgelöst werden. In einigen Beispielen kann die Reaktion Angabe des Zustands auf einer grafischen Benutzeroberfläche und/oder Bereitstellung von Informationen hinsichtlich des Zustands einer entfernten Vorrichtung umfassen. Zusätzlich oder als Alternative kann die Reaktion Erzeugung eines Alarms und/oder Ändern oder Stoppen eines Betriebs einer überwachten Vorrichtung involvieren.In some examples, the semi-autonomous robot can be an industrial robot, a domestic robot, or at least a semi-autonomous vehicle. The techniques of the present disclosure may further include controlling a manufacturing process and/or quality assurance of products by the industrial robot or an operation of the autonomous vehicle based on the classified image data. In some examples, an automatic response may be triggered based on the classification step of the image classifier network. In some examples, the response may include indicating the status in a graphical user interface and/or providing information regarding the status of a remote device. Additionally or alternatively, the response may involve generating an alarm and/or changing or stopping operation of a monitored device.

Bei den vorliegenden Techniken in Bezug auf die Überwachungsvorrichtung, die in einem Herstellungs- oder Untersuchungssystem verwendet wird, kann auf der Basis des Klassifizierungsschritts des Bildklassifizierernetzes eine Reaktion automatisch ausgelöst werden. In einigen Beispielen kann diese Reaktion umfassen, anzugeben, ob eine Komponente oder ein Teil, die bzw. das hergestellt und/oder untersucht wird, als normal oder abnorm klassifiziert wird. In einigen Beispielen, bei denen die Überwachungsvorrichtung in einem Herstellungs- oder Untersuchungssystem (zum Beispiel einer Herstellungs- oder Untersuchungslinie für Leiterplatten (PCB)) verwendet wird, können die Techniken der vorliegenden Offenbarung ferner Scannen einer Vielzahl von Komponenten oder Teilen (z. B. durch eine Bildgebungsvorrichtung wie eine Kamera) involvieren. In einem nächsten Schritt kann eine Komponente oder ein Teil der Vielzahl von Komponenten oder Teilen als normal ohne Defekt oder defekt als einen Defekt aufweisend klassifiziert werden. In einigen Beispielen können die vorliegenden Techniken als Reaktion auf Klassifizieren der Komponente oder des Teils als defekt Bestimmen, ob der Defekt von der bekannten Klasse aus der Vielzahl bekannter Klassen oder der unbekannten Klasse ist, involvieren. In einigen Beispielen können die vorliegenden Techniken effizient sein, wenn die Objekte/Produkte im Eingangsbereich sich eine ähnliche Struktur teilen. Zum Beispiel können im Kontext der PCB- bzw. Leiterplatten-Produktpipeline, die verschiedene Entwürfe von PCB produzieren kann, alle PCB gemeinsame Komponenten (z. B. Transistoren, Chips usw.) aufweisen. Wenn sie einige Defekte aufweisen, werden die Defekte gewöhnlich als unterschwellige (d.h. feinkörnige) Änderungen in Bildern erscheinen, wie etwa versehentliche Mischung falscher Arten von Transistoren oder Chips über Entwürfe von PCB hinweg. In einigen Beispielen kann es durch Verwendung der vorliegenden Technik des Erzeugens einer Trainingsdatenmenge für ein Bildklassifizierernetz auf der Basis einer Rekombination der aus den Bildstichproben der anfänglichen Trainingsmenge extrahierten lokalen Merkmale möglich sein, das Bildklassifizierernetz an einer solchen falschen Mischung effizient lernen zu lassen. Zum Beispiel kann das trainierte Bildklassifizierernetz mehrere PCB als zu derselben Defektklasse gehörend klassifizieren, obwohl sich derselbe Teil (z. B. Transistor oder Chip) dieser PCB fälschlicherweise an verschiedenen räumlichen Orten befindet. Bei den vorliegenden Techniken kann es ausreichend sein, wenn diese Klassifikation nur eine einzige „repräsentative“ Bildstichprobe mit einem solchen Ort defekter Komponenten auf einer PCB in der anfänglichen Trainingsdatenmenge bereitstellt.In the present techniques relating to the monitoring device used in a manufacturing or inspection system, a response can be automatically triggered based on the classification step of the image classifier network. In some examples, this response may include indicating whether a component or part being manufactured and/or inspected is classified as normal or abnormal. In some examples where the monitoring device is used in a manufacturing or inspection system (e.g., a printed circuit board (PCB) manufacturing or inspection line), the techniques of the present disclosure may further scan a variety of components or parts (e.g., by an imaging device such as a camera). In a next step, a component or part of the plurality of components or parts can be classified as normal with no defect or defective as having a defect. In some examples, in response to classifying the component or part as defective, the present techniques may involve determining whether the defect is of the known class of the plurality of known classes or the unknown class. In some examples, the present techniques may be efficient when the objects/products in the entryway share a similar structure. For example, in the context of the PCB product pipeline, which may produce different designs of PCBs, all PCBs may have common components (e.g., transistors, chips, etc.). If they have some defects, the defects will usually show up as subtle (ie, fine-grained) changes in images, such as accidental mixing of wrong types of transistors or chips across PCB designs. In some examples, by using the present technique of generating a training data set for an image classifier network based on a recombination of the local features extracted from the image samples of the initial training set, it may be possible to have the image classifier network learn efficiently on such an incorrect mixture. For example it can trained image classifier network can classify multiple PCBs as belonging to the same defect class even though the same part (e.g. transistor or chip) of that PCB is erroneously located at different spatial locations. In the present techniques, it may be sufficient if this classification provides only a single "representative" image sample with such defective component location on a PCB in the initial training data set.

Bei einigen Ausführungsformen kann die Komponente oder der Teil (z. B. eine PCB) zu einer nächsten Stufe der Produktionspipeline weitergeleitet werden, wenn die Komponente oder der Teil als normal klassifiziert wird. In einigen Beispielen kann die defekte Komponente oder der defekte Teil zu einem vordefinierten Handhabungsmodul weitergeleitet werden, wenn der bestimmte Defekt von der bekannten Klasse ist. In anderen Beispielen kann das defekte Produkt zu einer detaillierten Untersuchung weitergeleitet werden, wenn der bestimmte Defekt von der unbekannten Klasse ist.In some embodiments, if the component or part is classified as normal, the component or part (e.g., a PCB) may be forwarded to a next stage of the production pipeline. In some examples, the defective component or part may be forwarded to a predefined handling module if the particular defect is of the known class. In other examples, if the particular defect is of the unknown class, the defective product may be forwarded for detailed investigation.

Ein dritter Aspekt stellt ein computerimplementiertes System bereit, das dafür ausgelegt ist, ein Bildklassifizierernetz für eine Vorrichtung gemäß den Techniken des zweiten Aspekts oder seinen Ausführungsformen zu erzeugen und/oder zu verwenden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme umfassen kann, die, wenn sie ausgeführt werden, die Verfahrensschritte gemäß dem ersten und/oder zweiten Aspekt ausführen) und mindestens eine Schnittstelle für Eingaben und Ausgaben umfassen. In einigen Beispielen kann das computerimplementierte System eine selbständige Computervorrichtung sein. In anderen Beispielen kann das computerimplementierte System in eine Computervorrichtung oder ein System integriert sein, die bzw. das auch anderen Zwecken als Ausführen der Schritte der Techniken der vorliegenden Offenbarung dient. In noch anderen Beispielen kann das computerimplementierte System ein verteiltes System sein, das über ein Netzwerk (z. B. das Internet) kommuniziert.A third aspect provides a computer-implemented system adapted to create and/or use an image classifier network for a device according to the techniques of the second aspect or its embodiments. The computer-implemented system may include at least one processor, at least one memory (which may include programs that, when executed, perform the method steps according to the first and/or second aspect) and at least one interface for inputs and outputs. In some examples, the computer-implemented system may be a standalone computing device. In other examples, the computer-implemented system may be integrated into a computing device or system that also serves purposes other than performing the steps of the techniques of the present disclosure. In still other examples, the computer-implemented system may be a distributed system that communicates over a network (e.g., the Internet).

Claims

A method of generating a training data set for an image classifier network, comprising: receiving (100) an initial training data set comprising a first plurality of image samples (I _i ), each image sample being labeled with a class identifier of a plurality of known classes (N); training (110) a sub-segmentation network (111) based on the initial training data set to: divide each image sample from the first plurality of image samples into a plurality of regions; and generating a set of region features (112; Z) for each image sample, each region feature (z _k ) being based on image data in a respective region (k) of the plurality of regions; Generating (140) a training data set comprising a plurality of new image samples based on the first plurality of image samples, comprising: extracting (120) the set of region features of a first image sample and a second image sample of the first plurality of image samples using the trained A partial segmentation network (111), wherein the first image sample is labeled with a first class identifier (class 1) and the second image sample is labeled with a second class identifier (class 2) different from the first class identifier; Replacing (130) at least one region feature (z _k ) from the set of region features (112; Z) of the first image sample with the corresponding region feature (z _k ) from the set of region features (112; Z) of the second image sample, thereby creating a new to generate an image sample for the training data set.

procedure after claim 1 , wherein training (110) the partial segmentation network further comprises: classifying (150) each image sample from the first plurality of image samples of the initial training data set by a second image classifier network (151) into one of the plurality of known classes (N) based on the Set of region features of the image sample generated by the sub-segmentation network (111), the training (110) aiming to improve a classification performance of the second image classifier network.

procedure after claim 1 or 2 , wherein replacing (130) at least one region feature (z _k ) from the set of region features (112; Z) of the first image sample further comprises the following: - iterative replacement (130) of region features (z _k ) of the set of region features (112; Z ) the first image sample with the corresponding region features (z _k ) of the set of region features (112; Z) of the second image sample; - determining a class of the first image sample after each iteration using the second image classifier network; - stopping iteratively performing the replacing step if the particular class predicted by the network of the second image classifier (151) is different from the class of the first image sample of the first plurality of image samples; and - using the first image sample generated before the terminating step as the new image sample.

Procedure according to one of Claims 1 until 3 the method further comprising: learning a dictionary of object parts (113; D) during the training process of the partial segmentation network (111) based on the initial training data set or providing a predetermined dictionary of object parts (113; D); Using the learned or predetermined dictionary of object parts (113; D) to assign all region features (z _k ) from the set of region features of the image sample to a corresponding object part, optionally dividing each image sample further comprising calculating a probability that a pixel of the region feature of the image sample can be assigned to an object part (k) from the learned or predetermined dictionary of object parts, further optionally the probability being based on a distance from the pixel of the region feature of the image sample to each object part of the learned or predetermined dictionary of object parts.

Procedure according to one of claims 2 until 4 , the method further comprising receiving (170) a validation data set comprising a plurality of image samples for validation and training (160) the second image classifier network on the basis of the received validation data set.

procedure after claim 5 , the method further comprising rejecting zero or one or more new image samples from the generated plurality of new image samples that can potentially degrade a prediction accuracy of known classes, the rejecting comprising: selecting image samples (180) from the plurality of image samples for Validation marked with the class identifier from the given number of known classes (N); performing the following steps for each selected image sample from the plurality of image samples for validation: determining (190) a first closest image sample from the generated plurality of new image samples to the selected image sample by comparing each image sample from the generated plurality of new image samples to the selected image sample; determining (200) a second closest image sample from the first plurality of image samples of the initial training data set to the selected image sample by comparing each image sample from the first plurality of image samples to the selected image sample; rejecting (210) the new image sample from the generated plurality of new image samples that corresponds to the first closest image sample if the first closest image sample is closer to the selected image sample than the second closest image sample; the method optionally further comprising: regenerating (220) a new supplemental image sample according to the extracting and replacing steps of any one of Claims 1 until 5 , if the new image sample is rejected from the generated plurality of new image samples.

A method of training an image classifier network, comprising: generating (140) a training data set for the image classifier network as in any one of Claims 1 until 6 set forth; and training (300) an image classifier network (301) based on the generated training data set.

procedure after claim 7 , wherein training the image classifier network comprises: treating the generated plurality of new image samples as a plurality of unknown image samples; classifying (310) each image sample of the plurality of unknown image samples by the image classifier network (301), classifying optionally further comprising classifying a given image sample as belonging to the plurality of known classes or to an unknown class.

procedure after claim 7 or 8th , wherein the second image classifier network (151) has a number of outputs (N) equal to the given number of classes (N) and wherein the image classifier network (301) has a number of outputs (N + 1) that the given number of known classes by exceeds at least one representing a prediction of unknown classes.

Procedure according to one of Claims 7 until 9 , wherein training the image classifier network comprises: computing a first loss function

based on known image samples using the first plurality of image samples of the initial training data set; Calculating a second loss function

based on the plurality of unknown image samples using the generated plurality of new image samples; calculating an objective function by summing the first loss function and a weighted second loss function, the weighted second loss function being a product of the second loss function and a weighting factor (a); Minimize the objective function to train the image classifier network.

Method according to any of the preceding Claims 1 until 10 , further comprising: monitoring an environment and/or a device by a monitoring device; recording image data of the surroundings by the monitoring device; Using the trained image classifier network to classify the recorded image data, where the image data may include still images or video data.

A computer-implemented system arranged to implement an image classifier network for an apparatus according to any one of Claims 1 until 11 to create and/or use.