DE102022203000A1

DE102022203000A1 - Testing synthetic measurement data for usability as training measurement data for a classifier and/or regressor

Info

Publication number: DE102022203000A1
Application number: DE102022203000.1A
Authority: DE
Inventors: William Harris Beluch; Laura Beggel
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2023-09-28

Abstract

Verfahren (100) zur Prüfung, inwieweit von einem auf der Basis von Trainings-Messdaten (1) trainierten Generator (G) erzeugte synthetische Messdaten (2) einer durch die Trainings-Messdaten (1) definierten Verteilung (1a) angehören, mit den Schritten:• die Trainings-Messdaten (1) werden mit einem Encoder (3) in Trainings-Repräsentationen (4) mit verminderter Dimensionalität überführt (110);• die synthetischen Messdaten (2) werden mit dem gleichen Encoder (3) in eine oder mehrere Test-Repräsentationen (5) überführt (120);• für jede Test-Repräsentation (5) wird ein Repräsentations-Maß (6) ausgewertet (130), das angibt, inwieweit die jeweilige Test-Repräsentation (5) einer durch die Trainings-Repräsentationen (4) definierten Verteilung (4a) angehört;• aus den Repräsentations-Maßen (6) wird nach einem vorgegebenen Kriterium (7) das gesuchte Maß (8) dafür ausgewertet (140), inwieweit die synthetischen Messdaten (2) der durch die Trainings-Messdaten (1) definierten Verteilung (1a) angehören.Method (100) for checking to what extent synthetic measurement data (2) generated by a generator (G) trained on the basis of training measurement data (1) belong to a distribution (1a) defined by the training measurement data (1), with the steps :• the training measurement data (1) are converted into training representations (4) with reduced dimensionality using an encoder (3) (110);• the synthetic measurement data (2) are converted into one or more using the same encoder (3). Test representations (5) are transferred (120); • for each test representation (5), a representation measure (6) is evaluated (130), which indicates the extent to which the respective test representation (5) is one through the training representations (4) belongs to the distribution (4a); Training measurement data (1) belong to the defined distribution (1a).

Description

Die vorliegende Erfindung betrifft das Training von Klassifikatoren und/oder Regressoren für Messdaten auf Trainings-Messdaten, die um synthetische Messdaten angereichert sind.The present invention relates to the training of classifiers and/or regressors for measurement data on training measurement data that is enriched with synthetic measurement data.

Stand der TechnikState of the art

In vielen Anwendungen werden Messdaten mit mindestens einem Sensor aufgenommen und anschließend für die weitere Auswertung einem Klassifikator und/oder Regressor zugeführt. Ein Klassifikator kann eine gesuchte Zuordnung der Messdaten zu einer oder mehreren Klassen liefern und beispielsweise eine sensorisch beobachtete Szenerie semantisch analysieren. Ein Regressor kann aus den Messdaten den gesuchten Wert einer Messgröße auswerten.In many applications, measurement data is recorded with at least one sensor and then fed to a classifier and/or regressor for further evaluation. A classifier can provide a desired assignment of the measurement data to one or more classes and, for example, semantically analyze a scene observed using sensors. A regressor can evaluate the desired value of a measurement variable from the measurement data.

Für das überwachte Training derartiger Klassifikatoren und/oder Regressoren werden Trainings-Messdaten benötigt. Diese Trainings-Messdaten sind mit Soll-Ausgaben gelabelt, auf die der Klassifikator und/oder Regressor sie im trainierten Zustand abbilden soll. Wenn dem Klassifikator und/oder Regressor dies im Mittel gut gelingt, wird davon ausgegangen, dass er auch im Training ungesehene Messdaten korrekt verarbeiten kann.Training measurement data is required for the supervised training of such classifiers and/or regressors. These training measurement data are labeled with target outputs onto which the classifier and/or regressor should map them in the trained state. If the classifier and/or regressor does this well on average, it is assumed that it can correctly process unseen measurement data even during training.

Bei diesem überwachten Training fällt der größte Anteil des Aufwands für das Labeln der Trainings-Messdaten an. Dies ist in der Regel eine manuelle und entsprechend zeitintensive Aufgabe. Daher werden zu vorhandenen gelabelten Messdaten mit Generatoren synthetische Messdaten erzeugt, für die die gleichen Labels gültig sind. Auf diese Weise kann die Menge der verfügbaren Trainings-Messdaten vergrößert werden, ohne zusätzlichen Aufwand für weiteres Labeln treiben zu müssen.In this monitored training, the majority of the effort goes into labeling the training measurement data. This is usually a manual and time-consuming task. Therefore, generators are used to generate synthetic measurement data for existing labeled measurement data for which the same labels are valid. In this way, the amount of available training measurement data can be increased without having to invest additional effort in further labeling.

Offenbarung der ErfindungDisclosure of the invention

Die Erfindung stellt ein Verfahren zur Prüfung bereit, inwieweit von einem auf der Basis von Trainings-Messdaten trainierten Generator erzeugte synthetische Messdaten einer durch die Trainings-Messdaten definierten Verteilung angehören. Je besser dies der Fall ist, desto realistischer sind die synthetischen Messdaten im Kontext der bereits vorhandenen Training-Messdaten. Das heißt, die synthetischen Messdaten können die vorhandenen Trainings-Messdaten nahtlos ergänzen und ohne Verlust an Genauigkeit des trainierten Klassifikators und/oder Regressors an die Stelle zusätzlicher gelabelter Trainings-Messdaten treten.The invention provides a method for checking to what extent synthetic measurement data generated by a generator trained on the basis of training measurement data belong to a distribution defined by the training measurement data. The better this is the case, the more realistic the synthetic measurement data is in the context of the already existing training measurement data. This means that the synthetic measurement data can seamlessly complement the existing training measurement data and replace additional labeled training measurement data without loss of accuracy of the trained classifier and/or regressor.

Im Rahmen des Verfahrens werden die Trainings-Messdaten mit einem Encoder in Trainings-Repräsentationen mit verminderter Dimensionalität überführt. Mit dem gleichen Encoder werden auch die synthetischen Messdaten in eine oder mehrere Test-Repräsentationen überführt.As part of the process, the training measurement data is converted into training representations with reduced dimensionality using an encoder. The same encoder is used to convert the synthetic measurement data into one or more test representations.

Für jede Test-Repräsentation wird nun ein Repräsentations-Maß ausgewertet, das angibt, inwieweit die jeweilige Test-Repräsentation einer durch die Trainings-Repräsentationen definierten Verteilung angehört. Aus den Repräsentations-Maßen wird nach einem vorgegebenen Kriterium das gesuchte Maß dafür ausgewertet, inwieweit die synthetischen Messdaten der durch die Trainings-Messdaten definierten Verteilung angehören.A representation measure is now evaluated for each test representation, which indicates the extent to which the respective test representation belongs to a distribution defined by the training representations. From the representation measures, the desired measure is evaluated according to a specified criterion to determine the extent to which the synthetic measurement data belong to the distribution defined by the training measurement data.

Es wurde erkannt, dass sich im Raum der Repräsentationen mit verminderter Dimensionalität zuverlässiger als im Raum der Messdaten selbst erkennen lässt, inwieweit die synthetischen Messdaten im Kontext der vorliegenden Anwendung und der vorhandenen Trainings-Messdaten realistisch sind.It was recognized that the extent to which the synthetic measurement data is realistic in the context of the present application and the existing training measurement data can be seen more reliably in the space of representations with reduced dimensionality than in the space of the measurement data themselves.

Beispielsweise kann ein Generator, wie etwa ein Generative Adversarial Network (GAN), ein vorhandenes Trainings-Bild in ein neues Bild umwandeln, in dem ein Objekt leicht verdreht ist. Hierzu kann der Generator beispielsweise ein Sample aus einem zuvor gelernten Raum oder einer zuvor gelernten Mannigfaltigkeit latenter Repräsentationen ziehen und auf das neue Bild abbilden. Dieser Prozess kann dann noch in irgendeiner Form auf das vorhandene Trainings-Bild „konditioniert“ sein. Das heißt, dem Generator kann die zusätzliche Anforderung mitgegeben werden, dass das neue Bild möglichst ähnlich zu dem schon vorhandenen Trainings-Bild ist oder bestimmte bezifferbare Eigenschaften aufweist, die auch das vorhandene Trainings-Bild aufweist. Das neue Bild hat dann einen fast unveränderten semantischen Anteil, denn es sind immer noch die gleichen Objekte an den gleichen Positionen vorhanden. Insofern wird der Generator selbst, bedingt durch sein Training, das neue Bild für realistisch erachten. Es hängt jedoch von der konkreten Anwendung ab, ob das neue Bild auch im Kontext dieser Anwendung noch als realistisch gewertet und verwendet werden kann.For example, a generator such as a Generative Adversarial Network (GAN) can transform an existing training image into a new image in which an object is slightly twisted. To do this, the generator can, for example, take a sample from a previously learned space or a previously learned variety of latent representations and map it onto the new image. This process can then be “conditioned” in some way to the existing training image. This means that the generator can be given the additional requirement that the new image is as similar as possible to the existing training image or has certain quantifiable properties that the existing training image also has. The new image then has an almost unchanged semantic component because the same objects are still present in the same positions. In this respect, the generator itself, due to its training, will consider the new image to be realistic. However, it depends on the specific application whether the new image can still be viewed and used as realistic in the context of this application.

Beim normalen Training eines GAN werden nun mindestens ein Generator und mindestens ein Diskriminator dahingehend trainiert, dass

• der Generator synthetische Messdaten erzeugt, die der Diskriminator möglichst schwer von den Trainings-Messdaten unterscheiden kann und
• der Diskriminator die synthetischen Messdaten möglichst treffsicher von den Trainings-Messdaten unterscheiden kann.

During normal training of a GAN, at least one generator and at least one discriminator are trained so that

• the generator generates synthetic measurement data that is as difficult as possible for the discriminator to distinguish from the training measurement data and
• the discriminator can distinguish the synthetic measurement data from the training measurement data as accurately as possible.

Diese Optimierungsaufgabe ist losgelöst von der konkreten Anwendung, in der die synthetischen Messdaten verwendet werden sollen, und kann daher eine Information dahingehend, was speziell in dieser Anwendung realistisch ist und was nicht, nur eingeschränkt berücksichtigen.This optimization task is separate from the specific application in which the synthetic measurement data is to be used and can therefore only take limited information into account as to what is realistic and what is not specifically in this application.

Beispielsweise kann ein Generator im Zuge seines Trainings das Strategieelement lernen, Objekte in neuen Bildern im Vergleich zu den Trainings-Bildern zu verschieben und/oder zu verdrehen. Wird dieser Generator auf Bilder von Verkehrssituationen angewendet, so entstehen mit hoher Wahrscheinlichkeit Bilder, die tatsächlich auch verkehrstechnisch realistisch sind. Ein neues Bild einer Verkehrssituation, in dem ein Fahrzeug leicht verschoben oder verdreht ist, wird bis auf wenige Ausnahmen nach wie vor ein plausibles Bild einer Verkehrssituation sein.For example, as part of its training, a generator can learn the strategy element to move and/or rotate objects in new images compared to the training images. If this generator is applied to images of traffic situations, it is very likely that images will be created that are actually realistic in terms of traffic. A new image of a traffic situation in which a vehicle is slightly shifted or twisted will, with a few exceptions, still be a plausible image of a traffic situation.

Wird der gleiche Generator hingegen ausgehend von einem Trainings-Bild einer Maschine angewendet, entsteht ein neues Bild der Maschine, in dem ein Maschinenteil leicht verschoben oder verdreht ist. In einer Maschine sind die Maschinenteile jedoch dahingehend aufeinander abgestimmt, dass sie ineinander greifen und Kräfte aufeinander übertragen oder in sonstiger Weise zusammenwirken. Die Maschine kann ihre Funktion in der Regel nicht mehr ausführen, wenn ein einzelnes Teil verschoben oder verdreht wird und die restlichen Teile unverändert bleiben. Einem menschlichen Experten fällt sofort als unrealistisch auf, dass die Maschine so mechanisch nicht mehr funktionieren kann.However, if the same generator is used based on a training image of a machine, a new image of the machine is created in which a machine part is slightly shifted or twisted. In a machine, however, the machine parts are coordinated with one another in such a way that they interlock and transmit forces to one another or interact in some other way. The machine can usually no longer perform its function if a single part is moved or twisted and the remaining parts remain unchanged. A human expert immediately notices that it is unrealistic that the machine can no longer function mechanically.

Durch die Verdichtung der Trainings-Messdaten beim Übergang zu den Trainings-Repräsentationen wird in diesen Trainings-Repräsentationen genau die Information aufkonzentriert, die in Kontext der jeweiligen Anwendung am wichtigsten ist. Wenn also beispielsweise vorhandene Trainings-Bilder die Maschine nur in mechanisch funktionierenden Konfigurationen zeigen, werden Repräsentationen von Bildern, die die Maschine in einer nicht funktionierenden Konfiguration zeigen, von den Trainings-Repräsentationen stark abweichen.By condensing the training measurement data during the transition to the training representations, exactly the information that is most important in the context of the respective application is concentrated in these training representations. So, for example, if existing training images only show the machine in mechanically functioning configurations, representations of images showing the machine in a non-functioning configuration will differ greatly from the training representations.

Wenn die Trainings-Messdaten verschiedene Labels in Bezug auf vom Klassifikator zu ermittelnde Soll-Klassen oder auf vom Regressor zu ermittelnde Soll-Werte einer Regressionsgröße haben, kann die Prüfung besonders vorteilhaft getrennt nach Soll-Klassen bzw. Soll-Werten erfolgen. Das heißt, das Verfahren wird für jede Soll-Klasse, jeden Soll-Wert oder jede von mehreren vorgegebenen Gruppen von Soll-Werten einmal durchgeführt. Unterschiede zwischen den Trainings-Repräsentationen und den Test-Repräsentationen sind dann nicht durch Unterschiede in den Soll-Klassen bzw. Soll-Werten bedingt, sondern nur durch eine mehr oder weniger schlüssige Zugehörigkeit der synthetischen Messdaten zur durch die Trainings-Messdaten definierten Verteilung.If the training measurement data have different labels in relation to target classes to be determined by the classifier or to target values of a regression variable to be determined by the regressor, the test can particularly advantageously be carried out separately according to target classes or target values. This means that the method is carried out once for each target class, each target value or each of several predetermined groups of target values. Differences between the training representations and the test representations are then not caused by differences in the target classes or target values, but only by a more or less conclusive affiliation of the synthetic measurement data to the distribution defined by the training measurement data.

Besonders vorteilhaft wird ein Encoder aus einer Encoder-Decoder-Anordnung gewählt wird, die darauf trainiert ist, Messdaten mit dem Encoder in Repräsentationen mit verminderter Dimensionalität zu überführen und aus diesen Repräsentationen mit dem Decoder die Messdaten zu rekonstruieren. Eine solche Anordnung wird auch als Autoencoder bezeichnet. Durch das Training des Autoencoders wird in der Trainings-Repräsentation gerade die Information konzentriert, die für die möglichst genaue Rekonstruktion benötigt wird. Die Encoder-Decoder-Anordnung kann somit insbesondere beispielsweise mit den Trainings-Messdaten trainiert sein.It is particularly advantageous to select an encoder from an encoder-decoder arrangement that is trained to convert measurement data into representations with reduced dimensionality using the encoder and to reconstruct the measurement data from these representations using the decoder. Such an arrangement is also known as an autoencoder. By training the autoencoder, the information needed for the most accurate reconstruction is concentrated in the training representation. The encoder-decoder arrangement can therefore be trained, for example, with the training measurement data.

Es ist jedoch nicht zwingend erforderlich, einen Encoder speziell für die Erstellung der Trainings-Repräsentationen und der Test-Repräsentationen zu trainieren. Wenn beispielsweise ein Klassifikator Merkmalskarten für Trainings-Messdaten oder synthetische Messdaten ermittelt, können aus diesen Merkmalskarten die Trainings-Repräsentationen, bzw. die Test-Repräsentationen, ermittelt werden. Der Klassifikator kann also eine weitere Funktion als Encoder erfüllen.However, it is not absolutely necessary to train an encoder specifically to create the training representations and the test representations. For example, if a classifier determines feature maps for training measurement data or synthetic measurement data, the training representations or test representations can be determined from these feature maps. The classifier can therefore fulfill another function as an encoder.

Der Encoder, bzw. der zusätzlich als Encoder zweitgenutzte Klassifikator, kann insbesondere beispielsweise ein neuronales Netzwerk mit mehreren Schichten sein. Diese Schichten erhalten jeweils eine Eingabe und liefern eine Ausgabe mit einer gegenüber der Eingabe verminderter Dimensionalität. Beispiele für derartige neuronale Netzwerke sind faltende Netzwerke (Convolutional Neural Networks, CNN) oder Perzeptrons (multi-layer perceptron, MLP).The encoder, or the classifier used additionally as an encoder, can in particular be, for example, a neural network with several layers. These layers each receive an input and provide an output with a reduced dimensionality compared to the input. Examples of such neural networks are convolutional neural networks (CNN) or perceptrons (multi-layer perceptron, MLP).

In einer besonders vorteilhaften Ausgestaltung werden Trainings-Repräsentationen zu einer Gesamt-Repräsentation aggregiert. Das Auswerten des Repräsentations-Maßes beinhaltet einen Vergleich zwischen der Gesamt-Repräsentation und der jeweiligen Test-Repräsentation. Auf diese Weise kann speziell ein Unterschied zwischen der Test-Repräsentation einerseits und dem, was die meisten oder gar alle Trainings-Repräsentationen gemeinsam haben, gemessen werden.In a particularly advantageous embodiment, training representations are aggregated into an overall representation. Evaluating the representation measure involves a comparison between the overall representation and the respective test representation. In this way, a difference between the test representation on the one hand and what most or even all training representations have in common can be measured.

Beispielsweise können aus den Trainings-Repräsentationen durch unüberwachtes Clustern Mitglieder eines Clusters ermittelt werden. Hierfür kann beispielsweise „k-means-clustering“ verwendet werden, bei dem die Anzahl k der zu bildenden Cluster vorgegeben wird. Insbesondere kann vorgegeben werden, dass genau ein Cluster zu bilden ist. Es können dann nur die Mitglieder des Clusters zu der Gesamt-Repräsentation aggregiert werden. Alle Nicht-Mitglieder des Clusters können dann als Ausreißer gewertet werden und nicht in den Vergleich mit der Test-Repräsentation eingehen.For example, members of a cluster can be determined from the training representations using unsupervised clustering. For example, “k-means clustering” can be used for this, in which the number k of clusters to be formed is specified. In particular, it can be specified that exactly one cluster is to be formed. Only the members of the cluster can then access it Overall representation can be aggregated. All non-members of the cluster can then be considered outliers and not included in the comparison with the test representation.

Das Auswerten des Repräsentations-Maßes kann insbesondere beispielsweise die Bestimmung einer Distanz zwischen der jeweiligen Test-Repräsentation einerseits und Trainings-Repräsentationen, und/oder der Gesamt-Repräsentation, andererseits beinhalten. Diese Distanz kann in beliebiger Weise im Raum der Repräsentationen gemessen werden. Verwendet werden können beispielsweise eine euklidische Distanz in diesem Raum oder auch eine Hamming-Distanz.Evaluating the representation measure can in particular include, for example, determining a distance between the respective test representation on the one hand and training representations and/or the overall representation on the other hand. This distance can be measured in any way in the space of representations. For example, a Euclidean distance in this space or a Hamming distance can be used.

Das vorgegebene Kriterium für die Entscheidung, inwieweit bestimmte synthetische Messdaten der durch die Trainings-Messdaten definierten Verteilung angehören, kann insbesondere beispielsweise einen Schwellwert für das Repräsentations-Maß umfassen. Falls also beispielsweise das für eine aus bestimmten synthetischen Messdaten erzeugte Repräsentation ermittelte Repräsentations-Maß (etwa eine Distanz) einen bestimmten Schwellwert unterschreitet, kann festgestellt werden, dass diese synthetischen Messdaten der durch die Trainings-Messdaten definierten Verteilung angehören. Falls beispielsweise umgekehrt das Repräsentations-Maß einen bestimmten Schwellwert überschreitet, kann festgestellt werden, dass die synthetischen Messdaten der durch die Trainings-Messdaten definierten Verteilung nicht angehören.The predefined criterion for deciding to what extent certain synthetic measurement data belong to the distribution defined by the training measurement data can in particular include, for example, a threshold value for the representation measure. If, for example, the representation measure (e.g. a distance) determined for a representation generated from certain synthetic measurement data falls below a certain threshold value, it can be determined that this synthetic measurement data belongs to the distribution defined by the training measurement data. If, for example, the representation measure exceeds a certain threshold value, it can be determined that the synthetic measurement data does not belong to the distribution defined by the training measurement data.

Es können auch beispielsweise diejenigen synthetischen Messdaten, deren Test-Repräsentationen einen vorgegebenen Anteil, und/oder eine vorgegebene Anzahl N, der größten oder kleinsten Repräsentations-Maße haben, als zur durch die Trainings-Messdaten definierten Verteilung gehörig, bzw. nicht gehörig, gewertet werden. Beispielsweise kann gezielt ein quantitativ bezifferter Anteil synthetischer Messdaten, deren Test-Repräsentationen besonders stark von den Trainings-Repräsentationen bzw. der Gesamt-Repräsentation abweichen, als nicht zur durch die Trainings-Messdaten definierten Verteilung gehörig ausgesondert werden. Hiermit kann insbesondere abgebildet werden, dass die vom Generator erzeugten synthetischen Messdaten im Normalfall der durch die Trainings-Messdaten definierten Verteilung angehören und es den Ausnahmefall darstellt, dass synthetische Messdaten aus dieser Verteilung herausfallen.For example, those synthetic measurement data whose test representations have a predetermined proportion and/or a predetermined number N of the largest or smallest representation dimensions can also be evaluated as belonging or not belonging to the distribution defined by the training measurement data become. For example, a quantitatively quantified portion of synthetic measurement data whose test representations deviate particularly strongly from the training representations or the overall representation can be specifically separated out as not belonging to the distribution defined by the training measurement data. In particular, this can be used to show that the synthetic measurement data generated by the generator normally belongs to the distribution defined by the training measurement data and that it is an exceptional case that synthetic measurement data falls out of this distribution.

Die Messdaten können insbesondere beispielsweise durch Beobachtung eines Bereichs mit mindestens einem Sensor aufgenommene Bilder, und/oder durch Auswertung von Reflexionen mindestens eines elektromagnetischen oder akustischen Abfragestrahls aus einem Bereich gewonnene Messergebnisse, sein. Ein Bild kann beispielsweise allgemein in einem zwei- oder mehrdimensionalen Raster angeordneten Pixeln jeweils einen Wert einer Messgröße zuordnen, der in einer Intensität und/oder Farbe dieses Pixels kodiert sein kann. Bilder können beispielsweise Standbilder oder bewegte Bilder sein, die mit einer oder mehreren Kameras für beliebige elektromagnetische Wellen aufgenommen wurden. Bilder können aber auch beispielsweise mit Radar, Lidar oder Ultraschall aufgenommen werden. Eine Auswertung von Reflexionen mindestens eines elektromagnetischen oder akustischen Abfragestrahls aus einem Bereich kann aber auch in beliebiger anderer Weise in Messdaten verkörpert sein.The measurement data can in particular be, for example, images recorded by observing an area with at least one sensor, and/or measurement results obtained from an area by evaluating reflections of at least one electromagnetic or acoustic interrogation beam. For example, an image can generally assign a value of a measurement variable to pixels arranged in a two- or multi-dimensional grid, which can be encoded in an intensity and/or color of this pixel. Images can be, for example, still images or moving images recorded with one or more cameras for any electromagnetic waves. Images can also be recorded using radar, lidar or ultrasound, for example. An evaluation of reflections of at least one electromagnetic or acoustic interrogation beam from an area can also be embodied in measurement data in any other way.

Wie zuvor erläutert, wird mit der Erzeugung synthetischer Messdaten das Ziel verfolgt, einen vorhandenen Satz Trainings-Messdaten anzureichern und damit das Training eines Klassifikators und/oder Regressors für Messdaten zu verbessern. Daher wird in einer weiteren besonders vorteilhaften Ausgestaltung in Antwort darauf, dass die synthetischen Messdaten als der durch die Trainings-Messdaten definierten Verteilung angehörend bewertet wurden, die synthetischen Messdaten mit von mindestens einem Sensor aufgenommenen Messdaten zu einem Pool von Messdaten zusammengeführt. Ein Klassifikator und/oder Regressor für Messdaten wird mit diesem Pool von Messdaten trainiert.As explained above, the goal of generating synthetic measurement data is to enrich an existing set of training measurement data and thus improve the training of a classifier and/or regressor for measurement data. Therefore, in a further particularly advantageous embodiment, in response to the synthetic measurement data being assessed as belonging to the distribution defined by the training measurement data, the synthetic measurement data is combined with measurement data recorded by at least one sensor to form a pool of measurement data. A classifier and/or regressor for measurement data is trained with this pool of measurement data.

Die Nutzanwendung des in dieser Weise verbesserten Trainings ist, den Klassifikator und/oder Regressor in die Lage zu versetzen, sensorisch aufgenommene Messdaten besser zu analysieren und auf zutreffendere Ergebnisse abzubilden. In einer weiteren besonders vorteilhaften Ausgestaltung werden daher dem trainierten Klassifikator und/oder Regressor Messdaten zugeführt, die mit mindestens einem Sensor aufgenommen wurden. Aus der Ausgabe des Klassifikators und/oder Regressors wird ein Ansteuersignal ermittelt. Ein Fahrzeug, ein System für die Überwachung von Bereichen, ein System für die Qualitätskontrolle, und/oder ein System für die medizinische Bildgebung, wird mit dem Ansteuersignal angesteuert. Auf diese Weise ist die Wahrscheinlichkeit erhöht, dass die vom jeweils angesteuerten System ausgeführte Reaktion der durch die Messdaten verkörperten Situation angemessen ist.The useful application of the training improved in this way is to enable the classifier and/or regressor to better analyze sensor-recorded measurement data and map them to more accurate results. In a further particularly advantageous embodiment, the trained classifier and/or regressor is supplied with measurement data that was recorded with at least one sensor. A control signal is determined from the output of the classifier and/or regressor. A vehicle, a system for monitoring areas, a system for quality control, and/or a system for medical imaging is controlled with the control signal. In this way, the probability is increased that the reaction carried out by the system being controlled is appropriate to the situation embodied by the measurement data.

Das Verfahren kann ganz oder teilweise computerimplementiert sein. Die Erfindung bezieht sich daher auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern und/oder Compute-Instanzen ausgeführt werden, den oder die Computer und/oder Compute-Instanzen dazu veranlassen, das hier beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen. Compute-Instanzen können insbesondere beispielsweise virtuelle Maschinen, Container oder andere Ausführungsumgebungen zur Ausführung von Programmcode in einer Cloud sein.The method can be fully or partially computer-implemented. The invention therefore also relates to a computer program with machine-readable instructions which, when executed on one or more computers and/or compute instances, cause the computer(s) and/or compute instances to carry out the method described herein. In this sense, control devices for vehicles and embedded systems for technical devices that are also capable of machines are also included Executing readable instructions is considered a computer. Compute instances can in particular be, for example, virtual machines, containers or other execution environments for executing program code in a cloud.

Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.The invention also relates to a machine-readable data carrier and/or to a download product with the computer program. A download product is a digital product that can be transferred via a data network, i.e. downloadable by a user of the data network and which can be offered for sale in an online shop for immediate download, for example.

Weiterhin können ein oder mehrere Computer und/oder Compute-Instanzen mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.Furthermore, one or more computers and/or compute instances can be equipped with the computer program, with the machine-readable data carrier or with the download product.

Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.Further measures improving the invention are shown in more detail below together with the description of the preferred exemplary embodiments of the invention using figures.

AusführungsbeispieleExamples of embodiments

Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100;
2 Illustration der Wirkung des Übergangs zu Trainings-Repräsentationen 4 und Test-Repräsentationen 5.

It shows:

1 Embodiment of the method 100;
2 Illustration of the effect of transitioning to training representations 4 and test representations 5.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Prüfung, inwieweit von einem auf der Basis von Trainings-Messdaten 1 trainierten Generator G erzeugte synthetische Messdaten 2 einer durch die Trainings-Messdaten 1 definierten Verteilung 1a angehören. Gemäß Block 105 können insbesondere beispielsweise durch Beobachtung eines Bereichs mit mindestens einem Sensor 9 aufgenommene Bilder, und/oder durch Auswertung von Reflexionen mindestens eines elektromagnetischen oder akustischen Abfragestrahls aus einem Bereich gewonnene Messergebnisse, als Trainings-Messdaten 1 gewählt werden. 1 is a schematic flow diagram of an exemplary embodiment of the method 100 for checking to what extent synthetic measurement data 2 generated by a generator G trained on the basis of training measurement data 1 belong to a distribution 1a defined by the training measurement data 1. According to block 105, in particular, for example, by observing an area with at least one sensor 9, images recorded and/or measurement results obtained from an area by evaluating reflections of at least one electromagnetic or acoustic interrogation beam can be selected as training measurement data 1.

In Schritt 110 werden die Trainings-Messdaten 1 mit einem Encoder 3 in Trainings-Repräsentationen 4 mit verminderter Dimensionalität überführt.In step 110, the training measurement data 1 is converted into training representations 4 with reduced dimensionality using an encoder 3.

In Schritt 120 werden die synthetischen Messdaten 2 mit dem gleichen Encoder 3 in eine oder mehrere Test-Repräsentationen 5 überführt.In step 120, the synthetic measurement data 2 are converted into one or more test representations 5 using the same encoder 3.

Gemäß den Blöcken 111 und 121 können hierbei Trainings-Messdaten 1 und synthetische Messdaten 2, die sich auf verschiedene von einem Klassifikator zu ermittelnde Soll-Klassen oder von einem Regressor zu ermittelnde Soll-Werte einer Regressionsgröße beziehen, getrennt voneinander untersucht werden.According to blocks 111 and 121, training measurement data 1 and synthetic measurement data 2, which relate to different target classes to be determined by a classifier or target values of a regression variable to be determined by a regressor, can be examined separately from one another.

Gemäß den Blöcken 112 und 122 kann ein Encoder 3 aus einer Encoder-Decoder-Anordnung gewählt werden, die darauf trainiert ist, Messdaten 1, 2 mit dem Encoder 3 in Repräsentationen 4, 5 mit verminderter Dimensionalität zu überführen und aus diesen Repräsentationen 4, 5 mit dem Decoder die Messdaten 1, 2 zu rekonstruieren.According to blocks 112 and 122, an encoder 3 can be selected from an encoder-decoder arrangement that is trained to convert measurement data 1, 2 with the encoder 3 into representations 4, 5 with reduced dimensionality and from these representations 4, 5 to reconstruct the measurement data 1, 2 with the decoder.

Insbesondere kann gemäß den Blöcken 112a und 122a eine Encoder-Decoder-Anordnung gewählt werden, die mit den Trainings-Messdaten 1 trainiert ist.In particular, according to blocks 112a and 122a, an encoder-decoder arrangement can be selected that is trained with the training measurement data 1.

Gemäß den Blöcken 113 und 123 können die Trainings-Repräsentationen 4, und/oder die Test-Repräsentationen 5, aus Merkmalskarten ermittelt werden, die ein Klassifikator aus den Trainings-Messdaten 1, bzw. aus den synthetischen Messdaten 2, ermittelt hat.According to blocks 113 and 123, the training representations 4 and/or the test representations 5 can be determined from feature maps that a classifier has determined from the training measurement data 1 or from the synthetic measurement data 2.

Gemäß den Blöcken 114 und 124 kann ein neuronales Netzwerk mit mehreren Schichten, die jeweils eine Eingabe erhalten und eine Ausgabe mit einer gegenüber der Eingabe verminderten Dimensionalität liefern, als Encoder 3 gewählt werden.According to blocks 114 and 124, a neural network with multiple layers, each receiving an input and providing an output with a reduced dimensionality compared to the input, may be selected as encoder 3.

In Schritt 130 wird für jede Test-Repräsentation 5 ein Repräsentations-Maß 6 ausgewertet. Dieses Repräsentations-Maß 6 gibt an, inwieweit die jeweilige Test-Repräsentation 5 einer durch die Trainings-Repräsentationen 4 definierten Verteilung 4a angehört.In step 130, a representation measure 6 is evaluated for each test representation 5. This representation measure 6 indicates to what extent the respective test representation 5 belongs to a distribution 4a defined by the training representations 4.

Gemäß Block 115 können Trainings- Repräsentationen 4 zu einer Gesamt-Repräsentation 4b aggregiert werden. Gemäß Block 131 kann dann das Auswerten 130 des Repräsentations-Maßes 6 einen Vergleich zwischen dieser Gesamt-Repräsentation 4b und der jeweiligen Test-Repräsentation 5 beinhalten.According to block 115, training representations 4 can be aggregated into an overall representation 4b. According to block 131, the evaluation 130 of the representation measure 6 can then include a comparison between this overall representation 4b and the respective test representation 5.

Gemäß Block 115a können aus den Trainings-Repräsentationen 4 durch unüberwachtes Clustern Mitglieder eines Clusters ermittelt werden. Gemäß Block 115b können dann nur diese Mitglieder des Clusters zu der Gesamt-Repräsentation 4b aggregiert werden.According to block 115a, members of a cluster can be determined from the training representations 4 by unsupervised clustering. According to block 115b, only these members of the cluster can then be aggregated into the overall representation 4b.

Gemäß Block 132 kann das Auswerten 130 des Repräsentations-Maßes 6 die Bestimmung einer Distanz zwischen der jeweiligen Test-Repräsentation 5 einerseits und Trainings-Repräsentationen 4, und/oder der Gesamt-Repräsentation 4b, andererseits beinhalten.According to block 132, the evaluation 130 of the representation measure 6 can include the determination of a distance between the respective test representation 5 on the one hand and training representations 4, and/or the overall representation 4b, on the other hand.

In Schritt 140 wird aus den Repräsentations-Maßen 6 nach einem vorgegebenen Kriterium 7 das gesuchte Maß 8 dafür ausgewertet, inwieweit die synthetischen Messdaten 2 der durch die Trainings-Messdaten 1 definierten Verteilung 1a angehören.In step 140, the desired measure 8 is evaluated from the representation measures 6 according to a predetermined criterion 7 to determine the extent to which the synthetic measurement data 2 belong to the distribution 1a defined by the training measurement data 1.

Gemäß Block 141 kann anhand eines Schwellwerts für das Repräsentations-Maß 6 entschieden werden, ob die synthetischen Messdaten 2 der durch die Trainings-Messdaten 1 definierten Verteilung 1a angehören.According to block 141, a decision can be made based on a threshold value for the representation measure 6 as to whether the synthetic measurement data 2 belongs to the distribution 1a defined by the training measurement data 1.

Gemäß Block 142 können diejenigen synthetischen Messdaten 2, deren Test-Repräsentationen 5 einen vorgegebenen Anteil, und/oder eine vorgegebene Anzahl N, der größten oder kleinsten Repräsentations-Maße 6 haben, als zur durch die Trainings-Messdaten 1 definierten Verteilung 1a gehörig, bzw. nicht gehörig, gewertet werden.According to block 142, those synthetic measurement data 2 whose test representations 5 have a predetermined proportion and/or a predetermined number N of the largest or smallest representation measures 6 can be considered to belong to the distribution 1a defined by the training measurement data 1, or .does not belong, be valued.

In Schritt 150 werden in Antwort darauf, dass die synthetischen Messdaten 2 als der durch die Trainings-Messdaten 1 definierten Verteilung 1a angehörend bewertet wurden, die synthetischen Messdaten 2 mit von mindestens einem Sensor 9 aufgenommenen Messdaten 1 zu einem Pool P von Messdaten zusammengeführt.In step 150, in response to the synthetic measurement data 2 being assessed as belonging to the distribution 1a defined by the training measurement data 1, the synthetic measurement data 2 is combined with measurement data 1 recorded by at least one sensor 9 to form a pool P of measurement data.

In Schritt 160 wird ein Klassifikator und/oder Regressor 10 für Messdaten mit diesem Pool P von Messdaten trainiert. Der fertig trainierte Zustand des Klassifikators und/oder Regressors 10 ist mit dem Bezugszeichen 10* bezeichnet.In step 160, a classifier and/or regressor 10 for measurement data is trained with this pool P of measurement data. The fully trained state of the classifier and/or regressor 10 is designated by the reference number 10*.

In Schritt 170 werden dem trainierten Klassifikator und/oder Regressor 10* Messdaten 1* zugeführt, die mit mindestens einem Sensor 9 aufgenommen wurden.In step 170, the trained classifier and/or regressor 10* is supplied with measurement data 1* which were recorded with at least one sensor 9.

In Schritt 180 wird aus der Ausgabe 10a des Klassifikators und/oder Regressors 10* ein Ansteuersignal 10b ermittelt.In step 180, a control signal 10b is determined from the output 10a of the classifier and/or regressor 10*.

In Schritt 190 wird ein Fahrzeug 50, ein System 60 für die Überwachung von Bereichen, ein System 70 für die Qualitätskontrolle, und/oder ein System 80 für die medizinische Bildgebung, mit dem Ansteuersignal 10b angesteuert.In step 190, a vehicle 50, a system 60 for monitoring areas, a system 70 for quality control, and/or a system 80 for medical imaging is controlled with the control signal 10b.

2 illustriert die vorteilhafte Wirkung eines Übergangs von Trainings-Messdaten 1 zu Trainings-Repräsentationen 4, verbunden mit dem Übergang von synthetischen Messdaten zu Test-Repräsentationen 5. 2 illustrates the beneficial effect of a transition from training measurement data 1 to training representations 4, combined with the transition from synthetic measurement data to test representations 5.

Die Trainings-Messdaten 1 und die synthetischen Messdaten 2 liegen in dem in 2 gezeigten Beispiel nahe beieinander. Es ist aber nicht unmittelbar einsichtig, ob die synthetischen Messdaten 2 der Verteilung 1a der Trainings-Messdaten 1 angehören.The training measurement data 1 and the synthetic measurement data 2 are in the in 2 example shown close to each other. However, it is not immediately clear whether the synthetic measurement data 2 belongs to the distribution 1a of the training measurement data 1.

Daher werden in Schritt 110 des Verfahrens 100 die Trainings-Messdaten 1 in Trainings-Repräsentationen 4 überführt. In Schritt 120 des Verfahrens 100 werden die synthetischen Messdaten 2 in Test-Repräsentationen 5 überführt.Therefore, in step 110 of method 100, the training measurement data 1 is converted into training representations 4. In step 120 of method 100, the synthetic measurement data 2 are converted into test representations 5.

Die Trainings-Repräsentationen 4 definieren eine Verteilung 4a im Raum der Repräsentationen, und sie lassen sich zu einer Gesamt-Repräsentation 4b aggregieren, die beispielsweise das Zentrum eines Clusters sein kann. Ausgehend hiervon kann jeder Test-Repräsentation 5 in Schritt 130 des Verfahrens 100 beispielsweise eine Entfernung zur Gesamt-Repräsentation 4b als Repräsentations-Maß 6 zugeordnet werden. Hieraus kann in Schritt 140 des Verfahrens 100 das gesuchte Maß 8 dafür ausgewertet werden, inwieweit die synthetischen Messdaten 2 der durch die Trainings-Messdaten 1 definierten Verteilung 1a angehören.The training representations 4 define a distribution 4a in the space of representations, and they can be aggregated into an overall representation 4b, which can be the center of a cluster, for example. Based on this, each test representation 5 can be assigned, for example, a distance to the overall representation 4b as a representation measure 6 in step 130 of the method 100. From this, in step 140 of the method 100, the desired measure 8 can be evaluated for the extent to which the synthetic measurement data 2 belong to the distribution 1a defined by the training measurement data 1.

Der Übergang zu den Trainings-Repräsentationen 4 und Test-Repräsentationen 5 hat in diesem Zusammenhang die vorteilhafte Wirkung, dass Unterschiede zwischen Trainings-Repräsentationen 4 und Test-Repräsentationen 5 deutlicher zu Tage treten als im Raum der Trainings-Messdaten 1 und synthetischen Messdaten 2.In this context, the transition to training representations 4 and test representations 5 has the advantageous effect that differences between training representations 4 and test representations 5 become more apparent than in the space of training measurement data 1 and synthetic measurement data 2.

Claims

Method (100) for checking to what extent synthetic measurement data (2) generated by a generator (G) trained on the basis of training measurement data (1) belong to a distribution (1a) defined by the training measurement data (1), with the steps : • the training measurement data (1) are converted into training representations (4) with reduced dimensionality using an encoder (3) (110); • the synthetic measurement data (2) are converted into one or more test representations (5) using the same encoder (3) (120); • for each test representation (5), a representation measure (6) is evaluated (130), which indicates the extent to which the respective test representation (5) belongs to a distribution (4a) defined by the training representations (4); • From the representation measures (6), the desired measure (8) is evaluated (140) according to a predetermined criterion (7) to determine the extent to which the synthetic measurement data (2) corresponds to the distribution (1a) defined by the training measurement data (1). belong.

Procedure (100) according to Claim 1 , where training measurement data (1) and synthetic measurement data (2), which relate to different target classes to be determined by a classifier or target values of a regres to be determined by a regressor sion size can be examined separately (111, 121).

Method (100) according to one of Claims 1 until 2 , wherein an encoder (3) is selected from an encoder-decoder arrangement (112, 122), which is trained to convert measurement data (1, 2) into representations (4, 5) with reduced dimensionality using the encoder (3). and to reconstruct the measurement data (1, 2) from these representations (4, 5) using the decoder.

Procedure (100) according to Claim 3 , whereby an encoder-decoder arrangement is selected (112a, 122a) which is trained with the training measurement data (1).

Method (100) according to one of Claims 1 until 4 , wherein the training representations (4) and/or the test representations (5) are determined from feature maps (113, 123), which a classifier creates from the training measurement data (1) or from the synthetic measurement data ( 2), determined.

Method (100) according to one of Claims 1 until 5 , where a neural network with several layers, each receiving an input and providing an output with a reduced dimensionality compared to the input, is chosen as the encoder (3) (114, 124).

Method (100) according to one of Claims 1 until 6 , where training representations (4) are aggregated (115) to form an overall representation (4b) and the evaluation (130) of the representation measure (6) makes a comparison between this overall representation (4b) and the respective test representation (5) includes (131).

Procedure (100) according to Claim 7 , whereby members of a cluster are determined from the training representations (4) by unsupervised clustering (115a) and only these members of the cluster are aggregated (115b) to form the overall representation (4b).

Method (100) according to one of Claims 1 until 8th , wherein the evaluation (130) of the representation measure (6) includes the determination of a distance between the respective test representation (5) on the one hand and training representations (4) and/or the overall representation (4b), on the other hand ( 132).

Method (100) according to one of Claims 1 until 9 , using a threshold value for the representation measure (6) to decide (141) whether the synthetic measurement data (2) belong to the distribution (1a) defined by the training measurement data (1).

Method (100) according to one of Claims 1 until 10 , whereby those synthetic measurement data (2) whose test representations (5) have a predetermined proportion and/or a predetermined number N of the largest or smallest representation dimensions (6) than those provided by the training measurement data (1) defined distribution (1a) can be considered as belonging or not as belonging (142).

Method (100) according to one of Claims 1 until 11 , wherein images recorded by observing an area with at least one sensor (9) and/or measurement results obtained from an area by evaluating reflections of at least one electromagnetic or acoustic interrogation beam are selected as training measurement data (1) (105).

Method (100) according to one of Claims 1 until 12 , in response to the fact that the synthetic measurement data (2) was assessed as belonging to the distribution (1a) defined by the training measurement data (1), • the synthetic measurement data (2) with measurement data recorded by at least one sensor (9) ( 1) are merged into a pool (P) of measurement data (150) and • a classifier and/or regressor (10) for measurement data is trained with this pool (P) of measurement data (160).

Procedure (100) according to Claim 13 , wherein • the trained classifier and/or regressor (10*) is supplied (170) with measured data (1*) which were recorded with at least one sensor (9); • a control signal (10b) is determined from the output (10a) of the classifier and/or regressor (10*) (180) and • a vehicle (50), a system (60) for monitoring areas, a system (70 ) for quality control, and / or a system (80) for medical imaging, with which the control signal (10b) is controlled (190).

Computer program containing machine-readable instructions which, when executed on one or more computers and / or compute instances, cause the computer or computers or compute instances to carry out the method (100) according to one of Claims 1 until 14 to carry out.

Machine-readable data carrier with the computer program Claim 15 .

One or more computers and/or compute instances with the computer program Claim 15 , and/or with the machine-readable data carrier Claim 16 .