DE102021212732A1

DE102021212732A1 - REVIEWING TESTING AND/OR TRAINING RECORDS FOR A COMPUTER-BASED MACHINE LEARNING MODULE

Info

Publication number: DE102021212732A1
Application number: DE102021212732.0A
Authority: DE
Inventors: Christoph Gladisch; Konrad Groh; Matthias Woehrle; Christian Heinzemann
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2023-05-11

Abstract

Ein erster allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes Verfahren zum Überprüfen von Test- und/oder Trainings-Datensätzen für ein computerbasiertes Maschinenlernmodul. Das Verfahren umfasst Empfangen eines Embeddings („Einbettung“ auf Deutsch) für jedes Datum eines ersten Test- und/oder Trainings-Datensatzes und eines zweiten Test- und/oder Trainings-Datensatzes für ein computerbasiertes Maschinenlernmodul. Ein Embedding repräsentiert ein Datum nach einer bestimmten Vorschrift durch einen Vektor niedrigerer Dimensionalität als das jeweilige Datum. Das Verfahren umfasst weiter Berechnen eines Ähnlichkeitsmaßes einer ersten Verteilung der Embeddings des ersten Datensatzes und einer zweiten Verteilung der Embeddings des zweiten Datensatzes und Ausgeben des berechneten Ähnlichkeitsmaßes.A first general aspect of the present disclosure relates to a computer-implemented method for checking test and/or training data sets for a computer-based machine learning module. The method includes receiving an embedding ("embedding" in German) for each datum of a first testing and/or training data set and a second testing and/or training data set for a computer-based machine learning module. An embedding represents a datum according to a specific rule by a vector with a lower dimensionality than the datum in question. The method further includes calculating a measure of similarity of a first distribution of the embeddings of the first data set and a second distribution of the embeddings of the second data set and outputting the calculated measure of similarity.

Description

Stand der TechnikState of the art

Computerbasierte Maschinenlernmodule - gerade solche für sicherheitskritische Anwendungen wie das autonome oder assistierte Fahren - müssen in vielen Fällen umfangreich getestet werden (in der vorliegenden Offenbarung umfasst der Begriff „Testen“ sowohl eine Validierung im Sinne einer Ermittlung einer Leistungsfähigkeit im Rahmen einer Modellauswahl des computerbasierten Maschinenlernmoduls als auch eine Überprüfung eines Generalisierungsfehlers des gewählten Modells - oft in einem engeren Sinne als „Testen“ bezeichnet). Dazu kann ein trainiertes computerbasiertes Maschinenlernmodul mit einem Test-Datensatz beschickt werden. Die Leistungsfähigkeit und/oder Zuverlässigkeit des trainierten computerbasierten Maschinenlernmoduls kann anhand der Ausgaben (z.B. Klassifikationsergebnisse) des computerbasierten Maschinenlernmoduls für die Daten des Test-Datensatzes bestimmt werden. Hierbei kann es notwendig sein, dass die Trainings- und Testdatensätze verschieden aber ausreichend ähnlich sind (z.B. können die Trainings- und Testdatensätze unabhängig und identisch verteilt aus einer gleichen Quelle gesampelt sein). Wenn das nicht der Fall ist, kann eine Leistungsfähigkeit und/oder Zuverlässigkeit des trainierten computerbasierten Maschinenlernmoduls in manchen Fällen anhand des Testdatensatzes nicht mit ausreichender Sicherheit bestimmt werden. Zum Beispiel ist denkbar, dass ein Test-Datensatz bestimmte Daten des Trainings-Datensatzes nicht oder unzureichend repräsentiert (d.h. eine Abdeckung des Trainings-Datensatzes durch den Test-Datensatz ist nicht ausreichend). In diesen Fällen kann eine Leistungsfähigkeit und/oder Zuverlässigkeit des trainierten computerbasierten Maschinenlernmoduls in Bezug auf die nicht oder unzureichend repräsentierten Daten des Trainings-Datensatzes in manchen Fällen nicht zuverlässig anhand des Test-Datensatzes bestimmte werden.Computer-based machine learning modules - especially those for safety-critical applications such as autonomous or assisted driving - must be extensively tested in many cases (in the present disclosure, the term "testing" includes both a validation in the sense of determining a performance within the framework of a model selection of the computer-based machine learning module as also a check of a generalization error of the chosen model - often referred to as "testing" in a narrower sense). For this purpose, a trained computer-based machine learning module can be loaded with a test data set. The performance and/or reliability of the trained computer-based machine learning module can be determined based on the outputs (e.g. classification results) of the computer-based machine learning module for the data of the test data set. It may be necessary here that the training and test data sets are different but sufficiently similar (e.g. the training and test data sets can be independently and identically distributed and sampled from the same source). If this is not the case, in some cases the performance and/or reliability of the trained computer-based machine learning module cannot be determined with sufficient certainty using the test data set. For example, it is conceivable that a test dataset does not represent certain data of the training dataset or does so insufficiently (i.e. the training dataset does not cover the training dataset sufficiently). In these cases, the performance and/or reliability of the trained computer-based machine learning module in relation to the data of the training dataset that is not represented or is insufficiently represented cannot be reliably determined using the test dataset in some cases.

Daher ist es erstrebenswert, Trainings- und Testdatensätze daraufhin zu prüfen, ob sie ausreichend ähnlich sind und ggf. eine ausreichende Ähnlichkeit der Trainings- und Testdatensätze herzustellen.It is therefore worthwhile to check training and test datasets to see whether they are sufficiently similar and, if necessary, to establish a sufficient similarity between the training and test datasets.

ZusammenfassungSummary

Ein erster allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein computer-implementiertes Verfahren zum Überprüfen von Test- und/oder Trainings-Datensätzen für ein computerbasiertes Maschinenlernmodul. Das Verfahren umfasst Empfangen eines Embeddings („Einbettung“ auf Deutsch) für jedes Datum eines ersten Test- und/oder Trainings-Datensatzes und eines zweiten Test- und/oder Trainings-Datensatzes für ein computerbasiertes Maschinenlernmodul. Ein Embedding repräsentiert ein Datum nach einer bestimmten Vorschrift durch einen Vektor niedrigerer Dimensionalität als das jeweilige Datum. Das Verfahren umfasst weiter Berechnen eines Ähnlichkeitsmaßes einer ersten Verteilung der Embeddings des ersten Datensatzes und einer zweiten Verteilung der Embeddings des zweiten Datensatzes und Ausgeben des berechneten Ähnlichkeitsmaßes.A first general aspect of the present disclosure relates to a computer-implemented method for checking test and/or training data sets for a computer-based machine learning module. The method includes receiving an embedding for each datum of a first testing and/or training dataset and a second testing and/or training dataset for a computer-based machine learning module. An embedding represents a datum according to a specific rule by a vector with a lower dimensionality than the datum in question. The method further includes calculating a measure of similarity of a first distribution of the embeddings of the first data set and a second distribution of the embeddings of the second data set and outputting the calculated measure of similarity.

Ein zweiter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Erzeugen eines augmentierten Datensatzes für ein computerbasiertes Maschinenlernmodul. Das Verfahren umfasst Überprüfen eines Test- und/oder Trainings-Datensatzes mittels des Verfahrens gemäß dem ersten allgemeinen Aspekt und Augmentieren des Test- und/oder Trainings-Datensatzes durch Hinzufügen einer oder mehrerer Daten, so dass eine Ähnlichkeit der ersten Verteilung der Embeddings des ersten Datensatzes und der zweiten Verteilung der Embeddings des zweiten Datensatzes in Bezug auf das Ähnlichkeitsmaß größer wird.A second general aspect of the present disclosure relates to a method for generating an augmented data set for a computer-based machine learning module. The method includes checking a test and / or training data set using the method according to the first general aspect and augmenting the test and / or training data set by adding one or more data, so that a similarity of the first distribution of the embeddings of the first data set and the second distribution of the embeddings of the second data set in relation to the measure of similarity becomes larger.

Ein dritter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Testen oder Trainieren eines computerbasierten Maschinenlernmoduls. Das Verfahren umfasst Empfangen eines überprüften Test- und/oder Trainings-Datensatzes gemäß dem ersten allgemeinen Aspekt oder eines augmentierten Test- und/oder Trainings-Datensatzes gemäß dem zweiten allgemeinen Aspekt und Testen oder Trainieren des computerbasierten Maschinenlernmoduls mit dem empfangenen Datensatz, um ein getestetes oder trainiertes Maschinenlernmodul zu erhalten.A third general aspect of the present disclosure relates to a method for testing or training a computer-based machine learning module. The method includes receiving a verified test and/or training data set according to the first general aspect or an augmented test and/or training data set according to the second general aspect and testing or training the computer-based machine learning module with the received data set to generate a tested or receive a trained machine learning module.

Ein vierter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein Verfahren zum Anwenden eines computerbasierten Maschinenlernmoduls. Das Verfahren umfasst Bereitstellen eines getesteten oder trainierten Maschinenlernmoduls gemäß dem dritten allgemeinen Aspekt und Prozessieren von Anwendungsdaten durch das empfangene Maschinenlernmodul.A fourth general aspect of the present disclosure relates to a method for applying a computer-based machine learning module. The method comprises providing a tested or trained machine learning module according to the third general aspect and processing application data by the received machine learning module.

Ein fünfter allgemeiner Aspekt der vorliegenden Offenbarung betrifft ein System, das dazu ausgelegt ist, die Verfahren nach einem der ersten bis vierten allgemeinen Aspekte auszuführen.A fifth general aspect of the present disclosure relates to a system configured to carry out the methods of any one of the first to fourth general aspects.

Die Techniken der ersten bis fünften allgemeinen Aspekte können in manchen Fällen eine oder mehrere Vorteile haben.The techniques of the first through fifth general aspects may have one or more advantages in some cases.

Erstens kann mittels der Techniken der vorliegenden Offenbarung in manchen Fällen überprüft werden, ob ein Test-Datensatz und ein Trainings-Datensatz ausreichend ähnlich sind, so dass ein mit dem Trainings-Datensatz trainiertes computerbasiertes Maschinenlernmodul mit ausreichender Zuverlässigkeit mit dem Test-Datensatz getestet werden kann. Damit kann sichergestellt werden, dass Training und/oder Test das computerbasierte Maschinenlernmodul in Bezug auf seine Aufgaben im Feld ausreichend vorbereiten. Indem ein Ähnlichkeitsmaß der Verteilungen der beiden Trainingsdatensätze bestimmt wird, kann eine globale Aussage bezüglich der Datensätze gemacht werden. Dabei kann der Grund, warum ein Ähnlichkeitsmaß zweier Datensätze (zu) gering ist sowohl in einem der beiden Datensätze als auch in beiden verortet sein. Beispielsweise können Daten in bestimmten Bereichen im Trainings-Datensatz oder im Test-Datensatz fehlen oder in zu geringer Anzahl vorhanden sein (z.B. Bilddaten von bestimmten Schildern bei Nacht und Regen). Solche und andere Probleme können mittels der Berechnung des Ähnlichkeitsmaßes basierend auf den Embeddings in manchen Fällen relativ zügig und mit vertretbarem Aufwand aufgespürt werden. Dadurch kann in manchen Fällen verhindert werden, dass nicht ausreichend trainiert und/oder getestete computerbasierte Maschinenlernmodule im Feld eingesetzt und dort möglicherweise nicht zufriedenstellend funktionieren (was je nach technischer Umgebung verschiedene Folgen von Ärgernissen bis zu erheblichen Sicherheitsrisiken nach sich ziehen kann).First, in some cases, using the techniques of the present disclosure, it can be verified whether a test data set and a training data set are sufficiently similar that a with the training data set trained computer-based machine learning module can be tested with sufficient reliability with the test data set. It can thus be ensured that the training and/or test adequately prepare the computer-based machine learning module with regard to its tasks in the field. By determining a similarity measure of the distributions of the two training datasets, a global statement can be made about the datasets. The reason why a measure of similarity between two data sets is (too) low can be located in one of the two data sets or in both. For example, data in certain areas in the training data set or in the test data set can be missing or too small (eg image data of certain signs at night and in the rain). In some cases, such and other problems can be detected relatively quickly and with reasonable effort by calculating the similarity measure based on the embeddings. In some cases, this can prevent insufficiently trained and/or tested computer-based machine learning modules from being used in the field and possibly not functioning satisfactorily there (which, depending on the technical environment, can have various consequences, from annoyances to significant security risks).

Zweitens können die Embeddings der Techniken der vorliegenden Offenbarung flexibel gewählt werden und eine größere Aussagekraft haben für die Bestimmung der Ähnlichkeit der Datensätze als andere Informationen. Beispielsweise ist es möglich, dass der Vektor des Embeddings sowohl basierend auf den Nutzinformationen eines Datums (z.B. den Bilddaten) als auch Metainformationen des Datums (z.B. menschenlesbare Labels) generiert wird. Zudem können für verschiedene Fragestellungen angepasste Embeddings erzeugt und verwendet werden. So kann bspw. das Embedding eine Darstellung aus einer Zwischenschicht eines computerbasierten Maschinenlernmoduls enthalten oder aus dieser ermittelt werden. Das kann hilfreich sein, da die Unterschiede in den Vektoren der Embeddings Unterschiede in den durch die computerbasierten Maschinenlernmodule prozessierten Informationen widerspiegeln können. Das Berechnen eines Ähnlichkeitsmaßes basierend auf dieser Information kann aussagekräftiger sein für die Frage, ob z.B. die Daten eines Trainings-Datensatzes in einem Test-Datensatz adäquat repräsentiert sind, als Ähnlichkeitsmaße der Daten selbst. Zudem kann in manchen Fällen die Verarbeitung der niedrigerdimensionalen Vektoren erheblich schneller und/oder ressourcensparender sein als die Verarbeitung der Daten selbst. In manchen Situationen kann das Embedding um Größenordnungen kleiner sein als die Daten selbst, was deren Verarbeitung entsprechend beschleunigen und/oder ressourcensparend gestalten kann. Beide Faktoren können in manchen Fällen zusammenwirken, so dass eine aussagekräftige und effiziente Beurteilung einer gegenseitigen Abdeckung zweier Datensätze möglich wird.Second, the embeddings of the techniques of the present disclosure can be chosen flexibly and have more meaningfulness than other information in determining the similarity of the data sets. For example, it is possible that the vector of the embedding is generated both based on the useful information of a datum (e.g. the image data) and meta information of the datum (e.g. human-readable labels). In addition, customized embeddings can be created and used for various questions. For example, the embedding can contain a representation from an intermediate layer of a computer-based machine learning module or be determined from this. This can be helpful as the differences in the vectors of the embeddings can reflect differences in the information processed by the computer-based machine learning modules. Calculating a similarity measure based on this information can be more meaningful for the question whether e.g. the data of a training dataset is adequately represented in a test dataset than similarity measures of the data itself. In addition, in some cases the processing of the lower-dimensional vectors can be significantly faster and/or be more resource-efficient than the processing of the data itself. In some situations, the embedding can be orders of magnitude smaller than the data itself, which can correspondingly speed up its processing and/or make it resource-efficient. In some cases, both factors can interact so that a meaningful and efficient assessment of mutual coverage of two data sets becomes possible.

Drittens können unter Benutzung eines auf der Verteilung von Embeddings ermittelten Ähnlichkeitsmaßes Datensätze augmentiert werden, um eine durch zu niedrige Ähnlichkeit möglicherweise erzeugte Probleme zu vermeiden. Wiederum kann das in manchen Fällen durch die Verwendung der Embeddings erleichtert werden, weil die Embeddings für die Leistungsfähigkeit des computerbasierten Maschinenlernmoduls relevante Merkmale in manchen Situationen besser und/oder klarer widerspiegeln können als die Daten selbst. Die unzureichende Ähnlichkeit im Raum der Embeddings kann somit in manchen Fällen aussagekräftiger sein für das Vorliegen eines Problems als anhand der Daten selbst ermittelte Ähnlichkeiten.Third, using a measure of similarity determined on the distribution of embeddings, datasets can be augmented in order to avoid problems that may be caused by a similarity that is too low. Again, this can be facilitated in some cases by using the embeddings, because in some situations the embeddings can reflect features relevant to the performance of the computer-based machine learning module better and/or more clearly than the data itself. The insufficient similarity in space of the embeddings can thus be sometimes be more predictive of the existence of a problem than similarities found in the data itself.

Einige Begriffe werden in der vorliegenden Offenbarung in bestimmter Weise verwendet.Some terms are used in a specific manner in this disclosure.

Ein „computerbasiertes Maschinenlernmodul“ ist in der vorliegenden Offenbarung jede Vorrichtung, die mittels maschinellen Lernens für eine oder mehrere Aufgaben trainiert werden kann oder wurde. Im Rahmen eines Trainings können dem computerbasierten Maschinenlernmodul Trainingsdaten als Eingabedaten zugeführt und die Eigenschaften des computerbasierten Maschinenlernmoduls in Antwort auf die Verarbeitung der Trainingsdaten (bspw. durch eine Analyse der Ausgabedaten) angepasst werden, um die einen oder mehreren Aufgaben in einer definierten Weise (z.B. mit einer bestimmten Genauigkeit) zu lösen. Ein computerbasiertes Maschinenlernmodul kann ein Modell enthalten, das die Form einer Prozessierung der jeweiligen Eingangsdaten zu Ausgangsdaten bestimmt. Das Modell kann parametrisiert sein, wobei die Parameter des computerbasierten Maschinenlernmoduls beim Lernen festgelegt werden. Computerbasierte Maschinenlernmodule können (künstliche) neuronale Netze umfassen (z.B. faltende und/oder rekurrente und/oder tiefe neuronale Netze - erstere werden üblicherweise als CNNs und RNNs bezeichnet), sind aber nicht auf diese beschränkt. Computerbasierte Maschinenlernmodule können für verschiedene Aufgaben eingerichtet (und ggf. trainiert sein). Z.B. kann ein computerbasiertes Maschinenlernmodul eine Klassifikations-Aufgabe oder eine Regressions-Aufgabe ausführen. Computerbasierte Maschinenlernmodule können in jeder geeigneten Form implementiert werden, d.h., in Software, in dedizierter Hardware oder in einer Mischform aus Software und dedizierter Hardware. Daher können die computerbasierten Maschinenlernmodule ein Software-Modul sein (auch in ein übergeordnetes Software-System integriert), dass auf einem Universalprozessor ausgeführt werden kann. In anderen Fällen kann ein computerbasiertes Maschinenlernmodul (zumindest teilweise) schaltungstechnisch implementiert sein.A “computer-based machine learning module” in the present disclosure is any device that can be or has been trained to perform one or more tasks using machine learning. As part of a training, the computer-based machine learning module can be supplied with training data as input data and the properties of the computer-based machine learning module can be adjusted in response to the processing of the training data (e.g. by analyzing the output data) in order to perform the one or more tasks in a defined way (e.g. with a certain accuracy). A computer-based machine learning module can contain a model that determines the form of processing the respective input data into output data. The model may be parameterized, where the parameters of the computer-based machine learning module are fixed during learning. Computer-based machine learning modules may include, but are not limited to, (artificial) neural networks (eg, convolutional and/or recurrent and/or deep neural networks - the former are commonly referred to as CNNs and RNNs). Computer-based machine learning modules can be set up (and possibly trained) for various tasks. For example, a computer-based machine learning module can perform a classification task or a regression task. Computer-based machine learning modules can be implemented in any suitable form, ie, in software, in dedicated hardware, or in a hybrid of software and dedicated hardware. Therefore, the computer-based machine learning modules can be a software module (also in a higher-level Integrated software system) that can be run on a general-purpose processor. In other cases, a computer-based machine learning module may be implemented (at least in part) in circuitry.

Ein „Embedding“ repräsentiert in der vorliegenden Offenbarung ein Datum nach einer bestimmten Vorschrift durch einen Vektor niedrigerer Dimensionalität als das jeweilige Datum. Ein Embedding ist also eine Repräsentation des jeweiligen Datums in einem Raum niedrigerer Dimensionalität als ein Raum, in dem die Daten selbst dargestellt werden können. Der Begriff Embedding sagt aus, dass das jeweilige Datum in den Raum niedrigerer Dimensionalität eingebettet ist, d.h. mittels der bestimmten Vorschrift in diesen Raum transformiert wird. An die bestimmte Vorschrift sind keine weiteren Anforderungen gerichtet. In manchen Beispielen ist die bestimmte Vorschrift das Verarbeiten eines Datums mit einem computerbasierten Maschinenlernmodul, wobei die Embeddings aus dem computerbasierten Maschinenlernmoduls ausgelesen werden (bspw. als eine Mehrzahl von Aktivierungen und/oder Ausgaben von Einheiten des computerbasierten Maschinenlernmoduls). Beispielsweise kann ein Bild-Datum, das 1024x2048 Bildpunkte enthält, wobei jeder Bildpunkt drei Farbwerte mit 16 Bit Farbtiefe aufweist, durch ein Embedding mit 100 Elementen repräsentiert sein (z.B. die Aktivierungswerte an einer bestimmten Stelle eines neuronalen Netzes). Zusätzliche Aspekte der Natur und Erzeugung der Embeddings werden weiter unten besprochen.In the present disclosure, an “embedding” represents a datum according to a specific regulation by a vector of lower dimensionality than the respective datum. An embedding is therefore a representation of the respective date in a space with a lower dimensionality than a space in which the data itself can be represented. The term embedding means that the respective datum is embedded in the space of lower dimensionality, i.e. it is transformed into this space by means of the specific rule. No other requirements are directed to the specific regulation. In some examples, the particular rule is processing a datum with a computer-based machine learning module, wherein the embeddings are read from the computer-based machine learning module (e.g., as a plurality of activations and/or outputs from units of the computer-based machine learning module). For example, an image datum containing 1024x2048 pixels, each pixel having three color values with a color depth of 16 bits, can be represented by an embedding with 100 elements (e.g. the activation values at a specific point in a neural network). Additional aspects of the nature and creation of the embeddings are discussed below.

Der Begriff „Vektor“ beschreibt in der vorliegenden Offenbarung eine geordnete Folge von Elementen (z.B. zehn oder mehr Elemente oder fünfzig oder mehr Elemente oder 100 oder mehr Elemente). Ein Element kann bspw. eine reelle Zahl, eine ganze Zahl oder eine natürliche Zahl sein. Ein Vektor kann in verschiedenen Formen dargestellt und/oder abgespeichert werden. Z.B. sind die Einträge einer Matrix mit mehreren Zeilen und Spalten ein Vektor, da die Inhalte eine geordnete Folge von Elementen enthalten. Gleiches gilt für eine Liste von Tupeln (z.B. die einer Rangnummer oder einem Identifizierer einem Element zuordnet).The term "vector" in the present disclosure describes an ordered sequence of elements (e.g. ten or more elements, or fifty or more elements, or 100 or more elements). For example, an element can be a real number, an integer, or a natural number. A vector can be displayed and/or saved in various forms. For example, the entries in a matrix with multiple rows and columns are a vector because the contents contain an ordered sequence of elements. The same applies to a list of tuples (e.g. that assigns a rank number or an identifier to an element).

Ein „Test-Datensatz“ ist gemäß der vorliegenden Offenbarung eine Sammlung von einer Mehrzahl von Daten, die zum Testen eines computerbasierten Maschinenlernmoduls geeignet und ausgewählt sind. Wie erwähnt werden die Elemente des Datensatzes als Daten (Einzahl Datum) bezeichnet. Je nach Natur des zu testenden computerbasierten Maschinenlernmoduls können die Daten eines Test-Datensatzes ein oder mehrere Label enthalten. So kann jedes Datum eines Test-Datensatzes mit Bilddaten ein Einzelbild (oder ein Ausschnitt daraus) oder ein Video enthalten. Metainformationen und andere dem einzelnen Datum zugeordneten Informationen (z.B. Labels) werden als Teil des Datums bezeichnet. Der Teil des Datums, der von dem computerbasierten Maschinenlernmodul im Rahmen seiner Ausführung prozessiert wird, wird als Nutzinformation bezeichnet (z.B. die Bildinformation in einem Bilddatum).A "test data set" according to the present disclosure is a collection of a plurality of data suitable and selected for testing a computer-based machine learning module. As mentioned, the elements of the dataset are referred to as data (singular date). Depending on the nature of the computer-based machine learning module to be tested, the data of a test data set can contain one or more labels. Each datum of a test data set with image data can contain a single image (or a section from it) or a video. Meta information and other information associated with the individual datum (e.g. labels) are referred to as part of the datum. The part of the datum that is processed by the computer-based machine learning module as part of its execution is referred to as useful information (e.g. the image information in an image datum).

Ein „Trainings-Datensatz“ ist gemäß der vorliegenden Offenbarung eine Sammlung von einer Mehrzahl von Daten, die zum Training eines computerbasierten Maschinenlernmoduls geeignet und ausgewählt sind. Für den Trainingsdatensatz gilt im Übrigen das für Test-Datensätze gesagte gleichsam.According to the present disclosure, a “training dataset” is a collection of a plurality of data suitable and selected for training a computer-based machine learning module. Incidentally, what was said for test data sets also applies to the training data set.

Der Begriff „Datenbank“ umfasst in der vorliegenden Offenbarung jedes System, in dem Daten (z.B. Daten eines Test- und/oder Trainings-Datensatzes) gespeichert und bereitgestellt werden können. Eine Datenbank kann jedwede physikalische Implementierung haben (z.B. über mehrere Orte verteilt sein).In the present disclosure, the term "database" encompasses any system in which data (e.g. data of a test and/or training data set) can be stored and made available. A database can have any physical implementation (e.g. distributed across multiple locations).

Figurenlistecharacter list

1 FIG. 12 is a flow chart illustrating the methods of the present disclosure.
2 FIG. 12 schematically shows a system for performing the techniques of the present disclosure.
3 FIG. 12 schematically shows a technique for creating embeddings according to the present disclosure.
4 is a schematic representation of the distributions of embeddings of multiple datasets.

Detaillierte BeschreibungDetailed description

Zunächst wird anhand von 1 und 2 ein Überblick über die Techniken der vorliegenden Offenbarung gegeben. Danach wird das Erzeugen der Embeddings in Bezug auf 3 genauer erläutert. Schließlich folgt anhand von 4 eine Diskussion der Techniken zum Verwenden der mittels der Techniken der vorliegenden Offenbarung gewonnen Ähnlichkeitsinformation. Zuletzt werden einige konkrete Anwendungen der computerbasierten Maschinenlernmodule der vorliegenden Offenbarung vorgestellt.First, based on 1 and 2 an overview of the techniques of the present disclosure is provided. After that, the creation of the embeddings in relation to 3 explained in more detail. Finally follows with the help of 4 a discussion of techniques for using the similarity information obtained using the techniques of the present disclosure. Finally, some concrete applications of the computer-based machine learning modules of the present disclosure are presented.

1 ist ein Flussdiagramm, dass die Verfahren der vorliegenden Offenbarung illustriert. 1 zeigt in drei verschiedenen Spalten ein Verfahren zum Erzeugen der Embeddings 110 (links), ein Verfahren zum Überprüfen von Test- und/oder Trainings-Datensätzen für ein computerbasiertes Maschinenlernmodul 120 (Mitte) und ein Verfahren zur Verwendung der berechneten Ähnlichkeitsmaße 130 (rechts). 1 FIG. 12 is a flow chart illustrating the methods of the present disclosure. 1 shows in three different columns a method for creating the embeddings 110 (left), a method for checking test and/or training data sets for a computer-based machine learning module 120 (middle) and a method for using the calculated similarity measures 130 (right).

Ein Computer-implementiertes Verfahren zum Überprüfen von Test- und/oder Trainings-Datensätzen für ein computerbasiertes Maschinenlernmodul umfasst Empfangen 121 eines Embeddings für jedes Datum eines ersten Test- und/oder Trainings-Datensatzes (auch kurz als „erster Datensatz“ bezeichnet) und eines zweiten Test- und/oder Trainings-Datensatzes (auch kurz als „zweiter Datensatz“ bezeichnet) für ein computerbasiertes Maschinenlernmodul. Ein Embedding repräsentiert ein Datum nach einer bestimmten Vorschrift durch einen Vektor niedrigerer Dimensionalität als das jeweilige Datum. In anderen Worten wird für jedes Datum des ersten Test- und/oder Trainings-Datensatzes und jedes Datum des zweiten Test- und/oder Trainings-Datensatzes ein jeweiliges Embedding empfangen.A computer-implemented method for reviewing test and/or training datasets for a computer-based machine learning module includes receiving 121 an embedding for each datum of a first test and/or training dataset (also referred to as “first dataset” for short) and one second test and/or training dataset (also referred to as “second dataset” for short) for a computer-based machine learning module. An embedding represents a datum according to a specific rule by a vector with a lower dimensionality than the datum in question. In other words, a respective embedding is received for each datum of the first test and/or training data record and each datum of the second test and/or training data record.

In manchen Beispielen ist der erste Test- und/oder Trainings-Datensatz ein Trainings-Datensatz und der zweite Test- und/oder Trainings-Datensatz ein Testdatensatz. Es ist aber auch denkbar, dass sowohl der erste als auch der zweite Test- und/oder Trainings-Datensatz ein Trainings-Datensatz sind oder dass sowohl der erste als auch der zweite Test- und/oder Trainings-Datensatz ein Test-Datensatz sind.In some examples, the first testing and/or training data set is a training data set and the second testing and/or training data set is a testing data set. However, it is also conceivable that both the first and the second test and/or training data record are a training data record or that both the first and the second test and/or training data record are a test data record.

In manchen Beispielen kann das Verfahren Erzeugen 110 der Embeddings für jedes Datum des ersten Test- und/oder Trainings-Datensatzes und des zweiten Test- und/oder Trainings-Datensatzes für das computerbasierte Maschinenlernmodul umfassen (dazu mehr in Bezug auf 3). In anderen Beispielen können die Embeddings aus einer Embedding-Datenbank ausgelesen werden (d.h., die Embeddings wurden zu einem früheren Zeitpunkt erzeugt und für eine spätere Verwendung in der Datenbank gespeichert).In some examples, the method may include generating 110 the embeddings for each datum of the first testing and/or training dataset and the second testing and/or training dataset for the computer-based machine learning module (more on this with reference to 3 ). In other examples, the embeddings may be read from an embedding database (ie, the embeddings were previously created and stored in the database for later use).

Das Verfahren umfasst weiterhin Berechnen 123 eines Ähnlichkeitsmaßes einer ersten Verteilung der Embeddings des ersten Datensatzes und einer zweiten Verteilung der Embeddings des zweiten Datensatzes. Eine Verteilung ist hierbei die Verteilung der Embeddings in einem Raum niedrigerer Dimensionalität der Vektoren der Embeddings.The method further includes calculating 123 a measure of similarity of a first distribution of the embeddings of the first data set and a second distribution of the embeddings of the second data set. A distribution here is the distribution of the embeddings in a space of lower dimensionality of the vectors of the embeddings.

Das Berechnen eines Ähnlichkeitsmaßes kann die Verwendung einer Ähnlichkeitsmetrik der ersten und zweiten Verteilungen beinhalten. In anderen Worten kann ermittelt werden, inwieweit sich die erste und zweite Verteilung im Raum der Embeddings unterscheiden. Dabei kann jede Ähnlichkeitsmetrik zum Einsatz kommen, die basierend auf den Verteilungen eine globale Aussage über die Ähnlichkeit der ersten und zweiten Verteilungen ermittelt. Zum Beispiel kann ein Kullback-Leibler-Abstand der ersten und zweiten Verteilungen oder ein mittels einer Wasserstein-Metrik ermittelter Abstand zwischen ersten und zweiten Verteilungen berechnet werden (wobei ein größerer Abstand eine kleinere Ähnlichkeit bedeutet). In manchen Beispielen kann die Berechnung des Ähnlichkeitsmaßes approximiert werden (z.B. eine Dimensionalität der Embeddings kann reduziert werden und/oder eine Verteilung der Embeddings kann approximiert werden).Calculating a measure of similarity may include using a similarity metric of the first and second distributions. In other words, it can be determined to what extent the first and second distribution differ in the space of the embeddings. Any similarity metric can be used that determines a global statement about the similarity of the first and second distributions based on the distributions. For example, a Kullback-Leibler distance of the first and second distributions, or a distance between the first and second distributions determined using a Wasserstein metric (where larger distance means less similarity) can be calculated. In some examples, the calculation of the measure of similarity can be approximated (e.g. a dimensionality of the embeddings can be reduced and/or a distribution of the embeddings can be approximated).

In manchen Beispielen kann das Verfahren Ermitteln 122 der ersten Verteilung der Embeddings für die Daten des ersten Test- und/oder Trainings-Datensatzes und der zweiten Verteilung der Embeddings für die Daten des zweiten Test- und/oder Trainings-Datensatzes umfassen. Das Ermitteln der Verteilungen 122 und das Berechnen des Ähnlichkeitsmaßes 123 kann in einem Schritt unter Verwendung der Vektoren der Embeddings geschehen.In some examples, the method may include determining 122 the first distribution of embeddings for the data of the first testing and/or training dataset and the second distribution of embeddings for the data of the second testing and/or training dataset. Determining the distributions 122 and calculating the degree of similarity 123 can be done in one step using the vectors of the embeddings.

Je nach verwendeter Ähnlichkeitsmetrik ergibt sich für die erste und zweite Verteilung ein Ähnlichkeitsmaß. Dabei kann das Ähnlichkeitsmaß jede beliebige Form annehmen (z.B. einen reellen Wert). Wiederum je nach verwendeter Ähnlichkeitsmetrik kann in manchen Beispielen ein höher Wert eine größere Ähnlichkeit der ersten und zweiten Verteilungen bedeuten als ein niedrigerer Wert (oder umgekehrt).Depending on the similarity metric used, a measure of similarity results for the first and second distribution. The similarity measure can take any form (e.g. a real value). Again depending on the similarity metric used, in some examples a higher value may mean a greater similarity of the first and second distributions than a lower value (or vice versa).

Das Verfahren umfasst weiterhin Ausgeben 124 des berechneten Ähnlichkeitsmaßes.The method further includes outputting 124 the calculated measure of similarity.

In manchen Beispielen kann die erste und/oder die zweite Verteilung eine Verteilung einer Untermenge der ersten bzw. zweiten Embeddings umfassen. Zum Beispiel können die Embeddings des ersten Test- und/oder Trainings-Datensatzes und/oder die Embeddings des Test- und/oder Trainings-Datensatzes nach einem vordefinierten Kriterium gefiltert werden. Das vordefinierte Kriterium kann sich auf Teile der Embeddings beziehen, die basierend auf Nutzinformation eines jeweiligen Datums (z.B. die Bilddaten) erzeugt sind. Zusätzlich oder alternativ kann das vordefinierte Kriterium sich auf Teile der Embeddings beziehen, die basierend auf Metainformationen des Datums (z.B. menschenlesbare Labels) erzeugt sind. Z.B. kann nach gewissen Charakteristika der Daten gefiltert werden. Im Falle von Bilddaten können solche Embeddings gefiltert werden, die bestimmte Bildinhalte zeigen (z.B. bestimmte Objekte und/oder bestimmte Umgebungsbedingungen). Das Filtern kann in diesem Fall unter Benutzung der menschenlesbaren Metainformationen (z.B. Labels) geschehen.In some examples, the first and/or second distribution may include a distribution of a subset of the first and second embeddings, respectively. For example, the embeddings of the first test and/or training data set and/or the embeddings of the test and/or training data set can be filtered according to a predefined criterion. The predefined criterion may relate to parts of the embeddings that are generated based on a respective datum's payload (e.g. the image data). Additionally or alternatively, the predefined criterion may refer to parts of the embeddings that are generated based on meta-information of the datum (e.g. human-readable labels). For example, you can filter according to certain characteristics of the data. In the case of image data, embeddings that show specific image content (e.g. specific objects and/or specific environmental conditions) can be filtered. In this case, filtering can be done using human-readable meta information (e.g. labels).

2 zeigt schematisch ein System 20 zur Durchführung der Techniken der vorliegenden Offenbarung. Das System 20 ist in diesem Beispiel in eine Bearbeitungseinheit 21 und eine Ausgabeschnittstelle 22 unterteilt. 2 FIG. 1 schematically shows a system 20 for performing the techniques of the present disclosure payment. In this example, the system 20 is divided into a processing unit 21 and an output interface 22 .

Die Daten des ersten Test- und/oder Trainings-Datensatzes können in einer ersten Datenbank 23 gespeichert sein. Die Daten des zweiten Test- und/oder Trainings-Datensatzes können in einer zweiten Datenbank 24 gespeichert sein. Eine Verarbeitungseinheit 25 ist mit den ersten und zweiten Datenbanken 23, 24 gekoppelt. Die Verarbeitungseinheit kann ein erste Untereinheit 26 aufweisen, die aus den Test- und/oder Trainings-Datensätzen die jeweiligen ersten und zweiten Embeddings berechnet. In anderen Beispielen können die ersten und zweiten Embeddings in einer Embedding-Datenbank (nicht in 2 gezeigt) abgelegt sein. Die Verarbeitungseinheit kann zudem eine zweite Untereinheit 27 aufweisen, die dazu ausgelegt ist, die ersten und zweiten Embeddings zu empfangen und ein Ähnlichkeitsmaß einer ersten Verteilung der Embeddings des ersten Test- und/oder Trainings-Datensatzes und einer zweiten Verteilung der Embeddings des zweiten Test- und/oder Trainings-Datensatzes zu berechnen (und ggf. weitere Schritte durchzuführen). Das berechnete Ähnlichkeitsmaß kann über die Ausgabeschnittstelle 22 ausgegeben werden.The data of the first test and/or training data record can be stored in a first database 23 . The data of the second test and/or training data record can be stored in a second database 24 . A processing unit 25 is coupled to the first and second databases 23,24. The processing unit can have a first sub-unit 26, which calculates the respective first and second embeddings from the test and/or training data sets. In other examples, the first and second embeddings can be stored in an embedding database (not in 2 shown) must be filed. The processing unit can also have a second sub-unit 27, which is designed to receive the first and second embeddings and a similarity measure of a first distribution of the embeddings of the first test and/or training data set and a second distribution of the embeddings of the second test data set. and/or training data set (and, if necessary, carry out further steps). The calculated degree of similarity can be output via the output interface 22 .

Die Aufteilung gemäß 2 ist nur beispielhaft. Generell betrifft die vorliegende Offenbarung jedes System, dass dazu ausgelegt ist, die Verfahren gemäß der vorliegenden Offenbarung auszuführen (z.B. ein Stand-Alone-System oder ein verteiltes System). Das System kann in jeder geeigneten Hardwareumgebung implementiert sein. In manchen Beispielen umfasst das System einen Speicher, der Anweisungen zur Ausführung der Schritte der Verfahren der vorliegenden Offenbarung enthält und einen Prozessor, der ausgelegt ist, die Anweisungen in dem Speicher auszuführen (ein Prozessor und ein Speicher sind hierbei nicht auch eine einzelne physikalische Komponente beschränkt.The division according to 2 is just an example. In general, the present disclosure relates to any system configured to perform the methods according to the present disclosure (eg, a stand-alone system or a distributed system). The system can be implemented in any suitable hardware environment. In some examples, the system includes a memory containing instructions for performing the steps of the methods of the present disclosure and a processor configured to execute the instructions in the memory (a processor and a memory are not limited to a single physical component .

In der Folge wird die Natur und das Erzeugen der Embeddings genauer beschrieben. 3 zeigt schematisch eine Technik 30 zum Erzeugen von Embeddings gemäß der vorliegenden Offenbarung.The nature and creation of the embeddings is described in more detail below. 3 FIG. 3 schematically shows a technique 30 for creating embeddings according to the present disclosure.

In manchen Beispielen kann das Verfahren das Erzeugen des ersten Test- und/oder Trainings-Datensatzes und des zweiten Test- und/oder Trainings-Datensatzes durch Filtern von umfassenderen Datensätzen, die die ersten und zweiten Test- und/oder Trainings-Datensätze beinhalten, umfassen. In manchen Beispielen kann das Filtern Daten der umfassenderen Datensätze mit bestimmten Merkmalen umfassen (z.B. Bilddaten mit bestimmten Inhalten).In some examples, the method may include generating the first testing and/or training data set and the second testing and/or training data set by filtering broader data sets that include the first and second testing and/or training data sets, include. In some examples, filtering may include data from the broader datasets with certain characteristics (e.g., image data with certain content).

In manchen Beispielen können die Vektoren der Embeddings zumindest teilweise (d.h., der komplette Vektor oder nur ein Teil des Vektors) durch Verarbeiten des jeweiligen Datums durch ein computerbasiertes Maschinenlernmodul erzeugt werden. In anderen Worten wird ein Datum eines Test- und/oder Trainings-Datensatzes in ein computerbasiertes Maschinenlernmodul geschickt und durch dieses prozessiert. Bei dieser Prozessierung anfallende Werte können den Vektor des jeweiligen Embeddings bilden (ggf. nach entsprechenden Nachprozessierungsschritten). Das computerbasiertes Maschinenlernmodul zur Erzeugung der Embeddings kann dem computerbasierten Maschinenlernmodul entsprechen (z.B. mit diesem identisch sein), für das die ersten und zweiten Test- und/oder Trainingsdatensätze bestimmt sind. In anderen Beispielen kann das computerbasiertes Maschinenlernmodul zur Erzeugung der Embeddings ein von dem computerbasierten Maschinenlernmodul, für das die ersten und zweiten Test- und/oder Trainingsdatensätze bestimmt sind, unterschiedliches computerbasiertes Maschinenlernmodul sein. Die Embeddings können Aktivierungswerte von Einheiten und/oder Ausgabewerte von Einheiten des jeweiligen computerbasierten Maschinenlernmoduls beim Verarbeiten des jeweiligen Datums durch das computerbasierte Maschinenlernmodul umfassen (ggf. nach entsprechenden Nachprozessierungsschritten). Zum Beispiel kann das computerbasiertes Maschinenlernmodul zur Erzeugung der Embeddings ein faltendes neuronales Netz („CNN“) umfassen. Die Embeddings können dann aus den Daten von Filtern (d.h. Einheiten) des faltenden neuronalen Netzes erzeugt werden.In some examples, the vectors of the embeddings may be generated at least in part (i.e., the complete vector or only part of the vector) by processing the respective datum through a computer-based machine learning module. In other words, a piece of data from a test and/or training data set is sent to and processed by a computer-based machine learning module. Values arising during this processing can form the vector of the respective embedding (possibly after appropriate post-processing steps). The computer-based machine learning module for generating the embeddings can correspond to (e.g. be identical to) the computer-based machine learning module for which the first and second test and/or training data sets are intended. In other examples, the computer-based machine learning module for generating the embeddings can be a different computer-based machine learning module than the computer-based machine learning module for which the first and second test and/or training data sets are intended. The embeddings can include activation values of units and/or output values of units of the respective computer-based machine learning module when the respective data item is processed by the computer-based machine learning module (possibly after corresponding post-processing steps). For example, the computer-based machine learning module for generating the embeddings may include a convolutional neural network ("CNN"). The embeddings can then be generated from the data from filters (i.e. units) of the convolutional neural network.

In manchen Beispielen können die Aktivierungswerte von Einheiten und/oder Ausgabewerte von Einheiten des jeweiligen computerbasierten Maschinenlernmoduls beim Verarbeiten des jeweiligen Datums und/oder die Embeddings nachprozessiert werden (z.B. mittels einer Aktivierungs-Aggregation und/oder Normalisierung). In 3 ist ein Nachprozessierungs-Modul 34 gezeigt, in dem diese Schritte stattfinden können.In some examples, the activation values of units and/or output values of units of the respective computer-based machine learning module can be post-processed when processing the respective data and/or the embeddings (eg by means of an activation aggregation and/or normalization). In 3 a post-processing module 34 is shown in which these steps can take place.

Alternativ oder zusätzlich können die Vektoren der Embeddings zumindest teilweise (d.h., der komplette Vektor oder nur ein Teil des Vektors) durch Verarbeiten des jeweiligen Datums durch ein anderes computerbasiertes Modul als ein computerbasiertes Maschinenlernmodul erzeugt werden. Zum Beispiel können Werte aus einem computerbasierten Modul zum Erkennen von Kanten- oder Eckfällen („edge cases“ oder „corner cases“) verwendet werden zur Erzeugung der Embeddings.Alternatively or additionally, the vectors of the embeddings may be generated at least in part (i.e., the complete vector or only part of the vector) by processing the respective datum by a computer-based module other than a computer-based machine learning module. For example, values from a computer-based edge or corner case detection module may be used to generate the embeddings.

In allen Beispielen kann sich in dem Embedding ein durch Verarbeiten des jeweiligen Datums durch ein computerbasiertes Maschinenlernmodul (oder eines anderen computerbasierten Moduls) Eigenschaften widerspiegeln, die dem Datum innewohnen, wenn es „durch die Brille“ des jeweiligen computerbasierten Maschinenlernmoduls gesehen wird. Dadurch kann eine Ähnlichkeit (oder ein Unterschied), der unter Verwendung der Embeddings berechnet wird, in manchen Fällen aussagekräftiger sein als Ähnlichkeiten (oder Unterschiede) der Daten selbst. Die mittels der Techniken der vorliegenden Offenbarung berechneten Ähnlichkeitsmaßen können daher in manchen Fällen eine verbesserte Aussage darüber erlauben, ob ein erster Datensatz und ein zweiter Datensatz ausreichend ähnlich sind, um z.B. ein aussagekräftiges Testen eines trainierten computerbasierten Maschinenlernmoduls zu gewährleisten.In all examples, a computer-based machine learning module can process the respective datum in the embedding (or other computer-based module) reflect properties inherent in the datum when viewed "through the glasses" of the respective computer-based machine learning module. As a result, a similarity (or difference) calculated using the embeddings can in some cases be more meaningful than similarities (or differences) of the data itself. The similarity measures calculated using the techniques of the present disclosure can therefore in some cases be more meaningful about whether a first data set and a second data set are sufficiently similar to ensure meaningful testing of a trained computer-based machine learning module, for example.

In manchen Beispielen können die Embeddings auch auf Teilen eines Datums des jeweiligen Test- und/oder Trainings-Datensatzes ermittelt werden (z.B. auf Bildausschnitten oder Teilbildern im Falle von Bilddaten oder auf Teilen von Zeitreihen im Falle von Zeitreihendaten).In some examples, the embeddings can also be determined on parts of a datum of the respective test and/or training data set (e.g. on image sections or sub-images in the case of image data or on parts of time series in the case of time series data).

In 3 sind mehrere beispielhafte computerbasierte Maschinenlernmodule 33 zum Erzeugen der Embeddings 35, 37 gezeigt (wobei jeweils nur eines oder eine Auswahl der computerbasierten Maschinenlernmodule zum Erzeugen der Embeddings verwendet wird). Die Daten des ersten oder zweiten Test- und/oder Trainingsdatensatzes werden aus einer Test- und/oder Trainingsdatenbank 31 dem jeweiligen computerbasierten Maschinenlernmodul 33 zugeführt (Schritt 111 in 1). Die Embeddings 35 (bzw. die Elemente deren Vektoren) können aus dem jeweiligen computerbasierten Maschinenlernmodul 33 gewonnen werden, wenn die Daten des ersten oder zweiten Test- und/oder Trainingsdatensatzes prozessiert werden (z.B. als Aktivierungswerte von Einheiten und/oder Ausgabewerte von Einheiten, ggf. nach einem oder mehreren Nachprozessierungsschritten) (Schritt 112 in 1).In 3 1, several exemplary computer-based machine learning modules 33 are shown for creating the embeddings 35, 37 (each using only one or a selection of the computer-based machine learning modules for creating the embeddings). The data of the first or second test and/or training data record is fed from a test and/or training database 31 to the respective computer-based machine learning module 33 (step 111 in 1 ). The embeddings 35 (or the elements of their vectors) can be obtained from the respective computer-based machine learning module 33 when the data of the first or second test and/or training data set is processed (e.g. as activation values of units and/or output values of units, possibly . after one or more post-processing steps) (step 112 in 1 ).

In manchen Beispielen kann das computerbasierte Maschinenlernmodul 33 zum Erzeugen der Embeddings ein mit einem Datensatz, der dem ersten und/oder zweiten Test- und/oder Trainingsdatensatz entspricht, trainiertes computerbasiertes Maschinenlernmodul sein. Das computerbasierte Maschinenlernmodul 33 kann zur Lösung derselben Aufgabe trainiert sein, wie das computerbasierte Maschinenlernmodul, für das die ersten und/oder zweiten Test- und/oder Trainingsdatensätze bestimmt sind.In some examples, the computer-based machine learning module 33 for generating the embeddings may be a computer-based machine learning module trained with a data set corresponding to the first and/or second test and/or training data set. The computer-based machine learning module 33 can be trained to solve the same task as the computer-based machine learning module for which the first and/or second test and/or training data sets are intended.

In anderen Beispielen kann das computerbasierte Maschinenlernmodul 33 zum Erzeugen der Embeddings ein computerbasiertes Maschinenlernmodul sein, das für eine Teilaufgabe der Aufgabe, für die das computerbasierte Maschinenlernmodul, für das die ersten und/oder zweiten Test- und/oder Trainingsdatensätze bestimmt sind, trainiert ist. Zum Beispiel kann ein computerbasiertes Maschinenlernmodul zum Erkennen spezieller Merkmale in den Daten trainiert sein (wobei das computerbasierte Maschinenlernmodul, für das die ersten und/oder zweiten Test- und/oder Trainingsdatensätze bestimmt sind, zum Erkennen dieser Merkmale und anderer Merkmale und/oder zum Lösen einer Aufgabe, für die das Erkennen der speziellen Merkmale notwendig ist, ausgelegt ist - in einem Beispiel können die speziellen Merkmale Kanten in einem Bilddatum sein).In other examples, the computer-based machine learning module 33 for generating the embeddings can be a computer-based machine learning module that is trained for a subtask of the task for which the computer-based machine learning module for which the first and/or second test and/or training data sets are intended. For example, a computer-based machine learning module may be trained to recognize specific features in the data (wherein the computer-based machine learning module for which the first and/or second test and/or training data sets are intended for recognizing those features and other features and/or solving a task for which recognition of the special features is necessary - in one example the special features may be edges in an image datum).

In anderen Beispielen kann das computerbasierte Maschinenlernmodul 33 zum Erzeugen der Embeddings das computerbasierte Maschinenlernmodul sein (z.B. eine Kopie dessen), für das die ersten und/oder zweiten Test- und/oder Trainingsdatensätze bestimmt sind.In other examples, the computer-based machine learning module 33 for creating the embeddings may be (e.g., a copy of) the computer-based machine learning module for which the first and/or second test and/or training data sets are intended.

In wieder anderen Beispielen kann das computerbasierte Maschinenlernmodul einen Autoencoder (zum Beispiel einen Variational Autoencoder) enthalten. Die Embeddings können hierbei aus einer Zwischenschicht des Autoencoders erzeugt werden, wenn ein jeweiliges Datum verarbeitet wird (z.B. einer Schicht, die einer latente Repräsentation eines (Eingangs-)Datums darstellt).In still other examples, the computer-based machine learning module may include an autoencoder (e.g., a variational autoencoder). The embeddings can be generated from an intermediate layer of the autoencoder when a respective datum is processed (e.g. a layer that represents a latent representation of an (input) datum).

Alternativ oder zusätzlich können in manchen Beispielen die Embeddings durch Nutzung eines Datums selbst erzeugt werden (d.h. die Nutzinformationen und/oder Metainformationen. In manchen Beispielen kann das Datum ein oder mehrere Vorprozessierungsschritte durchlaufen.Alternatively or additionally, in some examples, the embeddings may be generated using a datum itself (i.e., the payload and/or meta-information. In some examples, the datum may go through one or more pre-processing steps.

In einem konkreten Beispiel sind die Daten Bilddaten. Bspw. kann ein Bilddatum durch eine Anzahl von Bildpunkten dargestellt werden (z.B. N * M Bildpunkte, wobei N und M natürliche Zahlen, z.B. größer als 50, sind). Für jeden Punkt können nun ein oder mehr Elemente (z.B. C Elemente, wobei C eine natürliche Zahl ist, z.B. ein Grauwert und/oder ein oder mehrere Farbwerte) gegeben sein. Das Bild kann somit als Vektor mit N* M * C Elementen gesehen werden. Der Vektor eines Embeddings kann nun E-dimensional sein (d.h., E Elemente aufweisen, wobei E eine natürliche Zahl ist). In manchen Fällen ist E kleiner als N* M * C. Der Vektor eines Embeddings kann nun durch Verarbeiten des Bilddatums durch ein computerbasiertes Maschinenlernmodul zur Bildverarbeitung erzeugt werden (z.B. basierend auf Aktivierungen und/oder Ausgaben von Einheiten des computerbasierten Maschinenlernmoduls zur Bildverarbeitung). Das Bilddatum wird nun durch einen E-dimensionalen Vektor repräsentiert.In a specific example, the data is image data. For example, an image datum can be represented by a number of pixels (e.g. N * M pixels, where N and M are natural numbers, e.g. greater than 50). One or more elements (e.g. C elements, where C is a natural number, e.g. a gray value and/or one or more color values) can now be given for each point. The image can thus be seen as a vector with N*M*C elements. The vector of an embedding can now be E-dimensional (that is, have E elements, where E is a natural number). In some cases, E is less than N* M * C. The vector of an embedding can now be generated by processing the image datum by an image processing computer-based machine learning module (e.g. based on activations and/or outputs from units of the image processing computer-based machine learning module). The image datum is now represented by an E-dimensional vector.

Alternativ oder zusätzlich können die Vektoren der Embeddings 37 zumindest teilweise (d.h., der komplette Vektor oder nur ein Teil des Vektors) basierend auf Metainformationen des jeweiligen Datums des Test- und/oder Trainings-Datensatzes erzeugt werden. In manchen Beispielen umfassen die Metainformationen menschenlesbare Informationen, die das jeweilige Datum beschreiben. Die Metainformationen können diskrete oder kontinuierliche Werte annehmen. Die Metainformation wird in der vorliegenden Offenbarung als Teil eines jeweiligen Datums angesehen. Das heißt allerdings nicht (ist jedoch möglich), dass die Metainformation zwangsläufig zusammen mit den Nutzinformationen des Datums gespeichert sind (z.B. in einer Datenstruktur). Vielmehr ist die Metainformation lediglich dem Datum zugeordnet. Dieselbe Metainformation kann in manchen Beispielen mehreren Daten zugeordnet sein. In 3 ist eine Datenbank für die Metainformationen 32 gezeigt.Alternatively or additionally, the vectors of the embeddings 37 can at least partially (ie, the complete vector or only a part of the vector) based on meta information of the respective date of the test and/or training data set. In some examples, the meta information includes human-readable information that describes the particular datum. The meta information can take on discrete or continuous values. In the present disclosure, the meta information is regarded as part of a respective data item. However, this does not mean (although it is possible) that the meta information is necessarily stored together with the useful information of the datum (e.g. in a data structure). Rather, the meta information is only assigned to the date. The same meta information may be associated with multiple pieces of data in some examples. In 3 a database for the meta information 32 is shown.

Die Metainformationen können beispielsweise Parameterwerte enthalten, die die Nutzinformation des jeweiligen Datums charakterisieren. In manchen Beispielen können eine oder mehrere Eigenschaften der Nutzinformation des Datums parametrisch charakterisiert werden (z.B. Kontrast, Saturierung, Helligkeit, und/oder Bildfrequenzen für Bilddaten). Die Parameterwerte können sich auf Teile der Nutzinformation beziehen (z.B. ein fester Ausschnitt eines Bilddatums oder eine semantische Region).The meta information can contain, for example, parameter values that characterize the useful information of the respective date. In some examples, one or more properties of the datum payload may be parametrically characterized (e.g., contrast, saturation, brightness, and/or frame rates for image data). The parameter values can relate to parts of the useful information (e.g. a fixed section of an image datum or a semantic region).

Alternativ oder zusätzlich können die Metainformationen ein oder mehrere Informationen umfassen die einen Inhalt des jeweiligen Datums und/oder einen Kontext beschreiben. Zum Beispiel können die ein oder mehreren Informationen einen Datenerhebungsprozess beschreiben (z.B. Typ eines Sensors, mit dem das Datum erhoben wurde, geografische Information und/oder Zeitstempel). Zusätzlich oder alternativ können die ein oder mehreren Informationen den Inhalt des jeweiligen Datums durch eine Klassifikation in zwei oder mehr Klassen beschreiben. Zusätzlich oder alternativ können die ein oder mehreren Informationen den Inhalt des jeweiligen Datums durch eine Angabe beschreiben, ob ein spezifischer Inhalt in den Nutzinformationen des jeweiligen Datums enthalten ist.Alternatively or additionally, the meta information can include one or more pieces of information that describe a content of the respective date and/or a context. For example, the one or more pieces of information may describe a data collection process (e.g., type of sensor used to collect the date, geographic information, and/or timestamp). In addition or as an alternative, the one or more items of information can describe the content of the respective datum through a classification into two or more classes. Additionally or alternatively, the one or more items of information can describe the content of the respective date by specifying whether a specific content is contained in the useful information of the respective date.

Zusätzlich oder alternativ können die Metainformationen Label für die Nutzinformation des jeweiligen Datums umfassen.Additionally or alternatively, the meta information can include labels for the useful information of the respective date.

In einem Beispiel von Bilddaten können die Metainformationen z.B. eine Tageszeit einer Aufnahme eines Bilddatums (z.B. Tag/Nacht) geografische Informationen zum Bilddatum, Domänen Informationen zu dem Bilddatum (z.B. draußen/innen), Informationen zu der Perspektive, aus der das Bilddatum aufgenommen wurde,
Kameraeigenschaften, und/oder spezifische Bildinhalte (z.B. Existenz von bestimmten Objekten wie Fußgängern, Autos, ...) umfassen.In an example of image data, the meta information can be, for example, a time of day when an image was recorded (e.g. day/night), geographic information on the image datum, domain information on the image datum (e.g. outside/inside), information on the perspective from which the image datum was recorded,
Camera properties and / or specific image content (e.g. existence of specific objects such as pedestrians, cars, ...) include.

In manchen Fällen wird der Vektor eines Embeddings ausschließlich basierend auf den Nutzinformation eines jeweiligen Datums (z.B. den Bilddaten) erzeugt. Alternativ kann der Vektor eines Embeddings ausschließlich basierend auf den Metainformationen eines jeweiligen Datums erzeugt werden. In wieder anderen Beispielen kann der Vektor eines Embeddings 35, 37 teilweise basierend auf den Nutzinformation eines jeweiligen Datums (z.B. die Bilddaten) und teilweise basierend auf den Metainformationen eines jeweiligen Datums erzeugt werden. Diese Art von Embeddings wird in der Folge auch als kombinierte Embeddings bezeichnet. In manchen Beispielen kann ein kombiniertes durch Verkettung eines ersten (Teil-)Vektors, der basierend auf den Nutzinformationen eines Datums und eines zweiten (Teil-)Vektors, der basierend auf den Metainformationen eines Datums erzeugt wurde, generiert werden.In some cases, the vector of an embedding is generated solely based on the useful information of a given datum (e.g. the image data). Alternatively, the vector of an embedding can be generated solely based on the meta information of a given datum. In still other examples, the vector of an embedding 35, 37 may be generated based in part on a particular datum's payload (e.g., the image data) and based in part on a particular datum's meta-information. This type of embedding is also referred to below as combined embedding. In some examples, a combined may be generated by concatenating a first (partial) vector generated based on the payload of a datum and a second (partial) vector generated based on the meta information of a datum.

In einem Beispiel von Bilddaten kann, wie oben beschrieben, ein Teil des Embeddings, der basierend auf den Nutzinformationen erzeugt wird, durch einen E-dimensionalen Vektor dargestellt werden (d.h., E Elemente aufweisen, wobei E eine natürliche Zahl ist). Ein weiterer Teil des Embeddings, der basierend auf den Metainformationen erzeugt wird, kann durch einen F-dimensionalen Vektor dargestellt werden (d.h., F Elemente aufweisen, wobei F eine natürliche Zahl ist). Der kombinierte Vektor entsteht durch Verkettung des E-dimensionalen und des F-dimensionalen Vektors. Z.B. kann der F-dimensionale Vektor einen Wert für die Helligkeit und einen Wert für die Sättigung des Bilddatums enthalten.In an example of image data, as described above, a portion of the embedding generated based on the payload may be represented by an E-dimensional vector (i.e., having E elements, where E is a natural number). Another part of the embedding that is generated based on the meta-information can be represented by an F-dimensional vector (i.e., have F elements, where F is a natural number). The combined vector is created by concatenating the E-dimensional and F-dimensional vectors. For example, the F-dimensional vector may contain a value for the lightness and a value for the saturation of the image datum.

In anderen Beispielen kann ein kombiniertes Embedding basierend auf den Nutzinformation eines jeweiligen Datums (z.B. den Bilddaten) erzeugt werden, die aber auf zwei oder mehr verschiedenen Weisen verarbeitet und in dem kombinierten Embedding kombiniert werden. Zum Beispiel kann ein erster Teil des Vektors eines Embeddings mittels eines ersten computerbasierten Maschinenlernmoduls (z.B. eines der oben genannten computerbasierten Maschinenlernmodule) und ein zweiter Teil des Vektors eines Embeddings mittels eines zweiten computerbasierten Maschinenlernmoduls (z.B. eines anderen der oben genannten computerbasierten Maschinenlernmodule) erzeugt werden (wobei die oben beschriebenen Verfahren eingesetzt werden können).In other examples, a combined embedding may be generated based on each datum's payload (e.g., the image data), but processed in two or more different ways and combined in the combined embedding. For example, a first part of the vector of an embedding can be generated by means of a first computer-based machine learning module (e.g. one of the above computer-based machine learning modules) and a second part of the vector of an embedding can be generated by means of a second computer-based machine learning module (e.g. another of the above computer-based machine learning modules) ( the methods described above can be used).

Die Verwendung von kombinierten Embeddings kann eine Aussagekraft des berechneten Ähnlichkeitsmaßes in manchen Fällen (weiter) erhöhen. Die Metainformation kann Unterschiede zwischen zwei Datensätzen klarer zu Tage treten lassen als die (verarbeiteten) Nutzinformation allein. So können Bilder, die bei Tag aufgenommen werden durch einen Helligkeitswert oder ein entsprechendes Label üblicherweise leicht von solchen unterschieden werden, die bei Nacht aufgenommen wurden. Diese Unterscheidung kann dagegen in den durch ein computerbasiertes Maschinenlernmodul prozessierten Daten weniger klar hervortreten.The use of combined embeddings can (further) increase the significance of the calculated similarity measure in some cases. The meta information can make differences between two datasets more obvious than the (processed) payload alone. Thus, images that are captured during the day can usually be easily distinguished from those that were captured at night by a brightness value or a corresponding label. In contrast, this distinction may be less clear in the data processed by a computer-based machine learning module.

In manchen Beispielen können die ermittelten Embeddings einem oder mehreren Nachprozessierungsschritten unterzogen werden (z.B. in Modul 36). In manchen Beispielen können zwei oder mehr Embeddings zusammengefasst werden (z.B. durch eine Aggregation, eine Mittelwertbildung und/oder eine ähnliche Operation). Die Embeddings können zusätzlich oder alternativ normalisiert werden.In some examples, the determined embeddings can be subjected to one or more post-processing steps (e.g. in module 36). In some examples, two or more embeddings may be combined (e.g., through an aggregation, averaging, and/or similar operation). The embeddings can be normalized additionally or alternatively.

Zusätzlich oder alternativ können in manchen Beispielen die Embeddings (bzw. die Vektoren) verkürzt werden (d.h. eine Dimensionalität der Vektoren kann verkleinert werden). Dafür kann eine oder mehrere der folgenden Techniken eingesetzt werden. In manchen Beispielen kann eine Korrelationsanalyse der Elemente der Embeddings durchgeführt werden. Sind zwei oder mehr Elemente der Embeddings stärker als mit einem bestimmten Grenzwert korreliert, so kann eine Teilemenge der korrelierten Elemente als Repräsentant ausgewählt werden (z.B. eines der Elemente). Die anderen Elemente der Teilemenge können gestrichen werden, um so die Vektoren der Embeddings zu verkürzen. Zusätzlich oder alternativ kann in manchen Beispielen eine Sensitivitätsanalyse durchgeführt werden, um ein oder mehrere Elemente der Embedding zu identifizieren, die für eine Leistungsfähigkeit des computerbasierten Maschinenlernmoduls den geringsten Einfluss haben. Diese Elemente können aus den Embeddings gestrichen werden, um so die Vektoren der Embeddings zu verkürzen.Additionally or alternatively, in some examples, the embeddings (or the vectors) can be shortened (i.e. a dimensionality of the vectors can be reduced). One or more of the following techniques can be used for this. In some examples, a correlation analysis of the elements of the embeddings can be performed. If two or more elements of the embeddings are correlated more than a certain threshold value, a subset of the correlated elements can be selected as a representative (e.g. one of the elements). The other elements of the subset can be deleted in order to shorten the vectors of the embeddings. Additionally or alternatively, in some examples, a sensitivity analysis may be performed to identify one or more elements of the embedding that have the least impact on a performance of the computer-based machine learning module. These elements can be removed from the embeddings to shorten the embedding vectors.

In manchen Beispielen umfassen die Techniken der vorliegenden Offenbarung zudem
Prüfen, ob die Embeddings ein vorbestimmtes Qualitätskriterium erfüllen (Schritt 113 in 1). Wenn die Embeddings das vorbestimmte Qualitätskriterium nicht erfüllen, kann eine Warnung vor falschen Ergebnissen erfolgen und/oder eine Nicht-Berücksichtigung von Embeddings, die das vorbestimmtes Qualitätskriterium nicht erfüllen bei der Berechnung des Ähnlichkeitsmaßes und/oder der Ermittlung der ersten Verteilung und der zweiten Verteilung. In manchen Fällen kann das Prüfen Ermitteln eines Verlustwerts bei der Verarbeitung der zu den Embeddings gehörenden Daten durch ein computerbasiertes Maschinenlernmodul, mit dem die Vektoren der Embeddings zumindest teilweise erzeugt werden, beinhalten (d.h. ein Verlustwert pro Datum). Zum Beispiel kann, wenn das computerbasierte Computermodul, für das die ersten und zweiten Trainings- und/oder Testdatensätze bestimmt sind, zum Erzeugen der Embeddings (oder Teilen davon) verwendet wird, um durch die Ermittlung eines Trainingsverlustes (beim Erzeugen von Embeddings aus Trainingsdaten) Daten und zugehörige Embeddings identifiziert werden, die durch das computerbasierte Computermodul nicht adäquat repräsentiert werden (z.B. ein Trainingsverlust liegt über einer bestimmten Schwelle). Alternativ kann bei der Nutzung eines Autoencoders für das Erzeugen der Vektoren der Embeddings (oder Teilen davon) durch die Ermittlung eines Wiederherstellungs-Verlusts Daten und zugehörige Embeddings identifiziert werden, die durch den Autoencoder nicht adäquat repräsentiert werden (z.B. ein Wiederherstellungs-Verlust eines Datums liegt über einer bestimmten Schwelle). Das Verfahren kann umfassen, die identifizierten Embeddings zu entfernen und/oder eine Angabe zu einer Menge der Daten/Embeddings, die identifiziert wurden, an einen Nutzer auszugeben.In some examples, the techniques of the present disclosure also include
Check whether the embeddings meet a predetermined quality criterion (step 113 in 1 ). If the embeddings do not meet the predetermined quality criterion, a warning of incorrect results can be given and/or embeddings that do not meet the predetermined quality criterion can be disregarded when calculating the similarity measure and/or determining the first distribution and the second distribution. In some cases, the testing may include determining a loss value (ie, one loss value per datum) when the data associated with the embeddings is processed by a computer-based machine learning module that is used to at least partially generate the vectors of the embeddings. For example, if the computer-based computing module for which the first and second training and/or test data sets are intended is used to generate the embeddings (or parts thereof), by determining a training loss (when generating embeddings from training data) Data and associated embeddings are identified that are not adequately represented by the computer-based computer module (e.g. a training loss is above a certain threshold). Alternatively, when using an autoencoder to generate the vectors of the embeddings (or parts thereof) by determining a recovery loss, data and associated embeddings can be identified that are not adequately represented by the autoencoder (e.g. a recovery loss of a datum is located above a certain threshold). The method may include removing the identified embeddings and/or providing an indication to a user of a set of the data/embeddings that have been identified.

Die mittels der oben genannten Verfahren erzeugten Embeddings in einer Embedding-Datenbank 38 gespeichert werden (aus der sie z.B. zur Berechnung eines Ähnlichkeitsmaßes gemäß den Verfahren der vorliegenden Offenbarung ausgelesen werden können).The embeddings generated using the above methods are stored in an embedding database 38 (from which they can be read, e.g., to calculate a similarity measure according to the methods of the present disclosure).

Das mittels der Techniken der vorliegenden Offenbarung berechnete und ausgegebene Ähnlichkeitsmaß kann in manchen Beispielen in einer oder mehreren der folgenden Arten verwendet werden.The measure of similarity calculated and reported using the techniques of the present disclosure may be used in some examples in one or more of the following ways.

In manchen Beispielen kann das berechnete Ähnlichkeitsmaß an eine Mensch-Maschine-Schnittstelle ausgegeben werden. Damit kann einem Nutzer ermöglich werden, die Ergebnisse der Verfahren zum Überprüfen von Test- und/oder Trainings-Datensätzen für ein computerbasiertes Maschinenlernmodul gemäß der vorliegenden Offenbarung in Augenschein zu nehmen (und ggf. weitere Maßnahmen einzuleiten). In manchen Beispielen kann das Verfahren zudem Visualisierung der ersten und zweiten Verteilungen umfassen (z.B. über eine Mensch-Maschine-Schnittstelle, bspw. eine grafische Benutzeroberfläche). 4 ist eine schematische Darstellung 400 der Verteilungen von Embeddings. Eine erste Verteilung 410 und eine zweite Verteilung 420 sind in diesem Beispiel relativ unähnlich. Das wird sich dann auch in dem berechneten Ähnlichkeitsmaß widerspiegeln.In some examples, the calculated measure of similarity can be output to a human-machine interface. A user can thus be enabled to view the results of the methods for checking test and/or training data sets for a computer-based machine learning module according to the present disclosure (and, if necessary, to initiate further measures). In some examples, the method may further include visualizing the first and second distributions (eg, via a human-machine interface, e.g., a graphical user interface). 4 FIG. 400 is a schematic representation of the distributions of embeddings. A first distribution 410 and a second distribution 420 are relatively dissimilar in this example. This will then also be reflected in the calculated similarity measure.

Zusätzlich oder alternativ können die Verfahren Erkennen 131 des ersten und/oder zweiten Test- und/oder Trainings-Datensatzes als valide umfassen, wenn das berechnete Ähnlichkeitsmaß ein vorbestimmtes Kriterium erfüllt. In anderen Worten kann eine Validierung des ersten und/oder zweiten Test- und/oder Trainings-Datensatzes automatisch (d.h. ohne Nutzereinwirkung) erfolgen. Wie oben beschrieben, kann sich das vorbestimmte Kriterium aus dem verwendeten Ähnlichkeitsmaß ergeben. In manchen Beispielen (z.B. Kullback-Leibler-Abstand oder andere Abstandmaße) kann ein kleiner Wert eine große Ähnlichkeit anzeigen. In diesem Fall kann das vorbestimmte Kriterium einen oberen Grenzwert für das Ähnlichkeitsmaß definieren. In anderen Beispielen kann ein großer Wert eine große Ähnlichkeit anzeigen. In diesem Fall kann das vorbestimmte Kriterium einen unteren Grenzwert für das Ähnlichkeitsmaß definieren.Additionally or alternatively, the method can include recognizing 131 the first and/or second test and/or training data set as valid if the calculated degree of similarity satisfies a predetermined criterion. In other words, the first and/or second test and/or training data record can be validated automatically (ie without user intervention). As above described, the predetermined criterion can result from the similarity measure used. In some examples (e.g. Kullback-Leibler distance or other distance measures) a small value can indicate a high similarity. In this case, the predetermined criterion can define an upper limit value for the degree of similarity. In other examples, a large value may indicate a high level of similarity. In this case, the predetermined criterion can define a lower limit value for the measure of similarity.

Wenn ein Test- und/oder Trainings-Datensatz als valide erkannt wurde, kann der Test- und/oder Trainings-Datensatzes zur Verwendung zum Testen- oder Trainieren des computerbasierten Maschinenlernmoduls freigegeben werden (wiederum automatisch oder durch einen Nutzer).If a test and/or training data set has been recognized as valid, the test and/or training data set can be released (again automatically or by a user) for use in testing or training the computer-based machine learning module.

Wenn ein Test- und/oder Trainings-Datensatz als nicht valide erkannt wurde, kann der Test- und/oder Trainings-Datensatzes für die Verwendung zum Testen- oder Trainieren des computerbasierten Maschinenlernmoduls gesperrt werden (wiederum automatisch oder durch einen Nutzer). Zusätzlich oder alternativ können die hierin beschriebenen Augmentationsverfahren durchgeführt werden.If a test and/or training data set is determined to be invalid, the test and/or training data set may be blocked (again automatically or by a user) from being used to test or train the computer-based machine learning module. Additionally or alternatively, the augmentation procedures described herein may be performed.

Die vorliegende Offenbarung betrifft auch Verfahren zum Erzeugen eines augmentierten Test- und/oder Trainings-Datensatzes für ein für ein computerbasiertes Maschinenlernmodul (siehe Schritt 132 in 1). Das Verfahren umfasst Überprüfen eines Test- und/oder Trainings-Datensatzes mittels eines Verfahrens gemäß der vorliegenden Offenbarung und Augmentieren des Test- und/oder Trainings-Datensatzes durch Hinzufügen einer oder mehrerer Daten in den ersten Datensatz und/oder den zweiten Datensatz. In manchen Beispielen kann durch das Hinzufügen eine Ähnlichkeit der ersten Verteilung der Embeddings des ersten Datensatzes und der zweiten Verteilung der Embeddings des zweiten Datensatzes unter Verwendung des Ähnlichkeitsmaßes vergrößert werden (z.B. in einem iterativen und optional automatisierten Prozess). In manchen Beispielen umfasst das Verfahren weiter Bestimmen einer Veränderung des Ähnlichkeitsmaßes der ersten Verteilung der Embeddings des ersten Datensatzes und einer zweiten Verteilung der Embeddings des zweiten Datensatzes nach Hinzufügen von Daten eines vorbestimmten Typs (z.B. nach Anwendung eines konkreten Augmentationsverfahrens). Wenn die Ähnlichkeit zwischen dem ersten und zweiten Datensatz nach Hinzufügen der Daten eines vorbestimmten Typs steigt, können der erste und/oder zweite Datensatz mit weiteren Daten des vorbestimmten Typs augmentiert werden.The present disclosure also relates to methods for generating an augmented test and/or training data set for a computer-based machine learning module (see step 132 in 1 ). The method includes verifying a testing and/or training dataset using a method according to the present disclosure and augmenting the testing and/or training dataset by adding one or more data to the first dataset and/or the second dataset. In some examples, the adding may increase (eg, in an iterative and optionally automated process) a similarity of the first distribution of embeddings of the first data set and the second distribution of embeddings of the second data set using the measure of similarity. In some examples, the method further includes determining a change in the degree of similarity of the first distribution of the embeddings of the first data set and a second distribution of the embeddings of the second data set after adding data of a predetermined type (eg after applying a concrete augmentation method). If the similarity between the first and second data set increases after adding the data of a predetermined type, the first and/or second data set can be augmented with further data of the predetermined type.

Die Daten des vorbestimmten Typs können in manchen Beispielen durch Translation und/oder Rotation von Nutzinformationen innerhalb einer oder mehrerer Daten der Datensätze erzeugt werden (z.B. durch Translation und/oder Rotation von Teilen von Bilddaten). Das Verfahren kann dann umfassen, zu überprüfen, ob nach dem Einfügen der durch Translation von Nutzinformationen erzeugten Daten die Ähnlichkeit des ersten und zweiten Test- und/oder Trainingsdatensatzessteigt. Zusätzlich oder alternativ können die Daten des vorbestimmten Typs in manchen Beispielen „Adversarial Samples“ (auf Deutsch „gegnerische Beispiele“) sein. Zusätzlich oder alternativ können die Daten des vorbestimmten Typs in manchen Beispielen Interpolationen oder Kompositionen von Daten sein.The data of the predetermined type may be generated, in some examples, by translation and/or rotation of payloads within one or more data of the data sets (e.g., by translation and/or rotation of portions of image data). The method can then include checking whether the similarity of the first and second test and/or training data set increases after the insertion of the data generated by translation of useful information. Additionally or alternatively, in some examples, the data of the predetermined type may be "adversarial samples". Additionally or alternatively, in some examples, the data of the predetermined type may be interpolations or compositions of data.

Die vorliegende Offenbarung betrifft auch Verfahren zum Testen oder Trainieren eines computerbasierten Maschinenlernmoduls (siehe Schritt 133 in 1). Das Verfahren umfasst Empfangen eines überprüften Test- und/oder Trainings-Datensatzes gemäß einem der vorliegenden Offenbarung oder eines augmentierten Test- und/oder Trainings-Datensatzes gemäß der vorliegenden Offenbarung und Testen oder Trainieren des computerbasierten Maschinenlernmoduls mit dem empfangenen Datensatz, um ein getestetes oder trainiertes Maschinenlernmodul zu erhalten.The present disclosure also relates to methods for testing or training a computer-based machine learning module (see step 133 in 1 ). The method includes receiving a verified test and/or training data set according to any one of the present disclosure or an augmented test and/or training data set according to the present disclosure and testing or training the computer-based machine learning module with the received data set to generate a tested or receive a trained machine learning module.

Die vorliegende Offenbarung betrifft auch Verfahren zum Anwenden eines computerbasierten Maschinenlernmoduls (siehe Schritt 134 in 1). Das Verfahren umfasst Bereitstellen eines getesteten oder trainierten Maschinenlernmoduls gemäß der vorliegenden Offenbarung und Prozessieren von Anwendungsdaten durch das empfangene Maschinenlernmodul.The present disclosure also relates to methods of applying a computer-based machine learning module (see step 134 in 1 ). The method includes providing a tested or trained machine learning module according to the present disclosure and processing application data by the received machine learning module.

Wie bereits diskutiert können die computerbasierten Maschinenlernmodule für eine Vielzahl von Anwendungen ausgelegt und/oder trainiert sein.As previously discussed, the computer-based machine learning modules can be designed and/or trained for a variety of applications.

In manchen Beispielen sind die computerbasierte Maschinenlernmodule (bspw. die computerbasierten Maschinenlernmodule, für die die ersten und zweiten Datensätze bestimmt sind oder die computerbasierten Maschinenlernmodule zum Erzeugen der Embeddings) für die Bildverarbeitung ausgelegt. In diesem Beispiel können die ersten und eines zweiten Test- und/oder Trainings-Datensätze Bilddaten enthalten (z.B. Einzelbilddaten oder Videodaten). In manchen Beispielen kann das computerbasierte Maschinenlernmodul ein Bildklassifikator sein (z.B. ein Bildklassifikator, der Bilddaten pixelweise oder bereichsweise semantisch segmentiert). Basierend auf dem Klassifikationsergebnis kann eine Vorrichtung (z.B. ein Fahrzeug, ein Roboter, eine Industrieanlage, ein medizintechnisches Gerät oder ein Haushaltsgerät) überwacht und/oder gesteuert werden. Die Bilddaten können mittels verschiedener Sensoren (z.B. Kameras, Radar, Lidar, Ultraschall- oder Wärmesensoren) erzeugt werden und/oder synthetische Bilddaten umfassen.In some examples, the computer-based machine learning modules (e.g. the computer-based machine learning modules for which the first and second data sets are intended or the computer-based machine learning modules for generating the embeddings) are designed for image processing. In this example, the first and second test and/or training data sets may include image data (eg, still image data or video data). In some examples, the computer-based machine learning module may be an image classifier (eg, an image classifier that semantically segments image data pixel-by-pixel or region-by-region). Based on the classification result, a device (eg a vehicle, a robot, an industrial plant, a medical device or a household appliance) can be monitored and/or controlled. The image data can be captured using various sensors (e.g. cameras, radar, lidar, ultrasonic or Heat sensors) are generated and / or include synthetic image data.

Zusätzlich oder alternativ kann das computerbasierte Maschinenlernmodul dazu ausgelegt sein, eine Anomalie in einer Datenreihe (z.B. Sensordaten) zu detektieren. In diesem Beispiel können die ersten und eines zweiten Test- und/oder Trainings-Datensätze Datenreihen (z.B. Zeitreihen) enthalten. Die Datenreihen (z.B. Zeitreihen) können mittels verschiedener Sensoren (z.B. Kameras, Radar, Lidar, Ultraschall- oder Wärmesensoren) erzeugt werden und/oder synthetische Datenreihen (z.B. Zeitreihen) umfassen. Wiederum kann basierend auf dem Ergebnis der Anomalie-Detektion eine Vorrichtung (z.B. ein Fahrzeug, ein Roboter, eine Industrieanlage, ein medizintechnisches Gerät oder ein Haushaltsgerät) überwacht und/oder gesteuert werden (zum Beispiel in einen sicheren Zustand gebracht werden und/oder angehalten werden).Additionally or alternatively, the computer-based machine learning module may be configured to detect an anomaly in a data set (e.g., sensor data). In this example, the first and a second test and/or training data set may include data series (e.g., time series). The data series (e.g. time series) can be generated using various sensors (e.g. cameras, radar, lidar, ultrasonic or thermal sensors) and/or can comprise synthetic data series (e.g. time series). In turn, based on the result of the anomaly detection, a device (e.g., a vehicle, a robot, an industrial plant, a medical device, or a household appliance) can be monitored and/or controlled (e.g., brought into a safe state and/or stopped ).

In wieder anderen Beispielen kann das computerbasierte Maschinenlernmodul dazu ausgelegt sein, Umfeld- und/oder Zustandsdaten einer Vorrichtung (z.B. Sensordaten) zu empfangen und basierend auf den Umfeld- und/oder Zustandsdaten die Vorrichtung (z.B. ein Fahrzeug, ein Roboter, eine Industrieanlage, ein medizintechnisches Gerät oder ein Haushaltsgerät) zu steuern.In still other examples, the computer-based machine learning module can be designed to receive environment and/or status data of a device (e.g. sensor data) and based on the environment and/or status data the device (e.g. a vehicle, a robot, an industrial plant, a medical device or a household appliance).

Die Vorrichtungen können Systeme für Fahrzeugen (z.B. Systeme für das assistierte oder autonome Fahren) sein. In diesem Fall können die computerbasierten Maschinenlernmodulen in das System für Fahrzeuge integriert sein (z.B. in die Systeme für das assistierte oder autonome Fahren), um eine Funktionalität für das Fahrzeug bereitzustellenThe devices may be systems for vehicles (e.g. systems for assisted or autonomous driving). In this case, the computer-based machine learning modules may be integrated into the vehicle system (e.g., assisted or autonomous driving systems) to provide functionality to the vehicle

Die vorliegende Offenbarung betrifft auch ein Computer-Programm, das dazu ausgelegt ist, die Verfahren der vorliegenden Offenbarung auszuführen.The present disclosure also relates to a computer program configured to perform the methods of the present disclosure.

Die vorliegende Offenbarung betrifft auch Signal oder computer-lesbares Medium, das das Computer-Programm gemäß der vorliegenden Offenbarung codiert oder enthält.The present disclosure also relates to a signal or computer-readable medium that encodes or contains the computer program according to the present disclosure.

Claims

A computer-implemented method for checking test and/or training data sets for a computer-based machine learning module, comprising: Receiving (121) an embedding (35, 37) for each datum of a first test and/or training data set and a second test and/or training data set for a computer-based machine learning module, wherein an embedding (35, 37) represents a datum according to a specific rule by a vector of lower dimensionality than the respective datum; calculating (123) a similarity measure of a first distribution of the embeddings (35, 37) of the first data set and a second distribution of the embeddings of the second data set; and Outputting (124) the calculated measure of similarity.

procedure according to claim 1 , wherein calculating the similarity measure (123) comprises calculating a distance measure of the first and second probability distributions, optionally calculating a Kullback-Leibler distance of the first and second distributions or a distance between the first and second distributions determined using a Wasserstein metric.

Method according to one of Claims 1 until 2 , wherein the vectors of the embeddings (35, 37) are generated at least in part by processing the respective datum by a computer-based machine learning module (33).

procedure according to claim 3 , wherein the embeddings (35, 37) include activation values of units and/or output values of units of the computer-based machine learning module (33) when the respective data item is processed by the computer-based machine learning module (33).

Method according to one of Claims 1 until 4 , wherein the vectors of the embeddings (35, 37) are generated at least partially based on meta information of the respective date of the test and/or training dataset, optionally wherein the meta information includes human-readable information that describes the respective date.

Method according to one of Claims 1 until 5 , further comprising: recognizing (131) the first and/or second data set as valid if the calculated degree of similarity satisfies a predetermined criterion.

Method according to any of the foregoing Claims 1 until 6 , further comprising determining (122) the embeddings (35, 37) for each datum of the first test and/or training data set and the second test and/or training data set for a computer-based machine learning module.

A method for generating an augmented (132) data set for a computer-based machine learning module, comprising: checking a test and/or training data set using a method according to claim 1 until 7 ; Augmenting the test and/or training data set by adding one or more data, so that a similarity of the first distribution of the embeddings (35, 37) of the first test and/or training data set and the second distribution of the embeddings (35, 37) of the second test and/or training data record in relation to the degree of similarity increases.

Method for testing or training (133) a computer-based machine learning module: Receiving a checked test and/or training data set according to one of Claims 1 until 7 or according to an augmented test and/or training data set claim 8 ; and testing or training the computer-based machine learning module with the received data set to obtain a tested or trained machine learning module.

Method for applying (134) a computer-based machine learning module: providing a tested or trained machine learning module according to claim 9 ; and processing application data by the received machine learning module.

Method according to any of the foregoing Claims 1 until 10 , wherein the respective computer-based machine learning module is designed for image processing and wherein the first and a second test and/or training data set contain image data or wherein the computer-based machine learning module is designed for anomaly detection and the first and a second test and/or training data set -Records contain time series data.

procedure according to claim 11 , wherein the respective computer-based machine learning module is an image classifier, optionally an image classifier that semantically segments image data pixel by pixel or by region.

System (20) designed to implement the methods of any one of Claims 1 until 12 to execute.

Computer program designed to perform the procedures of any of Claims 1 until 12 to execute.

Signal or computer-readable medium corresponding to the computer program Claim 14 encoded or contained.