DE102022204492A1

DE102022204492A1 - Schneller konvergierendes Vortraining für Machine Learning-Modelle

Info

Publication number: DE102022204492A1
Application number: DE102022204492.4A
Authority: DE
Inventors: Daniel Pototzky
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2023-11-09
Also published as: WO2023213867A1

Abstract

Verfahren (100) zum unüberwachten Vortrainieren eines Machine Learning-Modells (1) mit den Schritten:• es wird eine Menge von Trainings-Beispielen (2*) für Eingaben (2) des Machine Learning-Modells (1) bereitgestellt (110);• es wird ein vorzutrainierender Bereich (11) des Machine Learning-Modells (1) festgelegt (120);• aus jedem Trainings-Beispiel (2*) werden Abwandlungen (3a-3d) erzeugt (130);• jede Abwandlung (3a-3d) wird in einem ersten Verarbeitungszweig (4), der mindestens eine erste Instanz des vorzutrainierenden Bereichs (11) umfasst, zu einer ersten Ausgabe (5a-5d) verarbeitet (140);• jede Abwandlung (3a-3d) wird in einem zweiten Verarbeitungszweig (6), der mindestens eine zweite Instanz (11') des vorzutrainierenden Bereichs (11) umfasst, zu einer zweiten Ausgabe (7a-7d) verarbeitet (150);• für jede Abwandlung (3a-3d) wird die Ähnlichkeit (9) der aus dieser Abwandlung (3a-3d) erzeugten ersten Ausgabe (5a-5d) mit einer Aggregation (8) der aus allen anderen Abwandlungen (3a-3d) des gleichen Trainings-Beispiels (2*) erzeugten zweiten Ausgaben (7a-7d) ermittelt (160);• Parameter (11a), die das Verhalten der ersten Instanz des vorzutrainierenden Bereichs (11) charakterisieren, werden optimiert (170) mit dem Ziel, die so ermittelte Ähnlichkeit (9) zu maximieren;• die so erhaltenen Parameter (11a*) werden als vortrainierte Parameter (la#) des Machine Learning-Modells (1) festgelegt (180).

Description

Die vorliegende Erfindung betrifft das unüberwachte Vortraining von Machine Learning-Modellen, die dann beispielsweise überwacht auf eine vorgegebene Aufgabe (Task) weitertrainiert werden können.
Stand der Technik
Das Training eines Machine Learning-Modells auf eine bestimmte Aufgabe (Task) ausgehend von einem leeren oder zufällig initialisierten Ausgangszustand erfordert sehr viele Trainings-Beispiele und sehr viel Rechenzeit. Ein erheblicher Teil dieses Aufwandes lässt sich einsparen, wenn ein generisch vortrainiertes Machine Learning-Modell verwendet und dann spezifisch auf die gewünschte Task weitertrainiert wird. Häufig ist ein und dasselbe generisch vortrainierte Modell als Ausgangspunkt für das Training auf viele Tasks brauchbar. So kann beispielsweise ein Bildklassifikator generisch darauf vortrainiert werden, bestimmte Grundmerkmale in den Bildern zu erkennen. Im spezifischen Training kann der Bildklassifikator dann beispielsweise lernen, unter Heranziehung dieser Grundmerkmale bestimmte Objekte zu erkennen.
Das generische Vortraining verspricht besonders dann einen großen Kostenvorteil, wenn dieses Vortraining unüberwacht erfolgt, also anhand von Trainingsbeispielen, die nicht mit Soll-Ausgaben gelabelt sind. Das Labeln von Trainingsbeispielen ist sehr teuer, da es typischerweise manuelle Arbeit erfordert.
Offenbarung der Erfindung
Die Erfindung stellt ein Verfahren zum unüberwachten Vortrainieren eines Machine Learning-Modells bereit.
Unter einem Machine Learning-Modell wird insbesondere ein Modell angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines Machine Learning-Modells insbesondere dergestalt angepasst werden, dass bei Eingabe von Trainings-Beispielen in das Machine Learning-Modell die zugehörigen Soll-Ausgaben möglichst gut reproduziert werden. Das Machine Learning-Modell kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder es kann ein KNN sein.
Im Rahmen des Verfahrens wird eine Menge von Trainings-Beispielen für Eingaben des Machine Learning-Modells bereitgestellt. Diese Trainings-Beispiele brauchen nicht mit Soll-Ausgaben gelabelt zu sein.
Es wird weiterhin ein vorzutrainierender Bereich des Machine Learning-Modells festgelegt. Dieser Bereich kann insbesondere dahingehend ausgewählt werden, dass er in dem vortrainierten Zustand für mehrere verschiedene Tasks verwendet werden kann. So umfassen beispielsweise viele Klassifikatoren einen Bereich, der die Eingabe des Machine Learning-Modells nach Merkmalen analysiert, und einen Task-Kopf, der aus dem Ergebnis dieser Analyse Klassifikations-Scores in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation ermittelt. Der Task-Kopf ist dann für die konkrete Klassifikations-Task spezifisch, während die analysierten Merkmale auch für andere Tasks verwendbar sind. Es macht dann Sinn, den Task-Kopf nicht in das Vortraining einzubeziehen.
Somit wird vorteilhaft ein Bereich des Machine Learning-Modells, der dazu ausgebildet ist, Merkmale aus der Eingabe des Machine Learning-Modells zu extrahieren, als vorzutrainierender Bereich ausgewählt. In diesem Zusammenhang ist es noch einmal vorteilhaft, dass die Trainings-Beispiele nicht gelabelt sein müssen, denn die verfügbaren Labels beziehen sich in der Regel auf die Endausgabe des Machine Learning-Modells in Bezug auf die vorgegebene Task. Für Zwischenergebnisse, wie etwa Merkmalskarten eines Merkmalsextraktors, sind hingegen keine Labels verfügbar. Es ist auch nicht möglich, beispielsweise aus Soll-Ausgaben bezüglich vom Machine Learning-Modell zu liefernder Klassifikations-Scores auf Soll-Ausgaben bezüglich der Merkmalskarten zurückzuschließen, denn der Task-Kopf bildet ja viele verschiedene Merkmalskarten, die beispielsweise für verschiedene Bilder ein und desselben Objekts aus unterschiedlichen Perspektiven erzeugt wurden, auf ein und denselben Vektor von Klassifikations-Scores ab, also etwa einen „One-hot-Vektor“ mit einem Score von 1 für die Klasse des Objekts.
Aus jedem Trainings-Beispiel werden Abwandlungen erzeugt. Hierfür kann eine beliebige Datenaugmentierungsmethode verwendet werden.
Jede Abwandlung wird in einem ersten Verarbeitungszweig, der mindestens eine erste Instanz des vorzutrainierenden Bereichs umfasst, zu einer ersten Ausgabe verarbeitet. Jede Abwandlung wird aber auch in einem zweiten Verarbeitungszweig, der mindestens eine zweite Instanz des vorzutrainierenden Bereichs umfasst, zu einer zweiten Ausgabe verarbeitet. Hierbei ist der Begriff „Instanzen“ insbesondere dahingehend zu verstehen, dass die Verarbeitung in beiden Instanzen unabhängig voneinander abläuft. Insbesondere soll es sich nicht auf die Verarbeitung in der zweiten Instanz auswirken, wenn Parameter (etwa Gewichte) der ersten Instanz verändert werden.
Für jede Abwandlung wird die Ähnlichkeit der aus dieser Abwandlung erzeugten ersten Ausgabe mit einer Aggregation der aus allen anderen Abwandlungen des gleichen Trainings-Beispiels erzeugten zweiten Ausgaben ermittelt. Parameter, die das Verhalten der ersten Instanz des vorzutrainierenden Bereichs charakterisieren, werden optimiert mit dem Ziel, die so ermittelte Ähnlichkeit zu maximieren. Die so erhaltenen Parameter werden als vortrainierte Parameter des Machine Learning-Modells festgelegt.
Es wurde erkannt, dass gerade das Aggregieren der aus den jeweils anderen Abwandlungen des gleichen Trainings-Beispiels erzeugten zweiten Ausgaben das Vortraining deutlich stabiler macht. Diese zweiten Ausgaben geben gewissermaßen das Ziel vor, auf das die Optimierung in der ersten Instanz des vorzutrainierenden Bereichs gerichtet wird. Wenn Einzelvergleiche zwischen ersten Ausgaben und zweiten Ausgaben erfolgen, wechselt die zweite Ausgabe und somit das Ziel mit jeder neuen Abwandlung des Trainings-Beispiels. Ein Training, bei dem das Ziel ständig wechselt, dauert aber deutlich länger und braucht auch deutlich mehr Ressourcen, beispielsweise mehrere GPUs, deren Zusammenarbeit auch noch synchronisiert werden muss. Dies ist ein Stück weit analog dazu, dass es beim Errichten eines Gebäudes für das Einhalten des Zeitplans und des Budgets „Gift“ ist, wenn der Bauherr während der schon laufenden Arbeiten jeden Tag neue Änderungswünsche an der Planung vorbringt. Wird hingegen eine Planung konsequent durchgehalten, kann sie auch funktionieren.
Nach dem bisherigen Stand der Technik, der auf Einzelvergleichen basierte, waren große Batches von Trainings-Beispielen notwendig, und es musste über viele Epochen trainiert werden, bis das Vortraining gegen ein stabiles Ergebnis konvergierte. Auf diese Weise wurde ein gewisser Mittelungseffekt über die verschiedenen Optimierungsziele bewirkt, die aus den verschiedenen Abwandlungen jeweils resultierten. Es ist jedoch deutlich schneller und auch deutlich besser motivierbar, den Aggregationseffekt bereits in die Festlegung des Optimierungsziels einzubringen und dann dieses eine Optimierungsziel konsequent zu verfolgen.
Dies zeigt sich auch bei einer Analyse der Statistik. Sei beispielsweise T₁ eine zweite Ausgabe, die aus einer bestimmten Abwandlung eines Trainings-Beispiels erzeugt wird. Wenn die Abwandlungen zufallsgesteuert erzeugt werden, kann angenommen werden, dass T₁ ein Sample aus einer Normalverteilung mit Mittelwert µ und Standardabweichung σ ist: $T_{1} ~ N (μ, σ^{2} I),$
worin I die Einheitsmatrix ist. Dieses Sample kann aber als solches noch stark von dem abweichen, was man in der Normalverteilung am häufigsten erwarten würde. Wenn nun aber K Samples gezogen werden und gemittelt, reduziert sich die Varianz σ² um den Faktor K. Der Effekt ist der gleiche, als würde ein einziges Sample T_K aus einer Verteilung mit der reduzierten Varianz gezogen: $\bar{T_{K}} ~ N (μ, \frac{σ^{2} I}{K}) .$
Selbst wenn die vereinfachende Annahme, dass die Verteilung eine Gaußsche Normalverteilung ist, nicht gültig sein sollte, geht für K → ∞ immer noch T_K →µ solange die Samples unabhängig und identisch verteilt sind.
Für das Erzeugen von Abwandlungen eines Trainings-Beispiels ist jede Datenaugmentierungsmethode geeignet, deren Ergebnis noch eindeutig auf genau dieses Trainings-Beispiel zurückgeführt werden kann. Beispielsweise kann eine echte Teilmenge der Daten des Trainings-Beispiels zufällig ausgewählt werden, wie etwa ein Bildausschnitt aus einem Trainings-Bild, ein Teilgebiet einer Punktwolke oder ein zeitlicher Ausschnitt aus einer Zeitreihe. Es kann auch beispielsweise aus einer Zufallsverteilung gesampeltes Rauschen auf die Daten des Trainings-Beispiels aufgeprägt werden. Auch dieses Rauschen lässt das ursprüngliche Trainings-Beispiel noch erkennen. Gleiches gilt, wenn ein bestimmter Anteil der Daten des Trainings-Beispiels entfernt oder ganz oder teilweise unkenntlich gemacht wird, wie etwa durch Weichzeichnen oder Schwärzen eines Teilbereichs in einem Bild. Es kann alternativ oder in Kombination zu den bisher genannten Möglichkeiten auch jede andere Transformation auf die Daten des Trainings-Beispiels angewendet werden, die den semantischen Inhalt dieser Daten nicht ändert.
Die Aggregation kann insbesondere beispielsweise das Ermitteln eines Mittelwerts, eines Medoids oder eines elementweisen Maximums umfassen. Es sind auch andere Aggregationen geeignet, insoweit sie Unterschiede zwischen den zweiten Ausgaben einebnen und insbesondere den Einfluss von Ausreißern unterdrücken.
Die Ähnlichkeit kann insbesondere beispielsweise mit einem Distanzmaß ermittelt werden. Wenn beispielsweise der vorzutrainierende Bereich des Machine Learning-Modells Merkmals aus der Eingabe des Machine Learning-Modells extrahiert, ist ein solches Distanzmaß im Raum der ermittelten Merkmale besonders gut interpretierbar. Als Distanzmaß kann insbesondere beispielsweise eine Kosinus-Distanz gewählt werden.
Ausgehend von einer ersten Ausgabe p_K+1 für ein Trainingsbeispiel sowie K Abwandlungen z₁, ..., z_K kann hiermit für das Vortraining beispielsweise eine Kostenfunktion (Loss-Funktion) $L (z_{1}, \dots, z_{K}, p_{K + 1}) = - \frac{p_{K + 1}}{{‖ p_{K + 1} ‖}_{2}} \cdot \frac{\frac{1}{K} \sum_{i = 1}^{K} z_{i}}{{‖ \frac{1}{K} \sum_{i = 1}^{K} z_{i} ‖}_{2}} = - \frac{p_{K + 1}}{{‖ p_{K + 1} ‖}_{2}} \cdot \frac{\bar{T_{K}}}{{‖ \bar{T_{K}} ‖}_{2}}$
verwendet werden, worin T_K ein Sample aus einer Normalverteilung ist, deren Varianz durch das Aggregieren um den Faktor K reduziert wurde. Wenn nun jede Abwandlung einmal zu der ersten Ausgabe verarbeitet wird und die jeweils anderen Abwandlungen das Optimierungsziel festlegen, ergibt sich insgesamt die Kostenfunktion $L_{total} = \sum_{i = 1}^{K + 1} \frac{1}{K + 1} L ({z_{j} | j \neq i \land 1 \leq j \leq K + 1}, p_{i})$
für das Vortraining.
Die Trainings-Beispiele können insbesondere beispielsweise Bilder oder Punktwolken umfassen, die durch messtechnische Beobachtung einer Szenerie aufgenommen wurden. Bilder können Standbilder oder auch Bewegtbilder sein, die beispielsweise mit einer oder mehreren Kameras für sichtbares Licht oder auch andere Teile des elektromagnetischen Spektrums (etwa Infrarot) aufgenommen wurden. Punktwolken können beispielsweise mit Radar- oder Lidar-Sensoren aufgenommen werden. Gerade diese Datenarten haben eine besonders hohe Dimensionalität, so dass die durch das Aggregieren der zweiten Ausgaben gewonnene Stabilität des Trainingsziels besonders wichtig ist.
Die Szenerie kann insbesondere beispielsweise eine von einem Fahrzeug aus beobachtbare Verkehrssituation sein. Es ist besonders aufwändig, gelabelte Trainings-Beispiele für Verkehrssituationen zu erhalten. Daher ist das Vortraining auf ungelabelten Daten besonders vorteilhaft. Weiterhin gibt es gerade bei der Auswertung von Verkehrssituationen, beispielsweise für die Zwecke des zumindest teilweise automatisierten Fahrens, eine Vielzahl von Tasks, die alle auf das Vortraining zurückgreifen können.
Das letztendliche Ziel des Vortrainings ist, eine bessere Basis für das Training des Machine Learning-Modells auf eine konkrete vorgegebene Task zu schaffen. Daher werden nach dem Vortraining vorteilhaft weitere Trainings-Beispiele für Eingaben des Machine Learning-Modells bereitgestellt. Diese weiteren Trainings-Beispiele sind mit Soll-Ausgaben in Bezug auf eine vorgegebene Aufgabe (Task) gelabelt. Sie werden vom Machine Learning-Modell zu Ausgaben verarbeitet. Eine Abweichung dieser Ausgaben von den Soll-Ausgaben wird mit einer vorgegebenen Kostenfunktion bewertet. Parameter, die das Verhalten des Machine Learning-Modells charakterisieren, optimiert werden mit dem Ziel, dass bei weiterer Verarbeitung von gelabelten Trainings-Beispielen die Bewertung durch die Kostenfunktion voraussichtlich verbessert wird.
Das oben beschriebene Vortraining hat in diesem Kontext die Wirkung, dass das weitere Training im Hinblick auf die spezifische Task mit weniger gelabelten Trainings-Beispielen auskommt und auch schneller konvergiert. Im Ergebnis kann das Gesamtaufwand für das Training, der das unüberwachte generische Vortraining und das überwachte Task-spezifische Training einschließt, deutlich verringert werden. Wenn berücksichtigt wird, dass ein und dasselbe generische Vortraining die Basis für viele Task-spezifische Trainings bilden kann, wird die Ersparnis noch größer.
Das Machine Learning-Modell kann insbesondere beispielsweise dazu ausgebildet sein, eine Klassifikation der Bilder bzw. Punktwolken zu ermitteln, die insbesondere beispielsweise von den Pixelwerten und/oder Werten von Messgrößen in diesen Bildern bzw. Punktwolken abhängen kann. Die Klassifikation kann insbesondere beispielsweise auch eine semantische Segmentierung als bereichs- oder pixelweise Klassifikation, oder auch eine Detektion, ob ein Objekt vorhanden ist oder nicht, umfassen. Wie zuvor erläutert, besteht ein Machine Learning-Modell für eine derartige Task zu einem großen Teil aus Bereichen, die Merkmale aus den Eingaben extrahieren. Nur ein kleiner Teil des Modells entfällt auf den Task-Kopf, der für die konkrete Klassifikations- bzw. Segmentierungs-Task spezifisch ist. Somit kann ein großer Teil des Machine Learning-Modells unüberwacht vortrainiert werden, und der Anteil des Trainings, der noch mit gelabelten Trainings-Beispielen zu absolvieren ist, wird kleiner.
Beim weiteren Training mit den gelabelten Trainings-Beispielen können die bereits vortrainierten Parameter weiter optimiert werden. Das Vortraining erhebt noch nicht den Anspruch darauf, dass beispielsweise eine Merkmalsextraktion zu einem Optimum geführt werden kann, das auch in Bezug auf jede denkbare nachgeschaltete Task ein Optimum ist. Vielmehr können in Bezug auf unterschiedliche Tasks auch jeweils unterschiedliche Merkmale besonders relevant werden, und die letztendlich erzielte Task-Genauigkeit kann verbessert werden, indem bei der Merkmalsextraktion gerade diese Merkmale herausgearbeitet werden, was dann möglicherweise auf Kosten anderer Merkmale geht. Dies lässt sich etwa am Beispiel der Bildverarbeitung veranschaulichen: Der Kontrast bestimmter gewünschter Merkmale lässt sich möglicherweise nur um den Preis erhöhen, dass andere, weniger wichtige Merkmale in die Sättigung gezogen werden.
Es kann jedoch in einer weiteren vorteilhaften Ausgestaltung wiederum vorteilhaft sein, die vortrainierten Parameter beim Training mit den weiteren, gelabelten Trainings-Beispielen festzuhalten. Dies kann beispielsweise sinnvoll sein, wenn der vortrainierte Bereich des Machine Learning-Modells genau in diesem Zustand behördlich zertifiziert worden ist. Derartige Zertifizierungen können beispielsweise beim Einsatz von Machine Learning-Modellen für die Steuerung von Fahrzeugen oder anderen sicherheitsrelevanten Systemen gefordert werden.
In einer weiteren vorteilhaften Ausgestaltung gehören die weiteren, gelabelten Trainings-Beispiele einer anderen Verteilung oder Domäne an als die für das Vortrainieren verwendeten Trainings-Beispiele. Das Verfahren macht sich dann zu Nutze, dass das Vortraining auf einer Verteilung oder Domäne gut auf andere Verteilungen bzw. Domänen generalisiert.
Die Verwendung der Begriffe „Verteilung“ und „Domäne ist nicht dahingehend einschränkend zu verstehen, dass eine Verteilung oder Domäne vorzugeben ist, aus der die Trainings-Beispiele dann jeweils gesampelt werden. Vielmehr kann auch eine jeweils vorgegebene Menge von Trainings-Beispielen eine Verteilung oder Domäne definieren. Wenn beispielsweise alle oder fast alle der Trainings-Beispiele mit einer Normalverteilung mit einem bestimmten Mittelwert und einer bestimmten Standardabweichung, oder mit einer anderen Zufallsverteilung eines konkreten Typs mit konkreten Parametern, in Einklang stehen, definiert die Menge der Trainings-Beispiele diese Zufallsverteilung, indem sie einen Rückschluss auf ihren Typ und ihre Parameter zulässt. Unterschiedliche Domänen können insbesondere beispielsweise unterschiedliche Umstände repräsentieren, unter denen etwa Messdaten als Trainings-Beispiele erhalten wurden, wie etwa unterschiedliche Jahreszeiten, Tageszeiten, Wetterbedingungen oder auch Abbildungsmodalitäten, mit denen Bilder als Trainings-Beispiele aufgenommen wurden.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum unüberwachten Vortrainieren eines Machine Learning-Modells 1;
2 Beispielhafte Anwendung des Verfahrens 100 an einem Trainings-Beispiel 2* einer Verkehrssituation.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum unüberwachten Vortrainieren eines Machine Learning-Modells 1.
In Schritt 110 wird eine Menge von Trainings-Beispielen 2* für Eingaben 2 des Machine Learning-Modells 1 bereitgestellt.
Gemäß Block 111 können Bilder oder Punktwolken, die durch messtechnische Beobachtung einer Szenerie aufgenommen wurden, als Trainings-Beispiele 2* gewählt werden. Gemäß Block lila kann eine von einem Fahrzeug aus beobachtbare Verkehrssituation als Szenerie gewählt werden.
In Schritt 120 wird ein vorzutrainierender Bereich 11 des Machine Learning-Modells 1 festgelegt.
Gemäß Block 121 kann ein Bereich des Machine Learning-Modells 1, der dazu ausgebildet ist, Merkmale aus der Eingabe 2 des Machine Learning-Modells 1 zu extrahieren, als vorzutrainierender Bereich 11 ausgewählt werden.
In Schritt 130 werden aus jedem Trainings-Beispiel Abwandlungen 3a-3d erzeugt.
Gemäß Block 131 kann eine echte Teilmenge der Daten des Trainings-Beispiels 2* zufällig ausgewählt werden.
Gemäß Block 132 kann aus einer Zufallsverteilung gesampeltes Rauschen auf die Daten des Trainings-Beispiels 2* aufgeprägt werden.
Gemäß Block 133 kann ein Anteil der Daten des Trainings-Beispiels 2* entfernt oder ganz oder teilweise unkenntlich gemacht werden.
Gemäß Block 134 kann auf die Daten des Trainings-Beispiels 2* eine Transformation angewendet werden, die den semantischen Inhalt dieser Daten nicht ändert.
In Schritt 140 wird jede Abwandlung 3a-3d in einem ersten Verarbeitungszweig 4, der mindestens eine erste Instanz des vorzutrainierenden Bereichs 11 umfasst, zu einer ersten Ausgabe 5a-5d verarbeitet.
In Schritt 150 wird jede Abwandlung 3a-3d wird in einem zweiten Verarbeitungszweig 6, der mindestens eine zweite Instanz 11' des vorzutrainierenden Bereichs 11 umfasst, zu einer zweiten Ausgabe 7a-7d verarbeitet.
In Schritt 160 wird für jede Abwandlung 3a-3d die Ähnlichkeit 9 der aus dieser Abwandlung 3a-3d erzeugten ersten Ausgabe 5a-5d mit einer Aggregation 8 der aus allen anderen Abwandlungen 3a-3d des gleichen Trainings-Beispiels 2* erzeugten zweiten Ausgaben 7a-7d ermittelt.
Gemäß Block 161 kann die Aggregation 8 das Ermitteln eines Mittelwerts, eines Medoids oder eines elementweisen Maximums umfassen.
Gemäß Block 162 kann die Ähnlichkeit 9 mit einem Distanzmaß ermittelt werden. Gemäß Block 162a kann eine Kosinus-Distanz als Distanzmaß gewählt werden.
In Schritt 170 werden Parameter 11a, die das Verhalten der ersten Instanz des vorzutrainierenden Bereichs 11 charakterisieren, optimiert mit dem Ziel, die Ähnlichkeit 9 zu maximieren. Der fertig optimierte Zustand der Parameter 11a ist mit dem Bezugszeichen 11a* bezeichnet.
In Schritt 180 werden die Parameter 11a* als vortrainierte Parameter 1a# des Machine Learning-Modells 1 festgelegt.
In Schritt 190 werden weitere Trainings-Beispiele 2** für Eingaben 2 des Machine Learning-Modells 1 bereitgestellt. Diese weiteren Trainings-Beispiele sind mit Soll-Ausgaben 10* in Bezug auf eine vorgegebene Aufgabe gelabelt.
Gemäß Block 191 können die weiteren Trainings-Beispiele 2** einer anderen Verteilung oder Domäne angehören als die für das Vortrainieren verwendeten Trainings-Beispiele 2*.
In Schritt 200 werden die weiteren Trainings-Beispiele 2** vom Machine Learning-Modell 1 zu Ausgaben 10 verarbeitet.
In Schritt 210 wird eine Abweichung dieser Ausgaben 10 von den Soll-Ausgaben 10* mit einer vorgegebenen Kostenfunktion 20 bewertet.
In Schritt 220 werden Parameter 1a, die das Verhalten des Machine Learning-Modells 1 charakterisieren, optimiert mit dem Ziel, dass bei weiterer Verarbeitung von gelabelten Trainings-Beispielen 2** die Bewertung 20a durch die Kostenfunktion 20 voraussichtlich verbessert wird. Der fertig trainierte Zustand der Parameter 1a ist mit dem Bezugszeichen 1a* bezeichnet. Das vollständige Training legt auch das fertig trainierte Machine Learning-Modell 1* als Ganzes fest.
Gemäß Block 221 können die vortrainierten Parameter 1a# beim Training mit den weiteren Trainings-Beispielen 2** festgehalten werden.
2 zeigt exemplarisch die Anwendung des Verfahrens 100 an einem Trainings-Beispiel 2*, das ein Bild einer Verkehrssituation ist. Die Verkehrssituation enthält eine Straße 31 sowie am linken Rand der Straße 31 einen Baum 33 und am rechten Rand der Straße ein Verkehrszeichen 32.
In Schritt 130 des Verfahrens 100 werden Abwandlungen 3a-3d erzeugt, indem jeweils Ausschnitte aus dem Trainings-Beispiel 2* ausgewählt werden. Die Abwandlung 3a zeigt einen Teil des rechten Rands der Straße 31 und das Verkehrszeichen 32. Die Abwandlung 3b zeigt einen anderen Teil des rechten Rands der Straße 31 und einen Teil des Verkehrszeichens 32. Die Abwandlung 3c zeigt einen Teil des linken Rands der Straße 31 und einen Teil des Baums 33. Die Abwandlung 3d zeigt einen anderen Teil des linken Rands der Straße 31 und den Baum 33.
In dem in 2 gezeigten Beispiel wird die Abwandlung 3a in dem ersten Verarbeitungszweig 4 zu der Ausgabe 5a verarbeitet. Der erste Verarbeitungszweig 4 enthält den vorzutrainierenden Bereich 11 des Machine Learning-Models 1 sowie auch den Task-Kopf 12 des Machine Learning-Modells 1. Die Abwandlungen 3b-3d werden in einem zweiten Verarbeitungszweig 6 zu Ausgaben 7b-7d verarbeitet. Der zweite Verarbeitungszweig 6 enthält eine andere Instanz 11' des vorzutrainierenden Bereichs 11 des Machine Learning-Modells 1.
Die Ausgaben 7b-7d werden zu einer Aggregation 8 zusammengefasst. Die Ausgabe 5a aus dem ersten Verarbeitungszweig 4 wird in Schritt 160 mit dieser Aggregation 8 verglichen. Anhand der ermittelten Ähnlichkeit 9 werden die Parameter 11a des vorzutrainierenden Bereichs 11 optimiert.

Claims

Verfahren (100) zum unüberwachten Vortrainieren eines Machine Learning-Modells (1) mit den Schritten: • es wird eine Menge von Trainings-Beispielen (2*) für Eingaben (2) des Machine Learning-Modells (1) bereitgestellt (110); • es wird ein vorzutrainierender Bereich (11) des Machine Learning-Modells (1) festgelegt (120); • aus jedem Trainings-Beispiel (2*) werden Abwandlungen (3a-3d) erzeugt (130); • jede Abwandlung (3a-3d) wird in einem ersten Verarbeitungszweig (4), der mindestens eine erste Instanz des vorzutrainierenden Bereichs (11) umfasst, zu einer ersten Ausgabe (5a-5d) verarbeitet (140); • jede Abwandlung (3a-3d) wird in einem zweiten Verarbeitungszweig (6), der mindestens eine zweite Instanz (11') des vorzutrainierenden Bereichs (11) umfasst, zu einer zweiten Ausgabe (7a-7d) verarbeitet (150); • für jede Abwandlung (3a-3d) wird die Ähnlichkeit (9) der aus dieser Abwandlung (3a-3d) erzeugten ersten Ausgabe (5a-5d) mit einer Aggregation (8) der aus allen anderen Abwandlungen (3a-3d) des gleichen Trainings-Beispiels (2*) erzeugten zweiten Ausgaben (7a-7d) ermittelt (160); • Parameter (11a), die das Verhalten der ersten Instanz des vorzutrainierenden Bereichs (11) charakterisieren, werden optimiert (170) mit dem Ziel, die so ermittelte Ähnlichkeit (9) zu maximieren; • die so erhaltenen Parameter (11a*) werden als vortrainierte Parameter (la#) des Machine Learning-Modells (1) festgelegt (180).
Verfahren (100) nach Anspruch 1, wobei das Erzeugen von Abwandlungen (3a-3d) eines Trainings-Beispiels (2*) umfasst, • eine echte Teilmenge der Daten des Trainings-Beispiels (2*) zufällig auszuwählen (131); und/oder • aus einer Zufallsverteilung gesampeltes Rauschen auf die Daten des Trainings-Beispiels (2*) aufzuprägen (132); und/oder • einen Anteil der Daten des Trainings-Beispiels (2*) zu entfernen oder ganz oder teilweise unkenntlich zu machen (133); und/oder • auf die Daten des Trainings-Beispiels (2*) eine Transformation anzuwenden, die den semantischen Inhalt dieser Daten nicht ändert (134).
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei ein Bereich des Machine Learning-Modells (1), der dazu ausgebildet ist, Merkmale aus der Eingabe (2) des Machine Learning-Modells (1) zu extrahieren, als vorzutrainierender Bereich (11) ausgewählt wird (121).
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Aggregation (8) das Ermitteln eines Mittelwerts, eines Medoids oder eines elementweisen Maximums umfasst (161).
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei die Ähnlichkeit (9) mit einem Distanzmaß ermittelt wird (162).
Verfahren (100) nach Anspruch 5, wobei eine Kosinus-Distanz als Distanzmaß gewählt wird (162a).
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei Bilder oder Punktwolken, die durch messtechnische Beobachtung einer Szenerie aufgenommen wurden, als Trainings-Beispiele (2*) gewählt werden (111).
Verfahren (100) nach Anspruch 7, wobei eine von einem Fahrzeug aus beobachtbare Verkehrssituation als Szenerie gewählt wird (111a).
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei zusätzlich • weitere Trainings-Beispiele (2**) für Eingaben (2) des Machine Learning-Modells (1) bereitgestellt werden (190), wobei diese weiteren Trainings-Beispiele mit Soll-Ausgaben (10*) in Bezug auf eine vorgegebene Aufgabe gelabelt sind; • diese weiteren Trainings-Beispiele (2**) vom Machine Learning-Modell (1) zu Ausgaben (10) verarbeitet werden (200); • eine Abweichung dieser Ausgaben (10) von den Soll-Ausgaben (10*) mit einer vorgegebenen Kostenfunktion (20) bewertet wird (210) und • Parameter (1a), die das Verhalten des Machine Learning-Modells (1) charakterisieren, optimiert werden (220) mit dem Ziel, dass bei weiterer Verarbeitung von gelabelten Trainings-Beispielen (2**) die Bewertung (20a) durch die Kostenfunktion (20) voraussichtlich verbessert wird.
Verfahren (100) nach Anspruch 7 und 9 sowie optional zusätzlich Anspruch 8, wobei das Machine Learning-Modell dazu ausgebildet ist, eine Klassifikation der Bilder bzw. Punktwolken zu ermitteln.
Verfahren (100) nach einem der Ansprüche 9 bis 10, wobei die vortrainierten Parameter (la#) beim Training mit den weiteren Trainings-Beispielen (2**) festgehalten werden (221).
Verfahren (100) nach einem der Ansprüche 9 bis 11, wobei die weiteren Trainings-Beispiele (2**) einer anderen Verteilung oder Domäne angehören (191) als die für das Vortrainieren verwendeten Trainings-Beispiele (2*).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.