DE102019206052A1

DE102019206052A1 - Situationsadaptives Trainieren eines trainierbaren Moduls mit aktivem Lernen

Info

Publication number: DE102019206052A1
Application number: DE102019206052.8A
Authority: DE
Inventors: William Harris Beluch; Nik Dorndorf; Jan Mathias Koehler
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-10-29

Abstract

Verfahren zum Trainieren eines trainierbaren Moduls (1) mit den Schritten:• das trainierbare Modul (1) wird mit gelabelten Lern-Datensätzen (2*) trainiert (110);• mindestens einen zuvor ungelabelter Lern-Datensatz (2) wird zu einem gelabelten Lern-Datensatz (2*) gelabelt;• mit der solchermaßen erweiterten Menge gelabelter Lern-Datensätze (2*) wird zum Training (110) zurückverzweigt (190), wobei• Lern-Eingangsgrößenwerte (11a) mindestens eines ungelabelten Lern-Datensatzes (2) mehreren Abwandlungen (1a-1c) des trainierbaren Moduls (1) als Eingangsgrößen (11) zugeführt werden (120);• aus der Abweichung der Ausgangsgrößenwerte (13), in die die Abwandlungen (1a-1c) die Lern-Eingangsgrößenwerte (11a) jeweils übersetzen, voneinander ein Maß für die Unsicherheit (13b) dieser Ausgangsgrößenwerte (13) ermittelt wird (130); und• in Antwort darauf, dass die Unsicherheit (13b), und/oder ein Verlauf dieser Unsicherheit (13b), und/oder eine aus der Unsicherheit oder ihrem Verlauf abgeleitete Größe, in Abhängigkeit des Trainingsstandes, ein vorgegebenes Kriterium (140) erfüllt, ein laufendes Training (110) unterbrochen wird (150), und/oder mindestens ein neuer ungelabelter Datensatz (2) angefordert wird (160), und/oder mindestens ein vorhandener ungelabelter Lern-Datensatz (2') vom Labeln (180) ausgeschlossen wird (170).

Description

Die vorliegende Erfindung betrifft das Training trainierbarer Module, wie sie beispielsweise für Klassifikationsaufgaben, bei der Qualitätskontrolle und/oder bei der Objekterkennung beim zumindest teilweise automatisierten Fahren eingesetzt werden.
Stand der Technik
Trainierbare Module, wie beispielsweise künstliche neuronale Netzwerke, können mit einer endlichen Anzahl von Situationen trainiert werden und die hieraus gewonnen Erkenntnisse auf einen großen Kreis von unbekannten Situationen verallgemeinern. So kann beispielsweise ein Objekterkennungssystem für ein zumindest teilweise automatisiert fahrendes Fahrzeug anhand einer endlichen Zahl von Verkehrssituationen so trainiert werden, dass es anschließend auch in unbekannten, nicht trainierten Situationen das gewünschte Verhalten zeigt. Ebenso kann beispielsweise ein System zur Qualitätskontrolle von in Serie hergestellten Produkten anhand einer endlichen Anzahl von Produkt-Beispielen lernen, wann Produkte als fehlerhaft einzustufen sind, und dies auch dann erkennen, wenn es sich anders manifestiert als in den Produkt-Beispielen.
Beim Training eines trainierbaren Moduls ist es ein wesentlicher Treiber für die Kosten, die Lern-Datensätze, die beispielsweise Verkehrssituationen oder an Produkt-Beispielen erhobene Messdaten umfassen, mit der Schlussfolgerung, die das trainierbare Modul idealerweise hieraus ziehen sollte, zu „labeln“. Dies muss häufig manuell erfolgen. Daher startet das sogenannte aktive Lernen mit Lern-Datensätzen, von denen nur ein sehr kleiner Teil gelabelt ist. Das trainierbare Modul sucht sich dann immer wieder selbsttätig diejenigen Lern-Datensätze aus, die als nächstes gelabelt werden sollten, um mit insgesamt möglichst wenigen gelabelten Lern-Datensätzen einen maximalen Trainingsfortschritt zu erzielen.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines trainierbaren Moduls entwickelt. Das trainierbare Modul übersetzt eine oder mehrere Eingangsgrößen in eine oder mehrere Ausgangsgrößen.
Unter einem trainierbaren Modul wird insbesondere ein Modul angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines trainierbaren Moduls insbesondere dergestalt angepasst werden, dass bei Eingabe von Lern-Eingangsgrößenwerten in das Modul die zugehörigen Lern-Ausgangsgrößenwerte möglichst gut reproduziert werden. Das trainierbare Modul kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder es kann ein KNN sein.
Das Training arbeitet mit aktivem Lernen. Es basiert daher auf zwei Arten von Lern-Datensätzen. Zum einen gibt es ungelabelte Lern-Datensätze, die lediglich Lern-Eingangsgrößenwerte umfassen. Zum anderen gibt es gelabelte Lern-Datensätze, die sowohl Lern-Eingangsgrößenwerte als auch zugehörige Lern-Ausgangsgrößenwerte umfassen. Beim aktiven Lernen werden im Laufe des Trainings zunächst ungelabelte Lern-Datensätze nachträglich gelabelt, nachdem erkannt wurde, dass gerade das Labeln dieser Lern-Datensätze einen Gewinn im Hinblick auf das Trainingsergebnis verspricht. Es können auch weitere ungelabelte Lern-Datensätze angefordert werden, um hierin nach Kandidaten zu suchen, die es sich in diesem Sinne zu labeln lohnt.
Dabei bezeichnet der Begriff „Lern-Datensatz“ nicht die Gesamtheit aller zur Verfügung stehender Lern-Daten. Ein ungelabelter Lern-Datensatzes umfasst eine oder mehreren Lern-Eingangsgrößenwerte, aus denen das trainierbare Modul einen oder mehrere Ausgangsgrößenwerte als Aussage generieren soll. Ein gelabelter Lern-Datensatz umfasst zusätzlich noch die Lern-Ausgangsgrößenwerte, auf die das trainierbare Modul den oder die Lern-Eingangsgrößenwerte abbilden soll, als Label. Bei einem für die Klassifikation und/oder Regression eingesetzten trainierbaren Modul kann ein ungelabelter Lern-Datensatz beispielsweise ein Bild als Matrix von Lern-Eingangsgrößenwerten umfassen. Wird dieser Lern-Datensatz gelabelt, kommen beispielsweise noch Softmax-Scores, die das trainierbare Modul hieraus idealerweise generieren sollte, als Vektor von Lern-Ausgangsgrößenwerten hinzu.
Die Messdaten wurden durch einen physikalischen Messprozess, und/oder durch eine teilweise oder vollständige Simulation eines solchen Messprozesses, und/oder durch eine teilweise oder vollständige Simulation eines mit einem solchen Messprozess beobachtbaren technischen Systems, erhalten. Dies bringt es mit sich, dass die Messdaten mit Unsicherheiten und Unwägbarkeiten behaftet sind. Anders als bei rein synthetischen Daten steht also nicht von vornherein für alle Lern-Eingangsgrößenwerte auch gleich die zugehörigen Lern-Ausgangsgrößenwerte als Label bereit, sondern diese Labels müssen in einem je nach technischer Anwendung mehr oder weniger aufwändigen Prozess nachträglich ermittelt werden.
Im Rahmen des Verfahrens wird das trainierbare Modul mit den gelabelten Lern-Datensätzen trainiert, so dass die in diesen Lern-Datensätzen enthalten Lern-Eingangsgrößenwerte auf die jeweils zugehörigen Lern-Ausgangsgrößenwerte abgebildet werden. Für die Bewertung, inwieweit die Lern-Ausgangsgrößenwerte wie gewünscht reproduziert werden, kann ein beliebiges Fehlermaß zum Einsatz kommen, wie etwa die Kreuzentropie oder die Methode der kleinsten Fehlerquadratsumme.
Das aktive Lernen sieht vor, dass ausgehend von einem bestimmten Trainingsstand des trainierbaren Moduls für mindestens einen zuvor ungelabelten Datensatz Lern-Ausgangsgrößenwerte angefordert werden, so dass dieser vormals ungelabelte Lern-Datensatz zu einem gelabelten Lern-Datensatz wird. Dadurch wird die Menge gelabelter Lern-Datensätze erweitert. Genau in diesen Prozess des aktiven Lernens wird eingegriffen.
Zu diesem Zweck werden Lern-Eingangsgrößenwerte mindestens eines ungelabelten Lern-Datensatzes mehreren Abwandlungen des trainierbaren Moduls als Eingangsgrößen zugeführt, so dass die verschiedenen Abwandlungen jeweils verschiedene Ausgangsgrößenwerte liefern. Dabei unterscheiden sich die Abwandlungen so weit voneinander, dass sie bei fortschreitendem Lernen nicht deckungsgleich ineinander überführt werden.
Die Abwandlungen können beispielsweise gleiche oder vergleichbare Trainingsstände haben, um die jeweils gelieferten Ausgangsgrößenwerte besser vergleichbar zu machen. Je nach Anwendung kann aber auch beispielsweise ein Unterschied zwischen den Trainingsständen der Abwandlungen ausdrücklich gewünscht sein.
Der Trainingsstand beim aktiven Lernen setzt sich zusammen aus der Anzahl der auch „acquisition steps“ genannten Iterationen, die sich in der Anzahl der gelabelten Lern-Datensätze unterscheiden, und den einzelnen Epochen innerhalb einer solchen Iteration. Es wird also von Iteration zu Iteration die Menge der gelabelten Lern-Datensätze vergrößert, und innerhalb der Iteration wird mit den jeweils vorhandenen gelabelten Lern-Datensätzen Epoche für Epoche trainiert. Somit bilden die Iterationen („acquisition steps“) eine Grobeinteilung des Trainingsstandes, während die Epochen eine Feineinteilung des Trainingsstandes bilden.
Die Abwandlungen können beispielsweise strukturell unterschiedlich sein. Beispielsweise können mehrere Abwandlungen von KNNs erzeugt werden, indem jeweils unterschiedliche Neuronen im Rahmen eines „Dropouts“ deaktiviert werden. Die Abwandlungen können aber auch beispielsweise durch Vortraining mit gleich mächtigen, aber inhaltlich hinreichend unterschiedlichen Teilmengen der insgesamt vorhandenen Lern-Datensätze, und/oder durch Vortraining ausgehend von hinreichend unterschiedlichen Initialisierungen, erzeugt werden. Es ist aber wiederum nicht zwingend, dass die beim Vortraining verwendeten Teilmengen der Lern-Datensätze gleich mächtig sind.
Beispielsweise können die Abwandlungen von dem trainierbaren Modul abgeleitet werden, nachdem dieses bis zu einem bestimmten Trainingsstand trainiert wurde. Die Abwandlungen können aber auch beispielsweise unabhängig voneinander bis zu einem jeweils gewünschten Trainingsstand trainiert werden.
Aus der Abweichung der Ausgangsgrößenwerte, in die die Abwandlungen die Lern-Eingangsgrößenwerte jeweils übersetzen, voneinander wird ein Maß für die Unsicherheit dieser Ausgangsgrößenwerte ermittelt. In Antwort darauf, dass diese Unsicherheit, und/oder ihr Verlauf in Abhängigkeit des Trainingsstandes, und/oder eine aus der Unsicherheit oder ihrem Verlauf abgeleitete Größe, ein vorgegebenes Kriterium erfüllt, wird der weitere Ablauf des aktiven Lernens geändert.
Eine erste Möglichkeit besteht darin, ein laufendes Training des trainierbaren Moduls mit den aktuell gelabelten Lern-Datensätzen zu unterbrechen. Die Unsicherheit kann also beispielsweise immer nach einer bestimmten Anzahl Epochen und/oder Trainingsschritte des Trainings ermittelt werden. Wenn das vorgegebene Kriterium nicht erfüllt ist, kann das Training dann fortgesetzt werden, bis wieder die vorgegebene Anzahl Epochen und/oder Trainingsschritte erreicht ist und die Unsicherheit erneut ermittelt wird. Wenn das vorgegebene Kriterium hingegen erfüllt ist, kann das Training abgebrochen werden.
Hierhinter steckt die Erkenntnis, dass insbesondere zu Beginn des Trainings des trainierbaren Moduls insgesamt die Anzahl der vorhandenen gelabelten Lern-Datensätze noch vergleichsweise gering ist. Dementsprechend ist auch die Menge an Information, die das Training aus dieser vergleichsweise überschaubaren Menge gelabelter Lern-Datensätze extrahieren kann, geringer als zu einem späteren Zeitpunkt im Prozess, zu dem deutlich mehr gelabelte Lern-Datensätze zur Verfügung stehen. Dies führt dazu, dass das Training mit einer kleineren Anzahl gelabelter Lern-Datensätze früher gegen seinen Endstand konvergiert als das Training mit einer größeren Anzahl gelabelter Lern-Datensätze.
Die Verwendung der Unsicherheit als Abbruchkriterium ist in dieser Situation in zweierlei Hinsicht vorteilhaft. Es werden zum einen Trainingszeit und Energie eingespart, wenn auf ein Ergebnis, das sich im Wesentlichen nicht mehr ändern wird, keine weitere Rechenleistung verwendet wird. Zum anderen ist dieses Abbruchkriterium nicht auf gelabelte Validierungs-Datensätze angewiesen, die separat von den Lern-Datensätzen gehalten werden müssen. Das bedeutet, dass alle zur Verfügung stehenden gelabelten Datensätze als Lern-Datensätze verwendet werden können. Dies ist umso vorteilhafter, je aufwändiger das Labeln zuvor ungelabelter Lern-Datensätze ist.
Lern-Eingangsgrößenwerte mindestens eines ungelabelten Lern-Datensatzes werden allen Abwandlungen des trainierbaren Moduls als Eingangsgrößen zugeführt. Aus der Abweichung der Ausgangsgrößenwerte, in die die Abwandlungen die Lern-Eingangsgrößenwerte jeweils übersetzen, voneinander wird ein Maß für die Unsicherheit dieser Ausgangsgrößenwerte ermittelt. In Antwort darauf, dass diese Unsicherheit, und/oder ihr Verlauf in Abhängigkeit des Trainingsstandes, ein vorgegebenes Kriterium erfüllt, wird in den weiteren Verlauf des Trainings eingegriffen.
Eine zweite Möglichkeit, in das aktive Lernen einzugreifen, besteht darin, mindestens einen neuen ungelabelten Datensatz anzufordern. Das ganze Konzept des aktiven Lernens beruht darauf, dass die Lern-Datensätze bezüglich des Zugewinns für das weitere Training, der durch das Labeln dieser Lern-Datensätze erzielt werden kann, nicht gleichwertig sind. Daher kann der Fall eintreten, dass der zu erwartende Zugewinn für keinen der noch nicht gelabelten Lern-Datensätze so groß ist, dass sich das aufwändige Labeln dieses Lern-Datensatzes lohnt.
Dabei ist es in zweierlei Hinsicht vorteilhaft, das Training nicht sofort mit einem sehr großen Pool an ungelabelten Lern-Datensätzen zu starten, sondern diesem Pool erst nach und nach neue Lern-Datensätze zuzuführen. Zum einen kann auf einem kleineren Pool schneller nach aussichtsreichen Kandidaten für das Labeln gesucht werden. Zum anderen kann es auch Anwendungen geben, in denen nicht erst das Labeln von Lern-Datensätzen, sondern bereits das Beschaffen neuer ungelabelter Lern-Datensätze aufwändig ist. Ein Beispiel hierfür ist die Analyse medizinischer Bilder auf das Vorhandensein, bzw. den Ausprägungsgrad, bestimmter Krankheiten. Neue ungelabelte Lern-Datensätze können hier nur durch neue physische Untersuchungen von Patienten gewonnen werden, was deren Mitwirkung erfordert. Der Prozess der Bildaufnahme selbst kann beispielsweise bei radiologischer Bildgebung die Nutzung teurer Großgeräte und bei mikroskopischen Gewebeuntersuchungen eine zeitaufwändige Probenpräparation erforderlich machen.
Auch beim zumindest teilweise automatisierten Fahren kann neben dem Labeln von Lern-Datensätzen die Beschaffung ungelabelter Lern-Datensätze aufwändig sein. So kann beispielsweise für Probefahrten derartiger Fahrzeuge die Nutzung spezieller Fahrzeuge mit zusätzlichen Sensoren (etwa Lidar oder Radar) oder die Mitfahrt eines überwachenden menschlichen Testfahrers erforderlich sein.
Neue ungelabelte Lern-Datensätze können einer nach dem anderen hinzugefügt werden. Vorteilhaft werden jedoch Pakete aus vielen ungelabelten Lern-Datensätzen auf einmal zugeführt. Diese Pakete können beispielsweise in der Größenordnung 1.000 bis 10.000 Lern-Datensätze enthalten. Der Vorteil besteht darin, dass innerhalb eines solchen Pakets hinreichend viele Alternativen für die Auswahl des nächsten zu labelnden Lern-Datensatzes bestehen.
Die Nutzung der Unsicherheit als Gradmesser dafür, wann neue ungelabelte Lern-Datensätze benötigt werden, hat weiterhin den Vorteil, dass zu ihrer Ermittlung keine gelabelten Validierungs-Datensätze erforderlich sind. Analog zum Abbruchkriterium für das Training müssen also keine gelabelten Datensätze an die Prüfung, wann neue ungelabelte Lern-Datensätze benötigt werden, „verschwendet“ werden. Stattdessen können alle gelabelten Datensätze als Lern-Datensätze genutzt werden.
Alternativ oder auch in Kombination hierzu kann mindestens ein vorhandener ungelabelter Lern-Datensatz vom Labeln ausgeschlossen werden. Wurde beispielsweise einmal anhand der Unsicherheit erkannt, dass durch das Labeln eines bestimmten Lern-Datensatzes voraussichtlich kein Zugewinn für das Training erzielt werden kann, dann kann der Aufwand für dieses Labeln eingespart werden. Ein solcher Ausschluss ist jedoch nicht zwingend und muss auch nicht dauerhaft sein. Es ist durchaus möglich, dass das trainierbare Modul auf einem ersten Trainingsstand aus einem gegebenen ungelabelten Lern-Datensatz keine neue Information mehr gewinnen kann, auf einem zweiten Trainingsstand jedoch schon. Diese Situation ist damit vergleichbar, dass ein Student eine wissenschaftliche Veröffentlichung zunächst nicht versteht, nach dem Durcharbeiten eines Lehrbuchs zu dem entsprechenden Fachgebiet jedoch keine Schwierigkeiten mehr damit hat.
Das aktive Lernen ist gegenüber dem passiven Lernen, welches ausschließlich mit gelabelten Lern-Datensätzen arbeitet, umso mehr im Vorteil, je aufwändiger das Labeln von Lern-Datensätzen ist. Wenn beispielsweise in Serie hergestellte Produkte anhand von zerstörungsfrei erfassbaren physikalischen Messdaten auf ihre Qualität kontrolliert werden sollen, dann kann es für das Labeln mit „ground truth“, ob ein bestimmtes Exemplar wirklich in Ordnung ist oder nicht, erforderlich sein, dieses Exemplar durchzusägen und von innen zu begutachten. Bei der medizinischen Bildgebung wird die „ground truth“, ob ein bestimmtes Lern-Bild einen krankhaften Zustand zeigt oder nicht, häufig von Spezialisten auf dem Fachgebiet dieser Erkrankung vorgenommen. Hierfür können beispielsweise zusätzliche Messmethoden oder auch der für diese Krankheit geltende „Goldstandard“ zum Einsatz kommen.
Der „Goldstandard“ ist die auf dem jeweiligen Fachgebiet anerkannte Methode, um mit größtmöglicher Genauigkeit eine Aussage dahingehend zu treffen, ob, bzw. in welcher Ausprägung, die jeweilige Krankheit vorliegt. Diese Genauigkeit geht mit einem erhöhten Aufwand einher.
Um einen ungelabelten Datensatz für das Labeln auszuwählen, können beispielsweise Lern-Eingangsgrößenwerte aus mehreren ungelabelten Lern-Datensätzen dem trainierbaren Modul bei seinem aktuellen Trainingsstand als Eingangsgrößen zugeführt werden. Es kann dann ein vorgegebenes Auswahlkriterium auf die hierdurch erhaltenen Ausgangsgrößen, und/oder auf deren Unsicherheiten, angewendet werden. Auf diese Weise kann der Aufwand für das Labeln von Lern-Datensätzen beispielsweise auf solche Lern-Datensätze fokussiert werden, bei deren Verarbeitung sich das trainierbare Modul besonders „schwer tut“. Wenn beispielsweise ein Klassifikationsmodul für Objekte in einem Bild, das von einem Fahrzeug aus aufgenommen wurde, bei gutem Wetter bereits sehr treffsicher arbeitet, dann macht es wenig Sinn, noch mehr bei gutem Wetter aufgenommene Bilder zu labeln. Hingegen kann es das aktive Lernen voranbringen, bei schlechtem Wetter aufgenommene Bilder, bei denen die Genauigkeit der Klassifikation noch zu wünschen übrig lässt, zu labeln.
In einer weiteren besonders vorteilhaften Ausgestaltung wird das Training in mindestens einer späteren Iteration mit einer größeren Menge gelabelter Lern-Datensätze für eine größere Anzahl von Epochen fortgeführt wird als für mindestens eine frühere Iteration mit einer kleineren Menge gelabelter Lern-Datensätze. Wie zuvor erläutert, kann aus einer größeren Anzahl von Epochen tendenziell umso mehr Nutzen gezogen werden, je mehr gelabelte Lern-Datensätze vorhanden sind. Weiterhin wird auch die letztendlich erzielbare Genauigkeit verbessert. Ein Abbruchkriterium für das Training auf der Basis der Unsicherheit misst den künftig auf der Basis der vorhandenen ungelabelten Lern-Datensätze noch erzielbaren Informationsgewinn. Dieses Kriterium sagt jedoch nichts über die Genauigkeit aus, die auf den gelabelten Lern-Datensätzen erzielt werden kann. Das bedeutet, dass gemäß dem Abbruchkriterium das Training möglicherweise zu einem Zeitpunkt beendet wird, zu dem diese Genauigkeit noch steigerungsfähig ist. Indem insbesondere beispielsweise die letzten Iterationen mit einer Epochenzahl durchgeführt werden, die an einer gewünschten Genauigkeit orientiert ist, kann insgesamt durch die Nutzung des Abbruchkriteriums Trainingszeit eingespart werden, ohne dass dies der Genauigkeit des Endresultats abträglich wäre.
Die Unsicherheit kann insbesondere beispielsweise durch eine zusammenfassende Statistik über die für die Lern-Eingangsgrößenwerte aus ungelabelten Lern-Datensätzen erhaltenen Ausgangsgrößenwerte ermittelt werden. Diese zusammenfassende Statistik kann insbesondere beispielsweise einen Mittelwert, ein Quantil, eine Transinformation, eine Varianz, eine Standardabweichung, eine unbedingten und/oder bedingten Entropie, und/oder einen Variationskoeffizienten, der Ausgangsgrößenwerte umfassen.
In einer weiteren besonders vorteilhaften Ausgestaltung geht eine Änderungsrate mindestens einer Unsicherheit bei weiterem Training des trainierbaren Moduls mit den gelabelten Lern-Datensätzen in das Kriterium ein, das über die zuvor beschriebenen Eingriffe in das aktive Lernen entscheidet. Auf diese Weise kann der optimale Zeitpunkt für die Vornahme dieser Eingriffe noch besser getroffen werden.
Die Änderungsrate kann beispielsweise aus dem Verlauf des Erwartungswerts eines einfachen oder quadratischen Mittels der Unsicherheit über die ungelabelten Lern-Datensätze in Abhängigkeit von Parametern, die das Verhalten des trainierbaren Moduls charakterisieren, ermittelt werden. Diese Bedingung ist äquivalent zu der Bedingung, dass sich die Information über die ungelabelten Lern-Datensätze bei weiterer Fortsetzung des Trainings nur noch unwesentlich ändert. Sie lässt sich jedoch einfacher durch die beobachtbaren Unsicherheiten ausdrücken.
Die Änderungsrate kann auch beispielsweise von einer Standardabweichung des Erwartungswerts abhängen. Diese Standardabweichung kann beispielsweise mit einem Faktor versehen sein, der die Konfidenz in den verwendeten Schätzer beschreibt. Beispielsweise kann es als weiteres Kriterium für die zuvor beschriebenen Eingriffe in das aktive Lernen festgesetzt werden, dass ein mit Hilfe der Standardabweichung, ggfs. mit Faktor, um den Erwartungswert gebildetes Konfidenzband eine vorgegebene Bedingung erfüllt.
Die vom trainierbaren Modul gelieferten Ausgangsgrößen können insbesondere eine Klassifikation, Regression und/oder semantische Segmentierung der eingegebenen Messdaten beinhalten. Gerade bei der Ermittlung dieser Informationen aus den eingegebenen Messdaten kommt es auf die Verallgemeinerungsfähigkeit trainierbarer Module, wie etwa KNN, an.
Die Erfindung bezieht sich auch auf einen Parametersatz mit Parametern, die das Verhalten eines trainierbaren Moduls charakterisieren und mit dem zuvor beschriebenen Verfahren erhalten wurden. Diese Parameter können beispielsweise Gewichte sein, mit denen Eingaben von Neuronen oder sonstigen Recheneinheiten in einem KNN zu Aktivierungen dieser Neuronen bzw. Recheneinheiten verrechnet werden. Dieser Parametersatz verkörpert den Aufwand, der in das aktive Lernen investiert wurde. Das heißt, wer in einer vergleichbaren Situation diesen Parametersatz zur Verfügung hat, kann sich insbesondere das aufwändige Labeln von Lern-Datensätzen sparen.
Die Erfindung bezieht sich auch auf ein weiteres Verfahren, welches die Fortsetzung der mit dem Training begonnenen Wirkkette bis hin zur Ansteuerung physischer Systeme beinhaltet.
Bei diesem Verfahren wird zunächst ein trainierbares Modul mit dem zuvor beschriebenen Verfahren trainiert. Dieses trainierbare Modul wird anschließend betrieben, indem ihm Eingangsgrößenwerte zugeführt werden. Diese Eingangsgrößenwerte umfassen Messdaten, die durch einen physikalischen Messprozess, und/oder durch eine teilweise oder vollständige Simulation eines solchen Messprozesses, und/oder durch eine teilweise oder vollständige Simulation eines mit einem solchen Messprozess beobachtbaren technischen Systems, erhalten wurden. Abhängig von dem vom trainierbaren Modul gelieferten Ausgangsgrößenwerten wird ein Fahrzeug, und/oder ein Klassifikationssystem, und/oder ein System zur Qualitätskontrolle von in Serie gefertigten Produkten, und/oder ein System zur medizinischen Bildgebung, mit einem Ansteuersignal angesteuert.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Figurenliste
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren;
2 Ausführungsbeispiel des Verfahrens 200 mit Fortsetzung der Wirkkette;
3 Beispielhafte Verläufe der Unsicherheit 13b in Abhängigkeit der Epochenzahl e, ermittelt mit verschiedenen statistischen Methoden (Kurven a-c);
4 Beispielhafte Verläufe der Genauigkeit A bei Unterbrechung 150 des Trainings gemäß dem beschriebenen Verfahren 100 (Kurve a) und bei Training mit voller Epochenzahl (Kurve b) in jeder Iteration s;
5 Beispielhafte Verläufe der Unsicherheit 13b bei Hinzunahme von 5.000 (Kurve a) bzw. 10.000 (Kurve b) ungelabelten Lern-Datensätzen 2 je Iteration s.

1 zeigt ein Ausführungsbeispiel des Verfahrens 100. In Schritt 110 wird das trainierbare Modul 1 mit gelabelten Lern-Datensätzen 2* trainiert, so dass die in diesen gelabelten Lern-Datensätzen 2* enthaltenen Lern-Eingangsgrößenwerte 11a auf die jeweils zugehörigen Lern-Ausgangsgrößenwerte 13a abgebildet werden. Dabei ist gemäß Block 111 die Epochenzahl für spätere Iterationen, die mit einer größeren Menge gelabelter Lern-Datensätze 2* durchgeführt werden, größer als für frühere Iterationen, die mit einer kleineren Menge gelabelter Lern-Datensätze 2* durchgeführt werden. Insbesondere können die letzten Iterationen des gesamten Trainings mit einer im Vergleich zu den früheren Iterationen erhöhten Epochenzahl durchgeführt werden.
Das Training 110 kann insbesondere Parameter 12 festlegen, die das Verhalten des trainierbaren Moduls 1 charakterisieren.
In Schritt 120 werden verschiedenen Abwandlungen 1a-1c des trainierbaren Moduls 1 Lern-Eingangsgrößenwerte 11a aus ungelabelten Lern-Datensätzen 2 zugeführt. Jede Abwandlung 1a-1c liefert zu den Lern-Eingangsgrößenwerten 11a aus jedem verwendeten ungelabelten Lern-Datensatz 2 einen anderen Ausgangsgrößenwert 13 als die anderen Abwandlungen 1a-1c. Aus der Abweichung dieser Ausgangsgrößenwerte 13 untereinander wird in Schritt 130 die Unsicherheit 13b der Ausgangsgrößenwerte 13 ermittelt.
Optional kann in Schritt 135 noch eine Änderungsrate 13c der Unsicherheit 13b bei weiterem Training 110 des trainierbaren Moduls 1 mit den gelabelten Lern-Datensätzen 2* ermittelt werden und in das Kriterium 140 eingehen. Gemäß Block 135a kann diese Änderungsrate 13c insbesondere aus dem Verlauf des Erwartungswerts eines einfachen oder quadratischen Mittels der Unsicherheit 13b über die ungelabelten Lern-Datensätze 2 in Abhängigkeit von Parametern 12, die das Verhalten des trainierbaren Moduls 1 im aktuellen Trainingsstand charakterisieren, ermittelt werden.
In Schritt 140 wird geprüft, ob die Unsicherheit 13b, und/oder ihr Verlauf, und/oder die aus der Unsicherheit 13b selbst oder ihrem Verlauf abgeleitete Größe 13c, ein vorgegebenes Kriterium erfüllt. Ist dies nicht der Fall (Wahrheitswert 0), erfolgt kein Eingriff in das aktive Lernen. Das aktive Lernen geht dann seinen normalen Gang: In Schritt 180 werden für mindestens einen zuvor ungelabelten Lern-Datensatz 2 Lern-Ausgangsgrößenwerte 13a angefordert, so dass dieser ungelabelte Lern-Datensatz zu einem gelabelten Lern-Datensatz 2* wird. In Schritt 190 wird mit der solchermaßen erweiterten Menge gelabelter Lern-Datensätze 2* zum Training 110 zurückverzweigt.
Dieser Kreislauf, und damit das Training insgesamt, kann beispielsweise dann enden, wenn die im Training 110 erzielte Genauigkeit ein vorgegebenes Kriterium erfüllt. Das aktive Lernen hat dann die gewünschte Genauigkeit idealerweise mit einem Minimum an Aufwand für das Labeln zunächst ungelabelter Lern-Datensätze 2 erzielt. Entsprechende Abbruchbedingungen sind in 1 der Übersichtlichkeit halber nicht eingezeichnet.
Ist das in Schritt 140 geprüfte Kriterium hingegen erfüllt (Wahrheitswert 1), dann wird in das aktive Lernen eingegriffen. In 1 sind beispielhaft drei Maßnahmen eingezeichnet, die zu diesem Zweck einzeln oder in Kombination ergriffen werden können.
In Schritt 150 wird ein laufendes Training 110 unterbrochen. Das bedeutet, es wird nicht länger versucht, die Genauigkeit auf der Basis des derzeitigen Vorrats an gelabelten Lern-Datensätzen 2* weiter zu steigern. Stattdessen wird zur nächsten Iteration des aktiven Lernens übergegangen, in der mit weiteren neu gelabelten Lern-Datensätzen 2*, und/oder mit neu hinzugekommenen ungelabelten Lern-Datensätzen 2, gearbeitet wird.
In Schritt 160 wird mindestens ein neuer ungelabelter Lern-Datensatz 2 angefordert.
In Schritt 170 wird mindestens ein ungelabelter Lern-Datensatz 2' vom Labeln 180 ausgeschlossen.
Die Schritte 160 und 170 können auch miteinander kombiniert werden. Mit dem Anfordern eines oder mehrerer neuer ungelabelter Lern-Datensätze 2 können also die bereits vorhandenen Lern-Datensätze 2 ganz oder teilweise vom Labeln 180 ausgeschlossen werden.
In dem in 1 gezeigten Beispiel wird innerhalb des Schritts 180 derjenige ungelabelte Lern-Datensatz 2, der zu labeln ist, in zwei Teilschritten 181 und 182 ausgewählt. In Teilschritt 181 werden Lern-Eingangsgrößenwerte 11a aus mehreren ungelabelten Lern-Datensätzen 2 dem trainierbaren Modul 1 bei seinem aktuellen Trainingsstand als Eingangsgrößen 11 zugeführt. In Teilschritt 2 wird ein vorgegebenes Auswahlkriterium 14 auf die hierdurch erhaltenen Ausgangsgrößen 13, und/oder auf deren Unsicherheiten 13b, angewendet. Das Auswahlkriterium 14 kann insbesondere von der Vorgeschichte des Trainings abhängen. Ist beispielsweise die Genauigkeit für Lern-Eingangsgrößenwerte 11a, die einer bestimmten Klasse oder einem bestimmten Cluster angehören, vergleichsweise schlecht, kann es sich lohnen, Lern-Eingangsgrößenwerte 11a aus dieser Klasse bzw. diesem Cluster zu labeln.
2 zeigt ein Ausführungsbeispiel des Verfahrens 200, das die Wirkkette vom Training bis hin zur Ansteuerung technischer Systeme fortsetzt.
In Schritt 210 wird das trainierbare Modul 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. In Schritt 220 wird dieses trainierbare Modul betrieben, indem ihm Eingangsgrößenwerte 11 zugeführt werden. Diese Eingangsgrößenwerte umfassen Messdaten, die durch einen physikalischen Messprozess, und/oder durch eine teilweise oder vollständige Simulation eines solchen Messprozesses, und/oder durch eine teilweise oder vollständige Simulation eines mit einem solchen Messprozess beobachtbaren technischen Systems, erhalten wurden.
Das trainierbare Modul 1 liefert bei seinem Betrieb 220 Ausgangsgrößenwerte 13. In Schritt 230 wird abhängig von diesen Ausgangsgrößenwerten 13 ein Ansteuersignal 5 generiert. Mit diesem Ansteuersignal 5 wird ein Fahrzeug 50, und/oder ein Klassifikationssystem 60, und/oder ein System 70 zur Qualitätskontrolle von in Serie gefertigten Produkten, und/oder ein System 80 zur medizinischen Bildgebung, angesteuert.
3 zeigt beispielhaft einige Verläufe der Unsicherheit 13b, aufgetragen über der Epochenzahl e des Trainings 110. Die Kurven a, b und c unterscheiden sich hinsichtlich der statistischen Maße, mit denen die Unsicherheit 13b jeweils aus den Abweichungen der von den Abwandlungen 1a-1c des trainierbaren Moduls 1 aus den gleichen Lern-Eingangsgrößenwerten 11a erzeugten Ausgangsgrößenwerten 13 ermittelt wurde.
Das Abflachen der Kurve, und/oder das Abfallen der Kurve unter einen vorgegebenen Schwellwert, kann als Auslöser dafür herangezogen werden, in der beschriebenen Weise in das aktive Lernen einzugreifen.
Die Quintessenz von 3 ist, dass es wichtig sein kann, für die Ermittlung der Unsicherheit 13b ein zur jeweiligen Anwendung passendes statistisches Maß zu wählen. Es gibt hier kein universelles „one size fits all“-Maß für alle möglichen Anwendungen.
4 zeigt beispielhaft die Genauigkeit, hier mit dem Buchstaben A bezeichnet, aufgetragen über der Anzahl s der Iterationen („acquisition steps“). Kurve a wurde mit einem Training erhalten, bei dem zunächst in der beschriebenen Weise basierend auf der Unsicherheit 13b in das aktive Lernen eingegriffen wurde. Das heißt, das Training 110 auf der Basis der aktuell vorhandenen gelabelten Lern-Datensätze 2* wurde bereits beendet, wenn anhand der ungelabelten Lern-Datensätze 2 kein Informationsgewinn mehr zu erwarten war, und nicht erst dann, wenn das trainierbare Modul 1 gelernt hat, die aktuell vorhandenen Lern-Ausgangsgrößenwerte 13a wirklich gut aus den Lern-Eingangsgrößenwerten 11a zu reproduzieren. Ab der mit s₁ bezeichneten Iteration wird das Training in jeder Iteration, d.h. mit jeder Menge an gelabelten Lern-Datensätzen 2*, unabhängig von der Unsicherheit 13b bis zu einer fest vorgegebenen Epochenzahl fortgesetzt
Beim herkömmlichen aktiven Lernen (Kurve b) wird hingegen in jeder Iteration bis zu der fest vorgegebenen Epochenzahl trainiert. Dies manifestiert sich darin, dass die Genauigkeit A zunächst besser ist, um den Preis, dass das Training insgesamt länger dauert. Ab der Iteration s₁ wird dieser Unterschied jedoch schnell eingeebnet. Das heißt, unter dem Strich spart das Eingreifen in das aktive Lernen auf der Basis der Unsicherheit 13b gemäß Kurve a Trainingszeit, ohne dass dies auf Kosten der letztendlich erzielten Genauigkeit A geht.
5 zeigt beispielhaft den Verlauf der Unsicherheit 13b über die ungelabelten Lern-Datensätze in Abhängigkeit der Anzahl s der Iterationen („acquisition steps“). Kurve a wurde für ein aktives Lernen erhalten, bei dem jede Iteration mit 5.000 gelabelten Lern-Datensätzen 2* mehr durchgeführt wurde als die vorherige. Kurve b wurde für ein aktives Lernen erhalten, bei dem jede Iteration mit 10.000 gelabelten Lern-Datensätzen 2* mehr durchgeführt wurde als die vorherige.
Der Verlauf des Trainings wird über die Unsicherheit 13b gesteuert. Immer dann, wenn die Unsicherheit 13b einen vorgegebenen Schwellwert unterschreitet oder abflacht, werden anlässlich des Wechsels von einer Iteration zur nächsten zugleich auch mehr ungelabelte Lern-Datensätze 2 hinzugenommen. Dadurch wird die Unsicherheit 13b zunächst sprunghaft größer. Werden dann im Verlauf des aktiven Lernens hieraus geeignete Kandidaten für das Labeln ausgewählt, so dass das trainierbare Modul 1 sein Training auf einer immer größeren Menge gelabelter Lern-Datensätze 2* schärfen kann, nimmt die Unsicherheit wieder ab. Dann greift das zuvor beschriebene Verfahren 100 wieder ein und sorgt dafür, dass der Pool an ungelabelten Lern-Datensätzen 2 weiter vergrößert wird.
Dabei bewirkt die Hinzunahme von mehr gelabelten Lern-Datensätzen 2* pro Iteration gemäß Kurve b, dass im Vergleich zu Kurve a die Unsicherheit jeweils höher steigt und langsamer abfällt. Die Kurven a und b haben jedoch gemeinsam, dass die jeweiligen Ausschläge der Unsicherheit 13b mit zunehmender Anzahl der Iterationen immer geringer werden. Das heißt, die Unsicherheit 13b konvergiert jeweils gegen einen niedrigen Wert.

Claims

Verfahren zum Trainieren eines trainierbaren Moduls (1), welches eine oder mehrere Eingangsgrößen (11) in eine oder mehrere Ausgangsgrößen (13) übersetzt, mittels ungelabelten Lern-Datensätzen (2), die Lern-Eingangsgrößenwerte (11a) mit Messdaten umfassen, sowie gelabelten Lern-Datensätzen (2*), die Lern-Eingangsgrößenwerte (11a) und zugehörige Lern-Ausgangsgrößenwerte (13a) umfassen, wobei die Messdaten durch einen physikalischen Messprozess, und/oder durch eine teilweise oder vollständige Simulation eines solchen Messprozesses, und/oder durch eine teilweise oder vollständige Simulation eines mit einem solchen Messprozess beobachtbaren technischen Systems, erhalten wurden, mit den Schritten: • das trainierbare Modul (1) wird mit den gelabelten Lern-Datensätzen (2*) trainiert (110), so dass deren Lern-Eingangsgrößenwerte (11a) auf die jeweils zugehörigen Lern-Ausgangsgrößenwerte (13a) abgebildet werden; • für mindestens einen zuvor ungelabelten Lern-Datensatz (2) werden Lern-Ausgangsgrößenwerte (13a) angefordert (180), so dass dieser ungelabelte Lern-Datensatz (2) zu einem gelabelten Lern-Datensatz (2*) wird; • mit der solchermaßen erweiterten Menge gelabelter Lern-Datensätze (2*) wird zum Training (110) zurückverzweigt (190), wobei • Lern-Eingangsgrößenwerte (11a) mindestens eines ungelabelten Lern-Datensatzes (2) mehreren Abwandlungen (1a-1c) des trainierbaren Moduls (1) als Eingangsgrößen (11) zugeführt werden (120), wobei diese Abwandlungen (1a-1c) sich so weit voneinander unterscheiden, dass sie bei fortschreitendem Lernen nicht deckungsgleich ineinander überführt werden; • aus der Abweichung der Ausgangsgrößenwerte (13), in die die Abwandlungen (1a-1c) die Lern-Eingangsgrößenwerte (11a) jeweils übersetzen, voneinander ein Maß für die Unsicherheit (13b) dieser Ausgangsgrößenwerte (13) ermittelt wird (130); und • in Antwort darauf, dass die Unsicherheit (13b), und/oder ein Verlauf dieser Unsicherheit (13b), und/oder eine aus der Unsicherheit oder ihrem Verlauf abgeleitete Größe, in Abhängigkeit des Trainingsstandes, ein vorgegebenes Kriterium (140) erfüllt, ein laufendes Training (110) unterbrochen wird (150), und/oder mindestens ein neuer ungelabelter Datensatz (2) angefordert wird (160), und/oder mindestens ein vorhandener ungelabelter Lern-Datensatz (2') vom Labeln (180) ausgeschlossen wird (170).
Verfahren nach Anspruch 1, wobei derjenige ungelabelte Lern-Datensatz (2), der zu labeln (180) ist, ausgewählt wird, indem • Lern-Eingangsgrößenwerte (11a) aus mehreren ungelabelten Lern-Datensätzen (2) dem trainierbaren Modul (1) bei seinem aktuellen Trainingsstand als Eingangsgrößen (11) zugeführt werden (181); und • ein vorgegebenes Auswahlkriterium (14) auf die hierdurch erhaltenen Ausgangsgrößen (13), und/oder auf deren Unsicherheiten (13b), angewendet wird (182).
Verfahren nach einem der Ansprüche 1 bis 2, wobei das Training (110) in mindestens einer späteren Iteration mit einer größeren Menge gelabelter Lern-Datensätze (2*) für eine größere Anzahl von Epochen fortgeführt wird (111) als für mindestens eine frühere Iteration mit einer kleineren Menge gelabelter Lern-Datensätze (2*).
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Unsicherheit (13b) durch eine zusammenfassende Statistik über die für die Lern-Eingangsgrößenwerte (11a) aus ungelabelten Lern-Datensätzen (2) erhaltenen Ausgangsgrößenwerte (13) ermittelt wird (131).
Verfahren (100) nach Anspruch 4, wobei die zusammenfassende Statistik einen Mittelwert, ein Quantil, eine Transinformation, eine Varianz, eine Standardabweichung, eine unbedingten und/oder bedingten Entropie, und/oder einen Variationskoeffizienten, der Ausgangsgrößenwerte (13) umfasst (131a).
Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei eine Änderungsrate (13c) mindestens einer Unsicherheit (13b) bei weiterem Training (110) des trainierbaren Moduls (1) mit den gelabelten Lern-Datensätzen (2*) in das Kriterium (140) eingeht.
Verfahren (100) nach Anspruch 6, wobei die Änderungsrate (13c) aus dem Verlauf des Erwartungswerts eines einfachen oder quadratischen Mittels der Unsicherheit (13b) über die ungelabelten Lern-Datensätze (2) in Abhängigkeit von Parametern (12), die das Verhalten des trainierbaren Moduls (1) charakterisieren, ermittelt wird (135a).
Verfahren (100) nach Anspruch 7, wobei die Änderungsrate (13c) zusätzlich von einer Standardabweichung des Erwartungswerts abhängt.
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei die vom trainierbaren Modul (1) gelieferten Ausgangsgrößen (13) eine Klassifikation, Regression und/oder semantische Segmentierung der eingegebenen Messdaten beinhalten.
Verfahren (200) mit den Schritten: • ein trainierbares Modul (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 9 trainiert (210); • das trainierbare Modul (1) wird betrieben (220), indem ihm Eingangsgrößenwerte (11) zugeführt werden, wobei diese Eingangsgrößenwerte (11) Messdaten umfassen, die durch einen physikalischen Messprozess, und/oder durch eine teilweise oder vollständige Simulation eines solchen Messprozesses, und/oder durch eine teilweise oder vollständige Simulation eines mit einem solchen Messprozess beobachtbaren technischen Systems, erhalten wurden; • abhängig von dem vom trainierbaren Modul (1) gelieferten Ausgangsgrößenwerten (13) wird ein Fahrzeug (50), und/oder ein Klassifikationssystem (60), und/oder ein System (70) zur Qualitätskontrolle von in Serie gefertigten Produkten, und/oder ein System (80) zur medizinischen Bildgebung, mit einem Ansteuersignal (5) angesteuert (230).
Parametersatz mit Parametern (12), die das Verhalten eines trainierbaren Moduls (1) charakterisieren, erhalten mit dem Verfahren nach einem der Ansprüche 1 bis 9.
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 10 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm.
Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 12, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 13.