DE102021109169A1

DE102021109169A1 - Verfahren zum Trainieren eines neuronalen Netzes

Info

Publication number: DE102021109169A1
Application number: DE102021109169.1A
Authority: DE
Inventors: Ben Wilhelm; Frank Hutter; Matilde Gargiani
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-10-13
Also published as: US20220327390A1; CN115271060A

Abstract

Die Erfindung betrifft ein Verfahren zum Trainieren eines neuronalen Netzes, welches eine erste Anzahl von Schichten aufweist, in einer Trainingssequenz, welche eine Vielzahl von Trainingsmustern umfasst, unter Verwendung eines Backpropagation-Algorithmus, wobei bei der Anwendung des Backpropagation-Algorithmus während jeder der Vielzahl von Trainingsmustern jeweils eine zweite Anzahl von Schichten des neuronalen Netzes nicht berücksichtigt wird (3), wobei ein Betrag der zweiten Anzahl variabel ist und vor jeder der Vielzahl von Trainingsmustern zufällig ausgewählt wird unter der Bedingung, dass der Betrag größer oder gleich Null ist und gleichzeitig kleiner als ein Betrag der ersten Anzahl (2), und wobei es sich bei der zweiten Anzahl der Schichten um eine Eingangsschicht des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten des neuronalen Netzes handelt.

Description

Die Erfindung betrifft ein Verfahren zum Trainieren eines neuronalen Netzes, beispielsweise eines neuronalen Netzes zur Bildklassifikation, mit welchem signifikant Computerressourcen während des Trainierens des neuronalen Netzes eingespart werden können.
Auf zahlreichen Gebieten hat die Anwendung neuronaler Netze zwischenzeitlich übliche Auswerteverfahren zur Auswertung großer Datenmengen ersetzt oder ist zu diesen zumindest ergänzend hinzugetreten. Insbesondere liefern neuronale Netze, welche anhand einer bekannten Datenmenge trainiert worden sind, für neue Eingangsdaten des gleichen Datentyps zuverlässigere Aussagen als die bisherigen üblichen Auswerteverfahren.
Derartige künstliche neuronale Netze orientieren sich an biologischen Neuronen und erlauben es, ein unbekanntes Systemverhalten aus vorhandenen Trainingsdaten anzulernen und anschließend das angelernte Systemverhalten auch auf unbekannte Eingangsgrößen anzuwenden. Dabei besteht das neuronale Netz aus Schichten mit idealisierten Neuronen, welche gemäß einer Topologie des Netzes in unterschiedlicher Weise miteinander verbunden sind. Die erste Schicht, welche auch als Eingangsschicht bezeichnet wird, erfasst und überträgt dabei die Eingangswerte, wobei die Anzahl der Neuronen in der Eingangsschicht der Anzahl an Eingangssignalen, welche verarbeitet werden sollen, entspricht. Die letzte Schicht wird auch als Ausgangsschicht bezeichnet und weist genauso viele Neuronen auf, wie Ausgabewerte bereitgestellt werden sollen. Zwischen der Eingangsschicht und der Ausgangsschicht befindet sich zudem wenigstens eine Zwischenschicht, welche oftmals auch als verborgene Schicht bezeichnet wird, wobei die Anzahl der Zwischenschichten und die Anzahl der Neuronen in diesen Schichten abhängig von der konkreten Aufgabe, welche durch das neuronale Netz gelöst werden soll, ist.
Grundbedingung für den Einsatz derartiger neuronaler Netze ist dabei, dass neuronale Netz an die jeweiligen Gegebenheiten anzupassen und entsprechend zu trainieren.
Aus der Druckschrift WO 2017/201507 A1 ist ein Verfahren zum Trainieren eines rekurrenten neuronalen Netzes während Trainingssequenzen unter Verwendung eines Backpropagation-Algorithmus bekannt, wobei eine Trainingssequenz, welche jeweils eine Eingabe zu jeder einer Vielzahl von Zeitschritten aufweist, empfangen wird, Daten, welche eine zur Verfügung stehende Speicherkapazität zur Speicherung von Forwardpropagation-Informationen betreffen, die während einer Anwendung des Backpropagation-Algorithmus angewendet werden können, bezogen werden, basierend auf der Anzahl von Zeitschritten in der Trainingssequenz und der zur Verfügung stehenden Speicherkapazität zur Speicherung eine Strategie zur Verarbeitung der Trainingssequenz bestimmt wird, wobei die Strategie angibt, wann die Forwardpropagation-Informationen während der Anwendung eines Forwardpropagation-Algorithmus auf die Trainingssequenz abgespeichert werde sollen, und wobei das rekurrente neuronale Netz basierend auf der Trainingssequenz gemäß der Strategie trainiert wird.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Trainieren eines neuronalen Netzes anzugeben, mit welchem signifikant Computerressourcen während des Trainierens des neuronalen Netzes eingespart werden können.
Diese Aufgabe wird durch ein Verfahren zum Trainieren eines neuronalen Netzes mit den Merkmalen des Patentanspruchs 1 gelöst. Vorteilhafte Ausführungsformen und Weiterbildungen ergeben sich aus den Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren.
Offenbarung der Erfindung
Insbesondere wird dieses Aufgabe gelöst durch ein Verfahren zum Trainieren eines neuronalen Netzes, welches eine erste Anzahl von Schichten aufweist, in einer Trainingssequenz, welche eine Vielzahl von Trainingsmustern umfasst, unter Verwendung eines Backpropagation-Algorithmus, wobei bei der Anwendung des Backpropagation-Algorithmus während jeder der Vielzahl von Trainingsmustern jeweils eine zweite Anzahl von Schichten des neuronalen Netzes nicht berücksichtigt wird, wobei ein Betrag der zweiten Anzahl variabel ist und vor jeder der Vielzahl von Trainingsmustern zufällig ausgewählt wird unter der Bedingung, dass der Betrag größer oder gleich Null ist und gleichzeitig kleiner als ein Betrag der ersten Anzahl, und wobei es sich bei der zweiten Anzahl der Schichten um eine Eingangsschicht des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten des neuronalen Netzes handelt.
Unter Trainingssequenz wird hierbei eine Folge von aufeinanderfolgend angewendeten Trainingsmustern zum Trainieren des neuronalen Netzes verstanden.
Unter Backpropagation-Algorithmus wird ferner ein Algorithmus für das Einlernen von künstlichen neuronalen Netzen verstanden. Dabei wird zunächst ein Eingabemuster angelegt und mit Hilfe eines Forwardpropagation-Algorithmus vorwärts durch das neuronale Netz propagiert. Anschließend wird die Ausgabe des neuronalen Netzes mit einer gewünschten Ausgabe verglichen, wobei die Differenz der beiden Werte als Fehler des Netzes bezeichnet wird. Dieser Fehler wird dann über die Ausgabeschicht zur Eingabeschicht des neuronalen Netzes zurück propagiert, wobei die Gewichtungen der Neuronenverbindungen abhängig von ihrem Einfluss auf den Fehler geändert werden. Dies resultiert in etwa bei einem erneuten Anlegen der Eingabe in einer Annäherung an die gewünschte Ausgabe.
Forwardpropagation bedeutet weiter, dass ein Eingabemuster beziehungsweise Eingabewerte angelegt werden, die vorwärts durch das künstliche neuronale Netz propagiert werden und dabei Ausgabewerte erzeugen.
Das einzelne Schichten während der Anwendung des Backpropagation-Algorithmus unberücksichtigt bleiben, das heißt nicht berücksichtigt beziehungsweise „eingefroren“ werden bedeutet ferner, dass die entsprechenden Schichten und entsprechende Gewichtungen während der Anwendung des Backpropagation-Algorithmus nicht untersucht beziehungsweise geändert werden. Die den entsprechenden Schichten und Verbindungen zugeordneten Gewichte bleiben dabei bei der Anwendung des Backpropagation-Algorithmus entweder unverändert oder ein zur Bestimmung der Gewichte herangezogenes Momentum wird eingefroren beziehungsweise bleibt unverändert. Jedoch können die während einer vorherigen Anwendung des Forwardpropagation-Algorithmus erzeugten Ausgabewerte und entsprechende Gewichtungen der diese Schichten zugeordneten Verbindungen während der Anwendung des Backpropagation-Algorithmus trotz allem berücksichtigt werden.
Eine Idee der Erfindung ist es somit, den Backpropagation-Algorithmus beim Trainieren eines neuronalen Netzes erheblich zu beschleunigen, zumal während einer Anwendung des Backpropagation-Algorithmus nicht mehr die Gewichtungen aller Verbindungen untersucht beziehungsweise geändert werden müssen und der Backpropagation-Algorithmus vielmehr vorzeitig abrechnen kann. Dies wiederum resultiert in einer signifikanten Ersparnis von entsprechenden Computerressourcen, insbesondere von Rechenzeit und erforderlicher Rechenleistung sowie von erforderlichen Speicherkapazitäten. Dass Rechenzeit und Rechenleistung eingespart werden hat den Vorteil, dass das neuronale Netz vergleichsweise schnell trainiert wird, was insbesondere bei sicherheitskritischen Anwendungen, beispielsweise bei Steuerungsaufgaben von autonom fahrenden Kraftfahrzeugen, von Vorteil ist.
Dass Speicherkapazitäten eingespart werden hat zudem den Vorteil, dass das Trainieren auch vollständig auf Datenverarbeitungseinheiten, welche eine vergleichsweise geringe Speicherkapazität aufweisen, beispielsweise Steuergeräten eines Kraftfahrzeuges, ausgeführt werden kann. Zudem ist das Verfahren verglichen mit Verfahren, bei welchen einzelne Schichten in einer strikten Reihenfolge nicht berücksichtigt beziehungsweise „eingefroren“ werden, weniger unflexibel und hat somit den Vorteil, dass Performanceverluste vermieden werden können, zumal auch die Eingangsschicht fast immer zum Erfolg und zur Minimierung des Fehlers beitragen kann. Insgesamt wird somit ein Verfahren zum Trainieren eines neuronalen Netzes angegeben, mit welchem signifikant Computerressourcen während des Trainierens des neuronalen Netzes eingespart werden können.
Dabei kann das Verfahren weiter einen Schritt eines Festlegens einer Lernrate für jede Schicht des neuronalen Netzes aufweisen, wobei das Bestimmen des Betrages zweiten Anzahl weiter jeweils unter der Bedingung, dass jede Schicht des neuronalen Netzes während der Trainingssequenz insgesamt genauso häufig trainiert wird, wie es durch einen auf der Lernrate der entsprechenden Schicht basierende Häufigkeitswert vorgegeben wird, erfolgt.
Die Lernrate stellt dabei einen Parameter dar, welcher die Geschwindigkeit des Verfahrens bezogen auf einzelne Schichten des neuronalen Netzes angibt. Die Lernrate kann dabei beispielsweise aus Verfahren, bei welchen einzelne Schichten in einer strikten Reihenfolge nicht berücksichtigt beziehungsweise „eingefroren“ werden, hergeleitet werden, wobei aus dieser Lernrate der Häufigkeitswert abgeleitet werden kann, und wobei der Häufigkeitswert angibt, wie häufig die entsprechende Schicht während der Trainingssequenz des neuronalen Netzes trainiert werden muss, bis diese konvergiert, das heißt der entsprechende Fehler idealerweise gegen Null geht.
Hierdurch kann die Effizienz des Verfahrens weiter erhöht werden. Zudem kann basierend darauf, das spätere Schichten aufgrund komplexerer Informationen später konvergieren und mehr Training erfordern als frühere Schichten, die Einsparung von Computerressourcen noch weiter optimiert werden, insbesondere im Hinblick auf Rechenzeit und Speicherkapazität.
Zudem kann nach jedem Anwenden des Backpropagation-Algorithmus ein Forwardpropagation-Algorithmus angewendet werden, wobei die Schichten des neuronalen Netzes, welche während einer Anwendung des Backpropagation-Algorithmus nicht berücksichtigt werden, auch bei einer folgenden Anwendung des Forwardpropagation-Algorithmus nicht berücksichtigt werden, wobei bei der folgenden Anwendung des Forwardpropagation-Algorithmus stattdessen aus einer vorhergehenden Anwendung des Forwardpropagation-Algorithmus auf die Schichten des neuronalen Netzes, welche während einer Anwendung des Backpropagation-Algorithmus nicht berücksichtigt werden, wiederverwendet , das heißt angewendet beziehungsweise berücksichtigt werden. Hierdurch kann erheblich Speicherkapazität eingespart werden, zumal deutlich weniger Gewichtungen untersucht und geändert werden, was insbesondere von Vorteil ist, falls das Verfahren vollständig auf Datenverarbeitungsanlagen mit einer geringen Speicherkapazität, beispielsweise Steuergeräten in einem Kraftfahrzeug, ausgeführt werden soll.
Zudem kann das Verfahren auch mit anderen Verfahren zum Trainieren von künstlichen neuronalen Netzen kombiniert werden.
So kann das Verfahren während eines Umtrainierens eines auf einen ersten Datensatz vortrainierten neuronalen Netzes auf einen anderen Datensatz angewendet werden.
Während eines derartigen Umtrainierens eines neuronalen Netzes wird ein auf einen ersten Datensatz, beispielsweise Kraftfahrzeuge, vortrainiertes neuronales Netz auf einen anderen Datensatz, welcher Gemeinsamkeiten zu dem ersten Datensatz aufweist, beispielsweise LKWs, umtrainiert, was in einer erheblichen Erleichterung des Trainierens des neuronalen Netzes resultiert.
Durch diese Kombination kann die Genauigkeit des Finetunings beziehungsweise der Feinabstimmung des entsprechenden, umtrainierten neuronalen Netzes erhöht beziehungsweise ein entsprechender Feinabstimmungsvorgang beschleunigt werden. Somit kann die Genauigkeit der Ausgabe des umtrainierten neuronalen Netzes und beispielsweise von entsprechenden, an Steuergeräte eines Kraftfahrzeuges ausgegebene Daten erhöht werden, was wiederum in der Erhöhung der Sicherheit beim Führen des Kraftfahrzeuges resultiert.
Auch kann das Verfahren während eines Trainierens eines neuronalen Netzes, welches bereits trainiert wurde, jedoch mit anderen Parametern, angewendet werden.
Bei einem derartigen Warmstarting können Eingabewerte beziehungsweise Gewichtungen, welche mit anderen Parametern trainiert wurden, direkt übernommen werden.
Hierdurch wiederum können die zum Trainieren beziehungsweise zum Weitertrainieren eines neuronalen Netzes, welches bereits mit anderen Parametern vortrainiert wurde, erforderlichen Ressourcen, insbesondere im Hinblick auf Rechenzeit, Rechenleistung und Speicherkapazitäten, erheblich reduziert werden, sodass das neuronale Netz beispielsweise auch vollständig auf einer Datenverarbeitungseinrichtung, welche eine vergleichsweise geringe Speicherkapazität aufweist, beispielsweise einem Steuergerät eines Kraftfahrzeuges, (fertig-) trainiert werden kann.
Mit einer weiteren Ausführungsform der Erfindung wird zudem auch ein Verfahren zum Klassifizieren von Bilddaten angegeben, wobei Bilddaten unter Verwendung eines neuronalen Netzes, welches trainiert ist, Bilddaten zu klassifizieren, klassifiziert werden, und wobei das neuronale Netz unter Verwendung eines oben beschriebenen Verfahrens trainiert wurde.
Insbesondere kann das Verfahren dabei verwendet werden, Bilddaten, insbesondere digitale Bilddaten auf der Grundlage von Low-level-Merkmalen, beispielsweise Kanten oder Pixelattributen, zu klassifizieren. Dabei kann weiter ein Bildverarbeitungsalgorithmus verwendet werden, um ein Klassifizierungsergebnis, welches sich auf entsprechende Low-Ievel Merkmale konzentriert, zu analysieren.
Ein derartiges Verfahren hat den Vorteil, dass signifikant Computerressourcen, insbesondere Rechenzeit, Rechenleistung und Speicherkapazitäten während des Trainierens des entsprechend neuronalen Netzes eingespart werden können, wobei das neuronale Netz schnell an den entsprechenden Zweck, das heißt zur Bildklassifikation angepasst werden kann. So ist das Trainingsverfahren insbesondere derart ausgebildet, dass der entsprechende Backpropagation-Algorithmus erheblich beschleunigt werden kann, zumal während einer Anwendung des Backpropagation-Algorithmus nicht mehr die Gewichtungen aller Verbindungen untersucht beziehungsweise geändert werden müssen und der Backpropagation-Algorithmus vielmehr vorzeitig abrechnen kann. Zudem ist das Verfahren verglichen mit Verfahren, bei welchen einzelne Schichten in einer strikten Reihenfolge nicht berücksichtigt beziehungsweise „eingefroren“ werden, weniger unflexibel und hat somit den Vorteil, dass Performanceverluste vermieden werden können, zumal auch die Eingangsschicht fast immer zum Erfolg und zur Minimierung des Fehlers beitragen kann.
Ferner wird die Aufgabe mit einem Computerprogramm mit den Merkmalen des Anspruchs 7 und einen computerlesbaren Datenträger mit den Merkmalen des Patentanspruchs 8 gelöst.
Ein derartiges Computerprogramm hat den Vorteil, dass mit diesen signifikanten Computerressourcen, insbesondere Rechenzeit, Rechenleistung und Speicherkapazitäten während des Trainierens eines neuronalen Netzes eingespart werden können. So ist das entsprechende Trainingsverfahren insbesondere derart ausgebildet, dass der Backpropagation-Algorithmus erheblich beschleunigt werden kann, zumal während einer Anwendung des Backpropagation-Algorithmus nicht mehr die Gewichtungen aller Verbindungen untersucht beziehungsweise geändert werden müssen und der Backpropagation-Algorithmus vielmehr vorzeitig abrechnen kann. Dass Rechenzeit und Rechenleistung eingespart werden hat den Vorteil, dass das neuronale Netz vergleichsweise schnell trainiert wird, was insbesondere bei sicherheitskritischen Anwendungen, beispielsweise bei Steuerungsaufgaben von autonom fahrenden Kraftfahrzeugen, von Vorteil ist.
Dass Speicherkapazitäten eingespart werden hat zudem den Vorteil, dass das Trainieren auch vollständig auf Datenverarbeitungseinheiten, welche eine vergleichsweise geringe Speicherkapazität aufweisen, beispielsweise Steuergeräten eines Kraftfahrzeuges, ausgeführt werden kann. Zudem ist das Verfahren verglichen mit Verfahren, bei welchen einzelne Schichten in einer strikten Reihenfolge nicht berücksichtigt beziehungsweise „eingefroren“ werden, weniger unflexibel und hat somit den Vorteil, dass Performanceverluste vermieden werden können, zumal auch die Eingangsschicht fast immer zum Erfolg und zur Minimierung des Fehlers beitragen kann.
Mit einer weiteren Ausführungsform der Erfindung wird ferner auch ein Steuergerät zum Trainieren eines neuronalen Netzes angegeben, wobei das Steuergerät ausgebildet ist, ein oben beschriebenes Verfahren auszuführen.
Ein derartiges Steuergerät hat den Vorteil, dass dieses derart ausgebildet ist, dass signifikant Computerressourcen, insbesondere Rechenzeit, Rechenleistung und Speicherkapazitäten während des Trainierens eines neuronalen Netzes eingespart werden können. So ist das Steuergerät insbesondere derart ausgebildet, dass der Backpropagation-Algorithmus erheblich beschleunigt werden kann, zumal während einer Anwendung des Backpropagation-Algorithmus nicht mehr die Gewichtungen aller Verbindungen untersucht beziehungsweise geändert werden müssen und der Backpropagation-Algorithmus vielmehr vorzeitig abrechnen kann. Dass Rechenzeit und Rechenleistung eingespart werden hat den Vorteil, dass das neuronale Netz vergleichsweise schnell trainiert wird, was insbesondere bei sicherheitskritischen Anwendungen, beispielsweise bei Steuerungsaufgaben von autonom fahrenden Kraftfahrzeugen, von Vorteil ist.
Dass Speicherkapazitäten eingespart werden hat zudem den Vorteil, dass das Trainieren auch vollständig auf Datenverarbeitungseinheiten, welche eine vergleichsweise geringe Speicherkapazität aufweisen, beispielsweise Steuergeräten eines Kraftfahrzeuges, ausgeführt werden kann. Zudem ist das Steuergerät verglichen mit Steuergeräten, welche ausgebildet sind, einzelne Schichten beim Trainieren eines neuronalen Netzes in einer strikten Reihenfolge nicht zu berücksichtigen beziehungsweise „einzufrieren“, beim Trainieren eines neuronalen Netzes weniger unflexibel, wodurch Performanceverluste vermieden werden können, zumal auch die Eingangsschicht fast immer zum Erfolg und zur Minimierung des Fehlers beitragen kann.
Mit einer weiteren Ausführungsform der Erfindung wird außerdem auch ein System zum Klassifizieren von Bilddaten angegeben, wobei das System wenigstens einen optischen Sensor, welcher ausgebildet ist, Bilddaten bereitzustellen, und ein oben beschriebenes Steuergerät aufweist, wobei das Steuergerät ausgebildet ist, durch den wenigstens einen optischen Sensor bereitgestellte Bilddaten zu klassifizieren.
Ein derartiges System hat den Vorteil, dass dieses ein Steuergerät aufweist, welches derart ausgebildet ist, dass signifikant Computerressourcen, insbesondere Rechenzeit, Rechenleistung und Speicherkapazitäten während des Trainierens des entsprechenden neuronalen Netzes eingespart werden können. So ist das Steuergerät insbesondere derart ausgebildet, dass der Backpropagation-Algorithmus erheblich beschleunigt werden kann, zumal während einer Anwendung des Backpropagation-Algorithmus nicht mehr die Gewichtungen aller Verbindungen untersucht beziehungsweise geändert werden müssen und der Backpropagation-Algorithmus vielmehr vorzeitig abrechnen kann. Zudem ist das Steuergerät verglichen mit Steuergeräten, welche ausgebildet sind, einzelne Schichten beim Trainieren eines neuronalen Netzes in einer strikten Reihenfolge nicht zu berücksichtigen beziehungsweise „einzufrieren“, beim Trainieren eines neuronalen Netzes weniger unflexibel, wodurch Performanceverluste vermieden werden können, zumal auch die Eingangsschicht fast immer zum Erfolg und zur Minimierung des Fehlers beitragen kann.
Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.
Figurenliste
Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.
Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
Es zeigen:

1 ein Flussdiagramm eines Verfahrens zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen der Erfindung;
2 ein Verfahren zum Trainieren eines neuronalen Netzes gemäß einer ersten Ausführungsform;
3 ein Verfahren zum Trainieren eines neuronalen Netzes gemäß einer zweiten Ausführungsform; und
4 ein Blockschaltbild eines Systems zum Klassifizieren von Bilddaten gemäß Ausführungsformen der Erfindung.

In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
1 zeigt ein Flussdiagramm eines Verfahrens 1 zum Trainieren eines neuronalen Netzes gemäß Ausführungsformen der Erfindung.
Auf zahlreichen Gebieten hat die Anwendung neuronaler Netze zwischenzeitlich übliche Auswerteverfahren zur Auswertung großer Datenmengen ersetzt oder ist zu diesen zumindest ergänzend hinzugetreten. Insbesondere liefern neuronale Netze, welche anhand einer bekannten Datenmenge trainiert worden sind, für neue Eingangsdaten des gleichen Datentyps zuverlässigere Aussagen als die bisherigen üblichen Auswerteverfahren.
Derartige künstliche neuronale Netze orientieren sich an biologischen Neuronen und erlauben es, ein unbekanntes Systemverhalten aus vorhandenen Trainingsdaten anzulernen und anschließend das angelernte Systemverhalten auch auf unbekannte Eingangsgrößen anzuwenden. Dabei besteht das neuronale Netz aus Schichten mit idealisierten Neuronen, welche gemäß einer Topologie des Netzes in unterschiedlicher Weise miteinander verbunden sind. Die erste Schicht, welche auch als Eingangsschicht bezeichnet wird, erfasst und überträgt dabei die Eingangswerte, wobei die Anzahl der Neuronen in der Eingangsschicht der Anzahl an Eingangssignalen, welche verarbeitet werden sollen, entspricht. Die letzte Schicht wird auch als Ausgangsschicht bezeichnet und weist genauso viele Neuronen auf, wie Ausgabewerte bereitgestellt werden sollen. Zwischen der Eingangsschicht und der Ausgangsschicht befindet sich zudem wenigstens eine Zwischenschicht, welche oftmals auch als verborgene Schicht bezeichnet wird, wobei die Anzahl der Zwischenschichten und die Anzahl der Neuronen in diesen Schichten abhängig von der konkreten Aufgabe, welche durch das neuronale Netz gelöst werden soll, ist.
Ein idealisiertes Neuron kann dabei durch seine gewichteten Verbindungen, welche als Eingänge dienen und eine Übertragungsfunktion, welche beschreibt, wie die Anregungen durch die Eingänge in dem Neuron verarbeitet werden sollen, definiert werden. Die Übertragungsfunktionen können dabei beispielsweise in Form von Sigmoid Funktionen bereitgestellt werden. Zudem kann über jeweils eine Konstantgröße des Neurons eingestellt werden, wie die entsprechenden Eingänge in einen angestrebten Referenzwert übertragen werden. Derartige Konstantgrößen bilden dabei einen weiteren Freiheitsgrad und haben einen positiven Einfluss darauf Näherungen von Systemverhalten vornehmen zu können.
Zum Trainieren einzelner Neuronen beziehungsweise deren Gewichtungen zu den Neuronen der vorherigen Schicht kann dabei ein Gradienten(abstiegs)verfahren verwendet werden, welches sich aus einer Anwendung eines Forwardpropagation-Algorithmus und anschließenden Anwendungen eines Backpropagation-Algorithmus zusammensetzt. Dabei wird zunächst ein Eingabemuster angelegt und mit Hilfe des Forwardpropagation-Algorithmus vorwärts durch das neuronale Netz propagiert. Anschließend wird bei Anwendung des Backpropagation-Algorithmus die Ausgabe des neuronalen Netzes mit einer gewünschten Ausgabe verglichen, wobei die Differenz der beiden Werte als Fehler des Netzes bezeichnet wird. Dieser Fehler wird dann über die Ausgabeschicht zur Eingabeschicht des neuronalen Netzes zurück propagiert, wobei die Gewichtungen der Neuronenverbindungen abhängig von ihrem Einfluss auf den Fehler geändert werden. Dies resultiert in etwa bei einem erneuten Anlegen der Eingabe in einer Annäherung an die gewünschte Ausgabe.
Ferner kann hierbei auch der Momentum-Term optimiert werden, das heißt ein Wert, welcher die Gradienten, welche für die Gewichtungen bestimmt werden, akkumuliert und entsprechend beim Ändern der Gewichtungen berücksichtigt werden kann.
1 zeigt dabei ein Verfahren 1 zum Trainieren eines neuronalen Netzes, welches eine erste Anzahl von Schichten und insbesondere wenigstens eine Zwischenschicht aufweist, in einer Trainingssequenz, welche eine Vielzahl von Trainingsmustern umfasst, unter Verwendung eines Backpropagation-Algorithmus.
Gemäß den Ausführungsformen der 1 wird dabei während eines Schrittes 2 der Anwendung des Backpropagation-Algorithmus während jeder der Vielzahl von Trainingsmustern jeweils eine zweite Anzahl von Schichten des neuronalen Netzes nicht berücksichtigt, wobei ein Betrag der zweiten Anzahl variabel ist und in einem Schritt 3 vor jeder der Vielzahl von Trainingsmustern zufällig ausgewählt wird unter der Bedingung, dass der Betrag größer oder gleich Null ist und gleichzeitig kleiner als ein Betrag der ersten Anzahl, und wobei es sich bei der zweiten Anzahl der Schichten um eine Eingangsschicht des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten des neuronalen Netzes handelt.
Das einzelne Schichten während der Anwendung des Backpropagation-Algorithmus unberücksichtigt bleiben, das heißt nicht berücksichtigt beziehungsweise „eingefroren“ werden bedeutet dabei, dass die entsprechenden Schichten und entsprechende Gewichtungen während der Anwendung des Backpropagation-Algorithmus nicht untersucht werden. Die den entsprechenden Schichten und Verbindungen zugeordneten Gewichte bleiben dabei bei der Anwendung des Backpropagation-Algorithmus entweder unverändert oder ein zur Bestimmung der Gewichte herangezogenes Momentum wird eingefroren beziehungsweise bleibt unverändert. Jedoch können die während einer vorherigen Anwendung des Forwardpropagation-Algorithmus erzeugten Ausgabewerte und entsprechende Gewichtungen der Schichten während der Anwendung des Backpropagation-Algorithmus trotz allem berücksichtigt werden. Insbesondere wird dabei bei der Anwendung des Backpropagation-Algorithmus der Gradient der entsprechenden Verbindungen, das heißt der Gradient von Verbindungen zwischen Schichten, welche nicht berücksichtigt werden, gleich Null gesetzt, das heißt, dass auch keine entsprechende Gradientenberechnung durchzuführen ist. Basierend darauf, dass die Gradientenberechnung bezüglich den entsprechenden Verbindungen abgeschaltet wird, ist es dabei möglich, entweder die entsprechenden Gewichte nicht zu verändern, oder den entsprechenden Momentum-Term „einzufrieren“, das heißt nicht zu verändern.
Wie 1 zeigt, weist das Verfahren 1 weiter einen Schritt 4 eines Festlegens einer Lernrate für jede Schicht des neuronalen Netzes auf, wobei das Bestimmen des Betrags der zweiten Anzahl weiter jeweils unter der Bedingung, dass jede Schicht des neuronalen Netzes während der Trainingssequenz insgesamt genauso häufig trainiert wird, wie es durch einen auf der Lernrate der entsprechenden Schicht basierenden Häufigkeitswert vorgegeben wird, erfolgt.
Die Lernrate stellt dabei einen Parameter dar, welcher die Geschwindigkeit des Verfahrens bezogen auf einzelne Schichten des neuronalen Netzes angibt. Die Lernrate kann dabei beispielsweise aus Verfahren, bei welchen einzelne Schichten in einer strikten Reihenfolge nicht berücksichtigt beziehungsweise „eingefroren“ werden, hergeleitet werden, wobei aus dieser Lernrate der Häufigkeitswert abgeleitet werden kann, und wobei der Häufigkeitswert angibt, wie häufig die entsprechende Schicht während der Trainingssequenz des neuronalen Netzes trainiert werden muss, bis diese konvergiert, das heißt der entsprechende Fehler idealerweise gegen Null geht.
Gibt der Häufigkeitswert beispielsweise an, dass eine bestimmte Schicht des neuronalen Netzes während 70% der Trainingsmuster trainiert werden soll, bedeutet dies, dass die entsprechende Schicht in 30% der Trainingsmuster nicht trainiert werden muss. Dies ist wiederum damit gleichzusetzen, dass die entsprechende Schicht während 30% der Trainingsmuster bei der Anwendung des Backpropagation-Algorithmus nicht berücksichtigt wird.
Gemäß den Ausführungsformen der 1 ist das Verfahren 1 weiter ausgebildet, mit Mini-batches zu trainieren, das heißt kann ein zu trainierender Datensatz in mehrere Teile aufgeteilt werden.
Auch kann das in 1 gezeigte Verfahren 1 mit anderen Verfahren zum Trainieren von künstlichen neuronalen Netzen kombiniert werden.
Beispielsweise kann das Verfahren 1 während eines Umtrainierens eines auf einen ersten Datensatz vortrainierten neuronalen Netzes auf einen anderen Datensatz durchgeführt werden.
Auch kann das Verfahren 1 während eines sogenannten Warmstarting, das heißt während eines Trainierens eines neuronalen Netzes, welches bereits trainiert wurde, jedoch mit anderen Parametern, angewendet werden.
Gemäß den Ausführungsformen der 1 wird ein neuronales Netz zum Klassifizieren von Bilddaten trainiert. 1 zeigt dabei einen zusätzlichen Schritt 5 des Empfangens von Bilddaten, wobei die Bilddaten in einem folgenden Schritt 6 unter Verwendung des neuronalen Netzes klassifiziert werden.
Insbesondere wird das Verfahren 1 dabei verwendet, Bilddaten, insbesondere digitale Bilddaten auf der Grundlage von Low-level-Merkmalen, beispielsweise Kanten oder Pixelattributen, zu klassifizieren. Dabei kann weiter ein Bildverarbeitungsalgorithmus verwendet werden, um ein Klassifizierungsergebnis, welches sich auf entsprechende Low-Ievel Merkmale konzentriert, zu analysieren. Als Eingangsdaten zum Trainieren des entsprechenden neuronalen Netzes dienen dabei die empfangenen Bilddaten.
Ferner kann das Verfahren gemäß den Ausführungsformen der 1 aber auch entsprechend dazu verwendet werden, neuronale Netze zum Klassifizieren von Videos, Audio- und Sprachsignalen auf der Grundlage von Low-Ievel Merkmalen zu trainieren.
Zudem kann das Verfahren gemäß den Ausführungsformen der Figur aber auch beispielsweise dazu verwendet werden, ein neuronales Netz derart zu trainieren, um aus Lerndaten Regeln für die Steuerungsaufgaben eines autonomen Steuersystems abzuleiten.
2 illustriert ein Verfahren 10 zum Trainieren eines neuronalen Netzes gemäß einer ersten Ausführungsform.
Das neuronale Netz weist dabei gemäß der ersten Ausführungsform vier Schichten 11,12,13,14 auf, wobei es sich bei der ersten Schicht 11 um eine Eingangsschicht des neuronalen Netzes und bei der vierten Schicht 14 um eine Ausgangsschicht des neuronalen Netzes handelt.
Insbesondere zeigt 2 ein Verfahren 10 zum Trainieren eines neuronalen Netzes, wobei für jede Schicht 11,12,13,14 des neuronalen Netzes in einem Diagramm die Trainingsmuster, während denen die entsprechende Schicht 11,12,13,14 während der Anwendung eines Backpropagation Algorithmus berücksichtigt wird, gegenüber dem jeweils zugehörigen Anteil an der Lernrate der entsprechenden Schicht 11,12,13,14 dargestellt. Die Abszisse gibt dabei jeweils die entsprechenden Trainingsmuster während einer Trainingssequenz an. Auf der Ordinate sind jeweils die entsprechenden, noch zu trainierenden Anteile an der Lernrate der entsprechenden Schicht angegeben.
Wie zu erkennen ist, wird die vierte Schicht 14 dabei während aller Trainingsmuster bei der Anwendung des Backpropagation-Algorithmus berücksichtigt, um die gewünschte Konvergenz des Fehlers zu gewährleisten.
Wie weiter zu erkennen ist, werden die vorherigen Schichten 11,12,13 des neuronalen Netzes jedoch nicht während aller Trainingsmuster bei der Anwendung des Backpropagation-Algorithmus berücksichtigt, wobei die Schichten 11,12,13 umso seltener berücksichtigt werden, je näher diese am Eingang des neuronalen Netzes liegen. Hierbei wird der Effekt ausgenutzt, dass näher am Eingang des neuronalen Netzes liegende Schichten früher konvergieren, wohingegen spätere Schichten komplexere Informationen tragen, weswegen hier mehr Training erforderlich ist. Beispielsweise können die Schichten, welche Nahe am Eingang eines entsprechenden neuronalen Netzes liegen, deutliche früher komplexe Formen innerhalb eines Bildes erkennen als Schichte des neuronalen Netzes, welche näher am Ausgang liegen.
Beispielsweise wird die dritte Schicht 13 dabei während eines Trainingsmusters 15 nicht berücksichtigt. Wie 2 zeigt, werden dabei auch die vorherigen Schichten, auf denen die Gewichtungen der Verbindungen der zweiten Schicht 12 beruhen, während des Trainingsmusters 15 nicht berücksichtigt. Insbesondere werden während des Trainingsmusters 15 die Eingangsschicht 11 des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten 12,13 des neuronalen Netzes nicht berücksichtigt.
3 illustriert ein Verfahren 20 zum Trainieren eines neuronalen Netzes gemäß einer zweiten Ausführungsform.
Das neuronale Netz weist dabei gemäß der zweiten Ausführungsform wiederum vier Schichten 21,22,23,24 auf, wobei es sich bei der ersten Schicht 21 um eine Eingangsschicht des neuronalen Netzes und bei der vierten Schicht 24 um eine Ausgangsschicht des neuronalen Netzes handelt.
Insbesondere zeigt 3 ein Verfahren 20 zum Trainieren eines neuronalen Netzes, wobei für jede Schicht 21,22,23,24 des neuronalen Netzes in einem Diagramm die Trainingsmuster, während denen die entsprechende Schicht 21,22,23,24 während der Anwendung eines Backpropagation Algorithmus berücksichtigt wird, gegenüber dem jeweils zugehörigen Anteil an der Lernrate der entsprechenden Schicht 21,22,23,24 dargestellt, wobei es sich bei den Diagrammen jeweils um einen Ausschnitt der in 2 dargestellten Diagramme handelt. Die Abszisse gibt dabei wiederum jeweils die entsprechende Anzahl an Trainingsmuster an. Auf der Ordinate sind jeweils die entsprechenden, noch zu trainierenden Anteile an der Lernrate der entsprechenden Schicht angegeben.
Wie zu erkennen ist, zeigt 3 wiederum ein Verfahren, bei welchem bei der Anwendung des Backpropagation-Algorithmus während jeder der Vielzahl von Trainingsmustern jeweils eine zweite Anzahl von Schichten des neuronalen Netzes nicht berücksichtigt wird, wobei ein Betrag der zweiten Anzahl variabel ist und vor jeder der Vielzahl von Trainingsmustern zufällig ausgewählt wird unter der Bedingung, dass der Betrag größer oder gleich Null ist und gleichzeitig kleiner als ein Betrag der ersten Anzahl, und wobei es sich bei der zweiten Anzahl der Schichten um eine Eingangsschicht des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten des neuronalen Netzes handelt.
Wie weiter zu erkennen ist, wird bei dem Verfahren 20 gemäß der zweiten Ausführungsform nach jedem Anwenden des Backpropagation-Algorithmus ein Forwardpropagation-Algorithmus angewendet, wobei die Schichten des neuronalen Netzes, welche während einer Anwendung des Backpropagation-Algorithmus nicht berücksichtigt werden, auch bei einer folgenden Anwendung des Forwardpropagation-Algorithmus nicht berücksichtigt werden wobei bei der folgenden Anwendung des Forwardpropagation-Algorithmus stattdessen aus einer vorhergehenden, insbesondere unmittelbar vorhergehenden Anwendung des Forwardpropagation-Algorithmus auf die Schichten des neuronalen Netzes, welche während einer Anwendung des Backpropagation-Algorithmus nicht berücksichtigt werden, gewonnene Werte wiederverwendet werden.. Die Anwendung des Backpropagation-Algorithmus wird dabei in 3 durch die mit Bezugszeichen 25 versehenen Pfeile symbolisiert, wohingegen die folgende Anwendung des Forwardpropagation-Algorithmus in 3 durch die mit Bezugszeichen 26 versehenen Pfeile symbolisiert wird.
4 zeigt ein Blockschaltbild eines Systems 30 zum Klassifizieren von Bilddaten gemäß Ausführungsformen der Erfindung.
Wie 4 zeigt, weist das System 30 dabei einen optischen Sensor 31 und ein Steuergerät 32 auf.
Bei dem optischen Sensor 31 handelt es sich dabei insbesondere um einen bildgebenden Sensor, welcher ausgebildet ist, Bilddaten bereitzustellen, beispielsweise eine Kamera. Ferner kann es sich bei dem optischen Sensor aber auch um jeden anderen optischen Sensor, welcher ausgebildet ist, Bilddaten bereitzustellen, handeln, beispielsweise um ein Lidar oder ein Radar. Der optische Sensor weist dabei weiter einen Sender 33 auf, welcher ausgebildet ist, die Bilddaten drahtlos oder drahtgebunden an das Steuergerät zu übermitteln.
Das Steuergerät 32 ist ferner ausgebildet, die durch den optischen Sensor 31 bereitgestellten Bilddaten zu klassifizieren.
Gemäß den Ausführungsformen der 4 weist das Steuergerät dabei einen Empfänger 34, welcher ausgebildet ist, die durch den optischen Sensor 31 bereitgestellten und übermittelten Bilddaten zu empfangen, sowie eine Datenverarbeitungseinheit 35, welche ausgebildet ist, basierend auf den durch den optischen Sensor 31 bereitgestellten und übermittelten Bilddaten sowie vorangegangen Bildklassifikationen, das heißt Klassifikationen welcher ein Nutzer in der Vergangenheit vorgenommen hat, ein neuronales Netz zum Klassifizieren von Bilddaten zu trainieren.
Wie zu erkennen ist, weist die Datenverarbeitungseinheit 35 dabei insbesondere einen Speicher 36 auf, in welchem durch einen Prozessor 37 ausführbarer Code gespeichert ist.
Insbesondere ist in dem Speicher 36 dabei Code gespeichert, welcher durch den Prozessor 37 ausführbar ist, ein neuronales Netz, welches eine erste Anzahl von Schichten uns insbesondere wenigstens eine Zwischenschicht aufweist, in einer Trainingssequenz, welche eine Vielzahl von Trainingsmustern umfasst, unter Verwendung eines Backpropagation-Algorithmus zu trainieren, wobei bei der Anwendung des Backpropagation-Algorithmus während jeder der Vielzahl von Trainingsmustern jeweils eine zweite Anzahl von Schichten des neuronalen Netzes nicht berücksichtigt wird, wobei ein Betrag der zweiten Anzahl variabel ist und vor jeder der Vielzahl von Trainingsmustern zufällig ausgewählt wird unter der Bedingung, dass der Betrag größer oder gleich Null ist und gleichzeitig kleiner als ein Betrag der ersten Anzahl, und wobei es sich bei der zweiten Anzahl der Schichten um eine Eingangsschicht des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten des neuronalen Netzes handelt.
Gemäß den Ausführungsformen der 4 wird das trainierte neuronale Netz anschließend in einem Speicher 38 hinterlegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2017/201507 A1 [0005]

Claims

Verfahren zum Trainieren eines neuronalen Netzes, welches eine erste Anzahl von Schichten aufweist, in einer Trainingssequenz, welche eine Vielzahl von Trainingsmustern umfasst, unter Verwendung eines Backpropagation-Algorithmus, wobei bei der Anwendung des Backpropagation-Algorithmus während jeder der Vielzahl von Trainingsmustern jeweils eine zweite Anzahl von Schichten des neuronalen Netzes nicht berücksichtigt wird (3), wobei ein Betrag der zweiten Anzahl variabel ist und vor jeder der Vielzahl von Trainingsmustern zufällig ausgewählt wird unter der Bedingung, dass der Betrag größer oder gleich Null ist und gleichzeitig kleiner als ein Betrag der ersten Anzahl (2), und wobei es sich bei der zweiten Anzahl der Schichten um eine Eingangsschicht des neuronalen Netzes und unmittelbar auf die Eingangsschicht folgende Schichten des neuronalen Netzes handelt.
Verfahren nach Anspruch 1, wobei das Verfahren (1) weiter einen Schritt eines Festlegens einer Lernrate für jede Schicht des neuronalen Netzes aufweist (4), und wobei das Bestimmen des Betrags der zweiten Anzahl (3) weiter jeweils unter der Bedingung, dass jede Schicht des neuronalen Netzes während der Trainingssequenz insgesamt genauso häufig trainiert wird, wie es durch einen auf der festgelegten Lernrate der entsprechenden Schicht basierenden Häufigkeitswert vorgegeben wird, erfolgt.
Verfahren nach Anspruch 1 oder 2, wobei nach jedem Anwenden des Backpropagation-Algorithmus (25) ein Forwardpropagation-Algorithmus (26) angewendet wird, und wobei die Schichten des neuronalen Netzes, welche während einer Anwendung des Backpropagation-Algorithmus nicht berücksichtigt werden, auch bei einer folgenden Anwendung des Forwardpropagation-Algorithmus nicht berücksichtigt werden, wobei bei der folgenden Anwendung des Forwardpropagation-Algorithmus stattdessen aus einer vorhergehenden Anwendung des Forwardpropagation-Algorithmus auf die Schichten des neuronalen Netzes, welche während einer Anwendung des Backpropagation-Algorithmus nicht berücksichtigt werden, gewonnene Werte wiederverwendet werden.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das Verfahren (1) während eines Umtrainierens eines auf einen ersten Datensatz vortrainierten neuronalen Netzes auf einen anderen Datensatz angewendet wird.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das Verfahren (1) während eines Trainierens eines neuronalen Netzes, welches bereits trainiert wurde, jedoch mit anderen Parametern, angewendet wird.
Verfahren zum Klassifizieren von Bilddaten, wobei Bilddaten unter Verwendung eines neuronalen Netzes, welches trainiert ist, Bilddaten zu klassifizieren, klassifiziert werden, und wobei das neuronale Netz unter Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 5 trainiert wurde.
Computerprogramm mit Programmcode, um ein Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen, wenn das Computerprogramm auf einem Computer durchgeführt wird.
Computerlesbarer Datenträger mit Programmcode eines Computerprogramms um ein Verfahren nach einem der Ansprüche 1 bis 6 durchzuführen, wenn das Computerprogramm auf einem Computer durchgeführt wird.
Steuergerät zum Trainieren eines neuronalen Netzes, wobei das Steuergerät (32) ausgebildet ist, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
System zum Klassifizieren von Bilddaten, wobei das System (30) wenigstens einen optischen Sensor (31), welcher ausgebildet ist, Bilddaten bereitzustellen, und ein Steuergerät (32) nach Anspruch 9 aufweist, wobei das Steuergerät (32) ausgebildet ist, durch den wenigstens einen optischen Sensor (31) bereitgestellte Bilddaten zu klassifizieren.