DE102019207911A1

DE102019207911A1 - Method, device and computer program for predicting a learning curve

Info

Publication number: DE102019207911A1
Application number: DE102019207911.3A
Authority: DE
Inventors: Aaron Klein; Frank Hutter; Matilde Gargiani; Stefan Falkner
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-03
Also published as: CN112016695A

Abstract

Die Erfindung betrifft ein Verfahren (30) zur Vorhersage einer Lernkurve eines iterativen Anlernverfahrens. Das Verfahren (30) umfasst die Schritte des Erhaltens der Hyperparameters θ des Anlerverfahrens und zumindest eines vorhergehenden Wertes der Kostenfunktion und den Schritt des Vorhersagens, mittels eines zweiten maschinellen Lernsystems (12), der Lernkurve abhängig von dem Hyperparameter θ und abhängig von dem zumindest einen vorhergehenden Wert der Lernkurve. Die Erfindung betrifft ferner ein Computerprogramm und eine Vorrichtung zum Ausführen des Verfahrens (30) und ein maschinenlesbares Speicherelement, auf dem das Computerprogramm gespeichert ist.The invention relates to a method (30) for predicting a learning curve of an iterative learning process. The method (30) comprises the steps of obtaining the hyperparameters θ of the training method and at least one previous value of the cost function and the step of predicting, by means of a second machine learning system (12), the learning curve depending on the hyperparameter θ and depending on the at least one previous value of the learning curve. The invention also relates to a computer program and a device for carrying out the method (30) and a machine-readable memory element on which the computer program is stored.

Description

Technisches GebietTechnical area

Die Erfindung betrifft ein Verfahren zur Vorhersage einer Lernkurve bei einem iterativen Anlernverfahren eines maschinellen Lernsystems. Ebenso betrifft die Erfindung eine Vorrichtung und ein Computerprogramm, die jeweils eingerichtet sind, das Verfahren auszuführen.The invention relates to a method for predicting a learning curve in an iterative learning method of a machine learning system. The invention also relates to a device and a computer program which are each set up to carry out the method.

Stand der TechnikState of the art

Die Autoren T. Elsken, J. Metzen, und F. Hutter geben in ihrer Veröffentlichung „Neural architecture search: A survey.“ arXiv preprint arXiv:1808.05377 (2018) einen Überblick über Verfahren zur Optimierung einer Architektur von maschinellen Lernsystemen.The authors T. Elsken, J. Metzen, and F. Hutter give in their publication "Neural architecture search: A survey." ArXiv preprint arXiv: 1808.05377 (2018) an overview of methods for optimizing the architecture of machine learning systems.

Die Autoren A. Klein, S. Falkner, J. T. Springenberg, und F. Hutter offenbaren in ihrer Veröffentlichung „Learning curve prediction with Bayesian neural networks“ International Conference on Learning Representations (ICLR'17) ein Verfahren zur Vorhersage von Lernkurven maschineller Lernsysteme.The authors A. Klein, S. Falkner, J. T. Springenberg, and F. Hutter disclose in their publication "Learning curve prediction with Bayesian neural networks" International Conference on Learning Representations (ICLR'17) a method for predicting learning curves of machine learning systems.

Vorteile der ErfindungAdvantages of the invention

Das Anlernen von maschinellen Lernsystemen ist sehr rechenintensiv und deshalb selbst auf leistungsstarken Rechnern extrem zeitintensiv. Dieses Problem verschärft sich, wenn das maschinelle Lernsystem viele Parameter (z.B. <100 bis >1Mio Parameter) aufweist und viele Trainingsdaten beim Anlernen benötigt werden, da diese beim Anlernen jeweils durch das maschinelle Lernsystem verarbeitet werden müssen. Ein Hyperparameter des Anlernverfahrens kann durch Ausprobieren angepasst werden, um die Lernkurve positiv zu beeinflussen. Das Ausprobieren ist jedoch extrem ineffizient, da hierfür jedes Mal alle Berechnungen durchgeführt werden müssen, ohne vorhersehen zu können, ob dieser angepasste Hyperparameter des Anlernverfahrens anschließend zu einer besseren Lernkurve führt.Teaching machine learning systems is very computationally intensive and therefore extremely time-consuming even on powerful computers. This problem is exacerbated when the machine learning system has many parameters (e.g. <100 to> 1 million parameters) and a lot of training data is required for teaching, as these have to be processed by the machine learning system during teaching. A hyperparameter of the learning process can be adjusted by trial and error in order to positively influence the learning curve. Trying it out is extremely inefficient, however, since all calculations have to be carried out every time without being able to foresee whether this adapted hyperparameter of the teaching process will subsequently lead to a better learning curve.

Die Erfindung hat zum Ziel, den Anlernprozess von maschinellen Lernsystemen zu vereinfachen, indem gezielt ein geeigneter Wert des Hyperparameters des Anlernverfahrens bestimmt wird, sodass insgesamt weniger Anlernschritte benötigt werden, wodurch das Anlernverfahren computerressourcen-effizienter wird.The aim of the invention is to simplify the learning process of machine learning systems by specifically determining a suitable value of the hyperparameters of the learning process, so that overall fewer learning steps are required, whereby the learning process becomes more efficient in terms of computer resources.

Es wird vorgeschlagen, dass die Lernkurve kostengünstig vorhergesagt wird. Abhängig von der Vorhersage kann dann entschieden werden, ob das Anlernen mit dem gewählten Hyperparameter des Anlernverfahrens zielführend sein wird, also beibehalten wird, oder ob der Hyperparameter geändert werden soll. Damit kann dann selektiv der Hyperparameter des Lernverfahrens beim Anlernen des maschinellen Lernsystems verwendet werden, um schneller und damit computerressourcen-sparsamer das maschinelle Lernsystem anzulernen, ohne unnötig viele, nicht-zielführende Werte des Hyperparameters zu verwenden, insbesondere zu testen.It is suggested that the learning curve be predicted inexpensively. Depending on the prediction, a decision can then be made as to whether the teaching with the selected hyperparameter of the teaching method will be expedient, that is, will be retained, or whether the hyperparameter should be changed. The hyperparameter of the learning method can then be used selectively when teaching the machine learning system in order to train the machine learning system more quickly and thus more economically with computer resources, without using unnecessarily many, non-targeting values of the hyperparameters, in particular testing them.

Ferner erlaubt die Erfindung auch einen Hyperparameter des Anlernverfahrens zu finden, die es ermöglicht präziser ein Optimum der Kostenfunktion beim Anlernen zu finden und damit eine höhere Leistungsfähigkeit des maschinellen Lernsystems zu erreichen.Furthermore, the invention also allows a hyperparameter of the learning method to be found, which makes it possible to find an optimum of the cost function during the learning process more precisely and thus to achieve a higher efficiency of the machine learning system.

Offenbarung der ErfindungDisclosure of the invention

In einem ersten Aspekt wird ein, insbesondere computerimplementiertes, Verfahren gemäß dem unabhängigen Anspruch 1 zur Vorhersage einer Lernkurve eines iterativen Anlernverfahrens eines ersten maschinellen Lernsystems vorgestellt. Die Lernkurve ist eine, insbesondere sequenzielle Zeit-, Reihe einer Mehrzahl von Werten, die jeweils einem Wert einer Kostenfunktion des iterativen Anlernverfahrens entsprechen oder die jeweils eine Leistungsfähigkeit (engl. performance) des ersten maschinellen Lernsystems auf Trainingsdaten charakterisieren. Unter Trainingsdaten werden alle bereitgestellten Daten verstanden, die jeweils ein Paar aus Eingangsgrößen und zugeordneten Ausgangsgrößen umfassen und zum Anlernen und Evaluieren des ersten maschinellen Lernsystem verwendet werden. Vorzugsweise wird zum Evaluieren der Leistungsfähigkeit ein Validierungsdatensatz verwendet.In a first aspect, a, in particular computer-implemented, method according to independent claim 1 for predicting a learning curve of an iterative learning process of a first machine learning system is presented. The learning curve is a, in particular sequential, time series of a plurality of values which each correspond to a value of a cost function of the iterative learning method or which each characterize a performance of the first machine learning system on training data. Training data is understood to mean all the data provided, which each comprise a pair of input variables and assigned output variables and are used for teaching and evaluating the first machine learning system. A validation data set is preferably used to evaluate the performance.

Vorzugsweise sind die Werte der Lernkurve jeweils einem Iterationsschritt des Anlernverfahrens zugeordnet. Die Lernkurve beschreibt einen Verlauf, bzw. einen Fortschritt des Anlernverfahrens, also eine zeitliche Entwicklung der Werte der Kostenfunktion oder der Leistungsfähigkeit entlang der Iterationsschritte des Anlernens des ersten maschinellen Lernsystems. Unter der Leistungsfähigkeit kann verstanden werden, in wie weit das erste maschinelle Lernsystem, angewendet auf die Trainingsdaten, bereits seiner Aufgabe nachkommt, gemäß welcher das erste maschinelle Lernsystem angelernt wird, diese Aufgabe zu lösen. Die Leistungsfähigkeit ist bspw. eine Klassifikationsgenauigkeit der Trainingsdaten, die zum Anlernen des ersten maschinellen Lernsystem verwendet werden. Das iterative Anlernverfahren wird zum Anlernen des ersten maschinellen Lernsystems verwendet und ist durch eine Parametrisierung parametrisiert. Das Verfahren zur Vorhersage der Lernkurve umfasst die Schritte: Erhalten der Parametrisierung des iterativen Anlernverfahrens und zumindest eines vorhergehenden Wertes der Lernkurve, der nach zumindest einem vorhergehend ausgeführten, vorzugsweise aktuellsten, Iterationsschritt des Anlernverfahrens ermittelt wurde. D.h. der vorhergehende Wert der Lernkurve entspricht im Wesentlichen einem vorhergehenden Wert der Kostenfunktion dieses Iterationsschrittes oder charakterisiert die Leistungsfähigkeit nachdem dieser Iterationsschritt ausgeführt wurde. Daraufhin folgt ein Vorhersagen, mittels eines zweiten maschinellen Lernsystems, eines nachfolgenden Wertes der Lernkurve abhängig von der Parametrisierung und abhängig von dem zumindest einem vorhergehenden Wert der Lernkurve. D.h. der nachfolgende Wert der Lernkurve entspricht im Wesentlichen einem Wert der Kostenfunktion, den die Kostenfunktion zu einem nachfolgenden Iterationsschritt des Anlernverfahrens ermitteln würde oder charakterisiert die Leistungsfähigkeit nachdem der nachfolgende Iterationsschritt ausgeführt worden wäre. Daraufhin folgt ein Entscheiden abhängig von dem vorhergesagten Wert der Lernkurve, ob die Parametrisierung des iterativen Anlernverfahren beibehalten wird. Denkbar ist auch, dass die Schritte des Verfahrens mehrfach wiederholt werden und abhängig von einer Mehrzahl von vorhergesagten Werten der Lernkurve entschieden wird, ob die Parametrisierung des iterativen Anlernverfahren beibehalten wird.The values of the learning curve are preferably each assigned to an iteration step of the learning method. The learning curve describes a course or a progress of the learning process, that is, a development over time of the values of the cost function or the performance along the iteration steps of the learning of the first machine learning system. The performance can be understood to mean the extent to which the first machine learning system, applied to the training data, is already performing its task, according to which the first machine learning system is trained to solve this task. The performance is, for example, a classification accuracy of the training data that is used to teach the first machine learning system. The iterative teaching method is used to train the first machine learning system and is parameterized by a parameterization. The method for predicting the learning curve comprises the following steps: Obtaining the parameterization of the iterative learning process and at least one previous value of the learning curve, which is based on at least one previously executed, preferably most current, Iteration step of the learning process was determined. In other words, the previous value of the learning curve essentially corresponds to a previous value of the cost function of this iteration step or characterizes the performance after this iteration step has been carried out. This is followed by a prediction, by means of a second machine learning system, of a subsequent value of the learning curve depending on the parameterization and depending on the at least one previous value of the learning curve. That is to say, the subsequent value of the learning curve essentially corresponds to a value of the cost function that the cost function would determine for a subsequent iteration step of the learning method or characterizes the performance after the subsequent iteration step would have been carried out. This is followed by a decision as a function of the predicted value of the learning curve as to whether the parameterization of the iterative learning method is retained. It is also conceivable that the steps of the method are repeated a number of times and, depending on a plurality of predicted values of the learning curve, a decision is made as to whether the parameterization of the iterative learning method is retained.

Der Vorteil des Verfahrens ist, dass dieses besonders effizient und zuverlässig den Verlauf der Lernkurve vorhersagt. Da die Parametrisierung des iterativen Anlernverfahrens die Lernkurve und damit den Erfolg des Anlernens des ersten maschinellen Lernsystems beeinflusst, kann mithilfe dieses Verfahrens vorhergesagt werden, wie erfolgsversprechend die Parametrisierung sein wird. Unter der Parametrisierung kann eine oder eine Mehrzahl von Hyperparametern verstanden werden. Ein Hyperparameter ist ein Parameter, dessen Wert(e) zu Beginn eines Lernverfahrens gewählt wird und bis zu einer Beendigung des iterativen Anlerverfahrens unverändert bleibt.The advantage of the method is that it predicts the course of the learning curve particularly efficiently and reliably. Since the parameterization of the iterative learning process influences the learning curve and thus the success of the learning of the first machine learning system, this process can be used to predict how promising the parameterization will be. The parameterization can be understood to mean one or a plurality of hyperparameters. A hyperparameter is a parameter whose value (s) is selected at the beginning of a learning process and remains unchanged until the iterative learning process is ended.

Es sei angemerkt, dass zu jedem Iterationsschritt des Anlernverfahrens die Kostenfunktion ausgewertet werden kann und abhängig von der Kostenfunktion eine Parametrisierung des ersten maschinellen Lernsystems angepasst wird. Die Parametrisierung des ersten maschinellen Lernsystems kann mehr als 100 Parameter, oder mehr als 1 Mio. Parameter umfassen.It should be noted that the cost function can be evaluated for each iteration step of the learning method and a parameterization of the first machine learning system is adapted depending on the cost function. The parameterization of the first machine learning system can include more than 100 parameters or more than 1 million parameters.

Unter einem iterativen Anlernverfahren wird ein (Trainings-)Verfahren verstanden, dass die Parametrisierung des ersten maschinellen Lernsystems derart anpasst, dass die Kostenfunktion hinsichtlich eines vorgebbaren Kriteriums optimal wird. Das Anpassen der Parametrisierung des ersten maschinellen Lernsystems erfolgt hierbei iterativ. Alternierend wird die Parametrisierung des ersten maschinellen Lernsystems abhängig von der Kostenfunktion angepasst und die Kostenfunktion wird dann abhängig von der angepassten Parametrisierung ermittelt. D.h. die Parametrisierung wird angepasst, woraufhin die Kostenfunktion aktualisiert wird und die Parametrisierung abhängig von der aktualisierten Kostenfunktion erneut angepasst wird. Dies kann mehrfach hintereinander ausgeführt werden, bis ein vorgebbares Abbruchkriterium erreicht wird. Beispielsweise kann das iterative Anlernverfahren ein Gradientenabstiegsverfahren, wie zum Beispiel Adam, sein. Das erste maschinelle Lernsystem kann jede Art von lernfähigen Systemen sein, wie zum Beispiel ein neuronales Netzwerk oder ein Gaußprozess oder eine Support Vector Machine, etc.. Das erste maschinelle Lernsystem kann zur Klassifikation oder Segmentierung von Bildern, Videosequenzen und/oder Audiosignale verwendet werden. Ferner sei angemerkt, dass das maschinelle Lernsystem auch für weitere Aufgaben, wie z.B. eine Regression, verwendet werden kann.An iterative learning process is understood to mean a (training) process that adapts the parameterization of the first machine learning system in such a way that the cost function becomes optimal with regard to a specifiable criterion. The parameterization of the first machine learning system is adapted iteratively. The parameterization of the first machine learning system is alternately adapted depending on the cost function and the cost function is then determined depending on the adapted parameterization. I.e. the parameterization is adapted, whereupon the cost function is updated and the parameterization is adapted again depending on the updated cost function. This can be done several times in succession until a predefinable termination criterion is reached. For example, the iterative learning process can be a gradient descent process such as Adam. The first machine learning system can be any type of adaptive system, such as a neural network or a Gaussian process or a support vector machine, etc. The first machine learning system can be used for the classification or segmentation of images, video sequences and / or audio signals. It should also be noted that the machine learning system can also be used for other tasks, such as a regression, can be used.

Unter einer Kostenfunktion kann eine Differenz bzw. eine Abweichung zwischen wenigstens einer ermittelten Ausgangsgröße des ersten maschinellen Lernsystems abhängig von einer Trainingseingangsgröße und einer Trainingsausgangsgröße, die der Trainingseingangsgröße zugeordnet ist, sein. Die Kostenfunktion kann beispielsweise eine Kreuzentropie oder Ähnliches sein.A cost function can be a difference or a deviation between at least one determined output variable of the first machine learning system as a function of a training input variable and a training output variable that is assigned to the training input variable. The cost function can for example be a cross entropy or the like.

Es wird vorgeschlagen, dass das zweite maschinelle Lernsystem ein Random Forest ist. Der Random Forest sagt abhängig von einer Mehrzahl von vorhergehenden Werten der Lernkurve den nachfolgenden Wert der Lernkurve vorher. Ein jeder Entscheidungsbaum (engl. tree) des Random Forest gibt zumindest eine erste Größe und eine zweite Größe aus. Die Vorhersage des nachfolgenden Wertes der Lernkurve wird abhängig von einem Mittelwert über die ersten Größen und abhängig von einem Mittelwert über die zweiten Größen ermittelt.It is suggested that the second machine learning system is a random forest. The random forest predicts the subsequent value of the learning curve as a function of a plurality of previous values of the learning curve. Each decision tree of the random forest outputs at least a first size and a second size. The prediction of the subsequent value of the learning curve is determined as a function of an average value over the first variables and as a function of an average value over the second variables.

Der Mittelwert der ersten und zweiten Größe kann verwendet werden, um eine Wahrscheinlichkeitsverteilung, vorzugsweise eine Gauß-Verteilung, zu parametrisieren, wobei der vorhergesagte Wert der Lernkurve dann zufällig aus dieser Wahrscheinlichkeitsverteilung gezogen wird.The mean value of the first and second variables can be used to parameterize a probability distribution, preferably a Gaussian distribution, the predicted value of the learning curve then being randomly drawn from this probability distribution.

Ein Random Forest ist ein Regressions-/Klassifikationsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht. Alle Entscheidungsbäume wurden während eines Lernprozesses erstellt. Für eine Klassifikation darf jeder Baum in diesem „Wald“ eine Entscheidung treffen. Die endgültige Klassifikation wird dann abhängig von allen Entscheidungen der Bäume getroffen. Die erste und zweite Größe des Random Forest charakterisieren vorzugsweise ein erstes und zweites Moment einer Wahrscheinlichkeitsverteilung, bspw. einer Gauß Verteilung. Der Vorteil des Random Forest liegt darin, dass diese Art von maschinellen Lernsystemen mit wenigen Trainingsdaten zurechtkommen und daher effizient erstellt und betrieben werden können.A random forest is a regression / classification method that consists of several uncorrelated decision trees. All decision trees were created during a learning process. For a classification, each tree in this "forest" can make a decision. The final classification is then made based on all decisions made by the trees. The first and second variables of the random forest preferably characterize a first and second moment of a probability distribution, for example a Gaussian distribution. The advantage of the Random Forest is that this type of machine learning system has cope with little training data and can therefore be efficiently created and operated.

Weiterhin wird vorgeschlagen, dass das zweite maschinelle Lernsystem ein Bayes'sches rekurrentes neuronales Netz ist, auch bekannt unter der englischen Bezeichnung Variational Recurrent Neural Network (VRNN). Ferner wird vorgeschlagen, dass das Bayes'sche rekurrente neuronale Netz eine Mehrzahl von LongShortTermMemory-Module (LSTM) umfasst, die nach einer vorgegebenen Reihenfolge miteinander verbundenen sind.It is further proposed that the second machine learning system is a Bayesian recurrent neural network, also known under the English name Variational Recurrent Neural Network (VRNN). It is further proposed that the Bayesian recurrent neural network comprises a plurality of LongShortTermMemory modules (LSTM) which are connected to one another in a predetermined sequence.

Der Vorteil von rekurrenten neuronalen Netzen liegt darin, dass diese beim Betreiben nur einen vorhergehenden Wert der Lernkurve benötigen und sich anhand ihres internen Kurz-/Lang-zeitgedächtnisses an erhaltene Werte der Lernkurve von vorhergehenden Berechnungen erinnern können. Damit kommen die rekurrenten neuronalen Netze im Betrieb mit wenigen Daten aus, um eine besonders zuverlässige Vorhersage treffen zu können. Der Vorteil des Bayes'schen rekurrenten neuronalen Netzes ist, dass dieses eine Aussage über eine Verlässlichkeit der Vorhersage treffen kann.The advantage of recurrent neural networks is that they only need a previous value of the learning curve during operation and can use their internal short / long-term memory to remember values of the learning curve obtained from previous calculations. This means that the recurrent neural networks manage with little data during operation in order to be able to make a particularly reliable forecast. The advantage of the Bayesian recurrent neural network is that it can make a statement about the reliability of the prediction.

Weiterhin wird vorgeschlagen, dass die Parametrisierung jeweils mittels einer Mehrzahl von vollvermaschten neuronalen Netzen (engl. fully connected neural networks) verarbeitet wird und jeweils die verarbeiteten Parametrisierungen zusätzlich als Eingangsgröße jeweils einem der LSTM bereitgestellt werden. Zusätzlich können die verarbeiteten Parametrisierungen abhängig von einer zufällig gezogenen Größe, insbesondere aus einer Bernoulli-Verteilung, gewichtet werden. Dies erlaubt eine Gewichtung der Parametrisierung des Anlernverfahrens, wodurch die Parametrisierung nach ihrer Verlässlichkeit den LSTM zugeführt werden. Ein weiterer Vorteil der vollvermaschten neuronalen Netze besteht in ihrer Differenzierbarkeit, die die Optimierung von neuen Parametrisierungen erleichtert. Außerdem können (vollvermaschte) neuronale Netze mit viel mehr Daten trainiert werden, was die Vorhersagen verbessert.It is also proposed that the parameterization is processed by means of a plurality of fully connected neural networks and that the processed parameterizations are additionally provided as an input variable to one of the LSTMs. In addition, the processed parameterizations can be weighted depending on a randomly drawn variable, in particular from a Bernoulli distribution. This allows the parameterization of the learning process to be weighted, as a result of which the parameterization is fed to the LSTM according to its reliability. Another advantage of the fully meshed neural networks is their differentiability, which facilitates the optimization of new parameterizations. In addition, (fully meshed) neural networks can be trained with much more data, which improves the predictions.

Weiterhin wird vorgeschlagen, dass vor Beginn des iterativen Anlernverfahrens die Mehrzahl der LSTM des Bayes'schen rekurrenten neuronalen Netzes und die Lernkurve initialisiert werden. Beim Initialisieren der Lernkurve wird ein erster Wert gleich Null gesetzt. Der erste Wert muss nicht unbedingt Null sein, beliebige Werte sind denkbar, solange beim Ausführen des Verfahrens der gleiche Wert verwendet wird.It is also proposed that the majority of the LSTM of the Bayesian recurrent neural network and the learning curve are initialized before the start of the iterative learning process. When the learning curve is initialized, a first value is set equal to zero. The first value does not necessarily have to be zero; any values are possible as long as the same value is used when executing the method.

Das zweite maschinelle Lernsystem sagt abhängig von der Parametrisierung und dem auf Null gesetzten Wert der Lernkurve den nachfolgenden Wert der Lernkurve vorher, insbesondere ohne dass ein Iterationsschritt des Anlernverfahrens ausgeführt werden muss. Es sei angemerkt, dass dieser nachfolgende Wert der Lernkurve einem Wert der Lernkurve entspricht und erwartet wird, dass dieser nach einem Ausführen des ersten Iterationsschrittes des Anlernverfahrens vorliegen würde. Der Vorteil liegt darin, dass das iterative Anlernverfahren nicht ausgeführt werden muss, dennoch kann eine Vorhersage der Lernkurve durchgeführt werden. Dies erlaubt ein besonders effizientes Anlernverfahren welches mit einer minimalen Anzahl von Iterationsschritten des Anlernverfahrens auskommt. Unter Initialisieren des Bayes'schen rekurrenten neuronalen Netzes kann verstanden werden, dass alle internen Zustände des rekurrenten neuronalen Netzes auf einen vorgegebenen Wert, beispielsweise auf den Wert Null, gesetzt werden.Depending on the parameterization and the value of the learning curve set to zero, the second machine learning system predicts the subsequent value of the learning curve, in particular without an iteration step of the learning process having to be carried out. It should be noted that this subsequent value of the learning curve corresponds to a value of the learning curve and it is expected that this would be present after the first iteration step of the learning method has been carried out. The advantage is that the iterative learning process does not have to be carried out, but a prediction of the learning curve can still be carried out. This allows a particularly efficient learning process which manages with a minimal number of iteration steps of the learning process. Initializing the Bayesian recurrent neural network can be understood to mean that all internal states of the recurrent neural network are set to a predetermined value, for example to the value zero.

Weiterhin wird vorgeschlagen, dass dann, wenn das zweite maschinelle Lernsystem den nachfolgenden Wert der Lernkurve vorhergesagt hat, das zweite maschinelle Lernsystem den vorhergesagten Wert der Lernkurve als vorhergehenden Wert der Lernkurve erhält, und dieser Schritt mehrmals wiederholt wird, bis eine vorgebbare Mehrzahl von Werten der Lernkurve vorhergesagt wurde. Vorteilhaft hieran ist, dass damit eine Konvergenz des Anlernverfahrens, insbesondere der Lernkurve, vorhergesagt werden kann.It is also proposed that when the second machine learning system has predicted the subsequent value of the learning curve, the second machine learning system receives the predicted value of the learning curve as the previous value of the learning curve, and this step is repeated several times until a predeterminable plurality of values of the Learning curve was predicted. The advantage here is that a convergence of the learning process, in particular the learning curve, can be predicted.

Weiterhin wird vorgeschlagen, dass das iterative Anlernverfahren zum Anlernen des ersten maschinellen Lernsystem abhängig von der Vorhersage der Lernkurve durchgeführt, insbesondere fortgesetzt, wird. Denkbar ist auch, dass abhängig von der Vorhersage der Lernkurve das Anlernverfahren mit einer anderen Parametrisierung parametrisiert und vorzugsweise dann mit der anderen Parametrisierung das erste maschinelle Lernsystem angelernt wird, oder für die andere Parametrisierung eine Lernkurve vorhergesagt wird. Erreicht bspw. die Lernkurve nicht einen vorgebbaren Schwellwert, dann kann die Parametrisierung verworfen und eine neue Parametrisierung gewählt werden. Überschreitet die vorhergesagte Lernkurve den vorgebbaren Schwellwert, dann wird das iterative Anlernverfahren gemäß der Parametrisierung parametrisiert und daraufhin das erste maschinelle Lernsystem mit diesem parametrisierten Anlernverfahren angelernt.It is further proposed that the iterative teaching method for teaching the first machine learning system is carried out, in particular continued, as a function of the prediction of the learning curve. It is also conceivable that, depending on the prediction of the learning curve, the learning method is parameterized with a different parameterization and the first machine learning system is then preferably learned with the other parameterization, or a learning curve is predicted for the other parameterization. If, for example, the learning curve does not reach a predefinable threshold value, then the parameterization can be discarded and a new parameterization selected. If the predicted learning curve exceeds the predefinable threshold value, then the iterative learning process is parameterized according to the parameterization and the first machine learning system is then learned with this parameterized learning process.

Weiterhin wird vorgeschlagen, dass die Schritte des Verfahrens jeweils für eine Mehrzahl unterschiedlicher Parametrisierungen durchgeführt werden, und dass das Anlernverfahren zum Anlernen des ersten maschinellen Lernsystem abhängig von den Vorhersagen parametrisiert wird. Dieses Vorgehen erlaubt es, eine optimale Parametrisierung des iterativen Anlernverfahrens auszuloten.It is further proposed that the steps of the method are each carried out for a plurality of different parameterizations, and that the teaching method for teaching the first machine learning system is parameterized as a function of the predictions. This procedure allows an optimal parameterization of the iterative learning process to be explored.

Weiterhin wird vorgeschlagen, dass das zweite maschinelle Lernsystem abhängig von einer Mehrzahl von Trainingsdaten angelernt wird und die Trainingsdaten eine Mehrzahl von Trainingslernkurven und zu jeder Trainingslernkurve zugeordnete Parametrisierung umfassen. Die Trainingslernkurven können unterschiedlich lang sein.It is also proposed that the second machine learning system depends on a A plurality of training data is learned and the training data comprise a plurality of training learning curves and parameterization assigned to each training learning curve. The training learning curves can be of different lengths.

Es sei angemerkt, dass die Trainingsdaten vorzugsweise aus vorhergehenden Anlernverfahren mit ähnlichen Anlernverfahren und/oder Kostenfunktion stammen. Unterschiedlich lang bedeutet, dass die Trainingslernkurven unterschiedlich viele Werte umfassen. Denkbar ist, dass parallel zum Anlernen des ersten maschinellen Lernsystems das zweite maschinelle Lernsystem angelernt wird. Dies hat den Vorteil, dass die bereits erzeugten Lernkurven des ersten maschinellen Lernsystems als Trainingsdaten für das Anlernen des zweiten maschinellen Lernsystems verwendet werden können.It should be noted that the training data preferably originate from previous learning processes with similar learning processes and / or cost functions. Different length means that the training learning curves contain different numbers of values. It is conceivable that the second machine learning system is taught in parallel to the teaching of the first machine learning system. This has the advantage that the already generated learning curves of the first machine learning system can be used as training data for teaching the second machine learning system.

Weiterhin wird vorgeschlagen, dass die Trainingsdaten Daten aufweisen, die beim Anlernen maschineller Lernsysteme für unterschiedliche Aufgaben bzw. Anwendungen erfasst wurden.It is also proposed that the training data have data that were recorded when machine learning systems were trained for different tasks or applications.

Vorzugsweise werden alternativ oder zusätzlich zu der Parametrisierung des Anlernverfahrens Meta-Daten der Trainingsdaten verwendet. Der Vorteil hierbei ist, dass dies ein direktes Lernen über unterschiedliche Trainingsdaten hinweg ermöglicht. Meta-Daten können z.B. Größen sein, die eine Argumentierung der Trainingsdaten charakterisieren (Rotation/Translation, usw.). Alternativ kann anstatt der Meta-Daten ein latenter Vektor gelernt werden, der für die Aufgabe charakteristisch ist, welche das erste maschinelle Lernsystem nach dem Anlernen lösen soll. Es wird vorgeschlagen, dass dieser Vektor dann auf der Grundlage von wenigen beobachteten Datenpunkten der Lernkurve auf dem neuen Datensatz geschätzt werden kann. Hierzu können u.a. Methoden aus dem Bereich „Variational Inference“ (z.B. Markov-Chain-Monte-Carlo-Verfahren - kurz MCMC - oder Stochastic Variational Infence - kurz SVI) benutzt werden.As an alternative or in addition to the parameterization of the training method, metadata of the training data are preferably used. The advantage here is that this enables direct learning across different training data. Metadata can e.g. Be variables that characterize an argumentation of the training data (rotation / translation, etc.). Alternatively, instead of the metadata, a latent vector can be learned which is characteristic of the task which the first machine learning system is to solve after the learning. It is suggested that this vector can then be estimated based on a few observed data points of the learning curve on the new data set. For this purpose, i.a. Methods from the field of "Variational Inference" (e.g. Markov Chain Monte Carlo Method - MCMC for short - or Stochastic Variational Infence - SVI for short) can be used.

Die Erfindung des ersten Aspektes kann auch für „bandit-based hyperparameter optimizers“, wie z.B. BOHB, verwendet werden, um diese sinnvoll zu initialisieren.The invention of the first aspect can also be used for "bandit-based hyperparameter optimizers", e.g. BOHB, can be used to initialize this sensibly.

Da die Erfindung des ersten Aspektes anhand ihrer Vorteile (wie der zuverlässigen, besonders kostengünstigen Vorhersagen der Lernkurve und einem Ausgeben probabilistischer Verlässlichkeiten der Vorhersagen), ist die Erfindung auch in „exploitation-exploration paradigm“ Szenarios einsetzbar, z.B. in reinforcement-learning Anwendungen. Hierbei kann bspw. der Wert der Lernkurve eine Belohnung sein. Dies hat den Vorteil, dass bei aufwändig zu beobachtenden oder zu messenden Belohnungen diese mittels des zweiten maschinellen Lernsystem einfach vorhergesagt werden können.Since the invention of the first aspect is based on its advantages (such as the reliable, particularly inexpensive predictions of the learning curve and the outputting of probabilistic reliabilities of the predictions), the invention can also be used in "exploitation-exploration paradigm" scenarios, e.g. in reinforcement learning applications. Here, for example, the value of the learning curve can be a reward. This has the advantage that, in the case of rewards that are complex to observe or measure, they can easily be predicted using the second machine learning system.

In einem zweiten Aspekt der Erfindung wird das erste maschinelle Lernsystem unter Verwendung des ersten Aspektes der Erfindung angelernt. Daraufhin kann das erste maschinelle Lernsystem zum Steuern eines technischen Systems verwendet werden. Das technische System kann zum Beispiel eine zumindest teilautonome Maschine, ein zumindest teilautonomes Fahrzeug, ein Roboter, ein Werkzeug, eine Werkmaschine oder ein Flugobjekt wie eine Drohne sein. Die Eingangsgröße des ersten maschinellen Lernsystems kann eine Größe sein, welche mittels eines Sensors erfasst wurde. Abhängig von einer Ausgangsgröße des maschinellen Lernsystems kann eine Steuergröße ermittelt werden.In a second aspect of the invention, the first machine learning system is trained using the first aspect of the invention. The first machine learning system can then be used to control a technical system. The technical system can be, for example, an at least partially autonomous machine, an at least partially autonomous vehicle, a robot, a tool, a work machine or a flying object such as a drone. The input variable of the first machine learning system can be a variable that was recorded by means of a sensor. A control variable can be determined as a function of an output variable of the machine learning system.

Die Steuergröße kann zum Steuern eines Aktors eines technischen Systems verwendet werden.The control variable can be used to control an actuator of a technical system.

In einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen. Das Computerprogramm ist eingerichtet, eines der vorherigen genannten Verfahren auszuführen. Das Computerprogramm umfasst Anweisungen, die einen Computer veranlassen, eines dieser genannten Verfahren mit all seinen Schritten auszuführen, wenn das Computerprogramm auf dem Computer abläuft. Ferner wird ein maschinenlesbares Speichermodul vorgeschlagen, auf welchem das Computerprogramm gespeichert ist. Des Weiteren wird eine Vorrichtung vorgeschlagen, die eingerichtet ist eines der Verfahren auszuführen. In a further aspect, a computer program is proposed. The computer program is set up to carry out one of the aforementioned methods. The computer program comprises instructions which cause a computer to carry out one of these named methods with all of its steps when the computer program runs on the computer. Furthermore, a machine-readable memory module is proposed, on which the computer program is stored. Furthermore, a device is proposed which is set up to carry out one of the methods.

Ausführungsbeispiele der oben genannten Aspekte sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:Exemplary embodiments of the above-mentioned aspects are shown in the accompanying drawings and explained in more detail in the description below. Show:

FigurenlisteFigure list

1 a schematic representation of a first machine learning system and a second machine learning system;
2 a schematic representation of an architecture of the second machine learning system;
3 a schematic representation of a flow chart of an embodiment of the method for predicting a learning curve;
4th a schematic representation of an embodiment of a device which can be used for teaching the first or second machine learning system.

1 zeigt schematisch ein erstes maschinelles Lernsystem (10), das mittels einer Vorrichtung (11) angelernt wird. Die Vorrichtung (11) erhält eine Trainingseingangsgröße, die mittels des ersten maschinellen Lernsystems (10) zu einer Ausgangsgröße verarbeitet wird. Die Trainingseingangsgrößen können, wie beispielhaft in 1 dargestellt, Bilder sein. Denkbar sind aber auch andere Signale, wie Audiosignale. Nachdem die Ausgangsgröße des ersten maschinellen Lernsystems (10) ermittelt wurde, wird mittels einer Kostenfunktion (engl. loss function) abhängig von der ermittelten Ausgangsgröße und einer zu der Trainingseingangsgröße bereitgestellten Trainingsausgangsgröße eine Differenz zwischen der ermittelten Ausgangsgröße und der Trainingsausgangsgrößen ermittelt. Die Kostenfunktion gibt dann einen Wert y_t-1 aus. Wenn das erste maschinelle Lernsystem (10) ein tiefes neuronales Netz ist, dann kann die Kostenfunktion bspw. ein quadratischer Fehler sein. 1 shows schematically a first machine learning system ( 10 ), which by means of a device ( 11 ) is learned. The device ( 11 ) receives a training input variable, which by means of the first machine learning system ( 10 ) is processed into an output variable. The training input variables can, as exemplified in 1 depicted being pictures. However, other signals, such as audio signals, are also conceivable. After the output variable of the first machine learning system ( 10 ), a cost function (loss function) is used to determine a difference between the determined output variable and the training output variable depending on the determined output variable and a training output variable provided for the training input variable. The cost function then outputs a value y _t-1 . When the first machine learning system ( 10 ) is a deep neural network, then the cost function can be a square error, for example.

Dieser Wert y_t-1 kann daraufhin verwendet werden, um mittels eines iterativen Anlernverfahrens eine Parametrisierung des ersten maschinellen Lernsystems (10) anzupassen, sodass die Kostenfunktion optimiert, beispielsweise minimiert, wird.This value y _t-1 can then be used to parameterize the first machine learning system using an iterative learning process ( 10 ) so that the cost function is optimized, for example minimized.

Das iterative Anlernverfahren kann mehrmals hintereinander ausgeführt werden. Dabei kann jeweils der Wert der Kostenfunktion bei jedem Iterationsschritt in einem Schaubild eingetragen werden, um den Verlauf des Anlernverfahrens abzubilden. Das Bezugszeichen 13a zeigt beispielhaft ein Schaubild einer Lernkurve (13) des ersten maschinellen Lernsystems (10). Auf der x-Achse sind die einzelnen Iterationsschritte zum Zeitpunkt (t) und auf der y-Achse die Werte der Kostenfunktion aufgetragen. Das Schaubild zeigt beispielhaft wie sich die Werte der Kostenfunktion entlang der Iterationsschritte des Anlernverfahrens verhalten.The iterative learning process can be carried out several times in succession. The value of the cost function can be entered in a graph for each iteration step in order to map the course of the learning process. The reference number 13a shows an example of a diagram of a learning curve ( 13 ) of the first machine learning system ( 10 ). The individual iteration steps at time (t) are plotted on the x-axis and the values of the cost function are plotted on the y-axis. The diagram shows an example of how the values of the cost function behave along the iteration steps of the learning process.

Alternativ kann der Wert y_t-1 auch eine Leistungsfähigkeit (engl. performance) des ersten maschinellen Lernsystems (10) auf den Trainingsdaten charakterisieren, bspw. eine Klassifikationsgenauigkeit der Bilder. Denkbar ist dann, dass auf der y-Achse des Schaubildes eine Klassifikationsgenauigkeit aufgetragen ist und die Lernkurve (13) die Konvergenz der Klassifikationsgenauigkeit beim Anlernen des ersten maschinellen Lernsystems (10) darstellt.Alternatively, the value y _{t-1 can} also be a performance of the first machine learning system ( 10 ) characterize on the training data, e.g. a classification accuracy of the images. It is then conceivable that a classification accuracy is plotted on the y-axis of the diagram and the learning curve ( 13 ) the convergence of the classification accuracy when teaching the first machine learning system ( 10 ) represents.

Da das iterative Anlernverfahren parametrisierbar ist, beispielsweise durch eine Lernrate, Gradientenschrittweite oder Ähnliches, kann anhand dieser Parametrisierung θ eine Konvergenzeigenschaft der Lernkurve (13) beeinflusst werden. Da es nicht möglich ist, eine optimale Parametrisierung θ analytisch zu ermitteln, wird diese üblicherweise durch manuelles Ausprobieren festgelegt. Dies ist nachteilig, da hierfür diverse Parametrisierungen θ ausprobiert werden müssen, wovon die meisten verworfen werden, da diese nicht geeignet sind, um eine hohe Leistungsfähigkeit des ersten maschinellen Lernsystems zu erreichen. Fraglich ist auch, ob durch das manuelle Ausprobieren überhaupt eine annährend optimale Parametrisierungen θ gefunden werden kann, wenn ein Parametrisierungsraum mehrdimensional ist.Since the iterative learning process can be parameterized, for example by a learning rate, gradient step size or the like, a convergence property of the learning curve ( 13 ) to be influenced. Since it is not possible to determine an optimal parameterization θ analytically, this is usually determined by manual trial and error. This is disadvantageous, since various parameterizations θ have to be tried out for this, most of which are discarded since they are not suitable for achieving a high level of performance in the first machine learning system. It is also questionable whether an approximately optimal parameterization θ can be found at all through manual trial and error if a parameterization space is multi-dimensional.

Es wird deshalb vorgeschlagen, ein zweites maschinelles Lernsystem (12) zu verwenden, das als Eingangsgröße die Parametrisierung θ des Anlernverfahrens und zumindest einen Wert (y_t-1) der Lernkurve erhält. Der Wert (y_t-1) kann zu einem vorhergehenden Iterationsschritt (t - 1) des Anlernverfahrens ermittelt worden sein und eine Leistungsfähigkeit des ersten maschinellen Lernsystems(10) charakterisieren oder ein Wert der Kostenfunktion sein. Das zweite maschinelle Lernsystem (12) ist derart angelernt, dass dieses abhängig von seiner Eingangsgröße einen nachfolgenden Wert y_t der Lernkurve (13) vorhersagt, der nach einem nachfolgenden durchgeführten Iterationsschritt (t) des Anlernverfahrens ermittelt worden wäre. Dies erlaubt eine erste Abschätzung, ob anhand der gewählten Parametrisierung des Anlernverfahrens ein sinnvolles Anlernen des ersten maschinellen Lernsystems (10) erzielt werden kann.It is therefore proposed to use a second machine learning system ( 12 ), which receives the parameterization θ of the learning process and at least one value (y _t-1 ) of the learning curve as the input variable. The value (y _t-1 ) can have been determined for a previous iteration step (t-1) of the learning method and a performance of the first machine learning system ( 10 ) or be a value of the cost function. The second machine learning system ( 12 ) is learned in such a way that it has a subsequent value y _{t of} the learning curve ( 13 ) predicts which would have been determined after a subsequent iteration step (t) of the learning process carried out. This allows an initial assessment of whether, on the basis of the selected parameterization of the learning process, a useful learning of the first machine learning system ( 10 ) can be achieved.

Im Folgenden wird die Lernkurve (13) als eine sequenzielle Zeitreihe von Werten der Kostenfunktion und/oder der Leistungsfähigkeit angesehen und ein Wert (y_t) der Lernkurve wird basierend auf vorhergehenden beobachteten Werten (y_t-K-1, ...,y_t-1) zu vorhergehenden Iterations-/Zeit-schritten (t - K - 1, ..., t - 1) vorhergesagt.The following is the learning curve ( 13 ) is viewed as a sequential time series of values of the cost function and / or the performance and a value (y _t ) of the learning curve is calculated based on previous observed values (y _tK-1 , ..., y _t-1 ) at previous iteration / Time steps (t - K - 1, ..., t - 1) predicted.

Der vorhergesagte Wert (y_t) der Lernkurve (13) lässt sich unter der Annahme, dass die Werte (y_t-K-1, ...,y_t-1) verrauscht beobachtet wurden, wie folgt ermitteln: $p (y_{t}^{*} | x_{t}, D) = Ψ (μ (y_{t}^{*} | x_{t}, D), σ^{2} (y_{t}^{*} | x_{t}, D))$

dabei entspricht Ψ einer Gauß-Verteilung und x_t = [θ,y_t-K-1, ...,y_t-1] und D beschreibt die Trainingsdaten, die insgesamt N unterschiedliche Trainingslernkurven mit unterschiedlicher Länge zusammen mit der jeweiligen zugeordneten Parametrisierung θ umfassen.The predicted value (y _t ) of the learning curve ( 13 ) can be determined as follows, assuming that the values (y _tK-1 , ..., y _t-1 ) were observed with _noise :

p (y_{t}^{*} | x_{t}, D.) = Ψ (μ (y_{t}^{*} | x_{t}, D.), σ^{2} (y_{t}^{*} | x_{t}, D.))

where Ψ corresponds to a Gaussian distribution and x _t = [θ, y _tK-1 , ..., y _t-1 ] and D describes the training _{data that comprise} a total of N different training _{learning curves of} different lengths together with the respective assigned parameterization θ .

Das zweite maschinelle Lernsystem (12) kann in einer ersten Ausführungsform als ein Random Forest mit i-Entscheidungsbäumen implementiert sein. Der Random Forest ermittelt für jedes x_t die Gauß-Verteilung $Ψ (μ (y_{t}^{*} | x_{t}, D), σ^{2} (y_{t}^{*} | x_{t}, D)),$

wobei

μ (y_{t}^{*} | x_{t}, D) = \sum_{i} μ^{i}

und µⁱ entspricht den einzelnen Vorhersagen der Entscheidungsbäume und wobei

σ^{2} (y_{t}^{*} | x_{t}, D) = \frac{1}{N} {\sum_{i} σ_{i}^{2} + \frac{1}{N} \sum_{i} [μ_{i} - μ (y_{t}^{*} | x_{t}, D)]}^{2},

insbesondere unter Verwendung des Gesetztes der totalen Varianz (engl. law of total variance) berechnet wird.The second machine learning system ( 12 ) can be implemented in a first embodiment as a random forest with i-decision trees. The random forest determines the Gaussian distribution for every x _t

Ψ (μ (y_{t}^{*} | x_{t}, D.), σ^{2} (y_{t}^{*} | x_{t}, D.)),

in which

μ (y_{t}^{*} | x_{t}, D.) = \sum_{i} μ^{i}

and µ ⁱ corresponds to the individual predictions of the decision trees and where

σ^{2} (y_{t}^{*} | x_{t}, D.) = \frac{1}{N} {\sum_{i} σ_{i}^{2} + \frac{1}{N} \sum_{i} [μ_{i} - μ (y_{t}^{*} | x_{t}, D.)]}^{2},

in particular using the law of total variance.

In der ersten Ausführungsform erhält der Random Forest insgesamt K nacheinander ermittelte Werte (y_t-K-1, ...,y_t-1) der Lernkurve (13) einer bisher noch nicht beobachteten Lernkurve. Der Random Forest sagt dann den weiteren Verlauf (y_t, ...,y_t+X) der Lernkurve (13) ausgehend von diesen insgesamt K Werten vorher. Dieses Vorhersagen von K Werten des weiteren Verlaufs der Lernkurve (13) soll im Folgenden als ein Rollout bezeichnet werden.In the first embodiment, the random forest receives a total of K values (y _tK-1 , ..., y _t-1 ) of the learning curve ( 13 ) a previously unobserved learning curve. The random forest then tells the further course (y _t , ..., y _{t + X} ) of the learning curve ( 13 ) based on these total K values beforehand. This prediction of K values of the further course of the learning curve ( 13 ) will be referred to as a rollout in the following.

Für ein einziges Rollout wird der vorhergesagte Wert (y_t+1) aus der ermittelten Gauß-Verteilung Ψ gezogen und zu den ermittelten Werten der Lernkurve hinzugefügt oder ersetzt einen der ermittelten Werten der Lernkurve. Dieses Vorgehen kann mehrmals wiederholt werden, bis eine Sequenz mit vorgebbarer Länge erreicht wurde.For a single rollout, the predicted value (y _{t + 1} ) is drawn from the determined Gaussian distribution Ψ and added to the determined values of the learning curve or replaces one of the determined values of the learning curve. This procedure can be repeated several times until a sequence with a predefinable length has been achieved.

In einer Weiterentwicklung der ersten Ausführungsform können mehrere Rollouts für die insgesamt K nacheinander ermittelten Werte (y_t-K-1, ...,y_t-1) der Lernkurve ausgeführt werden. Daraufhin kann über alle Rollouts gemittelt werden, bspw.: $μ (y_{t}^{*} | x_{t}, D) = \frac{1}{R} \sum_{i}^{R} y_{t}^{r}$

und

σ^{2} (y_{t}^{*} | x_{t}, D) = \frac{1}{R} \sum_{r}^{R} {(y_{t}^{r} - μ)}^{2},

um eine zuverlässigere Vorhersage zu erhalten.In a further development of the first embodiment, several rollouts can be carried out for the total of K successively determined values (y _tK-1 ,..., Y _t-1 ) of the learning curve. All rollouts can then be averaged, for example:

μ (y_{t}^{*} | x_{t}, D.) = \frac{1}{R.} \sum_{i}^{R.} y_{t}^{r}

and

σ^{2} (y_{t}^{*} | x_{t}, D.) = \frac{1}{R.} \sum_{r}^{R.} {(y_{t}^{r} - μ)}^{2},

to get a more reliable prediction.

In einer zweiten Ausführungsform des zweiten maschinellen Lernsystems (12) ist dieses durch ein Bayes'sches rekurrentes neuronales Netz (20) gegeben. Ein Aufbau des Bayes'schen rekurrenten neuronalen Netzes (20) ist beispielhaft in 2 dargestellt. Das Bayes'sche rekurrente neuronale Netz (20) erhält als Eingangsgröße einen vorhergehenden ermittelten Wert y_t-1 der Lernkurve (13) und verarbeitet diesen mittels in Reihe verschalteten LSTM Schichten (22, engl. LSTM layer). In der Ausführungsform gemäß 2 umfasst das Bayes'sche rekurrente neuronale Netz (20) zwei LSTM (r1,r2). Zusätzlich kann das Bayes'sche rekurrente neuronale Netz (20) an seinem Ausgang mit einem vollvermaschten neuronalen Netz (23, engl. fully connected neural network) verbunden sein, welches als Ausgangsgröße den Wert y_t der Lernkurve (13) ausgibt.In a second embodiment of the second machine learning system ( 12th ) is this through a Bayesian recurrent neural network ( 20th ) given. A structure of the Bayesian recurrent neural network ( 20th ) is an example in 2 shown. The Bayesian recurrent neural network ( 20th ) receives a previously determined value y _{t-1 of} the learning curve ( 13 ) and processes this using LSTM layers connected in series ( 22nd , engl. LSTM layer). In the embodiment according to 2 includes the Bayesian recurrent neural network ( 20th ) two LSTM (r1, r2). In addition, the Bayesian recurrent neural network ( 20th ) at its exit with a fully meshed neural network ( 23 , engl. fully connected neural network), which has the value y _{t of} the learning curve ( 13 ) outputs.

Zusätzlich kann das Bayes'sche rekurrente neuronale Netz (20) zumindest ein weiteres vollvermaschtes neuronales Netz (21) umfassen, das die Parametrisierung θ zu h₁ verarbeitet und einem der LSTM zusätzlich als Eingangsgröße bereitstellt. In 2 umfasst das Bayes'sche rekurrente neuronale Netz (20) eine Mehrzahl von weiteren vollvermaschten neuronalen Netzen (21).In addition, the Bayesian recurrent neural network ( 20th ) at least one further fully meshed neural network ( 21st ), which processes the parameterization θ to h ₁ and also provides one of the LSTMs as an input variable. In 2 includes the Bayesian recurrent neural network ( 20th ) a plurality of further fully meshed neural networks ( 21st ).

Zusätzlich kann die zu h₁ verarbeite Parametrisierung θ mittels des weiteren vollvermaschten neuronalen Netz (21) abhängig von einer Größe z gewichtet werden, in 2 dargestellt durch: h₁ · z₁. Die Größe z kann zufällig aus einer Bernoulli-Verteilung B(d)gezogen werden. Es sei angemerkt, dass eine Parametrisierung d der Bernoulli-Verteilung B(d) beim Anlernen des Bayes'schen rekurrenten neuronalen Netzes (20) optimiert werden kann.In addition, the parameterization θ processed to h ₁ can be done by means of the further fully meshed neural network ( 21st ) are weighted depending on a quantity z, in 2 represented by: h ₁ * z ₁ . The quantity z can be randomly drawn from a Bernoulli distribution B (d). It should be noted that a parameterization d of the Bernoulli distribution B (d) when teaching the Bayesian recurrent neural network ( 20th ) can be optimized.

Ebenso, wie bereits in der ersten Ausführungsform erläutert, kann hier ein Rollout durchgeführt werden. Abhängig von dem vorhergesagten Wert y_t kann mittels des Bayes'schen rekurrenten neuronalen Netzes (20) ein nachfolgender Wert y_t+1 abhängig von dem bereits vorhergesagten Wert y_t vorhergesagt werden, usw.As already explained in the first embodiment, a rollout can be carried out here. Depending on the predicted value y _t , the Bayesian recurrent neural network ( 20th ) a subsequent value y _{t + 1} depending on the already predicted value y _t can be predicted, etc.

3 zeigt schematisch ein Flussdiagram eines Verfahrens (30) zur Vorhersage der Lernkurve (13). 3 shows a schematic flow diagram of a method ( 30th ) to predict the learning curve ( 13 ).

Das Verfahren (30) beginnt mit Schritt 3000. In diesem Schritt wird das zweite maschinelle Lernsystem (12) angelernt. Hierfür werden die Trainingsdaten D bereitgestellt und daraufhin verwendet, um das zweite maschinelle Lernsystem (12) durch das Anlernen derart zu parametrisieren, dass dieses die Werte y der Lernkurve (13), insbesondere aus den Trainingsdaten, vorhersagen kann.The procedure ( 30th ) starts with step 3000 . In this step the second machine learning system ( 12th ) learned. For this purpose, the training data D is provided and then used to create the second machine learning system ( 12th ) to parameterize by teaching in such a way that the values y of the learning curve ( 13 ), especially from the training data.

Nachdem das zweite maschinelle Lernsystem (12) angelernt wurde, folgt Schritt 3100. In diesem Schritt wird das zweite maschinelle Lernsystem initialisiert. Ist das zweite maschinelle Lernsystem beispielsweise das Bayes'sche rekurrente neuronale Netz (20), können die internen Zustände der LSTM (r1,r2) beispielsweise mit dem Wert Null initialisiert werden.After the second machine learning system ( 12th ) has been learned, step follows 3100 . In this step the second machine learning system is initialized. For example, if the second machine learning system is the Bayesian recurrent neural network ( 20th ), the internal states of the LSTM (r1, r2) can be initialized with the value zero, for example.

Im nachfolgenden Schritt 3200 wird eine Parametrisierung θ des Anlernverfahren gewählt und das erste maschinelle Lernsystem (10) mittels dieses Anlernverfahrens angelernt. Abhängig von einem Wert y_t-1 der Kostenfunktion kann dann mittels des zweiten maschinellen Lernsystems (12) ein Wert y_t der Kostenfunktion vorhergesagt werden, (wie gezeigt in 2). Alternativ können die Werte y eine Leistungsfähigkeit des ersten maschinellen Lernsystems (10) charakterisieren.In the next step 3200 a parameterization θ of the learning process is selected and the first machine learning system ( 10 ) learned using this learning process. Depending on a value y _{t-1 of} the cost function, the second machine learning system ( 12th ) a value y _{t of} the cost function can be predicted (as shown in 2 ). Alternatively, the values y can represent a performance of the first machine learning system ( 10 ) characterize.

Alternativ kann in Schritt 3200 der erste Wert y₀ der Kostenfunktion initial auf den Wert 0 gesetzt werden. Denkbar ist, dass bis dahin das erste maschinelle Lernsystem (10) noch nicht angelernt wurde.Alternatively, in step 3200 the first value y _{0 of} the cost function is initially set to the value 0 be set. It is conceivable that by then the first machine learning system ( 10 ) has not yet been learned.

In dem nachfolgenden Schritt 3300 wird der Wert y_t-1 oder der erste Wert y₀ = 0 durch das zweite maschinelle Lernsystem (12) verarbeitet. Das zweite maschinelle Lernsystem (12) gibt dann den Wert y_t aus.In the next step 3300 the value y _t-1 or the first value y ₀ = 0 is determined by the second machine learning system ( 12th ) processed. The second machine learning system ( 12th ) then outputs the value y _t .

Optional wird der nachfolgende Schritt 3400 ausgeführt. Hierin wird abhängig von dem vorhergesagten Wert y_t der Kostenfunktion aus Schritt 3300 ein weiterer Wert y_t+1 der Kostenfunktion vorhergesagt. Dieser Schritt 3400 kann mehrmals hintereinander ausgeführt werden, bis eine Sequenz y_t,..., y_t+X von vorhergesagten Werten der Kostenfunktion ermittelt wurde.The following step is optional 3400 executed. The cost function from step is here dependent on the predicted value y _t 3300 another value y _{t + 1 of} the cost function predicted. This step 3400 can be executed several times in a row until a sequence y _t , ..., y _{t + X} of predicted values of the cost function has been determined.

Im darauffolgenden Schritt 3500 wird abhängig von den vorhergesagten Werten nach Schritt 3400 oder abhängig von dem vorhergesagten Wert nach Schritt 3300 entschieden, ob die Parametrisierung θ weiter verwendet wird, um das erste maschinelle Lernsystem (10) anzulernen, oder ob eine andere Parametrisierung θ* gewählt werden soll. Beispielsweise kann die andere Parametrisierung θ* zufällig aus einem vorgebbaren Wertebereich gezogen werden. Denkbar ist dann, dass erneut Schritt 3200 mit der neu gewählten Parametrisierung θ* ausgeführt wird, um zu prüfen, ob die neu gewählte Parametrisierung θ* besser geeigenet ist.In the next step 3500 becomes dependent on the predicted values after step 3400 or depending on the predicted value after step 3300 decided whether the parameterization θ will continue to be used to create the first machine learning system ( 10 ) or whether another parameterization θ * should be selected. For example, the other parameterization θ * can be drawn at random from a predefinable range of values. It is then conceivable that step again 3200 is carried out with the newly selected parameterization θ * in order to check whether the newly selected parameterization θ * is better suited.

Nachdem Schritt 3500 abgeschlossen wurde, folgt Schritt 3600. In diesem Schritt wird das Anlernverfahren mit der Parametrisierung θ initialisiert und das erste maschinelle Lernsystem (10) anhand dieses initialisierten Anlernverfahrens angelernt.After step 3500 is completed, step follows 3600 . In this step, the learning process is initialized with the parameterization θ and the first machine learning system ( 10 ) learned using this initialized learning process.

Nachdem Schritt 3600 abgeschlossen wurde, kann Schritt 3700 folgen. In diesem Schritt wird das angelernte erste maschinelle Lernsystem (10) für ein technisches System, wie zum Beispiel ein zumindest teilautonomer Roboter, verwendet.After step 3600 completed, can step 3700 consequences. In this step, the first learned machine learning system ( 10 ) for a technical system, such as an at least partially autonomous robot.

In einer alternativen Ausführungsform des Verfahrens (30) kann das zweite maschinelle Lernsystem (12) verwendet werden, um abhängig von einer Mehrzahl bereitgestellter unterschiedlicher Parametrisierungen θ und für jede der Parametrisierung mit dem intial gewählten Wert der Kostenfunktion gleich null mehere Rollouts auszuführen. Abhängig von demjenigen Rollout, welches die geeignetste Lernkurve vorhersagt, wird dann die dafür verwendete Parametrisierung ausgewählt und daraufhin zum Anlernen des ersten maschinellen Lernsystems (10) verwendet.In an alternative embodiment of the method ( 30th ) the second machine learning system ( 12th ) are used in order to execute several rollouts depending on a plurality of different parameterizations θ provided and for each of the parameterizations with the initially selected value of the cost function equal to zero. Depending on the rollout that predicts the most suitable learning curve, the parameterization used for this is then selected and then used to train the first machine learning system ( 10 ) is used.

Der zumindest teilautonome Roboter kann durch ein zumindest teilautonomes Fahrzeug gegeben sein. In einem weiteren Ausführungsbeispiel kann der zumindest teilautonome Roboter ein Service-, Montage- oder stationärer Produktionsroboter, alternativ ein autonomes Flugobjekt, wie eine Drohne, sein.The at least partially autonomous robot can be an at least partially autonomous vehicle. In a further exemplary embodiment, the at least partially autonomous robot can be a service, assembly or stationary production robot, alternatively an autonomous flying object such as a drone.

Das zumindest teilautonome Fahrzeug kann eine Erfassungseinheit umfassen. Die Erfassungseinheit kann zum Beispiel eine Kamera sein, welche eine Umgebung des Fahrzeugs erfasst. Die Erfassungseinheit kann mit dem ersten maschinellen Lernsystem (10) verbunden sein. Das erste maschinelle Lernsystem (10) ermittelt abhängig von einer bereitgestellten Eingangsgröße, z.B. bereitgestellt von der Erfassungseinheit, und in Abhängigkeit einer Mehrzahl von Parametern des ersten maschinellen Lernsystem eine Ausgangsgröße. Die Ausgangsgröße kann an eine Steuerungseinheit weitergeleitet werden.The at least partially autonomous vehicle can comprise a detection unit. The detection unit can be, for example, a camera that detects the surroundings of the vehicle. The registration unit can use the first machine learning system ( 10 ) be connected. The first machine learning system ( 10 ) determines an output variable as a function of a provided input variable, for example provided by the acquisition unit, and as a function of a plurality of parameters of the first machine learning system. The output variable can be forwarded to a control unit.

Die Steuerungseinheit steuert in Abhängigkeit der Ausgangsgröße des maschinellen Lernsystem einen Aktor, vorzugsweise steuert diese den Aktor derart, dass das Fahrzeug ein kollisionsfreies Manöver ausführt. Im ersten Ausführungsbeispiel kann der Aktor ein Motor oder ein Bremssystem des Fahrzeugs sein. In einem weiteren Ausführungsbeispiel kann der teilautonome Roboter ein Werkzeug, eine Werkmaschine oder ein Fertigungsroboter sein. Ein Material eines Werkstückes kann mittels des ersten maschinellen Lernsystem klassifiziert werden. Der Aktor kann hierbei z.B. ein Motor, der einen Schleifkopf betreibt, sein.The control unit controls an actuator as a function of the output variable of the machine learning system; it preferably controls the actuator in such a way that the vehicle executes a collision-free maneuver. In the first exemplary embodiment, the actuator can be a motor or a braking system of the vehicle. In a further exemplary embodiment, the partially autonomous robot can be a tool, a machine tool or a production robot. A material of a workpiece can be classified using the first machine learning system. The actuator can e.g. a motor that drives a grinding head.

4 zeigt eine schematische Darstellung der Vorrichtung (11) zum Anlernen des ersten maschinellen Lernsystems (10), insbesondere zum Ausführen der Schritte zum Anlernen des maschinellen Lernsystems (12) nachdem die Parametrisierung θ des Anlernverfahrens initialisiert oder angepasst wurde. Die Vorrichtung (40) umfasst ein Trainingsmodul (41), welches die Trainingsdaten (Bilder und zugeordnete Label y_s) enthält. Zweckgemäß können neben Bildern auch Tonsequenzen, Textausschnitte, Radar-, Lidar- oder Ultraschall-signale verwendet werden, die jeweils gelabelt sind. Abhängig von der ermittelten Ausgangsgröße y des ersten maschinellen Lernsystems (10) und den Labeln y_s ermittelt ein Differenzmodul (42) eine Differenz, die an ein Anpassungsmodul (43) weitergeleitet wird. Das Anpassungsmodul (43) ermittelt abhängig von der Differenz eine Änderung ϕ' der Parameter ϕ des ersten maschinellen Lernsystems (10), die in einem Speicher P hinterlegt sind, und abhängig von der Änderung ϕ' angepasst werden. 4th shows a schematic representation of the device ( 11 ) to learn the first machine learning system ( 10 ), especially to carry out the steps for teaching the machine learning system ( 12th ) after the parameterization θ of the teach-in process has been initialized or adapted. The device ( 40 ) includes a training module ( 41 ), which contains the training data (images and assigned labels y _s ). Appropriately, in addition to images, sound sequences, text excerpts, radar, lidar or ultrasonic signals can be used, which are each labeled. Depending on the determined output variable y of the first machine learning system ( 10 ) and the labels y _s determine a differential module ( 42 ) a difference that is transferred to an adaptation module ( 43 ) is forwarded. The adaptation module ( 43 ) determines, depending on the difference, a change ϕ 'in the parameters ϕ of the first machine learning system ( 10 ), which are stored in a memory P, and are adapted depending on the change ϕ '.

Die Vorrichtung kann eine Recheneinheit (44) und ein Speicherelement (45) umfassen.The device can have a computing unit ( 44 ) and a storage element ( 45 ) include.

Claims

Method (30) for predicting a learning curve (13) of an iterative learning method of a first machine learning system (10), the learning curve (13) comprising a plurality, in particular sequential time series, of values, the values of the learning curve (13) each having an iteration step of the iterative learning process are assigned and the values of the learning curve (13) each correspond to a value of a cost function of the respective iterative step of the iterative learning process or each a performance of the first machine learning system (10) on training data after executing the respective iterative step of the iterative Characterize the learning method, the iterative learning method being used to train the first machine learning system (10) and being parameterized by a hyperparameter θ, comprising the steps of: obtaining a value of the hyperparameter θ and at least one value (y _t-1 ) of the learning curve (13 ), the after at least one previously executed iteration step of the learning method was determined; and predictions, by means of a second machine learning system (12), depending on the value of the hyper parameter θ and depending on the at least one value (y _t-1 ) of the learning curve (13) of the, in particular immediately, subsequent value (y _t ) of the learning curve (13); and depending on the predicted value (y _t ) of the learning curve (13), deciding whether the value of the hyper parameter θ of the iterative learning process is maintained.

Procedure according to Claim 1 , wherein the second machine learning system (12) is a random forest, the random forest depending on a plurality of values (y _t-1 , ..., y _tK-1 ) of the learning curve (13) the following value (y _t ) predicts the learning curve (13).

Procedure according to Claim 1 , wherein the second machine learning system is a Bayesian recurrent neural network (20).

Procedure according to Claim 3 , the Bayesian recurrent neural network (20) comprising a plurality of LSTMs (22) which are connected to one another in a predetermined sequence, the LSTMs (22) each determining their output variable depending on an input variable and their output variable determining their subsequent LSTM as an input variable, the input variable of the first LSTM of the plurality of LSTM being the at least one value of the learning curve (13).

Procedure according to Claim 4 , the value of the hyper parameter θ being processed in each case by means of a plurality of fully connected neural networks (21, fully connected neural networks) and the processed value of the hyper parameter being additionally provided as an input variable to one of the LSTMs.

Procedure according to Claim 5 , the processed value of the hyperparameters being weighted as a function of a randomly drawn variable, in particular from a Bernoulli distribution.

Method according to one of the Claims 3 to 6th , the majority of the LSTM (22) of the Bayesian recurrent neural network (20) being initialized and the learning curve (13) initialized with a first predeterminable value, in particular equal to zero (y ₀ = 0), before the iterative learning method is used and wherein the second machine learning system (12) predicts its, in particular, subsequent value of the learning curve (13) depending on the value of the hyper parameter (θ) and depending on the first value (y ₀ = 0) of the learning curve (13).

Method according to one of the preceding claims, wherein if the second machine learning system (12) has predicted the subsequent value of the learning curve (13), the second machine learning system (12) uses the predicted value of the learning curve (13) as the preceding value of the learning curve ( 13), and this step is repeated several times until a predeterminable plurality of values of the learning curve (13) has been predicted.

Method according to one of the preceding claims, wherein the iterative teaching method for teaching the first machine learning system is carried out, in particular continued, as a function of the prediction of the learning curve (13).

Procedure according to Claim 9 , wherein the steps of the method are each carried out for a plurality of different values of the hyperparameters, and wherein the training method for teaching the first machine learning system is parameterized depending on the predictions.

Method according to one of the preceding claims, wherein the second machine learning system is trained as a function of a plurality of training data, the training data being a plurality of sequences (y ₁ , ..., y _N ) of the values of further learning curves and one associated with each sequence Include the value of the hyperparameters (θ ₁ , ..., θ _N ), with the further learning curves being recorded when training machine learning systems for different tasks.

Procedure according to Claim 11 wherein the training data comprises a sequence of the values of the learning curve (13) of the learning of the first machine learning system (10).

Computer program which comprises instructions which, when these instructions are carried out by means of a computer, cause the computer to carry out the method according to one of the preceding claims.

Machine-readable storage medium (45) on which the computer program is based Claim 13 is stored.

Apparatus (44) which is set up, the method according to any one of the preceding Claims 1 to 12th execute.