DE112020005610T5

DE112020005610T5 - Identifizieren von optimalen gewichtungen zum verbessern einervorhersagegenauigkeit bei methoden für maschinelles lernen

Info

Publication number: DE112020005610T5
Application number: DE112020005610.4T
Authority: DE
Inventors: Jing Xu; Si Er Han; George Barbee Steven; Xue Ying ZHANG; Ji Hui Yang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-14
Filing date: 2020-11-10
Publication date: 2022-09-01
Also published as: WO2021094923A1; US20220292401A1; JP2023501257A; AU2020385049A1; AU2020385049B2; GB202207662D0; US11443235B2; JP7471408B2; KR20220066163A; US20210150407A1; GB2603445A; CN114616577A

Abstract

Bereitgestellt werden ein computerrealisiertes Verfahren, System und Computerprogrammprodukt zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden. Ein Lehrer-Modell wird erzeugt, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Das aktuelle Schüler-Modell wird daraufhin unter Verwendung von Trainingsdaten und der Gewichtungen trainiert, die durch das Lehrer-Modell erzeugt werden. Nach dem Trainieren des aktuellen Schüler-Modells erzeugt das aktuelle Schüler-Modell Zustandsmerkmale, die durch das Lehrer-Modell verwendet werden, um neue Gewichtungen zu erzeugen. Daraufhin wird ein Kandidaten-Schüler-Modell unter Verwendung von Trainingsdaten und dieser neuen Gewichtungen trainiert. Eine Belohnung wird durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung von Trainings- und Testdaten erzeugt, die zum Aktualisieren des Lehrer-Modells verwendet werden, wenn eine Abbruchregel nicht erfüllt wurde. Nachdem eine Abbruchregel erfüllt wird, werden die durch das Lehrer-Modell erzeugten Gewichtungen als die „optimalen“ Gewichtungen betrachtet, die an den Benutzer zurückgegeben werden.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich im Allgemeinen auf eine prädiktive Modellierung und im Besonderen auf ein Identifizieren von optimalen Gewichtungen, um eine Vorhersagegenauigkeit bei Methoden für maschinelles Lernen (ML) zu verbessern.
HINTERGRUND
Prädiktive Modellierung verwendet Statistiken, um Ergebnisse vorherzusagen. Auch wenn das Ereignis, das vorhergesagt werden soll, im Normalfall in der Zukunft liegt, kann prädiktive Modellierung auf jede Art von unbekanntem Ereignis angewendet werden, unabhängig davon, wann dieses stattgefunden hat. Prädiktive Modelle werden zum Beispiel häufig verwendet, um Ereignisse zu erkennen und mit Ereignissen in Zusammenhang stehende Personen zu identifizieren, nachdem die Ereignisse stattgefunden haben.
In vielen Fällen wird das Modell auf Grundlage einer Erkennungstheorie ausgewählt, um zu versuchen, die Wahrscheinlichkeit eines Ereignisses bei einer festgelegten Menge von Eingabedaten abzuschätzen, zum Beispiel bei einer eMail zu ermitteln, wie wahrscheinlich es ist, dass es sich um Spam handelt.
Modelle können einen oder mehrere Klassifikatoren verwenden, um zu versuchen, die Wahrscheinlichkeit zu ermitteln, dass ein Satz von Daten zu einem weiteren Satz gehört. Zum Beispiel kann ein Modell verwendet werden, um zu ermitteln, ob es sich bei einer eMail um Spam oder „Ham“ („Non-Spam“) handelt.
Abhängig von den Definitionsgrenzen ist die prädiktive Modellierung gleichbedeutend mit dem Bereich des maschinellen Lernens, wie sie im Kontext von Wissenschaft oder Forschung und Entwicklung häufiger bezeichnet wird, bzw. überschneidet sich weitgehend mit diesem. Bei einer kommerziellen Bereitstellung wird die prädiktive Modellierung oft als prädiktive Analyse bezeichnet.
Die Erreichung besserer prädiktiver Modelle ist ein Ziel der Forschung und Praxis von ML-Methoden. Zum Beispiel verwenden Ensemble-Verfahren mehrere Lernalgorithmen, um eine bessere prädiktive Leistung zu erhalten, als sie von einem der betreffenden Lernalgorithmen alleine zu erhalten wäre. Solche Ensemble-Verfahren enthalten eine (auch als Bagging bezeichnete) Bootstrap-Aggregation, ein Boosting usw.
Bei der Bootstrap-Aggregation handelt es sich um einen Ensemble-Meta-Algorithmus für maschinelles Lernen, der konzipiert ist, um die Stabilität und Genauigkeit von ML-Algorithmen zu verbessern, die bei der statistischen Klassifizierung und Regression verwendet werden. Boosting ist ein Ensemble-Meta-Algorithmus für maschinelles Lernen, der in erster Linie eine Verzerrung sowie eine Varianz bei überwachtem Lernen verringert, sowie eine Familie von ML-Algorithmen, die schwache Klassifikatoren (Weak Learner) in starke umwandeln.
Bei solchen Methoden, wie beispielsweise beim Boosting, werden die Gewichtungen von falsch klassifizierten Fällen erhöht, während die Gewichtungen von korrekt klassifizierten Fällen während des Modellierungsprozesses verringert werden. Eine solche (heuristische) Strategie erzielt in vielen Fällen bessere Vorhersagen; allerdings besteht die Möglichkeit eines übermäßigen Anpassens von Ausreißern/Rauschen. Ein übermäßiges Anpassen von Ausreißern/Rauschen führt zu einer geringeren Vorhersagegenauigkeit.
Somit ist die heuristische Strategie eines Erhöhens der Gewichtungen von falsch klassifizierten Fällen und eines Verringerns der Gewichtungen von korrekt klassifizierten Fällen unter Umständen nicht die beste Strategie, um die Vorhersagegenauigkeit des Modells zu verbessern.
Mitunter kann es zum Beispiel besser sein, die Gewichtungen von korrekt klassifizierten Fällen zu erhöhen, da solche Fälle sehr wichtige Muster enthalten, die durch den ML-Algorithmus gelernt werden sollten. Aus ähnlichen Gründen kann es auch besser sein, die Gewichtungen von falsch klassifizierten Fällen wie z.B. Ausreißerfällen zu erhöhen.
Derlei Methoden, zu denen z.B. Boosting gehört, sind folglich nicht in der Lage, die optimalen Gewichtungen für die klassifizierten Fälle zu identifizieren, und sind daher auch nicht in der Lage, eine optimale Vorhersagegenauigkeit bei ML-Methoden zu erreichen.
KURZDARSTELLUNG
Bei einer Ausführungsform der vorliegenden Erfindung weist ein computerrealisiertes Verfahren zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden ein Erstellen eines Lehrer-Modells auf, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Das Verfahren weist des Weiteren ein Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen auf, die durch das Lehrer-Modell erzeugt werden. Das Verfahren weist zusätzlich ein Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell auf. Darüber hinaus weist das Verfahren ein Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale auf. Zusätzlich weist das Verfahren ein Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen auf. Zusätzlich weist das Verfahren ein Erzeugen einer Belohnung durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten auf, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser ist bzw. abschneidet. Das Verfahren weist des Weiteren ein Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf auf, dass eine Abbruchregel nicht erfüllt wird. Das Verfahren weist zusätzlich ein Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf auf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
Bei einer weiteren Ausführungsform der vorliegenden Erfindung wird ein Computerprogrammprodukt zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden bereitgestellt, wobei das Computerprogrammprodukt ein computerlesbares Speichermedium mit darauf enthaltenem Programmcode aufweist, wobei der Programmcode die Programmieranweisungen zum Erstellen eines Lehrer-Modells aufweist, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Der Programmcode weist des Weiteren die Programmieranweisungen zum Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen auf, die durch das Lehrer-Modell erzeugt werden. Der Programmcode weist zusätzlich die Programmieranweisungen zum Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell auf. Darüber hinaus weist der Programmcode die Programmieranweisungen zum Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale auf. Zusätzlich weist der Programmcode die Programmieranweisungen zum Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen auf. Zusätzlich weist der Programmcode die Programmieranweisungen zum Erzeugen einer Belohnung durch ein Vergleichen des aktuellen Schüler-Modell mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten auf, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser abschneidet. Der Programmcode weist des Weiteren die Programmieranweisungen zum Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf auf, dass eine Abbruchregel nicht erfüllt wird. Der Programmcode weist zusätzlich die Programmieranweisungen zum Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf auf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
Bei einer weiteren Ausführungsform der vorliegenden Erfindung weist ein System einen Arbeitsspeicher zum Speichern eines Computerprogramms zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden sowie einen mit dem Arbeitsspeicher verbundenen Prozessor auf, wobei der Prozessor konfiguriert wird, um die Programmanweisungen des Computerprogramms auszuführen, die ein Erstellen eines Lehrer-Modells aufweisen, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Die Programmanweisungen des Computerprogramms weisen des Weiteren ein Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen auf, die durch das Lehrer-Modell erzeugt werden. Die Programmanweisungen des Computerprogramms weisen zusätzlich ein Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell auf. Darüber hinaus weisen die Programmanweisungen des Computerprogramms ein Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale auf. Zusätzlich weisen die Programmanweisungen des Computerprogramms ein Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen auf. Zusätzlich weisen die Programmanweisungen des Computerprogramms ein Erzeugen einer Belohnung durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten auf, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser abschneidet. Die Programmanweisungen des Computerprogramms weisen des Weiteren ein Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf auf, dass eine Abbruchregel nicht erfüllt wird. Die Programmanweisungen des Computerprogramms weisen zusätzlich ein Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf auf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
Auf diese Weise entwirft die vorliegende Erfindung eine Rahmenstruktur, die das Konzept eines „Lehren Lernens“ auf dem Gebiet der prädiktiven Modellierung realisiert. Eine solche Rahmenstruktur enthält ein Lehrer-Modell, das eine Gewichtung für jeden Datenfall erzeugt. Die Trainingsdatenfälle werden zusammen mit den erzeugten Gewichtungen verwendet, um das Schüler-Modell neu zu trainieren. Eine Belohnung wird zurückgegeben, indem das trainierte Schüler-Modell anhand eines Vorlagedatensatzes (Testdaten) mit Blick auf die Vorhersagegenauigkeit evaluiert wird. Das Lehrer-Modell verwendet dann die Belohnung, um seine Parameter anhand von Richtlinien-Gradientenverfahren wie z.B. einem bestärkenden Lernen zu aktualisieren. Ein solcher Prozess wird wiederholt, bis das Schüler-Modell die gewünschte Leistung erreicht.
Verglichen mit früher verwendeten heuristischen Verfahren (z.B. Boosting), ermittelt der Ansatz der vorliegenden Erfindung Fallgewichtungen auf eine optimale Art und Weise. Dies ermöglicht die Erstellung eines besseren Schüler-Modells anhand von grundlegenden Klassifikatoren, wie z.B. einem Entscheidungsbaum, einem neuronalen Netzwerk usw., anstatt der Verwendung eines Ensemble-Modells.
Indem Fallgewichtungen als Aktionen für das Schüler-Modell verwendet werden, kann jede Art von maschinellem Klassifikator als das Schüler-Modell verwendet werden, da der Klassifikator beim Trainieren Fallgewichtungen unterstützt.
Darüber hinaus können die Verteilungen der Datenfälle in den Trainingsdaten durch die erzeugten Gewichtungen korrigiert werden, falls die Trainingsdaten aus einer verzerrten Stichprobennahme stammen sollten.
Die obigen Ausführungen haben die Merkmale und technischen Vorteile einer oder mehrerer Ausführungsformen der vorliegenden Erfindung in einer eher allgemeinen Form dargelegt, um ein besseres Verständnis der folgenden ausführlichen Beschreibung der vorliegenden Erfindung zu ermöglichen. Im Folgenden werden zusätzliche Merkmale und Vorteile der vorliegenden Erfindung beschrieben, die den Gegenstand der Ansprüche der vorliegenden Erfindung bilden können.
Figurenliste
Ein besseres Verständnis der vorliegenden Erfindung kann erlangt werden, wenn die folgende ausführliche Beschreibung in Verbindung mit den folgenden Zeichnungen betrachtet wird, bei denen:

1 ein Datenübertragungssystem zum praktischen Umsetzen der Grundsätze der vorliegenden Erfindung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
2 eine Ausführungsform der vorliegenden Erfindung der Hardware-Konfiguration eines prädiktiven Analysesystems veranschaulicht, die repräsentativ für eine Hardware-Umgebung zum praktischen Umsetzen der vorliegenden Erfindung ist;
3 eine Darstellung der Software-Komponenten des prädiktiven Analysesystems ist, die zum Identifizieren der optimalen Gewichtungen verwendet werden, die durch das prädiktive Modell zum Erzeugen von Vorhersagen gemäß einer Ausführungsform der vorliegenden Erfindung verwendet werden sollen;
4 die Zustandsmerkmale veranschaulicht, die durch das Schüler-Modell gemäß einer Ausführungsform der vorliegenden Erfindung erzeugt werden;
5 die Belohnungen veranschaulicht, die durch den Belohnungserzeuger gemäß einer Ausführungsform der vorliegenden Erfindung erzeugt werden; und
6 ein Ablaufplan eines Verfahrens zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden gemäß einer Ausführungsform der vorliegenden Erfindung ist.

AUSFÜHRLICHE BESCHREIBUNG
Die vorliegende Erfindung weist ein computerrealisiertes Verfahren, System und Computerprogrammprodukt zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden auf. Bei einer Ausführungsform der vorliegenden Erfindung wird ein Lehrer-Modell erzeugt, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Ein „Lehrer-Modell“, wie es hierin verwendet wird, bezeichnet ein Statistikmodell, das den geeigneten Daten-, Verlustfunktion- und Hypothesenraum ermittelt, um das Lernen des Schüler-Modells zu ermöglichen. Das aktuelle Schüler-Modell wird dann unter Verwendung von Trainingsdaten und der Gewichtungen trainiert, die durch das Lehrer-Modell erzeugt werden. Ein „Schüler-Modell“, wie es hierin verwendet wird, bezeichnet ein Statistikmodell, das trainiert wird, um unter Verwendung von Trainingsdaten eine Vorhersage bereitzustellen. Ein „aktuelles“ Schüler-Modell, wie es hierin verwendet wird, bezeichnet ein Schüler-Modell, das aktuell trainiert wird, um unter Verwendung von Trainingsdaten eine Vorhersage bereitzustellen. Das aktuelle Schüler-Modell erzeugt Zustandsmerkmale (z.B. Datenmerkmale, Fallgewichtungen, Schüler-Modell-Merkmale und Merkmale, die für die Kombination aus den Daten und dem Schüler-Modell stehen), die durch das Lehrer-Modell verwendet werden, um neue Gewichtungen zu erzeugen. Danach wird ein Kandidaten-Schüler-Modell unter Verwendung von Trainingsdaten und dieser neuen Gewichtungen trainiert. Ein „Kandidaten-Schüler-Modell“, wie es hierin verwendet wird, bezeichnet ein Schüler-Modell, das daraufhin untersucht wird, ob es ein besseres Schüler-Modell (besser beim Vorhersagen des beobachteten Ziels) als das aktuelle Schüler-Modell ist. Danach wird eine Belohnung durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung von Trainingsdaten und Testdaten erzeugt, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser abschneidet. Eine „Belohnung“, wie sie hierin verwendet wird, bezeichnet einen Wert, der durch eine Funktion (Belohnungsfunktion) erzeugt wird, die beim bestärkenden Lernen verwendet wird. Eine positive Belohnung kann zurückgegeben werden, wenn das Kandidaten-Schüler-Modell beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell abschneidet. Umgekehrt kann eine negative Belohnung zurückgegeben werden, wenn das aktuelle Schüler-Modell beim Vorhersagen des beobachteten Ziels besser als das Kandidaten-Schüler-Modell abschneidet. Das Lehrer-Modell wird daraufhin mit der Belohnung aktualisiert. Das Lehrer-Modell verwendet die Belohnungen, um seine Parameter anhand von Richtlinien-Gradientenverfahren wie z.B. einem bestärkenden Lernen zu aktualisieren. Wenn das Kandidaten-Schüler-Modell beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell abschneidet, wird das aktuelle Schüler-Modell mit dem Kandidaten-Schüler-Modell aktualisiert, und die aktuellen Gewichtungen werden mit den neuen Gewichtungen aktualisiert, die durch das Lehrer-Modell erzeugt werden. Nach dem Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen erzeugt das aktuelle Schüler-Modell neue Zustandsmerkmale. Wenn jedoch das Kandidaten-Schüler-Modell beim Vorhersagen des beobachteten Ziels nicht besser als das aktuelle Schüler-Modell abschneidet, erzeugt das aktualisierte Lehrer-Modell neue Gewichtungen unter Verwendung der aktuellen Gewichtungen und der aktuellen Schüler-Merkmale von dem aktuellen Schüler-Modell. Nachdem eine beliebige der Abbruchregeln erfüllt wird (z.B. Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung), werden die durch das Lehrer-Modell erzeugten Gewichtungen als die „optimalen“ Gewichtungen betrachtet, die zusammen mit dem entsprechenden Schüler-Modell an den Benutzer zurückgegeben werden. Auf diese Weise werden optimale Gewichtungen identifiziert, um eine Vorhersagegenauigkeit zu verbessern.
In der folgenden Beschreibung werden zahlreiche spezifische Einzelheiten dargelegt, um ein gründliches Verständnis der verschiedenen Ausführungsformen bereitzustellen. Dem Fachmann dürfte jedoch klar sein, dass die vorliegende Erfindung auch ohne solche spezifischen Einzelheiten realisiert werden kann. In anderen Fällen wurden hinlänglich bekannte Schaltkreise in Gestalt eines Blockschaubilds gezeigt, um die vorliegende Erfindung nicht durch unnötige Einzelheiten unklar zu machen. Auf Einzelheiten zu zeitlichen Überlegungen und dergleichen wurde größtenteils verzichtet, da solche Einzelheiten nicht notwendig sind, um zu einem vollständigen Verständnis der vorliegenden Erfindung zu gelangen, und da sie innerhalb der Fähigkeiten eines Fachmanns für die relevante Technik liegen.
Unter ausführlicher Bezugnahme auf die Figuren veranschaulicht 1 ein Datenübertragungssystem 100 zum Treffen von Vorhersagen unter Verwendung von ML-Methoden. Bei einer Ausführungsform enthält das System 100 ein prädiktives Analysesystem 101 zum Erzeugen von Vorhersagen 102 unter Verwendung von Daten wie z.B. Trainingsdaten 103 und Testdaten 104 (hierin auch als „Vorlagedaten“ bezeichnet). Eine weitere Beschreibung des prädiktiven Analysesystems 101, das die Trainings- und Testdaten 103, 104 verwendet, um Vorhersagen zu treffen, wird weiter unten in Verbindung mit den 3 bis 6 erörtert.
Bei einer Ausführungsform trifft das prädiktive Analysesystem 101 Vorhersagen zu unbekannten, künftigen Ereignissen unter Verwendung vieler Methoden aus Data Mining, Statistik, Modellierung, maschinellem Lernen und künstlicher Intelligenz, um aktuelle Daten zu analysieren und Vorhersagen über die Zukunft zu treffen.
Bei einer Ausführungsform verwendet das prädiktive Analysesystem 101 das Konzept des „Lehren Lernens“, das zwei intelligente Agenten einbezieht, ein Lehrer-Modell und ein Schüler-Modell. Die Trainingsphase enthält mehrere Episoden von aufeinanderfolgenden Interaktionen zwischen dem Lehrer-Modell und dem Schüler-Modell. Auf Grundlage der durch das Schüler-Modell erzeugten Zustandsinformationen aktualisiert das Lehrer-Modell seine Lehraktionen, um dadurch die ML-Problemstellung des Schüler-Modells zu verfeinern. Das Schüler-Modell führt dann seinen Lernprozess auf Grundlage der Eingaben von dem Lehrer-Modell durch und stellt danach dem Lehrer-Modell wiederum Belohnungssignale (z.B. die Genauigkeit der Trainingsdaten) bereit. Das Lehrer-Modell verwendet dann solche Belohnungen, um seine Parameter anhand von Richtlinien-Gradientenverfahren zu aktualisieren, bei denen es sich um eine Art einer bestärkenden Lernmethode handelt. Dieser interaktive Prozess ist durchgängig trainierbar und weist nicht die Beschränkungen einer von Menschen definierten Heuristik auf. Bei einer Ausführungsform wird das Konzept eines „Lehren Lernens“ realisiert, indem ein Ansatz entworfen wird, der die Gewichtungen von Fällen (Datenfällen) als Aktionen für das Schüler-Modell verwendet. Eine Beschreibung der Hardware-Konfiguration des prädiktive Analysesystems 101 wird im Folgenden in Verbindung mit 2 bereitgestellt.
Unter Bezugnahme auf 2 veranschaulicht 2 eine Ausführungsform der vorliegenden Erfindung der Hardware-Konfiguration eines prädiktiven Analysesystems 101 (1), die repräsentativ für eine Hardware-Umgebung zum praktischen Umsetzen der vorliegenden Erfindung ist. Das prädiktive Analysesystem 101 kann eine beliebige Art von Analysesystem sein (z.B. eine tragbare Datenverarbeitungseinheit, ein persönlicher digitaler Assistent (PDA), ein Laptop Computer, eine mobile Einheit, ein Tablet Personal Computer, ein Smartphone, ein Mobiltelefon, eine Navigationseinheit, ein Desktop Computer System, eine Arbeitsstation, ein Internet-Gerät und dergleichen), das mit der Fähigkeit eines Identifizierens von optimalen Gewichtungen konfiguriert wird, um eine Vorhersagegenauigkeit bei ML-Methoden zu verbessern.
Unter Bezugnahme auf 2 kann das prädiktive Analysesystem 101 einen Prozessor 201 haben, der durch einen Systembus 202 mit verschiedenen anderen Komponenten verbunden wird. Ein Betriebssystem 203 kann in dem Prozessor 201 ausgeführt werden und eine Steuerung bereitstellen sowie die Funktionen der verschiedenen Komponenten aus 2 koordinieren. Eine Anwendung 204 gemäß den Grundsätzen der vorliegenden Erfindung kann gemeinsam mit dem Betriebssystem 203 ausgeführt werden und Aufrufe an das Betriebssystem 203 bereitstellen, wobei die Aufrufe die verschiedenen Funktionen oder Dienste realisieren, die durch die Anwendung 204 durchgeführt werden sollen. Die Anwendung 204 kann zum Beispiel ein Programm zum Identifizieren von optimalen Gewichtungen enthalten, um eine Vorhersagegenauigkeit bei ML-Methoden zu verbessern, wie dies weiter unten in Verbindung mit den 3 bis 6 dargelegt wird.
Unter erneuter Bezugnahme auf 2 kann ein Nur-Lese-Speicher (Read-Only Memory, ROM) 205 mit dem Systembus 202 verbunden werden und ein Basic Input/Output System (BIOS) enthalten, das bestimmte grundlegende Funktionen des prädiktiven Analysesystems 101 steuert. Ein Direktzugriffsspeicher (Random Access Memory, RAM) 206 und ein Plattenadapter 207 können ebenfalls mit dem Systembus 202 verbunden werden. Erwähnt werden sollte, dass Software-Komponenten wie beispielsweise das Betriebssystem 203 und die Anwendung 204 in den RAM 206 geladen werden können, der der Hauptarbeitsspeicher des prädiktiven Analysesystems 101 für eine Ausführung sein kann. Der Plattenadapter 207 kann ein IDE-Adapter (Integrated Drive Electronics) sein, der mit einer Platteneinheit 208 wie z.B. einem Plattenlaufwerk Daten austauscht. Es wird darauf verwiesen, dass sich das Programm zum Identifizieren von optimalen Gewichtungen zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden, wie es weiter unten in Bezug auf die 3 bis 6 dargelegt wird, in der Platteneinheit 208 oder in der Anwendung 204 befinden kann.
Das prädiktive Analysesystem 101 kann des Weiteren einen Datenübertragungsadapter 209 enthalten, der mit dem Bus 202 verbunden wird. Der Datenübertragungsadapter 209 kann den Bus 202 mit einem externen Netzwerk verbinden und somit dem prädiktiven Analysesystem 101 gestatten, mit anderen Einheiten Daten auszutauschen.
E/A-Einheiten können über einen Benutzerschnittstellen-Adapter 210 und einen Anzeigeadapter 211 ebenfalls mit dem prädiktiven Analysesystem 101 verbunden werden. Eine Tastatur 211, eine Maus 213 und ein Lautsprecher 214 können jeweils über den Benutzerschnittstellen-Adapter 210 mit dem Bus 202 verbunden werden. Ein Anzeigebildschirm 215 kann über den Anzeigeadapter 211 mit dem Systembus 202 verbunden werden. Auf diese Weise ist ein Benutzer in der Lage, über die Tastatur 212 oder die Maus 213 Eingaben in das prädiktive Analysesystem 101 vorzunehmen und über die Anzeige 215 oder den Lautsprecher 214 Ausgaben von dem prädiktiven Analysesystem 101 zu empfangen. Auch andere, in 2 nicht gezeigte Eingabemechanismen können verwendet werden, um Eingaben in das prädiktive Analysesystem 101 vorzunehmen, z.B. in Gestalt der Anzeige 215 mit einer berührungsempfindlichen Bildschirmfähigkeit und der Tastatur 212 als virtuelle Tastatur. Das prädiktive Analysesystem 101 aus 2 ist hinsichtlich ihres Umfangs nicht auf die in 2 dargestellten Elemente beschränkt und kann weniger als die in 2 dargestellten Elemente oder zusätzliche Elemente enthalten.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen möglichen Grad an technischer Integration handeln. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder computerlesbare Speichermedien) mit darauf gespeicherten computerlesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem computerlesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Anweisungsausführungseinheit behalten und speichern kann. Bei dem computerlesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des computerlesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein RAM, ein ROM, ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD (Digital Versatile Disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert werden, und jede geeignete Kombination daraus. Ein computerlesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Lichtwellenleiterkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf jeweilige Datenverarbeitungs-/ Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk (Local Area Network, LAN), ein Weitverkehrsnetzwerk (Wide Area Network, WAN) und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/ Verarbeitungseinheit empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/ Verarbeitungseinheit weiter.
Bei computerlesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction Set Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandseinstellende Daten, Konfigurationsdaten für eine integrierte Schaltung oder sowohl um Quellcode als auch um Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden werden, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). Bei manchen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Arrays (Field-Programmable Gate Arrays, FPGA) oder programmierbare Logik-Arrays (Programmable Logic Arrays, PLA) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels computerlesbarer Programmanweisungen ausgeführt werden können.
Diese computerlesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block oder den Blöcken des Ablaufplans und/oder des Blockschaubilds festgelegten Funktionen/Schritte erzeugen. Diese computerlesbaren Programmanweisungen können auch auf einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das computerlesbare Speichermedium, auf dem Anweisungen gespeichert werden, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der bzw. des in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen computerrealisierten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion bzw. Funktionen aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zum Beispiel können zwei nacheinander gezeigte Blöcke in Wirklichkeit als ein Schritt erfolgen, gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, die die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Wie oben im Abschnitt „Hintergrund“ dargelegt, ist die Erreichung besserer prädiktiver Modelle ein Ziel der Forschung und Praxis von ML-Methoden. Zum Beispiel verwenden Ensemble-Verfahren mehrere Lernalgorithmen, um eine bessere prädiktive Leistung zu erhalten, als sie von einem der betreffenden Lernalgorithmen alleine zu erhalten wäre. Solche Ensemble-Verfahren enthalten eine (auch als Bagging bezeichnete) Bootstrap-Aggregation, ein Boosting usw. Bei der Bootstrap-Aggregation handelt es sich um einen Ensemble-Meta-Algorithmus für maschinelles Lernen, der konzipiert ist, um die Stabilität und Genauigkeit von ML-Algorithmen zu verbessern, die bei der statistischen Klassifizierung und Regression verwendet werden. Boosting ist ein Ensemble-Meta-Algorithmus für maschinelles Lernen, der in erster Linie eine Verzerrung sowie eine Varianz bei überwachtem Lernen verringert, sowie eine Familie von ML-Algorithmen, die schwache Klassifikatoren (Weak Learner) in starke umwandeln. Bei solchen Methoden, wie beispielsweise beim Boosting, werden die Gewichtungen von falsch klassifizierten Fällen erhöht, während die Gewichtungen von korrekt klassifizierten Fällen während des Modellierungsprozesses verringert werden. Eine solche (heuristische) Strategie erzielt in vielen Fällen bessere Vorhersagen; allerdings besteht die Möglichkeit eines übermäßigen Anpassens von Ausreißern/Rauschen. Ein übermäßiges Anpassen von Ausreißern/Rauschen führt zu einer geringeren Vorhersagegenauigkeit. Somit ist die heuristische Strategie eines Erhöhens der Gewichtungen von falsch klassifizierten Fällen und eines Verringerns der Gewichtungen von korrekt klassifizierten Fällen unter Umständen nicht die beste Strategie, um die Vorhersagegenauigkeit des Modells zu verbessern. Mitunter kann es zum Beispiel besser sein, die Gewichtungen von korrekt klassifizierten Fällen zu erhöhen, da solche Fälle sehr wichtige Muster enthalten, die durch den ML-Algorithmus gelernt werden sollten. Aus ähnlichen Gründen kann es auch besser sein, die Gewichtungen von falsch klassifizierten Fällen wie z.B. Ausreißerfällen zu erhöhen. Derlei Methoden, zu denen z.B. Boosting gehört, sind folglich nicht in der Lage, die optimalen Gewichtungen für die klassifizierten Fälle zu identifizieren, und sind daher auch nicht in der Lage, eine optimale Vorhersagegenauigkeit bei ML-Methoden zu erreichen.
Die Ausführungsformen der vorliegenden Erfindung stellen ein Mittel zum Erreichen einer optimalen Vorhersagegenauigkeit bei ML-Methoden bereit, indem die optimalen Gewichtungen unter Verwendung des Lehren-Lernen-Konzepts identifiziert werden, das zwei intelligente Agenten (ein Lehrer-Modell und ein Schüler-Modell) einbezieht, wie im Folgenden in Verbindung mit den 3 bis 6 dargelegt. 3 ist eine Darstellung der Software-Komponenten des prädiktiven Analysesystems 101, die zum Identifizieren der optimalen Gewichtungen verwendet werden, die durch das prädiktive Modell zum Erzeugen von Vorhersagen verwendet werden sollen. 4 veranschaulicht die Zustandsmerkmale, die durch das Schüler-Modell erzeugt werden. 5 veranschaulicht Belohnungen, die durch den Belohnungserzeuger erzeugt werden. 6 ist ein Ablaufplan eines Verfahrens zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden.
Bei Trainingsdaten {<X_k, f_k, y_k> | k = 1, ..., N}, wobei X_k ein Vektor von Prädiktoren für einen Fall k ist, y_k das beobachtete Ziel ist, und f_k eine optionale Fallgewichtung ist (mit f_k = 1, falls keine Fallgewichtung vorhanden ist), erzeugt die vorliegende Erfindung optimale Fallgewichtungen f_k^opt für jeden Fall k. Mit den optimalen Fallgewichtungen wird ein Schüler-Modell trainiert, um unter Verwendung des Vorlagedatensatzes genaue Vorhersagen bereitzustellen, wie weiter unten dargelegt wird.
Wie oben erwähnt, ist 3 eine Darstellung der Software-Komponenten des prädiktiven Analysesystems 101, die zum Identifizieren der optimalen Gewichtungen verwendet werden, die durch das prädiktive Modell zum Erzeugen von Vorhersagen gemäß einer Ausführungsform der vorliegenden Erfindung verwendet werden sollen. Bei einer Ausführungsform können sich diese Software-Komponenten in der Anwendung 204 (2) des prädiktiven Analysesystems 101 befinden.
Im Folgenden werden diese Software-Komponenten kurz beschrieben. Eine ausführlichere Beschreibung dieser Software-Komponenten (wie z.B. ihrer Funktionalitäten) wird weiter unten in Verbindung mit den 4 bis 6 bereitgestellt.
Unter Bezugnahme auf 3 und in Verbindung mit den 1 und 2 enthält das prädiktive Analysesystem 101 ein Modul, das hierin als das „Lehrer-Modell“ 301 bezeichnet wird. Bei einer Ausführungsform ist das Lehrer-Modell 301 ein neuronales Netzwerk, das konfiguriert wird, um Zustandsmerkmale als Eingaben zu empfangen und eine Gewichtung für jeden Datenfall zu erzeugen. Bei einer Ausführungsform werden die Gewichtungsparameter des neuronalen Netzwerks vor dem Trainingsprozess zufällig initialisiert.
Das prädiktive Analysesystem 101 enthält des Weiteren ein Modul, das hierin als das „aktuelle Schüler-Modell 302“ bezeichnet wird, das die durch das Lehrer-Modell 301 erzeugten Gewichtungen empfängt und Zustandsmerkmale erzeugt, wie sie in 4 gezeigt werden. Ein „Schüler-Modell“, wie es hierin verwendet wird, bezeichnet ein Statistikmodell, das trainiert wird, um unter Verwendung der Trainingsdaten 103 eine Vorhersage bereitzustellen. Ein „aktuelles“ Schüler-Modell 302, wie es hierin verwendet wird, bezeichnet ein Schüler-Modell, das aktuell durch das prädiktive Analysesystem 101 trainiert wird, um unter Verwendung der Trainingsdaten 103 eine Vorhersage bereitzustellen. Bei einer Ausführungsform entspricht das Schüler-Modell 302 einem Klassifikator wie z.B. einem Entscheidungsbaum oder einem neuronalen Netzwerk. Bei einer Ausführungsform verwendet ein Entscheidungsbaum-Lernen einen Entscheidungsbaum als ein prädiktives Modell, um von Beobachtungen zu einem Element (dargestellt durch die Zweige) zu Schlussfolgerungen über den Zielwert des Elements (dargestellt durch die Blätter) zu gelangen. Bei einer Ausführungsform ist ein neuronales Netzwerk ein Netzwerk oder ein Schaltkreis von Neuronen (künstliche Neuronen) oder Knoten.
4 veranschaulicht die Zustandsmerkmale, die durch das Schüler-Modell 302 gemäß einer Ausführungsform der vorliegenden Erfindung erzeugt werden.
Unter Bezugnahme auf 4 können solche Zustandsmerkmale Prädiktoren 401, ihre entsprechende Gewichtung 402 und ihren vorhergesagten Wert 403 enthalten. Bei einer Ausführungsform entspricht der Prädiktor 401 der Ergebnisvariablen, z.B. dem beobachteten Ziel. Die Gewichtung 402 entspricht der Gewichtung, die einem solchen Prädiktor zugewiesen und von dem Lehrer-Modell 301 erhalten wird. Bei einer Ausführungsform geben solche Gewichtungen 402 die Konfidenz an, dass der entsprechende vorhergesagte Wert 403 des Prädiktors 401 genau ist. Je höher der Wert, desto größer ist die Konfidenz, dass der entsprechende vorhergesagte Wert 403 korrekt ist.
Bei einer Ausführungsform können solche Zustandsmerkmale auch Datenmerkmale, Fallgewichtungen, Schüler-Modell-Merkmale und Merkmale enthalten, die für die Kombination aus den Daten und dem Schüler-Modell stehen.
Bei einer Ausführungsform können solche Zustandsmerkmale verwendet werden, indem das Modell 301 gelehrt wird, neue Gewichtungen zu erzeugen, die zum Trainieren eines Kandidaten-Schüler-Modells 303 verwendet werden. Ein „Kandidaten-Schüler-Modell 303“, wie es hierin verwendet wird, bezeichnet ein Schüler-Modell, das daraufhin untersucht wird, ob es ein besseres Schüler-Modell (besser beim Vorhersagen des beobachteten Ziels) als das aktuelle Schüler-Modell ist.
Bei einer Ausführungsform wird das Kandidaten-Schüler-Modell 303 trainiert, indem die Trainingsdaten 103 und die neuen Gewichtungen verwendet werden, die durch das Lehrer-Modell 301 erzeugt werden.
Wie in 3 veranschaulicht, erzeugt ein Modul, das hierin als der „Belohnungserzeuger 304“ bezeichnet wird, Belohnungen durch ein Vergleichen der aktuellen und Kandidaten-Schüler-Modelle 302, 303 unter Verwendung der Trainingsdaten 103 und der Testdaten 104 („Vorlagedaten“). Bei einer Ausführungsform wird das Lehrer-Modell 301 mit den Belohnungen aktualisiert. Bei einer Ausführungsform verwendet das Lehrer-Modell 301 die Belohnungen, um seine Parameter anhand von Richtlinien-Gradientenverfahren wie z.B. einem bestärkenden Lernen zu aktualisieren.
Eine „Belohnung“, wie sie hierin verwendet wird, bezeichnet einen Wert, der durch eine Funktion (Belohnungsfunktion) erzeugt wird, die beim bestärkenden Lernen verwendet wird. Das Ziel eines Agenten für bestärkendes Lernen (das prädiktive Analysesystem 101) besteht darin, möglichst viele Belohnungen zu sammeln. Bei einer Ausführungsform wird eine positive Belohnung durch den Belohnungserzeuger 304 zurückgegeben, wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell 302 abschneidet. Umgekehrt wird durch den Belohnungserzeuger 304 eine negative Belohnung zurückgegeben, wenn das aktuelle Schüler-Modell 302 beim Vorhersagen des beobachteten Ziels besser als das Kandidaten-Schüler-Modell 303 abschneidet. Bei einer Ausführungsform ist der Belohnungserzeuger 304 ein Teil des Kandidaten-Schüler-Modells 303.
Bei einer Ausführungsform werden solche Belohnungen durch den Belohnungserzeuger 304 erzeugt, indem die Trainingsdaten 103 und die Testdaten 104 auf die Schüler-Modelle 302, 303 angewendet werden, wie in 5 gezeigt wird.
5 veranschaulicht die Belohnungen, die durch den Belohnungserzeuger 304 gemäß einer Ausführungsform der vorliegenden Erfindung erzeugt werden.
Unter Bezugnahme auf 5 erzeugt der Belohnungserzeuger 304 eine Modellebenen-Belohnung 501 und eine Fallebenen-Belohnung 502. Bei einer Ausführungsform bezeichnet die Modellebenen-Belohnung 501 die Belohnung, die den Schüler-Modellen 302, 303 zugehörig ist, die eine Vorhersage für das beobachtete Ziel auf Grundlage der Testdaten 104 erzeugen. Zum Beispiel wird die Belohnung 501 auf Grundlage dessen erzeugt, wie viel besser als das aktuelle Schüler-Modell 302 das Kandidaten-Schüler-Modell 303 dabei abschneidet, unter Verwendung der Testdaten 104 das beobachtete Ziel vorherzusagen. Eine positive Belohnung 501 wird durch den Belohnungserzeuger 304 zurückgegeben, wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels unter Verwendung der Testdaten 104 besser als das aktuelle Schüler-Modell 302 abschneidet. Umgekehrt wird durch den Belohnungserzeuger 304 eine negative Belohnung 501 zurückgegeben, wenn das aktuelle Schüler-Modell 302 unter Verwendung der Testdaten 104 beim Vorhersagen des beobachteten Ziels besser als das Kandidaten-Schüler-Modell 303 abschneidet.
Die Fallebenen-Belohnung 502 bezeichnet die Belohnung auf Grundlage eines korrekten Klassifizierens des Datenfalls durch die Schüler-Modelle 302, 303 unter Verwendung der Trainingsdaten 103. Wenn die Schüler-Modelle 302, 303 den Datenfall korrekt klassifiziert haben, wird durch den Belohnungserzeuger 304 eine positive Belohnung 502 zurückgegeben. Umgekehrt wird durch den Belohnungserzeuger 304 eine negative Belohnung 502 zurückgegeben, wenn die Schüler-Modelle 302, 303 den Datenfall nicht korrekt klassifiziert haben.
Bei einer Ausführungsform erzeugt der Belohnungserzeuger 304 eine endgültige Belohnung 503, die eine Kombination der Modellebenen-Belohnung 501 und der Fallebenen-Belohnung 502 ist, z.B. ein Durchschnittswert der beiden Belohnungen.
Unter erneuter Bezugnahme auf 3, wobei die Belohnungen verwendet werden, aktualisiert ein Modul, das hierin als der „Aktualisierer 305“ bezeichnet wird, das Lehrer-Modell 301 mit der Belohnung. Bei einer Ausführungsform wird dem Lehrer-Modell 301 eine assoziative Lernaufgabe mit unmittelbarer Bestärkung gestellt. Wenn die Belohnung für den Bestärkungswert bei jedem Versuch r ist, wird der Parameter w_ij in dem Netzwerk um einen Wert $Δ w_ij = \sum_(k = 1) N [(\partial lng_k) / (\partial w_ij) r]$
inkrementiert, wobei α ein Faktor für die Lernrate ist, N eine positive Ganzzahl ist und g_k die Ausgabe des Lehrer-Modells für den Fall k ist.
Nach dem Aktualisieren des Lehrer-Modells 301 ermittelt ein Entscheider 306, ob das Kandidaten-Schüler-Modell 303 ein besserer Prädiktor des beobachteten Ziels als das aktuelle Schüler-Modell 302 ist. Wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell 302 abschneidet, aktualisiert der Entscheider 306 bei einer Ausführungsform das aktuelle Schüler-Modell 302 mit dem Kandidaten-Schüler-Modell 303 und aktualisiert zudem die aktuellen Gewichtungen mit den neuen Gewichtungen. Das aktualisierte Schüler-Modell 302 erzeugt dann neue Zustandsmerkmale, die in das Lehrer-Modell 301 eingegeben werden.
Wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels hingegen nicht besser als das aktuelle Schüler-Modell 302 abschneidet, fordert der Entscheider 306 das aktualisierte Lehrer-Modell 301 (aktualisiert mit den oben erwähnten Belohnungen) unmittelbar auf, neue Gewichtungen unter Verwendung der aktuellen Schüler-Merkmale aus dem aktuellen Schüler-Modell 302 zu erzeugen.
Eine ausführlichere Erörterung des Prozesses eines Verbesserns einer Vorhersagegenauigkeit bei ML-Methoden unter Verwendung der oben dargelegten Software-Komponenten wird im Folgenden in Bezug auf 6 bereitgestellt.
6 ist ein Ablaufplan eines Verfahrens 600 zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden gemäß einer Ausführungsform der vorliegenden Erfindung.
Unter Bezugnahme auf 6 und in Verbindung mit den 1 bis 5 erstellt das prädiktive Analysesystem 101 in einem Schritt 601 ein Lehrer-Modell 301, das eine Gewichtung für jeden Datenfall erzeugt. Ein „Lehrer-Modell“, wie es hierin verwendet wird, bezeichnet ein Statistikmodell, das den geeigneten Daten-, Verlustfunktion- und Hypothesenraum ermittelt, um das Lernen des Schüler-Modells zu ermöglichen. Bei einer Ausführungsform ist das Lehrer-Modell 301 ein neuronales Netzwerk. Bei einer Ausführungsform empfängt das Lehrer-Modell 301 Zustandsmerkmale von dem aktuellen Schüler-Modell 302 als Eingaben und erzeugt eine Gewichtung für jeden Datenfall. Ein „Datenfall“, wie er hierin verwendet wird, bezeichnet Daten, die zum Vorhersagen eines beobachteten Ziels verwendet werden. Bei einer Ausführungsform werden die Gewichtungsparameter zufällig initialisiert, bevor der Trainingsprozess beginnt (weiter unten erörtert).
Bei einer Ausführungsform enthält das Lehrer-Modell 301 Netzwerke, die aus mehreren Schichten bestehen. Bei einer Ausführungsform bestehen die Schichten aus Knoten, wobei ein Knoten der Ort ist, an dem eine Berechnung stattfindet, in Anlehnung an ein Neuron im menschlichen Gehirn, das elektrische Impulse aussendet, wenn es ausreichend stimuliert wird. Ein Knoten kombiniert Eingaben von den Daten wie z.B. Zustandsmerkmale (weiter unten erörtert) von dem aktuellen Schüler-Modell 302 mit einem Satz von Koeffizienten oder Gewichtungen, die die Eingabe entweder verstärken oder dämpfen, wodurch den Eingaben eine Signifikanz in Bezug auf die Aufgabe zugewiesen wird, die der Algorithmus zu lernen versucht (z.B. welche Eingabe am hilfreichsten ist, um Daten fehlerfrei zu klassifizieren). Diese Produkte aus Eingabe und Gewichtung werden summiert, und die Summe wird dann durch eine so genannte Aktivierungsfunktion eines Knotens geleitet, um zu ermitteln, ob und in welchem Ausmaß das Signal das Netzwerk weiter durchlaufen sollte, um das endgültige Ergebnis (z.B. eine Klassifizierungsaktion) zu beeinflussen. Wenn die Signale durchgeleitet werden, wurde das Neuron „aktiviert“.
Bei einer Ausführungsform ist eine Knotenschicht eine Reihe von neuronenartigen Schaltern, die ein- oder ausgeschaltet werden, wenn die Eingabe durch das Netzwerk geleitet wird. Die Ausgabe einer jeden Schicht ist zugleich die Eingabe in die nächste Schicht, ausgehend von einer anfänglichen Eingabeschicht, die die Daten empfängt.
Bei einer Ausführungsform werden die anpassbaren Gewichtungen des Modells mit den Eingabemerkmalen gepaart, um diesen Merkmalen eine Signifikanz in Bezug darauf zuzuweisen, wie das neuronale Netzwerk eine Eingabe klassifiziert und zu Clustern zusammenfasst.
Bei einer Ausführungsform können solche erzeugten Gewichtungen verwendet werden, um die Verteilung von Datenfällen in den Trainingsdaten 103 für den Fall zu korrigieren, dass die Trainingsdaten 103 aus einer verzerrten Stichprobennahme stammen.
In einem Schritt 602 trainiert das prädiktive Analysesystem 101 das aktuelle Schüler-Modell 302 unter Verwendung der Trainingsdaten 103 und der Gewichtungen (aktuelle Gewichtung für jeden Datenfall), die durch das Lehrer-Modell 301 erzeugt werden. Wie weiter oben bereits dargelegt, bezeichnet das aktuelle Schüler-Modell 302 ein Schüler-Modell (ein Statistikmodell, das trainiert wird, um unter Verwendung von Trainingsdaten eine Vorhersage bereitzustellen, z.B. das beobachtete Ziel vorherzusagen), das durch das prädiktive Analysesystem 101 aktuell trainiert wird, um unter Verwendung der Trainingsdaten 103 eine Vorhersage bereitzustellen. Wie ebenfalls bereits erwähnt, entspricht bei einer Ausführungsform das Schüler-Modell 302 einem Klassifikator wie z.B. einem Entscheidungsbaum oder einem neuronalen Netzwerk. Bei einer Ausführungsform verwendet ein Entscheidungsbaum-Lernen einen Entscheidungsbaum als ein prädiktives Modell, um von Beobachtungen zu einem Element (dargestellt durch die Zweige) zu Schlussfolgerungen über den Zielwert des Elements (dargestellt durch die Blätter) zu gelangen. Bei einer Ausführungsform ist ein neuronales Netzwerk ein Netzwerk oder ein Schaltkreis von Neuronen (künstliche Neuronen) oder Knoten.
Bei einer Ausführungsform werden Fallgewichtungen als Aktionen für das aktuelle Schüler-Modell 302 (sowie das weiter unten erörterte Kandidaten-Schüler-Modell 303) verwendet. Ein solches Verfahren ermöglicht die Verwendung einer beliebigen Art von maschinellem Klassifikator als das Schüler-Modell (die Schüler-Modelle 302, 303), da der Klassifikator beim Trainieren eine Fallgewichtung unterstützt.
Bei einer Ausführungsform bezieht ein solches Trainieren ein Anpassen des aktuellen Schüler-Modells 302 an einen Trainingsdatensatz 103 ein, bei dem es sich um einen Satz von Beispielen handelt, die zum Anpassen der Parameter verwendet werden, z.B. der durch das Lehrermodell 301 erzeugten Gewichtungen. Bei einer Ausführungsform wird das aktuelle Schüler-Modell 302 unter Verwendung eines überwachten Lernverfahrens (z.B. Gradientenabstieg oder stochastischer Gradientenabstieg) trainiert. Bei einer Ausführungsform besteht der Trainingsdatensatz 103 aus Paaren von Eingabevektoren (oder Skalaren) und dem entsprechenden Ausgabevektor (oder Skalar), der als das Ziel bezeichnet werden kann. Das aktuelle Schüler-Modell 302 wird mit dem Trainingsdatensatz 103 ausgeführt und erzeugt ein Ergebnis, das dann für jeden Eingabevektor in dem Trainingsdatensatz 103 mit dem Ziel verglichen wird. Auf Grundlage des Vergleichsergebnisses und des verwendeten spezifischen Lernalgorithmus werden die Parameter des Schüler-Modells 302 angepasst.
Nach dem Trainieren des aktuellen Schüler-Modells 302 erzeugt in einem Schritt 603 das trainierte Schüler-Modell 302 Zustandsmerkmale. Bei einer Ausführungsform werden Zustandsmerkmale für jeden Datenfall auf Grundlage des aktuellen Schüler-Modells 302 definiert. Ohne darauf beschränkt zu sein, können Zustandsmerkmale Datenmerkmale enthalten, die Informationen zu einem Datenfall enthalten, z.B. seine Prädiktoren, das Ziel usw.; eine durch das Lehrer-Modell 301 erzeugte Fallgewichtung; Schüler-Modell-Merkmale wie z.B. die Maße, die angeben, wie gut das aktuelle Schüler-Modell 302 trainiert ist; und Merkmale, die für die Kombination aus Daten und dem Schüler-Modell 302 stehen, wie z.B. vorhergesagte Ziele, Wahrscheinlichkeiten einer jeden Zielkategorie usw.
Bei einer Ausführungsform werden außerdem Fallebenen-Zustandsmerkmale durch das Schüler-Modell 302 erzeugt, z.B. die entsprechende Fallgewichtung.
Bei einer Ausführungsform erzeugt das aktuelle Schüler-Modell 302 Daten, die die bereits erwähnten Zustandsmerkmale enthalten. Solche Merkmale werden unter Verwendung eines Satzes von statistischen Annahmen auf Grundlage des Empfangens der Trainingsdaten 103 und der Gewichtungen von dem Lehrer-Modell 301 erzeugt.
In einem Schritt 604 erzeugt das Lehrer-Modell 301 neue Gewichtungen unter Verwendung der Zustandsmerkmale, die durch das aktuelle Schüler-Modell 302 erzeugt werden. Bei einer Ausführungsform werden solche Zustandsmerkmale in das Lehrer-Modell 301 eingegeben und verwendet, um Gewichtungen durch das Lehrer-Modell 301 zu erzeugen, wie weiter oben dargelegt wird.
In einem Schritt 605 trainiert das prädiktive Analysesystem 101 ein Kandidaten-Schüler-Modell 303 unter Verwendung der Trainingsdaten 103 und der neuen Gewichtungen, die durch das Lehrer-Modell 301 erzeugt werden. Bei einer Ausführungsform wird das Trainieren des Kandidaten-Schüler-Modells 303 auf dieselbe Weise wie das Trainieren des aktuellen Schüler-Modells 302 durchgeführt, wie weiter oben in Verbindung mit Schritt 602 dargelegt wird.
In einem Schritt 606 erzeugt der Belohnungserzeuger 304 eine Belohnung durch ein Vergleichen der aktuellen und Kandidaten-Schüler-Modelle 302, 303 (nach dem Trainieren der Schüler-Modelle 302, 303) unter Verwendung der Trainingsdaten 103 und der Testdaten 104 („Vorlagedaten“), um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser abschneidet. Eine „Belohnung“, wie sie hierin verwendet wird, bezeichnet einen Wert, der durch eine Funktion (Belohnungsfunktion) erzeugt wird, die beim bestärkenden Lernen verwendet wird. Das Ziel eines Agenten für bestärkendes Lernen (das prädiktive Analysesystem 101) besteht darin, möglichst viele Belohnungen zu sammeln. Bei einer Ausführungsform wird eine positive Modellebenen-Belohnung 501 durch den Belohnungserzeuger 304 zurückgegeben, wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels unter Verwendung der Testdaten 104 besser als das aktuelle Schüler-Modell 302 abschneidet. Umgekehrt wird durch den Belohnungserzeuger 304 eine negative Modellebenen-Belohnung 501 zurückgegeben, wenn das aktuelle Schüler-Modell 302 unter Verwendung der Testdaten 104 beim Vorhersagen des beobachteten Ziels besser als das Kandidaten-Schüler-Modell 303 abschneidet.
Die Fallebenen-Belohnung 502 bezeichnet die Belohnung auf Grundlage eines korrekten Klassifizierens des Datenfalls durch die Schüler-Modelle 302, 303 unter Verwendung der Trainingsdaten 103. Wenn die Schüler-Modelle 302, 303 den Datenfall korrekt klassifiziert haben, wird durch den Belohnungserzeuger 304 eine positive Belohnung 502 zurückgegeben. Umgekehrt wird durch den Belohnungserzeuger 304 eine negative Belohnung 502 zurückgegeben, wenn die Schüler-Modelle 302, 303 den Datenfall nicht korrekt klassifiziert haben.
Bei einer Ausführungsform erzeugt der Belohnungserzeuger 304 eine endgültige Belohnung 503, die eine Kombination der Modellebenen-Belohnung 501 und der Fallebenen-Belohnung 502 ist, z.B. ein Durchschnittswert der beiden Belohnungen.
In einem Schritt 607 wird durch das prädiktive Analysesystem 101 ermittelt, ob eine Abbruchregel erfüllt wurde. Eine „Abbruchregel“, wie sie hierin verwendet wird, bezeichnet die Regeln, die ermitteln, ob das Trainieren eines Schüler-Modells abgeschlossen wurde. Ein solches Trainieren ist abgeschlossen, wenn ermittelt wurde, dass die optimalen Gewichtungen für die Datenfälle identifiziert wurden.
Bei einer Ausführungsform enthalten solche Abbruchregeln, ohne darauf beschränkt zu sein, Folgendes: Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung.
Wenn eine dieser Abbruchregeln erfüllt wurde, werden in einem Schritt 608 die optimalen Gewichtungen (durch das Lehrer-Modell 301 erzeugte Gewichtungen) und das entsprechende Schüler-Modell 302 an den Benutzer zurückgegeben, z.B. über eine Benutzerschnittstelle des prädiktiven Analysesystems 101. Das zurückgegebene Schüler-Modell kann eine genaue Vorhersage des beobachteten Ziels bereitstellen. Darüber hinaus werden die zurückgegebenen Gewichtungen, die durch das Lehrer-Modell 301 erzeugt werden (siehe Schritt 604), als die „optimalen“ Gewichtungen betrachtet, wie beispielsweise, wenn eine Abbruchregel erfüllt wurde (z.B. bei einer Annäherung der Vorhersagegenauigkeit an einen Grenzwert). Auf diese Weise werden optimale Gewichtungen identifiziert, um eine Vorhersagegenauigkeit zu verbessern.
Wenn jedoch keine der Abbruchregeln erfüllt wurde, aktualisiert der Aktualisierer 305 in einem Schritt 609 das Lehrer-Modell 301 mit der Belohnung (Belohnung aus Schritt 606). Bei einer Ausführungsform verwendet das Lehrer-Modell 301 die Belohnungen, um seine Parameter anhand von Richtlinien-Gradientenverfahren wie z.B. einem bestärkenden Lernen zu aktualisieren.
Wie weiter oben dargelegt, wird dem Lehrer-Modell 301 bei einer Ausführungsform eine assoziative Lernaufgabe mit unmittelbarer Bestärkung gestellt. Wenn die Belohnung für den Bestärkungswert bei jedem Versuch r ist, wird der Parameter w_ij in dem Netzwerk um einen Wert $Δ w_ij = \sum_(k = 1) N [(\partial lng_k) / (\partial w_ij) r]$
inkrementiert, wobei α ein Faktor für die Lernrate ist, N eine positive Ganzzahl ist und g_k die Ausgabe des Lehrer-Modells für den Fall k ist. Der inkrementierte Betrag Δw, mit dem das Lehrer-Modell 301 aktualisiert wird, kann auch wie folgt dargestellt werden: $Δ w_{i j} = a r^{m o d e l} \sum_{k = 1}^{N} \frac{\partial ln g_{k}}{\partial w_{i j}} r_{k}^{c a s e}$
wobei r der Bestärkungswert bei jedem Versuch ist, w_ij ein Parameter in dem Netzwerk ist, der um einen Betrag Δw_ij inkrementiert wird, α ein Faktor für die Lernrate ist, N eine positive Ganzzahl ist und g_k die Ausgabe des Lehrer-Modells für den Fall k ist.
Nach dem Aktualisieren des Lehrer-Modells 301 wird in einem Schritt 610 durch den Entscheider 306 ermittelt, ob das Kandidaten-Schüler-Modell 303 eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell 302 erzeugt. Eine solche Ermittlung erfolgt auf Grundlage dessen, wie nahe die Vorhersage an dem beobachteten Ziel liegt.
Wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell 302 abschneidet, wird in einem Schritt 611 das aktuelle Schüler-Modell 302 mit dem Kandidaten-Schüler-Modell 303 aktualisiert. In dem Schritt 611 wird das aktuelle Schüler-Modell 302 somit im Wesentlichen durch das Kandidaten-Schüler-Modell 303 ersetzt.
Wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell 302 abschneidet, werden darüber hinaus in einem Schritt 612 die aktuellen Gewichtungen mit den neuen Gewichtungen (durch das Lehrer-Modell 301 in dem Schritt 604 erzeugte neue Gewichtungen) ersetzt.
Nach dem Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen erzeugt das aktualisierte Schüler-Modell 302 (aktualisiert in dem Schritt 611) in einem Schritt 603 Zustandsmerkmale unter Verwendung der neuen Gewichtungen.
Wenn das Kandidaten-Schüler-Modell 303 beim Vorhersagen des beobachteten Ziels hingegen nicht besser als das aktuelle Schüler-Modell 302 abschneidet, fordert der Entscheider 306 das aktualisierte Lehrer-Modell 301 (aktualisiert in dem Schritt 609) unmittelbar auf, in dem Schritt 604 neue Gewichtungen unter Verwendung der aktuellen Schüler-Merkmale aus dem aktuellen Schüler-Modell 302 und den aktuellen Gewichtungen zu erzeugen.
Auf diese Weise entwirft die vorliegende Erfindung eine Rahmenstruktur, die das Konzept eines „Lehren Lernens“ auf dem Gebiet der prädiktiven Modellierung realisiert. Eine solche Rahmenstruktur enthält ein Lehrer-Modell, das eine Gewichtung für jeden Datenfall erzeugt. Die Trainingsdatenfälle werden zusammen mit den erzeugten Gewichtungen verwendet, um das Schüler-Modell neu zu trainieren. Eine Belohnung wird zurückgegeben, indem das trainierte Schüler-Modell anhand eines Vorlagedatensatzes mit Blick auf die Vorhersagegenauigkeit evaluiert wird. Das Lehrer-Modell verwendet dann die Belohnung, um seine Parameter anhand von Richtlinien-Gradientenverfahren wie z.B. einem bestärkenden Lernen zu aktualisieren. Ein solcher Prozess wird wiederholt, bis das Schüler-Modell die gewünschte Leistung erreicht.
Verglichen mit früher verwendeten heuristischen Verfahren (z.B. Boosting), ermittelt der Ansatz der vorliegenden Erfindung Fallgewichtungen auf eine optimale Art und Weise. Dies ermöglicht die Erstellung eines besseren Schüler-Modells anhand von grundlegenden Klassifikatoren, wie z.B. einem Entscheidungsbaum, einem neuronalen Netzwerk usw., anstatt der Verwendung eines Ensemble-Modells.
Indem Fallgewichtungen als Aktionen für das Schüler-Modell verwendet werden, kann jede Art von maschinellem Klassifikator als das Schüler-Modell verwendet werden, da der Klassifikator beim Trainieren Fallgewichtungen unterstützt.
Darüber hinaus verbessert die vorliegende Erfindung die Technologie oder das technische Gebiet, die bzw. das eine prädiktive Modellierung einbezieht. Wie oben dargelegt, ist die Erreichung besserer prädiktiver Modelle ein Ziel der Forschung und Praxis von ML-Methoden. Zum Beispiel verwenden Ensemble-Verfahren mehrere Lernalgorithmen, um eine bessere prädiktive Leistung zu erhalten, als sie von einem der betreffenden Lernalgorithmen alleine zu erhalten wäre. Solche Ensemble-Verfahren enthalten eine (auch als Bagging bezeichnete) Bootstrap-Aggregation, ein Boosting usw. Bei der Bootstrap-Aggregation handelt es sich um einen Ensemble-Meta-Algorithmus für maschinelles Lernen, der konzipiert ist, um die Stabilität und Genauigkeit von ML-Algorithmen zu verbessern, die bei der statistischen Klassifizierung und Regression verwendet werden. Boosting ist ein Ensemble-Meta-Algorithmus für maschinelles Lernen, der in erster Linie eine Verzerrung sowie eine Varianz bei überwachtem Lernen verringert, sowie eine Familie von ML-Algorithmen, die schwache Klassifikatoren (Weak Learner) in starke umwandeln. Bei solchen Methoden, wie beispielsweise beim Boosting, werden die Gewichtungen von falsch klassifizierten Fällen erhöht, während die Gewichtungen von korrekt klassifizierten Fällen während des Modellierungsprozesses verringert werden. Eine solche (heuristische) Strategie erzielt in vielen Fällen bessere Vorhersagen; allerdings besteht die Möglichkeit eines übermäßigen Anpassens von Ausreißern/Rauschen. Ein übermäßiges Anpassen von Ausreißern/Rauschen führt zu einer geringeren Vorhersagegenauigkeit. Somit ist die heuristische Strategie eines Erhöhens der Gewichtungen von falsch klassifizierten Fällen und eines Verringerns der Gewichtungen von korrekt klassifizierten Fällen unter Umständen nicht die beste Strategie, um die Vorhersagegenauigkeit des Modells zu verbessern. Mitunter kann es zum Beispiel besser sein, die Gewichtungen von korrekt klassifizierten Fällen zu erhöhen, da solche Fälle sehr wichtige Muster enthalten, die durch den ML-Algorithmus gelernt werden sollten. Aus ähnlichen Gründen kann es auch besser sein, die Gewichtungen von falsch klassifizierten Fällen wie z.B. Ausreißerfällen zu erhöhen. Derlei Methoden, zu denen z.B. Boosting gehört, sind folglich nicht in der Lage, die optimalen Gewichtungen für die klassifizierten Fälle zu identifizieren, und sind daher auch nicht in der Lage, eine optimale Vorhersagegenauigkeit bei ML-Methoden zu erreichen.
Die vorliegende Erfindung verbessert eine solche Technologie durch ein Erstellen eines Lehrer-Modells, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Ein „Lehrer-Modell“, wie es hierin verwendet wird, bezeichnet ein Statistikmodell, das den geeigneten Daten-, Verlustfunktion- und Hypothesenraum ermittelt, um das Lernen des Schüler-Modells zu ermöglichen. Das aktuelle Schüler-Modell wird dann unter Verwendung von Trainingsdaten und der Gewichtungen trainiert, die durch das Lehrer-Modell erzeugt werden. Ein „Schüler-Modell“, wie es hierin verwendet wird, bezeichnet ein Statistikmodell, das trainiert wird, um unter Verwendung von Trainingsdaten eine Vorhersage bereitzustellen. Ein „aktuelles“ Schüler-Modell, wie es hierin verwendet wird, bezeichnet ein Schüler-Modell, das aktuell trainiert wird, um unter Verwendung von Trainingsdaten eine Vorhersage bereitzustellen. Das aktuelle Schüler-Modell erzeugt Zustandsmerkmale (z.B. Datenmerkmale, Fallgewichtungen, Schüler-Modell-Merkmale und Merkmale, die für die Kombination aus den Daten und dem Schüler-Modell stehen), die durch das Lehrer-Modell verwendet werden, um neue Gewichtungen zu erzeugen. Danach wird ein Kandidaten-Schüler-Modell unter Verwendung von Trainingsdaten und dieser neuen Gewichtungen trainiert. Ein „Kandidaten-Schüler-Modell“, wie es hierin verwendet wird, bezeichnet ein Schüler-Modell, das daraufhin untersucht wird, ob es ein besseres Schüler-Modell (besser beim Vorhersagen des beobachteten Ziels) als das aktuelle Schüler-Modell ist. Danach wird eine Belohnung durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung von Trainingsdaten und Testdaten erzeugt, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser abschneidet. Eine „Belohnung“, wie sie hierin verwendet wird, bezeichnet einen Wert, der durch eine Funktion (Belohnungsfunktion) erzeugt wird, die beim bestärkenden Lernen verwendet wird. Eine positive Belohnung kann zurückgegeben werden, wenn das Kandidaten-Schüler-Modell beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell abschneidet. Umgekehrt kann eine negative Belohnung zurückgegeben werden, wenn das aktuelle Schüler-Modell beim Vorhersagen des beobachteten Ziels besser als das Kandidaten-Schüler-Modell abschneidet. Das Lehrer-Modell wird daraufhin mit der Belohnung aktualisiert. Das Lehrer-Modell verwendet die Belohnungen, um seine Parameter anhand von Richtlinien-Gradientenverfahren wie z.B. einem bestärkenden Lernen zu aktualisieren. Wenn das Kandidaten-Schüler-Modell beim Vorhersagen des beobachteten Ziels besser als das aktuelle Schüler-Modell abschneidet, wird das aktuelle Schüler-Modell mit dem Kandidaten-Schüler-Modell aktualisiert, und die aktuellen Gewichtungen werden mit den neuen Gewichtungen aktualisiert, die durch das Lehrer-Modell erzeugt werden. Nach dem Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen erzeugt das aktuelle Schüler-Modell neue Zustandsmerkmale. Wenn jedoch das Kandidaten-Schüler-Modell beim Vorhersagen des beobachteten Ziels nicht besser als das aktuelle Schüler-Modell abschneidet, erzeugt das aktualisierte Lehrer-Modell neue Gewichtungen unter Verwendung der aktuellen Gewichtungen und der aktuellen Schüler-Merkmale von dem aktuellen Schüler-Modell. Nachdem eine beliebige der Abbruchregeln erfüllt wird (z.B. Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung), werden die durch das Lehrer-Modell erzeugten Gewichtungen als die „optimalen“ Gewichtungen betrachtet, die zusammen mit dem entsprechenden Schüler-Modell an den Benutzer zurückgegeben werden. Auf diese Weise werden optimale Gewichtungen identifiziert, um eine Vorhersagegenauigkeit zu verbessern. Darüber hinaus gibt es auf diese Weise eine Verbesserung auf dem technischen Gebiet einer prädiktiven Modellierung.
Die durch die vorliegende Erfindung bereitgestellte technische Lösung kann durch das menschliche Gehirn oder durch einen Stift und Papier verwendenden Menschen nicht durchgeführt werden. Die durch die vorliegende Erfindung bereitgestellte technische Lösung lässt sich somit durch das menschliche Gehirn oder durch einen Stift und Papier verwendenden Menschen innerhalb eines angemessenen Zeitraums und mit einer angemessenen Genauigkeitserwartung und ohne die Verwendung eines Computers nicht erreichen.
Bei einer Ausführungsform der vorliegenden Erfindung weist ein computerrealisiertes Verfahren zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden ein Erstellen eines Lehrer-Modells auf, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt. Das Verfahren weist des Weiteren ein Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen auf, die durch das Lehrer-Modell erzeugt werden. Das Verfahren weist zusätzlich ein Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell auf. Darüber hinaus weist das Verfahren ein Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale auf. Zusätzlich weist das Verfahren ein Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen auf. Zusätzlich weist das Verfahren ein Erzeugen einer Belohnung durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten auf, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser abschneidet. Das Verfahren weist des Weiteren ein Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf auf, dass eine Abbruchregel nicht erfüllt wird. Das Verfahren weist zusätzlich ein Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf auf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
Bei einer Ausführungsform der vorliegenden Erfindung weist das Verfahren des Weiteren ein Ermitteln auf, ob das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt, auf Grundlage dessen, wie nahe die Vorhersage an dem beobachteten Ziel liegt.
Bei einer Ausführungsform weist das Verfahren des Weiteren ein Aktualisieren des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell und ein Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen als Reaktion darauf auf, dass das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
Bei einer Ausführungsform weist das Verfahren zusätzlich ein Erzeugen neuer Zustandsmerkmale durch das aktualisierte Schüler-Modell unter Verwendung der neuen Gewichtungen und ein Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das Lehrer-Modell unter Verwendung der neuen Zustandsmerkmale auf.
Darüber hinaus weist das Verfahren bei einer Ausführungsform zusätzlich ein Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen und ein Erzeugen einer Belohnung durch ein Vergleichen des aktualisierten Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten auf, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser abschneidet.
Bei einer Ausführungsform weist das Verfahren zusätzlich ein Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das aktualisierte Lehrer-Modell unter Verwendung der Zustandsmerkmale als Reaktion darauf auf, dass das Kandidaten-Schüler-Modell keine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
Bei einer Ausführungsform weist das Verfahren des Weiteren ein Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen und ein Erzeugen einer Belohnung durch ein Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten auf, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser abschneidet.
Bei einer Ausführungsform weist das Verfahren zusätzlich auf, dass die Abbruchregel eines oder mehrere aus Folgendem aufweist: Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung.
Bei einer Ausführungsform weist das Verfahren des Weiteren auf, dass das Lehrer-Modell ein neuronales Netzwerk aufweist und dass das Schüler-Modell eines aus Folgendem aufweist: einen Entscheidungsbaum und ein neuronales Netzwerk.
Andere oben beschriebene Formen der Ausführungsform des Verfahrens werden in einem System und in einem Computerprogrammprodukt umgesetzt.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Modifikationen und Abwandlungen möglich sind, ohne vom inhaltlichen Umfang und gedanklichen Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien bestmöglich zu erläutern bzw. anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.

Claims

Computerrealisiertes Verfahren zum Verbessern einer Vorhersagegenauigkeit bei Methoden für maschinelles Lernen (ML), wobei das Verfahren aufweist: Erstellen eines Lehrer-Modells, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt; Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen, die durch das Lehrer-Modell erzeugt werden; Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell; Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale; Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen; Erzeugen einer Belohnung durch Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser ist; Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf, dass eine Abbruchregel nicht erfüllt wird; und Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
Verfahren nach Anspruch 1, des Weiteren aufweisend: Ermitteln, ob das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt, auf Grundlage dessen, wie nahe die Vorhersage an dem beobachteten Ziel liegt.
Verfahren nach Anspruch 2, des Weiteren aufweisend: Aktualisieren des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell und Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen als Reaktion darauf, dass das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
Verfahren nach Anspruch 3, des Weiteren aufweisend: Erzeugen neuer Zustandsmerkmale durch das aktualisierte Schüler-Modell unter Verwendung der neuen Gewichtungen; und Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das Lehrer-Modell unter Verwendung der neuen Zustandsmerkmale.
Verfahren nach Anspruch 4, des Weiteren aufweisend: Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen; und Erzeugen einer Belohnung durch Vergleichen des aktualisierten Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser ist.
Verfahren nach Anspruch 2, des Weiteren aufweisend: Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das aktualisierte Lehrer-Modell unter Verwendung der Zustandsmerkmale als Reaktion darauf, dass das Kandidaten-Schüler-Modell keine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
Verfahren nach Anspruch 6, des Weiteren aufweisend: Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen; und Erzeugen einer Belohnung durch Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser ist.
Verfahren nach Anspruch 1, wobei die Abbruchregel eines oder mehrere aus Folgendem aufweist: Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung.
Verfahren nach Anspruch 1, wobei das Lehrer-Modell ein neuronales Netzwerk aufweist, wobei das Schüler-Modell eines aus Folgendem aufweist: einen Entscheidungsbaum und ein neuronales Netzwerk.
Computerprogrammprodukt zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden, wobei das Computerprogrammprodukt ein computerlesbares Speichermedium mit darauf enthaltenem Programmcode aufweist, wobei der Programmcode die Programmieranweisungen aufweist zum: Erstellen eines Lehrer-Modells, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt; Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen, die durch das Lehrer-Modell erzeugt werden; Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell; Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale; Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen; Erzeugen einer Belohnung durch Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser ist; Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf, dass eine Abbruchregel nicht erfüllt wird; und Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
Computerprogrammprodukt nach Anspruch 10, wobei der Programmcode des Weiteren die Programmieranweisungen aufweist zum: Ermitteln, ob das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt, auf Grundlage dessen, wie nahe die Vorhersage an dem beobachteten Ziel liegt.
Computerprogrammprodukt nach Anspruch 11, wobei der Programmcode des Weiteren die Programmieranweisungen aufweist zum: Aktualisieren des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell und Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen als Reaktion darauf, dass das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
Computerprogrammprodukt nach Anspruch 12, wobei der Programmcode des Weiteren die Programmanweisungen aufweist zum: Erzeugen neuer Zustandsmerkmale durch das aktualisierte Schüler-Modell unter Verwendung der neuen Gewichtungen; und Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das Lehrer-Modell unter Verwendung der neuen Zustandsmerkmale.
Computerprogrammprodukt nach Anspruch 13, wobei der Programmcode des Weiteren die Programmanweisungen aufweist zum: Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen; und Erzeugen einer Belohnung durch Vergleichen des aktualisierten Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser ist.
Computerprogrammprodukt nach Anspruch 11, wobei der Programmcode des Weiteren die Programmanweisungen aufweist zum: Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das aktualisierte Lehrer-Modell unter Verwendung der Zustandsmerkmale als Reaktion darauf, dass das Kandidaten-Schüler-Modell keine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
Computerprogrammprodukt nach Anspruch 15, wobei der Programmcode des Weiteren die Programmanweisungen aufweist zum: Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen; und Erzeugen einer Belohnung durch Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser ist.
Computerprogrammprodukt nach Anspruch 10, wobei die Abbruchregel eines oder mehrere aus Folgendem aufweist: Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung.
System, aufweisend: einen Arbeitsspeicher zum Speichern eines Computerprogramms zum Verbessern einer Vorhersagegenauigkeit bei ML-Methoden; und einen mit dem Arbeitsspeicher verbundenen Prozessor, wobei der Prozessor konfiguriert wird, um die Programmanweisungen des Computerprogramms auszuführen, aufweisend: Erstellen eines Lehrer-Modells, wobei das Lehrer-Modell eine Gewichtung für jeden Datenfall erzeugt; Trainieren eines aktuellen Schüler-Modells unter Verwendung von Trainingsdaten und Gewichtungen, die durch das Lehrer-Modell erzeugt werden; Erzeugen von Zustandsmerkmalen durch das aktuelle Schüler-Modell; Erzeugen neuer Gewichtungen durch das Lehrer-Modell unter Verwendung der Zustandsmerkmale; Trainieren eines Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und der neuen Gewichtungen; Erzeugen einer Belohnung durch Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und Testdaten, um zu ermitteln, welches Modell beim Vorhersagen eines beobachteten Ziels besser ist; Aktualisieren des Lehrer-Modells mit der Belohnung als Reaktion darauf, dass eine Abbruchregel nicht erfüllt wird; und Zurückgeben der neuen Gewichtungen und des aktuellen Schüler-Modells an einen Benutzer als Reaktion darauf, dass die Abbruchregel erfüllt wird, wobei das zurückgegebene Schüler-Modell eine Vorhersage des beobachteten Ziels bereitstellt.
System nach Anspruch 18, wobei die Programmanweisungen des Computerprogramms des Weiteren aufweisen: Ermitteln, ob das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt, auf Grundlage dessen, wie nahe die Vorhersage an dem beobachteten Ziel liegt.
System nach Anspruch 19, wobei die Programmanweisungen des Computerprogramms des Weiteren aufweisen: Aktualisieren des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell und Aktualisieren der aktuellen Gewichtungen mit den neuen Gewichtungen als Reaktion darauf, dass das Kandidaten-Schüler-Modell eine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
System nach Anspruch 20, wobei die Programmanweisungen des Computerprogramms des Weiteren aufweisen: Erzeugen neuer Zustandsmerkmale durch das aktualisierte Schüler-Modell unter Verwendung der neuen Gewichtungen; und Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das Lehrer-Modell unter Verwendung der neuen Zustandsmerkmale.
System nach Anspruch 21, wobei die Programmanweisungen des Computerprogramms des Weiteren aufweisen: Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen; und Erzeugen einer Belohnung durch Vergleichen des aktualisierten Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser ist.
System nach Anspruch 19, wobei die Programmanweisungen des Computerprogramms des Weiteren aufweisen: Erzeugen eines zweiten Satzes von neuen Gewichtungen durch das aktualisierte Lehrer-Modell unter Verwendung der Zustandsmerkmale als Reaktion darauf, dass das Kandidaten-Schüler-Modell keine bessere Vorhersage des beobachteten Ziels als das aktuelle Schüler-Modell erzeugt.
System nach Anspruch 23, wobei die Programmanweisungen des Computerprogramms des Weiteren aufweisen: Trainieren des Kandidaten-Schüler-Modells unter Verwendung der Trainingsdaten und des zweiten Satzes von neuen Gewichtungen; und Erzeugen einer Belohnung durch Vergleichen des aktuellen Schüler-Modells mit dem Kandidaten-Schüler-Modell unter Verwendung der Trainingsdaten und der Testdaten, um zu ermitteln, welches Modell beim Vorhersagen des beobachteten Ziels besser ist.
System nach Anspruch 18, wobei die Abbruchregel eines oder mehrere aus Folgendem aufweist: Erreichen einer festgelegten Anzahl von Versuchen, Erreichen einer festgelegten Trainingsdauer, Annähern einer Vorhersagegenauigkeit an einen Grenzwert und eine von einem Benutzer eingeleitete Beendigung.