DE112021003003T5

DE112021003003T5 - Kontinuierliches lernen mit querverbindungen

Info

Publication number: DE112021003003T5
Application number: DE112021003003.5T
Authority: DE
Inventors: Yu Tian; Xiaolong Wang; Qinghan XUE; Steven Nicholas ELIUK; Xin Guo
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-08
Filing date: 2021-06-18
Publication date: 2023-03-23
Also published as: US20220012583A1; CN115843364A; WO2022009005A1; JP2023532960A; GB2611731A

Abstract

Es sind ein Verfahren, Computersystem und Computerprogrammprodukt zur Verwendung eindeutiger Pfade mit Querverbindungen für unterschiedliche Aufgaben zum Verhindern von katastrophalem Vergessen in klasseninkrementellen Szenarien vorgesehen. Das Verfahren kann umfassen: sequentielles Empfangen einer oder mehrerer Aufgaben; Anwenden eines oder mehrerer gemeinsam nutzbarer Blöcke auf die eine oder mehreren Aufgaben; Lernen eines oder mehrerer eindeutiger Pfade für die eine oder mehreren Aufgaben; Hinzufügen einer oder mehrerer Querverbindungen zwischen der einen oder den mehreren Aufgaben; Hinzufügen eines Aggregationsblocks zum Sammeln einer oder mehrerer Ausgaben der eindeutigen Pfade jeder der einen oder mehreren Aufgaben; Ausgeben einer Vorhersage.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft allgemein das Gebiet der Datenverarbeitung und insbesondere maschinelles Lernen. Deep-Learning-Modelle werden in vielen Bereichen verwendet und können als Black Box in Bezug auf das Verständnis des Modellverhaltens betrachtet werden. Verschiedene Trainingsmodelle können Daten verarbeiten und verschiedene Ergebnisse mit unterschiedlicher Genauigkeit liefern. Die Erzeugung verständlicher Ergebnisse und korrekter Klassifizierungen bringt den Bereich des maschinellen Lernens voran, indem sie verfeinerte und unverfälschte Ausgabedaten liefert, die in verschiedenen Bereichen und Branchen verwendet werden können.
KURZDARSTELLUNG
Eine Ausführungsform der vorliegenden Erfindung kann ein Verfahren, Computersystem und Computerprogrammprodukt für die Verwendung eindeutiger Pfade mit Querverbindungen für unterschiedliche Aufgaben umfassen, um katastrophales Vergessen in klasseninkrementellen Szenarien zu verhindern. Ausführungsformen der vorliegenden Erfindung können ein sequentielles Empfangen einer oder mehrerer Aufgaben umfassen. Ausführungsformen der vorliegenden Erfindung können ein Anwenden eines oder mehrerer gemeinsam nutzbarer Blöcke auf die eine oder mehreren Aufgaben umfassen. Ausführungsformen der vorliegenden Erfindung können ein Lernen eines oder mehrerer eindeutiger Pfade für die eine oder die mehreren Aufgaben umfassen. Ausführungsformen der vorliegenden Erfindung können ein Hinzufügen einer oder mehrerer Querverbindungen zwischen der einen oder den mehreren Aufgaben umfassen. Ausführungsformen der vorliegenden Erfindung können ein Hinzufügen eines Aggregationsblocks umfassen, um eine oder mehrere Ausgaben von den eindeutigen Pfaden jeder der einen oder mehreren Aufgaben zu sammeln. Ausführungsformen der vorliegenden Erfindung können ein Ausgeben einer Vorhersage umfassen.
Figurenliste
Diese und weitere Ziele, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung von beispielhaften Ausführungsformen derselben ersichtlich, die zusammen mit den beigefügten Zeichnungen zu lesen sind. Die verschiedenen Merkmale der Zeichnungen sind nicht maßstabsgetreu gezeigt, da die Darstellungen der Klarheit dienen, um Fachleuten das Verständnis der Erfindung in Verbindung mit der detaillierten Beschreibung zu erleichtern. Bei den Zeichnungen gilt:

1 zeigt eine vernetzte Computerumgebung gemäß mindestens einer Ausführungsform;
2 ist ein Beispiel-Blockschema von sequentiellem Lernen von Aufgaben über aufgabenorientierte Pfade gemäß einer Ausführungsform der Erfindung;
3 ist ein Flussdiagramm, das ein Verfahren zur Verwendung eines kontinuierlichen Lernmodells zum Erlernen einzigartiger Pfade mit Querverbindungen für unterschiedliche Aufgaben zum Verhindern von katastrophalem Vergessen in klasseninkrementellen Szenarien gemäß einer Ausführungsform der Erfindung zeigt;
4 ist ein Blockschema, das interne und externe Komponenten von Computern und Servern, die in 1 gezeigt sind, gemäß einer Ausführungsform der Erfindung zeigt;
5 ist ein funktionales Blockschema, das eine Cloud-Computing-Umgebung gemäß einer Ausführungsform der Erfindung zeigt, die das in 1 gezeigte Computersystem umfasst; und
6 ist eine Darstellung, die Abstraktionsmodellschichten gemäß einer Ausführungsform der Erfindung zeigt, die von der Cloud-Computing-Umgebung von 5 bereitgestellt werden.

DETAILLIERTE BESCHREIBUNG
Ausführungsformen der vorliegenden Erfindung werden nun im Detail unter Bezugnahme auf die beigefügten Figuren beschrieben.
Die folgende Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen wird bereitgestellt, um zu einem umfassenden Verständnis beispielhafter Ausführungsformen der Erfindung beizutragen, wie sie durch die Ansprüche und ihre Äquivalente definiert sind. Sie enthält verschiedene spezifische Details, die zu diesem Verständnis beitragen sollen, die jedoch lediglich als beispielhaft zu betrachten sind. Dementsprechend werden Fachleute erkennen, dass verschiedene Änderungen und Modifikationen der hierin beschriebenen Ausführungsformen vorgenommen werden können, ohne vom Umfang und Geist der Erfindung abzuweichen. Ferner können Beschreibungen wohlbekannter Funktionen und Konstruktionen aus Gründen der Klarheit und Prägnanz weggelassen werden.
Die in der folgenden Beschreibung und den Ansprüchen verwendeten Begriffe und Wörter sind nicht auf die bibliographischen Bedeutungen beschränkt, sondern werden lediglich verwendet, um ein klares und konsistentes Verständnis der Erfindung zu ermöglichen. Dementsprechend sollte es für Fachleute offensichtlich sein, dass die folgende Beschreibung von beispielhaften Ausführungsformen der vorliegenden Erfindung nur zu Darstellungszwecken und nicht zum Zwecke der Beschränkung der Erfindung angegeben wird, wie sie durch die beigefügten Ansprüche und ihre Äquivalente definiert ist.
Es versteht sich, dass die Singularformen „ein“, „eine“ und „der/die/das“ auch Pluralformen umfassen, sofern der Kontext nicht eindeutig etwas anderes vorschreibt. Somit umfasst beispielsweise die Bezugnahme auf „eine Komponentenoberfläche“ die Bezugnahme auf eine oder mehrere solcher Oberflächen, sofern der Kontext nicht eindeutig etwas anderes vorschreibt.
Ausführungsformen der vorliegenden Erfindung betreffen allgemein maschinelles Lernen. Insbesondere sehen Ausführungsformen der vorliegenden Erfindung ein Verfahren, Computerprogramm und Computersystem zum Verwenden eines kontinuierlichen Lernmodells vor, um einzigartige Pfade mit Querverbindungen für unterschiedliche Aufgaben zu erlernen, um katastrophales Vergessen in klasseninkrementellen Szenarien zu verhindern.
Deep Learning ist eine Art von maschinellem Lernen, die Informationen auf Grundlage von Trainingsdaten verstehen und klassifizieren kann. Die Trainingsdaten können aus strukturierten Daten oder unstrukturierten Daten bestehen. Strukturierte Daten können stark organisierte Daten umfassen, etwa Tabellen, relationale Datenbanken oder Daten, die in einem festen Feld gespeichert sind. Unstrukturierte Daten können Daten umfassen, die nicht organisiert sind und eine unkonventionelle innere Struktur aufweisen, etwa PDFs („Portable Document Format“), Bilder, Präsentationen, Webseiten, Videoinhalte, Audioinhalte, E-Mails, Textverarbeitungsdokumente oder Multimedia-Inhalte. Deep Learning kann sich auch auf hierarchisches Lernen oder Structured Deep Learning beziehen bzw. als solches bezeichnet werden.
Deep Learning kann eine Eingabe zuordnen, Daten klassifizieren, Datensätze interpretieren und eine Datenausgabe für eine oder mehrere Schichten des neuronalen Netzes ausgeben. Jede Schicht des neuronalen Netzes kann als Knoten dargestellt werden. Ein Knoten kann auch als Neuron oder künstliches Neuron bezeichnet werden. Deep Learning kann Ähnlichkeiten in Daten erfassen, die markiert sein können, aber nicht müssen. Zum Beispiel kann Deep Learning als überwachtes Lernen, nicht überwachtes Lernen oder halbüberwachtes Lernen betrieben werden. Überwachtes Lernen kann einen markierten Datensatz zum Trainieren eines ML-Modells verwenden. Unüberwachtes Lernen kann beliebige nichtmarkierte Daten zum Trainieren eines ML-Modells verwenden. Halbüberwachtes Lernen kann sowohl markierte Datensätze als auch nichtmarkierte Datensätze zum Trainieren eines ML-Modells verwenden. Die Deep-Learning-Modelle können beispielsweise eine Graphen-Ausgabe bereitstellen, die als Knoten und Kanten in Bezug auf die zu lernende domänenspezifische Taxonomie erzeugt werden kann.
Eine Komponente von Deep Learning kann ein neuronales Netz sein. Ein neuronales Netz kann sich auf ein tiefes Netz oder ein tiefes neuronales Netz beziehen bzw. als solches bezeichnet werden. Ein neuronales Netz kann Rohdaten, wie z.B. unstrukturierte Daten, interpretieren, markieren und klassifizieren. Ein Neuron in einem tiefen neuronalen Netz kann Eingabedaten zusammenführen und zum Klassifizieren der Daten den Eingabedaten auf Grundlage eines Signifikanzniveaus dessen, was das neuronale Netz lernt, ein Gewicht zuweisen. Dass bedeutet, dass, je mehr Gewicht dem Neuron zugewiesen wird, desto wichtiger dieses Neuron ist. Je tiefer ferner das neuronale Netz ist, desto mehr Neuronen oder Knotenschichten durchlaufen die Eingabedaten. Neuron, Knoten und Filter können als austauschbare Begriffe betrachtet werden. Das Neuron kann den Ort darstellen, der Eingabedaten empfängt, ein Eingabegewicht erzeugt und den Daten zuordnet und dann über eine Berechnung bestimmt, ob die Daten im Netzwerk beibehalten bzw. weitergeleitet werden, bevor die Daten klassifiziert werden. Jede Neuronenschicht kann die Daten auf Grundlage der vorherigen Ausgabeschicht trainieren.
Deep-Learning-Modelle können große Datenmengen sammeln und analysieren, die sich über verschiedene Domänen erstrecken und zur Lösung realweltlicher Probleme verwendet werden können. Deep-Learning-Modelle haben jedoch ihre Grenzen und Nachteile, wie zum Beispiel das katastrophale Vergessen. Katastrophales Vergessen bezeichnet einen plötzlichen Wissensverlust oder sogar ein vollständiges Überschreiben des alten Wissens. Katastrophales Vergessen ist ein Phänomen, das auftritt, wenn altes Wissen nicht erhalten bleibt. Altes Wissen kann das Wissen einer früheren Aufgabe bezeichnen. Dieses alte Wissen kann verloren gehen, wenn Informationen für eine neue Aufgabe erlernt werden. Infolgedessen ist katastrophales Vergessen beim kontinuierlichen Lernen problematisch.
Eine Lösung zur Vermeidung von katastrophalem Vergessen in Deep-Learning-Modellen besteht darin, alle Trainingsdaten aller Aufgaben zu speichern und sie zusammen mit den neuen Streaming-Daten in zufälliger Reihenfolge neu einzuspeisen. Dieser Ansatz ist jedoch in der Realwelt aufgrund der enormen Menge an Daten problematisch, die innerhalb der Beschränkungen des Speicherbudgets des künstlichen Systems analysiert werden müssten.
Andere Lösungen für das Problem des katastrophalen Vergessens können eine Verwendung von zwei Modellen umfassen, dem aufgabeninkrementellen Modell und dem klasseninkrementellen Modell. Sowohl das aufgabeninkrementelle Modell als auch das klasseninkrementelle Modell können realweltliche Szenarien im Bereich des kontinuierlichen Lernens nachahmen. Damit diese Modelle funktionieren, müssen sie unter Umständen eine Reihe isolierter Aufgaben schrittweise lernen, ohne die Lösung der vorherigen zu vergessen. Damit das aufgabeninkrementelle Modell funktioniert, kann es die Verwendung verschiedener Aufgabenklassifikatoren oder eines Klassifikators mit mehreren Köpfen erfordern. Wenn eine neue Testprobe während der Referenzphase eingeführt wird, kann daher auch die Aufgabenmarkierung der Eingabedaten für das aufgabeninkrementelle Modell erforderlich sein, um entweder einen Aufgabenklassifikator oder einen Kopf für die Vorhersage auszuwählen.
Das klasseninkrementelle Modell unterscheidet sich vom aufgabeninkrementellen Modell, da das klasseninkrementelle Modell keine Aufgabenmarkierungen benötigt, um zu funktionieren. Aber auch ohne Aufgabenmarkierungen kann die Verwendung des klasseninkrementellen Modells problematisch sein. Heutige Verfahren zur Verwendung des klasseninkrementellen Modells berücksichtigen keine Verbindungen zwischen Aufgaben. Beispielsweise müssen diese Verfahren keine Verbindungen zwischen zuvor erlernten Aufgaben und Aufgaben berücksichtigen, die gerade erlernt werden. Demnach ist es eine Herausforderung, ein klasseninkrementelles Modell zu verwenden, um eine Reihe isolierter Aufgaben schrittweise zu erlernen, ohne die Lösung vorheriger Aufgaben zu vergessen.
Daher kann es unter anderem vorteilhaft sein, ein realistisches kontinuierliches Lernmodell zu erzeugen, das katastrophales Vergessen bei nicht stationär verteilten Streaming-Daten mit eingeschränkten Rechen- und Speicherkosten verhindern kann, indem einzigartige Pfade mit Querverbindungen für unterschiedliche Aufgaben in dem klasseninkrementellen Modell erlernt werden. Es kann auch vorteilhaft sein, Verbindungen zwischen Aufgaben zu berücksichtigen, indem entweder einzelne Aufgaben getrennt behandelt werden oder frühere Aufgaben als Lehrmodelle bzw. Merkmalsextraktoren für neue Aufgaben verwendet werden.
Die nachfolgend beschriebenen beispielhaften Ausführungsformen sehen ein System, Verfahren und Programmprodukt für Deep Learning vor. Ausführungsformen der vorliegenden Erfindung haben somit die Fähigkeit, das technische Gebiet Deep Learning zu verbessern, indem frühere Aufgaben als Lehrmodelle bzw. Merkmalsextraktoren für neue Aufgaben verwendet werden. Ferner schlagen Ausführungsformen der vorliegenden Erfindung vor, die komplementären Informationen aus den neuen Aufgaben gemeinsam zu nutzen, um zu beizutragen, katastrophales Vergessen der vorherigen Aufgaben zu vermeiden.
Ausführungsformen der vorliegenden Erfindung sehen ein Modell zum Aufspalten und gemeinsamen Nutzen vergangener Netze (DSPN, „Disjointing and Sharing Past Net“) vor. In einer Ausführungsform kann das DSPN-Modell drei Komponenten enthalten. Die Komponenten können auch als Blöcke bezeichnet werden. Das DSPN-Modell kann einen Aggregationsblock enthalten, der Aufgaben während der Testphase markierungsfrei machen kann. Der Aggregationsblock kann auch zum Informationsaustausch zwischen unterschiedlichen Aufgaben beitragen. Das DSPN kann eine Komponente enthalten, die Querverbindungen zwischen unterschiedlichen Aufgaben hinzufügen kann. Das DSPN-Modell kann die Querverbindungen zwischen vorangegangenen Aufgaben und neuen Aufgaben nutzen, um beim Lernen neuer Aufgaben früheres Wissen besser aufrechtzuerhalten. Das DSPN-Modell kann eine aufgabenorientierte Pfadkomponente enthalten, die katastrophales Vergessen verhindern kann. Das DSPN-Modell kann eine Möglichkeit bieten, eindeutige Pfade für jede der Aufgaben zu lernen. Die eindeutigen Pfade für jede Aufgabe können für diese bestimmte Aufgabe einzigartig sein. Das DSPN-Modell kann auch einen eindeutigen Pfad einer vorherigen Aufgabe mit einer gegenwärtigen Aufgabe in den unteren Schichten gemeinsam nutzen und Pfade für jede der Aufgaben in den höheren Schichten gemeinsam nutzen.
Ein tiefes neuronales Netz kann einen oder mehrere Blöcke enthalten. Jeder Block kann eine oder mehrere Netzschichten enthalten. Üblicherweise können gemeinsam nutzbare Blöcke aus unteren Schichten eines tiefen neuronalen Netzes bestehen, die von unterschiedlichen Aufgaben gemeinsam genutzt werden. Dies kann möglich sein, da bei einer tiefen neuronalen Netzarchitektur die unteren Schichten allgemeine Merkmale extrahieren können, während die oberen Schichten aufgabenspezifische Merkmale extrahieren. Die unteren Schichten können somit aus früheren Pfaden wiederverwendet werden. In einer Ausführungsform kann das DSPN-Modell die unteren Schichten aus früheren Aufgaben sowohl während der Trainings- als auch der Testphase wiederverwenden. In einer Ausführungsform können die unteren Schichten des DSPN-Modells als gemeinsam nutzbare Blöcke bezeichnet werden.
Gemäß einer Ausführungsform kann das DSPN-Modell eindeutige Pfade für jede Aufgabe erstellen. Jede Aufgabe kann eine oder mehrere Proben umfassen. Während der Trainingsphase kann das DSPN-Modell durch die empfangenen Aufgaben sequentiell trainiert werden. Das DSPN-Modell kann auch Markierungen für alle Proben in jeder Aufgabe empfangen. In einer Ausführungsform kann eine Aufgabe eine Mehrzahl von Proben umfassen. In einer alternativen Ausführungsform kann eine Aufgabe eine Probe umfassen. Beispielsweise kann das DSPN-Modell Aufgabe 1 empfangen. Das DSPN-Modell kann angewiesen werden, ein Tier, das auf einem Bild gezeigt ist, korrekt zu klassifizieren. Aufgabe 1 kann zwei Trainingsproben aufweisen, wie zum Beispiel eine Hunde- und eine Katzen-Probe. Neben den Bildern der Tiere kann das DSPN-Modell auch zwei Markierungen empfangen, eine Hunde-Markierung und eine Katzen-Markierung. In einem weiteren Beispiel kann Aufgabe 1 eine Probe umfassen. Das DSPN-Modell kann somit eine Markierung zusammen mit dem Bild empfangen, die zu dem Bild gehört. In beiden Beispielen kann das DSPN-Modell beim Training für Aufgabe 1 einen eindeutigen Pfad für die Aufgabe 1 erstellen. Wenn eine nachfolgende Aufgabe, wie zum Beispiel Aufgabe 2, in das DSPN-Modell eingegeben wird, kann das DSPN-Modell einen eindeutigen Pfad für Aufgabe 2 erstellen. Für einen eindeutigen Pfad einer Aufgabe kann jedes Neuron auf dem eindeutigen Pfad andere zugeordnete Gewichte haben.
Für jede nachfolgende Aufgabe kann das DSPN-Modell zuvor erlernte Pfade der vorherigen Aufgaben einfrieren und nur die Neuronen aktualisieren, die auf dem Pfad der gegebenen Aufgabe liegen. Wenn das DSPN-Modell beispielsweise einen eindeutigen Pfad für Aufgabe 2 erstellt, wird der eindeutige Pfad von Aufgabe 1 eingefroren. In einer Ausführungsform kann das DSPN-Modell zum Einfrieren des Pfads der vorherigen Aufgabe Parameter an jedem Neuron des Pfads der vorherigen Aufgabe als nicht trainierbar festlegen. Wenn das DSPN-Modell während der Trainingsphase die nächste Aufgabe empfängt, erstellt das DSPN-Modell somit einen eindeutigen Pfad für diese nächste Aufgabe, ändert aber nicht die Neuronengewichte des vorherigen Pfads. Ferner ändert das DSPN-Modell nicht die Neuronen des vorherigen Pfads und ihre zugehörigen Parameter. Dies kann erreicht werden, indem angenommen wird, dass jedes Neuron auf dem eindeutigen Pfad ein einzigartiges Gewicht hat, das zu diesem Neuron gehört. Ferner kann das DSPN-Modell während der Trainingsphase Neuronen trainieren, die als trainierbar gekennzeichnet sind, darf aber keine Neuronen trainieren, die als nicht trainierbar gekennzeichnet sind. Wenn also das DSPN-Modell ein Neuron findet, das als nicht trainierbar gekennzeichnet ist, darf das DSPN-Modell das Gewicht dieses Neurons nicht ändern, da dieses Neuron eingefroren ist. Beispielsweise kann das DSPN-Modell während der Trainingsphase Aufgabe 1 empfangen und einen eindeutigen Pfad für Aufgabe 1 erstellen. Das DSPN-Modell kann die Neuronen auf diesem Pfad einfrieren, indem es diese Neuronengewichte als nicht trainierbar festlegt. Wenn das DSPN-Modell Aufgabe 2 empfängt, erstellt das DSPN-Modell einen eindeutigen Pfad für Aufgabe 2, ändert jedoch nicht das Gewicht der Neuronen des eindeutigen Pfads von Aufgabe 1, da diese Neuronen als nicht trainierbar gekennzeichnet sind. Die Neuronen auf dem eindeutigen Pfad von Aufgabe 1 werden nicht trainiert, da ihre Gewichte festgelegt sind.
Ein eindeutiger Pfad für jede Aufgabe kann auch dazu beitragen, Wissen über mehrere Aufgaben hinweg aufrechtzuerhalten. Beispielsweise kann Aufgabe 1 eine Klassifizierungsaufgabe einer Unterscheidung umfassen, ob ein Bild eine Katze oder ein Hund ist. Aufgabe 2 kann eine Klassifizierungsaufgabe zur Unterscheidung umfassen, ob ein Bild ein Apfel oder eine Orange ist. Die Bilder für Aufgabe 1 und 2 unterscheiden sich, da ein Trainingsbild für Aufgabe 1 ein Tier und ein Trainingsbild für die zweite Aufgabe eine Frucht zeigt. Wenn der eindeutige Pfad von Aufgabe 1 nicht eingefroren ist, kann sich beim Training des DSPN-Modells mit Aufgabe 2 das Training mit Aufgabe 2 auf die Vorhersage von Aufgabe 1 auswirken. Durch Einfrieren des eindeutigen Pfads von Aufgabe 1 kann jedoch der eindeutige Pfad von Aufgabe 1 verwendet werden, um Aufgabe 2 vorherzusagen. Der Pfad von Aufgabe 1 kann verwendet werden, um Aufgabe 1 von Aufgabe 2 zu unterscheiden.
In einer Ausführungsform kann das DSPN-Modell ein Hinzufügen von Querverbindungen zwischen Aufgaben ermöglichen. Querverbindungen können Verbindungen zwischen zwei oder mehr Aufgaben von einer Schicht zu einer anderen Schicht bezeichnen. Querverbindungen können als Vorwärtsverbindungen und Rückwärtsverbindungen kategorisiert werden. Vorwärtsverbindungen können dazu beitragen, gegenwärtige und neue Aufgaben auf Grundlage des Wissens von vorherigen Aufgaben wirksamer zu lernen. Vorwärtsverbindungen können von vorherigen Aufgaben zu den gegenwärtigen und neuen Aufgaben hergestellt werden. Rückwärtsverbindungen können dazu beitragen, das Wissen früherer Aufgaben zu bewahren, indem komplementäre Informationen aus den gegenwärtigen und neuen Aufgaben verwendet werden. Rückwärtsverbindungen können von den gegenwärtigen und neuen Aufgaben zu den vorherigen Aufgaben hergestellt werden.
Die Verwendung von Querverbindungen zwischen früheren Aufgaben und gegenwärtigen oder neuen Aufgaben kann den Austausch komplementärer Informationen zwischen unterschiedlichen Aufgaben fördern. Dies kann es dem DSPN-Modell ermöglichen, beim Lernen neuer Aufgaben früheres Wissen besser aufrechtzuerhalten. Beispielsweise kann Aufgabe 1 eine Klassifizierung zwischen einem Hund und einer Katze sein. Aufgabe 2 kann eine Klassifizierung zwischen einem Tiger und einem Löwen sein. Wenn das DSPN-Modell Aufgabe 1 trainiert, erhält das DSPN-Modell Informationen in Bezug auf die Merkmale der Katze und des Hundes und unterscheidet zwischen diesen Merkmalen. Wenn das DSPN-Modell Aufgabe 2 trainiert, können Informationen aus Aufgabe 1 dem DSPN-Modell helfen, Aufgabe 2 zu klassifizieren. Insbesondere kann das DSPN-Modell einige der Merkmale wiederverwenden, die es aus Aufgabe 1 erlernt hat, wie zum Beispiel Gesichtsmerkmale, die über die Katze erlernt wurden, die verwendet werden können, um den Löwen zu klassifizieren. Das DSPN-Modell kann die aus Aufgabe 1 erlernten Informationen und ihren Pfad direkt übernehmen, um Aufgabe 2 zu trainieren.
In einem weiteren Beispiel ähneln sich Aufgabe 1 und Aufgabe 2 nicht. Das bedeutet, dass Aufgabe 1 eine Klassifizierungsaufgabe umfassen kann, um zu unterscheiden, ob ein Bild eine Katze oder ein Hund ist. Aufgabe 2 kann eine Klassifizierungsaufgabe umfassen, um zu unterscheiden, ob ein Bild ein Apfel oder eine Orange ist. Wenn das DSPN-Modell mit Aufgabe 2 trainiert, kann das DSPN-Modell die Informationen verwenden, die es aus dem Training mit Aufgabe 1 gewonnen hat. Das DSPN-Modell kann somit die Querverbindungen zwischen Aufgabe 1 und Aufgabe 2 verwenden, um Aufgabe 2 von Aufgabe 1 zu unterscheiden
Zusätzlich zur Verwendung von Querverbindungen zwischen Aufgaben kann dem DSPN-Modell ein Aggregationsblock hinzugefügt werden. Der Aggregationsblock kann alle Informationen von unterschiedlichen Aufgaben aggregieren, wie zum Beispiel früherer Aufgaben und gegenwärtiger Aufgaben. Beispielsweise können alle Pfade während der Trainingsphase und der Testphase durch den Aggregationsblock gehen. Während der Trainingsphase kann das DSPN-Modell Aufgaben mit ihren jeweiligen Markierungen für jede Probe in der Aufgabe empfangen. Für jede Aufgabe kann das DSPN-Modell ihren eindeutigen Pfad lernen. Der Aggregationsblock kann die Ausgaben des Pfads jeder der Aufgaben sammeln. Diese Ausgaben können während des Testens und der nachfolgenden Verwendung des DSPN-Modells verwendet werden. Diese Ausgaben können von nachfolgenden Aufgaben gemeinsam genutzt werden. Infolgedessen erfordert das DSPN-Modell während der Testphase keine zusätzlichen Aufgaben-Markierungsinformationen.
In einer Ausführungsform kann der Aggregationsblock vor der letzten Schicht des Netzes hinzugefügt werden. Die Verwendung des Aggregationsblocks kann es dem DSPN-Modell erlauben, Informationen von unterschiedlichen Aufgaben besser zu aggregieren, und kann es dem Netz erlauben, Klassenkennzeichnungen direkt vorherzusagen, ohne dass Aufgabenmarkierungen als Eingaben erforderlich sind.
Unter Bezugnahme auf 1 ist eine beispielhafte vernetzte Datenverarbeitungsumgebung 100 gemäß einer Ausführungsform gezeigt. Die vernetzte Datenverarbeitungsumgebung 100 kann einen Computer 102 mit einem Prozessor 104 und einer Datenspeichereinheit 106 umfassen, der ein Softwareprogramm 108 und ein kontinuierliches Lernprogramm 110a ausführen kann. Die vernetzte Datenverarbeitungsumgebung 100 kann auch einen Server 112 umfassen, der ein kontinuierliches Lernprogramm 110b ausführen kann und der mit einer Datenbank 114 und einem Datenübertragungsnetzwerk 116 interagieren kann. Die vernetzte Datenverarbeitungsumgebung 100 kann eine Mehrzahl von Computern 102 und Servern 112 umfassen, von denen nur einer gezeigt ist. Das Datenübertragungsnetzwerk 116 kann verschiedene Arten von Datenübertragungsnetzen umfassen, beispielsweise ein Weitverkehrsnetz (WAN), ein lokales Netz (LAN), ein Telekommunikationsnetz, ein drahtloses Netz, ein öffentliches Wählnetz und/oder ein satellitengestütztes Netz. Es sollte beachtet werden, dass 1 nur eine Darstellung einer Umsetzung bietet und keine Beschränkungen hinsichtlich der Umgebungen impliziert, in denen verschiedene Ausführungsformen umgesetzt werden können. Viele Änderungen an den gezeigten Umgebungen können auf Grundlage von Konstruktions- und Umsetzungsanforderungen vorgenommen werden.
Der Client-Computer 102 kann mit dem Server-Computer 112 über das Datenübertragungsnetzwerk 116 Daten austauschen. Das Datenübertragungsnetzwerk kann Verbindungen wie Drähte, drahtlose Datenübertragungsverbindungen oder Lichtwellenleiter usw. umfassen. Wie unter Bezugnahme auf 4 beschrieben wird, kann der Server-Computer 112 jeweils interne Komponenten 902a und externe Komponenten 904a umfassen, und der Client-Computer 102 kann jeweils interne Komponenten 902b und externe Komponenten 904b umfassen. Der Server-Computer 112 kann auch in einem Cloud-Computing-Dienstmodell betrieben werden, beispielsweise Software as a Service (SaaS), Analytics as a Service (AaaS), Platform as a Service (PaaS), Blockchain as a Service (BaaS) oder Infrastructure as a Service (laaS). Der Server 112 kann sich auch in einem Cloud-Computing-Bereitstellungsmodell befinden, etwa einer privaten Cloud, einer Community-Cloud, einer öffentlichen Cloud oder einer Hybrid-Cloud. Der Client-Computer 102 kann zum Beispiel eine mobile Einheit, ein Telefon, ein Personal Digital Assistant, ein Netbook, ein Laptop-Computer, ein Tablet-Computer, ein Desktop-Computer oder jede Art von Datenverarbeitungseinheit sein, die ein Programm ausführen, auf ein Netzwerk zugreifen und auf eine Datenbank 114 zugreifen kann. Gemäß verschiedenen Umsetzungen der vorliegenden Ausführungsform kann das kontinuierliche Lernprogramm 110a, 110b mit einer Datenbank 114 interagieren, die in verschiedene Speichereinheiten eingebettet sein kann, beispielsweise, aber nicht beschränkt auf, einen Computer/eine mobile Einheit 102, einen vernetzten Server 112, oder einen Cloud-Speicher-Dienst.
Gemäß der vorliegenden Ausführungsform kann ein Benutzer, der einen Client-Computer 102 oder einen Server-Computer 112 verwendet, das kontinuierliche Lernprogramm 110a bzw. 110b verwenden, um das DSPN-Modell zu erstellen, das einzigartige Pfade mit Querverbindungen für unterschiedliche Aufgaben in einem klasseninkrementellen Szenario lernen kann. Das Deep-Learning-Verfahren wird nachfolgend anhand der 2 bis 3 näher beschrieben.
Unter Bezugnahme auf 2 ist ein Beispiel-Blockschema einer Trainingsumgebung 200 gemäß einer Ausführungsform gezeigt. In einer Ausführungsform kann das kontinuierliche Lernprogramm 110a, 110b das DSPN-Modell verwenden, um Aufgaben durch aufgabenorientierte Pfade nacheinander zu lernen. Das kontinuierliche Lernprogramm 110a, 110b kann viele Aufgaben 202a bis n lernen. Die Aufgaben 202a bis n können umfassen, sind aber nicht beschränkt auf: Computer Vision, Spracherkennung, maschinelle Übersetzung, Filterung sozialer Netzwerke, Spielen von Brett- und Videospielen oder medizinische Diagnose. Wie gezeigt, kann jede Aufgabe 202a bis n ihren eigenen Pfad haben, den die Aufgabe 202a bis n während der Test- und der Inferenzphase durchläuft.
Die Trainingsumgebung 200 des DSPN-Modells kann mehrere Schichten 204a bis n haben. Jede Schicht 204a bis n kann mehrere Neuronen bzw. Knoten aufweisen. Die Schichten 204a bis n können aus verschiedenen Arten von Schichten bestehen, etwa Faltungs-, Pooling-, ReLU-, linearen oder vollständig verbundenen Schichten. Die Schichten 204a bis n können auch als untere Schichten und obere Schichten bezeichnet werden. Beispielsweise können die Schichten 204a, 204b als untere Schichten bezeichnet werden, während die Schichten 204c bis n als obere Schichten bezeichnet werden können. Die unteren Schichten können allgemeine Aufgabenmerkmale extrahieren, während die oberen Schichten aufgabenspezifische Merkmale extrahieren können. Die unteren Schichten können somit auch als gemeinsam nutzbare Blöcke bezeichnet werden, da sie beim Testen oder Analysieren einer neuen Aufgabe aus früheren Aufgaben und ihren erzeugten Pfaden wiederverwendet werden können.
Die Trainingsumgebung 200 des DSPN-Modells kann auch einen Aggregationsblock 206 aufweisen. Der Aggregationsblock 206 kann Informationen aller Pfade aggregieren. Der Aggregationsblock 206 kann beim gemeinsamen Nutzen von Informationen zwischen verschiedenen Aufgaben 202a bis n helfen.
Wie in 2 gezeigt, kann die Trainingsumgebung 200 des DSPN-Modells auch Verbindungen von Aufgaben 202a bis n einfrieren, die zuvor ausgeführt wurden, bevor zu einer anderen Aufgabe übergegangen wird. Beispielsweise kann das kontinuierliche Lernprogramm 110a, 110b das DSPN-Modell verwenden, um mehrere Aufgaben zu lernen. Beginnend bei Aufgabe 1 kann während der Trainingsphase der Pfad von Aufgabe 1 bestimmt werden und zu dem Pfad zugeordnete Parameter können ermittelt werden. Beim Wechsel zu einer zweiten Aufgabe, Aufgabe 2, kann das DSPN-Modell die Parameter des eindeutigen Pfads für Aufgabe 1 einfrieren und dann einen neuen Pfad für Aufgabe 2 erstellen. Es sollte beachtet werden, dass das DSPN-Modell in den unteren Schichten den Pfad der Aufgabe 1 nicht einfriert. Das heißt, dass die gemeinsam nutzbaren Blöcke nicht eingefroren werden. Vielmehr werden die gemeinsam nutzbaren Blöcke von nachfolgenden Aufgaben sowohl während der Trainings- als auch der Testphase verwendet.
Das DSPN-Modell kann auch Vorwärts- und Rückwärtsverbindungen zwischen alten und neuen Aufgaben erlauben. Nachdem das DSPN-Modell beispielsweise einen Pfad für Aufgabe 1 erstellt hat, kann das DSPN-Modell dann zu Aufgabe 2 übergehen. Anfänglich können die unteren Schichten von Aufgabe 1 mit Aufgabe 2 gemeinsam genutzt werden. In den oberen Schichten können Vorwärtsverbindungen zwischen Aufgabe 1 und Aufgabe 2 hinzugefügt werden, um Aufgabe 2 zu helfen, auf Grundlage von Aufgabe 1 wirksamer zu lernen. Zusätzlich kann eine Rückwärtsverbindung von Aufgabe 2 zu Aufgabe 1 hinzugefügt werden, um Aufgabe 1 dabei zu helfen, Wissen aufrechtzuerhalten, indem die komplementären Informationen von Aufgabe 2 verwendet werden.
Nimmt man nun auf 3 Bezug, ist ein Betriebsflussdiagramm 300 gemäß mindestens einer Ausführungsform gezeigt. Das Betriebsflussdiagramm 300 zeigt das Training eines beispielhaften DSPN-Modells. Das DSPN-Modell kann von dem kontinuierlichen Lernprogramm 110a, 110b verwendet werden, um katastrophales Vergessen in einem tiefen neuronalen Netz zu verhindern.
Wie oben beschrieben, zielt klasseninkrementelles Lernen darauf ab, neue Aufgaben sequentiell aus den Streaming-Daten zu lernen. Jede Aufgabe kann eine einzelne Klasse oder einen Datenbestand unterschiedlicher Kategorien umfassen. Kontinuierliches Erlernen von neuem Wissen unter Beibehaltung der Leistungsfähigkeit früherer Aufgaben ist das Hauptziel des klasseninkrementellen Lernens. Um dieses Ziel zu erreichen, schlagen Ausführungsformen der vorliegenden Erfindung das DSPN-Modell vor, das eindeutige Pfade für unterschiedliche Aufgaben erzeugen kann. Ein eindeutiger Pfad für jede Aufgabe kann dazu beitragen, das Wissen über mehrere Aufgaben hinweg aufrechtzuerhalten. In einer Ausführungsform kann das DSPN-Modell auch einen Aggregationsblock und Querverbindungen zwischen Aufgaben verwenden, um die Leistungsfähigkeit vorheriger Aufgaben aufrechtzuerhalten.
Bei Vorgang 302 wird eine Eingabe empfangen. Die Eingabe kann in Form der Aufgaben 202a bis n erfolgen. Die Eingabe kann auch Trainingsdaten umfassen, sowohl strukturierte als auch unstrukturierte Daten. Beispielsweise können die Daten Bilder und Dokumente umfassen, die in einer oder mehreren Datenbanken gespeichert sind. Öffentliche Datenbanken können verwendet werden, und mit geeignetem Zugriff können private Datenbanken verwendet werden. Zum Beispiel können zum Trainieren eines Modells Trainingsdatenproben verschiedene Tierarten umfassen, die aus öffentlichen Datenbanken erhalten wurden. Ein Beispiel für eine private Datenbank kann Bilder und Dokumente umfassen, die von einem Krankenhausarchiv zum Trainieren eines Modells verwendet werden, das medizinische Bilder oder medizinische Diagnosen betrifft. Ein weiteres Beispiel für eine private Datenbank kann Bilder und Dokumente aus anderen Branchen umfassen, etwa Finanzen, Recht, Landwirtschaft, Automotive oder öffentliche Verwaltung.
Bei Vorgang 304 werden gemeinsam nutzbare Blöcke angewendet. In einer Architektur eines tiefen neuronalen Netzes können die unteren Schichten allgemeine Merkmale extrahieren, während die oberen Schichten aufgabenspezifische Merkmale extrahieren können. Die unteren Schichten können somit von allen Aufgaben gemeinsam genutzt werden. In einer Ausführungsform kann das DSPN untere Schichten aufweisen, die als gemeinsam nutzbare Blöcke bezeichnet werden können. Nach Abschluss des Trainings der ersten Aufgabe mit Pfad P₁ können in einer Ausführungsform beispielsweise alle folgenden Aufgaben s Blöcke des Pfads P₁ wiederverwenden: $P_{k} = {B_{1}^{(1)}, \dots, B_{1}^{(s)}, B_{k}^{(s + 1)}, \dots, B_{k}^{(m)}}$
wobei P_k einen Pfad einer Aufgabe k bezeichnet und 6 einen Block bezeichnet.
In einer Ausführungsform kann es einen oder mehrere gemeinsam nutzbare Blöcke geben, die von verschiedenen Aufgaben gemeinsam genutzt werden, wie beispielsweise zwei gemeinsam nutzbare Blöcke. In einer alternativen Ausführungsform kann die Anzahl der gemeinsam nutzbaren Blöcke drei oder mehr betragen. Die Verwendung von gemeinsam nutzbaren Blöcken zwischen verschiedenen Aufgaben kann die Anzahl der Parameter für die ersten s Blöcke stark verringern.
Bei Vorgang 306 werden eindeutige Pfade für jede der Aufgaben erlernt. Das Erlernen eines eindeutigen Pfads für jede der Aufgaben kann dazu beitragen, das Wissen über mehrere Aufgaben hinweg aufrechtzuerhalten und so katastrophales Vergessen zu verhindern. Dies kann erreicht werden, indem getrennte Pfade verwendet werden. Getrennte Pfade können ausgezeichnete Pfade sein, die unabhängig sind und keine Verbindungen zwischen sich aufweisen. Man nehme beispielsweise an, dass das DSPN-Modell K Aufgaben nacheinander lernen kann. Die Trainingsdaten können dargestellt werden als: $X = {X_{1}, X_{2}, \dots, H_{K}},$
wobei X_k der Trainingsdatensatz für die k-te Aufgabe ist.
In einer Ausführungsform kann Aufgabe k U_k verschiedene Klassen umfassen. U_k kann zudem bei unterschiedlichen Aufgaben gleich oder unterschiedlich sein. Beim Trainieren der ersten Aufgabe kann das DSPN-Modell mit einem einzigen Pfad P₁ bestehend aus m Blöcken ${B_{1}^{(1)}, B_{1}^{(2)}, \dots, B_{k}^{(m)}}$
beginnen, wobei jeder Block $B_{1}^{(i)}, ε {1,2, \dots, m}$
ein Restblock oder eine mehrschichtige Perzeptronschicht sein kann. Ein Restblock kann ein Teilmodul eines bestehenden vortrainierten Deep-Learning-Moduls bezeichnen, das im DSPN-Modell verwendet werden kann. Eine mehrschichtige Perzeptronschicht kann ein vorwärtsgerichtetes künstliches neuronales Netz sein, das ebenfalls in dem DSPN-Modell verwendet werden kann.
Während der Trainingsphase können verborgene Aktivierungen $h_{1}^{(i)}$
nacheinander erhalten werden über: $h_{1}^{(i)} = B_{1}^{(i)} (h_{1}^{(i - 1)}), i ε {1,2, \dots, m}$
wobei $h_{1}^{(0)}$
die Eingabedaten sind, die aus X₁ entnommen wurden.
Beim Umschalten auf die zweite Aufgabe können Parameter des Pfades P₁ eingefroren werden und für die Daten X₂ kann ein neuer Pfad P₂ mit m Blöcken erstellt werden. Dies kann auf alle K Aufgaben ausgedehnt werden.
Eine verborgene Aktivierung kann eine Ausgabe jeder der Aufgaben sein. Beispielsweise kann das DSPN-Modell während des Trainings damit beauftragt werden, Aufgabe 1 zu klassifizieren. Das DSPN-Modell lernt den eindeutigen Pfad für Aufgabe 1 und erzeugt eine Ausgabe. Die Ausgabe des eindeutigen Pfads für Aufgabe 1 ist die verborgene Aktivierung. Die verborgenen Aktivierungen aller Aufgaben können im Aggregationsblock gesammelt werden. Je mehr Aufgaben das DSPN-Modell trainiert, desto mehr verborgene Aktivierungen werden erzeugt.
Bei Vorgang 308 werden Querverbindungen zwischen unterschiedlichen Aufgaben hinzugefügt. Die Querverbindungen können sich auf die Gesamtzahl der Parameter auswirken, da sich die Querverbindungen quadratisch zur Anzahl der Aufgaben verhalten. Die Querverbindungen können Vorwärtsverbindungen und Rückwärtsverbindungen umfassen. Eine Vorwärtsverbindung kann eine Verbindung von einem vorherigen Pfad zu einem gegenwärtigen Pfad umfassen. Dies kann es dem gegenwärtigen Pfad ermöglichen, zu lernen, wie das gewichtete Vorwissen aus einem vorherigen Pfad verwendet werden kann, um das Training des gegenwärtigen Pfads zu verbessern und zu beschleunigen. Eine Rückwärtsverbindung kann eine Verbindung vom gegenwärtigen Pfad zu einem vorherigen Pfad umfassen. Durch Anwenden einer Rückwärtsverbindung kann die Leistungsfähigkeit der vorherigen Aufgabe durch den Wissenstransfer vom Pfad der gegenwärtigen Aufgabe zum Pfad der vorherigen Aufgabe verbessert werden.
In einer Ausführungsform kann eine zwischengeschaltete Vorwärts-Querverbindung zwischen Pfaden verwendet werden. Genauer gesagt geschieht dies bei Aufgabe k mit Vorwärtsverbindungen
$C_{k}^{ƒ} = {C_{0, k}^{(i)}, C_{1, k}^{(i)}, \dots, C_{k - 1 k}^{(i)}}, i ε {1,2, \dots m} .$
Die verborgene Aktivierung $h_{k}^{(i)}$
wird somit aktualisiert durch: $h_{k}^{(i)} = B_{k}^{(i)} (h_{k}^{(i - 1)}) + \sum_{j < k} C_{j, k}^{(i)} (h_{j}^{(i - 1)}), i ε {1,2, \dots, m}$

wobei $h_{j}^{(i - 1)}$
verborgene Aktivierungen in vorherigen Pfaden sind und $C_{j, k}^{(i)}$
ein trainierbarer Block ist, der vorheriges Wissen der j-ten Aufgabe in die gegenwärtige Aufgabe k einbezieht.
In einer Ausführungsform kann auch eine zwischengeschaltete Rückwärts-Querverbindung zwischen Pfaden angewendet werden. Genauer gesagt können mit Hilfe von Rückwärtsverbindungen $C_{k}^{b} = {C_{k,0}^{(i)}, C_{k,1}^{(i)}, \dots, C_{k, k - 1}^{(i)}}, i ε {1,2, \dots, m}$
die Informationen der gegenwärtigen Aufgabe zum Aktualisieren vorheriger Aufgaben j < k verwendet werden durch: $h_{j}^{(i)} = B_{j}^{(i)} (h_{j}^{(i - 1)}) + \sum_{t \leq k} C_{t, j}^{(i)} (h_{t}^{(i - 1)}), i ε {1,2, \dots, m},$
wobei für die gegebene Aufgabe k $C_{t, j}^{(i)}$
nur trainierbar ist, wenn t = k ist.
In einer Ausführungsform ist ein Satz von Rückwärts- und Vorwärtsverbindungen zulässig. Wenn das DSPN-Modell beispielsweise zur zweiten Aufgabe wechselt, können wie oben beschrieben Parameter des eindeutigen Pfads P₁ eingefroren werden und für die Daten X₂ kann ein neuer Pfad P₂ mit m Blöcken erstellt werden. Ferner kann eine Vorwärtsverbindung von Aufgabe 1 zu Aufgabe 2 angewendet werden. Zusätzlich kann auch eine Rückwärtsverbindung von Aufgabe 2 zu Aufgabe 1 angewendet werden. Durch Anwenden der Vorwärtsverbindung von Aufgabe 1 zu Aufgabe 2 kann der Pfad k von Aufgabe 2 gewichtetes Vorwissen verwenden, um sein Pfadtraining zu verbessern. Wenn außerdem Rückwärtsverbindungen von Aufgabe 2 zu Aufgabe 1 angewendet werden, kann das Wissen von Aufgabe 2 von Aufgabe 2 zu Aufgabe 1 fließen, wodurch die Leistungsfähigkeit von Aufgabe 1 verbessert wird. In einer alternativen Ausführungsform sind mehrere Rückwärts- und Vorwärtsverbindungen zulässig.
Bei Vorgang 310 wird der Aggregationsblock 206 hinzugefügt. In einer Ausführungsform kann der Aggregationsblock 206 vor der letzten Schicht des Netzes hinzugefügt werden, um Informationen von unterschiedlichen Aufgaben besser zu aggregieren. Der Aggregationsblock 206 kann die Informationen aller Pfade einbeziehen. Der Aggregationsblock 206 kann ermöglichen, dass alle Pfade durch den Aggregationsblock 206 laufen, sowohl während der Trainings- als auch der Testphase.
Der Aggregationsblock 206 kann während der gesamten Trainingsphase kontinuierlich aktualisiert werden, wodurch ermöglicht wird, dass Informationen zwischen unterschiedlichen Aufgaben gemeinsam genutzt werden. In einem herkömmlichen Deep-Learning-Modell wird während der Testphase ein Bild zusammen mit der Aufgaben-ID bereitgestellt. Nachdem das Modell die Aufgaben-ID empfangen hat, liest das Modell sie und ermittelt, dass das bereitgestellte Bild zu einer bestimmten Aufgabe gehört, z.B. Aufgabe 1. Das Modell kann dann auf Grundlage der bereitgestellten Aufgaben-ID und den dieser Aufgaben-ID zugeordneten Informationen einen Rückschluss darauf ziehen, was das Bild zeigt.
Ausführungsformen der vorliegenden Erfindung sehen das DSPN-Modell vor, das den Aggregationsblock 206 anstelle der Aufgaben-ID verwenden kann. Das DSPN-Modell empfängt demnach keine Aufgabe-ID. Vielmehr aggregiert der Aggregationsblock 206 alle Ausgaben von allen Aufgaben, die in das DSPN-Modell eingegeben wurden. Diese Aggregation von Ausgaben ermöglicht es dem DSPN-Modell, Ausgaben bzw. Wissen über alle vorherigen Aufgabenwege zu haben. Wenn daher das DSPN-Modell eine neue Aufgabe empfängt, kann das DSPN-Modell am Aggregationsblock 206 Ausgaben von jedem vorherigen Pfad laden, um seine Vorhersage zu treffen. Da das DSPN-Modell keine Aufgaben-ID aufweist, kann das DSPN-Modell die relevanteste Aufgabe aus den aggregierten vorherigen Aufgaben auswählen, um seine Vorhersage für die neue Aufgabe zu vervollständigen.
Wie oben beschrieben, kann das DSPN-Modell zusätzlich zu dem Aggregationsblock 206 auch einen Pfad P_k einfrieren, um das Wissen der k-ten Aufgabe aufrechtzuerhalten. Da die Aufgabenmarkierungen unbekannt sind, weiß während der Testphase das DSPN-Modell im Allgemeinen nicht, welcher Pfad gewählt werden muss, um die Inferenz für eine gegebene Datenprobe auszuführen. Ausführungsformen der vorliegenden Erfindung führen eine Architektur des Aggregationsblocks 206 S ein, der Informationen aller Pfade aggregiert. Durch die Aggregation des Wissens aus K Aufgaben, kann Block S eine einzigartige verborgene Aktivierung h_K erzeugen: $h_{K} = A (h_{1}^{(m)} \oplus h_{2}^{(m)} \oplus \dots \oplus h_{k}^{(m)}),$
wobei $h_{i}^{(m)}$
die letzte verborgene Aktivierung des Pfads P_i ist und ⊕ die elementweise Addition bezeichnet.
Da es nur k Pfade gibt, kann während des Trainings Block S, wenn Aufgabe k eintrifft, aktualisiert werden durch: $h_{k} = A (h_{1}^{(m)} \oplus h_{2}^{(m)} \oplus \dots \oplus h_{k}^{(m)}),$
wobei A der Aggregationsblock ist und h_k die gleiche Dimensionierung wie h_K. haben kann.
Während der Pfad P_k nach der Aufgabe k eingefroren wird, kann in einer Ausführungsform der Block S immer trainierbar sein. Ein Block, der immer trainierbar sein kann, ermöglicht es, Informationen zwischen unterschiedlichen Aufgaben auszutauschen. Der Block S kann die verborgene Aktivierung von allen Aufgaben erhalten. Der Block 5 kann somit die Informationen der verborgenen Aktivierungen von unterschiedlichen Aufgaben gemeinsam nutzen. Dies kann durch Anwendung von Gleichung 4 erfolgen.
Bei Vorgang 312 wird eine Ausgabe ausgegeben. Das DSPN-Modell kann eine Vorhersage aus einer bestimmten Eingabe liefern. Das DSPN-Modell erhält beispielsweise eine Eingabe in Form des Bildes einer Katze. Das DSPN-Modell kann auch eine Probenmarkierung erhalten. In diesem Fall kann die Probenmarkierung anzeigen, dass es sich bei dem Bild um eine „Katze“ handelt. Da Aufgabe 1 in einer Ausführungsform nur eine Probe umfasst, erhält das DSPN-Modell eine Probenmarkierung. In einer alternativen Ausführungsform kann Aufgabe 1 zwei Proben umfassen. Das DSPN-Modell kann demnach zwei Probenmarkierungen erhalten, die zu den beiden Proben von Aufgabe 1 gehören.
Nachdem das DSPN-Modell ein Probenbild mit der zugehörigen Probenmarkierung erhalten hat, kann das DSPN-Modell angewiesen werden, das Tier auf dem Bild zu klassifizieren. Die Ausgabe kann eine Vorhersage sein, dass das Bild eine Katze ist. In einer Ausführungsform kann die von dem DSPN-Modell erzeugte Ausgabe mit der einen oder den mehreren Proben der Aufgabe verglichen werden, um zu ermitteln, ob die Ausgabe korrekt ist. Unabhängig davon, ob das DSPN-Modell Aufgabe 1 richtig klassifiziert, kann jedoch eine andere Eingabe, wie zum Beispiel Aufgabe 2 und ihre zugehörigen Proben und Probenmarkierungen, in das DSPN-Modell für weiteres Training eingegeben werden.
Es sollte beachtet werden, dass das DSPN-Modell während der Trainingsphase den in 3 zeigten Vorgängen folgen kann. Während der Testphase ist das DSPN-Modell jedoch bereits trainiert. Das Betriebsflussdiagramm des DSPN-Modells kann somit während des Testens zwei Vorgänge umfassen: Empfangen einer Eingabe und Ausgeben einer Ausgabe. Beispielsweise kann das DSPN-Modell ein Bild erhalten und mit der Klassifizierung des Bildes beauftragt werden. Während des Testens empfängt das DSPN-Modell keine Markierungen, wie zum Beispiel Probenmarkierungen, da das DSPN-Modell bereits trainiert wurde. Wenn das DSPN-Modell somit eine Eingabe erhält, klassifiziert es die Eingabe und gibt eine Ausgabe aus.
Es sollte beachtet werden, dass die 2 bis 3 nur ein Beispiel einer Ausführungsform angeben und keinerlei Beschränkungen hinsichtlich der Art und Weise implizieren, wie unterschiedliche Ausführungsformen umgesetzt werden können. Viele Modifikationen an der einen oder den mehreren gezeigten Ausführungsformen können auf Grundlage von Konstruktions- und Umsetzungsanforderungen vorgenommen werden.
4 ist ein Blockschema 900 von internen und externen Komponenten von Computern, die in 1 gezeigt sind, gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung. Es sollte beachtet werden, dass 4 nur ein Beispiel einer Umsetzung bietet und keine Beschränkungen hinsichtlich der Umgebungen impliziert, in denen verschiedene Ausführungsformen umgesetzt werden können. Viele Änderungen an den gezeigten Umgebungen können auf Grundlage von Konstruktions- und Umsetzungsanforderungen vorgenommen werden.
Die in 1 gezeigten Computer können für jede elektronische Einheit stehen, die von Maschinen lesbare Programmanweisungen ausführen kann. Die Computer können für ein Smartphone, ein Computersystem, einen PDA oder andere elektronische Einheiten stehen. Beispiele für Computersysteme, -umgebungen und/oder -konfigurationen können Personal-Computer-Systeme, Server-Computersysteme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Multiprozessorsysteme, mikroprozessorgestützte Systeme, Netzwerk-PCs, Minicomputersysteme und verteilte Cloud-Computing-Umgebungen umfassen, sind aber nicht darauf beschränkt, die beliebige der oben genannten Systeme oder Einheiten enthalten.
Der Client-Computer 102 und der Netzwerkserver 112 des Benutzers können jeweilige Sätze interner Komponenten 902a, b und externer Komponenten 904a, b enthalten, die in 4 gezeigt sind. Jeder der Sätze interner Komponenten 902a, b umfasst einen oder mehrere Prozessoren 906, einen oder mehrere von einem Computer lesbare RAMs 908 und einen oder mehrere von einem Computer lesbare ROMs 910 auf einem oder mehreren Bussen 912 und ein oder mehrere Betriebssysteme 914 und ein oder mehrere von einem Computer lesbare physische Speichereinheiten 916. Das eine oder die mehreren Betriebssysteme 914, das Softwareprogramm 108 und das kontinuierliche Lernprogramm 110a im Client-Computer 102 und das kontinuierliche Lernprogramm 110b im Netzwerkserver 112 können auf der einen oder den mehreren von einem Computer lesbaren physischen Speichereinheiten 916 zur Ausführung durch den einen oder die mehreren Prozessoren 906 über den einen oder die mehreren RAMs 908 (die üblicherweise Cache-Speicher umfassen) gespeichert sein. Bei der in 4 gezeigten Ausführungsform ist jede der von einem Computer lesbaren physischen Speichereinheiten 916 eine Magnetplattenspeichereinheit einer internen Festplatte. Alternativ ist jede der von einem Computer lesbaren physischen Speichereinheiten 916 eine Halbleiterspeichereinheit wie beispielsweise ROM 910, EPROM, Flash-Speicher oder jede andere von einem Computer lesbare physische Speichereinheit, die ein Computerprogramm und digitale Informationen speichern kann.
Jeder Satz interner Komponenten 902a, b umfasst auch ein R/W-Laufwerk bzw. eine R/W-Schnittstelle 918 zum Lesen und Beschreiben einer oder mehrerer tragbarer von einem Computer lesbarer physischer Speichereinheiten 920, wie z.B. einer CD-ROM, DVD, eines Speichersticks, eines Magnetbands, einer Magnetplatte, optischen Platte oder Halbleiterspeichereinheit. Ein Softwareprogramm wie beispielsweise das Softwareprogramm 108 und das kontinuierliche Lernprogramm 110a, 110b kann auf einer oder mehreren der entsprechenden tragbaren von einem Computer lesbaren physischen Speichereinheiten 920 gespeichert, über das jeweilige R/W-Laufwerk oder die R/W-Schnittstelle 918 gelesen und auf die jeweilige Festplatte geladen werden.
Jeder Satz interner Komponenten 902a, b kann auch Netzwerkadapter (bzw. Switchport-Karten) oder -schnittstellen 922 wie TCP/IP-Adapterkarten, drahtlose WLAN-Schnittstellenkarten oder drahtlose 3G- oder 4G-Schnittstellenkarten oder andere drahtgebundene oder drahtlose Datenübertragungsverbindungen umfassen. Das Softwareprogramm 108 und das kontinuierliche Lernprogramm 110a im Client-Computer 102 und das kontinuierliche Lernprogramm 110b im Netzwerk-Server-Computer 112 können von einem externen Computer (z.B. Server) über ein Netzwerk (z.B. das Internet, ein lokales Netz oder ein anderes Weitverkehrsnetz) und entsprechende Netzwerkadapter oder Schnittstellen 922 heruntergeladen werden. Von den Netzwerkadaptern (bzw. Switchport-Adaptern) oder -schnittstellen 922 werden das Softwareprogramm 108 und das kontinuierliche Lernprogramm 110a im Client-Computer 102 und das kontinuierliche Lernprogramm 110b im Netzwerk-Server-Computer 112 auf die jeweilige Festplatte geladen. Das Netzwerk kann Kupferdrähte, Lichtwellenleiter, drahtlose Übertragung, Router, Firewalls, Switches, Gateway-Computer und/oder Edge-Server umfassen.
Jeder der Sätze externer Komponenten 904a, b kann einen Computeranzeigemonitor 924, eine Tastatur 926 und eine Computermaus 928 umfassen. Die externen Komponenten 904a, b können auch Touchscreens, virtuelle Tastaturen, Touchpads, Zeigeeinheiten und andere Benutzerschnittstelleneinheiten umfassen. Jeder der Sätze von internen Komponenten 902a, b umfasst auch Einheitentreiber 930 zum Anschluss mit dem Computeranzeigemonitor 924, der Tastatur 926 und der Computermaus 928. Die Einheitentreiber 930, das R/W-Laufwerk oder die R/W-Schnittstelle 918 und der Netzwerkadapter oder die Netzwerkschnittstelle 922 umfassen Hardware und Software (in der Speichereinheit 916 und/oder dem ROM 910 gespeichert).
Es sei von vornherein klargestellt, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Stattdessen können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
Bei den Eigenschaften handelt es sich um die Folgenden:

On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.

Bei den Dienstmodellen handelt es sich um die Folgenden:

Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
Analytics as a Service (AaaS): Die dem Verbraucher bereitgestellte Funktion besteht darin, Web-gestützte oder Cloud-gestützte Netzwerke (d.h. Infrastruktur) zum Zugreifen auf eine Analyseplattform zu verwenden. Analyseplattformen können den Zugriff auf Analysesoftwareressourcen oder den Zugriff auf relevante Datenbanken, Korpora, Server, Betriebssysteme oder Speicher umfassen. Der Verbraucher verwaltet bzw. steuert nicht die zugrunde liegende Web-gestützte oder cloudbasierte Infrastruktur, beispielsweise Datenbanken, Korpora, Server, Betriebssysteme oder Speicher, hat jedoch die Kontrolle über die bereitgestellten Anwendungen und möglicherweise über Konfigurationen der Anwendungs-Hosting-Umgebung.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).

Bei den Einsatzmodellen handelt es sich um die Folgenden:

Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).

Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netz aus zusammengeschalteten Knoten umfasst.
Unter Bezugnahme auf 5 ist eine beispielhafte Cloud-Computing-Umgebung 1000 gezeigt. Wie gezeigt, weist die Cloud-Computing-Umgebung 1000 einen oder mehrere Cloud-Computing-Knoten 10 auf, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie der elektronische Assistent (PDA, personal digital assistant) oder das Mobiltelefon 1000A, der Desktop-Computer 1000B, der Laptop-Computer 1000C und/oder das Automobil-Computer-System 1000N Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, Benutzergemeinschafts-, öffentliche oder hybride Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 1000, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten von in 5 gezeigten Datenverarbeitungseinheiten 1000A bis N lediglich beispielhaft sein sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 1000 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
Unter Bezugnahme auf 6 wird ein Satz von funktionalen Abstraktionsschichten 1100 gezeigt, die durch die Cloud-Computing-Umgebung 1000 bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 6 gezeigten Komponenten, Schichten und Funktionen lediglich beispielhaft sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 1102 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 1104; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 1106; Server 1108; Blade-Server 1110; Speichereinheiten 1112; und Netzwerke sowie Netzwerkkomponenten 1114. In einigen Ausführungsformen beinhalten Software-Komponenten eine Netzwerk-Anwendungsserver-Software 1116 und eine Datenbank-Software 1118.
Die Virtualisierungsschicht 1120 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 1122, virtueller Speicher 1124, virtuelle Netzwerke 1126, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 1128; und virtuelle Clients 1130.
In einem Beispiel kann die Verwaltungsschicht 1132 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 1134 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 1136 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen aufweisen. Die Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 1138 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 1140 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 1142 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einem SLA bereit.
Eine Arbeitslastschicht 1144 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 1146; Software-Entwicklung und Lebenszyklusverwaltung 1148; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 1150; Datenanalytikverarbeitung 1152; Transaktionsverarbeitung 1154; und Deep-Model-Learning 1156. Das kontinuierliche Lernprogramm 110a, 110b stellt eine Möglichkeit bereit, Herkunftsdaten zu verwenden, um während einer Deep-Learning-Modell-Trainingsphase Erkenntnisse zu gewinnen.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Integrationsstufe handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen aufbewahren und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der fern angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungseinheit bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungseinheit ausgeführten Anweisungen Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen als ein Schritt gleichzeitig, im Wesentlichen gleichzeitig oder in einer teilweise oder vollständig zeitlich überlappenden Weise ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zu Zwecken der Veranschaulichung angegeben, sind aber nicht als erschöpfend oder auf die offenbarten Ausführungsformen beschränkt anzusehen. Viele Modifikationen und Varianten sind für Fachleute offensichtlich, ohne vom Umfang der beschriebenen Ausführungsformen abzuweichen. Die hier verwendete Terminologie wurde ausgewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder die technische Verbesserung gegenüber Technologien, die am Markt vorhanden sind, am besten zu beschreiben oder anderen Fachleuten zu ermöglichen, die hierin offenbarten Ausführungsformen zu verstehen.

Claims

Verfahren aufweisend: sequentielles Empfangen einer oder mehrerer Aufgaben; Anwenden eines oder mehrerer gemeinsam nutzbarer Blöcke auf die eine oder mehreren Aufgaben; Lernen eines oder mehrerer eindeutiger Pfade für die eine oder mehreren Aufgaben; Hinzufügen einer oder mehrerer Querverbindungen zwischen der einen oder den mehreren Aufgaben; Hinzufügen eines Aggregationsblocks zum Sammeln einer oder mehrerer Ausgaben von den eindeutigen Pfaden jeder der einen oder mehreren Aufgaben; und Ausgeben einer Vorhersage.
Verfahren nach Anspruch 1, wobei das sequentielle Empfangen der einen oder mehreren Aufgaben ferner aufweist: Empfangen einer oder mehrerer Datenmarkierungen, wobei die eine oder mehreren Datenmarkierungen zu der einen oder den mehreren Aufgaben gehören.
Verfahren nach Anspruch 1, ferner aufweisend: Einfrieren eines oder mehrerer Neuronen eines oder mehrerer zuvor erlernter eindeutiger Pfade der einen oder mehreren Aufgaben; und Trainieren eines oder mehrerer Neuronen des einen oder der mehreren eindeutigen Pfade für die eine oder mehreren Aufgaben, wobei das eine oder die mehreren Neuronen als trainierbar festgelegt sind.
Verfahren nach Anspruch 3, wobei das Einfrieren des einen oder der mehreren Neuronen eines oder mehrerer zuvor erlernter eindeutiger Pfade der einen oder mehreren Aufgaben ferner aufweist: Festlegen des einen oder der mehreren Neuronen des einen oder der mehreren zuvor erlernten eindeutigen Pfade als nicht trainierbar.
Verfahren nach Anspruch 1, wobei der eine oder die mehreren eindeutigen Pfade ein oder mehrere Neuronen enthält, wobei das eine oder die mehreren Neuronen ein oder mehrere Gewichte aufweisen.
Verfahren nach Anspruch 1, wobei die eine oder mehreren Querverbindungen zwischen der einen oder mehreren Aufgaben aufweisen: eine oder mehrere Vorwärts-Querverbindungen zwischen der einen oder den mehreren Aufgaben; und eine oder mehrere Rückwärts-Querverbindungen zwischen der einen oder den mehreren Aufgaben.
Verfahren nach Anspruch 1, wobei das Sammeln der einen oder mehreren Ausgaben der eindeutigen Pfade jeder der einen oder mehreren Aufgaben ferner aufweist: Aggregieren, durch den Aggregationsblock, einer oder mehrerer verborgener Aktivierungen des einen oder der mehreren eindeutigen Pfade der einen oder mehreren Aufgaben.
Verfahren nach Anspruch 1, wobei der Aggregationsblock vor einer letzten Schicht eines Deep-Learning-Netzes hinzugefügt wird.
Computersystem, aufweisend: einen oder mehrere Prozessoren, einen oder mehrere von einem Computer lesbare Speicher, ein oder mehrere von einem Computer lesbare physische Speichermedien, und Programmanweisungen, die auf mindestens einem des einen oder der mehreren von einem Computer lesbaren physischen Speichermedien zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren über mindestens einen des einen oder der mehreren von einem Computer lesbaren Speicher gespeichert sind, wobei das Computersystem in der Lage ist, ein Verfahren auszuführen, aufweisend: sequentielles Empfangen einer oder mehrerer Aufgaben; Anwenden eines oder mehrerer gemeinsam nutzbarer Blöcke auf die eine oder mehreren Aufgaben; Lernen eines oder mehrerer eindeutiger Pfade für die eine oder mehreren Aufgaben; Hinzufügen einer oder mehrerer Querverbindungen zwischen der einen oder den mehreren Aufgaben; Hinzufügen eines Aggregationsblocks zum Sammeln einer oder mehrerer Ausgaben von den eindeutigen Pfaden jeder der einen oder mehreren Aufgaben; und Ausgeben einer Vorhersage.
Computersystem nach Anspruch 9, wobei das sequentielle Empfangen der einen oder mehreren Aufgaben ferner aufweist: Empfangen einer oder mehrerer Datenmarkierungen, wobei die eine oder mehreren Datenmarkierungen zu der einen oder den mehreren Aufgaben gehören.
Computersystem nach Anspruch 9, ferner aufweisend: Einfrieren eines oder mehrerer Neuronen eines oder mehrerer zuvor erlernter eindeutiger Pfade der einen oder mehreren Aufgaben; und Trainieren eines oder mehrerer Neuronen des einen oder der mehreren eindeutigen Pfade für die eine oder mehreren Aufgaben, wobei das eine oder die mehreren Neuronen als trainierbar festgelegt sind.
Computersystem nach Anspruch 11, wobei das Einfrieren des einen oder der mehreren Neuronen eines oder mehrerer zuvor erlernter eindeutiger Pfade der einen oder mehreren Aufgaben ferner aufweist: Festlegen des einen oder der mehreren Neuronen des einen oder der mehreren zuvor erlernten eindeutigen Pfade als nicht trainierbar.
Computersystem nach Anspruch 9, wobei der eine oder die mehreren eindeutigen Pfade ein oder mehrere Neuronen aufweisen, wobei das eine oder die mehreren Neuronen ein oder mehrere Gewichte aufweisen.
Computersystem nach Anspruch 9, wobei die eine oder mehreren Querverbindungen zwischen der einen oder den mehreren Aufgaben aufweisen: eine oder mehrere Vorwärts-Querverbindungen zwischen der einen oder den mehreren Aufgaben; und eine oder mehrere Rückwärts-Querverbindungen zwischen der einen oder den mehreren Aufgaben.
Computersystem nach Anspruch 9, wobei das Sammeln der einen oder mehreren Ausgaben der eindeutigen Pfade jeder der einen oder mehreren Aufgaben ferner aufweist: Aggregieren, durch den Aggregationsblock, einer oder mehrerer verborgener Aktivierungen des einen oder der mehreren eindeutigen Pfade der einen oder mehreren Aufgaben.
Computersystem nach Anspruch 9, wobei der Aggregationsblock vor einer letzten Schicht eines Deep-Learning-Netzes hinzugefügt ist.
Computerprogrammprodukt, aufweisend: ein oder mehrere von einem Computer lesbare physische Speichermedien und Programmanweisungen, die auf mindestens einem des einen oder der mehreren von einem Computer lesbaren physischen Speichermedien gespeichert sind, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, um den Prozessor zum Ausführen eines Verfahrens zu veranlassen, aufweisend: sequentielles Empfangen einer oder mehrerer Aufgaben; Anwenden eines oder mehrerer gemeinsam nutzbarer Blöcke auf die eine oder mehreren Aufgaben; Lernen eines oder mehrerer eindeutiger Pfade für die eine oder mehreren Aufgaben; Hinzufügen einer oder mehrerer Querverbindungen zwischen der einen oder den mehreren Aufgaben; Hinzufügen eines Aggregationsblocks zum Sammeln einer oder mehrerer Ausgaben der eindeutigen Pfade jeder der einen oder mehreren Aufgaben; und Ausgeben einer Vorhersage.
Computerprogrammprodukt nach Anspruch 17, wobei das sequentielle Empfangen der einen oder mehreren Aufgaben ferner aufweist: Empfangen einer oder mehrerer Datenmarkierungen, wobei die eine oder mehreren Datenmarkierungen zu der einen oder den mehreren Aufgaben gehören.
Computerprogrammprodukt nach Anspruch 17, ferner aufweisend: Einfrieren eines oder mehrerer Neuronen eines oder mehrerer zuvor erlernter eindeutiger Pfade der einen oder mehreren Aufgaben; und Trainieren eines oder mehrerer Neuronen des einen oder der mehreren eindeutigen Pfade für die eine oder mehreren Aufgaben, wobei das eine oder die mehreren Neuronen als trainierbar festgelegt sind.
Computerprogrammprodukt nach Anspruch 19, wobei das Einfrieren des einen oder der mehreren Neuronen eines oder mehrerer zuvor erlernter eindeutiger Pfade der einen oder mehreren Aufgaben ferner aufweist: Festlegen des einen oder der mehreren Neuronen des einen oder der mehreren zuvor erlernten eindeutigen Pfade als nicht trainierbar.
Computerprogrammprodukt nach Anspruch 17, wobei der eine oder die mehreren eindeutigen Pfade ein oder mehrere Neuronen aufweisen, wobei das eine oder die mehreren Neuronen ein oder mehrere Gewichte aufweisen.
Computerprogrammprodukt nach Anspruch 17, wobei die eine oder mehreren Querverbindungen zwischen der einen oder den mehreren Aufgaben aufweisen: eine oder mehrere Vorwärts-Querverbindungen zwischen der einen oder den mehreren Aufgaben; und eine oder mehrere Rückwärts-Querverbindungen zwischen der einen oder den mehreren Aufgaben.
Computerprogrammprodukt nach Anspruch 17, wobei das Sammeln der einen oder mehreren Ausgaben der eindeutigen Pfade jeder der einen oder mehreren Aufgaben ferner aufweist: Aggregieren, durch den Aggregationsblock, einer oder mehrerer verborgener Aktivierungen des einen oder der mehreren eindeutigen Pfade der einen oder mehreren Aufgaben.
Computerprogrammprodukt nach Anspruch 17, wobei der Aggregationsblock vor einer letzten Schicht eines Deep-Learning-Netzes hinzugefügt ist.