DE102018212155A1

DE102018212155A1 - Verfahren und eine Vorrichtung zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal

Info

Publication number: DE102018212155A1
Application number: DE102018212155.9A
Authority: DE
Inventors: Martin Butz; Sebastian Otte
Original assignee: Eberhard Karls Universitaet Tuebingen
Current assignee: Eberhard Karls Universitaet Tuebingen
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2020-01-23
Also published as: EP3824412A1; WO2020016454A1

Abstract

Die Erfindung betrifft ein Verfahren zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal, wobei der Prädiktor eine Sequenz innerer Zustände aufweist, umfassend die Schritte:- Erhalten zumindest eines Abtastwertes des Signals;- Erhalten zumindest eines Prädiktionswertes des Prädiktors;- Bestimmen eines Anpassungssignals, basierend auf dem Abtastwert und dem Prädiktionswert;- Anpassen einer Aktivierung zumindest eines inneren Zustands des Prädiktors, basierend auf dem Anpassungssignal.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal.
TECHNISCHER HINTERGRUND UND STAND DER TECHNIK
Rekurrente Neuronale Netzwerke (RNN) sind eine Klasse von künstlichen neuronalen Prädiktoren, bei denen Verbindungen zwischen Knoten einen gerichteten Graphen entlang einer Sequenz bilden. Dies erlaubt es, ein dynamisches zeitliches Verhalten für eine Zeitsequenz abzubilden. Im Gegensatz zu Feedforward Neuronalen Netzen können RNNs ihren internen Zustand wie einen Kurzzeitspeicher nutzen, um Eingangssequenzen unter der Berücksichtigung des internen Zustandes zu verarbeiten. Dies macht sie auf Aufgaben wie die Inferenz, Klassifikation und Prädiktion von Zeitreihendaten, zum Beispiel zeitliche Handschriftdaten oder auditive sprachliche Daten, anwendbar.
Jeder Knoten (Neuron) in einem RNN hat eine zeitvariable reelllwertige Aktivierung. Jede Verbindung (Synapse) hat ein veränderbares reellwertiges Gewicht. Knoten sind entweder Eingangsknoten (die Daten von außerhalb des Netzwerks empfangen), Ausgangsknoten (die Ergebnisse liefern) oder innere Knoten (die die Daten auf dem Weg vom Eingang zum Ausgang verändern und innere Zustände inferieren und temporär speichern können).
Beim überwachten Lernen in diskreten Zeitschritten gelangen Sequenzen reellwertiger Eingangsvektoren zu den Eingangsknoten, ein Vektor nach dem anderen. Jeder innere Knoten berechnet zu einem beliebigen Zeitpunkt dessen aktuelle Aktivierung als lineare oder nichtlineare Funktion der gewichteten Summe der Aktivierungen aller mit ihr verbundenen Knoten. Für einige Ausgangsknoten können in bestimmten Zeitschritten vom Supervisor vorgegebene Zielaktivierungen geliefert werden. Wenn die Eingangssequenz beispielsweise ein Sprachsignal ist, das einer gesprochenen Ziffer entspricht, kann die endgültige Zielausgabe am Ende der Sequenz ein Label sein, das die Ziffer klassifiziert.
Beim bestärkenden Lernen liefert kein Lehrer Zielsignale. Stattdessen wird eine Fitness- oder Belohnungsfunktion verwendet, um die Leistung des RNN zu bewerten, die seinen Eingangsstrom durch Ausgabeknoten beeinflusst, die an Aktoren angeschlossen sind, die wiederum die Umgebung beeinflussen. Jede Sequenz erzeugt einen Fehler z.B. als Summe der Abweichungen aller Zielsignale von den entsprechenden vom Netzwerk berechneten Aktivierungen. Bei einem Trainingsset aus mehreren Sequenzen ist der Gesamtfehler die Summe der Fehler aller Einzelsequenzen.
Auch wenn gezeigt wurde, dass rekurrente neuronale Netzwerke als Prädiktoren in gewissem Maß robust gegen Rauschen sowie gegen fehlerbehaftete oder fehlende Daten sind (vgl. z.B. _[ S. Otte, M. Liwicki, and A. Zell, „An Analysis of Dynamic Cortex Memory Networks," in International Joint Conference on Neural Networks (IJCNN), Killarney, Ireland, Jul. 2015, pp. 3338-3345]), so ist diese Fähigkeit derzeit eher begrenzt. Sie erfordert in der Regel ein ausgeklügeltes, mögliches Rauschen einbeziehendes Trainingsverfahren, das oft nur durch die Verwendung sehr großer Datenmengen erreicht wird. Zum Beispiel erfordern rekurrente Oszillatoren, wie Echo State Netzwerke (ESNs) [H. Jaeger, „The „echo state" approach to analysing and training recurrent neural networks," Fraunhofer Institute for Analysis and Information Systems AIS, Sankt Augustin, Germany, Tech. Rep. GMD Report, 148, 2001; D. Koryakin, J. Lohmann, and M. V. Butz, „Balanced echo state networks," Neural Networks, vol. 36, pp. 35-45, 2012; S. Otte, M. V. Butz, D. Koryakin, F. Becker, M. Liwicki, and A. Zell, „Optimizing recurrent reservoirs with neuro-evolution," Neurocomputing, vol. 192, pp. 128-138, Jun. 2016. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S0925231216002629], wenn mittels Teacher Forcing (Überschreiben der rückgekoppelten Netzausgabe mit dem Zielsignal, vgl. „A Learning Algorithm for Continually Running Fully Recurrent Neural Networks“, R. J. Williams et al, Neural Computation, 1, pp. 270-280, 1989) initialisiert, ein möglichst unverrauschtes und korrektes Zielsignal. Wenn das Signal übermäßig verrauscht ist, ist das RNN nicht in der Lage, seine neuronalen Aktivitäten hinreichend gut auf die gewünschte Zieldynamik einzuregeln. Im schlimmsten Fall können Aktivierungen der inneren Knoten und auch die Vebindungsgewichte sogar explodieren, so dass die Dynamiken des Systems kollabieren.
Aufgabe der Erfindung ist daher, ein effizientes, kompaktes und anpassungsfähiges Verfahren und eine Vorrichtung zur Anpassung eines Prädiktors auf ein Eingangssignal bereitzustellen, das robust gegen Rauschen sowie gegen fehlerbehaftete oder fehlende Daten ist.
KURZE BESCHREIBUNG DER ERFINDUNG
Diese Aufgabe wird gelöst durch ein Verfahren und eine Vorrichtung zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal gemäß den unabhängigen Patentansprüchen. Vorteilhafte Ausführungsformen sind in den abhängigen Patentansprüchen angegeben.
In einem ersten Aspekt stellt die Erfindung ein Verfahren zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal, wobei der Prädiktor eine Sequenz innerer Zustände aufweist, umfassend die Schritte: Erhalten zumindest eines Abtastwertes des Signals; Erhalten zumindest eines Prädiktionswertes des Prädiktors; Bestimmen eines Anpassungssignals, basierend auf dem Abtastwert und dem Prädiktionswert; Anpassen einer Aktivierung zumindest eines inneren Zustands des Prädiktors, basierend auf dem Anpassungssignal. Der Prädiktor kann ein temporaler Prädiktor sein. Das Anpassungssignal kann einer Abweichung des Prädiktors von dem Abtastwert entsprechen. Das Anpassungssignal kann über mehrere innere Zustände des Prädiktors rückpropagiert werden. Der Prädiktor kann durch ein RNN repräsentiert werden, z.B. durch ein Standard-RNN, ein ESN oder ein LSTM-ähnliches RNN. Der Prädiktor kann mit einem Null-Aktivierungszustand initialisiert werden oder auch durch eine Phase direkter Signaleingabe oder direktem Teacher Forcing. Das rückpropagierte Anpassungssignal (Gradient) kann verwendet werden, die Aktivierung zumindest eines inneren Zustandes mittels einer Gradientenabstiegstechnik anzupassen. Der Einfluss von Abschnitten mit stark fluktuierenden Gradienten kann reduziert werden. Die Aktivierungsänderung kann mit einer individuellen Änderungsrate (IAR) skaliert werden, gemäß einem spezifischen Aktivierungsverhalten des inneren Zustandes. Die Skalierung kann mittels einer Standardabweichung des Aktivierungsverhaltens über die Zeit erfolgen. Die Skalierung kann mittels einer Standardabweichung der ersten Ableitung des Aktivierungsverhaltens über die Zeit erfolgen. Die Aktivierungsänderungen können statistisch normalisiert werden. Die Aktivierung des inneren Zustands kann auf den Bildbereich der Aktivierungsfunktion beschränkt werden. Der adaptierte innere Zustand kann dann wieder vorwärts propagiert werden. Die Rückwärts-/und Vorwärtspropagierung kann mehrfach erfolgen. Jeder innere Zustand kann in jedem Zeitschritt in jedem Zyklus adaptiert werden. In jedem Zyklus kann auch nur der letzte innere Zustand in der Vergangenheit adaptiert werden. In jedem Zyklus kann auch nur der letzte innere Zustand in der Vergangenheit adaptiert, aber das Zeitfenster von Zyklus zu Zyklus reduziert werden, entweder um einen Zeitschritt oder mehrere (Skip). Das Verfahren kann online ablaufen. Der Prädiktor kann während des Verfahrens trainiert oder weiter trainiert werden. Das Verfahren kann auf einem Computer implementiert werden.
In einem zweiten Aspekt stellt die Erfindung eine Vorrichtung zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal, wobei der Prädiktor eine Sequenz innerer Zustände aufweist, umfassend: ein Modul zum Erhalten zumindest eines Abtastwertes des Signals; ein Modul zum Erhalten zumindest eines Prädiktionswertes des Prädiktors; ein Modul zum Bestimmen eines Anpassungssignals, basierend auf dem Abtastwert und dem Prädiktionswert; und ein Modul zum Anpassen einer Aktivierung zumindest eines inneren Zustandes des Prädiktors, basierend auf dem Anpassungssignal.
Diese und weitere Aspekte der vorliegenden Erfindung werden in der folgenden Beschreibung verschiedener Ausführungsbeispiele der Erfindung genauer dargestellt, unter Bezugnahme auf die Zeichung, in welcher

1 eine schematische Darstellung des Prinzips der Erfindung zeigt.
2 ein Flussdiagramm eines Verfahrens gemäß einer Ausführungsform der Erfindung zeigt.
3 ein Blockdiagramm einer Vorrichtung gemäß einer Ausführungsform der Erfindung zeigt.
4 verschiedene mögliche Anpassungsmuster für Aktivierungen innerer Zustände gemäß einer Ausführungsform der Erfindung zeigt.
5 Diagramme zeigt, in welchen die Ausgabe eines gemäß der Erfindung geregelten Prädiktors mit einem Prädiktor nach dem Stand der Technik verglichen wird.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
1 zeigt eine schematische Darstellung des Prinzips der Erfindung. Insbsondere zeigt 1 eine Illustration der Verbreitungszusammenhänge der Daten und Gradienten.
Eine potentiell rauschbehaftete Signalquelle wird über die Zeit beobachtet. Gleichzeitig wird ein differenzierbares temporale Vorwärtsmodell (Differentiable Temporal Forward Model, DTFM), wie z.B. ein RNN, das die wahren Formeigenschaften des Signals gelernt hat, verwendet, um aktiv eine Diskrepanz zwischen den Ergebnissen und den tatsächlichen Beobachtungen zu minimieren. Erreicht wird dies durch Rückprojektion der Residuen in die Vergangenheit über die Wiederholungen des DTFM und die Abstimmung seiner vorherigen inneren Zustände, so dass sie, wenn sie sich wieder nach vorne ausbreiten, die Werte der Vergangenheit besser generieren. Das DTFM wird im Wesentlichen durch die Ausgabediskrepanz getrieben, und daher durch den jeweiligen Gradienten und nicht durch den Signal direkt. N bezieht sich auf die retrospektive Zeitfensterlänge. Die schwarzen Linien zeigen den Informationsfluss nach vorne an. Die roten Linien zeigen den Gradientenfluss an. Die blauen Linien zeigen eine Kohärenz innerer Zustände an. Die Kreise stellen die (rauschbehafteten) Beobachtungen dar.
Insbesondere sei ein DTFM beschrieben durch eine Abbildung f, welche einen vorherigen internen Zustand h(t-1) und optional eine Eingabe x(t) auf einen neuen internen Zustand h(t) und eine Ausgabe y(t) abbildet: $(y (t), h (t)) = f (x (t), h (t - 1))$
Die Eingabe x(t) kann verwendet werden, beispielsweise um zusätzliche Kontextinformationen in das System hineinzugeben, oder dient zur Rückführung der vorherigen Ausgabe des Systems. Wichtig ist jedoch, dass x(t) nicht mit dem abgetasteten Signal s(t) substituiert wird. Stattdessen wird mit der Abbildung f ein in sich geschlossenes, zyklisches, dynamisches System erzeugt, dessen zeitliche Entwicklung sich ausgehend vom aktuellen Zeitschritt t rekursiv T Zeitschritte in die Vergangenheit wie folgt darstellt: $(y (t), h (t)) = f (f (\dots f (f (x (t - T), h (t - T - 1))))$
Durch aktives Einregeln gemäß der Erfindung soll erreicht werden, dass sich über die Zeit (über die Sequenz) die Ausgabe von y(t) zunehmend dem abgetasteten Signal annähert. Durch ggf. starkes Rauschen im Abtastsignal wird dabei vermieden, s(t) direkt in das System zu füttern, wie es bei allen anderen Ansätzen (z.B. deep convolutional ANNs, RNNs) typischerweise der Fall wäre.
Das Verfahren gemäß der vorliegenden Ausführungsform verfügt über ein Zeitfenster, für das in einem Puffer die vorherigen Abtastwerte des Signals s(t-i), die internen, sowie die Ausgaben des DTFM festgehalten sind. In jedem Zeitschritt mit dem ein neuer Abtastwert gelesen wird, werden ein oder mehrere Tuningzyklen durchgeführt. Ein solcher Zyklus besteht dabei aus den folgenden Schritten:

i) Rückpropagierung der Diskrepanz zwischen y(t) und s(t), notiert durch L(t) = D(y(t), s(t)), bis zum Zeitschritt t-T. Gemäß der Erfindung werden ausgehend von t rückwärts für t bis u=t-T die partiellen Ableitungen (Gradient) $g (u) = - \frac{\partial \sum_{v = u}^{t} L (v)}{\partial h (u)}$
(vgl. Kettenregel) bestimmt werden.
ii) Anpassen der internen Zustands bzw. der internen Zustände. Hier wird exemplarisch der zuletzt hinterlegte interne Zustand gemäß der Gradienteninformation angepasst, in der einfachsten Form (ohne Adam, vgl. Kingma, D. P., & Ba, J. L. (2014). Adam: A Method for Stochastic Optimization. ArXiv E-Prints, abs/1412.6980.) etc. durch: $h (t - T) \leftarrow h (t - T) + η g (t - T)$
wobei η eine wählbare Adaptionsrate ist. Üblicherweise berechnet sich in einem RNN der Zustand h(t) durch den vorherigen Zustand und die aktuelle Eingabe: $n e t_{j} (t) = \sum_{i} x_{i} (t) w_{i j} + \sum_{j'} h_{j'} (t - 1) w_{j' j}$
$h_{j} (t) = φ (n e t_{j} (t))$
Der ursprünglich berechnete Wert h(t- T) wird jedoch ohne Neuberechnung über die Aktivierungsfunktion angepasst. Wie weiter unten beschrieben, können die Anpassungen aber auch auf andere Weise geschehen, als nur für den letzten Schritt (t - T).
iii) Der angepasste innere Zustand wird nun wieder durch das System vorwärts propagiert für u = t - T bis t, sodass die Ausgaben und inneren Folgezustände des Systems nun auf der adaptierten Variante des ursprünglichen Zustands basieren. Die neuberechnete Ausgabe dient vor allem im nächsten Adaptionszyklus zur erneuten Bestimmung der Ausgabediskrepanz. Je nach verwendeter DTFM Architektur kann hier die Ausgabe auch direkt - also closed-loop - als nächster prädizierter Abtastwert und somit als Eingabe genutzt werden: $y (u) \to x (u + 1)$

Hier ist aber auch eine Kombination mit dem wirklichen Abtastwert möglich.
2 zeigt ein Flussdiagramm eines Verfahrens gemäß einer Ausführungsform der Erfindung.
In Schritt 210 wird ein geeignetes DTFM erzeugt, entweder manuell, durch Trainieren oder durch Optimierung anhand verfügbarer Trainingsdaten.
In Schritt 220 wird das DTFM dann mit einem Null-Aktivierungszustand initialisiert, über eine Phase direkten Teacher Forcings, oder in jeder anderen Weise, die einen statistisch plausiblen Aktivierungszustand erzeugt.
In Schritt 230 wird ein Prädiktionswert generiert. Während das Eingangssignal kontinuierlich abgetastet wird (Schritt 240), führt das Verfahren einen Rück- und Vorwärtspropagierungszyklus wie folgt aus:
In Schritt 250 wird ein Anpassungsignal, basierend auf dem Unterschied zwischen dem Prädiktionswert und dem Abtastwert gebildet.
In Schritt 260 wird das Anpassungssignal durch das RNN zurückpropagiert, wobei in Schritt 270 eine oder mehrere Aktivierungen angpasst werden.
Mit anderen Worten, der Fehler wird über das DTFM in die Vergangenheit (für eine bestimmte Anzahl von Zeitschritten - z.B. N - die man den retrospektiven zeitlichen Horizont nennen kann) zurückgeführt. Nun verwendet man das rückgekoppelte Signal, um die letzten (d.h. N - 1 Schritte in der Vergangenheit) neuronalen Aktivitäten der inneren Knoten mit Hilfe von Gradientenabsenkungstechniken (z.B. RMSprop[9] oder Adam [D. P. Kingma and J. L. Ba, „Adam: A method for stochastic optimization,“ 3rd International Conference for Learning Representations, vol. abs/1412.6980, 2015]) anzupassen. Insbesondere RMSprop und Adam implementieren eine adaptive Gradienten-Normalisierungsstrategie, die den Einfluss von Passagen mit stark schwankenden Gradienten effektiv reduziert und ein glatteres Verhalten liefert, was sich als vorteilhaft für die Stabilisierung der Inferenz mit zeitlichen Gradienten erwiesen hat [„Inferring Adaptive Goal-Directed Behavior within Recurrent Neural Networks,“ in Artificial Neural Networks and Machine Learning - ICANN 2017, ser. Lecture Notes in Computer Science, no. 10613]. Diese Methoden können somit auch in dem vorgeschlagenen Verfahren verwendet werden.
Gemäß einer bevorzugten Ausführungsform werden die jeweiligen Aktivierungsupdates durch eine individuelle Anpassungsrate (IAR) entsprechend dem spezifischen Aktivierungsverhalten (während des Trainings) der jeweiligen Knoten skaliert. Mögliche Merkmale, die sich als zweckmäßig erwiesen haben, sind

- die Standardabweichung des Aktivierungsprofils über die Zeit und
- die Standardabweichung der ersten Ableitung des Aktivierungsprofils über die Zeit.

Auch andere Mechanismen zur Durchsetzung der Aktivierungen zur Anpassung an die „bekannte“ Statistik, z.B. durch einen Regularisierungsterm innerhalb der Fehlerfunktion (vgl. explizite Regularisierung), sind denkbar.
Die statistische Normalisierung der Aktivierungsupdates in der beschriebenen Weise beinhaltet implizit auch die Eigenschaften verschiedener Aktivierungsfunktionen. Typischerweise ist es aber auch sinnvoll, die versteckten Zustandskandidaten auf die Aktivierungsfunktion bzw. Bereiche, z.B. auf [-1, 1] für hyperbolische Tangenteneinheiten zu klemmen.
In Schritt 280 wird die adaptiert Aktivierung des inneren Zustands wieder vorwärtspropagiert, nämlich über das zeitliche Vorwärtsmodell des DTFM.
3 zeigt ein Blockdiagramm einer Vorrichtung gemäß einer Ausführungsform der Erfindung. Insbesondere zeigt 3, dass das Einregeln des Prädiktors durch Anpassung von Aktivierungen erfolgt, welche der Prädiktor als innere Zustände speichert. Das ggf. erfolgende Training des Prädiktors passt hingegen Gewichtungen an.
Zusätzlich kann der vor- und rückwärtige Projektionskreislauf mehrmals angewandt werden, z. B. bis zur Konvergenz. Diese Updatezyklen können auf mehrere, unterschiedliche Arten angewandt werden.
4 zeigt hierzu verschiedene mögliche Anpassungsmuster für Aktivierungen innerer Zustände gemäß einer Ausführungsform der Erfindung. Die nicht-weißen Felder zeigen Zeitschritte an, in denen der innere Zustand angepasst wird.

- „alle“: jeder innerer Zustandsvektor wird in jedem Zeitschritt, in jedem Durchlauf wie folgt angepasst. Zunächst werden die partiellen Ableitungen für jeden Zeitschritt in der Vergangenheit berechnet (t bis t-T). Daraufhin müssen versteckten Zustandsupdates, außer für den letzten Zeitschritt (t-T), und der Durchlauf der Vorwärtsprojektion (iii) ineinandergreifen müssen. Es muss also iterativ vom letzten Zeitpunkt aus (also t-T) folgendes berechnet werden:
- i Berechnung der zeitlich nächsten inneren Zustände durch Vorwärtspropagierung
- ii Anpassung der inneren Zustände gemäß der berechneten partiellen Ableitungen
- iii Berechnung des Outputs (z. B. Ausgabeschicht)

Dieses Verfahren erzielt eine schnellere Konvergenz (im Verhältnis zu den rechnerischen Kosten), kann aber auch Unbeständigkeiten hervorrufen, da der Gradient nicht während der Vorwärtsverbreitung neu berechnet wird, obwohl sich der innere Zustand durch die rückwärtsgerichteten Abhängigkeiten verändert haben kann.

- „letzter“: nur der letzte innere Zustand in der Vergangenheit wird in jedem Durchlauf angepasst. Dadurch durchläuft der angepasst innere Zustand ohne weitere Einflüsse die DTFM Abläufe, was die Stabilität unterstützt aber auch die Reaktionsfähigkeit hemmen kann.
- „letzter aufsteigender (Sprung)“: in jedem Durchlauf wird nur der letzte innere Zustand in der Vergangenheit angepasst, wobei das Zeitfenster von Durchlauf zu Durchlauf verkürzt wird, entweder um einen oder um mehrere Zeitschritte (Sprung). Dadurch wird eine komplette Sequenz von inneren Zuständen mathematisch richtig abgestimmt, da die Effekte jeder einzelnen Adaption in die späteren Berechnungen einfließen. Diese „letzter aufsteigender (Sprung)“ Methoden liefern die zuverlässigsten Ergebnisse, allerdings können auch die alternativen Methoden („letzter“ und „alle“) nützlich sein.

5 zeigt Diagramme, in welchen die Ausgabe eines gemäß der Erfindung geregelten Prädiktors mit einem Prädiktor nach dem Stand der Technik verglichen wird.
Insbesondere zeigt 5 einen Vergleich des erfindungsgemäßen Verfahrens mit Teacher Forcing auf einem MSO-Signal mit drei Rauschpegeln σ_ξ = 0,1 (oben), σ_ξ = 1,0 (Mitte) und σ_ξ = 3,0 (unten). Die Standardabweichung des Basissignals beträgt 2,5. Das erfindungsgemäße Verfahren bzw. Teacher Forcing werden in Zeitschritt 50 aktiviert und in Zeitschritt 150 wieder deaktiviert. Danach geben die RNNs nur noch kontinuierlich die interne Dynamik wieder, ohne weitere Anpassung. Während der Anpassung wird das rauschbehaftete Signal verarbeitet, das in 5 durch Residuenlinien gegenüber dem Basissignal dargestellt wird.
Die Effektivität des erfindungsgemäßen Verfahrens wird beispielhaft für eine extrem verrauschte, mehrfach überlagerte Sinus-Benchmark gezeigt, an welchem konventionelle Ansätze komplett scheitern. Ein lediglich auf eine unverrauschte Trainingssequenz trainiertes RNN ist fähig, problemlos die wesentliche Entwicklung des Zielsignals einzufangen und ein ausgeglichenes Outputprofil nahe an dem tatsächlichen Basissignal zu erzeugen. Störgeräusche werden quasi vollständig unterdrückt, selbst wenn der Rauschpegel über der tatsächlichen Amplitude des Basissignals liegt.
Teacher Forcing zeigt schon bei geringer Störstärke σ_ξ=0,1 starke Abweichungen (vgl. Zeitschritte 50-150). Dabei wird das verrauschte Signal in das Netzwerk eingespeist und Netzwerkvorhersagen mit der nächsten Eingabe verglichen. Danach ist es komplett unbrauchbar (ohne Zufuhr des eigentlichen Signals), da die internen Dynamiken des RNN kollabieren. Auf der anderen Seite entspricht das Ergebnis des erfindungsgemäßen Verfahrens dem Basissignal fast perfekt. Für höhere Geräuschpegel erfasst das erfindungsgemäße Verfahren das eigentliche Signal weiterhin vergleichsweise gut. Im Grunde produziert es einen sehr ausgeglichenen Output, welcher den Beobachtungen plausibel entspricht, wobei die eigentlichen Merkmale des erlernten, bleibenden Zielsignals beibehalten werden. Für σ_ξ=3,0 ist dies besonders bemerkenswert, da hier das Störgeräusch stärker als das eigentliche Basissignal (σ = 2,5) ist, und es fast unmöglich ist, das wirkliche Signal mit eigenen Augen in den Beobachtungen zu erkennen.
ANWENDUNGEN
Das erfindungsgemäße Verfahren eignet sich damit zur korrelierten und unkorrelierten Rauschunterdrückung, der Extraktion von Signalquellen in überlagerten Signalen, der Rekonstruktion fehlender Datenpunkte und der Vorhersage/Fortsetzung einer Signaldynamik, insbesondere bei der Verarbeitung von Audiodaten (Musikinstrumente, Stimme etc.), Wetterdaten, Börsendaten, soziale Netzwerkdaten, künstliche Sensordaten, z.B. Beschleunigungsmesser, GPS, biologische Bewegungsdaten (eventuell auch künstliche Bewegungsdaten), sowie Körper- und Hirndaten, z.B. EKG, EEG, MRT, OCT, NIRS etc.
ZUSAMMENFASSUNG
Das erfindungsgemäße Verfahren kann online für jeden neu erfahrenen Zeitschritt durchgeführt werden, wobei durchgehend die neuralen Dynamiken in das Zielsignal einfließen.
Der entscheidende Vorteil des erfindungsgemäßen Verfahrens ist, dass dabei aktiv bekannte zeitliche Abfolgen, wie innerhalb des (typischerweise wiederkehrenden) vorwärts gerichteten Models des DTFMs gespeichert/erinnert, mit den gleichzeitig beobachteten Daten abgeglichen werden. Durch den starken Drang zur Stimmigkeitserhaltung, welcher automatisch durch den zeitlichen Gradienten aufrechterhalten wird, gewährleistet das erfindungsgemäße Verfahren eine überlegene Effektivität - unter voller Ausnutzung des generatorischen Potentials der DTFMs.
Einzige Voraussetzung des erfindungsgemäßen Verfahrens ist dabei ein differenzierbares zeitlich vorwärtsgerichtetes Modell (ein DTFM; eng.: differentiable temporal forward model). Es besteht kein Grund während des Training auf Rauschunempfindlichkeit oder ähnliches zu achten. Es ist völlig ausreichend das Modell auf unverrauschte, idealisierte Zielsignale zu trainieren. Eingebettet in das erfindungsgemäße Verfahren, wird dem Modell auch unter extrem ungünstigen Bedingnungen, wie zum Bespiel einem Signal-zu-Rauschverhältnis kleiner 1, die rauschunanfällige Erzeugung von qualitativ hochwertigem Output ermöglicht - solange (einige) der vermuteten, idealisierten Zielsignale wirklich vorhanden sind. Das erfindungsgemäße Verfahren ist also ein Werkzeug, welches hochgradigen Nutzen in verschiedenen Anwendungsszenarien zur Signalrekonstruktion, und Störgeräuschunterdrückung verspricht. Im Wesentlichen bietet das erfindungsgemäße Verfahren einen effizienten, kompakten, anpassungsfähigen, und nicht-linearen Ansatz zur Signalfilterung, welcher zusätzlich quasi wartezeitfrei ist, und so eine Effektivität entfaltet, welche mit anderen, aktuell verbreiteten Onlinesignalverarbeitungsmethoden nicht erreicht werden kann. Außerdem bietet das erfindungsgemäße Verfahren bereinigte Signalextrapolation in die Zukunft, wodurch nützliche Vorhersagen zum wahrscheinlichsten Signalverlauf geliefert werden, so lange das Zielsignal wirklich (hauptsächlich) aus (einigen) der generativen Signalquellen besteht, auf die das vorwärtsgerichtete Modell trainiert wurde.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

S. Otte, M. Liwicki, and A. Zell, „An Analysis of Dynamic Cortex Memory Networks,“ in International Joint Conference on Neural Networks (IJCNN), Killarney, Ireland, Jul. 2015, pp. 3338-3345 [0006]
H. Jaeger, „The „echo state“ approach to analysing and training recurrent neural networks,“ Fraunhofer Institute for Analysis and Information Systems AIS, Sankt Augustin, Germany, Tech. Rep. GMD Report, 148, 2001 [0006]
D. Koryakin, J. Lohmann, and M. V. Butz, „Balanced echo state networks,“ Neural Networks, vol. 36, pp. 35-45, 2012 [0006]
S. Otte, M. V. Butz, D. Koryakin, F. Becker, M. Liwicki, and A. Zell, „Optimizing recurrent reservoirs with neuro-evolution,“ Neurocomputing, vol. 192, pp. 128-138, Jun. 2016 [0006]

Claims

Verfahren zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal, wobei der Prädiktor eine Sequenz innerer Zustände aufweist, umfassend die Schritte: - Erhalten zumindest eines Abtastwertes des Signals; - Erhalten zumindest eines Prädiktionswertes des Prädiktors; - Bestimmen eines Anpassungssignals, basierend auf dem Abtastwert und dem Prädiktionswert; - Anpassen einer Aktivierung zumindest eines inneren Zustands des Prädiktors, basierend auf dem Anpassungssignal.
Verfahren nach Patentanspruch 1, wobei der Prädiktor ein temporaler Prädiktor ist.
Verfahren nach Patentanspruch 1, wobei das Steuersignal einer Abweichung des Prädiktors von dem Abtastwert entspricht.
Verfahren nach Patentanspruch 1, wobei das Steuersignal über mehrere innere Zustände des Prädiktors rückpropagiert wird.
Verfahren nach Patentanspruch 1, wobei der Prädiktor durch ein rekurrentes neuronales Netzwerk repräsentiert wird, insbesondere ein Standard-RNN, ein ESN oder ein LSTM-ähnliches RNN.
Verfahren nach Patenanspruch 1, wobei der Prädiktor mit einem Null-Aktivierungszustand initialisiert wird, insbesondere durch eine Phase direkten Teacher Forcings.
Verfahren nach Patentanspruch 1, wobei das rückpropagierte Steuersignal verwendet wird, die Aktivierung des zumindest einen inneren Zustands mittels einer Gradientenabstiegstechnik anzupassen.
Verfahren nach Patentanspruch 7, wobei der Einfluss von Abschnitten mit stark fluktuierenden Gradienten reduziert wird.
Verfahren nach Patentanspruch 1, wobei die Aktivierungsänderung mit einer individuellen Änderungsrate (IAR) skaliert wird, gemäß einem spezifischen Aktivierungsverhalten des inneren Zustands.
Verfahren nach Patenanspruch 9, wobei die Skalierung mittels einer Standardabweichung des Aktivierungsverhaltens über die Zeit erfolgt.
Verfahren nach Patentanspruch 9, wobei die Skalierung mittels einer Standardabweichung der ersten Ableitung des Aktivierungsverhaltens über die Zeit erfolgt.
Verfahren nach Patentanspruch 1, wobei die Aktivierungsänderungen statistisch normalisiert werden.
Verfahren nach Patentanspruch 1, wobei die Aktivierung des inneren Zustands auf den Bildbereich der Aktivierungsfunktion beschränkt wird.
Verfahren nach Patentanspruch 1, wobei der adaptierte innere Zustand dann wieder vorwärts propagiert wird.
Verfahren nach Patentanspruch 14, wobei die Rückwärts-/und Vorwärtspropagierung mehrfach erfolgt.
Verfahren nach Patentanspruch 2, wobei jeder innere Zustand in jedem Zeitschritt in jedem Zyklus adaptiert wird.
Verfahren nach Patentanspruch 2, wobei in jedem Zyklus nur der letzte innere Zustand in der Vergangenheit adaptiert wird.
Verfahren nach Patentanspruch 2, wobei in jedem Zyklus nur der letzte verborgene Zustand in der Vergangenheit adaptiert wird, aber das Zeitfenster von Zyklus zu Zyklus reduziert wird, entweder um einen Zeitschritt oder mehrere (Skip).
Verfahren nach Patentanspruch 1, wobei das Verfahren online abläuft.
Verfahren nach Patentanspruch 1, wobei der Prädiktor während des Verfahrens trainiert oder weiter trainiert wird.
Verfahren nach Patentanspruch 1, wobei das Verfahren auf einem Computer implementiert ist.
Vorrichtung zum aktiven Einregeln eines Prädiktors auf ein Eingangssignal, wobei der Prädiktor eine Sequenz innerer Zustände aufweist, umfassend: - ein Modul zum Erhalten zumindest eines Abtastwertes des Signals; - ein Modul zum Erhalten zumindest eines Prädiktionswertes des Prädiktors; - ein Modul zum Bestimmen eines Anpassungssignals, basierend auf dem Abtastwert und dem Prädiktionswert; - ein Modul zum Anpassen einer Aktivierung zumindest eines inneren Zustands des Prädiktors, basierend auf dem Anpassungssignal.