-
Die
Erfindung bezieht sich auf ein Verfahren zur Erzeugung eines künstlichen
neuronalen Netzes zur Datenverarbeitung, insbesondere zur Verarbeitung
von Drucksignalen eines Common-Rail-Einspritzsystems
eines Verbrennungsmotors oder von Brennraumdrucksignalen eines Verbrennungsmotors.
Die vorliegende Anmeldung nimmt die Priorität der deutschen Patentanmeldung
Nr. 103 35 007.4 in Anspruch, deren Inhalt hiermit durch Verweis
in vollem Umfang hierin aufgenommen wird.
-
Künstliche
neuronale Netze sind in vielerlei Ausprägungen und für zahlreiche
Anwendungen in verschiedenen Gebieten der Technik bekannt. Sie bestehen üblicherweise
aus einer Eingangsschicht mit einer die Eingangsdimension bestimmenden
Anzahl von Eingangsneuronen, einer Ausgangsschicht mit einem oder
mehreren Neuronen und keiner, einer oder mehreren zwischenliegenden,
verdeckten Schichten mit je einem oder mehreren Neuronen und sind
je nach gewählter
Netztopologie und eingesetztem Netztrainingsverfahren in der Lage,
auch hochkomplexe Abhängigkeiten
einer oder mehrerer gesuchter Ausgangsgrößen von einer oder mehreren zugeführten Eingangsgrößen adäquat und
mit vertretbarem Aufwand zu beschreiben. Dabei eignen sich künstliche
neuronale Netze auch für
Echtzeitanwendungen. Sie sind in solchen Fällen rein mathematischen Berechnungsmethoden
häufig überlegen, insbesondere
dann, wenn die Beziehung zwischen den gesuchten Ausgangsgrößen und
den Eingangsgrößen nur
so unzureichend bekannt, dass es schwierig ist, einen guten mathematischen
Berechnungsansatz zu finden. So liefern z.B. die bekannten linearen
Regressions- und Korrelationsanalysen und die sogenannte Hauptkomponentenanalyse
als rein mathematisch-statistische Datenanalyseverfahren meist nur
für weitgehend
lineare Zusammenhänge befriedigende
Ergebnisse. Eine Erweiterung dieser Methoden auf polynominale oder
exponentielle Zusammenhänge
setzt voraus, dass ein solcher funktionaler Zusammenhang wenigstens
grob bekannt ist, um einen entsprechenden Ansatz machen zu können.
-
Ein
wichtiges Anwendungsgebiet mit Echtzeitanforderung ist die Datenverarbeitung
in Kraftfahrzeugen. Hier sind künstliche
neuronale Netze bereits zu verschiedenen Zwecken gebräuchlich,
insbesondere zur Verarbeitung von Daten, die sich auf den Betrieb
eines Verbrennungsmotors im Kraftfahrzeug beziehen, beispielsweise
zur Rußkonzentrationsbestimmung,
siehe die Patentschrift
DE
197 41 973 C1 , zur Erkennung von Klopfneigung und Fehlzündungen,
siehe die Patentschrift
US 5.093.792 ,
oder zur Kraftstoffgemischbestimmung, siehe die Offenlegungsschrift
EP 0 724 073 A2 .
Von Interesse sind hierbei häufig
eine ausreichend genau zeitaufgelöste Ermittlung des Verbrennungsverlaufs
für die
einzelnen Verbrennungsvorgänge
des Motors und die sich daraus ergebenden Konsequenzen für die Motorsteuerung.
-
Eine
aktuell wichtige Anwendung ist beispielsweise die Bestimmung des
sogenannten 50%-Umsatzpunktes über
eine zeitaufgelöste
Ermittlung des Brennraumdruckverlaufs aus einer Erfassung des Raildruckverlaufs
und die Bestimmung der Einspritzmenge bei Dieselmotoren mit Common-Rail-Einspritzsystem.
Für den
Einsatz von künstlichen
neuronalen Netzen in Kraftfahrzeugen und insbesondere in Motorsteuergeräten sind
ausreichend kleine, robuste Netztopologien gewünscht, welche den Echtzeitanforderungen
mit den begrenzten Rechenkapazitäten
genügen.
-
Es
ist bekannt, zur Erzeugung künstlicher neuronaler
Netze geeignete Optimierungsverfahren einzusetzen, die üblicherweise
ein iteratives Trainieren des Netzes beinhalten, um Netzgewichte und/oder
die Netztopologie zu optimieren. Als topologieoptimierende Algorithmen
sind z.B. sogenannte Pruning-Algorithmen,
bei denen ein bereits vollständig
trainiertes Netz nach bestimmten Kriterien ausgedünnt wird,
und konstruierende Algorithmen gebräuchlich, die eine angepasste
Netztopologie während
des Trainings aufbauen. Die Pruning-Verfahren unterscheiden sich nach solchen,
die nicht relevante Neuronen eliminieren, und solche, die nicht
signifikante Verbindungen entfernen. Ein wichtiger konstruierender
Algorithmus ist der sogenannte Cascade-Correlation-Algorithmus,
der mit einer minimalen Netztopologie beginnt und sukzessive jeweils
ein Neuron als zusätzliche
verdeckte Schicht einfügt.
-
Der
Erfindung liegt als technisches Problem die Bereitstellung eines
Verfahrens zur Erzeugung eines künstlichen
neuronalen Netzes zugrunde, das in der Lage ist, die eingehenden
Daten mittels einer relativ einfachen Netztopologie und/oder einer
geeigneten Datenauswahl zur Gewinnung gesuchter Ausgangsinformationen
mit einer ausreichenden Genauigkeit zu verarbeiten.
-
Die
Erfindung löst
dieses Problem durch die Bereitstellung eines Verfahrens mit den
Merkmalen des Anspruchs 1 oder 2.
-
Beim
Verfahren nach Anspruch 1 wird die Eingangsdimension des neuronalen
Netzes unter Verwendung eines informationstheoretischen Verfahrens
iterativ optimiert, mit dem statistische Abhängigkeiten einer oder mehrerer
Ausgangsgrößen von
den Eingangsgrößen analysiert
werden. Dabei wird die Eingangsdimension ausgehend von einer vorgebbaren
minimalen Eingangsdimension iterativ erhöht, bis durch das informationstheoretische
Verfahren erkannt wird, dass eine vorgebbare Datenverarbeitungsgüte des Netzes
erreicht ist.
-
Beim
Verfahren nach Anspruch 2 wird die Netztopologie ausgehend von einer
vorgebbaren minimalen Topologie iterativ unter Hinzunahme von Neuronen
konstruiert, wobei die Neuronverbindungen unter Verwendung eines
informationstheoretischen Verfahrens im Sinne einer Reduzierung,
d.h. Minimierung der Anzahl an Verbindungen, optimiert werden. Es
handelt sich somit um ein konstruierendes Verfahren, bei dem ausgehend
von der minimalen Netztopologie sukzessive Neuronen hinzugenommen
werden und die Verbindungen der vorhandenen Neuronen unter Verwendung
des informationstheoretischen Verfahrens optimiert werden, so dass
als Resultat hiervon nicht signifikante Verbindungen oder Neuronen
entfernt werden können.
-
Die
charakteristische Verwendung eines informationstheoretischen Verfahrens
bei der Optimierung der Netzeingangsdimension bzw. der Neuronverbindungen,
d.h. der Neurondimension, im Sinne einer Reduktion bzw. Minimierung
hat den großen Vorteil,
dass auch bei hochkomplexen Zusammenhängen der gesuchten Ausgangsgrößen von
den Eingangsgrößen diejenigen
Eingangsgrößen, deren Einfluss
auf die Ausgangsgrößen so schwach
ist, dass sie vernachlässigt
werden können,
mit vertretbarem Aufwand aufgefunden und dann ggf. eliminiert werden
können.
Denn informationstheoretische Verfahren haben den Vorzug, dass sie
in der Lage sind, auch solche hochkomplexen Zusammenhänge statistisch
befriedigend mit geforderter Genauigkeit und vertretbarem Aufwand
adäquat
zu beschreiben, worin sie den rein mathematisch-statistischen Methoden wie
Regressions analysen, Korrelations- und Hauptkomponentenanalysen überlegen
sind.
-
Die
Erfindung ermöglicht
auf diese Weise die Erzeugung von künstlichen neuronalen Netzen
mit kleiner, robuster Netztopologie, die insbesondere hinsichtlich
ihrer Netzeingangsdimension und/oder den Neuronverbindungen optimiert
ist. Ein so erzeugtes künstliches
neuronales Netz kann z.B. zur Bestimmung des 50%-Umsatzpunktes und/oder
zur Einspritzmengenbestimmung in Echtzeit bei einem Kraftfahrzeug-Verbrennungsmotor
mit Common-Rail-Einspritzsystem anhand einer zeitaufgelösten Überwachung
des Brennraumdruckverlaufs bzw. des Raildruckverlaufs eingesetzt
werden.
-
In
einer Weiterbildung des Verfahrens nach Anspruch 3 wird ein Transinformationsverfahren
als das informationstheoretische Verfahren zur Analyse der statistischen
Abhängigkeiten
der einen oder mehreren Ausgangsgrößen von den Eingangsgrößen benutzt,
insbesondere ein mehrdimensionales Transinformationsverfahren. Es
zeigt sich, dass diese neuartige Anwendung des bekannten Verfahrens der
Transinformation bzw. verallgemeinerten Transinformation, das in
der Lage ist, auch nichtlineare Zusammenhänge gut zu erkennen, große Vorteile
bei der Optimierung der Eingangsdimension des Netzes bzw. der Optimierung
der Neuronverbindungen bringt. Durch Interpretation von Messreihen
realer Systeme als Zufallsvariablen kann das Transinformationsverfahren
zum Schätzen
statistischer Zusammenhänge
zwischen Eingangs- und Ausgangsgrößen des Systems herangezogen
werden.
-
Bei
einem nach Anspruch 4 weitergebildeten Verfahren wird die Topologie
des künstlichen
neuronalen Netzes ausgehend von einer minimalen Netztopologie durch
ein informationsoptimiertes Netztrainingsverfahren erzeugt, das
eine iterative Optimie rung der Neuronverbindungen im Trainingsprozess des
Netzes umfasst.
-
In
einer vorteilhaften Ausgestaltung nach Anspruch 5 beinhaltet die
Erzeugung des künstlichen neuronalen
Netzes ein konstruierendes Verfahren, bei dem die jeweils aktuelle
Netztopologie zunächst mit
einem beliebigen herkömmlichen
Trainingsverfahren belernt wird, anschließend die Netzverbindungen der
Neuronen unter Verwendung des informationstheoretischen Verfahrens
im Sinne einer Dimensionsminimierung optimiert werden, wonach das
so optimierte Netz wieder trainiert wird. Solange durch diesen Prozess
eine vorgebbare Datenverarbeitungsgüte noch nicht erreicht ist,
wird sukzessive ein Neuron hinzugefügt, z.B. in einer schon bestehenden Zwischenschicht,
um dann iterativ wieder mit dem Trainingsprozess zu beginnen.
-
Vorteilhafte
Ausführungsformen
der Erfindung sind in den Zeichnungen dargestellt und werden nachfolgend
beschrieben. Hierbei zeigen:
-
1 ein Flussdiagramm zur
Veranschaulichung eines iterativen Prozesses zur informationsoptimierten
Eingangsdimensionsbestimmung bei der Erzeugung eines künstlichen
neuronalen Netzes zur Datenverarbeitung,
-
2 Diagramme zur Veranschaulichung
einer Anwendung des Prozesses von 1 auf
eine optimierte Stützstellenauswahl
zur Verarbeitung von Brennraumdruckdaten bei einem Verbrennungsmotor,
-
3 Diagramme zur Veranschaulichung von
statistischen Zusammenhängen
bei der Anwendung gemäß 2 in verschiedenen Iterationen durch
die Verwendung eines Transinformationsverfahrens im Prozess von 1,
-
4 Diagramme zur Veranschaulichung
einer optimierten erfindungsgemäßen Stützstellenwahl im
Vergleich zu herkömmlichen
Methoden für
eine Einspritzmengenbestimmung aus Raildruckdaten eines Verbrennungsmotors
mit Common-Rail-Einspritzsystem,
-
5 eine schematische Darstellung
eines Neurons zur Veranschaulichung eines Prozesses zur informationsoptimierten
Dimensionsreduktion für
das Neuron,
-
6 ein Flussdiagramm eines
Verfahrens zur Erzeugung eines künstlichen
neuronalen Netzes unter Verwendung eines Trainingsverfahrens und
der informationsoptimierten Neuron-Dimensionsreduktion gemäß 5,
-
7 Diagramme eines einfachen
Beispiels der iterativen Erzeugung eines künstlichen neuronalen Netzes
durch das Verfahren von 6,
-
8 Diagramme zur Veranschaulichung
einer ausgehend von 4 weiter
optimierten Stützstellenwahl
zur Verarbeitung von Raildruckdaten und
-
9 eine Darstellung eines
mit dem Verfahren von 6 erzeugten
künstlichen
neuronalen Netzes zur Verarbeitung von Raildruckdaten.
-
1 veranschaulicht einen
Prozess zur informationstheoretischen Optimierung der Eingangsdimension
als ein Prozess zur Erzeugung eines künstlichen neuronalen Netzes
zur Datenverarbeitung. Der Prozess von 1 dient der informationstheoretisch gestützten Auswahl
relevanter Eingangsgrößen bzw.
Eingangsvektoren und beinhaltet eine mehrdimensionale Anwendung
des Schätzverfahrens
zur verallgemeinerten Transinformation. Damit können Ein- und Ausgangsmatrizen
von Messreihen auf informationstheoretische Zusammenhänge analysiert
werden. Es sind lediglich zwei weitere Eingangsparameter erforderlich,
und zwar die prozentuale Belegungsdichte der Binärmatrizen als indirektes Maß für die Größe der Suchboxen
und der Grad der zu erreichenden Gesamtinformation, d.h. die Datenverarbeitungsgüte, als
Abbruchkriterium. Zu den Einzelheiten dieser Trans-informationstechnik
kann auf die prioritätsbegründende Anmeldung
und die dort genannte Literatur verwiesen werden.
-
Der
Algorithmus von 1 liefert
für Messreihenpaare
X und Y relevante Positionen für
die Zeitreihen aus X, an denen die statistische Abhängigkeit
von Y maximal ist, wobei die Schätzung
der statistischen Abhängigkeit
aufgrund der verallgemeinerten Transinformation I2(X,
Y) erfolgt. Die Eingangsmatix X umfasst eine der Anzahl an Messungen
entsprechende Anzahl an Spaltenvektoren der einzelnen Messungen
mit einer gegebenen Länge
der Zeitreihen des Systemeingangs, welche die unreduzierte Eingangsdimension
eines anfänglichen
Netzes bestimmt. Die Ausgangsmatrix Y besteht entsprechend aus einer
der Anzahl von Messungen entsprechenden Anzahl an Spaltenvektoren,
wobei die Länge
der Zeitreihen des Systemausgangs die Dimension des Netzausgangs
bestimmt.
-
In
einem ersten Schritt 11 werden ein Maximalvektor Xmax und
ein Ausgabevektor pos initialisiert, z.B. auf null. In einem nächsten Schritt 12 werden
die Dimensionen T1 und T2 des
Eingangsvektors X bzw. des Ausgangsvektors Y überprüft. Dann werden in einem Schritt 13 die
prozentuale Belegungsdichte proz und die Abbruchbedingung grad vorgegeben
oder auf gewisse Standardwerte gesetzt, z.B. proz = 0,05 und grad
= 0,8. In einem Schritt 14 werden zeilenweise Rangfolgen
der Eingangs- und
Ausgangsmatrizen X, Y gebildet. Solche Rangfolgen haben bekanntermaßen Gleichverteilungseigenschaft. Dann
wird in einem Schritt 15 iterativ ein geeignetes ε des Transinformationsverfahrens
derart bestimmt, dass für
die Transinformations-Entropie H2 die Beziehung
H2(Xmax, Y) = log2(proz)
gilt. Die iterative Suche nach einem geeigneten ε erfolgt unter Betrachtung aller
bisher gefundenen Maximalvektoren Xmax und der Ausgangsmatrix Y.
In einem Schritt 16 wird anschließend die Transinformationsfunktion
I (t, ε)
= I2({Xmax, X (t)}, Y) mit dem Zeitreihenparameter
t berechnet. Die Transinformationsfunktion besteht bei nur einem
Ausgang aus den geschätzten
Transinformationen für
jeden Zeilenvektor der Eingangsmatrix X einerseits und den Ausgangsvektor
Y andererseits.
-
In
einem Schritt 17 wird die Eingangsdimension testweise erhöht, d.h.
ein weiterer Eingangsvektor X(m) zur Berechnung hinzugenommen. Die
jeweils gefundene Position m wird in einem Schritt 18 abgespeichert.
In einem anschließenden
Schritt 19 wird abgefragt, ob die vorgegebene maximale
Gesamtinformation, d.h. Datenverarbeitungsgüte, erreicht ist. Ist dies
der Fall, werden die gefundenen Positionen m als Vektor pos ausgegeben
(Schritt 20), ansonsten wird mit der nächsten Iteration fortgesetzt.
-
2 zeigt in zeitsynchron
untereinanderliegenden Diagrammen die sukzessiven Iterationsresultate
einer Brennraumdruckanalyse, bei der diejenigen Positionen des Brennraumdruckes,
d.h. die Zeitpunkte im Brennraumdruckverlauf gesucht sind, die den
höchsten
statistischen Zusammenhang mit der Verschiebung des Druckmaximums
bezogen auf den Zündzeitpunkt
haben.
-
Diese
Positionen werden mit Hilfe des informationsoptimierten Verfahrens
zur Eingangsdimensionsreduktion gemäß 1 gefunden, das von der mehrdimensionalen
Transinformationsfunktion Gebrauch macht. Das oberste Diagramm zeigt
einige ausgewählte,
gemessene Brennraumdruckverläufe. Im
rechts daneben liegenden, schmalen Diagramm ist der Vektor der zugehörigen Maximaldruckverschiebungen
für eine
Vielzahl von Messungen dargestellt. Die sukzessive darunter liegenden
Diagramme veranschaulichen das Resultat der Benutzung der mehrdimensionalen
Transinformationsfunktion nach einer ersten, zweiten und dritten
Iteration zur Druckpositionsauswahl, wobei drei Druckpositionen
mit hohem Informationsgehalt bezogen auf die Druckmaximumverschiebung
des Brennraumdrucksignals ausgewählt
worden sind. Es ist deutlich der fortschreitende Anstieg der Transinformationsfunktion
I(t, ε)
durch Auswahl zusätzlicher
Stützstellen
zu erkennen. Dabei wurde die verallgemeinerte Transinformation für den Verschiebungsvektor
und für
jede Abtastposition aller Messreihen berechnet. Die Vektoren der
ausgewählten
und in die Berechnung höherer
Iterationen einfließenden
Positionen mit bisher maximalem Informationsgewinn sind durch die
gestrichelten Linien markiert.
-
3 zeigt diagrammatisch für die ersten drei
Iterationen der Brennraumdruckanalyse gemäß 2 die daraus gefundenen, maximalen statistischen
Abhängigkeiten
zwischen Brennraumdruck und zeitlicher Druckmaximumverschiebung.
Aus den Diagrammen ist gut zu erkennen, dass sich schon ab der zweiten
Iteration eine relativ starke nichtlineare Abhängigkeit zeigt, die mit dem
vorliegend benutzten Verfahren reproduziert werden kann. Im Vergleich z.B.
zu einer äquidistanten
Abtastung ist diese Methode der Eingangsdimensionsreduzierung mittels mehrdimensionaler
Transinformation in der Lage, die Anzahl erforderlicher Stützstellen
stark zu reduzieren. Im Gegensatz zu einer Korrelationsanalyse können Aussagen über statistische
Zusammenhänge unter
den Stützstellen
gemacht werden. In der Anwendungsphase sind keine weiteren Berechnungen nötig, was
einen Vorteil z.B. verglichen mit der Methode der Berechnung von
Hauptkomponenten darstellt.
-
4 veranschaulicht diagrammatisch
einen Vergleich der erfindungsgemäßen Vorgehensweise mit herkömmlichen
Methoden für
ein weiteres Anwendungsbeispiel, und zwar der Einspritzmengenbestimmung
aus einem Raildrucksignal eines Verbrennungsmotors mit Common-Rail-Einspritzsystem.
Im obersten Diagramm sind mehrere Raildruckverläufe des Common-Rail-Einspritzsystems
wiedergegeben, die charakteristische Druckschwingungen zeigen, und
mit durchgezogenen senkrechten Linien ist eine äquidistante Abtastung jeder
achten Druckposition der aufgezeichneten Druckdaten angedeutet.
Mit zusätzlichen
gestrichelten senkrechten Linien ist eine verfeinerte äquidistante
Abtastung bei jeder vierten Druckposition angedeutet. Im mittleren
Diagramm ist eine durch ein herkömmliches
Korrelationsverfahren erhaltene Stützstellenauswahl und der zugehörige Funktionsverlauf
der Korrelationskoeffizienten bezogen auf Raildruckschwingungen
und zugehörige
Einspritzmengen dargestellt. Dies beruht auf einer äquidistanten
Abtastung jeder vierten Druckposition, wobei mit senkrechten Linien
die durch einen vorgegebenen Schwellwert von 75% ausgewählten Stützstellen
angegeben sind. Das untere Diagramm zeigt erfindungsgemäß erhaltene Funktionsverläufe der
mehrdimensionalen Transinformationswerte bezogen auf Raildruckschwingungen
und zugehörige
Einspritzmengen, wobei die ausgewählten Maximalwerte einer jeden
Iteration wiedergegeben sind. Es ergibt sich, dass die ersten zehn Stützstellen
ca. 75% der Information liefern.
-
5 veranschaulicht eine Methode
der informationstheoretischen Optimierung der gesamten Netztopologie
unter Verwendung des Verfahrens der Transinformation zur Dimensionsreduktion
einzelner Neuronen am Beispiel eines Neurons j. Im Folgenden wird
insbesondere auf neuronale Netze mit nur einer verdeckten Schicht
eingegangen, die Vorgehensweise ist jedoch genauso zur Generierung
tieferer Netzstrukturen verwendbar.
-
Wie
in 5 angedeutet, liegt
wie üblich
am Eingang des Neurons j eine Anzahl von mit Gewichten wij versehenen Eingangsfolgen oi(t)
aller Neuronen einer oder mehrerer vorhergehender Schichten an.
Nach Durchlaufen einer Eingangsfunktion fein einer
Aktivierungsfunktion fakt und einer Ausgangsfunktion
faus liefert das Neuron j eine Ausgangsfolge
oj(t), wobei Eingangs-, Ausgangs- und Aktivierungsfunktion
beliebig gewählt
sein können.
Zur informationsoptimierten Dimensionsreduktion für das Neuron
j wird analog zum Verfahren gemäß 1 vorgegangen, mit der Eingangsfolge
wijoi als Eingangsmatix
x und mit der Ausgangsfolge oj als Ausgangsmatrix
Y. Daraus ergeben sich dann diejenigen Verbindungen zum Neuron j,
die für
die Erzeugung der Ausgabefolge oj die größte Relevanz
haben, d.h. ohne weitere Parameter werden diejenigen Verbindungen
ausgewählt, mit
denen sich die vorgegebene Datenverarbeitungsgüte von z.B. 80% erreichen lässt. Alle
anderen Verbindungen können
dann gelöscht
werden. Im Gegensatz zu herkömmlichen
Pruning-Algorithmen erfolgt dieses Löschen von Verbindungen und
ggf. von Neuronen, falls diese keine signifikanten Verbindungen mehr
haben, schon während
des Aufbaus bzw. Trainings des neuronalen Netzes und nicht erst
nach vollständigem
Training des Netzes.
-
6 veranschaulicht ein auf
der informationsoptimierten Dimensionsreduktion für die Neuronen
gemäß 5 aufbauendes Verfahren
zur Erzeugung eines künstlichen
neuronalen Netzes zur Datenverarbeitung, bei dem ausgehend von einer
minimalen Netztopologie eine optimale Netztopologie durch sukzessives Trainieren
des Netzes, informationsoptimierte Dimensionsreduktion aller Neuronen, Trainieren
des optimierten Netzes und ggf. iteratives Wiederholen der Vorgänge mit
einem um ein Neuron erweiterten Netz konstruiert wird. Dazu wird
zunächst in
einem Schritt 61 ein anfängliches minimales Netz NET
mit vorgebbarer Anzahl T1 von Eingangsneuronen
und vorgebbarer Anzahl T2 von Ausgangsneuronen
ohne verdeckte Schicht mit vollständig verbundenen Neuronen bereitgestellt.
Die Dimensionen für die
Eingangs- und die Ausgangsschicht ergeben sich aus den Dimensionen
der zu berücksichtigenden Eingangsgrößen und
der gesuchten Ausgangsgrößen. In
einem Schritt 62 werden die Gewichte der nicht trainierten
Verbindungen initialisiert. Hierbei sind beliebige Initialisierungsmethoden
möglich,
z.B. zufällige
oder topologiebezogene Initialisierungsvorschriften. In einem Schritt 63 wird
das Netzwerk für eine
Anzahl n von Trainingsepochen mit Lerndaten belernt, die der Eingangsdatenmenge
entnommen sind, wobei zugehörige
Trainingsausgabedaten generiert werden. In einem Schritt 64 wird
ein sich unter Verwendung eines vorgebbaren Fehlermaßes ergebender
Ausgabefehler für
ausgewählte
Validierungsdaten der Netzausgabe bezüglich der Trainingsausgabedaten
ermittelt, wobei die Validierungsdaten ebenfalls aus der Eingangsdatenmenge
ausgewählt sind,
sich jedoch mit den Lerndaten nicht überschneiden. Der Trainingsdatensatz
dient dem Lernen, der Validierungsdatensatz der Überwachung des Trainingserfolgs.
In einem Schritt 65 wird abgefragt, ob der Ausgabefehler
kontinuierlich fällt.
Solange dies der Fall ist, wird der Trainingsvorgang iterativ wiederholt,
für den
irgendein beliebiges herkömmliches Trainingsverfahren
verwendet werden kann.
-
Sobald
der Ausgabefehler durch diesen Trainingsvorgang nicht mehr kontinuierlich
fällt,
werden die Netzverbindungen aller Neuronen durch das Verfahren entsprechend 1 in der zu 5 geschilderten Weise zwecks Dimensionsreduktion
opti miert. Bei diesem Vorgang werden für alle Neuronen der verdeckten
Schicht, soweit vorhanden, und der Ausgabeschicht die eingehenden
Verbindungen ermittelt, deren Relevanz für die Neuronausgabe ein vorgegebenes
Maß überschreitet.
Alle anderen Verbindungen werden gelöscht. (Schritt 66).
Anschließend wird
das so optimierte Netz in einem Schritt 67 wiederum für eine Anzahl
n von Trainingsepochen trainiert. In einem Schritt 68 werden
das trainierte optimierte Netz und der Ausgabefehler der Netzausgabe mit
minimalem Ausgabefehler bezüglich
der Trainingsausgabedaten gespeichert.
-
In
einem Schritt 69 wird abgefragt, ob der gespeicherte Ausgabefehler
des trainierten optimierten Netzes kontinuierlich fällt. Solange
dies der Fall ist, wird der Trainingsvorgang iterativ wiederholt.
Wenn dies nicht mehr der Fall ist, wird in einem Schritt 70 abgefragt,
ob der Ausgabefehler des trainierten optimierten Netzes geringer
ist als der Ausgabefehler des trainierten Netzes vor der Optimierung
der Verbindungen aller Neuronen zur Dimensionsreduktion. Solange
dies der Fall ist, wird in einem Schritt 71 das Netz um
ein Neuron in einer Zwischenschicht und um Verbindungen dieses Neurons
zu allen Neuronen der Eingangsschicht und allen Neuronen der Ausgangsschicht
erweitert. Mit diesem erweiterten Netz wird dann der gesamte Vorgang
ab der Initialisierung der nicht trainierten Verbindungen iterativ
wiederholt. Ansonsten stellt dann das zuletzt erhaltene Netz das
gesuchte optimierte neuronale Netz mit minimalem Ausgabefehler dar.
-
7 zeigt vereinfacht und
diagrammatisch die Vorgehensweise bei der Erzeugung eines informationstheoretisch
optimierten künstlichen
neuronalen Netzes gemäß 6. In der ersten Iteration
besteht die Netztopologie anfänglich
nur aus einer Eingangsschicht mit gezeigten fünf Neuronen und einer Ausgangsschicht
mit einem gezeigten Neuron (Teilbild a). Durch das anschließende informationsoptimierte
Training des Netzes wurden zwei Netzverbindungen als nicht relevant
klassifiziert und aus dem Netz entfernt (Teilbild b). Mit der zweiten
Iteration wurde ein Neuron einer Zwischenschicht mit Verbindungen
zu allen Eingangs- und Ausgangsneuronen hinzugefügt (Teilbild c). Nach informationsoptimiertem
Training wurden wiederum einige Verbindungen als nicht relevant
erkannt und eliminiert, wobei jedoch relevante Verbindungen zu Eingangsneuronen
verblieben sind (Teilbild c).
-
Diese
Vorgehensweise wird bis zur Erzielung der gewünschten Datenverarbeitungsgüte wiederholt,
d.h. gemäß 7 wird der Zwischenschicht
ein weiteres Neuron hinzugefügt
und mit allen Eingangs- und Ausgangsneuronen verbunden (Teilbild
e). Durch informationsoptimiertes Training werden wiederum nicht
signifikante Verbindungen erkannt und eliminiert (Teilbild f). Im
gezeigten Fall von 7 ergibt
sich eine Netztopologie, bei welcher der Eingabevektor eines Neurons
gar nicht mehr relevant ist und das zweite verdeckte Neuron andere
Informationen als sein Nachbarneuron und als das Ausgangsneuron
bezieht. Im Vergleich zu einer vollständig verknüpften Topologie hat das optimierte
Netz von 7 ein Drittel
weniger Verbindungen. Gegenüber
einer Optimierung durch ein herkömmliches
Cascade-Correlation-Verfahren
ergeben sich wesentlich weniger Verbindungen, und das Einfügen einer
neuen verdeckten Schicht mit jedem neuen Neuron wird vermieden.
-
Die 8 und 9 veranschaulichen die Anwendung der
informationsoptimierten Netztopologieerzeugung gemäß 6 zur Datenverarbeitung
von Druckschwingungsdaten eines Common-Rail-Einspritzsystems, wie es schon oben
zu 4 erwähnt ist.
Speziell stellt 8 das
Resultat der Stützstellenauswahl
durch informationsoptimierte Reduktion der Netzeingangsdimension
gemäß 4 dem Resultat einer Stützstellenauswahl durch
informationsoptimierte Netztopologieerzeugung entsprechend 6 gegenüber. Das obere Diagramm von 8 entspricht dem unteren
Diagramm von 4. Das
untere Diagramm von 8 ist
das Ergebnis einer Auswahl von 49 Stützstellen, wie sie durch eine
informationsoptimierte Netztopologieerzeugung gemäß 6 für die gleiche Eingangsdatenmenge
erhalten wurde. Das resultierende Netz, dessen Topologie durch das
Verfahren von 6 mittels
Training und informationsoptimierter Neurondimensionsreduktion erhalten
wurde, ist in 9 gezeigt.
Dabei wurde von anfänglich
260 Eingangsneuronen und einem Ausgangsneuron ausgegangen. Von den
49 ausgewählten
Eingangsneuronen, d.h. hier Druckpositionen, bleiben lediglich 90
von 637 möglichen
Verbindungen zu 13 Neuronen einer Zwischenschicht. Das Ausgangsneuron
ist nur mit 8 von 49 möglichen
Eingängen
direkt verbunden.
-
Die
gezeigten und oben näher
erläuterten Ausführungsbeispiele
machen deutlich, dass mit dem erfindungsgemäßen Verfahren vergleichsweise kleine
und robuste künstliche
neuronale Netze zur Datenverarbeitung erzeugt werden können, die
sich für
Echtzeitanwendungen z.B. in Kraftfahrzeugen, aber auch auf beliebigen
anderen technischen Gebieten eignen. Die Eingangsdimension des Netzes und/oder
die Dimension von Neuronen des Netzes werden unter Zuhilfenahme
eines Transinformationsverfahrens im Sinne einer Reduktion optimiert,
wobei anstelle des Transinformationsverfahrens auch ein anderes
informationstheoretisches Verfahren benutzt werden kann. Auf diese
Weise lassen sich relativ einfache Netztopologien realisieren, die
eine geforderte Gesamtinformation, d.h. Datenverarbeitungsgüte, liefern.