DE102004031007A1

DE102004031007A1 - Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung

Info

Publication number: DE102004031007A1
Application number: DE102004031007A
Authority: DE
Inventors: Michael Dipl.-Inf. Fröhlich
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2003-07-23
Filing date: 2004-06-26
Publication date: 2005-02-10

Abstract

Die Erfindung bezieht sich auf ein Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung. DOLLAR A Erfindungsgemäß werden eine Eingangsdimension des neuronalen Netzes und/oder Neuronverbindungen unter Verwendung eines informationstheoretischen Verfahrens, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von den Eingangsgrößen analysiert werden, iterativ optimiert. DOLLAR A Verwendung z. B. zur Verarbeitung von Verbrennungskenngrößendaten eines Kraftfahrzeugmotors.

Description

Die Erfindung bezieht sich auf ein Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, insbesondere zur Verarbeitung von Drucksignalen eines Common-Rail-Einspritzsystems eines Verbrennungsmotors oder von Brennraumdrucksignalen eines Verbrennungsmotors. Die vorliegende Anmeldung nimmt die Priorität der deutschen Patentanmeldung Nr. 103 35 007.4 in Anspruch, deren Inhalt hiermit durch Verweis in vollem Umfang hierin aufgenommen wird.

Künstliche neuronale Netze sind in vielerlei Ausprägungen und für zahlreiche Anwendungen in verschiedenen Gebieten der Technik bekannt. Sie bestehen üblicherweise aus einer Eingangsschicht mit einer die Eingangsdimension bestimmenden Anzahl von Eingangsneuronen, einer Ausgangsschicht mit einem oder mehreren Neuronen und keiner, einer oder mehreren zwischenliegenden, verdeckten Schichten mit je einem oder mehreren Neuronen und sind je nach gewählter Netztopologie und eingesetztem Netztrainingsverfahren in der Lage, auch hochkomplexe Abhängigkeiten einer oder mehrerer gesuchter Ausgangsgrößen von einer oder mehreren zugeführten Eingangsgrößen adäquat und mit vertretbarem Aufwand zu beschreiben. Dabei eignen sich künstliche neuronale Netze auch für Echtzeitanwendungen. Sie sind in solchen Fällen rein mathematischen Berechnungsmethoden häufig überlegen, insbesondere dann, wenn die Beziehung zwischen den gesuchten Ausgangsgrößen und den Eingangsgrößen nur so unzureichend bekannt, dass es schwierig ist, einen guten mathematischen Berechnungsansatz zu finden. So liefern z.B. die bekannten linearen Regressions- und Korrelationsanalysen und die sogenannte Hauptkomponentenanalyse als rein mathematisch-statistische Datenanalyseverfahren meist nur für weitgehend lineare Zusammenhänge befriedigende Ergebnisse. Eine Erweiterung dieser Methoden auf polynominale oder exponentielle Zusammenhänge setzt voraus, dass ein solcher funktionaler Zusammenhang wenigstens grob bekannt ist, um einen entsprechenden Ansatz machen zu können.

Ein wichtiges Anwendungsgebiet mit Echtzeitanforderung ist die Datenverarbeitung in Kraftfahrzeugen. Hier sind künstliche neuronale Netze bereits zu verschiedenen Zwecken gebräuchlich, insbesondere zur Verarbeitung von Daten, die sich auf den Betrieb eines Verbrennungsmotors im Kraftfahrzeug beziehen, beispielsweise zur Rußkonzentrationsbestimmung, siehe die Patentschrift DE 197 41 973 C1 , zur Erkennung von Klopfneigung und Fehlzündungen, siehe die Patentschrift US 5.093.792 , oder zur Kraftstoffgemischbestimmung, siehe die Offenlegungsschrift EP 0 724 073 A2 . Von Interesse sind hierbei häufig eine ausreichend genau zeitaufgelöste Ermittlung des Verbrennungsverlaufs für die einzelnen Verbrennungsvorgänge des Motors und die sich daraus ergebenden Konsequenzen für die Motorsteuerung.

Eine aktuell wichtige Anwendung ist beispielsweise die Bestimmung des sogenannten 50%-Umsatzpunktes über eine zeitaufgelöste Ermittlung des Brennraumdruckverlaufs aus einer Erfassung des Raildruckverlaufs und die Bestimmung der Einspritzmenge bei Dieselmotoren mit Common-Rail-Einspritzsystem. Für den Einsatz von künstlichen neuronalen Netzen in Kraftfahrzeugen und insbesondere in Motorsteuergeräten sind ausreichend kleine, robuste Netztopologien gewünscht, welche den Echtzeitanforderungen mit den begrenzten Rechenkapazitäten genügen.

Es ist bekannt, zur Erzeugung künstlicher neuronaler Netze geeignete Optimierungsverfahren einzusetzen, die üblicherweise ein iteratives Trainieren des Netzes beinhalten, um Netzgewichte und/oder die Netztopologie zu optimieren. Als topologieoptimierende Algorithmen sind z.B. sogenannte Pruning-Algorithmen, bei denen ein bereits vollständig trainiertes Netz nach bestimmten Kriterien ausgedünnt wird, und konstruierende Algorithmen gebräuchlich, die eine angepasste Netztopologie während des Trainings aufbauen. Die Pruning-Verfahren unterscheiden sich nach solchen, die nicht relevante Neuronen eliminieren, und solche, die nicht signifikante Verbindungen entfernen. Ein wichtiger konstruierender Algorithmus ist der sogenannte Cascade-Correlation-Algorithmus, der mit einer minimalen Netztopologie beginnt und sukzessive jeweils ein Neuron als zusätzliche verdeckte Schicht einfügt.

Der Erfindung liegt als technisches Problem die Bereitstellung eines Verfahrens zur Erzeugung eines künstlichen neuronalen Netzes zugrunde, das in der Lage ist, die eingehenden Daten mittels einer relativ einfachen Netztopologie und/oder einer geeigneten Datenauswahl zur Gewinnung gesuchter Ausgangsinformationen mit einer ausreichenden Genauigkeit zu verarbeiten.

Die Erfindung löst dieses Problem durch die Bereitstellung eines Verfahrens mit den Merkmalen des Anspruchs 1 oder 2.

Beim Verfahren nach Anspruch 1 wird die Eingangsdimension des neuronalen Netzes unter Verwendung eines informationstheoretischen Verfahrens iterativ optimiert, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von den Eingangsgrößen analysiert werden. Dabei wird die Eingangsdimension ausgehend von einer vorgebbaren minimalen Eingangsdimension iterativ erhöht, bis durch das informationstheoretische Verfahren erkannt wird, dass eine vorgebbare Datenverarbeitungsgüte des Netzes erreicht ist.

Beim Verfahren nach Anspruch 2 wird die Netztopologie ausgehend von einer vorgebbaren minimalen Topologie iterativ unter Hinzunahme von Neuronen konstruiert, wobei die Neuronverbindungen unter Verwendung eines informationstheoretischen Verfahrens im Sinne einer Reduzierung, d.h. Minimierung der Anzahl an Verbindungen, optimiert werden. Es handelt sich somit um ein konstruierendes Verfahren, bei dem ausgehend von der minimalen Netztopologie sukzessive Neuronen hinzugenommen werden und die Verbindungen der vorhandenen Neuronen unter Verwendung des informationstheoretischen Verfahrens optimiert werden, so dass als Resultat hiervon nicht signifikante Verbindungen oder Neuronen entfernt werden können.

Die charakteristische Verwendung eines informationstheoretischen Verfahrens bei der Optimierung der Netzeingangsdimension bzw. der Neuronverbindungen, d.h. der Neurondimension, im Sinne einer Reduktion bzw. Minimierung hat den großen Vorteil, dass auch bei hochkomplexen Zusammenhängen der gesuchten Ausgangsgrößen von den Eingangsgrößen diejenigen Eingangsgrößen, deren Einfluss auf die Ausgangsgrößen so schwach ist, dass sie vernachlässigt werden können, mit vertretbarem Aufwand aufgefunden und dann ggf. eliminiert werden können. Denn informationstheoretische Verfahren haben den Vorzug, dass sie in der Lage sind, auch solche hochkomplexen Zusammenhänge statistisch befriedigend mit geforderter Genauigkeit und vertretbarem Aufwand adäquat zu beschreiben, worin sie den rein mathematisch-statistischen Methoden wie Regressions analysen, Korrelations- und Hauptkomponentenanalysen überlegen sind.

Die Erfindung ermöglicht auf diese Weise die Erzeugung von künstlichen neuronalen Netzen mit kleiner, robuster Netztopologie, die insbesondere hinsichtlich ihrer Netzeingangsdimension und/oder den Neuronverbindungen optimiert ist. Ein so erzeugtes künstliches neuronales Netz kann z.B. zur Bestimmung des 50%-Umsatzpunktes und/oder zur Einspritzmengenbestimmung in Echtzeit bei einem Kraftfahrzeug-Verbrennungsmotor mit Common-Rail-Einspritzsystem anhand einer zeitaufgelösten Überwachung des Brennraumdruckverlaufs bzw. des Raildruckverlaufs eingesetzt werden.

In einer Weiterbildung des Verfahrens nach Anspruch 3 wird ein Transinformationsverfahren als das informationstheoretische Verfahren zur Analyse der statistischen Abhängigkeiten der einen oder mehreren Ausgangsgrößen von den Eingangsgrößen benutzt, insbesondere ein mehrdimensionales Transinformationsverfahren. Es zeigt sich, dass diese neuartige Anwendung des bekannten Verfahrens der Transinformation bzw. verallgemeinerten Transinformation, das in der Lage ist, auch nichtlineare Zusammenhänge gut zu erkennen, große Vorteile bei der Optimierung der Eingangsdimension des Netzes bzw. der Optimierung der Neuronverbindungen bringt. Durch Interpretation von Messreihen realer Systeme als Zufallsvariablen kann das Transinformationsverfahren zum Schätzen statistischer Zusammenhänge zwischen Eingangs- und Ausgangsgrößen des Systems herangezogen werden.

Bei einem nach Anspruch 4 weitergebildeten Verfahren wird die Topologie des künstlichen neuronalen Netzes ausgehend von einer minimalen Netztopologie durch ein informationsoptimiertes Netztrainingsverfahren erzeugt, das eine iterative Optimie rung der Neuronverbindungen im Trainingsprozess des Netzes umfasst.

In einer vorteilhaften Ausgestaltung nach Anspruch 5 beinhaltet die Erzeugung des künstlichen neuronalen Netzes ein konstruierendes Verfahren, bei dem die jeweils aktuelle Netztopologie zunächst mit einem beliebigen herkömmlichen Trainingsverfahren belernt wird, anschließend die Netzverbindungen der Neuronen unter Verwendung des informationstheoretischen Verfahrens im Sinne einer Dimensionsminimierung optimiert werden, wonach das so optimierte Netz wieder trainiert wird. Solange durch diesen Prozess eine vorgebbare Datenverarbeitungsgüte noch nicht erreicht ist, wird sukzessive ein Neuron hinzugefügt, z.B. in einer schon bestehenden Zwischenschicht, um dann iterativ wieder mit dem Trainingsprozess zu beginnen.

Vorteilhafte Ausführungsformen der Erfindung sind in den Zeichnungen dargestellt und werden nachfolgend beschrieben. Hierbei zeigen:
1 ein Flussdiagramm zur Veranschaulichung eines iterativen Prozesses zur informationsoptimierten Eingangsdimensionsbestimmung bei der Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung,
2 Diagramme zur Veranschaulichung einer Anwendung des Prozesses von 1 auf eine optimierte Stützstellenauswahl zur Verarbeitung von Brennraumdruckdaten bei einem Verbrennungsmotor,
3 Diagramme zur Veranschaulichung von statistischen Zusammenhängen bei der Anwendung gemäß 2 in verschiedenen Iterationen durch die Verwendung eines Transinformationsverfahrens im Prozess von 1,
4 Diagramme zur Veranschaulichung einer optimierten erfindungsgemäßen Stützstellenwahl im Vergleich zu herkömmlichen Methoden für eine Einspritzmengenbestimmung aus Raildruckdaten eines Verbrennungsmotors mit Common-Rail-Einspritzsystem,
5 eine schematische Darstellung eines Neurons zur Veranschaulichung eines Prozesses zur informationsoptimierten Dimensionsreduktion für das Neuron,
6 ein Flussdiagramm eines Verfahrens zur Erzeugung eines künstlichen neuronalen Netzes unter Verwendung eines Trainingsverfahrens und der informationsoptimierten Neuron-Dimensionsreduktion gemäß 5,
7 Diagramme eines einfachen Beispiels der iterativen Erzeugung eines künstlichen neuronalen Netzes durch das Verfahren von 6,
8 Diagramme zur Veranschaulichung einer ausgehend von 4 weiter optimierten Stützstellenwahl zur Verarbeitung von Raildruckdaten und
9 eine Darstellung eines mit dem Verfahren von 6 erzeugten künstlichen neuronalen Netzes zur Verarbeitung von Raildruckdaten.
1 veranschaulicht einen Prozess zur informationstheoretischen Optimierung der Eingangsdimension als ein Prozess zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung. Der Prozess von 1 dient der informationstheoretisch gestützten Auswahl relevanter Eingangsgrößen bzw. Eingangsvektoren und beinhaltet eine mehrdimensionale Anwendung des Schätzverfahrens zur verallgemeinerten Transinformation. Damit können Ein- und Ausgangsmatrizen von Messreihen auf informationstheoretische Zusammenhänge analysiert werden. Es sind lediglich zwei weitere Eingangsparameter erforderlich, und zwar die prozentuale Belegungsdichte der Binärmatrizen als indirektes Maß für die Größe der Suchboxen und der Grad der zu erreichenden Gesamtinformation, d.h. die Datenverarbeitungsgüte, als Abbruchkriterium. Zu den Einzelheiten dieser Trans-informationstechnik kann auf die prioritätsbegründende Anmeldung und die dort genannte Literatur verwiesen werden.
Der Algorithmus von 1 liefert für Messreihenpaare X und Y relevante Positionen für die Zeitreihen aus X, an denen die statistische Abhängigkeit von Y maximal ist, wobei die Schätzung der statistischen Abhängigkeit aufgrund der verallgemeinerten Transinformation I₂(X, Y) erfolgt. Die Eingangsmatix X umfasst eine der Anzahl an Messungen entsprechende Anzahl an Spaltenvektoren der einzelnen Messungen mit einer gegebenen Länge der Zeitreihen des Systemeingangs, welche die unreduzierte Eingangsdimension eines anfänglichen Netzes bestimmt. Die Ausgangsmatrix Y besteht entsprechend aus einer der Anzahl von Messungen entsprechenden Anzahl an Spaltenvektoren, wobei die Länge der Zeitreihen des Systemausgangs die Dimension des Netzausgangs bestimmt.
In einem ersten Schritt 11 werden ein Maximalvektor Xmax und ein Ausgabevektor pos initialisiert, z.B. auf null. In einem nächsten Schritt 12 werden die Dimensionen T₁ und T₂ des Eingangsvektors X bzw. des Ausgangsvektors Y überprüft. Dann werden in einem Schritt 13 die prozentuale Belegungsdichte proz und die Abbruchbedingung grad vorgegeben oder auf gewisse Standardwerte gesetzt, z.B. proz = 0,05 und grad = 0,8. In einem Schritt 14 werden zeilenweise Rangfolgen der Eingangs- und Ausgangsmatrizen X, Y gebildet. Solche Rangfolgen haben bekanntermaßen Gleichverteilungseigenschaft. Dann wird in einem Schritt 15 iterativ ein geeignetes ε des Transinformationsverfahrens derart bestimmt, dass für die Transinformations-Entropie H₂ die Beziehung H₂(Xmax, Y) = log₂(proz) gilt. Die iterative Suche nach einem geeigneten ε erfolgt unter Betrachtung aller bisher gefundenen Maximalvektoren Xmax und der Ausgangsmatrix Y. In einem Schritt 16 wird anschließend die Transinformationsfunktion I (t, ε) = I₂({Xmax, X (t)}, Y) mit dem Zeitreihenparameter t berechnet. Die Transinformationsfunktion besteht bei nur einem Ausgang aus den geschätzten Transinformationen für jeden Zeilenvektor der Eingangsmatrix X einerseits und den Ausgangsvektor Y andererseits.
In einem Schritt 17 wird die Eingangsdimension testweise erhöht, d.h. ein weiterer Eingangsvektor X(m) zur Berechnung hinzugenommen. Die jeweils gefundene Position m wird in einem Schritt 18 abgespeichert. In einem anschließenden Schritt 19 wird abgefragt, ob die vorgegebene maximale Gesamtinformation, d.h. Datenverarbeitungsgüte, erreicht ist. Ist dies der Fall, werden die gefundenen Positionen m als Vektor pos ausgegeben (Schritt 20), ansonsten wird mit der nächsten Iteration fortgesetzt.
2 zeigt in zeitsynchron untereinanderliegenden Diagrammen die sukzessiven Iterationsresultate einer Brennraumdruckanalyse, bei der diejenigen Positionen des Brennraumdruckes, d.h. die Zeitpunkte im Brennraumdruckverlauf gesucht sind, die den höchsten statistischen Zusammenhang mit der Verschiebung des Druckmaximums bezogen auf den Zündzeitpunkt haben.
Diese Positionen werden mit Hilfe des informationsoptimierten Verfahrens zur Eingangsdimensionsreduktion gemäß 1 gefunden, das von der mehrdimensionalen Transinformationsfunktion Gebrauch macht. Das oberste Diagramm zeigt einige ausgewählte, gemessene Brennraumdruckverläufe. Im rechts daneben liegenden, schmalen Diagramm ist der Vektor der zugehörigen Maximaldruckverschiebungen für eine Vielzahl von Messungen dargestellt. Die sukzessive darunter liegenden Diagramme veranschaulichen das Resultat der Benutzung der mehrdimensionalen Transinformationsfunktion nach einer ersten, zweiten und dritten Iteration zur Druckpositionsauswahl, wobei drei Druckpositionen mit hohem Informationsgehalt bezogen auf die Druckmaximumverschiebung des Brennraumdrucksignals ausgewählt worden sind. Es ist deutlich der fortschreitende Anstieg der Transinformationsfunktion I(t, ε) durch Auswahl zusätzlicher Stützstellen zu erkennen. Dabei wurde die verallgemeinerte Transinformation für den Verschiebungsvektor und für jede Abtastposition aller Messreihen berechnet. Die Vektoren der ausgewählten und in die Berechnung höherer Iterationen einfließenden Positionen mit bisher maximalem Informationsgewinn sind durch die gestrichelten Linien markiert.
3 zeigt diagrammatisch für die ersten drei Iterationen der Brennraumdruckanalyse gemäß 2 die daraus gefundenen, maximalen statistischen Abhängigkeiten zwischen Brennraumdruck und zeitlicher Druckmaximumverschiebung. Aus den Diagrammen ist gut zu erkennen, dass sich schon ab der zweiten Iteration eine relativ starke nichtlineare Abhängigkeit zeigt, die mit dem vorliegend benutzten Verfahren reproduziert werden kann. Im Vergleich z.B. zu einer äquidistanten Abtastung ist diese Methode der Eingangsdimensionsreduzierung mittels mehrdimensionaler Transinformation in der Lage, die Anzahl erforderlicher Stützstellen stark zu reduzieren. Im Gegensatz zu einer Korrelationsanalyse können Aussagen über statistische Zusammenhänge unter den Stützstellen gemacht werden. In der Anwendungsphase sind keine weiteren Berechnungen nötig, was einen Vorteil z.B. verglichen mit der Methode der Berechnung von Hauptkomponenten darstellt.
4 veranschaulicht diagrammatisch einen Vergleich der erfindungsgemäßen Vorgehensweise mit herkömmlichen Methoden für ein weiteres Anwendungsbeispiel, und zwar der Einspritzmengenbestimmung aus einem Raildrucksignal eines Verbrennungsmotors mit Common-Rail-Einspritzsystem. Im obersten Diagramm sind mehrere Raildruckverläufe des Common-Rail-Einspritzsystems wiedergegeben, die charakteristische Druckschwingungen zeigen, und mit durchgezogenen senkrechten Linien ist eine äquidistante Abtastung jeder achten Druckposition der aufgezeichneten Druckdaten angedeutet. Mit zusätzlichen gestrichelten senkrechten Linien ist eine verfeinerte äquidistante Abtastung bei jeder vierten Druckposition angedeutet. Im mittleren Diagramm ist eine durch ein herkömmliches Korrelationsverfahren erhaltene Stützstellenauswahl und der zugehörige Funktionsverlauf der Korrelationskoeffizienten bezogen auf Raildruckschwingungen und zugehörige Einspritzmengen dargestellt. Dies beruht auf einer äquidistanten Abtastung jeder vierten Druckposition, wobei mit senkrechten Linien die durch einen vorgegebenen Schwellwert von 75% ausgewählten Stützstellen angegeben sind. Das untere Diagramm zeigt erfindungsgemäß erhaltene Funktionsverläufe der mehrdimensionalen Transinformationswerte bezogen auf Raildruckschwingungen und zugehörige Einspritzmengen, wobei die ausgewählten Maximalwerte einer jeden Iteration wiedergegeben sind. Es ergibt sich, dass die ersten zehn Stützstellen ca. 75% der Information liefern.
5 veranschaulicht eine Methode der informationstheoretischen Optimierung der gesamten Netztopologie unter Verwendung des Verfahrens der Transinformation zur Dimensionsreduktion einzelner Neuronen am Beispiel eines Neurons j. Im Folgenden wird insbesondere auf neuronale Netze mit nur einer verdeckten Schicht eingegangen, die Vorgehensweise ist jedoch genauso zur Generierung tieferer Netzstrukturen verwendbar.
Wie in 5 angedeutet, liegt wie üblich am Eingang des Neurons j eine Anzahl von mit Gewichten w_ij versehenen Eingangsfolgen o_i(t) aller Neuronen einer oder mehrerer vorhergehender Schichten an. Nach Durchlaufen einer Eingangsfunktion f_ein einer Aktivierungsfunktion f_akt und einer Ausgangsfunktion f_aus liefert das Neuron j eine Ausgangsfolge o_j(t), wobei Eingangs-, Ausgangs- und Aktivierungsfunktion beliebig gewählt sein können. Zur informationsoptimierten Dimensionsreduktion für das Neuron j wird analog zum Verfahren gemäß 1 vorgegangen, mit der Eingangsfolge w_ijo_i als Eingangsmatix x und mit der Ausgangsfolge o_j als Ausgangsmatrix Y. Daraus ergeben sich dann diejenigen Verbindungen zum Neuron j, die für die Erzeugung der Ausgabefolge o_j die größte Relevanz haben, d.h. ohne weitere Parameter werden diejenigen Verbindungen ausgewählt, mit denen sich die vorgegebene Datenverarbeitungsgüte von z.B. 80% erreichen lässt. Alle anderen Verbindungen können dann gelöscht werden. Im Gegensatz zu herkömmlichen Pruning-Algorithmen erfolgt dieses Löschen von Verbindungen und ggf. von Neuronen, falls diese keine signifikanten Verbindungen mehr haben, schon während des Aufbaus bzw. Trainings des neuronalen Netzes und nicht erst nach vollständigem Training des Netzes.
6 veranschaulicht ein auf der informationsoptimierten Dimensionsreduktion für die Neuronen gemäß 5 aufbauendes Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, bei dem ausgehend von einer minimalen Netztopologie eine optimale Netztopologie durch sukzessives Trainieren des Netzes, informationsoptimierte Dimensionsreduktion aller Neuronen, Trainieren des optimierten Netzes und ggf. iteratives Wiederholen der Vorgänge mit einem um ein Neuron erweiterten Netz konstruiert wird. Dazu wird zunächst in einem Schritt 61 ein anfängliches minimales Netz NET mit vorgebbarer Anzahl T₁ von Eingangsneuronen und vorgebbarer Anzahl T₂ von Ausgangsneuronen ohne verdeckte Schicht mit vollständig verbundenen Neuronen bereitgestellt. Die Dimensionen für die Eingangs- und die Ausgangsschicht ergeben sich aus den Dimensionen der zu berücksichtigenden Eingangsgrößen und der gesuchten Ausgangsgrößen. In einem Schritt 62 werden die Gewichte der nicht trainierten Verbindungen initialisiert. Hierbei sind beliebige Initialisierungsmethoden möglich, z.B. zufällige oder topologiebezogene Initialisierungsvorschriften. In einem Schritt 63 wird das Netzwerk für eine Anzahl n von Trainingsepochen mit Lerndaten belernt, die der Eingangsdatenmenge entnommen sind, wobei zugehörige Trainingsausgabedaten generiert werden. In einem Schritt 64 wird ein sich unter Verwendung eines vorgebbaren Fehlermaßes ergebender Ausgabefehler für ausgewählte Validierungsdaten der Netzausgabe bezüglich der Trainingsausgabedaten ermittelt, wobei die Validierungsdaten ebenfalls aus der Eingangsdatenmenge ausgewählt sind, sich jedoch mit den Lerndaten nicht überschneiden. Der Trainingsdatensatz dient dem Lernen, der Validierungsdatensatz der Überwachung des Trainingserfolgs. In einem Schritt 65 wird abgefragt, ob der Ausgabefehler kontinuierlich fällt. Solange dies der Fall ist, wird der Trainingsvorgang iterativ wiederholt, für den irgendein beliebiges herkömmliches Trainingsverfahren verwendet werden kann.
Sobald der Ausgabefehler durch diesen Trainingsvorgang nicht mehr kontinuierlich fällt, werden die Netzverbindungen aller Neuronen durch das Verfahren entsprechend 1 in der zu 5 geschilderten Weise zwecks Dimensionsreduktion opti miert. Bei diesem Vorgang werden für alle Neuronen der verdeckten Schicht, soweit vorhanden, und der Ausgabeschicht die eingehenden Verbindungen ermittelt, deren Relevanz für die Neuronausgabe ein vorgegebenes Maß überschreitet. Alle anderen Verbindungen werden gelöscht. (Schritt 66). Anschließend wird das so optimierte Netz in einem Schritt 67 wiederum für eine Anzahl n von Trainingsepochen trainiert. In einem Schritt 68 werden das trainierte optimierte Netz und der Ausgabefehler der Netzausgabe mit minimalem Ausgabefehler bezüglich der Trainingsausgabedaten gespeichert.
In einem Schritt 69 wird abgefragt, ob der gespeicherte Ausgabefehler des trainierten optimierten Netzes kontinuierlich fällt. Solange dies der Fall ist, wird der Trainingsvorgang iterativ wiederholt. Wenn dies nicht mehr der Fall ist, wird in einem Schritt 70 abgefragt, ob der Ausgabefehler des trainierten optimierten Netzes geringer ist als der Ausgabefehler des trainierten Netzes vor der Optimierung der Verbindungen aller Neuronen zur Dimensionsreduktion. Solange dies der Fall ist, wird in einem Schritt 71 das Netz um ein Neuron in einer Zwischenschicht und um Verbindungen dieses Neurons zu allen Neuronen der Eingangsschicht und allen Neuronen der Ausgangsschicht erweitert. Mit diesem erweiterten Netz wird dann der gesamte Vorgang ab der Initialisierung der nicht trainierten Verbindungen iterativ wiederholt. Ansonsten stellt dann das zuletzt erhaltene Netz das gesuchte optimierte neuronale Netz mit minimalem Ausgabefehler dar.
7 zeigt vereinfacht und diagrammatisch die Vorgehensweise bei der Erzeugung eines informationstheoretisch optimierten künstlichen neuronalen Netzes gemäß 6. In der ersten Iteration besteht die Netztopologie anfänglich nur aus einer Eingangsschicht mit gezeigten fünf Neuronen und einer Ausgangsschicht mit einem gezeigten Neuron (Teilbild a). Durch das anschließende informationsoptimierte Training des Netzes wurden zwei Netzverbindungen als nicht relevant klassifiziert und aus dem Netz entfernt (Teilbild b). Mit der zweiten Iteration wurde ein Neuron einer Zwischenschicht mit Verbindungen zu allen Eingangs- und Ausgangsneuronen hinzugefügt (Teilbild c). Nach informationsoptimiertem Training wurden wiederum einige Verbindungen als nicht relevant erkannt und eliminiert, wobei jedoch relevante Verbindungen zu Eingangsneuronen verblieben sind (Teilbild c).
Diese Vorgehensweise wird bis zur Erzielung der gewünschten Datenverarbeitungsgüte wiederholt, d.h. gemäß 7 wird der Zwischenschicht ein weiteres Neuron hinzugefügt und mit allen Eingangs- und Ausgangsneuronen verbunden (Teilbild e). Durch informationsoptimiertes Training werden wiederum nicht signifikante Verbindungen erkannt und eliminiert (Teilbild f). Im gezeigten Fall von 7 ergibt sich eine Netztopologie, bei welcher der Eingabevektor eines Neurons gar nicht mehr relevant ist und das zweite verdeckte Neuron andere Informationen als sein Nachbarneuron und als das Ausgangsneuron bezieht. Im Vergleich zu einer vollständig verknüpften Topologie hat das optimierte Netz von 7 ein Drittel weniger Verbindungen. Gegenüber einer Optimierung durch ein herkömmliches Cascade-Correlation-Verfahren ergeben sich wesentlich weniger Verbindungen, und das Einfügen einer neuen verdeckten Schicht mit jedem neuen Neuron wird vermieden.
Die 8 und 9 veranschaulichen die Anwendung der informationsoptimierten Netztopologieerzeugung gemäß 6 zur Datenverarbeitung von Druckschwingungsdaten eines Common-Rail-Einspritzsystems, wie es schon oben zu 4 erwähnt ist. Speziell stellt 8 das Resultat der Stützstellenauswahl durch informationsoptimierte Reduktion der Netzeingangsdimension gemäß 4 dem Resultat einer Stützstellenauswahl durch informationsoptimierte Netztopologieerzeugung entsprechend 6 gegenüber. Das obere Diagramm von 8 entspricht dem unteren Diagramm von 4. Das untere Diagramm von 8 ist das Ergebnis einer Auswahl von 49 Stützstellen, wie sie durch eine informationsoptimierte Netztopologieerzeugung gemäß 6 für die gleiche Eingangsdatenmenge erhalten wurde. Das resultierende Netz, dessen Topologie durch das Verfahren von 6 mittels Training und informationsoptimierter Neurondimensionsreduktion erhalten wurde, ist in 9 gezeigt. Dabei wurde von anfänglich 260 Eingangsneuronen und einem Ausgangsneuron ausgegangen. Von den 49 ausgewählten Eingangsneuronen, d.h. hier Druckpositionen, bleiben lediglich 90 von 637 möglichen Verbindungen zu 13 Neuronen einer Zwischenschicht. Das Ausgangsneuron ist nur mit 8 von 49 möglichen Eingängen direkt verbunden.
Die gezeigten und oben näher erläuterten Ausführungsbeispiele machen deutlich, dass mit dem erfindungsgemäßen Verfahren vergleichsweise kleine und robuste künstliche neuronale Netze zur Datenverarbeitung erzeugt werden können, die sich für Echtzeitanwendungen z.B. in Kraftfahrzeugen, aber auch auf beliebigen anderen technischen Gebieten eignen. Die Eingangsdimension des Netzes und/oder die Dimension von Neuronen des Netzes werden unter Zuhilfenahme eines Transinformationsverfahrens im Sinne einer Reduktion optimiert, wobei anstelle des Transinformationsverfahrens auch ein anderes informationstheoretisches Verfahren benutzt werden kann. Auf diese Weise lassen sich relativ einfache Netztopologien realisieren, die eine geforderte Gesamtinformation, d.h. Datenverarbeitungsgüte, liefern.

Claims

Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, dadurch gekennzeichnet, dass eine Eingangsdimension des neuronalen Netzes unter Verwendung eines informationstheoretischen Verfahrens, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von Eingangsgrößen analysiert werden, iterativ optimiert wird, wobei eine vorgebbare minimale Eingangsdimension iterativ erhöht wird, bis erkannt wird, dass eine vorgebbare Datenverarbeitungsgüte erreicht ist.
Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, insbesondere nach Anspruch 1, dadurch gekennzeichnet, dass die Topologie des künstlichen neuronalen Netzes ausgehend von einer minimalen Netztopologie durch ein konstruierendes Verfahren unter iterativer Hinzufügung von Neuronen und durch Optimierung von Neuronverbindungen unter Verwendung eines informationstheoretischen Verfahrens, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von Eingangsgrößen analysiert werden, aufgebaut wird, bis eine vorgebbare Datenverarbeitungsgüte erreicht ist.
Verfahren nach Anspruch 1 oder 2, weiter dadurch gekennzeichnet, dass als informationstheoretisches Verfahren ein Transinformationsverfahren verwendet wird.
Verfahren nach einem der Ansprüche 1 bis 3, weiter dadurch gekennzeichnet, dass die Topologie des künstlichen neuronalen Netzes ausgehend von einer minimalen Netztopologie durch ein konstruierendes informationsoptimiertes Netztrainingsverfahren erzeugt wird, bei dem iterativ das Netz trainiert wird, jeweils ein Neuron und alle zugehörigen Verbindungen hinzugefügt werden und das informationstheoretische Verfahren zur Optimierung der Verbindungen der Neuronen verwendet wird.
Verfahren nach Anspruch 4, weiter dadurch gekennzeichnet, dass das künstliche neuronale Netz ausgehend von der minimalen Netztopologie durch ein vorgebbares Trainingsverfahren trainiert wird, anschließend die Netzverbindungen der Neuronen des trainierten Netzes optimiert werden, das so optimierte Netz wieder trainiert und dieser Prozess unter sukzessiver Hinzunahme je eines neuen Neurons iteriert wird, bis die vorgebbare Datenverarbeitungsgüte erreicht ist.