DE102004031007A1 - Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung - Google Patents

Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung Download PDF

Info

Publication number
DE102004031007A1
DE102004031007A1 DE102004031007A DE102004031007A DE102004031007A1 DE 102004031007 A1 DE102004031007 A1 DE 102004031007A1 DE 102004031007 A DE102004031007 A DE 102004031007A DE 102004031007 A DE102004031007 A DE 102004031007A DE 102004031007 A1 DE102004031007 A1 DE 102004031007A1
Authority
DE
Germany
Prior art keywords
network
information
data processing
neural network
artificial neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102004031007A
Other languages
English (en)
Inventor
Michael Dipl.-Inf. Fröhlich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Priority to DE102004031007A priority Critical patent/DE102004031007A1/de
Publication of DE102004031007A1 publication Critical patent/DE102004031007A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1405Neural network control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)

Abstract

Die Erfindung bezieht sich auf ein Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung. DOLLAR A Erfindungsgemäß werden eine Eingangsdimension des neuronalen Netzes und/oder Neuronverbindungen unter Verwendung eines informationstheoretischen Verfahrens, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von den Eingangsgrößen analysiert werden, iterativ optimiert. DOLLAR A Verwendung z. B. zur Verarbeitung von Verbrennungskenngrößendaten eines Kraftfahrzeugmotors.

Description

  • Die Erfindung bezieht sich auf ein Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, insbesondere zur Verarbeitung von Drucksignalen eines Common-Rail-Einspritzsystems eines Verbrennungsmotors oder von Brennraumdrucksignalen eines Verbrennungsmotors. Die vorliegende Anmeldung nimmt die Priorität der deutschen Patentanmeldung Nr. 103 35 007.4 in Anspruch, deren Inhalt hiermit durch Verweis in vollem Umfang hierin aufgenommen wird.
  • Künstliche neuronale Netze sind in vielerlei Ausprägungen und für zahlreiche Anwendungen in verschiedenen Gebieten der Technik bekannt. Sie bestehen üblicherweise aus einer Eingangsschicht mit einer die Eingangsdimension bestimmenden Anzahl von Eingangsneuronen, einer Ausgangsschicht mit einem oder mehreren Neuronen und keiner, einer oder mehreren zwischenliegenden, verdeckten Schichten mit je einem oder mehreren Neuronen und sind je nach gewählter Netztopologie und eingesetztem Netztrainingsverfahren in der Lage, auch hochkomplexe Abhängigkeiten einer oder mehrerer gesuchter Ausgangsgrößen von einer oder mehreren zugeführten Eingangsgrößen adäquat und mit vertretbarem Aufwand zu beschreiben. Dabei eignen sich künstliche neuronale Netze auch für Echtzeitanwendungen. Sie sind in solchen Fällen rein mathematischen Berechnungsmethoden häufig überlegen, insbesondere dann, wenn die Beziehung zwischen den gesuchten Ausgangsgrößen und den Eingangsgrößen nur so unzureichend bekannt, dass es schwierig ist, einen guten mathematischen Berechnungsansatz zu finden. So liefern z.B. die bekannten linearen Regressions- und Korrelationsanalysen und die sogenannte Hauptkomponentenanalyse als rein mathematisch-statistische Datenanalyseverfahren meist nur für weitgehend lineare Zusammenhänge befriedigende Ergebnisse. Eine Erweiterung dieser Methoden auf polynominale oder exponentielle Zusammenhänge setzt voraus, dass ein solcher funktionaler Zusammenhang wenigstens grob bekannt ist, um einen entsprechenden Ansatz machen zu können.
  • Ein wichtiges Anwendungsgebiet mit Echtzeitanforderung ist die Datenverarbeitung in Kraftfahrzeugen. Hier sind künstliche neuronale Netze bereits zu verschiedenen Zwecken gebräuchlich, insbesondere zur Verarbeitung von Daten, die sich auf den Betrieb eines Verbrennungsmotors im Kraftfahrzeug beziehen, beispielsweise zur Rußkonzentrationsbestimmung, siehe die Patentschrift DE 197 41 973 C1 , zur Erkennung von Klopfneigung und Fehlzündungen, siehe die Patentschrift US 5.093.792 , oder zur Kraftstoffgemischbestimmung, siehe die Offenlegungsschrift EP 0 724 073 A2 . Von Interesse sind hierbei häufig eine ausreichend genau zeitaufgelöste Ermittlung des Verbrennungsverlaufs für die einzelnen Verbrennungsvorgänge des Motors und die sich daraus ergebenden Konsequenzen für die Motorsteuerung.
  • Eine aktuell wichtige Anwendung ist beispielsweise die Bestimmung des sogenannten 50%-Umsatzpunktes über eine zeitaufgelöste Ermittlung des Brennraumdruckverlaufs aus einer Erfassung des Raildruckverlaufs und die Bestimmung der Einspritzmenge bei Dieselmotoren mit Common-Rail-Einspritzsystem. Für den Einsatz von künstlichen neuronalen Netzen in Kraftfahrzeugen und insbesondere in Motorsteuergeräten sind ausreichend kleine, robuste Netztopologien gewünscht, welche den Echtzeitanforderungen mit den begrenzten Rechenkapazitäten genügen.
  • Es ist bekannt, zur Erzeugung künstlicher neuronaler Netze geeignete Optimierungsverfahren einzusetzen, die üblicherweise ein iteratives Trainieren des Netzes beinhalten, um Netzgewichte und/oder die Netztopologie zu optimieren. Als topologieoptimierende Algorithmen sind z.B. sogenannte Pruning-Algorithmen, bei denen ein bereits vollständig trainiertes Netz nach bestimmten Kriterien ausgedünnt wird, und konstruierende Algorithmen gebräuchlich, die eine angepasste Netztopologie während des Trainings aufbauen. Die Pruning-Verfahren unterscheiden sich nach solchen, die nicht relevante Neuronen eliminieren, und solche, die nicht signifikante Verbindungen entfernen. Ein wichtiger konstruierender Algorithmus ist der sogenannte Cascade-Correlation-Algorithmus, der mit einer minimalen Netztopologie beginnt und sukzessive jeweils ein Neuron als zusätzliche verdeckte Schicht einfügt.
  • Der Erfindung liegt als technisches Problem die Bereitstellung eines Verfahrens zur Erzeugung eines künstlichen neuronalen Netzes zugrunde, das in der Lage ist, die eingehenden Daten mittels einer relativ einfachen Netztopologie und/oder einer geeigneten Datenauswahl zur Gewinnung gesuchter Ausgangsinformationen mit einer ausreichenden Genauigkeit zu verarbeiten.
  • Die Erfindung löst dieses Problem durch die Bereitstellung eines Verfahrens mit den Merkmalen des Anspruchs 1 oder 2.
  • Beim Verfahren nach Anspruch 1 wird die Eingangsdimension des neuronalen Netzes unter Verwendung eines informationstheoretischen Verfahrens iterativ optimiert, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von den Eingangsgrößen analysiert werden. Dabei wird die Eingangsdimension ausgehend von einer vorgebbaren minimalen Eingangsdimension iterativ erhöht, bis durch das informationstheoretische Verfahren erkannt wird, dass eine vorgebbare Datenverarbeitungsgüte des Netzes erreicht ist.
  • Beim Verfahren nach Anspruch 2 wird die Netztopologie ausgehend von einer vorgebbaren minimalen Topologie iterativ unter Hinzunahme von Neuronen konstruiert, wobei die Neuronverbindungen unter Verwendung eines informationstheoretischen Verfahrens im Sinne einer Reduzierung, d.h. Minimierung der Anzahl an Verbindungen, optimiert werden. Es handelt sich somit um ein konstruierendes Verfahren, bei dem ausgehend von der minimalen Netztopologie sukzessive Neuronen hinzugenommen werden und die Verbindungen der vorhandenen Neuronen unter Verwendung des informationstheoretischen Verfahrens optimiert werden, so dass als Resultat hiervon nicht signifikante Verbindungen oder Neuronen entfernt werden können.
  • Die charakteristische Verwendung eines informationstheoretischen Verfahrens bei der Optimierung der Netzeingangsdimension bzw. der Neuronverbindungen, d.h. der Neurondimension, im Sinne einer Reduktion bzw. Minimierung hat den großen Vorteil, dass auch bei hochkomplexen Zusammenhängen der gesuchten Ausgangsgrößen von den Eingangsgrößen diejenigen Eingangsgrößen, deren Einfluss auf die Ausgangsgrößen so schwach ist, dass sie vernachlässigt werden können, mit vertretbarem Aufwand aufgefunden und dann ggf. eliminiert werden können. Denn informationstheoretische Verfahren haben den Vorzug, dass sie in der Lage sind, auch solche hochkomplexen Zusammenhänge statistisch befriedigend mit geforderter Genauigkeit und vertretbarem Aufwand adäquat zu beschreiben, worin sie den rein mathematisch-statistischen Methoden wie Regressions analysen, Korrelations- und Hauptkomponentenanalysen überlegen sind.
  • Die Erfindung ermöglicht auf diese Weise die Erzeugung von künstlichen neuronalen Netzen mit kleiner, robuster Netztopologie, die insbesondere hinsichtlich ihrer Netzeingangsdimension und/oder den Neuronverbindungen optimiert ist. Ein so erzeugtes künstliches neuronales Netz kann z.B. zur Bestimmung des 50%-Umsatzpunktes und/oder zur Einspritzmengenbestimmung in Echtzeit bei einem Kraftfahrzeug-Verbrennungsmotor mit Common-Rail-Einspritzsystem anhand einer zeitaufgelösten Überwachung des Brennraumdruckverlaufs bzw. des Raildruckverlaufs eingesetzt werden.
  • In einer Weiterbildung des Verfahrens nach Anspruch 3 wird ein Transinformationsverfahren als das informationstheoretische Verfahren zur Analyse der statistischen Abhängigkeiten der einen oder mehreren Ausgangsgrößen von den Eingangsgrößen benutzt, insbesondere ein mehrdimensionales Transinformationsverfahren. Es zeigt sich, dass diese neuartige Anwendung des bekannten Verfahrens der Transinformation bzw. verallgemeinerten Transinformation, das in der Lage ist, auch nichtlineare Zusammenhänge gut zu erkennen, große Vorteile bei der Optimierung der Eingangsdimension des Netzes bzw. der Optimierung der Neuronverbindungen bringt. Durch Interpretation von Messreihen realer Systeme als Zufallsvariablen kann das Transinformationsverfahren zum Schätzen statistischer Zusammenhänge zwischen Eingangs- und Ausgangsgrößen des Systems herangezogen werden.
  • Bei einem nach Anspruch 4 weitergebildeten Verfahren wird die Topologie des künstlichen neuronalen Netzes ausgehend von einer minimalen Netztopologie durch ein informationsoptimiertes Netztrainingsverfahren erzeugt, das eine iterative Optimie rung der Neuronverbindungen im Trainingsprozess des Netzes umfasst.
  • In einer vorteilhaften Ausgestaltung nach Anspruch 5 beinhaltet die Erzeugung des künstlichen neuronalen Netzes ein konstruierendes Verfahren, bei dem die jeweils aktuelle Netztopologie zunächst mit einem beliebigen herkömmlichen Trainingsverfahren belernt wird, anschließend die Netzverbindungen der Neuronen unter Verwendung des informationstheoretischen Verfahrens im Sinne einer Dimensionsminimierung optimiert werden, wonach das so optimierte Netz wieder trainiert wird. Solange durch diesen Prozess eine vorgebbare Datenverarbeitungsgüte noch nicht erreicht ist, wird sukzessive ein Neuron hinzugefügt, z.B. in einer schon bestehenden Zwischenschicht, um dann iterativ wieder mit dem Trainingsprozess zu beginnen.
  • Vorteilhafte Ausführungsformen der Erfindung sind in den Zeichnungen dargestellt und werden nachfolgend beschrieben. Hierbei zeigen:
  • 1 ein Flussdiagramm zur Veranschaulichung eines iterativen Prozesses zur informationsoptimierten Eingangsdimensionsbestimmung bei der Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung,
  • 2 Diagramme zur Veranschaulichung einer Anwendung des Prozesses von 1 auf eine optimierte Stützstellenauswahl zur Verarbeitung von Brennraumdruckdaten bei einem Verbrennungsmotor,
  • 3 Diagramme zur Veranschaulichung von statistischen Zusammenhängen bei der Anwendung gemäß 2 in verschiedenen Iterationen durch die Verwendung eines Transinformationsverfahrens im Prozess von 1,
  • 4 Diagramme zur Veranschaulichung einer optimierten erfindungsgemäßen Stützstellenwahl im Vergleich zu herkömmlichen Methoden für eine Einspritzmengenbestimmung aus Raildruckdaten eines Verbrennungsmotors mit Common-Rail-Einspritzsystem,
  • 5 eine schematische Darstellung eines Neurons zur Veranschaulichung eines Prozesses zur informationsoptimierten Dimensionsreduktion für das Neuron,
  • 6 ein Flussdiagramm eines Verfahrens zur Erzeugung eines künstlichen neuronalen Netzes unter Verwendung eines Trainingsverfahrens und der informationsoptimierten Neuron-Dimensionsreduktion gemäß 5,
  • 7 Diagramme eines einfachen Beispiels der iterativen Erzeugung eines künstlichen neuronalen Netzes durch das Verfahren von 6,
  • 8 Diagramme zur Veranschaulichung einer ausgehend von 4 weiter optimierten Stützstellenwahl zur Verarbeitung von Raildruckdaten und
  • 9 eine Darstellung eines mit dem Verfahren von 6 erzeugten künstlichen neuronalen Netzes zur Verarbeitung von Raildruckdaten.
  • 1 veranschaulicht einen Prozess zur informationstheoretischen Optimierung der Eingangsdimension als ein Prozess zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung. Der Prozess von 1 dient der informationstheoretisch gestützten Auswahl relevanter Eingangsgrößen bzw. Eingangsvektoren und beinhaltet eine mehrdimensionale Anwendung des Schätzverfahrens zur verallgemeinerten Transinformation. Damit können Ein- und Ausgangsmatrizen von Messreihen auf informationstheoretische Zusammenhänge analysiert werden. Es sind lediglich zwei weitere Eingangsparameter erforderlich, und zwar die prozentuale Belegungsdichte der Binärmatrizen als indirektes Maß für die Größe der Suchboxen und der Grad der zu erreichenden Gesamtinformation, d.h. die Datenverarbeitungsgüte, als Abbruchkriterium. Zu den Einzelheiten dieser Trans-informationstechnik kann auf die prioritätsbegründende Anmeldung und die dort genannte Literatur verwiesen werden.
  • Der Algorithmus von 1 liefert für Messreihenpaare X und Y relevante Positionen für die Zeitreihen aus X, an denen die statistische Abhängigkeit von Y maximal ist, wobei die Schätzung der statistischen Abhängigkeit aufgrund der verallgemeinerten Transinformation I2(X, Y) erfolgt. Die Eingangsmatix X umfasst eine der Anzahl an Messungen entsprechende Anzahl an Spaltenvektoren der einzelnen Messungen mit einer gegebenen Länge der Zeitreihen des Systemeingangs, welche die unreduzierte Eingangsdimension eines anfänglichen Netzes bestimmt. Die Ausgangsmatrix Y besteht entsprechend aus einer der Anzahl von Messungen entsprechenden Anzahl an Spaltenvektoren, wobei die Länge der Zeitreihen des Systemausgangs die Dimension des Netzausgangs bestimmt.
  • In einem ersten Schritt 11 werden ein Maximalvektor Xmax und ein Ausgabevektor pos initialisiert, z.B. auf null. In einem nächsten Schritt 12 werden die Dimensionen T1 und T2 des Eingangsvektors X bzw. des Ausgangsvektors Y überprüft. Dann werden in einem Schritt 13 die prozentuale Belegungsdichte proz und die Abbruchbedingung grad vorgegeben oder auf gewisse Standardwerte gesetzt, z.B. proz = 0,05 und grad = 0,8. In einem Schritt 14 werden zeilenweise Rangfolgen der Eingangs- und Ausgangsmatrizen X, Y gebildet. Solche Rangfolgen haben bekanntermaßen Gleichverteilungseigenschaft. Dann wird in einem Schritt 15 iterativ ein geeignetes ε des Transinformationsverfahrens derart bestimmt, dass für die Transinformations-Entropie H2 die Beziehung H2(Xmax, Y) = log2(proz) gilt. Die iterative Suche nach einem geeigneten ε erfolgt unter Betrachtung aller bisher gefundenen Maximalvektoren Xmax und der Ausgangsmatrix Y. In einem Schritt 16 wird anschließend die Transinformationsfunktion I (t, ε) = I2({Xmax, X (t)}, Y) mit dem Zeitreihenparameter t berechnet. Die Transinformationsfunktion besteht bei nur einem Ausgang aus den geschätzten Transinformationen für jeden Zeilenvektor der Eingangsmatrix X einerseits und den Ausgangsvektor Y andererseits.
  • In einem Schritt 17 wird die Eingangsdimension testweise erhöht, d.h. ein weiterer Eingangsvektor X(m) zur Berechnung hinzugenommen. Die jeweils gefundene Position m wird in einem Schritt 18 abgespeichert. In einem anschließenden Schritt 19 wird abgefragt, ob die vorgegebene maximale Gesamtinformation, d.h. Datenverarbeitungsgüte, erreicht ist. Ist dies der Fall, werden die gefundenen Positionen m als Vektor pos ausgegeben (Schritt 20), ansonsten wird mit der nächsten Iteration fortgesetzt.
  • 2 zeigt in zeitsynchron untereinanderliegenden Diagrammen die sukzessiven Iterationsresultate einer Brennraumdruckanalyse, bei der diejenigen Positionen des Brennraumdruckes, d.h. die Zeitpunkte im Brennraumdruckverlauf gesucht sind, die den höchsten statistischen Zusammenhang mit der Verschiebung des Druckmaximums bezogen auf den Zündzeitpunkt haben.
  • Diese Positionen werden mit Hilfe des informationsoptimierten Verfahrens zur Eingangsdimensionsreduktion gemäß 1 gefunden, das von der mehrdimensionalen Transinformationsfunktion Gebrauch macht. Das oberste Diagramm zeigt einige ausgewählte, gemessene Brennraumdruckverläufe. Im rechts daneben liegenden, schmalen Diagramm ist der Vektor der zugehörigen Maximaldruckverschiebungen für eine Vielzahl von Messungen dargestellt. Die sukzessive darunter liegenden Diagramme veranschaulichen das Resultat der Benutzung der mehrdimensionalen Transinformationsfunktion nach einer ersten, zweiten und dritten Iteration zur Druckpositionsauswahl, wobei drei Druckpositionen mit hohem Informationsgehalt bezogen auf die Druckmaximumverschiebung des Brennraumdrucksignals ausgewählt worden sind. Es ist deutlich der fortschreitende Anstieg der Transinformationsfunktion I(t, ε) durch Auswahl zusätzlicher Stützstellen zu erkennen. Dabei wurde die verallgemeinerte Transinformation für den Verschiebungsvektor und für jede Abtastposition aller Messreihen berechnet. Die Vektoren der ausgewählten und in die Berechnung höherer Iterationen einfließenden Positionen mit bisher maximalem Informationsgewinn sind durch die gestrichelten Linien markiert.
  • 3 zeigt diagrammatisch für die ersten drei Iterationen der Brennraumdruckanalyse gemäß 2 die daraus gefundenen, maximalen statistischen Abhängigkeiten zwischen Brennraumdruck und zeitlicher Druckmaximumverschiebung. Aus den Diagrammen ist gut zu erkennen, dass sich schon ab der zweiten Iteration eine relativ starke nichtlineare Abhängigkeit zeigt, die mit dem vorliegend benutzten Verfahren reproduziert werden kann. Im Vergleich z.B. zu einer äquidistanten Abtastung ist diese Methode der Eingangsdimensionsreduzierung mittels mehrdimensionaler Transinformation in der Lage, die Anzahl erforderlicher Stützstellen stark zu reduzieren. Im Gegensatz zu einer Korrelationsanalyse können Aussagen über statistische Zusammenhänge unter den Stützstellen gemacht werden. In der Anwendungsphase sind keine weiteren Berechnungen nötig, was einen Vorteil z.B. verglichen mit der Methode der Berechnung von Hauptkomponenten darstellt.
  • 4 veranschaulicht diagrammatisch einen Vergleich der erfindungsgemäßen Vorgehensweise mit herkömmlichen Methoden für ein weiteres Anwendungsbeispiel, und zwar der Einspritzmengenbestimmung aus einem Raildrucksignal eines Verbrennungsmotors mit Common-Rail-Einspritzsystem. Im obersten Diagramm sind mehrere Raildruckverläufe des Common-Rail-Einspritzsystems wiedergegeben, die charakteristische Druckschwingungen zeigen, und mit durchgezogenen senkrechten Linien ist eine äquidistante Abtastung jeder achten Druckposition der aufgezeichneten Druckdaten angedeutet. Mit zusätzlichen gestrichelten senkrechten Linien ist eine verfeinerte äquidistante Abtastung bei jeder vierten Druckposition angedeutet. Im mittleren Diagramm ist eine durch ein herkömmliches Korrelationsverfahren erhaltene Stützstellenauswahl und der zugehörige Funktionsverlauf der Korrelationskoeffizienten bezogen auf Raildruckschwingungen und zugehörige Einspritzmengen dargestellt. Dies beruht auf einer äquidistanten Abtastung jeder vierten Druckposition, wobei mit senkrechten Linien die durch einen vorgegebenen Schwellwert von 75% ausgewählten Stützstellen angegeben sind. Das untere Diagramm zeigt erfindungsgemäß erhaltene Funktionsverläufe der mehrdimensionalen Transinformationswerte bezogen auf Raildruckschwingungen und zugehörige Einspritzmengen, wobei die ausgewählten Maximalwerte einer jeden Iteration wiedergegeben sind. Es ergibt sich, dass die ersten zehn Stützstellen ca. 75% der Information liefern.
  • 5 veranschaulicht eine Methode der informationstheoretischen Optimierung der gesamten Netztopologie unter Verwendung des Verfahrens der Transinformation zur Dimensionsreduktion einzelner Neuronen am Beispiel eines Neurons j. Im Folgenden wird insbesondere auf neuronale Netze mit nur einer verdeckten Schicht eingegangen, die Vorgehensweise ist jedoch genauso zur Generierung tieferer Netzstrukturen verwendbar.
  • Wie in 5 angedeutet, liegt wie üblich am Eingang des Neurons j eine Anzahl von mit Gewichten wij versehenen Eingangsfolgen oi(t) aller Neuronen einer oder mehrerer vorhergehender Schichten an. Nach Durchlaufen einer Eingangsfunktion fein einer Aktivierungsfunktion fakt und einer Ausgangsfunktion faus liefert das Neuron j eine Ausgangsfolge oj(t), wobei Eingangs-, Ausgangs- und Aktivierungsfunktion beliebig gewählt sein können. Zur informationsoptimierten Dimensionsreduktion für das Neuron j wird analog zum Verfahren gemäß 1 vorgegangen, mit der Eingangsfolge wijoi als Eingangsmatix x und mit der Ausgangsfolge oj als Ausgangsmatrix Y. Daraus ergeben sich dann diejenigen Verbindungen zum Neuron j, die für die Erzeugung der Ausgabefolge oj die größte Relevanz haben, d.h. ohne weitere Parameter werden diejenigen Verbindungen ausgewählt, mit denen sich die vorgegebene Datenverarbeitungsgüte von z.B. 80% erreichen lässt. Alle anderen Verbindungen können dann gelöscht werden. Im Gegensatz zu herkömmlichen Pruning-Algorithmen erfolgt dieses Löschen von Verbindungen und ggf. von Neuronen, falls diese keine signifikanten Verbindungen mehr haben, schon während des Aufbaus bzw. Trainings des neuronalen Netzes und nicht erst nach vollständigem Training des Netzes.
  • 6 veranschaulicht ein auf der informationsoptimierten Dimensionsreduktion für die Neuronen gemäß 5 aufbauendes Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, bei dem ausgehend von einer minimalen Netztopologie eine optimale Netztopologie durch sukzessives Trainieren des Netzes, informationsoptimierte Dimensionsreduktion aller Neuronen, Trainieren des optimierten Netzes und ggf. iteratives Wiederholen der Vorgänge mit einem um ein Neuron erweiterten Netz konstruiert wird. Dazu wird zunächst in einem Schritt 61 ein anfängliches minimales Netz NET mit vorgebbarer Anzahl T1 von Eingangsneuronen und vorgebbarer Anzahl T2 von Ausgangsneuronen ohne verdeckte Schicht mit vollständig verbundenen Neuronen bereitgestellt. Die Dimensionen für die Eingangs- und die Ausgangsschicht ergeben sich aus den Dimensionen der zu berücksichtigenden Eingangsgrößen und der gesuchten Ausgangsgrößen. In einem Schritt 62 werden die Gewichte der nicht trainierten Verbindungen initialisiert. Hierbei sind beliebige Initialisierungsmethoden möglich, z.B. zufällige oder topologiebezogene Initialisierungsvorschriften. In einem Schritt 63 wird das Netzwerk für eine Anzahl n von Trainingsepochen mit Lerndaten belernt, die der Eingangsdatenmenge entnommen sind, wobei zugehörige Trainingsausgabedaten generiert werden. In einem Schritt 64 wird ein sich unter Verwendung eines vorgebbaren Fehlermaßes ergebender Ausgabefehler für ausgewählte Validierungsdaten der Netzausgabe bezüglich der Trainingsausgabedaten ermittelt, wobei die Validierungsdaten ebenfalls aus der Eingangsdatenmenge ausgewählt sind, sich jedoch mit den Lerndaten nicht überschneiden. Der Trainingsdatensatz dient dem Lernen, der Validierungsdatensatz der Überwachung des Trainingserfolgs. In einem Schritt 65 wird abgefragt, ob der Ausgabefehler kontinuierlich fällt. Solange dies der Fall ist, wird der Trainingsvorgang iterativ wiederholt, für den irgendein beliebiges herkömmliches Trainingsverfahren verwendet werden kann.
  • Sobald der Ausgabefehler durch diesen Trainingsvorgang nicht mehr kontinuierlich fällt, werden die Netzverbindungen aller Neuronen durch das Verfahren entsprechend 1 in der zu 5 geschilderten Weise zwecks Dimensionsreduktion opti miert. Bei diesem Vorgang werden für alle Neuronen der verdeckten Schicht, soweit vorhanden, und der Ausgabeschicht die eingehenden Verbindungen ermittelt, deren Relevanz für die Neuronausgabe ein vorgegebenes Maß überschreitet. Alle anderen Verbindungen werden gelöscht. (Schritt 66). Anschließend wird das so optimierte Netz in einem Schritt 67 wiederum für eine Anzahl n von Trainingsepochen trainiert. In einem Schritt 68 werden das trainierte optimierte Netz und der Ausgabefehler der Netzausgabe mit minimalem Ausgabefehler bezüglich der Trainingsausgabedaten gespeichert.
  • In einem Schritt 69 wird abgefragt, ob der gespeicherte Ausgabefehler des trainierten optimierten Netzes kontinuierlich fällt. Solange dies der Fall ist, wird der Trainingsvorgang iterativ wiederholt. Wenn dies nicht mehr der Fall ist, wird in einem Schritt 70 abgefragt, ob der Ausgabefehler des trainierten optimierten Netzes geringer ist als der Ausgabefehler des trainierten Netzes vor der Optimierung der Verbindungen aller Neuronen zur Dimensionsreduktion. Solange dies der Fall ist, wird in einem Schritt 71 das Netz um ein Neuron in einer Zwischenschicht und um Verbindungen dieses Neurons zu allen Neuronen der Eingangsschicht und allen Neuronen der Ausgangsschicht erweitert. Mit diesem erweiterten Netz wird dann der gesamte Vorgang ab der Initialisierung der nicht trainierten Verbindungen iterativ wiederholt. Ansonsten stellt dann das zuletzt erhaltene Netz das gesuchte optimierte neuronale Netz mit minimalem Ausgabefehler dar.
  • 7 zeigt vereinfacht und diagrammatisch die Vorgehensweise bei der Erzeugung eines informationstheoretisch optimierten künstlichen neuronalen Netzes gemäß 6. In der ersten Iteration besteht die Netztopologie anfänglich nur aus einer Eingangsschicht mit gezeigten fünf Neuronen und einer Ausgangsschicht mit einem gezeigten Neuron (Teilbild a). Durch das anschließende informationsoptimierte Training des Netzes wurden zwei Netzverbindungen als nicht relevant klassifiziert und aus dem Netz entfernt (Teilbild b). Mit der zweiten Iteration wurde ein Neuron einer Zwischenschicht mit Verbindungen zu allen Eingangs- und Ausgangsneuronen hinzugefügt (Teilbild c). Nach informationsoptimiertem Training wurden wiederum einige Verbindungen als nicht relevant erkannt und eliminiert, wobei jedoch relevante Verbindungen zu Eingangsneuronen verblieben sind (Teilbild c).
  • Diese Vorgehensweise wird bis zur Erzielung der gewünschten Datenverarbeitungsgüte wiederholt, d.h. gemäß 7 wird der Zwischenschicht ein weiteres Neuron hinzugefügt und mit allen Eingangs- und Ausgangsneuronen verbunden (Teilbild e). Durch informationsoptimiertes Training werden wiederum nicht signifikante Verbindungen erkannt und eliminiert (Teilbild f). Im gezeigten Fall von 7 ergibt sich eine Netztopologie, bei welcher der Eingabevektor eines Neurons gar nicht mehr relevant ist und das zweite verdeckte Neuron andere Informationen als sein Nachbarneuron und als das Ausgangsneuron bezieht. Im Vergleich zu einer vollständig verknüpften Topologie hat das optimierte Netz von 7 ein Drittel weniger Verbindungen. Gegenüber einer Optimierung durch ein herkömmliches Cascade-Correlation-Verfahren ergeben sich wesentlich weniger Verbindungen, und das Einfügen einer neuen verdeckten Schicht mit jedem neuen Neuron wird vermieden.
  • Die 8 und 9 veranschaulichen die Anwendung der informationsoptimierten Netztopologieerzeugung gemäß 6 zur Datenverarbeitung von Druckschwingungsdaten eines Common-Rail-Einspritzsystems, wie es schon oben zu 4 erwähnt ist. Speziell stellt 8 das Resultat der Stützstellenauswahl durch informationsoptimierte Reduktion der Netzeingangsdimension gemäß 4 dem Resultat einer Stützstellenauswahl durch informationsoptimierte Netztopologieerzeugung entsprechend 6 gegenüber. Das obere Diagramm von 8 entspricht dem unteren Diagramm von 4. Das untere Diagramm von 8 ist das Ergebnis einer Auswahl von 49 Stützstellen, wie sie durch eine informationsoptimierte Netztopologieerzeugung gemäß 6 für die gleiche Eingangsdatenmenge erhalten wurde. Das resultierende Netz, dessen Topologie durch das Verfahren von 6 mittels Training und informationsoptimierter Neurondimensionsreduktion erhalten wurde, ist in 9 gezeigt. Dabei wurde von anfänglich 260 Eingangsneuronen und einem Ausgangsneuron ausgegangen. Von den 49 ausgewählten Eingangsneuronen, d.h. hier Druckpositionen, bleiben lediglich 90 von 637 möglichen Verbindungen zu 13 Neuronen einer Zwischenschicht. Das Ausgangsneuron ist nur mit 8 von 49 möglichen Eingängen direkt verbunden.
  • Die gezeigten und oben näher erläuterten Ausführungsbeispiele machen deutlich, dass mit dem erfindungsgemäßen Verfahren vergleichsweise kleine und robuste künstliche neuronale Netze zur Datenverarbeitung erzeugt werden können, die sich für Echtzeitanwendungen z.B. in Kraftfahrzeugen, aber auch auf beliebigen anderen technischen Gebieten eignen. Die Eingangsdimension des Netzes und/oder die Dimension von Neuronen des Netzes werden unter Zuhilfenahme eines Transinformationsverfahrens im Sinne einer Reduktion optimiert, wobei anstelle des Transinformationsverfahrens auch ein anderes informationstheoretisches Verfahren benutzt werden kann. Auf diese Weise lassen sich relativ einfache Netztopologien realisieren, die eine geforderte Gesamtinformation, d.h. Datenverarbeitungsgüte, liefern.

Claims (5)

  1. Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, dadurch gekennzeichnet, dass eine Eingangsdimension des neuronalen Netzes unter Verwendung eines informationstheoretischen Verfahrens, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von Eingangsgrößen analysiert werden, iterativ optimiert wird, wobei eine vorgebbare minimale Eingangsdimension iterativ erhöht wird, bis erkannt wird, dass eine vorgebbare Datenverarbeitungsgüte erreicht ist.
  2. Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung, insbesondere nach Anspruch 1, dadurch gekennzeichnet, dass die Topologie des künstlichen neuronalen Netzes ausgehend von einer minimalen Netztopologie durch ein konstruierendes Verfahren unter iterativer Hinzufügung von Neuronen und durch Optimierung von Neuronverbindungen unter Verwendung eines informationstheoretischen Verfahrens, mit dem statistische Abhängigkeiten einer oder mehrerer Ausgangsgrößen von Eingangsgrößen analysiert werden, aufgebaut wird, bis eine vorgebbare Datenverarbeitungsgüte erreicht ist.
  3. Verfahren nach Anspruch 1 oder 2, weiter dadurch gekennzeichnet, dass als informationstheoretisches Verfahren ein Transinformationsverfahren verwendet wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, weiter dadurch gekennzeichnet, dass die Topologie des künstlichen neuronalen Netzes ausgehend von einer minimalen Netztopologie durch ein konstruierendes informationsoptimiertes Netztrainingsverfahren erzeugt wird, bei dem iterativ das Netz trainiert wird, jeweils ein Neuron und alle zugehörigen Verbindungen hinzugefügt werden und das informationstheoretische Verfahren zur Optimierung der Verbindungen der Neuronen verwendet wird.
  5. Verfahren nach Anspruch 4, weiter dadurch gekennzeichnet, dass das künstliche neuronale Netz ausgehend von der minimalen Netztopologie durch ein vorgebbares Trainingsverfahren trainiert wird, anschließend die Netzverbindungen der Neuronen des trainierten Netzes optimiert werden, das so optimierte Netz wieder trainiert und dieser Prozess unter sukzessiver Hinzunahme je eines neuen Neurons iteriert wird, bis die vorgebbare Datenverarbeitungsgüte erreicht ist.
DE102004031007A 2003-07-23 2004-06-26 Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung Withdrawn DE102004031007A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102004031007A DE102004031007A1 (de) 2003-07-23 2004-06-26 Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10335007.1 2003-07-23
DE10335007 2003-07-23
DE102004031007A DE102004031007A1 (de) 2003-07-23 2004-06-26 Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung

Publications (1)

Publication Number Publication Date
DE102004031007A1 true DE102004031007A1 (de) 2005-02-10

Family

ID=34042146

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004031007A Withdrawn DE102004031007A1 (de) 2003-07-23 2004-06-26 Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung

Country Status (1)

Country Link
DE (1) DE102004031007A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007008514A1 (de) * 2007-02-21 2008-09-04 Siemens Ag Verfahren und Vorrichtung zur neuronalen Steuerung und/oder Regelung
DE102013216192A1 (de) * 2013-08-14 2015-02-19 Mtu Friedrichshafen Gmbh Verfahren zur Bestimmung von wenigstens einem Einspritzparameter einer Brennkraftmaschine und Brennkraftmaschine
DE102019102835B4 (de) 2018-02-05 2023-08-31 Toyota Jidosha Kabushiki Kaisha Steuervorrichtung eines Verbrennungsmotors

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5461699A (en) * 1993-10-25 1995-10-24 International Business Machines Corporation Forecasting using a neural network and a statistical forecast
US20020103793A1 (en) * 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
US20020161731A1 (en) * 2001-02-07 2002-10-31 Tayebnejad Mohammad Reza Artificial intelligence trending system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5461699A (en) * 1993-10-25 1995-10-24 International Business Machines Corporation Forecasting using a neural network and a statistical forecast
US20020103793A1 (en) * 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
US20020161731A1 (en) * 2001-02-07 2002-10-31 Tayebnejad Mohammad Reza Artificial intelligence trending system

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HERRMANN,Ralf, NARR,Alexander: Neural Networks and the Valuation of Derivatives, 10.11.1997, http://www.ubka.uni-karlsruhe.de/cgi-bin/ psview?document=1996/wiwi/29, S.1-46 *
HERRMANN,Ralf, NARR,Alexander: Neural Networks and the Valuation of Derivatives, 10.11.1997, http://www.ubka.uni-karlsruhe.de/cgi-bin/ psview?document=1996/wiwi/29, S.1-46;
Statistica 5.5, Electronic Manual, 3.19.2001 *
THEARLING,Kurt, et.al.: Visualizing Data Mining Models, 2001, http://www.thearling.com/text/dmviz/modelviz.htm *
THEARLING,Kurt, et.al.: Visualizing Data Mining Models, 2001, http://www.thearling.com/text/dmviz/modelviz.htm;
Themen: Statistica Neural Networks: A Brief Overview, A Technical Description, Example Applications, http://www.statsoft.com/downloads/maintenance/down html;
Themen: Statistica Neural Networks: A Brief Overview, A Technical Description, Example Applications, http://www.statsoft.com/downloads/maintenance/downhtml *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007008514A1 (de) * 2007-02-21 2008-09-04 Siemens Ag Verfahren und Vorrichtung zur neuronalen Steuerung und/oder Regelung
DE102013216192A1 (de) * 2013-08-14 2015-02-19 Mtu Friedrichshafen Gmbh Verfahren zur Bestimmung von wenigstens einem Einspritzparameter einer Brennkraftmaschine und Brennkraftmaschine
CN105612334A (zh) * 2013-08-14 2016-05-25 Mtu腓特烈港有限责任公司 用于确定内燃机的至少一个喷射参数的方法以及内燃机
US10107223B2 (en) 2013-08-14 2018-10-23 Mtu Friedrichshafen Gmbh Method for determining at least one injection parameter of an internal combustion engine, and internal combustion engine
DE102013216192B4 (de) 2013-08-14 2020-08-06 Mtu Friedrichshafen Gmbh Verfahren zur Bestimmung von wenigstens einem Einspritzparameter einer Brennkraftmaschine und Brennkraftmaschine
DE102019102835B4 (de) 2018-02-05 2023-08-31 Toyota Jidosha Kabushiki Kaisha Steuervorrichtung eines Verbrennungsmotors

Similar Documents

Publication Publication Date Title
DE60316517T2 (de) Verfahren und Vorrichtung zur Aufnahme von Störsignalen
DE4241688C2 (de) Verfahren zum Erzeugen eines Wortteilmodelles für Spracherkennung
DE19708183A1 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP2854045B1 (de) Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
DE102005001428A1 (de) Verfahren zur Steuerung einer Brennkraftmaschine
DE102007006616B3 (de) Verfahren zur Optimierung eines elektronisch gesteuerten automatisch schaltenden Getriebes für ein Kraftfahrzeug
DE2133638B2 (de) Verfahren zum Betrieb eines lernfähigen Systems aus in Kaskade geschalteten, zur nicht linearen Datenverarbeitung geeigneten lernfähigen Datenverarbeitungseinheiten
EP2088486B1 (de) Verfahren zur Vermessung eines nichtlinearen dynamischen realen Systems mittels Versuchsplanung
WO2016198047A1 (de) Verfahren für die erstellung eines simulationsmodells zur abbildung zumindest eines funktionalen prozesses einer antriebstrangkomponente
DE102009018785A1 (de) Verfahren und Vorrichtungen für eine virtuelle Testzelle
DE102004031007A1 (de) Verfahren zur Erzeugung eines künstlichen neuronalen Netzes zur Datenverarbeitung
EP3786853A1 (de) Komprimieren eines tiefen neuronalen netzes
DE102020202335A1 (de) Verfahren und Vorrichtung zum Erstellen eines Modells eines technischen Systems aus Messungen
DE102013206291A1 (de) Verfahren und Vorrichtung zum Erstellen eines nicht parametrischen, datenbasierten Funktionsmodells
DE102008057199A1 (de) Steuergeräteanordnung für ein Kraftfahrzeug
EP0978052B1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
DE102020111204A1 (de) Verfahren zum Betreiben eines Steuergeräts für ein Kraftfahrzeug sowie entsprechendes Steuergerät
DE102020111206A1 (de) Verfahren zum Betreiben eines Steuergeräts für ein Kraftfahrzeug sowie entsprechendes Steuergerät
DE102020111208A1 (de) Verfahren zum Betreiben einer Steuergeräteanordnung sowie entsprechende Steuergeräteanordnung
WO2018206041A1 (de) Verfahren zur bestimmung von einflussführenden parameterkombinationen eines physikalischen simulationsmodelles
DE102005019335A1 (de) Verfahren und Vorrichtung zum Auswerten von Ereignissen aus dem Betrieb zumindest eines Fahrzeuges
EP1124187A1 (de) Vorrichtung, Speichermedium und Verfahren zum Ermitteln von Objekten mit grosser Ähnlichkeit zu einem vorgegebenen Objekt
DE102005063273B4 (de) Verfahren und Vorrichtung zum Generieren stochastischer Zufallsvariablen
EP4341876A1 (de) Computerimplementiertes verfahren und system zur bestimmung von optimierten systemparametern eines technischen systems mittels einer kostenfunktion
DE102022205547A1 (de) Verfahren zum Trainieren eines Convolutional Neural Networks

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8127 New person/name/address of the applicant

Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE

8127 New person/name/address of the applicant

Owner name: DAIMLER AG, 70327 STUTTGART, DE

8120 Willingness to grant licences paragraph 23
8139 Disposal/non-payment of the annual fee