EP1093639A2 - Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes - Google Patents

Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes

Info

Publication number
EP1093639A2
EP1093639A2 EP99942765A EP99942765A EP1093639A2 EP 1093639 A2 EP1093639 A2 EP 1093639A2 EP 99942765 A EP99942765 A EP 99942765A EP 99942765 A EP99942765 A EP 99942765A EP 1093639 A2 EP1093639 A2 EP 1093639A2
Authority
EP
European Patent Office
Prior art keywords
neural network
training
data set
training data
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP99942765A
Other languages
English (en)
French (fr)
Inventor
Volkmar Sterzing
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1093639A2 publication Critical patent/EP1093639A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the invention relates to training a neural network.
  • a technical system is a technical system, for example a chemical reactor or a wastewater treatment plant, a process to be modeled, generally any technical system, which is carried out using measured physical values or also recorded, i.e. recorded values, for example in image processing, can be modeled.
  • Values describing the technical system are measured as the basis for the training process.
  • the physical measured values are digitized and subjected to preprocessing so that they can be processed with a computer.
  • a neural network is trained on the basis of the measured training data.
  • a training date has at least one input variable and at least one output variable assigned to the input variable, the target value.
  • a gradient descent method for example the back propagation method, can be used as the training method.
  • Global optimization methods such as the BFGS method or genetic algorithms are used.
  • a training data record is further understood to mean a quantity with any number of training data.
  • the neural network is trained with the values determined in the second measurement phase, which form a second training data set, in a second training phase.
  • the values of the first training phase which are no longer measured in the second measuring phase, are no longer taken into account in the second training phase.
  • [4] describes a neural network with a large number of neural subnets connected in parallel, which are trained with a common training data set, the individual subnets being successively trained in succession.
  • [5] discloses two neural networks which are connected to one another in such a way that output values of a first neural network are input values of a second neural network. The same input data are used for both neural networks.
  • [6] describes a learning method for a neural network in which the neural network is trained in such a way that it forms an image of a current process. Furthermore, an background network is provided which is trained during operation with representative process data in such a way that it forms an image of the process over a longer period of time.
  • the invention is therefore based on the problem of specifying a neural network, as well as a method and an arrangement for training a neural network, in which my In a second training phase, training data from a first training phase that is no longer required can be taken into account as part of the training.
  • the first neural network is trained in a first training phase with a first training data record.
  • the first neural network and the second neural network are trained in a second training phase with a second training data set, network parameters of the first neural network remaining unchanged in the second training phase.
  • the arrangement for training a neural network which comprises a first neural network and a second neural network, has a processor which is set up in such a way that the following steps can be carried out:
  • the first neural network is trained in a first training phase with a first training data record
  • the first neural network and the second neural network are trained in a second training phase with a second training data record
  • the neural network has a first neural network and a second neural network
  • the first neural network can be trained in a first training phase with a first training data record
  • the second neural network can be trained in a second training phase with a second training data record -
  • the network parameters of the first neural network m of the second training phase are unchangeable.
  • the generalization performance of the trained neural network is considerably increased by the invention.
  • the stability of the model formed by the neural network for the technical system is increased in that even incomplete training data, which do not contain the variables to be modeled, can be used for the modeling.
  • training data the input variables of which are sometimes not measured and / or used in a second training phase, for modeling the technical system, i.e. for training the neural network, which is used as a model for the technical system.
  • At least one input variable of the first neural network is used as the input variable of the second neural network. This further training further improves the quality of the trained neural network with regard to the technical system to be modeled.
  • the invention can advantageously be used in any neural network for modeling a technical system, in particular in a system in which it is not yet known at the beginning of the training which measured values actually have a significant influence on the technical system.
  • FIG. 1 shows a sketch of a neural network, which represents an exemplary embodiment of the invention
  • Figures 2a to 2c a sketch of a clearing system with a measuring arrangement ( Figure 2a), a neural network, which with the training data of a first
  • Measurement phase is trained (Figure 2b) and the trained first neural network after the first training phase (Figure 2c); 3 shows the clearing system with a measuring arrangement, m a second measuring phase a second
  • Training data record is determined.
  • FIG. 2a shows a clearing system 201.
  • values 203 of the clearing system 201 are measured by at least one measuring device 204 in a first training phase.
  • the following system parameters 202 are provided in a first training phase: time of measurement,
  • the first measurement phase is characterized in that a significantly larger number of different values 203 is measured compared to a second measurement phase described below, but often only over a relatively short period of time.
  • the system parameters and the measured values 203 for the respective system parameters 202 are each stored as tuples and all determined tuples m in the first measurement phase form a first training data set 205.
  • a first neural network 210 (see FIG. 2b) is trained with the first training data set.
  • the first neural network 210 has an input layer 211 with input neurons 214, a hidden layer 212 with hidden neurons 215 and an output layer with output neurons 216.
  • the first neural network 210 is trained with the first training data set 205.
  • network parameters weights of couplings between neurons and couplings between neurons
  • the system parameters 202 are applied to the input layer 211 and output variables of the first neural network 210 are determined.
  • Output variables are compared with the respective values 203 assigned to the system parameters 202 in such a way that a training error is determined.
  • the first neural network 210 is trained with the traming error.
  • a trained first neural network 220 is shown in FIG. 2c.
  • the trained first neural network 220 in turn has an input layer 221 with output neurons 224, a hidden layer 222 with hidden neurons 225 and an output layer 223 with output neurons 226.
  • the network parameters of the trained first neural network 220 are different from the network parameters of the untrained first neural network 210.
  • the first training phase takes place off-lme, i.e. During the first training phase, no new training data for the first training data set are determined within the clearing system 201.
  • the clarification system is designated 301 in FIG.
  • a second training phase only some of the values 203 of the first training phase are measured by at least one measuring device 304 with different system parameters 302.
  • the second training phase is characterized by the fact that a smaller number of values 203 are measured, in this case only the chemical total chemical demand COD and the concentration of the ammonium CINH «I.
  • the second measurement phase is carried out over a longer period than the first measurement phase.
  • the second training phase can be characterized by being online, i.e. During the second training phase, values 303 m of the second measuring phase can still be measured on the clearing system 301 and fed to a second training data set 305 as training data.
  • F g.1 shows a neural network 101 which comprises the first neural network 102 which was trained in the first training phase and a second neural network 103.
  • the outputs of the first neural network 102 are connected to inputs of the second neural network 103. Further inputs of the second neural network 103 are provided for recording the system parameters which were used in the second measurement phase to measure the values 303 m in the second measurement phase.
  • the system parameters 302 of the second measurement phase are applied as input variables both to the trained first neural network 102 and to the second neural network 103.
  • output variables are formed for the input variables that are applied, which are applied to further inputs of the second neural network 103.
  • these input variables are processed further and fed to an output layer 105 of the second neural network 105.
  • the output layer 105 of the neural network likewise forms the output layer of the neural network 101.
  • At least one output variable is formed in the output layer 105.
  • the output variable is compared with the measured values 303 of the second measurement phase, the deviation of the output variable being determined with the respective measured value 303 and the neural network 101 being trained with the error determined therefrom such that the following network parameters of the first neural network 102 are not to be changed.
  • the couplings and the weights of the couplings between the input layer 221 and the hidden layer 222 and between the hidden layer 222 and the output layer 223 are not changed.
  • the neural network 101 is thus clearly trained with the second trunk data set 305 using a learning method, with the network parameters of the first neural network 102 not being changed.
  • an output variable y zo can be modeled better if both the on-lme measured variables and the offline measured variables are input variables of a neural network are available, i.e. the initial size is formed according to the following regulation:
  • f (.) denotes a non-linear mapping
  • NNl (.) denotes a non-linear mapping, which is realized by the first neural network.
  • NN2 (.) denotes a non-linear mapping, which is realized by the neural network.
  • trunk data whose measured values 203 m are used in a first training phase but are no longer measured and no longer used in the second measuring phase, for modeling the technical system as a whole.
  • This additional information gain leads to an improved modeling of the technical system by a neural network.
  • the invention enables effective use of the trunk data of the first training data set 205 both as the target variable and as the input variable of the neural network 210, without this resulting in restrictions on the use of the neural network 101.
  • the invention is not restricted to any specific structure of a neural network.
  • Both the number of neurons and the number of layers in the neural network can be specified as desired.
  • the invention can be used in a wide variety of fields, for example in the context of:
  • Financial data modeling for example, to take into account major changes that occur in a financial market, e.g. with the introduction of the euro.
  • the trained first neural network 220 should not be overtrained, ie no overfitting g should occur. In this case, it is better to accept a somewhat lower approximation quality of the trained first neural network 220 in order to achieve a stable, trained first neural network 220.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

In einer ersten Trainingsphase wird ein erstes neuronales Netz (102) mit einem ersten Trainingsdatensatz trainiert. Das erste neuronale Netz und ein zweites neuronales Netz (103) werden in einer zweiten Trainingsphase mit einem zweiten Trainingsdatensatz trainiert, wobei Netzparameter des ersten neuronalen Netzes in der zweiten Trainingsphase unverändert bleiben.

Description

Beschreibung
Neuronales Netz und Verfahren und Anordnung zum Trainieren eines neuronalen Netzes
Die Erfindung betrifft das Trainieren eines neuronalen Netzes .
Ein solches Trainingsverfahren ist aus [1] bekannt.
Bei dem bekannten Trainingsverfahren werden Werte, die ein technisches System beschreiben, gemessen.
Unter einem technischen System ist in diesem Zusammenhang ei- ne technische Anlage, beispielsweise ein chemischer Reaktor oder eine Kläranlage, ein zu modellierender Prozeß, allgemein jedes technische System, welches unter Verwendung gemessener physikalischer Werte oder auch aufgenommener, d.h. aufgezeichneter Werte, beispielsweise bei der Bildverarbeitung, modellierbar ist, zu verstehen.
Als Basis für das Trainingsverfahren werden Werte, die das technische System beschreiben, gemessen. Die physikalischen Meßwerte werden digitalisiert und einer Vorverarbeitung un- terzogen, so daß sie mit einem Rechner verarbeitbar sind.
Anhand der gemessenen Trainingsdaten wird ein Neuronales Netz trainiert .
Ein Trainingsdatum weist mindestens eine Eingangsgröße und mindestens eine der Eingangsgröße zugeordneten Ausgangsgröße, den Zielwert, auf.
Als Trainingsverfahren kann ein Gradientenabstiegsverfahren, beispielsweise das Backpropagation-Verfahren eingesetzt werden. Ebenso können globale Optimierungsverfahren, wie z.B. das BFGS-Verfahren oder auch genetische Algorithmen eingesetzt werden.
Ferner ist es aus [2] bekannt, unter Verwendung eines Netzop- timierungsverfahrens d e Struktur eines neuronalen Netzes im Rahmen des Trainings zu optimieren, indem die Anzahl der Netzparameter (Gewichte und Verbindungen zwischen den Neuronen des neuronalen Netzes) hinsichtlich des Trainingsdatensatzes optimiert wird.
Unter einem Trainingsdatensatz ist im weiteren eine Menge mit einer beliebigen Anzahl von Trainingsdaten zu verstehen.
Ein übliches Netzoptimierungsverfahren ist das Gewichts- Prumng.
Aus [3] ist die rechnergestutzte Generierung künstlicher Trainingsdaten bekannt.
Bei der Bildung eines Modells für ein technisches System unter Verwendung eines neuronalen Netzes tritt häufig das Problem auf, daß man unter einer Vielzahl von Meßwerten, die unterschiedliche Parameter beschreiben, noch nicht diejenigen Parameter kennt, die zur Beschreibung des technischen Systems wesentlich sind, im Gegensatz zu denen, welche keine große Bedeutung aufweisen.
Bei dieser Problemstellung ist es üblich, m einer ersten Meßphase Werte eines technischen Systems zu messen und diese Werte als ersten Trainingsdatensatz zum Trainieren des neuronalen Netzes zu verwenden. Nach Abschluß dieser ersten Trainingsphase werden die Eingangsgroßen, die gemäß der ersten Trainingsphase eine geringere Bedeutung im Rahmen der Modell- beschreibung des technischen Systems innerhalb des neuronalen Netzes aufweisen, nicht mehr weiter verwendet. Es werden m einer zweiten Meßphase nur noch die Eingangsgroßen als Meßwerte des technischen Systems gemessen, deren Bedeutung hinsichtlich der Modellierung des technischen Systems, wie m der ersten Trainingsphase ermittelt, relativ
Das neuronale Netz wird mit den m der zweiten Meßphase ermittelten Werten, die einen zweiten Trainingsdatensatz bilden, m einer zweiten Trainingsphase trainiert.
In der zweiten Trainingsphase werden die Werte der ersten Trainingsphase, die in der zweiten Meßphase nicht mehr gemessen werden, nicht mehr m der zweiten Trainingsphase berücksichtigt .
In [4] ist ein Neuronales Netz mit einer Vielzahl, parallel geschalteter Neuronaler Teilnetze beschrieben, die mit einem gemeinsamen Trainingsdatensatz trainiert werden, wobei die einzelnen Teilnetze sukzessive nacheinander trainiert werden.
Aus [5] sind zwei Neuronale Netze bekannt, die derart miteinander verbunden sind, daß Ausgangswerte eines ersten Neuronalen Netzes Eingangswerte eines zweiten Neuronalen Netzes s nd. Für beide Neuronale Netze werden die gleichen Emgangs- daten verwendet.
In [6] ist ein Lernverfahren für ein Neuronales Netz beschrieben, bei dem das Neuronale Netz derart trainiert wird, daß es ein Abbild eines aktuellen Prozesses bildet. Ferner ist ein Hindergrundnetz vorgesehen, das wahrend des Betriebes mit repräsentativen Prozeßdaten derart trainiert wird, daß es ein Abbild des Prozesses über einen längeren Zeitraum ge it- telt bildet.
Somit liegt der Erfindung das Problem zugrunde, ein neuronales Netz, sowie ein Verfahren als auch eine Anordnung zum Trainieren eines neuronalen Netzes anzugeben, bei dem m ei- ner zweiten Trainingsphase nicht mehr benotigte Trainingsdaten aus einer ersten Trainingsphase im Rahmen des Trainings berücksichtigt werden können.
Das Problem wird durch das Verfahren gemäß Patentanspruch 1, das neuronale Netz gemäß Patentanspruch 11 sowie durch die Anordnung gemäß Patentanspruch 15 gelost.
Bei dem Verfahren zum rechnergestutzten Trainieren eines neu- ronalen Netzes, welches ein erstes neuronales Netz und ein zweites neuronales Netz umfaßt, wird das erste neuronale Netz m einer ersten Trainingsphase mit einem ersten Trainingsdatensatz trainiert. Das erste neuronale Netz und das zweite neuronale Netz werden m einer zweiten Trainingsphase mit ei- nem zweiten Trainingsdatensatz trainiert, wobei Netzparameter des ersten neuronalen Netzes m der zweiten Trainingsphase unverändert bleiben.
Die Anordnung zum Trainieren eines neuronalen Netzes, welches ein erstes neuronales Netz und ein zweites neuronales Netz umfaßt, weist einen Prozessor auf, der derart eingerichtet ist, daß folgende Schritte durchfuhrbar sind:
- das erste neuronale Netz wirα m einer ersten Trainingsphase mit einem ersten Trainingsdatensatz trainiert, - das erste neuronale Netz und das zweite neuronale Netz werden m einer zweiten Trainingsphase mit einem zweiten Trai- nmgsdatensatz trainiert, und
- Netzparameter des ersten neuronalen Netzes bleiben in der zweiten Trainingsphase unverändert.
Das neuronale Netz weist ein erstes neuronales Netz und ein zweites neuronales Netz auf,
- bei dem das erste neuronale Netz m einer ersten Trainingsphase mit einem ersten Trainingsdatensatz trainierbar ist, - bei dem das zweite neuronale Netz m einer zweiten Trainingsphase mit einem zweiten Trainingsdatensatz trainierbar - bei dem Netzparameter des ersten neuronalen Netzes m der zweiten Trainingsphase unveränderbar sind.
Durch die Erfindung wird die Generalisierungsleistung des trainierten neuronalen Netzes erheblich gesteigert. Gleichzeitig wird die Stabilität des durch das neuronale Netz gebildeten Modells für das technische System dadurch erhöht, daß auch unvollständige Trainingsdaten, welche die zu modellierenden Großen nicht enthalten, für die Modellierung ge- nutzt werden können.
Anschaulich ist die Erfindung darin zu sehen, daß Trainingsdaten, deren Eingangsgroßen zum Teil nicht m einer zweiten Trainingsphase gemessen und/oder verwendet werden, für die Modellierung des technischen Systems, d.h. für das Training des neuronalen Netzes, welches als Modell für das technische System verwendet wird, genutzt werden.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den abhangigen Ansprüchen.
In einer Weiterbildung der Erfindung ist es vorteilhaft, daß mindestens eine Eingangsgroße des ersten neuronalen Netzes als Eingangsgroße des zweiten neuronalen Netzes verwendet wird. Durch diese Weiterbildung wird die Qualltat des trainierten neuronalen Netzes hinsichtlich des zu modellierenden technischen Systems weiter verbessert.
Zur weiteren Verbesserung des neuronalen Netzes hinsichtlich der Modellierung des technischen Systems ist es m einer weiteren Ausgestaltung vorteilhaft, m der ersten Trainingsphase auf das erste neuronale Netz ein Netzoptimierungsverfahren anzuwenden, insbesondere da m der ersten Trainingsphase üblicherweise relativ wenige Trainingsdaten zur Verfugung ste- hen, und somit die Zahl der Netzparameter des ersten neuronalen Netzes möglichst gering sein sollte. Die Erfindung kann in jedem neuronalen Netz zur Modellierung eines technischen Systems vorteilhaft eingesetzt werden, insbesondere in einem System, bei dem zu Beginn des Trainings noch nicht bekannt sind, welche gemessenen Werte tatsachlich einen erheblichen Einfluß auf das technische System haben.
Ein Ausfuhrungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird im weiteren naher dargestellt.
Es zeigen
Figur 1 eine Skizze eines neuronalen Netzes, die ein Ausfuhrungsbeispiel der Erfindung darstellt; Figuren 2a bis 2c eine Skizze einer Klaranlage mit einer Meßanordnung (Figur 2a) , ein neuronales Netz, welches mit den Trainingsdaten einer ersten
Meßphase trainiert wird (Figur 2b) und das trainierte erste neuronale Netz nach der ersten Trainingsphase (Figur 2c) ; Figur 3 die Klaranlage mit einer Meßanordnung, m der m einer zweiten Meßphase ein zweiter
Trainingsdatensatz ermittelt wird.
Fig.2a zeigt eine Klaranlage 201. Unter vorgegebenen Systemparametern 202 werden m einer ersten Trainingsphase Werte 203 der Klaranlage 201 von mindestens einem Meßgerat 204 gemessen.
In einer ersten Trainingsphase sind folgende Systemparameter 202 vorgesehen: - Uhrzeit der Messung,
- Wochentag der Messung,
- Leitfähigkeit am Zufluß der Klaranlage,
- pH-Wert am Zufluß der Klaranlage,
- Zuflußmenge, - Temperatur,
- gesamter Stickstoffgehalt . Von dem Meßgerat 204 werden an verschiedenen Stellen der Klaranlage 201 folgende Werte gemessen: - Konzentration von Ammonium C :l(NHJ),
- gesamter Stickstoffgehalt, - gesamter Phosphorgehalt,
- Konzentration von Phosphat C1PO3 ),
- Chemischer Summenstoffbedarf (CSB) ,
- gelöster Organischer Kohlenstoff (DOC) ,
- pH-Werte - log CIH3O I der Flüssigkeiten in der Klaranlage 201 an verschiedenen Stellen,
- Konzentration abflltrierbarer Stoffe,
- Konzentration absetzbarer Stoffe.
Die erste Meßphase ist dadurch gekennzeichnet, daß eine ge- genuber einer im weiteren beschriebenen zweiten Meßphase erheblich größere Anzahl unterschiedlicher Werte 203 gemessen wird, jedoch oft nur über einen relativ kurzen Zeitraum.
Die Systemparameter und die gemessenen Werte 203 zu den e- weiligen Systemparametern 202 werden jeweils als Tupel gespeichert und alle ermittelten Tupel m der ersten Meßphase bilden einen ersten Trainingsdatensatz 205.
Mit dem ersten Trainingsdatensatz wird ein erstes neuronales Netz 210 (vgl. Fig.2b) trainiert. Das erste neuronale Netz 210 weist eine Eingangsschicht 211 mit Eingangsneuronen 214, eine verdeckte Schicht 212 mit verdeckten Neuronen 215 und eine Ausgangsschicht mit Ausgangsneuronen 216 auf.
In einer ersten Trainingsphase wird das erste neuronale Netz 210 mit dem ersten Trainingsdatensatz 205 trainiert. Im Rahmen dieses Trainings werden Netzparameter (Gewichte von Kopplungen zwischen Neuronen sowie Kopplungen zwischen Neuronen) gemäß einem bekannten Trainingsverfahren, dem Backpropagati- on-Verfahren trainiert. Dabei werden die Systemparameter 202 an die Eingangsschicht 211 angelegt und es werden Ausgangsgroßen des ersten neuronalen Netzes 210 ermittelt.
Ausgangsgroßen werden mit den jeweiligen, den Systemparametern 202 zugeordneten Werten 203 derart verglichen, daß ein Trainingsfehler ermittelt wird.
Mit dem Tramingsfehler wird das erste neuronale Netz 210 trainiert .
Nach Anwendung eines aus [2] bekannten Netzoptimierungsver- fahren ergibt sich ein m Fig.2c dargestelltes trainiertes erstes neuronales Netz 220. Das trainierte erste neuronale Netz 220 weist wiederum eine Eingangsschicht 221 mit Em- gangsneuronen 224, eine verdeckte Schicht 222 mit verdeckten Neuronen 225 sowie eine Ausgangsschicht 223 mit Ausgangsneuronen 226 auf.
Jedoch sind die Netzparameter des trainierten ersten neuronalen Netzes 220 gegenüber den Netzparametern des untramierten ersten neuronalen Netzes 210 verschieden.
So sind sowohl weniger verdeckte Neuronen 225 als auch weniger Kopplungen zwischen den Neuronen der Eingangsschicht 221 und der verdeckten Schicht 222 sowie den Neuronen der Aus- gangsschicht 223 und den Neuronen der verdeckten Schicht 222 enthalten.
Die erste Trainingsphase erfolgt off-lme, d.h. wahrend der ersten Trainingsphase werden keine neuen Trainingsdaten für den ersten Trainingsdatensatz innerhalb der Klaranlage 201 ermittelt .
Die Klaranlage ist m Fig.3 mit 301 bezeichnet. In einer zweiten Trainingsphase werden nur ein Teil der Werte 203 der ersten Trainingsphase von mindestens einem Meßgerat 304 gemessen mit unterschiedlichen Systemparametern 302.
Die zweite Trainingsphase ist dadurch charakterisiert, daß eine geringere Anzahl von Werten 203 gemessen werden, diesem Fall nur der chemische Summenstoffbedarf CSB sowie die Konzentration des Ammoniums CINH« I .
Dafür wird die zweite Meßphase über einen gegenüber der ersten Meßphase längeren Zeitraum durchgeführt. Die zweite Trainingsphase kann dadurch charakterisiert sein, daß sie online erfolgt, d.h. wahrend der zweiten Trainingsphase können noch Werte 303 m der zweiten Meßphase an der Klaranlage 301 gemessen und als Trainingsdaten einem zweiten Trainingsdatensatz 305 zugeführt werden.
F g.1 zeigt ein neuronales Netz 101, welches das erste neuronale Netz 102, das der ersten Trainingsphase trainiert wurde, sowie ein zweites neuronales Netz 103 umfaßt.
Die Ausgange des ersten neuronalen Netzes 102 sind mit Eingängen des zweiten neuronalen Netzes 103 verbunden. Weitere Eingänge des zweiten neuronalen Netzes 103 sind vorgesehen zur Aufnahme von den Systemparametern, die m der zweiten Meßphase zur Messung der Werte 303 m der zweiten Meßphase verwendet wurden.
Die Systemparameter 302 der zweiten Meßphase werden als Em- gangsgroßen sowohl an das trainierte erste neuronale Netz 102 als auch an das zweite neuronale Netz 103 angelegt.
In dem trainierten ersten neuronalen Netz 102 werden zu den angelegten Eingangsgroßen Ausgangsgroßen gebildet, die an weitere Eingänge des zweiten neuronalen Netzes 103 angelegt werden. In einer verdeckten Schicht 104 des zweiten neuronalen Netzes 103 werden diese Eingangsgroßen weiter verarbeitet und einer Ausgangsschicht 105 des zweiten neuronalen Netzes 105 zugeführt. Die Ausgangsschicht 105 des neuronalen Netzes bildet ebenso die Ausgangsschicht des neuronalen Netzes 101. In der Ausgangsschicht 105 wird mindestens e ne Ausgangsgroße gebildet. Die Ausgangsgroße wird mit den gemessenen Werten 303 der zweiten Meßphase verglichen, wobei die Abweichung der Ausgangsgroße mit dem jeweiligen gemessenen Wert 303 ermittelt wird und mit dem daraus ermittelten Fehler das neuronale Netz 101 trainiert wird, derart, daß folgende Netzparameter des ersten neuronalen Netzes 102 nicht verändert werden.
Nicht verändert werden die Kopplungen und die Gewichte der Kopplungen zwischen der Eingangsschicht 221 und der verdeckten Schicht 222 sowie zwischen der verdeckten Schicht 222 und der Ausgangsschicht 223.
Es ist jedoch im Rahmen des Trainings des neuronalen Netzes 101 möglich, die Gewichte zwischen den Neuronen 226 der Ausgangsschicht 223 des trainierten ersten neuronalen Netzes 102 und Neuronen der verdeckten Schicht 104 des zweiten neuronalen Netzes 103 zu erandern und möglicherweise zu entfernen (Prunmg) , abhangig von dem zweiten Trammgsdatensatz 305.
Anschaulich wird also das neuronale Netz 101 mit dem zweiten Trammgsdatensatz 305 mit einem Lernverfahren trainiert, wobei Netzparameter des ersten neuronalen Netzes 102 nicht verändert werden.
Im folgenden wird allgemein die Erfindung noch einmal erläutert .
Es gebe einen Zusammenhang zwischen on-lme gemessenen Großen XQ, xi, X2, • • • und off-lme durch Analyse ermittelte Großen ZQ, zi, Z2 ... Wegen eines üblicherweise bestehenden, nicht bekannten Zusammenhangs der on-lme gemessenen Großen und off-line gemessenen Großen untereinander laßt sich eine Ausgangsgroße y = zo besser modellieren, wenn als Eingangsgroßen eines neuronalen Netzes sowohl die on-lme gemessene Großen als auch die offline gemessenen Großen zur Verf gung stehen, also die Ausgangsgroße gemäß folgender Vorschrift gebildet wird:
y = ZQ = f(xo xi, X2> ••• ' zl> z2' •••) ι (D
wobei mit f(.) eine nichtlineare Abbildung bezeichnet wird.
In einem ersten Schritt wird das erste neuronale Netz NNl für alle off-lme gemessenen Großen zo, zι_, Z2, . • . ermittelt ge- maß folgender Vorschrift:
Z = NNl(xo, xi, X2 •••)/ (2)
wobei mit NNl ( . ) eine nichtlmeare Abbildung, die durch das erste Neuronale Netz realisiert wird, bezeichnet wird.
Für das gesamte neuronale Netz ergibt sich folgende Abbil- dungsvorschrift :
y = NN2(x0, xi, X2/.-./NNl(x0, xi, X2, •••)), (3)
wobei mit NN2 ( . ) eine nichtlmeare Abbildung, die durch das Neuronale Netz realisiert wird, bezeichnet wird.
Auf diese Weise ist es erstmals möglich, Trammgsdaten, deren gemessene Werte 203 m einer ersten Trainingsphase verwendet, aber m der zweiten Meßphase nicht mehr gemessen und nicht mehr verwendet werden, trotzdem für die Modellierung des technischen Systems insgesamt zu nutzen. Dieser zusatzliche Informationsgewinn fuhrt zu einer verbesserten Modellierung des technischen Systems durch ein neuronales Netz.
Mit der Erfindung wird eine effektive Nutzung der Trammgsdaten des ersten Trainingsdatensatzes 205 sowohl als Zielgroße als auch als Eingangsgroße des neuronalen Netzes 210 ermöglicht, ohne daß sich daraus Einschränkungen für den Einsatz des neuronalen Netzes 101 ergeben.
Im weiteren werden einige Alternativen und Verallgememe- rungsmoglichkeiten des oben beschriebenen Ausfuhrungsbei- spiels dargestellt:
Die Erfindung ist auf keine spezifische Struktur eines neuronalen Netzes beschrankt.
Sowohl die Anzahl der Neuronen als auch die Anzahl der Schichten m dem neuronalen Netz sind beliebig vorgebbar.
Die Erfindung kann m verschiedensten Bereichen eingesetzt werden, beispielsweise im Rahmen einer:
• Prozeßmodellierung,
• Erstellung von Qualitatsmodellen, z.B. zur Modellierung von Produkteigenschaften, deren Bedeutung zwischen unterschiedlichen Trainingsphasen variiert,
• Fmanzdatenmodellierung beispielsweise zur Berücksichtigung stärkerer Änderungen, die m einem Finanzmarkt auftreten, z.B. bei der Einführung des Euro.
Zu den Eigenschaften des trainierten ersten neuronalen Netzes 220 ist zu bemerken, daß es nicht übertrainiert sein sollte, d.h. kein Overfitt g auftreten sollte. Es ist in diesem Fall besser, eine etwas geringere Approximationsqualität des trainierten ersten neuronalen Netzes 220 in Kauf zu nehmen, um ein stabiles trainiertes erstes neuronales Netz 220 zu erreichen.
Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert :
[1] A. Zeil, Simulation Neuronaler Netze, Addison Wesley Publishing, 1. Auflage, ISBN 3-89319-554-8, S. 97 - 114 und 555 - 574, 1994
[2] DE 196 11 732 Cl
[3] WO 98/10352
[4] US 5 095 443
[5] DE 43 30 847 AI
[6] DE 196 24 301 AI

Claims

Patentansprüche
1. Verfahren zum rechnergestutzten Trainieren eines Neuronalen Netzes, welches em erstes Neuronales Netz und em zwei- tes Neuronales Netz umfaßt,
- bei dem das erste Neuronale Netz m einer ersten Trainingsphase mit einem ersten Trammgsdatensatz trainiert wird,
- bei dem das erste Neuronale Netz und das zweite Neuronale Netz einer zweiten Trainingsphase mit einem zweiten Trai- ningsdatensatz trainiert werden, und
- bei dem Netzparameter des ersten Neuronalen Netzes m der zweiten Trainingsphase unverändert bleiben.
2. Verfahren nach Anspruch 1, bei dem Trammgsdaten des ersten Trainingsdatensatzes und des zweiten Trainingsdatensatzes zumindest teilweise miteinander übereinstimmen.
3. Verfahren nach Anspruch 1 oder 2, bei dem mindestens eine Ausgangsgroße des ersten Neuronalen Netzes m der zweiten Trainingsphase als Eingangsgroße des zweiten Neuronalen Netzes verwendet wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem m der ersten Trainingsphase mindestens em Netzopti¬ mierungsverfahren auf das erste Neuronale Netz angewendet wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem der erste Trainingsdatensatz weniger Trainingsdaten enthalt als der zweite Trammgsdatensatz.
6. Verfahren nach einem der Ansprüche 1 bis 5,
- bei dem Werte eines technischen Systems gemessen werden, und - bei dem als Tra mgsdaten des ersten Trainingsdatensatzes und/oder des zweiten Trammgsdatensatzes die gemessenen Werte verwendet werden.
7. Verfahren nach Anspruch 6, bei dem das technische System em chemischer Reaktor ist.
8. Verfahren nach Anspruch 6, bei dem das technische System eine Klaranlage ist.
9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem zumindest em Teil der Trammgsdaten des ersten Trainingsdatensatzes und/oder des zweiten Trammgsdatensatzes künstlich generiert werden.
10. Verfahren nach einem der Ansprüche 1 bis 9,
- bei dem wahrend der zweiten Trainingsphase Werte eines technischen Systems online gemessen werden, und
- bei dem die gemessenen Werte zumindest als Teil des zweiten Trainingsdatensatzes verwendet werden.
11. Neuronales Netz mit einem ersten Neuronalen Netz und einem zweiten Neuronalen Netz,
- bei dem das erste Neuronale Netz m einer ersten Trammgs- phase mit einem ersten Trammgsdatensatz tramierbar ist,
- bei dem das zweite Neuronale Netz in einer zweiten Trai- ningsphase mit einem zweiten Trainingsdatensatz tra ierbar
- bei dem Netzparameter des ersten Neuronalen Netzes m der zweiten Trainingsphase unveränderbar sind.
12. Neuronales Netz nach Anspruch 11, bei dem Trammgsdaten des ersten Trainingsdatensatzes und des zweiten Trainingsdatensatzes zumindest teilweise mitem- ander übereinstimmen.
13. Neuronales Netz nach Anspruch 11 oder 12, bei dem mindestens em Ausgang des ersten Neuronalen Netzes mit einem Eingang des zweiten Neuronalen Netzes verbunden
14. Neuronales Netz nach einem der Ansprüche 11 bis 13, bei dem der erste Trammgsdatensatz weniger Trammgsdaten enthalt als der zweite Trammgsdatensatz.
15. Anordnung zum Trainieren eines Neuronalen Netzes, welches em erstes Neuronales Netz und em zweites Neuronales Netz umfaßt, mit einem Prozessor, der derart eingerichtet ist, daß folgende Schritte durchfuhrbar sind:
- das erste Neuronale Netz wird m einer ersten Trammgspha- se mit einem ersten Trammgsdatensatz trainiert,
- das erste Neuronale Netz und das zweite Neuronale Netz werden m einer zweiten Trainingsphase mit einem zweiten Trainingsdatensatz trainiert, und
- Netzparameter des ersten Neuronalen Netzes bleiben m der zweiten Trainingsphase unverändert.
16. Anordnung nach Anspruch 15, bei der der Prozessor derart eingerichtet ist, daß Trammgsdaten des ersten Trainingsdatensatzes und des zweiten Trai- nmgsdatensatzes zumindest teilweise miteinander übereinstimmen.
17. Anordnung nach Anspruch 15 oder 16, bei der der Prozessor derart eingerichtet ist, daß mindestens eine Ausgangsgroße des ersten Neuronalen Netzes m der zweiten Trainingsphase als Eingangsgroße des zweiten Neuronalen Netzes verwendet wird.
18. Anordnung nach einem der Ansprüche 15 bis 17, bei der der Prozessor derart eingerichtet ist, daß m der ersten Trainingsphase mindestens em Netzoptimierungsverfahren auf das erste Neuronale Netz angewendet wird.
19. Anordnung nach einem der Ansprüche 15 bis 18, bei dem der erste Trammgsdatensatz weniger Trammgsdaten enthalt als der zweite Trammgsdatensatz.
20. Anordnung nach einem der Ansprüche 15 bis 19,
- mit einem Meßgerat zur Messung von Werten eines technischen Systems, welches mit dem Prozessor gekoppelt ist, und
- bei der der Prozessor derart eingerichtet ist, daß als Trammgsdaten des ersten Trainingsdatensatzes und/oder des zweiten Trammgsdatensatzes die gemessenen Werte verwendet werden.
21. Anordnung nach Anspruch 20, bei der das technische System em chemischer Reaktor ist.
22. Anordnung nach Anspruch 20, bei der das technische System eine Klaranlage ist.
23. Anordnung nach einem der Ansprüche 15 bis 22, bei der der Prozessor derart eingerichtet ist, daß zumindest em Teil der Trammgsdaten des ersten Trainingsdatensatzes und/oder des zweiten Trainingsdatensatzes kunstlich generiert werden.
24. Anordnung nach einem der Ansprüche 15 bis 23, bei der der Prozessor derart eingerichtet ist, daß
- wahrend der zweiten Trainingsphase Werte eines technischen Systems online gemessen werden, und - die gemessenen Werte zumindest als Teil des zweiten Trainingsdatensatzes verwendet werden.
EP99942765A 1998-07-08 1999-07-01 Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes Withdrawn EP1093639A2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19830539 1998-07-08
DE19830539 1998-07-08
PCT/DE1999/001952 WO2000003355A2 (de) 1998-07-08 1999-07-01 Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes

Publications (1)

Publication Number Publication Date
EP1093639A2 true EP1093639A2 (de) 2001-04-25

Family

ID=7873363

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99942765A Withdrawn EP1093639A2 (de) 1998-07-08 1999-07-01 Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes

Country Status (3)

Country Link
EP (1) EP1093639A2 (de)
JP (1) JP2002520719A (de)
WO (1) WO2000003355A2 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9920950D0 (en) 1999-09-06 1999-11-10 Ici Ltd Apparatus and method for reducing residual solvent levels
CN102663495B (zh) * 2012-02-22 2014-12-10 天津大学 一种用于非线性器件建模的神经网络数据生成方法
JP6164639B2 (ja) * 2013-05-23 2017-07-19 国立研究開発法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
DE102015226656B4 (de) * 2015-12-23 2019-10-10 Siemens Aktiengesellschaft Verfahren und Softsensor zum Ermitteln einer Leistung eines Energieerzeugers
DE102018206108A1 (de) * 2018-04-20 2019-10-24 Zf Friedrichshafen Ag Generieren von Validierungsdaten mit generativen kontradiktorischen Netzwerken
DE102019204136A1 (de) * 2019-03-26 2020-10-01 Robert Bosch Gmbh Verfahren und Vorrichtung für Training und Herstellung eines künstlichen neuronalen Netzes
EP3716238B1 (de) * 2019-03-27 2023-03-15 Siemens Aktiengesellschaft Verfahren zum ermitteln einer evakuierungsstrategie für eine evakuierung eines gebäudes

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0727748A1 (de) * 1995-02-17 1996-08-21 BODAMER, Edgar Verfahren und Anordnung zum mehrstufigen unüberwachten Lernen unter Verwendung einer Hierarchie von neuronalen Netzen

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0003355A2 *

Also Published As

Publication number Publication date
JP2002520719A (ja) 2002-07-09
WO2000003355A2 (de) 2000-01-20
WO2000003355A3 (de) 2000-04-20

Similar Documents

Publication Publication Date Title
DE102012009502A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes
DE19531967A1 (de) Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems
EP0901658B1 (de) Verfahren zur optimierung eines fuzzy-regelsatzes durch einen rechner
WO2000055809A2 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
EP1021793A2 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
WO2000003355A2 (de) Neuronales netz und verfahren und anordnung zum trainieren eines neuronalen netzes
EP1327959B1 (de) Neuronales Netz zur Modellierung eines physikalischen Systems sowie Verfahren zur Bildung eines solchen neuronalen Netzes
EP0890153B1 (de) Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
DE112020005613T5 (de) Neuromorphe Einheit mit Kreuzschienen-Array-Struktur
DE10139682A1 (de) Verfahren zum Generieren von neuronalen Netzen
EP0978052B1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
DE19703964C1 (de) Verfahren zur Transformation einer zur Nachbildung eines technischen Prozesses dienenden Fuzzy-Logik in ein neuronales Netz
DE102020210795A1 (de) Künstliches neuronales Netz
EP1145190B1 (de) Anordnung miteinander verbundener rechenelemente, verfahren zur rechnergestützten ermittlung einer dynamik, die einem dynamischen prozess zugrunde liegt und verfahren zum rechnergestützten trainieren einer anordnung miteinander verbundener rechenelemente
WO2020193481A1 (de) Verfahren und vorrichtung für training und herstellung eines künstlichen neuronalen netzes
EP0548127A1 (de) Neuronales Netzwerk und Schaltungsanordnung zur Bool'schen Realisierung neuronaler Netze vom ADALINE-Typ.
EP1194890B1 (de) Anordnung und verfahren sowie computerprogramm-erzeugnis und computerlesbares speichermedium zur rechnergestützten kompensation eines ungleichgewichtszustands eines technischen systems
EP4200737B1 (de) Verfahren zur datenmanipulationserkennung von numerischen datenwerten
EP1190383B1 (de) Verfahren zur rechnergestützten ermittlung einer zugehörigkeit einer vorgegebenen eingangsgrösse zu einem cluster
EP3710992A1 (de) Künstliches neuronales netz und verfahren hierzu
DE102004059684B3 (de) Verfahren und Anordnung sowie Computerprogramm mit Programmmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems
WO2022152683A1 (de) Ermitteln einer konfidenz eines künstlichen neuronalen netzwerks
DE102022213243A1 (de) Trainingsverfahren für ein KNN
DE10356655B4 (de) Verfahren und Anordnung sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemzustandes eines dynamischen Systems
WO2000011601A2 (de) Verfahren zum trainieren eines neuronalen netzes, verfahren zur klassifikation einer folge von eingangsgrössen unter verwendung eines neuronalen netzes, neuronales netz und anordnung zum trainieren eines neuronalen netzes

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20001206

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20030113