DE4138053A1 - Hybrid learning process for neural networks, e.g. for pattern recognition in speech processing - uses combination of stochastic and deterministic processes for optimising system - Google Patents
Hybrid learning process for neural networks, e.g. for pattern recognition in speech processing - uses combination of stochastic and deterministic processes for optimising systemInfo
- Publication number
- DE4138053A1 DE4138053A1 DE4138053A DE4138053A DE4138053A1 DE 4138053 A1 DE4138053 A1 DE 4138053A1 DE 4138053 A DE4138053 A DE 4138053A DE 4138053 A DE4138053 A DE 4138053A DE 4138053 A1 DE4138053 A1 DE 4138053A1
- Authority
- DE
- Germany
- Prior art keywords
- learning method
- phase
- learning
- neural networks
- individuals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
Description
In verschiedenen Gebieten der Technik, wie z. B. in der Mu stererkennung oder in der Sprachverarbeitung, versagen in der Regel algorithmische Ansätze. In vielen dieser Fälle können in diesen Technikgebieten auftretende Optimierungsprobleme mit Hilfe neuronaler Netze gelbst werden. Neuronale Netze werden nicht programmiert, sondern lösen Probleme selbständig durch gezielte Veränderung ihrer Gewichtsstruktur. Dieses selbstän dige Ändern von Gewichten wird bei neuronalen Netzen im allge meinen als Lernen bezeichnet.In various fields of technology, such as. B. in the Mu recognition or in speech processing, fail in the Rule algorithmic approaches. In many of these cases, optimization problems that arise in these technical areas With the help of neural networks. Neural networks become not programmed, but solve problems independently targeted change in their weight structure. This self Changes in weights are common in neural networks mean learning.
Die bekannten Lernverfahren für neuronale Netze lassen sich prinzipiell in stochastische oder deterministische Lernverfah ren klassifizieren. Ein wichtiger Vertreter der stochastischen Lernverfahren ist das sog. simulated annealing (metropolis,N.,; Rosenbluth,A.; Rosenbluth, M.; Teller, A.; Teller, E.: Equation of State Calculations by Fast Computing Machine; Journal of Chemical Physics, Vol. 21 1953) welches z. B. in einem neuro nalen Netz mit der Bezeichnung Boltzmann-Maschine verwendet wird (Hinton,G.E.; Sejnowski,T.J.; Ackley, D.H.: Bolztmann Ma chines: Constraint Satisfaction Networks that Learn; Technical Report CMU-CS-84-119, Carnegie-Mellon University 1984). Eines der bekanntesten deterministischen Lernverfahren für neuronale Netze ist das sog. error-backpropagation-Verfahren, welches im wesentlichen auf einem Gradientenabstieg basiert.The known learning methods for neural networks can be principally in stochastic or deterministic learning processes classify. An important representative of the stochastic The learning process is the so-called simulated annealing (metropolis, N.,; Rosenbluth, A .; Rosenbluth, M .; Teller, A .; Teller, E .: Equation of State Calculations by Fast Computing Machine; Journal of Chemical Physics, Vol. 21 1953) which e.g. B. in a neuro nal network called Boltzmann machine (Hinton, G.E .; Sejnowski, T.J .; Ackley, D.H .: Bolztmann Ma chines: Constraint Satisfaction Networks that Learn; Technical Report CMU-CS-84-119, Carnegie-Mellon University 1984). One the best known deterministic learning method for neural Networks is the so-called error-back propagation process, which is used in the is essentially based on a gradient descent.
Es ist ein Vorteil der stochastischen Lernverfahren, daß sie in der Lage sind, auch nicht differenzierbare Zielfunktionen mit einer Vielzahl von lokal optimalen Punkten zu optimieren. Dabei ist der Erfolg solcher Lernverfahren meist im wesentli chen unabhängig von der Vorgabe bestimmter Startlösungen; Auf der anderen Seite haben stochastische Lernverfahren den we sentlichen Nachteil, daß ihre Ausführung im allgemeinen sehr rechenintensiv ist und deshalb häufig unvertretbar große Zeiträume zu ihrer Durchführung erforderlich sind. It is an advantage of the stochastic learning process that it are able to perform non-differentiable target functions optimize with a variety of locally optimal points. The success of such learning processes is usually essential Chen regardless of the specification of certain starting solutions; On on the other hand, stochastic learning methods have the we considerable disadvantage that their execution is generally very is computationally intensive and therefore often unacceptably large Periods of time are required.
Deterministische Lernverfahren wie das error-backpropagation- Verfahren sind dagegen meist in vergleichbar kurzen Zeiträumen mit Hilfe eines vergleichbar geringen Rechenaufwands durch führbar. Diese Verfahren haben allerdings den Nachteil, daß ihre Ergebnisse von der Vorgabe geeigneter Startwerte abhän gen, daß ihre Durchführbarkeit eine differenzierbare Zielfunk tion voraussetzt, und daß diese Verfahren im allgemeinen nicht geeignet sind, Zielfunktionen mit einer großen Zahl lokal op timaler Punkte zutreffend zu optimieren.Deterministic learning methods such as error-backpropagation- On the other hand, procedures are usually in comparably short periods with the help of a comparatively low computing effort feasible. However, these methods have the disadvantage that their results depend on the specification of suitable starting values that their feasibility is a differentiable target radio tion and that these procedures generally do not are suitable, target functions with a large number locally op to optimize the timing points correctly.
Der Erfindung liegt die Aufgabe zugrunde, ein Lernverfahren für künstliche neuronale Netze anzugeben, welches die Nach teile beider genannten Verfahrenstypen vermeidet und gleich zeitig die Vorteile beider Verfahrenstypen in einem Verfahren vereint, also insbesondere eine Optimierung auch nicht diffe renzierbarer Zielfunktionen in Anwesenheit vieler lokaler Op timalwerte bei vertretbarem Rechenaufwand innerhalb vertretba rer Zeiträume zu optimieren. Diese Aufgabe wird erfindungsge mäß durch ein Lernverfahren für künstliche neuronale Netze mit Merkmalen nach Anspruch 1 gelöst.The invention has for its object a learning method for artificial neural networks, which specify the post Avoid parts of both types of processes mentioned and the same the advantages of both types of process in one process united, in particular an optimization not even diffe refinable target functions in the presence of many local ops Timal values with reasonable computing effort within reasonable optimize their periods. This task is fiction through a learning process for artificial neural networks Features solved according to claim 1.
Dieses Lernverfahren zeichnet sich dadurch aus, daß es in zwei zeitlich aufeinander folgenden Phasen abläuft, wobei in einer ersten Phase ein stochastisches Optimierungsverfahren und in der zweiten Phase ein deterministisches Optimierungsverfahren eingesetzt wird. Dabei ist es vorteilhaft, wenn in der ersten Phase ein genetisches Optimierungsverfahren oder der Metropo lis-Algorithmus verwendet wird. Für die zweite Phase hingegen sind Gradienten-Verfahren, wie z. B. der backpropagation-Algo rithmus, besonders geeignet. Es ist besonders vorteilhaft, wenn der Übergang von der ersten zur zweiten Phase eingeleitet wird, sobald ein Maß für den Lernfortschritt während des Ab laufs der ersten Phase auf einen Wert unterhalb einer vorgege benen Schwelle gefallen ist. Ein solches Maß für den Lernfort schritt kann besonders vorteilhaft aus einem Maß für die Ähn lichkeit der Individuen einer Population von neuronalen Netzen abgeleitet werden. Dabei wird die Ähnlichkeit zweier neurona ler Netze bevorzugt aus einem Maß für den Abstand der Vektoren ihrer Gewichte bestimmt.This learning process is characterized in that it consists of two successive phases takes place, whereby in one first phase a stochastic optimization process and in in the second phase a deterministic optimization process is used. It is advantageous if in the first Phase a genetic optimization process or the Metropo lis algorithm is used. For the second phase, however are gradient methods, such as B. the back propagation algo rhythm, particularly suitable. It is particularly beneficial when the transition from the first to the second phase is initiated as soon as a measure of the learning progress during the Ab during the first phase to a value below a given one ben threshold has fallen. Such a measure of learning progress step can be particularly advantageous from a measure of similarity the individuality of a population of neural networks be derived. The similarity between two neurons Networks preferably from a measure of the spacing of the vectors their weights.
Das erfindungsgemäße Lernverfahren läuft mit besonderem Vor teil auf einem Multiprozessorsystem ab, in dem autonome Popu lationen durch verschiedene Prozessoren verarbeitet werden. Dabei können zu bestimmten Zeitpunkten oder bei Eintritt be stimmter Ereignisse einzelne Individuen oder Teilpopulationen zwischen den Prozessoren ausgetauscht werden. Vorzugsweise nimmt dabei die Wahrscheinlichkeit für eine solche Migration von Individuen oder Teilpopulationen zwischen verschiedenen Prozessoren mit der Zeit monoton zu; In einer anderen Variante des erfindungsgemäßen Lernverfahrens wählt ein weiterer, zen traler Prozessor Nachkommen der Populationen aus und verteilt diese auf Prozessoren des Multiprozessorsystems. Schließlich hat es sich als besonders vorteilhaft erwiesen, das Lernver fahren in der Weise ablaufen zu lassen, daß Chromosomen oder Gene von Individuen als Vektoren implementiert werden und daß genetische Operationen durch Vektorisierung parallel ausge führt werden.The learning method according to the invention runs with special precedence part on a multiprocessor system in which autonomous Popu lations are processed by different processors. It can be at certain times or upon entry individual events or subpopulations exchanged between the processors. Preferably this reduces the likelihood of such a migration of individuals or subpopulations between different ones Processors monotonously with time; In another variant the learning method according to the invention chooses another, zen central processor descendants of the populations from and distributed this on processors of the multiprocessor system. In the end it has proven to be particularly advantageous to learn drive in such a way that chromosomes or Genes of individuals are implemented as vectors and that genetic operations by vectorization in parallel leads.
Weitere vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.Further advantageous embodiments of the invention result itself from the subclaims.
Anhand eines bevorzugten Ausführungsbeispiels wird die Erfin dung im folgenden weiter beschrieben.Based on a preferred embodiment, the inven tion further described below.
Das erfindungsgemäße hybride Lernverfahren für neuronale Netze besteht aus zwei Teilen: Einem stochastischen Optimierungsver fahren, welches in einer ersten Phase, ausgehend von einer vorzugsweise zufälligen Initialisierung der Gewichtskoeffizi enten eine nahezu optimale Lösung findet; daran anschließend läuft in einer zweiten Phase ein deterministisches Optimie rungsverfahren, vorzugsweise ein error-backpropagation-Algo rithmus ab, welcher, ausgehend von der besten durch das stochastische Optimierungsverfahren gefundenen Lösung ein lo kales Optimum aufsucht. The hybrid learning method according to the invention for neural networks consists of two parts: a stochastic optimization ver drive, which in a first phase, starting from a preferably random initialization of the weight coefficient ducks finds an almost optimal solution; after that a deterministic optimization runs in a second phase tion process, preferably an error-back propagation algo rhythm, which, starting from the best through the stochastic optimization method found a lo kales optimum.
Ein wichtiges Problem besteht darin, im richtigen Augenblick zwischen den beiden Phasen zu wechseln. Eine vorteilhafte Mög lichkeit besteht darin, das genetische Optimierungsverfahren so lange laufen zu lassen, bis die Population in einem kleinen Gebiet des Suchraums des Optimierungsverfahrens lokalisiert bleibt; In einer solchen Situation werden sich die Individuen der Population zunehmend ähnlicher. Die Ähnlichkeit der Indi viduen einer Population kann beispielsweise gemessen werden, indem ein geeignetes Abstandsmaß, z. B. Differenz, zwischen den Werten ihrer Genen gemessen wird; Falls die Individuen z. B. aus Bit-Folgen bestehen, kann hierzu vorteilhaft der Ham ming-Abstand verwendet werden.An important problem is at the right moment to switch between the two phases. An advantageous possibility is the genetic optimization process let it run until the population in a small Localization of the search area of the optimization process remains; In such a situation, the individuals themselves increasingly similar to the population. The similarity of the Indi for example, a population's video can be measured by a suitable distance measure, e.g. B. difference between the values of their genes are measured; If the individuals e.g. B. Ham can advantageously consist of bit sequences ming distance can be used.
Durch Verwendung eines geeigneten Multiprozessorsystems kann das Lernverfahren entscheidend durch Parallelisierung be schleunigt werden. Hierzu sind verschiedene Ansätze geeignet:By using a suitable multiprocessor system the learning process crucial through parallelization be accelerated. Various approaches are suitable for this:
Eine grobe Parallelisierung läßt sich durchführen, indem an stelle einer einzigen Population mehrere autonome Populationen durch verschiedene Prozessoren eines Multiprozessorsystems verarbeitet werden. Ein derartiges Multiprozessorsystem benö tigt keine zentrale Steuereinheit, da die einzelnen Populatio nen sich voneinander unabhängig entwickeln. Dabei wachsen die Populationen parallel zueinander auf und erkunden verschiedene Teile des Suchraums. Aufgrund ihrer gegenseitigen Isolation findet kein horizontaler Informationstransfer zwischen den einzelnen Populationen statt. Um sich hieraus eventuell erge bende Nachteile zu vermeiden, ist es vorteilhaft, zu bestimm ten Zeitpunkten oder bei Eintritt bestimmter Ereignisse ein zelne Individuen oder Teilpopulationen zwischen den Prozesso ren auszutauschen. Solche Ereignisse sind z. B. das Auftreten besonders angepaßter Individuen innerhalb einer Teilpopulation oder aber eine zunehmende Ähnlichkeit der Individuen innerhalb einer unabhängigen Population; Das Verfahren kann durch eine geeignete Steuerung der Wahrscheinlichkeit für Migrationen von Individuen zwischen Populationen dahingehend beeinflußt wer den, daß Populationen stärker oder schwächer gekoppelt sein können. Dabei dient als gute Heuristik, zunächst jede Popula tion einer getrennten Entwicklung zu unterziehen und anschlie ßend daran die Migrationswahrscheinlichkeit der Individuen langsam zu erhöhen bis schließlich alle Populationen auf den einzelnen Prozessoren sich wie eine einzige große Population verhalten.A rough parallelization can be carried out by put several autonomous populations in a single population through different processors of a multiprocessor system are processed. Such a multiprocessor system does not have a central control unit, since the individual populatio develop independently of one another. The grow Populations parallel to each other and explore different ones Parts of the search space. Because of their mutual isolation finds no horizontal information transfer between the individual populations instead. To possibly derive from this To avoid the disadvantages, it is advantageous to determine ten times or when certain events occur individual individuals or subpopulations between the processes exchange. Such events are e.g. B. the appearance specially adapted individuals within a subpopulation or an increasing similarity of individuals within an independent population; The procedure can be carried out by a appropriate control of the likelihood of migrations from Individuals between populations influenced who that populations are more or less coupled can. Each popula serves as a good heuristic to undergo a separate development and then based on this the probability of migration of the individuals slowly increase until finally all populations on the individual processors look like a single large population behavior.
Auf einer mittleren Ebene ist ferner eine weitere Art der Par allelisierung möglich, wenn man ein Multiprozessorsystem ver wendet, welches einen weiteren, zentralen Prozessor beinhal tet, welcher Nachkommen der Populationen auswählt und auf ver schiedene Prozessoren des Multiprozessorsystems verteilt; Schließlich ist auf einer unteren Ebene eine weitere Art der Parallelisierung möglich, indem Chromosomen oder Gene von In dividuen als Vektoren implementiert werden und genetische Ope rationen durch Vektorisierung parallel ausgeführt werden.At a middle level there is also another type of par Allelization possible if you use a multiprocessor system which includes another central processor which descendant of the populations selects and ver distributed processors of the multiprocessor system distributed; After all, another level is on a lower level Parallelization possible by chromosomes or genes from In dividuen are implemented as vectors and genetic ope rations are carried out in parallel by vectorization.
Das erfindungsgemäße Verfahren vereinigt die Vorzüge sowohl stochastischer Lernverfahren als auch deterministischer Lern verfahren unter gleichzeitiger Vermeidung der Nachteile beider Verfahrenstypen. Das beschriebene Verfahren ist mit Erfolg auf das Problem der Lauterkennung auf dem Gebiet der Sprachverar beitung angewendet worden und mit bekannten Standard-Lernver fahren verglichen worden. Dabei haben diese Experimente die Überlegenheit des beschriebenen hybriden Lernverfahrens deut lich herausgestellt.The method according to the invention combines both the advantages stochastic learning methods as well as deterministic learning proceed while avoiding the disadvantages of both Process types. The procedure described is successful the problem of sound recognition in the field of speech processing processing has been applied and with known standard learning processes driving have been compared. These experiments have the Superiority of the hybrid learning process described highlighted.
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4138053A DE4138053A1 (en) | 1991-11-19 | 1991-11-19 | Hybrid learning process for neural networks, e.g. for pattern recognition in speech processing - uses combination of stochastic and deterministic processes for optimising system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4138053A DE4138053A1 (en) | 1991-11-19 | 1991-11-19 | Hybrid learning process for neural networks, e.g. for pattern recognition in speech processing - uses combination of stochastic and deterministic processes for optimising system |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4138053A1 true DE4138053A1 (en) | 1993-05-27 |
Family
ID=6445147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4138053A Withdrawn DE4138053A1 (en) | 1991-11-19 | 1991-11-19 | Hybrid learning process for neural networks, e.g. for pattern recognition in speech processing - uses combination of stochastic and deterministic processes for optimising system |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4138053A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19531967A1 (en) * | 1995-08-30 | 1997-03-06 | Siemens Ag | Training method for neural network |
WO2000007113A1 (en) * | 1998-07-31 | 2000-02-10 | Cet Technologies Pte Ltd. | Automatic freeway incident detection system using artificial neural networks and genetic algorithms |
-
1991
- 1991-11-19 DE DE4138053A patent/DE4138053A1/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19531967A1 (en) * | 1995-08-30 | 1997-03-06 | Siemens Ag | Training method for neural network |
US5806053A (en) * | 1995-08-30 | 1998-09-08 | Siemens Aktiengesellschaft | Method for training a neural network with the non-deterministic behavior of a technical system |
WO2000007113A1 (en) * | 1998-07-31 | 2000-02-10 | Cet Technologies Pte Ltd. | Automatic freeway incident detection system using artificial neural networks and genetic algorithms |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69631694T2 (en) | Genetic programming system and method using genetic programming techniques | |
DE102014212556A1 (en) | METHOD AND SYSTEM FOR OBTAINING AN IMPROVED STRUCTURE OF A NEURONAL TARGET NETWORK | |
DE102017206987A1 (en) | The method, computer program product, computer-readable medium, controller and vehicle include the controller for determining a collective maneuver of at least two vehicles | |
DE102020210352A1 (en) | Method and device for transfer learning between modified tasks | |
DE102020212515A1 (en) | Method and device for training a machine learning system | |
EP1934895A2 (en) | Method for the computer-aided studying of a neural network, and neural network | |
DE102017218851A1 (en) | Method, device and computer program for creating a deep neural network | |
DE69815390T2 (en) | NEURONAL NETWORKS | |
DE102013113377B4 (en) | Fast nearest neighbor search using KD ferns | |
DE10159262B4 (en) | Identify pharmaceutical targets | |
EP3741518A1 (en) | Method and device for automatically influencing an actuator | |
DE102019105850A1 (en) | Method for generating a reduced neural network for a control device of a vehicle by means of eigenvectors | |
DE60024029T2 (en) | Method and device for displaying gene expression patterns | |
DE4138053A1 (en) | Hybrid learning process for neural networks, e.g. for pattern recognition in speech processing - uses combination of stochastic and deterministic processes for optimising system | |
DE112016000198T5 (en) | Discover and use informative loop signals in a pulsed neural network with temporal coders | |
DE102020211262A1 (en) | Method and device for compressing a neural network | |
EP0890153B1 (en) | Method for determination of weights, suitable for elimination, of a neural network using a computer | |
DE4417932B4 (en) | A method and system for obtaining target adjustment amounts for execution parameters by learning a plurality of sets of pattern input data and pattern output data | |
DE102020212514A1 (en) | Method for determining an output signal using a machine learning system | |
DE102020213527A1 (en) | Method for optimizing a strategy for a robot | |
DE102019202747A1 (en) | Method and device for the classification of input data | |
EP0591259B1 (en) | Method of processing uncertainties in input data in neuronal networks | |
EP0952501B1 (en) | Method for data-driven guidance and optimisation of technical processes | |
DE202020104727U1 (en) | Device for transfer learning between modified tasks | |
DE112020007372T5 (en) | Method and apparatus for a shared weights based neural network with stochastic architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |