FR2765705A1 - METHOD FOR CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON - Google Patents

METHOD FOR CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON Download PDF

Info

Publication number
FR2765705A1
FR2765705A1 FR9708342A FR9708342A FR2765705A1 FR 2765705 A1 FR2765705 A1 FR 2765705A1 FR 9708342 A FR9708342 A FR 9708342A FR 9708342 A FR9708342 A FR 9708342A FR 2765705 A1 FR2765705 A1 FR 2765705A1
Authority
FR
France
Prior art keywords
descriptors
neurons
phenomenon
model
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9708342A
Other languages
French (fr)
Other versions
FR2765705B1 (en
Inventor
Herve Stoppiglia
Gerard Dreyfus
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INF CDC
Original Assignee
INF CDC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INF CDC filed Critical INF CDC
Priority to FR9708342A priority Critical patent/FR2765705B1/en
Priority to PCT/FR1998/001381 priority patent/WO1999001825A1/en
Publication of FR2765705A1 publication Critical patent/FR2765705A1/en
Application granted granted Critical
Publication of FR2765705B1 publication Critical patent/FR2765705B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Abstract

The invention concerns the construction of a neural network, more particularly it concerns a method consisting in determining variables to be incorporated in an optimal model by evaluating results, and the construction of a neural network by determining the neural links based on a resulting model. It consists in inputting an additional variable which has random values, determining and classifying descriptors of the variables, by applying a criterion comparing the results, for determining an order of decreasing significance of the descriptors, then eliminating a variable whereof the descriptor is ranked after that of the additional variable. The invention is useful for modelling phenomena.

Description

La présente invention concerne un procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, ainsi qu'un réseau de neurones réalisé par mise en oeuvre du procédé selon l'invention. The present invention relates to a method of constructing a neural network for modeling a phenomenon, and to a neural network produced by implementing the method according to the invention.

Bien que l'invention concerne un perfectionnement apporté à la construction des réseaux de neurones, on ne décrit pas l'ensemble des principes et procédés utilisés de façon classique pour la construction des réseaux de neurones car ils sont connus depuis longtemps, et il existe une littérature considérable à leur sujet. On ne décrit donc la technique antérieure que dans la mesure où l'invention s'y rapporte, et on décrit l'invention en référence à ces aspects de la technique antérieure. Although the invention relates to an improvement in the construction of neural networks, not all the principles and methods conventionally used for the construction of neural networks are known because they have been known for a long time, and there is a considerable literature about them. The prior art is therefore described only to the extent that the invention relates thereto, and the invention is described with reference to those aspects of the prior art.

On considère d'abord un certain nombre de définitions utilisées dans le présent mémoire et qui sont en général celles de la technique antérieure. First of all, a number of definitions used herein which are generally those of the prior art are considered.

Les réseaux de neurones sont des circuits matériels, réalisés par exemple sous forme de circuits intégrés, mais qui peuvent aussi être réalisés uniquement sous forme d'un logiciel. Un neurone est un élément qui possède des entrées destinées à recevoir des signaux représentatifs de variables et une ou plusieurs sorties, et il transmet des données de sortie ou de résultat par application d'une fonction d'activation. Neural networks are hardware circuits, made for example in the form of integrated circuits, but which can also be made solely in the form of software. A neuron is an element that has inputs for receiving signals representative of variables and one or more outputs, and transmits output or result data by applying an activation function.

Dans un réseau de neurones, il existe, en plus des neurones, des entrées, au moins une sortie et des liaisons formées entre les entrées et les neurones et entre les neurones et les sorties, et éventuellement entre les neurones. On démontre qu'un réseau de neurones du type précité et qui comporte plusieurs couches, c'est-à-dire ayant des liaisons en cascade entre des sorties de neurones d'une couche et des entrées de neurones d'une autre couche, est équivalent à un réseau de neurones à une seule couche dite "cachée", c'est-à-dire que tous les neurones du réseau n'ont des liaisons qu'avec les entrées et les sorties. In a neural network, there are, in addition to the neurons, inputs, at least one output and links formed between the inputs and the neurons and between the neurons and the outputs, and possibly between the neurons. It is demonstrated that a network of neurons of the aforementioned type and which comprises several layers, that is to say having cascade connections between outputs of neurons of a layer and inputs of neurons of another layer, is equivalent to a "hidden" single-layer neural network, that is to say that all the neurons of the network have connections only with the inputs and the outputs.

Les variables sont des grandeurs qui peuvent prendre plusieurs valeurs et participent au phénomène qu'on veut modéliser. Le phénomène qu'on veut modéliser peut être quelconque, mais les réseaux de neurones sont évidemment appliqués à des phénomènes dont on ne connaît pas la fonction qui lie les variables au résultat. Si l'on connaît cette fonction, il est plus simple et plus précis de réaliser directement un circuit mettant en oeuvre la fonction. Variables are magnitudes that can take several values and participate in the phenomenon we want to model. The phenomenon we want to model may be arbitrary, but the neural networks are obviously applied to phenomena whose function is not known to link the variables to the result. If this function is known, it is simpler and more accurate to directly produce a circuit implementing the function.

Un modèle d'un phénomène est représenté à la fois par l'ensemble des variables et par le traitement qu'elles subissent pour donner le résultat, notamment par les fonctions d'activation des neurones. Un sous-modèle est un modèle dont une variable au moins a été éliminé. A model of a phenomenon is represented both by the set of variables and by the treatment they undergo to give the result, in particular by the activation functions of the neurons. A submodel is a model from which at least one variable has been eliminated.

La validité d'un modèle est déterminée par apprentissage, c'est-à-dire par utilisation, comme signaux d'entrée, des valeurs de variables qui ont été déterminées et dont on connaît le résultat. L'apprentissage comprend l'application de plusieurs exemples, c'est-à-dire de plusieurs groupes de valeurs de variables, avec obtention de résultats qui peuvent être comparés aux résultats des exemples. The validity of a model is determined by learning, that is, using, as input signals, the values of variables that have been determined and whose results are known. Learning involves applying several examples, i.e., multiple groups of variable values, with results that can be compared to the results of the examples.

L'appréciation de la validité d'un modèle s'effectue par comparaison du résultat obtenu dans l'apprentissage avec le résultat de l'exemple considéré. The validity of a model is evaluated by comparing the result obtained in the training with the result of the example considered.

On utilise aussi des "descripteurs" qui sont des ensembles des valeurs d'une même variable dans un ensemble d'exemples utilisés pour l'apprentissage. Cet ensemble des valeurs de variables peut avoir diverses formes. Dans un exemple particulièrement intéressant, constituant un mode de réalisation préféré de l'invention, les descripteurs sont des vecteurs à N dimensions, N étant le nombre d'exemples utilisés pour l'apprentissage. Ces vecteurs agissent donc dans un espace à N dimensions. Chacun de ces vecteurs est orthogonal à un espace à N-l dimensions qui est défini comme étant l'espace à N-1 dimensions dans lequel la projection du vecteur du descripteur, supposé non nul, est un point. Descriptors are also used which are sets of values of the same variable in a set of examples used for learning. This set of variable values can have various forms. In a particularly interesting example, constituting a preferred embodiment of the invention, the descriptors are N-dimensional vectors, where N is the number of examples used for learning. These vectors therefore act in a space with N dimensions. Each of these vectors is orthogonal to a N-1 dimensional space which is defined as the N-dimensional space in which the projection of the descriptor vector, assumed to be nonzero, is a point.

Les définitions qui précèdent des termes utilisés dans le présent mémoire suggèrent déjà le problème auquel s'applique l'invention et qui est la modélisation d'un phénomène, permettant la réalisation optimale d'un réseau de neurones dont les entrées reçoivent les valeurs des variables et dont la sortie ou les sorties représentent des données de résultat. Le procédé de construction d'un tel réseau de neurones comprend en général, de manière connue, une première phase qui, à partir d'un groupe de variables trop important, détermine les seules variables qui doivent être utilisées parce qu'elles ont une signification dans le phénomène, et une seconde phase de construction d'un réseau de neurones optimal qui, à partir des signaux représentatifs des valeurs des variables, transmet des données de résultat représentant le phénomène. The foregoing definitions of terms used in this memo already suggest the problem to which the invention applies and which is the modeling of a phenomenon, allowing the optimal realization of a neural network whose inputs receive the values of the variables. and whose output or outputs represent result data. The method of constructing such a neural network generally comprises, in a known manner, a first phase which, from a too large group of variables, determines the only variables that must be used because they have a meaning. in the phenomenon, and a second phase of construction of an optimal neural network which, from the signals representative of the values of the variables, transmits result data representing the phenomenon.

De manière connue, la première phase comprend la détermination de descripteurs, en nombre excessif, et la sélection, parmi l'ensemble des modèles possibles, de celui qui explique de la meilleure manière possible le phénomène observé. Il faut noter que cette explication doit tenir compte de la performance du modèle (faible écart entre le résultat donné par le modèle et les observations), mais aussi de sa complexité (notamment parce que le traitement doit être aussi rapide que possible). In known manner, the first phase comprises the determination of descriptors, in excessive numbers, and the selection, from among all the possible models, of that which explains in the best possible way the phenomenon observed. It should be noted that this explanation must take into account the performance of the model (small difference between the result given by the model and the observations), but also its complexity (in particular because the treatment must be as fast as possible).

On pourrait évaluer tous les modèles possibles. Il faut noter qu'un modèle a un type (par exemple linéaire ou non, statique ou dynamique, ...), une structure (définie par la famille de fonctions envisagées et l'ensemble des variables descriptives nécessaires), et des paramètres (qui définissent la fonction choisie parmi la famille F de fonctions). Une première possibilité de sélection d'un modèle comprend la prise en considération d'un modèle complet utilisant tous les descripteurs, puis la réalisation de tous les sous-modèles possibles et, parmi ces sousmodèles possibles, la sélection du meilleur. Il faut alors estimer un nombre de modèles extrêmement important. En effet, lorsque le nombre de variables, et donc de descripteurs, est égal à P, il faut estimer 2P modèles séparément. Par exemple, lorsque l'ensemble comporte quinze variables, le nombre de modèles possibles à comparer est de 32 768. Ce nombre devient vite extrêmement grand si bien que ce procédé devient rapidement inutilisable. We could evaluate all possible models. It should be noted that a model has a type (for example linear or not, static or dynamic, ...), a structure (defined by the family of functions envisaged and all the necessary descriptive variables), and parameters ( which define the function chosen from the family F of functions). A first possibility of selecting a model includes taking into consideration a complete model using all the descriptors, then the realization of all the possible sub-models and, among these possible sub-models, the selection of the best. It is then necessary to estimate a number of extremely important models. Indeed, when the number of variables, and therefore of descriptors, is equal to P, it is necessary to estimate 2P models separately. For example, when the set comprises fifteen variables, the number of possible models to be compared is 32,768. This number quickly becomes extremely large so that this process quickly becomes unusable.

On a donc mis au point d'autres procédés permettant de réduire le nombre de modèles à évaluer. On connaît ainsi des procédés destructif et constructif. Dans le premier procédé, on utilise, à partir du modèle complet à P descripteurs, tous les sous-modèles possibles à P-l descripteurs, on sélectionne celui qui donne la meilleure performance, et, si le sous-modèle est meilleur que le modèle complet, on reprend la procédure à partir de celui-ci alors que, s'il n'est pas meilleur que le modèle complet, on repart du modèle complet. Dans le procédé "constructif", on part d'un modèle à 0 descripteur et on construit les P modèles à 1 descripteur, on choisit le meilleur de ces modèles et on poursuit la procédure par addition d'un descripteur, jusqu'à ce que le modèle obtenu soit meilleur que tous les modèles obtenus par augmentation du nombre de descripteurs d'une unité. Ces deux procédés permettent une réduction très importante du nombre de modèles à évaluer. Other methods have been developed to reduce the number of models to be evaluated. Destructive and constructive processes are thus known. In the first method, we use, from the complete model with P descriptors, all the possible sub-models to Pl descriptors, we select the one that gives the best performance, and, if the submodel is better than the complete model, we repeat the procedure from this one whereas, if it is not better than the complete model, we start from the complete model. In the "constructive" method, we start from a 0 descriptor model and we construct the P models with 1 descriptor, we choose the best of these models and we continue the procedure by adding a descriptor, until the obtained model is better than all the models obtained by increasing the number of descriptors of a unit. These two methods allow a very significant reduction in the number of models to be evaluated.

Par rapport au procédé de sélection de modèle par évaluation de tous les modèles, les deux procédés précités peuvent ne pas donner un modèle optimal. Cependant, ils doivent être souvent utilisés dans la mesure où l'évaluation de la totalité des modèles possibles est en dehors des possibilités des machines disponibles de calcul. Lorsque les deux procédés (destructif et constructif) conduisent à un même modèle, la probabilité de celui-ci d'être le meilleur modèle est accrue. L'exécution successive des deux procédés constructif et destructif nécessite l'évaluation de P2 modèles, c'est-à-dire un nombre très inférieur à 22 modèles nécessaires pour l'évaluation de la totalité des modèles. Compared to the model selection method by evaluation of all the models, the two aforementioned methods may not give an optimal model. However, they must be used often since the evaluation of all the possible models is outside the possibilities of the available computing machines. When both processes (destructive and constructive) lead to the same model, the probability of it being the best model is increased. The successive execution of the two constructive and destructive processes requires the evaluation of P2 models, that is to say a much smaller number than 22 models necessary for the evaluation of all the models.

Les procédés de sélection des modèles nécessitent donc de nombreuses estimations de paramètres et l'emploi de tests d'hypothèses statistiques ou de critères d'information qui ne sont pas toujours faciles à comprendre par les utilisateurs non initiés.  Model selection processes therefore require many parameter estimates and the use of tests of statistical assumptions or information criteria that are not always easy for uninitiated users to understand.

L'invention met en oeuvre un nouveau procédé pour la construction du réseau de neurones dans lequel est utilisé un nouveau procédé d'évaluation des modèles. Plus précisément, selon l'invention, les descripteurs sont ordonnés par ordre de signification décroissante. Au départ, l'ensemble des P descripteurs est suffisamment important pour décrire les données. Parmi ces P descripteurs, on détermine celui qui décrit le mieux la sortie voulue, puis le second et ainsi de suite. On obtient ainsi un classement des descripteurs. On considère alors les sous-modèles constitués par un seul descripteur, deux descripteurs, trois descripteurs, etc., en commençant à chaque fois par le descripteur le plus significatif. Il est donc possible de considérer un nombre très réduit de modèles. En outre, selon l'invention, on utilise au moins une variable supplémentaire qui a un descripteur supplémentaire qui est aléatoire, c'est-à-dire que les valeurs de la variable supplémentaire sont purement aléatoires. Lorsque les descripteurs sont ordonnés, on considère que tous ceux qui se trouvent après le descripteur aléatoire ont une signification qui n'est pas supérieure à celle du descripteur aléatoire et peuvent donc être élimines. The invention implements a new method for the construction of the neural network in which a new model evaluation method is used. More precisely, according to the invention, the descriptors are ordered in order of decreasing significance. Initially, all the P descriptors are large enough to describe the data. Among these P descriptors, we determine the one that best describes the desired output, then the second and so on. This gives a ranking of the descriptors. Sub-models consisting of a single descriptor, two descriptors, three descriptors, etc., are then considered, starting each time with the most significant descriptor. It is therefore possible to consider a very small number of models. In addition, according to the invention, at least one additional variable is used which has an additional descriptor which is random, that is to say that the values of the additional variable are purely random. When the descriptors are ordered, it is considered that all those after the random descriptor have a meaning that is not greater than that of the random descriptor and can therefore be eliminated.

Plus précisément, dans un premier aspect, l'invention concerne un procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, du type qui comprend, dans une première étape, la détermination des variables qui doivent être utilisées dans des modèles du phénomène par détermination de descripteurs représentatifs chacun des valeurs d'une variable, dans une seconde étape, la sélection des variables à incorporer à au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles, et dans une troisième étape, la construction d'un réseau de neurones par détermination des liaisons des neurones en fonction d'un modèle optimal obtenu ; selon l'invention, le procédé comprend aussi,
pendant ou avant la première étape de détermination des descripteurs, l'introduction d'au moins une variable supplémentaire qui possède des valeurs aléatoires, et la détermination d'un descripteur représentatif des valeurs de cette variable supplémentaire,
le classement des descripteurs, y compris celui de la variable supplémentaire, par application d'un critère de comparaison des résultats donnés par les modèles aux données représentatives du résultat du phénomène, avec détermination d'un ordre de signification décroissante des descripteurs, puis
l'élimination d'au moins un descripteur qui, dans l'ordre de signification décroissante des descripteurs, est classé après le descripteur représentatif des valeurs de la variable supplémentaire.
More specifically, in a first aspect, the invention relates to a method of constructing a neural network for modeling a phenomenon, the network comprising inputs intended to receive signals representative of variable values, neurons intended to applying an activation function to the signals they receive, at least one output for transmitting result data of the phenomenon model, and links formed between the inputs and the neurons and between the neurons and the output, of the type which comprises, in a first step, the determination of the variables which must be used in models of the phenomenon by determination of representative descriptors each of the values of a variable, in a second step, the selection of the variables to be incorporated into at least one model of the phenomenon by evaluating the results of several models, and in a third step, the constr uction of a neural network by determination of neuron bonds according to an optimal model obtained; according to the invention, the method also comprises
during or before the first descriptor determination step, introducing at least one additional variable that has random values, and determining a descriptor representative of the values of that additional variable,
the classification of the descriptors, including that of the additional variable, by applying a criterion for comparing the results given by the models to the data representative of the result of the phenomenon, with the determination of a decreasing order of significance of the descriptors, and then
eliminating at least one descriptor which, in descending order of significance of the descriptors, is ranked after the descriptor representative of the values of the additional variable.

Dans un mode de réalisation avantageux, le procédé comporte en outre la représentation des descripteurs et du résultat du phénomène par des vecteurs d'un espace à N dimensions, N étant le nombre d'exemples d'un ensemble d'exemples d'apprentissage du phénomène, chaque exemple comprenant au moins une valeur de chacune des variables et au moins une donnée représentative du résultat du phénomène pour les valeurs correspondantes des variables. Dans ce mode de réalisation, le critère de comparaison utilisé pour le classement des descripteurs est avantageusement une comparaison, dans l'espace à N dimensions, des angles formés par un vecteur représentatif d'un descripteur avec le vecteur représentatif du résultat du phénomène. In an advantageous embodiment, the method further comprises the representation of the descriptors and the result of the phenomenon by vectors of an N-dimensional space, where N is the number of examples of a set of training examples of the phenomenon, each example comprising at least one value of each of the variables and at least one datum representative of the result of the phenomenon for the corresponding values of the variables. In this embodiment, the comparison criterion used for the classification of the descriptors is advantageously a comparison, in the N-dimensional space, of the angles formed by a representative vector of a descriptor with the vector representative of the result of the phenomenon.

Dans ce mode de réalisation, l'étape de classement comprend de préférence la détermination du premier descripteur dans l'ordre de signification décroissante des descripteurs, et la projection des vecteurs descripteurs restants et du vecteur résultat sur l'espace à une dimension de moins qui est orthogonal à ce premier descripteur ensuite, cette étape comprend le classement des descripteurs dans cet espace à une dimension de moins pour la détermination du premier, dans l'ordre de signification décroissante, des descripteurs restants, et la projection des vecteurs descripteurs restants et du vecteur résultat sur un espace à une dimension de moins qui est orthogonal au premier descripteur dans l'ordre de signification décroissante des descripteurs restants, puis la répétition de ces étapes jusqu'au classement de tous les descripteurs ou jusqu'au classement du descripteur représentatif des valeurs de la variable supplémentaire. In this embodiment, the ranking step preferably comprises determining the first descriptor in decreasing order of descriptor significance, and projecting the remaining descriptor vectors and the result vector over the one-dimensional space of less than one. is orthogonal to this first descriptor then, this step comprises the classification of the descriptors in this one-dimensional space for the determination of the first, in the order of decreasing significance, of the remaining descriptors, and the projection of the remaining descriptor vectors and the result vector on a one-dimensional space that is orthogonal to the first descriptor in the decreasing order of significance of the remaining descriptors, and then repeating these steps until all the descriptors are ranked or the representative descriptor values of the additional variable.

De préférence, la construction d'au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles comprend la construction de plusieurs sousmodèles successifs du phénomène, chaque sous-modèle contenant une variable de plus que le sous-modèle précédent, la variable ajoutée étant choisie dans l'ordre de signification décroissante des descripteurs, la variable du premier sousmodèle étant soit une constante, soit la variable la plus significative, et la sélection d'un sous-modèle comme modèle optimal par utilisation d'un critère de sélection. Preferably, the construction of at least one optimal model of the phenomenon by evaluating the results of several models includes the construction of several successive submodels of the phenomenon, each submodel containing one more variable than the previous submodel, the added variable. being chosen in descending order of descriptors, the variable of the first sub-model being either a constant or the most significant variable, and the selection of a sub-model as the optimal model by using a selection criterion.

Dans cet exemple de réalisation, le critère de sélection d'un sous-modèle comprend de préférence la sélection du sous-modèle ayant le plus grand nombre de descripteurs donnant un niveau de risque de sélection de la variable supplémentaire qui est inférieur à un niveau choisi de seuil. In this exemplary embodiment, the criterion for selecting a sub-model preferably comprises selecting the sub-model having the largest number of descriptors giving a risk level for selecting the additional variable that is lower than a chosen level. threshold.

Dans un second aspect, l'invention concerne un procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables qui sont représentées par des descripteurs, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, par détermination des liaisons des neurones en fonction du modèle ; le procédé comprend
- la construction d'un réseau de neurones à une seule couche dont le nombre de neurones est certainement trop élevé, les entrées des neurones correspondant aux descripteurs du modèle, le réseau de neurones contenant en outre, dans sa couche unique, au moins un neurone supplémentaire ayant une fonction d'activation dont les paramètres ont des valeurs aléatoires, et
- l'exécution d'un processus comprenant, avec le nombre trop élevé de neurones, un apprentissage des neurones par utilisation des descripteurs, et l'élimination au moins du neurone ayant la contribution la moins significative au résultat, afin que le réseau ait un nombre plus petit de neurones, puis
- la répétition de ce processus avec le nombre plus petit de neurones, au moins jusqu'à ce que le neurone à éliminer soit un neurone supplémentaire.
In a second aspect, the invention relates to a method of constructing a neural network for modeling a phenomenon, the network comprising inputs for receiving signals representative of variable values that are represented by descriptors, neurons for applying an activation function to the signals they receive, at least one output for transmitting result data of the model of the phenomenon, and links formed between the inputs and the neurons and between the neurons and the output , by determining the connections of the neurons according to the model; the process comprises
the construction of a single layer neuron network whose number of neurons is certainly too high, the inputs of the neurons corresponding to the descriptors of the model, the neuron network containing in addition, in its single layer, at least one neuron additional having an activation function whose parameters have random values, and
the execution of a process comprising, with the too high number of neurons, learning of the neurons by use of the descriptors, and the elimination of at least the neuron having the least significant contribution to the result, so that the network has a smaller number of neurons and then
repetition of this process with the smaller number of neurons, at least until the neuron to be eliminated is an additional neuron.

Dans ce mode de réalisation, l'apprentissage des neurones par utilisation des descripteurs est effectué de préférence avec une partie seulement des exemples. Il est avantageux que l'exécution d'un processus comprenne, avant l'élimination d'un neurone, au moins une répétition d'un apprentissage pour la confirmation du neurone ayant la contribution la moins significative. In this embodiment, learning of the neurons using the descriptors is preferably done with only a portion of the examples. It is advantageous that the execution of a process comprises, before the elimination of a neuron, at least one repetition of a training for the confirmation of the neuron having the least significant contribution.

Il est avantageux que le modèle du phénomène utilisé soit un modèle optimal obtenu par mise en oeuvre du procédé selon le premier aspect de l'invention. It is advantageous that the model of the phenomenon used is an optimal model obtained by implementing the method according to the first aspect of the invention.

D'autres caractéristiques et avantages de l'invention ressortiront mieux de la description qui suit d'un exemple de réalisation, faite en référence au dessin annexé sur lequel
- la figure 1 est un diagramme vectoriel représentant géométriquement un algorithme de comparaison des descripteurs
- la figure 2 est un graphique indiquant les résultats obtenus d'une part avec une procédure dite "de Gram-Schmidt" et d'autre part avec évaluation des performances de tous les sous-modèles d'un ensemble complet
- la figure 3 est un graphique indiquant le résultat donné par l'algorithme d'évaluation de Gram-Schmidt et la répartition du classement de la variable aléatoire ; et
- la figure 4 est un graphique illustrant un processus modélisé dans un exemple de mise en oeuvre du procédé de l'invention.
Other features and advantages of the invention will become more apparent from the following description of an exemplary embodiment, with reference to the appended drawing in which:
FIG. 1 is a vector diagram representing geometrically a comparison algorithm of the descriptors
FIG. 2 is a graph indicating the results obtained on the one hand with a "Gram-Schmidt" procedure and on the other hand with evaluation of the performance of all the sub-models of a complete set.
FIG. 3 is a graph indicating the result given by the Gram-Schmidt evaluation algorithm and the classification distribution of the random variable; and
FIG. 4 is a graph illustrating a process modeled in an exemplary implementation of the method of the invention.

On considère un exemple plus détaillé de mise en oeuvre de l'invention en référence à un exemple dans lequel on cherche à modéliser un processus. We consider a more detailed example of implementation of the invention with reference to an example in which we seek to model a process.

On dispose de P descripteurs (c'est-à-dire qu'on suppose initialement que P variables peuvent participer au résultat). On construit donc P descripteurs sous forme de vecteurs dans un espace à N dimensions, N étant le nombre d'exemples. Chaque exemple comprend une valeur de chacune des P variables, et au moins la valeur d'un résultat. We have P descriptors (that is, we initially assume that P variables can participate in the result). We therefore construct P descriptors in the form of vectors in an N-dimensional space, where N is the number of examples. Each example includes a value of each of the P variables, and at least the value of a result.

Pour le classement des descripteurs, on utilise avantageusement l'algorithme d'orthogonalisation de Gram-Schmidt modifié qu'on décrit maintenant rapidement. On peut cependant se reporter avantageusement, pour plus de détails, à l'article de S.Chen, S.A.Billings et W.Luo, "Orthogonal least squares methods and their application to non-linear system identification", International Journal of Control,
Vol. 50, nO 5, p. 1873 à 1896, 1989.
For classification of the descriptors, it is advantageous to use the modified Gram-Schmidt orthogonalization algorithm which is now described briefly. However, for further details, reference may be made to the article by S. Chen, SABillings and W. Luo, "Orthogonal least squares methods and their application to non-linear system identification", International Journal of Control,
Flight. 50, No. 5, p. 1873 to 1896, 1989.

L'algorithme d'orthogonalisation de Gram-Schmidt considère les descripteurs et la sortie voulue comme des vecteurs. Les notations sont les suivantes

Figure img00090001
The Gram-Schmidt orthogonalization algorithm considers the descriptors and the desired output as vectors. The ratings are as follows
Figure img00090001

<tb> <SEP> xl <SEP> . <SEP> Xp <SEP>
<tb> x <SEP> = <SEP> = <SEP> [X1... <SEP> Xp) <SEP>
<tb> <SEP> N <SEP> N
<tb> <SEP> X1 <SEP> Xp
<tb>

Figure img00100001
<tb><SEP> xl <SEP>. <SEP> Xp <SEP>
<tb> x <SEP> = <SEP> = <SEP> [X1 ... <SEP> Xp) <SEP>
<tb><SEP> N <SEP> N
<tb><SEP> X1 <SEP> Xp
<Tb>
Figure img00100001

<tb> <SEP> 1 <SEP> y1
<tb> avec <SEP> X <SEP> = <SEP> 1 <SEP> à <SEP> l'entrée <SEP> P <SEP> et <SEP> Y <SEP> =
<tb> <SEP> N <SEP> N
<tb> <SEP> Xp <SEP> y
<tb>
La matrice X est la matrice des entrées (P colonnes correspondent aux P descripteurs du modèle et N lignes représentent les N exemples de l'ensemble d'apprentissage).
<tb><SEP> 1 <SEP> y1
<tb> with <SEP> X <SEP> = <SEP> 1 <SEP> at <SEP> the entry <SEP> P <SEP> and <SEP> Y <SEP> =
<tb><SEP> N <SEP> N
<tb><SEP> Xp <SEP> y
<Tb>
The matrix X is the matrix of the entries (P columns correspond to the P descriptors of the model and N rows represent the N examples of the training set).

On considère que la matrice X est composée de P vecteurs représentant chacun une entrée. Le vecteur Y est le vecteur de sortie (N lignes correspondent aux sorties observées des
N exemples)
A la première itération, on détermine le vecteur d'entrée qui "explique" le mieux la sortie. Pour cela, on détermine l'angle du vecteur de sortie avec chaque vecteur d'entrée. On évalue à cet effet le carré des cosinus des angles. Le vecteur sélectionné est celui pour lequel le carré des cosinus est maximal.
We consider that the matrix X is composed of P vectors each representing an input. The vector Y is the output vector (N lines correspond to the observed outputs of the
N examples)
At the first iteration, the input vector is determined which best explains the output. For this, the angle of the output vector is determined with each input vector. For this purpose, the square of the cosine of the angles is evaluated. The selected vector is the one for which the cosine squared is maximal.

Une fois déterminé ce vecteur le plus significatif, on élimine sa contribution en projetant le vecteur de sortie et tous les vecteurs d'entrée restants sur un sous-espace ou espace à N-1 dimensions qui est orthogonal au vecteur sélectionné. Once this most significant vector is determined, its contribution is eliminated by projecting the output vector and all the remaining input vectors onto a subspace or N-1-dimensional space that is orthogonal to the selected vector.

L'algorithme se poursuit jusqu'à ce que tous les vecteurs d'entrée aient été ordonnés. Selon l'invention, on peut interrompre l'évaluation lorsqu'on doit sélectionner le vecteur aléatoire. The algorithm continues until all input vectors have been ordered. According to the invention, the evaluation can be interrupted when the random vector has to be selected.

A chaque itération, on calcule la solution ordinaire des moindres carrés et la valeur de l'écart quadratique moyen correspondant. L'estimation des paramètres de la régression des moindres carrés est obtenue par résolution d'une équation linéaire ayant une matrice triangulaire supérieure et la norme du vecteur de sortie projeté détermine la valeur de l'écart quadratique moyen. At each iteration, the ordinary least squares solution and the value of the corresponding mean square deviation are calculated. The estimation of least squares regression parameters is obtained by solving a linear equation having an upper triangular matrix and the norm of the projected output vector determines the value of the mean square deviation.

La figure 1 indique l'interprétation géométrique de l'algorithme qu'on vient de décrire. Sur cette figure, on a représenté un espace à deux dimensions. Le vecteur de sortie
Y est mieux "expliqué" par le vecteur X2 que par le vecteur
Xi (l'angle O2 est plus petit que l'angle 01). On sélectionne donc X2 comme premier descripteur. Pour éliminer la partie expliquée par ce descripteur, on projette les vecteurs Y et X1 (et de façon générale tous les vecteurs restants) sur le sous-espace orthogonal au vecteur X2. Les projections sont utilisées pour la sélection du descripteur suivant mais, dans le cas de deux dimensions, il n'en existe plus puisqu'il ne reste plus qu'un seul vecteur d'entrée X1.
Figure 1 shows the geometric interpretation of the algorithm just described. In this figure, there is shown a two-dimensional space. The output vector
Y is better "explained" by the vector X2 than by the vector
Xi (the angle O2 is smaller than the angle 01). We therefore select X2 as the first descriptor. To eliminate the part explained by this descriptor, we project the vectors Y and X1 (and generally all remaining vectors) on the subspace orthogonal to the vector X2. The projections are used for the selection of the next descriptor but, in the case of two dimensions, it no longer exists since there remains only one input vector X1.

L'algorithme de Gram-Schmidt qu'on vient de décrire ne donne pas toujours le résultat optimal. La figure 2 indique les résultats obtenus d'une part avec l'algorithme de Gram
Schmidt et d'autre part avec évaluation des performances des 1 024 sous-modèles d'un ensemble complet comprenant quinze points d'apprentissage de dix descripteurs dont cinq seulement sont pertinents. Les croix représentent les résultats des 1 024 sous-modèles possibles et la courbe le sous-modèle sélectionné par l'algorithme de Gram-Schmidt. On note que, à l'exception du sous-modèle à trois descripteurs, les sousmodèles obtenus sont toujours les meilleurs.
The Gram-Schmidt algorithm just described does not always give the optimal result. Figure 2 shows the results obtained on the one hand with the Gram algorithm
Schmidt and on the other hand with evaluation of the performance of 1,024 sub-models of a complete set including fifteen learning points of ten descriptors of which only five are relevant. The crosses represent the results of the 1,024 possible sub-models and the curve the submodel selected by the Gram-Schmidt algorithm. It should be noted that, with the exception of the submodel with three descriptors, the submodels obtained are always the best.

On a porté sur la figure 3 en superposition, en fonction du nombre de descripteurs, le résultat donné par l'algorithme d'évaluation de Gram-Schmidt et la répartition du classement de la variable aléatoire, avec indication, sur l'échelle des ordonnées de droite, de la probabilité en pourcentage. On note ainsi que la probabilité pour que la variable aléatoire soit comprise dans les cinq premiers descripteurs est inférieure à 10 W. On peut ainsi déterminer que, si l'on sélectionne un sous-modèle à cinq descripteurs, la probabilité pour qu'une variable aléatoire explique mieux le problème posé qu'un des cinq descripteurs sélectionnés est inférieure à 10 W. Le niveau de risque détermine le nombre de descripteurs retenu. Ce niveau de risque ne doit pas être trop élevé, car des variables non significatives peuvent alors d'être incorporées. Il ne doit pas être trop faible car des valeurs significatives peuvent de ne pas être incorporées. Dans le cas représenté, les seules possibilités de sélection sont cinq ou six descripteurs, c'est-à-dire le nombre réel de descripteurs significatifs ou ce nombre augmenté d'un descripteur non significatif. FIG. 3 superimposed, as a function of the number of descriptors, the result given by the Gram-Schmidt evaluation algorithm and the distribution of the classification of the random variable, with indication, on the ordinate scale. right, the percentage probability. It is thus noted that the probability that the random variable is included in the first five descriptors is less than 10 W. It can thus be determined that, if a sub-model with five descriptors is selected, the probability for a variable Randomly explains the problem that one of the five descriptors selected is less than 10 W. The risk level determines the number of descriptors retained. This level of risk should not be too high, since non-significant variables can then be incorporated. It should not be too weak because significant values may not be incorporated. In the case represented, the only possibilities of selection are five or six descriptors, that is to say the real number of significant descriptors or this increased number of a non-significant descriptor.

Cette répartition du classement de la variable aléatoire peut aussi être réalisée uniquement par le calcul, mais on ne décrit pas celui-ci. This distribution of the classification of the random variable can also be done solely by calculation, but it is not described.

Le traitement qu'on vient de décrire permet ainsi de déterminer les descripteurs qui doivent être conservés et le modèle optimal. On peut alors construire un réseau de neurones. The treatment just described thus makes it possible to determine the descriptors that must be conserved and the optimal model. We can then build a network of neurons.

On a déjà démontré que n'importe quel réseau de neurones à plusieurs couches de type non bouclé pouvait être représenté par un réseau de neurones à une seule couche cachée. On utilise donc initialement un réseau de neurones à une couche cachée dont le nombre de descripteurs (couche d'entrées) a été déterminé, et ayant un nombre de neurones trop élevé, puis on élimine les neurones qui n'ont pas une contribution significative. On poursuit l'apprentissage avec les neurones restants, et on élimine à nouveau les neurones inutiles. On arrête la procédure lorsqu'on n'élimine plus aucun neurone. It has already been shown that any non-looped multi-layer neural network can be represented by a single-layered neural network. So we initially use a network of neurons with a hidden layer whose number of descriptors (input layer) was determined, and having a number of neurons too high, then eliminates the neurons that do not have a significant contribution. We continue learning with the remaining neurons, and useless neurons are removed again. The procedure is stopped when no neuron is removed.

Dans un mode de réalisation particulièrement avantageux de l'invention, on utilise un processus analogue à celui de la sélection des descripteurs pour la sélection des neurones. Plus précisément, on introduit un neurone supplémentaire ayant une fonction d'activation qui n'est pas linéaire et dont les paramètres sont aléatoires. Dans cette réalisation, on exécute la procédure jusqu'à ce que ce neurone supplémentaire se classe après les autres neurones. In a particularly advantageous embodiment of the invention, a process analogous to that of the selection of descriptors for the selection of neurons is used. More precisely, an additional neuron having an activation function which is not linear and whose parameters are random is introduced. In this embodiment, the procedure is performed until this additional neuron ranks after the other neurons.

(De manière connue, les fonctions d'activation sont continues, dérivables et bornées, et des exemples sont les fonctions trigonométriques hyperboliques, telles que la tangente hyperbolique, et les fonctions gaussiennes).(In known manner, the activation functions are continuous, differentiable and bounded, and examples are the hyperbolic trigonometric functions, such as the hyperbolic tangent, and the Gaussian functions).

Si l'on dispose d'un très grand nombre d'exemples pour l'apprentissage, il est possible que le neurone supplémentaire soit tout de suite classé le dernier. Dans ce cas, l'utilisation d'un tel neurone supplémentaire ne présente pas d'intérêt. Il est alors préférable d'utiliser un sousensemble réduit pour l'apprentissage, afin que le neurone supplémentaire ne soit pas immédiatement le dernier. If you have a large number of examples for learning, it is possible that the additional neuron is immediately ranked last. In this case, the use of such an additional neuron is not of interest. It is then preferable to use a reduced subset for learning, so that the extra neuron is not immediately the last.

L'apprentissage s'effectue sur les exemples de ce sousensemble, on conserve la valeur moyenne de l'écart quadratique sur le reste de l'ensemble, et on applique la procédure de sélection aux exemples du sous-ensemble ; les coefficients du réseau de neurones correspondent à la valeur moyenne minimale de l'écart quadratique ainsi calculé.The training is performed on the examples of this subset, the mean value of the squared difference is retained over the rest of the set, and the selection procedure is applied to the examples of the subset; the coefficients of the neural network correspond to the minimum average value of the squared difference thus calculated.

De cette manière, on supprime les neurones classés après le neurone supplémentaire. In this way, neurons classified after the additional neuron are deleted.

Le procédé selon l'invention présente, grâce au classement des descripteurs, l'intérêt d'indiquer quelles sont les variables les plus significatives. Il permet une réduction considérable du temps de calcul nécessaire pour l'évaluation des descripteurs significatifs, puis pour la construction du réseau de neurones. The method according to the invention has, thanks to the classification of the descriptors, the interest of indicating which are the most significant variables. It allows a considerable reduction in the calculation time necessary for the evaluation of the significant descriptors, then for the construction of the neural network.

L'invention concerne aussi des réseaux de neurones réalisés par mise en oeuvre du procédé précité. Ces réseaux de neurones, lorsque leur structure optimale a été ainsi évaluée par mise en oeuvre du procédé de l'invention, peuvent être réalisés par exemple sous forme de circuits intégrés, avec détermination des liaisons entre les entrées, les neurones et la sortie ou les sorties, et avec détermination des fonctions d'activation des neurones. The invention also relates to neural networks made by implementing the aforementioned method. These neural networks, when their optimal structure has thus been evaluated by implementing the method of the invention, can be realized for example in the form of integrated circuits, with determination of the connections between the inputs, the neurons and the output or the outputs, and with determination of neuron activation functions.

Exemple
On considère maintenant, à titre d'illustration, un exemple d'application de l'invention à la solution d'un problème de modélisation destiné à la simulation d'un processus.
Example
An illustration of an application of the invention to the solution of a modeling problem for the simulation of a process is now considered.

La figure 4 est un graphique représentant, en ordonnées, la valeur donnée par un processus (sur une échelle allant de -15 à +15) en fonction du temps t, porté en abscisses. La courbe en trait gras représente la valeur donnée yp(t) par le processus en fonction d'une commande u(t) représentée par la courbe en trait fin.  FIG. 4 is a graph representing, on the ordinate, the value given by a process (on a scale ranging from -15 to +15) as a function of time t, plotted on the abscissa. The bold line curve represents the given value yp (t) by the process as a function of a command u (t) represented by the fine line curve.

Dans la première phase du procédé, on choisit 20 variables possibles y(t-1) à yp(t-l0) et u(t-1) à u(t-10).  In the first phase of the method, 20 possible variables y (t-1) to yp (t-10) and u (t-1) to u (t-10) are chosen.

Le graphique de la figure 4 permet d'établir 20 descripteurs correspondant aux 20 variables pour 1 000 exemples. On ajoute un descripteur aléatoire, on exécute la première phase du procédé, et on obtient finalement les 3 variables yp(t-l), yp(t-2) et u(t-1). The graph of FIG. 4 makes it possible to establish 20 descriptors corresponding to the variables for 1,000 examples. A random descriptor is added, the first phase of the process is executed, and finally the 3 variables yp (t-1), yp (t-2) and u (t-1) are finally obtained.

On construit alors un réseau de neurones représentatif de ce processus. On utilise initialement un réseau à 20 neurones, plus un neurone aléatoire, chaque neurone ayant une fonction d'activation en forme de sigmoïde. Après un premier passage, il reste 17 neurones. Après un second passage, il reste 14 neurones. Le traitement s'arrête à 11 ou 12 neurones. We then build a neural network representative of this process. Initially, a neural network is used, plus a random neuron, each neuron having a sigmoidal activation function. After a first pass, there are 17 neurons left. After a second pass, there are 14 neurons left. Treatment stops at 11 or 12 neurons.

Pour évaluer l'intérêt du procédé de l'invention, on construit 21 réseaux de neurones différents (de 0 à 20 neurones), et on les compare pour déterminer le meilleur, par détermination de l'écart quadratique moyen en fonction du nombre de neurones. Cette évaluation est très longue et nécessite d'importants moyens de calcul. Le résultat indique que le meilleur réseau comporte 11 neurones. Ce résultat confirme l'exactitude du résultat obtenu beaucoup plus rapidement par le procédé de l'invention. To evaluate the interest of the method of the invention, 21 networks of different neurons (from 0 to 20 neurons) are constructed, and they are compared to determine the best, by determining the mean squared difference as a function of the number of neurons. . This evaluation is very long and requires significant means of calculation. The result indicates that the best network has 11 neurons. This result confirms the accuracy of the result obtained much more rapidly by the method of the invention.

Il est bien entendu que l'invention n'a été décrite et représentée qu'à titre d'exemple préférentiel et qu'on pourra apporter toute équivalence technique dans ses éléments constitutifs sans pour autant sortir de son cadre.  It is understood that the invention has been described and shown only as a preferred example and that we can bring any technical equivalence in its constituent elements without departing from its scope.

Claims (10)

REVENDICATIONS 1. Procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, A method of constructing a neural network for modeling a phenomenon, the network comprising inputs for receiving signals representative of variable values, neurons for applying an activation function to the signals that they receive, at least one output intended to transmit result data of the model of the phenomenon, and links formed between the inputs and the neurons and between the neurons and the output, du type qui comprend of the type that includes dans une première étape, la détermination des variables qui doivent être utilisées dans des modèles du phénomène par détermination de descripteurs représentatifs chacun des valeurs d'une variable, in a first step, the determination of the variables that must be used in models of the phenomenon by determination of representative descriptors each of the values of a variable, dans une seconde étape, la sélection des variables à incorporer à au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles, et in a second step, the selection of the variables to be incorporated into at least one optimal model of the phenomenon by evaluating the results of several models, and dans une troisième étape, la construction d'un réseau de neurones par détermination des liaisons des neurones en fonction d'un modèle optimal obtenu, in a third step, the construction of a neural network by determining the connections of the neurons according to an optimal model obtained, caractérisé en ce que le procédé comprend characterized in that the method comprises - pendant ou avant la première étape de détermination des descripteurs, l'introduction d'au moins une variable supplémentaire qui possède des valeurs aléatoires, et la détermination d'un descripteur représentatif des valeurs de cette variable supplémentaire, during or before the first step of determining the descriptors, the introduction of at least one additional variable which has random values, and the determination of a descriptor representative of the values of this additional variable, - le classement des descripteurs, y compris celui de la variable supplémentaire, par application d'un critère de comparaison des résultats donnés par les modèles aux données représentatives du résultat du phénomène, avec détermination d'un ordre de signification décroissante des descripteurs, puis the classification of the descriptors, including that of the additional variable, by applying a criterion for comparing the results given by the models to the data representative of the result of the phenomenon, with the determination of a decreasing order of significance of the descriptors, and then - l'élimination d'au moins un descripteur qui, dans l'ordre de signification décroissante des descripteurs, est classé après le descripteur représentatif des valeurs de la variable supplémentaire.  the elimination of at least one descriptor which, in decreasing order of significance of the descriptors, is classified after the descriptor representative of the values of the additional variable. 2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre la représentation des descripteurs et du résultat du phénomène par des vecteurs d'un espace à 2. Method according to claim 1, characterized in that it further comprises the representation of the descriptors and the result of the phenomenon by vectors of a space to N dimensions, N étant le nombre d'exemples d'un ensemble d'exemples d'apprentissage du phénomène, chaque exemple comprenant au moins une valeur de chacune des variables et au moins une donnée représentative du résultat du phénomène pour les valeurs correspondantes des variables.N dimensions, N being the number of examples of a set of examples of learning of the phenomenon, each example comprising at least one value of each of the variables and at least one piece of data representing the result of the phenomenon for the corresponding values of the variables . 3. Procédé selon la revendication 2, caractérisé en ce que le critère de comparaison utilisé pour le classement des descripteurs est une comparaison, dans l'espace à N dimensions, des angles formés par un vecteur représentatif d'un descripteur avec le vecteur représentatif du résultat du phénomène. 3. Method according to claim 2, characterized in that the comparison criterion used for the classification of the descriptors is a comparison, in the N-dimensional space, of the angles formed by a representative vector of a descriptor with the representative vector of the result of the phenomenon. 4. Procédé selon la revendication 3, caractérisé en ce que l'étape de classement comprend la détermination du premier descripteur dans l'ordre de signification décroissante des descripteurs, et la projection des vecteurs descripteurs restants et du vecteur résultat sur l'espace à une dimension de moins qui est orthogonal à ce premier descripteur, puis le classement des descripteurs dans cet espace à une dimension de moins pour la détermination du premier, dans l'ordre de signification décroissante, des descripteurs restants, et la projection des vecteurs descripteurs restants et du vecteur résultat sur un espace à une dimension de moins qui est orthogonal au premier descripteur dans l'ordre de signification décroissante des descripteurs restants, et la répétition de ces étapes jusqu'au classement de tous les descripteurs ou jusqu'au classement du descripteur représentatif des valeurs de la variable supplémentaire. 4. Method according to claim 3, characterized in that the classification step comprises determining the first descriptor in decreasing order of significance of the descriptors, and projecting the remaining descriptor vectors and the result vector on the space to a dimension of minus that is orthogonal to this first descriptor, then ranking the descriptors in this one-dimensional space for the determination of the first, in order of decreasing significance, of the remaining descriptors, and the projection of the remaining descriptor vectors and the result vector on a one-dimensional space that is orthogonal to the first descriptor in decreasing order of significance of the remaining descriptors, and the repetition of those steps up to the classification of all the descriptors or up to the classification of the representative descriptor values of the additional variable. 5. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que la construction d'au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles, comprend 5. Method according to any one of the preceding claims, characterized in that the construction of at least one optimal model of the phenomenon by evaluating the results of several models, comprises - la construction de plusieurs sous-modèles successifs du phénomène, chaque sous-modèle contenant une variable de plus que le sous-modèle précédent, la variable ajoutée étant choisie dans l'ordre de signification décroissante des descripteurs, la variable du premier sous-modèle étant soit une constante, soit la variable la plus significative, et the construction of several successive submodels of the phenomenon, each submodel containing one more variable than the previous submodel, the added variable being chosen in the descending order of descriptors, the variable of the first sub-model being either a constant or the most significant variable, and - la sélection d'un sous-modèle comme modèle optimal par utilisation d'un critère de sélection. - the selection of a sub-model as optimal model by using a selection criterion. 6. Procédé selon la revendication 5, caractérisé en ce que le critère de sélection d'un sous-modèle comprend la sélection du sous-modèle ayant le plus grand nombre de descripteurs donnant un niveau de risque de sélection de la variable supplémentaire qui est inférieur à un niveau choisi de seuil. 6. Method according to claim 5, characterized in that the selection criterion of a sub-model comprises the selection of the sub-model having the largest number of descriptors giving a risk level of selection of the additional variable which is lower. at a chosen threshold level. 7. Procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables qui sont représentées par des descripteurs, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, par détermination des liaisons des neurones en fonction du modèle, caractérisé en ce qu'il comprend 7. A method of constructing a neural network for modeling a phenomenon, the network comprising inputs intended to receive signals representative of variable values which are represented by descriptors, neurons intended to apply a function of activation to the signals they receive, at least one output for transmitting result data of the model of the phenomenon, and links formed between the inputs and the neurons and between the neurons and the output, by determining the links of the neurons in question. according to the model, characterized in that it comprises - la construction d'un réseau de neurones à une seule couche dont le nombre de neurones est certainement trop élevé, les entrées des neurones correspondant aux descripteurs du modèle, le réseau de neurones contenant en outre, dans sa couche unique, au moins un neurone supplémentaire ayant une fonction d'activation dont les paramètres ont des valeurs aléatoires, et the construction of a single layer neuron network whose number of neurons is certainly too high, the inputs of the neurons corresponding to the descriptors of the model, the neuron network containing in addition, in its single layer, at least one neuron additional having an activation function whose parameters have random values, and - l'exécution d'un processus comprenant, avec le nombre trop élevé de neurones, un apprentissage des neurones par utilisation des descripteurs, et l'élimination au moins du neurone ayant la contribution la moins significative au résultat, afin que le réseau ait un nombre plus petit de neurones, puis  the execution of a process comprising, with the too high number of neurons, learning of the neurons by use of the descriptors, and the elimination of at least the neuron having the least significant contribution to the result, so that the network has a smaller number of neurons and then - la répétition de ce processus avec le nombre plus petit de neurones, au moins jusqu'à ce que le neurone à éliminer soit un neurone supplémentaire. repetition of this process with the smaller number of neurons, at least until the neuron to be eliminated is an additional neuron. 8. Procédé selon la revendication 7, caractérisé en ce que l'apprentissage des neurones par utilisation des descripteurs est effectué avec une partie seulement des exemples. 8. Method according to claim 7, characterized in that the learning of neurons using the descriptors is performed with only part of the examples. 9. Procédé selon l'une des revendications 7 et 8, caractérisé en ce que l'exécution d'un processus comprend, avant l'élimination d'un neurone, au moins une répétition d'un apprentissage pour la confirmation du neurone ayant la contribution la moins significative. 9. Method according to one of claims 7 and 8, characterized in that the execution of a process comprises, before the elimination of a neuron, at least one repetition of a training for the confirmation of the neuron having the least significant contribution. 10. Procédé selon l'une quelconque des revendications 7 à 9, caractérisé en ce que le modèle du phénomène utilisé est un modèle optimal obtenu par mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 6.  10. Method according to any one of claims 7 to 9, characterized in that the model of the phenomenon used is an optimal model obtained by implementing a method according to any one of claims 1 to 6.
FR9708342A 1997-07-02 1997-07-02 METHOD OF CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON Expired - Fee Related FR2765705B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR9708342A FR2765705B1 (en) 1997-07-02 1997-07-02 METHOD OF CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON
PCT/FR1998/001381 WO1999001825A1 (en) 1997-07-02 1998-06-29 Method for constructing a neural network for modelling a phenomenon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9708342A FR2765705B1 (en) 1997-07-02 1997-07-02 METHOD OF CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON

Publications (2)

Publication Number Publication Date
FR2765705A1 true FR2765705A1 (en) 1999-01-08
FR2765705B1 FR2765705B1 (en) 1999-09-17

Family

ID=9508742

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9708342A Expired - Fee Related FR2765705B1 (en) 1997-07-02 1997-07-02 METHOD OF CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON

Country Status (2)

Country Link
FR (1) FR2765705B1 (en)
WO (1) WO1999001825A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2865562A1 (en) * 2004-01-27 2005-07-29 France Telecom Input variable`s significance measuring method for automatic learning model, involves determining average of random value from difference between obtained output of vector of considered input variables and interrupted input vector
EP1715449A2 (en) * 2005-04-19 2006-10-25 Bernard Hendrickx Procedure for constructing electronic means of modelling global behaviour

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388812A1 (en) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Method for training a learning-capable system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0528399A2 (en) * 1991-08-19 1993-02-24 Toyoda Koki Kabushiki Kaisha Method and apparatus for learning of neural network
WO1994025933A1 (en) * 1993-04-30 1994-11-10 Pavilion Technologies, Inc. Method and apparatus for determining the sensitivity of inputs to a neural network on output parameters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0528399A2 (en) * 1991-08-19 1993-02-24 Toyoda Koki Kabushiki Kaisha Method and apparatus for learning of neural network
WO1994025933A1 (en) * 1993-04-30 1994-11-10 Pavilion Technologies, Inc. Method and apparatus for determining the sensitivity of inputs to a neural network on output parameters

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GALLANT S I ET AL: "Random cells: an idea whose time has come and gone... and come again?", IEEE FIRST INTERNATIONAL CONFERENCE ON NEURAL NETWORKS, SAN DIEGO, CA, USA, 21-24 JUNE 1987, 1987, SAN DIEGO, CA, USA, SOS PRINTING, USA, pages 671 - 678 vol.2, XP000091982 *
PARBERRY I ET AL: "RELATING BOLTZMANN MACHINES TO CONVENTIONAL MODELS OF COMPUTATION", NEURAL NETWORKS, vol. 2, no. 1, 1 January 1989 (1989-01-01), pages 59 - 67, XP000084477 *
WALEED FAKHR ET AL: "MINIMUM DESCRIPTION LENGTH PRUNING AND MAXIMUM MUTUAL INFORMATION TRAINING OF ADAPTIVE PROBABILISTIC NEURAL NETWORKS", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON NEURAL NETWORKS (ICN, SAN FRANCISCO, MAR. 28 - APR. 1, 1993, vol. VOL. 3, no. -, 28 March 1993 (1993-03-28), INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS, pages 1338 - 1342, XP000379471 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2865562A1 (en) * 2004-01-27 2005-07-29 France Telecom Input variable`s significance measuring method for automatic learning model, involves determining average of random value from difference between obtained output of vector of considered input variables and interrupted input vector
WO2005083628A2 (en) * 2004-01-27 2005-09-09 France Telecom Measurement of magnitude of variables used for producing a modelling
WO2005083628A3 (en) * 2004-01-27 2006-09-14 France Telecom Measurement of magnitude of variables used for producing a modelling
EP1715449A2 (en) * 2005-04-19 2006-10-25 Bernard Hendrickx Procedure for constructing electronic means of modelling global behaviour
EP1715449A3 (en) * 2005-04-19 2008-02-06 Bernard Hendrickx Procedure for constructing electronic means of modelling global behaviour

Also Published As

Publication number Publication date
FR2765705B1 (en) 1999-09-17
WO1999001825A1 (en) 1999-01-14

Similar Documents

Publication Publication Date Title
EP0198729B1 (en) Electronic circuit simulation system
EP3877912A1 (en) Method of neural network construction for the simulation of physical systems
FR2695246A1 (en) Speech recognition system.
EP0454535B1 (en) Neural classification system and method
FR2660085A1 (en) DATA PROCESSING DEVICE AND METHOD FOR SELECTING DATA WORDS CONTAINED IN A DICTIONARY.
FR2848006A1 (en) METHOD FOR EXPLAINING A DECISION TAKEN BY A COMPRESATORY MULTICRITERIAL AGGREGATION MODEL
LU500415B1 (en) Grid denoising method based on graphical convolution network
FR2690772A1 (en) Neural processor equipped with means for calculating a norm or a distance.
WO2020094995A1 (en) Method of neural network construction for the simulation of physical systems
FR2765705A1 (en) METHOD FOR CONSTRUCTING A NEURON NETWORK FOR MODELING A PHENOMENON
EP0401927B1 (en) Learning method, neural network and computer for simulating said neural network
EP3555816B1 (en) Method for determining a data item&#39;s membership of a database and associated computer program product and information medium
WO2010057936A1 (en) Method for structuring an object database
WO2005001758A2 (en) System for the design and use of decision models
EP0681246A1 (en) Method and apparatus for the extraction of a subset of objects by optimizing a measure, using a neural network
EP1554687B1 (en) Fuzzy associative system for multimedia object description
EP1034476B1 (en) Method for verifying the proper functioning of a system
EP1431880A1 (en) Discretisation of a source attribute or of a group of source attributes of a database
EP0681245A1 (en) Method and apparatus for the extraction of a larger subset of objects, using a neural network
WO2023118768A1 (en) Device and method for processing human face image data
WO2005083628A2 (en) Measurement of magnitude of variables used for producing a modelling
FR2715487A1 (en) Method and device for optimal management of means capable of accomplishing a global task.
FR3136299A1 (en) Method for optimizing the hyperparameters of a machine learning model
WO2015079191A2 (en) Method for obtaining a system for active, decentralized multi-agent situation control
EP0619558B1 (en) Method and apparatus for classifying signal configurations

Legal Events

Date Code Title Description
ST Notification of lapse