FR3103294A1

FR3103294A1 - Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé

Info

Publication number: FR3103294A1
Application number: FR1912795A
Authority: FR
Inventors: David Picard
Original assignee: Ecole Nationale des Ponts et Chaussess ENPC
Current assignee: Ecole Nationale des Ponts et Chaussess ENPC
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-05-21
Also published as: WO2021094694A1

Abstract

L’invention concerne un procédé de détermination d’une fonction de prédiction (f) mettant en œuvre un réseau de neurones (2) et fonction de M exemples-supports (xc) choisis parmi N vecteurs d’entrée (x), le procédé comprenant les étapes : - choix (10) aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties du réseau de neurones ; - mise en œuvre d’un calcul (12) itératif comprenant : • optimisation (14) des variables-supports pour minimiser une fonction de coût prédéterminée dépendant des variables-supports, des vecteurs d’entrée et d’une fonction de similarité prédéterminée ; • pour chaque variable-support optimisée, détermination (16) de l’exemple-support (xc) correspondant, égal au vecteur d’entrée (x) pour lequel la sortie correspondante (ψθ(xc)) du réseau de neurones est la plus proche de la variable-support optimisée au regard d’une norme prédéterminée ; et • mise à jour, à partir des exemples-supports déterminés, de la fonction de prédiction. Figure pour l’abrégé : figure 2

Description

Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé

La présente invention concerne un procédé de détermination mettant en œuvre un réseau de neurones. L’invention concerne également un procédé de traitement d’un vecteur à tester.

L’invention s’applique au domaine du traitement de données, en particulier au moyen de réseaux de neurones.

Il est connu de recourir à des réseaux de neurones pour le traitement de données, par exemple pour l’analyse d’images.

Parmi ces réseaux de neurones, les réseaux de neurones convolutifs (généralement désignés par l’acronyme CNN, de l’anglais «Convolutional Neural Networks») ont acquis une grande popularité en raison de leurs excellentes performances dans les tâches liées à la vision, telles que la classification d’images, la détection d'objets, la segmentation d'images, l’annotation d'images ou la réponse à des questions visuelles.

Toutefois, de tels réseaux de neurones ne donnent pas entière satisfaction.

En effet, un nombre considérable d’exemples est généralement utilisé lors de l’apprentissage de tels réseaux de neurones convolutifs. Il en résulte que les entrées d’un CNN sont liées à ses sorties par un très grand nombre de paramètres. Par conséquent, il est généralement difficile, voire impossible, pour un humain de déterminer les raisons pour lesquelles une entrée donnée conduit le CNN à fournir un résultat correspondant, ou encore à prédire une sortie que délivrerait le CNN à partir d’une entrée qui lui est fournie.

Une telle incapacité à interpréter et prédire les résultats fournis par les réseaux de neurones, en particuliers les réseaux de neurones convolutifs, constitue un obstacle majeur à leur adoption dans des environnements critiques où la responsabilité du concepteur est mise en jeu. Par exemple, de tels environnements critiques se rapportent au domaine de la santé, de la sécurité, ou encore des véhicules autonomes.

Un but de l’invention est donc de proposer un procédé de détermination d’une fonction de prédiction d’un réseau de neurones en vue de permettre une interprétation des résultats fournis par un réseau de neurones, et de définir un domaine de vecteurs d’entrée pour lesquels un comportement du réseau de neurones est garanti.

A cet effet, l’invention a pour objet un procédé du type précité, dans lequel la fonction de prédiction est fonction d’un ensemble-support comprenant M exemples-supports choisis parmi N vecteurs d’entrée, chaque vecteur d’entrée étant associé à une réponse attendue correspondante, chaque vecteur d’entrée et la réponse attendue correspondante formant un couple d’un ensemble d’apprentissage du réseau de neurones, M et N étant deux entiers naturels non nuls, M étant inférieur à N,

le procédé de détermination étant mis en œuvre par un ordinateur et comprenant les étapes:

- choix aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties du réseau de neurones;

- mise en œuvre d’un calcul itératif comprenant les sous-étapes:

• optimisation des variables-supports pour minimiser une fonction de coût prédéterminée, la fonction de coût dépendant des variables-supports, des vecteurs d’entrée et d’une fonction de similarité prédéterminée;

• pour chaque variable-support optimisée, détermination de l’exemple-support correspondant, égal au vecteur d’entrée pour lequel la sortie correspondante du réseau de neurones est la plus proche de la variable-support optimisée au regard d’une norme prédéterminée; et

• mise à jour, à partir des exemples-supports déterminés, de la fonction de prédiction.

En effet, un tel procédé autorise la détermination d’un ensemble d’exemples-supports pour la fonction de prédiction. De tels exemples-supports forment un ensemble de vecteurs d’entrée de référence, tels qu’une réponse du réseau de neurones est estimée de façon satisfaisante à partir d’une mesure de similarité entre chacun des exemples-supports et un vecteur d’entrée quelconque pris dans un ensemble de confiance dont les limites dépendent des exemples-supports.

Dans ce cas, l’interprétation d’une décision prise par le réseau de neurones revient à déterminer les exemples-supports ayant le plus contribué à la décision, ce qui est particulièrement avantageux: l’interprétation et la compréhension, par un observateur humain, d’une décision prise par un réseau de neurones (en particulier un CNN) est ainsi rendue possible grâce à l’invention.

Il ressort également de ce qui précède que l’ensemble de confiance forme un domaine de vecteurs d’entrée pour lesquels il est possible de garantir un comportement du réseau de neurones au regard de critères préalablement établis. Par exemple, le résultat d’un calcul de similarité entre un vecteur d’entrée quelconque et les exemples-supports est susceptible d’être utilisé comme une mesure de confiance dans la prédiction réalisée par le réseau de neurones à partir du vecteur d’entrée, et autorise la détection de prédictions hors champ, c’est-à-dire des prédictions fondées sur des vecteurs d’entrée trop dissimilaires des vecteurs d’entrée de l’ensemble d’apprentissage.

En outre, par le choix de la valeur de l’entier M, l’utilisateur est apte à contraindre le nombre d’exemples-supports, sans imposer de limite à la taille de l’ensemble d’apprentissage. Ceci est avantageux, dans la mesure où imposer une limite à la taille de l’ensemble d’apprentissage reviendrait à empêcher le réseau de neurones d’évoluer postérieurement à son apprentissage.

Suivant d’autres aspects avantageux de l’invention, le procédé de détermination comporte une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles:

- l’optimisation des variables-supports comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût;

- la mise en œuvre de la méthode de descente de gradient comprend le choix d’au moins un vecteur d’entrée, la détermination l’exemple-support comprenant, si une réponse du réseau de neurones à l’au moins un vecteur d’entrée choisi est plus proche d’une variable-support optimisée que l’exemple-support associé au regard de la norme prédéterminée, l’affectation de l’au moins un vecteur d’entrée choisi à l’exemple-support associé à la variable-support optimisée;

- la fonction de prédiction met en œuvre un vecteur de fonctions intermédiaires, chaque fonction intermédiaire étant égale à une somme de M fonctions de similarité pondérée par un vecteur de pondération correspondant, chaque fonction de similarité étant associée à un exemple-support correspondant, la fonction de coût dépendant également de chaque vecteur de pondération, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation des variables-supports, une mise en œuvre d’une optimisation de chaque vecteur de pondération pour minimiser la fonction de coût prédéterminée;

- l’optimisation de chaque vecteur de pondération comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût;

- la fonction de coût dépend également d’une fonction paramétrique représentative d’une sortie du réseau de neurones en fonction des vecteurs d’entrée, la fonction paramétrique étant associée à un vecteur de paramètres correspondant, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation des variables-supports, une mise en œuvre d’une optimisation du vecteur de paramètres associé à la fonction paramétrique pour minimiser la fonction de coût prédéterminée;

- l’optimisation du vecteur de paramètres comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût;

- la fonction de coût s’écrit:

sous la contrainte

où J est la fonction de coût;

est une entropie croisée;

Θ est une fonction de pénalité sur les variables-supports;

μ est une liste de variables-supports;

α est une liste de vecteurs de pondération associés à la fonction de prédiction;

x_c _,iest un exemple-support quelconque de l’ensemble-support;

«arg» est la fonction «argument»;

«min» est la fonction «minimum»;

μ_c _,iest une i-ème variable-support optimisée;

ψ_θest une fonction paramétrique représentative d’une sortie du réseau de neurones en fonction des vecteurs d’entrée;

θ est un vecteur de paramètres de la fonction paramétrique ψ_θ;

x est un vecteur d’entrée quelconque de l’ensemble des vecteurs d’entrée; et

γ est une constante positive prédéterminée.

L’invention concerne également un procédé de traitement d’un vecteur à tester, le vecteur à tester étant de mêmes dimensions que des vecteurs d’entrée d’un ensemble d’apprentissage associé à un réseau de neurones, le procédé de traitement comprenant les étapes:

- calcul d’une similarité, au regard d’un critère prédéterminé, entre le vecteur à tester et chaque exemple-support d’un ensemble-support associé au réseau de neurones et déterminé par la mise en œuvre du procédé tel que défini ci-dessus de détermination d’une fonction de prédiction mettant en œuvre ledit réseau de neurones; et

- génération d’une alerte si la plus grande similarité calculée est inférieure à un seuil de similarité prédéterminé.

L’invention sera mieux comprise à l’aide de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif et faite en se référant aux dessins annexés sur lesquels:

la figure 1 est une représentation schématique d’une fonction de prédiction mettant en œuvre un réseau de neurones; et

la figure 2 est un ordinogramme illustrant la mise en œuvre du procédé de détermination selon l’invention.

Le procédé de détermination selon l’invention va être décrit en référence aux figures 1 et 2. Un tel procédé est mis en œuvre par un ordinateur.

Sur la figure 1 est représenté un réseau de neurones 2, le réseau de neurones 2 ayant été soumis à un apprentissage au moyen d’un ensemble d’apprentissage 4.

L’ensemble d’apprentissage 4 comporte N couples (x, y), N étant un entier naturel non nul. Chaque couple comprend un vecteur d’entrée, noté x, et une réponse attendue correspondante, notée y.

Les vecteurs d’entrée x de l’ensemble d’apprentissage forment un ensemble noté , correspondant, sur la figure 1, à la partie unie de l’ensemble d’apprentissage 4. En outre, l’ensemble formé par les réponses attendues y correspond à la partie hachurée de l’ensemble d’apprentissage 4, sur cette même figure.

Le procédé de détermination selon l’invention vise, notamment, à déterminer, au sein de l’ensemble des vecteurs d’entrée x, un sous-ensemble C, dit «ensemble-support», comprenant M exemples-supports, notés x_c. M est un entier naturel non nul inférieur N, avantageusement au moins un ordre de grandeur inférieur à N.

La valeur de l’entier M est, de préférence, fixée par l’utilisateur avant la mise en œuvre du procédé de détermination objet de l’invention.

En outre, le procédé de détermination selon l’invention vise à déterminer une fonction de prédiction, notée f, mettant en œuvre le réseau de neurones 2. Une telle fonction de prédiction f associe, à un vecteur d’entrée quelconque donné, une réponse (également appelée «prédiction») correspondante. En particulier, pour un vecteur d’entrée x appartenant à l’ensemble , la prédiction fournie par la fonction de prédiction est la réponse attendue y correspondant audit vecteur d’entrée x.

Plus précisément, la fonction de prédiction f applique une opération mathématique (portant la référence 5 sur la figure 1) à des sorties du réseau de neurones 2 pour déterminer une prédiction.

La fonction de prédiction dépend des exemples-supports, et présente une expression générale connuea priori.

Une expression particulière de la fonction de prédiction f est donnée par:

où σ est une fonction d’activation; et

h est un vecteur de D fonctions intermédiaires, D étant un entier naturel non nul prédéterminé.

En particulier, le vecteur h de fonctions intermédiaires s’exprime selon:

où α_i _,jest la j-ème composante du i-ème vecteur de pondération d’une liste α de D vecteurs de pondération;

k est une fonction de similarité prédéterminée; et

ψ_θest une fonction paramétrique, définie par un vecteur de paramètres θ, représentative d’une sortie du réseau de neurone 2 en fonction des vecteurs d’entrée x.

L’expression (2) traduit le fait que, dans cet exemple, chaque fonction intermédiaire est égale à une somme de M fonctions de similarité, pondérée par un vecteur de pondération α_icorrespondant, chaque fonction de similarité étant associée à un exemple-support x_c _,jcorrespondant.

Une fonction de similarité associée à un exemple-support donné est une fonction dont le résultat est d’autant plus grand que son argument est similaire audit exemple-support. Par exemple, la fonction de similarité k est un noyau gaussien, ou encore le produit scalaire ou le cosinus de l’angle entre ψ_θ(x_c) et ψ_θ(x) lorsque ψ_θ(x) est un vecteur.

Selon un exemple particulier, ψ_θ(x) = x.

Comme cela apparaît sur la figure 2, le procédé de détermination selon l’invention comprend une étape de choix 10 et une étape de calcul 12 itérative. L’étape de calcul 12 est mise en œuvre tant qu’un critère prédéterminé n’est pas atteint (étape de décision 20).

Plus précisément, au cours de l’étape de choix 10, l’ordinateur choisit aléatoirement M variables-supports, notées μ_i, chacune de mêmes dimensions que des sorties du réseau de neurones 2. La liste des M variables-supports est notée μ.

En particulier, chaque variable-support μ_iest choisie au sein d’un ensemble prédéterminé, par exemple tel que la plus grande distance, au regard d’une norme prédéterminée, entre une variable-support μ_iquelconque et les vecteurs d’entrée x soit plus petite qu’une distance maximale prédéterminée. La norme prédéterminée est, par exemple, la norme euclidienne.

Puis, l’ordinateur met en œuvre, de façon itérative, l’étape de calcul 12.

Plus précisément, durant l’étape de calcul 12, au cours d’une sous-étape d’optimisation 14, l’ordinateur optimise les variables-supports μ_ipour minimiser une fonction de coût prédéterminée.

La liste μ des variables-supports à optimiser correspond:

- à la liste μ des variables-supports choisie lors l’étape de choix 10; ou,

- lorsque l’étape de calcul 12 a déjà été mise en œuvre au cours d’une itération précédente, à une liste μ_cde variables-supports optimisées calculée au cours de ladite itération précédente de l’étape de calcul 12.

La fonction de coût, noté J, dépend des variables-supports μ_i, des vecteurs d’entrée x et de la fonction de similarité k prédéterminée.

Avantageusement, au cours de la sous-étape d’optimisation 14, l’ordinateur optimise les variables-supports μ_ipar la mise en œuvre d’une méthode de descente de gradient.

Plus précisément, et de façon connue, au moins un vecteur d’entrée x est choisi. Puis, le gradient de la fonction de coût J par rapport aux variables-supports est calculé en chaque vecteur d’entrée x choisi. Puis, pour chaque variable-support μ_i, une variable-support optimisée correspondante, notée μ_c _,i, est obtenue en retranchant à ladite variable-support μ_iune fraction du gradient calculé en l’un des vecteurs d’entrée x.

Avantageusement, une telle méthode de descente de gradient est une méthode dite «stochastique». Ceci signifie que chaque vecteur d’entrée x destiné à la mise en œuvre de la méthode de descente de gradient est choisi aléatoirement.

De préférence, la fonction de prédiction f implémente le vecteur h de fonctions intermédiaires, conformément à la relation (1). Dans ce cas, la fonction de coût J dépend également du vecteur h de fonctions intermédiaires.

En outre, dans ce cas, la sous-étape d’optimisation 14 comprend également une optimisation de chacun des D vecteurs de pondération pour minimiser la fonction de coût J.

De préférence, l’optimisation de chaque vecteur de pondération comprend la mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût J, de préférence une méthode de descente de gradient stochastique.

De préférence encore, la fonction de coût J dépend également de la fonction paramétrique ψ_θdécrite précédemment.

Dans ce cas, la sous-étape d’optimisation 14 comprend également une optimisation du vecteur de paramètres θ pour minimiser la fonction de coût J.

Ceci est avantageux, dans la mesure où l’optimisation du vecteur de paramètres θ se traduit par une meilleure adéquation de la réponse du réseau de neurones 2 à la fonction de prédiction f.

De préférence, l’optimisation du vecteur de paramètres θ comprend la mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût J, de préférence une méthode de descente de gradient stochastique.

A titre d’exemple, la fonction de coût J s’écrit:

sous la contrainte

où est une entropie croisée;

Θ est une fonction de pénalité positive sur les variables-supports;

«arg» est la fonction «argument»;

«min» est la fonction «minimum»;

µ_c _,iest une variable-support optimisée quelconque; et

γ est une constante positive prédéterminée.

Une expression classique pour l’entropie croisée est:

où «log» est la fonction logarithme et, pour tout vecteur d’entrée x dans (4), y est la réponse attendue correspondante.

Une telle expression de la fonction de coût J est avantageuse. En effet, dans un cadre classique, la fonction de coût, notée J₀, est prise égale à l’entropie croisée. Or, la minimisation d’une telle fonction de coût J₀est un problème NP-difficile, ce qui n’est pas souhaitable.

Or, la fonction de pénalité Θ est une fonction positive, de sorte que J constitue une borne supérieure de J₀. En choisissant une fonction de pénalité Θ différentiable adéquate, le problème NP-difficile décrit ci-dessus laisse place à un problème différentiable (même si non nécessairement convexe) pour lequel une solution est susceptible d’être trouvée aisément au moyen de la méthode de descente de gradient, comme cela a été décrit précédemment.

La fonction de pénalité Θ est, par exemple, une fonction dont la valeur est d’autant plus faible que les variables-supports sont choisies dans les parties de l’ensemble les plus denses en vecteurs d’entrée x. Dans ce cas, une expression possible de la fonction de pénalité Θ est:

où est la norme euclidienne d’un vecteur a; et

, c’est-à-dire l’indice de l’exemple-support pour lequel la réponse du réseau de neurone 2 est la plus proche de la variable-support μ_i.

Une telle expression est avantageuse, dans la mesure où il est plus probable de trouver des variables-supports qui sont de bonnes approximations des exemples-supports dans les parties de l’ensemble les plus denses en vecteurs d’entrée x.

Une autre fonction de pénalité Θ est susceptible d’être obtenue en partant de l’expression (5), et en y incluant un terme traduisant un coût topologique pour les exemples-supports. L’expression (6) suivante est ainsi obtenue:

où η est un réel positif prédéterminé, de préférence supérieur ou égal à 0,3.

Une telle fonction de pénalité est avantageuse, dans la mesure où, garantissant une propagation aux plus proches voisins, est évitée une situation dans laquelle des exemples-supports pertinents ne sont jamais sélectionnés du fait d’un mauvais choix des variables-supports lors de l’étape de choix 10.

Une autre fonction de pénalité Θ est susceptible d’être obtenue en partant de l’expression (6), et en y incluant un terme de stabilité. L’expression suivante est ainsi obtenue:

où x_m _(x)désigne l’exemple-support x_cle plus proche d’un vecteur d’entrée x donné quelconque.

Une telle fonction de pénalité est avantageuse, dans la mesure où elle réduit le risque qu’une variable-support μ_isoit associée successivement (lors d’une sous-étape 16 de détermination décrite ultérieurement) à un exemple-support x_cdonné puis à l’un de ses voisins à chaque itération de l’étape de calcul 12.

Puis, au cours de la sous-étape 16 de détermination d’exemples-supports, l’ordinateur détermine, pour chaque variable-support μ_c _,ioptimisée, l’exemple-support x_c _,icorrespondant.

L’exemple-support x_c _,icorrespondant à une variable-support optimisée μ_c _,idonnée est égal au vecteur d’entrée x pour lequel la sortie correspondante ψ_θ(x) du réseau de neurones 2 est la plus proche de ladite variable-support optimisée μ_c _,iau regard d’une norme prédéterminée.

Avantageusement, si, au cours de la mise en œuvre de la méthode de descente de gradient pour optimiser les valeurs des variables-supports, un vecteur d’entrée x choisi pour la mise en œuvre de ladite optimisation conduit à une réponse ψ_θ(x) du réseau de neurones 2 qui est plus proche, au regard de la norme prédéterminée, d’une variable-support optimisée μ_c _,ique l’exemple-support associé x_c,i, alors la valeur dudit vecteur d’entrée x choisi est affectée à l’exemple-support associé x_c,i.

Puis, au cours d’une sous-étape 18 de mise à jour, l’ordinateur met à jour la fonction de prédiction f, à partir des exemples-supports x_cdéterminés.

Avantageusement, au cours de la sous-étape 18 de mise à jour, l’ordinateur met également à jour la fonction de prédiction f, à partir des vecteurs de pondération et/ou du vecteur de paramètres optimisés.

Puis, au cours de l’étape de décision 20, l’ordinateur détermine si un critère a été satisfait ou non.

Si le critère est satisfait, l’ordinateur cesse de mettre en œuvre l’étape de calcul 12. Sinon, l’ordinateur met de nouveau en œuvre l’étape de calcul 12.

Par exemple, le critère est satisfait lorsque la plus grande différence entre les variables-supports fournies par l’itération courante et par l’itération précédente de l’étape de calcul 12 est inférieure à un seuil prédéterminé.

Une fois le procédé de détermination de la fonction de prédiction exécuté, l’ordinateur est également configuré pour implémenter un procédé de traitement, par le réseau de neurones 2, d’au moins un vecteur à tester, chaque vecteur à tester étant de mêmes dimensions que les vecteurs d’entrée de l’ensemble d’apprentissage.

Plus précisément, l’ordinateur calcule une similarité, au regard d’un critère prédéterminé, entre le vecteur à tester et les exemples-supports x_cde l’ensemble-support C associé au réseau de neurones 2.

Dans ce cas, l’ordinateur est configuré pour générer une alerte si la plus grande similarité calculée est inférieur à un seuil de similarité prédéterminé.

Sinon, la fonction de prédiction est appliquée au vecteur à tester pour obtenir une prédiction sur la base dudit vecteur à tester.

Ceci est avantageux, dans la mesure où une telle alerte traduit le fait que le vecteur à tester est trop différent des exemples-supports pour conduire à un résultat susceptible d’être prédit et interprété par un observateur humain. La fiabilité du réseau de neurones 2 est ainsi accrue.

Claims

Procédé de détermination d’une fonction de prédiction (f) mettant en œuvre un réseau de neurones (2), la fonction de prédiction étant fonction d’un ensemble-support (C) comprenant M exemples-supports (x_c) choisis parmi N vecteurs d’entrée (x), chaque vecteur d’entrée (x) étant associé à une réponse attendue (y) correspondante, chaque vecteur d’entrée (x) et la réponse attendue (y) correspondante formant un couple d’un ensemble d’apprentissage (4) du réseau de neurones (2), M et N étant deux entiers naturels non nuls, M étant inférieur à N,
le procédé de détermination étant mis en œuvre par un ordinateur et comprenant les étapes:
- choix (10) aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties (ψ_θ(x)) du réseau de neurones (2);
- mise en œuvre d’un calcul (12) itératif comprenant les sous-étapes:
• optimisation (14) des variables-supports pour minimiser une fonction de coût prédéterminée, la fonction de coût dépendant des variables-supports, des vecteurs d’entrée (x) et d’une fonction de similarité prédéterminée;
• pour chaque variable-support optimisée, détermination (16) de l’exemple-support (x_c) correspondant, égal au vecteur d’entrée (x) pour lequel la sortie correspondante (ψ_θ(x_c)) du réseau de neurones (2) est la plus proche de la variable-support optimisée au regard d’une norme prédéterminée; et
• mise à jour, à partir des exemples-supports (x_c) déterminés, de la fonction de prédiction (f).
Procédé de détermination selon la revendication 1, dans lequel l’optimisation (14) des variables-supports comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût.
Procédé de détermination selon la revendication 2, dans lequel la mise en œuvre de la méthode de descente de gradient comprend le choix d’au moins un vecteur d’entrée (x), la détermination (16) l’exemple-support (x_c) comprenant, si une réponse du réseau de neurones (2) à l’au moins un vecteur d’entrée (x) choisi est plus proche d’une variable-support optimisée que l’exemple-support (x_c) associé au regard de la norme prédéterminée, l’affectation de l’au moins un vecteur d’entrée (x) choisi à l’exemple-support (x_c) associé à la variable-support optimisée.
Procédé de détermination selon l’une quelconque des revendications 1 à 3, dans lequel la fonction de prédiction (f) met en œuvre un vecteur de fonctions intermédiaires, chaque fonction intermédiaire étant égale à une somme de M fonctions de similarité pondérée par un vecteur de pondération correspondant, chaque fonction de similarité étant associée à un exemple-support (x_c) correspondant,
la fonction de coût dépendant également de chaque vecteur de pondération, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation (14) des variables-supports, une mise en œuvre d’une optimisation de chaque vecteur de pondération pour minimiser la fonction de coût prédéterminée.
Procédé de détermination selon la revendication 4, dans lequel l’optimisation de chaque vecteur de pondération comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût.
Procédé de détermination selon l’une quelconque des revendications 1 à 5, dans lequel la fonction de coût dépend également d’une fonction paramétrique représentative d’une sortie du réseau de neurones (2) en fonction des vecteurs d’entrée (x), la fonction paramétrique étant associée à un vecteur de paramètres correspondant, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation (14) des variables-supports, une mise en œuvre d’une optimisation du vecteur de paramètres associé à la fonction paramétrique pour minimiser la fonction de coût prédéterminée.
Procédé de détermination selon la revendication 6, dans lequel l’optimisation du vecteur de paramètres comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût.
Procédé de détermination selon l’une quelconque des revendications 1 à 7, dans lequel la fonction de coût s’écrit:

sous la contrainte
où J est la fonction de coût;
est une entropie croisée;
Θ est une fonction de pénalité sur les variables-supports;
μ est une liste de variables-supports;
α est une liste de vecteurs de pondération associés à la fonction de prédiction;
x_c _,iest un exemple-support quelconque de l’ensemble-support;
«arg» est la fonction «argument»;
«min» est la fonction «minimum»;
μ_c _,iest une i-ème variable-support optimisée;
ψ_θest une fonction paramétrique représentative d’une sortie du réseau de neurones (2) en fonction des vecteurs d’entrée (x);
θ est un vecteur de paramètres de la fonction paramétrique ψ_θ;
x est un vecteur d’entrée quelconque de l’ensemble des vecteurs d’entrée; et
γ est une constante positive prédéterminée.
Procédé de traitement d’un vecteur à tester, le vecteur à tester étant de mêmes dimensions que des vecteurs d’entrée (x) d’un ensemble d’apprentissage (4) associé à un réseau de neurones (2), le procédé de traitement comprenant les étapes:
- calcul d’une similarité, au regard d’un critère prédéterminé, entre le vecteur à tester et chaque exemple-support (x_c) d’un ensemble-support (C) associé au réseau de neurones (2) et déterminé par la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 8 de détermination d’une fonction de prédiction mettant en œuvre ledit réseau de neurones (2); et
- génération d’une alerte si la plus grande similarité calculée est inférieure à un seuil de similarité prédéterminé.