FR3103294A1 - Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé - Google Patents

Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé Download PDF

Info

Publication number
FR3103294A1
FR3103294A1 FR1912795A FR1912795A FR3103294A1 FR 3103294 A1 FR3103294 A1 FR 3103294A1 FR 1912795 A FR1912795 A FR 1912795A FR 1912795 A FR1912795 A FR 1912795A FR 3103294 A1 FR3103294 A1 FR 3103294A1
Authority
FR
France
Prior art keywords
support
function
vector
neural network
implementation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1912795A
Other languages
English (en)
Inventor
David Picard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ecole Nationale des Ponts et Chaussess ENPC
Original Assignee
Ecole Nationale des Ponts et Chaussess ENPC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecole Nationale des Ponts et Chaussess ENPC filed Critical Ecole Nationale des Ponts et Chaussess ENPC
Priority to FR1912795A priority Critical patent/FR3103294A1/fr
Priority to PCT/FR2020/052079 priority patent/WO2021094694A1/fr
Publication of FR3103294A1 publication Critical patent/FR3103294A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L’invention concerne un procédé de détermination d’une fonction de prédiction (f) mettant en œuvre un réseau de neurones (2) et fonction de M exemples-supports (xc) choisis parmi N vecteurs d’entrée (x), le procédé comprenant les étapes : - choix (10) aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties du réseau de neurones ; - mise en œuvre d’un calcul (12) itératif comprenant : • optimisation (14) des variables-supports pour minimiser une fonction de coût prédéterminée dépendant des variables-supports, des vecteurs d’entrée et d’une fonction de similarité prédéterminée ; • pour chaque variable-support optimisée, détermination (16) de l’exemple-support (xc) correspondant, égal au vecteur d’entrée (x) pour lequel la sortie correspondante (ψθ(xc)) du réseau de neurones est la plus proche de la variable-support optimisée au regard d’une norme prédéterminée ; et • mise à jour, à partir des exemples-supports déterminés, de la fonction de prédiction. Figure pour l’abrégé : figure 2

Description

Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé
La présente invention concerne un procédé de détermination mettant en œuvre un réseau de neurones. L’invention concerne également un procédé de traitement d’un vecteur à tester.
L’invention s’applique au domaine du traitement de données, en particulier au moyen de réseaux de neurones.
Il est connu de recourir à des réseaux de neurones pour le traitement de données, par exemple pour l’analyse d’images.
Parmi ces réseaux de neurones, les réseaux de neurones convolutifs (généralement désignés par l’acronyme CNN, de l’anglais «Convolutional Neural Networks») ont acquis une grande popularité en raison de leurs excellentes performances dans les tâches liées à la vision, telles que la classification d’images, la détection d'objets, la segmentation d'images, l’annotation d'images ou la réponse à des questions visuelles.
Toutefois, de tels réseaux de neurones ne donnent pas entière satisfaction.
En effet, un nombre considérable d’exemples est généralement utilisé lors de l’apprentissage de tels réseaux de neurones convolutifs. Il en résulte que les entrées d’un CNN sont liées à ses sorties par un très grand nombre de paramètres. Par conséquent, il est généralement difficile, voire impossible, pour un humain de déterminer les raisons pour lesquelles une entrée donnée conduit le CNN à fournir un résultat correspondant, ou encore à prédire une sortie que délivrerait le CNN à partir d’une entrée qui lui est fournie.
Une telle incapacité à interpréter et prédire les résultats fournis par les réseaux de neurones, en particuliers les réseaux de neurones convolutifs, constitue un obstacle majeur à leur adoption dans des environnements critiques où la responsabilité du concepteur est mise en jeu. Par exemple, de tels environnements critiques se rapportent au domaine de la santé, de la sécurité, ou encore des véhicules autonomes.
Un but de l’invention est donc de proposer un procédé de détermination d’une fonction de prédiction d’un réseau de neurones en vue de permettre une interprétation des résultats fournis par un réseau de neurones, et de définir un domaine de vecteurs d’entrée pour lesquels un comportement du réseau de neurones est garanti.
A cet effet, l’invention a pour objet un procédé du type précité, dans lequel la fonction de prédiction est fonction d’un ensemble-support comprenant M exemples-supports choisis parmi N vecteurs d’entrée, chaque vecteur d’entrée étant associé à une réponse attendue correspondante, chaque vecteur d’entrée et la réponse attendue correspondante formant un couple d’un ensemble d’apprentissage du réseau de neurones, M et N étant deux entiers naturels non nuls, M étant inférieur à N,
le procédé de détermination étant mis en œuvre par un ordinateur et comprenant les étapes:
- choix aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties du réseau de neurones;
- mise en œuvre d’un calcul itératif comprenant les sous-étapes:
• optimisation des variables-supports pour minimiser une fonction de coût prédéterminée, la fonction de coût dépendant des variables-supports, des vecteurs d’entrée et d’une fonction de similarité prédéterminée;
• pour chaque variable-support optimisée, détermination de l’exemple-support correspondant, égal au vecteur d’entrée pour lequel la sortie correspondante du réseau de neurones est la plus proche de la variable-support optimisée au regard d’une norme prédéterminée; et
• mise à jour, à partir des exemples-supports déterminés, de la fonction de prédiction.
En effet, un tel procédé autorise la détermination d’un ensemble d’exemples-supports pour la fonction de prédiction. De tels exemples-supports forment un ensemble de vecteurs d’entrée de référence, tels qu’une réponse du réseau de neurones est estimée de façon satisfaisante à partir d’une mesure de similarité entre chacun des exemples-supports et un vecteur d’entrée quelconque pris dans un ensemble de confiance dont les limites dépendent des exemples-supports.
Dans ce cas, l’interprétation d’une décision prise par le réseau de neurones revient à déterminer les exemples-supports ayant le plus contribué à la décision, ce qui est particulièrement avantageux: l’interprétation et la compréhension, par un observateur humain, d’une décision prise par un réseau de neurones (en particulier un CNN) est ainsi rendue possible grâce à l’invention.
Il ressort également de ce qui précède que l’ensemble de confiance forme un domaine de vecteurs d’entrée pour lesquels il est possible de garantir un comportement du réseau de neurones au regard de critères préalablement établis. Par exemple, le résultat d’un calcul de similarité entre un vecteur d’entrée quelconque et les exemples-supports est susceptible d’être utilisé comme une mesure de confiance dans la prédiction réalisée par le réseau de neurones à partir du vecteur d’entrée, et autorise la détection de prédictions hors champ, c’est-à-dire des prédictions fondées sur des vecteurs d’entrée trop dissimilaires des vecteurs d’entrée de l’ensemble d’apprentissage.
En outre, par le choix de la valeur de l’entier M, l’utilisateur est apte à contraindre le nombre d’exemples-supports, sans imposer de limite à la taille de l’ensemble d’apprentissage. Ceci est avantageux, dans la mesure où imposer une limite à la taille de l’ensemble d’apprentissage reviendrait à empêcher le réseau de neurones d’évoluer postérieurement à son apprentissage.
Suivant d’autres aspects avantageux de l’invention, le procédé de détermination comporte une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles:
- l’optimisation des variables-supports comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût;
- la mise en œuvre de la méthode de descente de gradient comprend le choix d’au moins un vecteur d’entrée, la détermination l’exemple-support comprenant, si une réponse du réseau de neurones à l’au moins un vecteur d’entrée choisi est plus proche d’une variable-support optimisée que l’exemple-support associé au regard de la norme prédéterminée, l’affectation de l’au moins un vecteur d’entrée choisi à l’exemple-support associé à la variable-support optimisée;
- la fonction de prédiction met en œuvre un vecteur de fonctions intermédiaires, chaque fonction intermédiaire étant égale à une somme de M fonctions de similarité pondérée par un vecteur de pondération correspondant, chaque fonction de similarité étant associée à un exemple-support correspondant, la fonction de coût dépendant également de chaque vecteur de pondération, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation des variables-supports, une mise en œuvre d’une optimisation de chaque vecteur de pondération pour minimiser la fonction de coût prédéterminée;
- l’optimisation de chaque vecteur de pondération comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût;
- la fonction de coût dépend également d’une fonction paramétrique représentative d’une sortie du réseau de neurones en fonction des vecteurs d’entrée, la fonction paramétrique étant associée à un vecteur de paramètres correspondant, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation des variables-supports, une mise en œuvre d’une optimisation du vecteur de paramètres associé à la fonction paramétrique pour minimiser la fonction de coût prédéterminée;
- l’optimisation du vecteur de paramètres comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût;
- la fonction de coût s’écrit:
sous la contrainte
où J est la fonction de coût;
est une entropie croisée;
Θ est une fonction de pénalité sur les variables-supports;
μ est une liste de variables-supports;
α est une liste de vecteurs de pondération associés à la fonction de prédiction;
xc ,iest un exemple-support quelconque de l’ensemble-support;
«arg» est la fonction «argument»;
«min» est la fonction «minimum»;
μc ,iest une i-ème variable-support optimisée;
ψθest une fonction paramétrique représentative d’une sortie du réseau de neurones en fonction des vecteurs d’entrée;
θ est un vecteur de paramètres de la fonction paramétrique ψθ;
x est un vecteur d’entrée quelconque de l’ensemble des vecteurs d’entrée; et
γ est une constante positive prédéterminée.
L’invention concerne également un procédé de traitement d’un vecteur à tester, le vecteur à tester étant de mêmes dimensions que des vecteurs d’entrée d’un ensemble d’apprentissage associé à un réseau de neurones, le procédé de traitement comprenant les étapes:
- calcul d’une similarité, au regard d’un critère prédéterminé, entre le vecteur à tester et chaque exemple-support d’un ensemble-support associé au réseau de neurones et déterminé par la mise en œuvre du procédé tel que défini ci-dessus de détermination d’une fonction de prédiction mettant en œuvre ledit réseau de neurones; et
- génération d’une alerte si la plus grande similarité calculée est inférieure à un seuil de similarité prédéterminé.
L’invention sera mieux comprise à l’aide de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif et faite en se référant aux dessins annexés sur lesquels:
la figure 1 est une représentation schématique d’une fonction de prédiction mettant en œuvre un réseau de neurones; et
la figure 2 est un ordinogramme illustrant la mise en œuvre du procédé de détermination selon l’invention.
Le procédé de détermination selon l’invention va être décrit en référence aux figures 1 et 2. Un tel procédé est mis en œuvre par un ordinateur.
Sur la figure 1 est représenté un réseau de neurones 2, le réseau de neurones 2 ayant été soumis à un apprentissage au moyen d’un ensemble d’apprentissage 4.
L’ensemble d’apprentissage 4 comporte N couples (x, y), N étant un entier naturel non nul. Chaque couple comprend un vecteur d’entrée, noté x, et une réponse attendue correspondante, notée y.
Les vecteurs d’entrée x de l’ensemble d’apprentissage forment un ensemble noté , correspondant, sur la figure 1, à la partie unie de l’ensemble d’apprentissage 4. En outre, l’ensemble formé par les réponses attendues y correspond à la partie hachurée de l’ensemble d’apprentissage 4, sur cette même figure.
Le procédé de détermination selon l’invention vise, notamment, à déterminer, au sein de l’ensemble des vecteurs d’entrée x, un sous-ensemble C, dit «ensemble-support», comprenant M exemples-supports, notés xc. M est un entier naturel non nul inférieur N, avantageusement au moins un ordre de grandeur inférieur à N.
La valeur de l’entier M est, de préférence, fixée par l’utilisateur avant la mise en œuvre du procédé de détermination objet de l’invention.
En outre, le procédé de détermination selon l’invention vise à déterminer une fonction de prédiction, notée f, mettant en œuvre le réseau de neurones 2. Une telle fonction de prédiction f associe, à un vecteur d’entrée quelconque donné, une réponse (également appelée «prédiction») correspondante. En particulier, pour un vecteur d’entrée x appartenant à l’ensemble , la prédiction fournie par la fonction de prédiction est la réponse attendue y correspondant audit vecteur d’entrée x.
Plus précisément, la fonction de prédiction f applique une opération mathématique (portant la référence 5 sur la figure 1) à des sorties du réseau de neurones 2 pour déterminer une prédiction.
La fonction de prédiction dépend des exemples-supports, et présente une expression générale connuea priori.
Une expression particulière de la fonction de prédiction f est donnée par:
où σ est une fonction d’activation; et
h est un vecteur de D fonctions intermédiaires, D étant un entier naturel non nul prédéterminé.
En particulier, le vecteur h de fonctions intermédiaires s’exprime selon:
où αi ,jest la j-ème composante du i-ème vecteur de pondération d’une liste α de D vecteurs de pondération;
k est une fonction de similarité prédéterminée; et
ψθest une fonction paramétrique, définie par un vecteur de paramètres θ, représentative d’une sortie du réseau de neurone 2 en fonction des vecteurs d’entrée x.
L’expression (2) traduit le fait que, dans cet exemple, chaque fonction intermédiaire est égale à une somme de M fonctions de similarité, pondérée par un vecteur de pondération αicorrespondant, chaque fonction de similarité étant associée à un exemple-support xc ,jcorrespondant.
Une fonction de similarité associée à un exemple-support donné est une fonction dont le résultat est d’autant plus grand que son argument est similaire audit exemple-support. Par exemple, la fonction de similarité k est un noyau gaussien, ou encore le produit scalaire ou le cosinus de l’angle entre ψθ(xc) et ψθ(x) lorsque ψθ(x) est un vecteur.
Selon un exemple particulier, ψθ(x) = x.
Comme cela apparaît sur la figure 2, le procédé de détermination selon l’invention comprend une étape de choix 10 et une étape de calcul 12 itérative. L’étape de calcul 12 est mise en œuvre tant qu’un critère prédéterminé n’est pas atteint (étape de décision 20).
Plus précisément, au cours de l’étape de choix 10, l’ordinateur choisit aléatoirement M variables-supports, notées μi, chacune de mêmes dimensions que des sorties du réseau de neurones 2. La liste des M variables-supports est notée μ.
En particulier, chaque variable-support μiest choisie au sein d’un ensemble prédéterminé, par exemple tel que la plus grande distance, au regard d’une norme prédéterminée, entre une variable-support μiquelconque et les vecteurs d’entrée x soit plus petite qu’une distance maximale prédéterminée. La norme prédéterminée est, par exemple, la norme euclidienne.
Puis, l’ordinateur met en œuvre, de façon itérative, l’étape de calcul 12.
Plus précisément, durant l’étape de calcul 12, au cours d’une sous-étape d’optimisation 14, l’ordinateur optimise les variables-supports μipour minimiser une fonction de coût prédéterminée.
La liste μ des variables-supports à optimiser correspond:
- à la liste μ des variables-supports choisie lors l’étape de choix 10; ou,
- lorsque l’étape de calcul 12 a déjà été mise en œuvre au cours d’une itération précédente, à une liste μcde variables-supports optimisées calculée au cours de ladite itération précédente de l’étape de calcul 12.
La fonction de coût, noté J, dépend des variables-supports μi, des vecteurs d’entrée x et de la fonction de similarité k prédéterminée.
Avantageusement, au cours de la sous-étape d’optimisation 14, l’ordinateur optimise les variables-supports μipar la mise en œuvre d’une méthode de descente de gradient.
Plus précisément, et de façon connue, au moins un vecteur d’entrée x est choisi. Puis, le gradient de la fonction de coût J par rapport aux variables-supports est calculé en chaque vecteur d’entrée x choisi. Puis, pour chaque variable-support μi, une variable-support optimisée correspondante, notée μc ,i, est obtenue en retranchant à ladite variable-support μiune fraction du gradient calculé en l’un des vecteurs d’entrée x.
Avantageusement, une telle méthode de descente de gradient est une méthode dite «stochastique». Ceci signifie que chaque vecteur d’entrée x destiné à la mise en œuvre de la méthode de descente de gradient est choisi aléatoirement.
De préférence, la fonction de prédiction f implémente le vecteur h de fonctions intermédiaires, conformément à la relation (1). Dans ce cas, la fonction de coût J dépend également du vecteur h de fonctions intermédiaires.
En outre, dans ce cas, la sous-étape d’optimisation 14 comprend également une optimisation de chacun des D vecteurs de pondération pour minimiser la fonction de coût J.
De préférence, l’optimisation de chaque vecteur de pondération comprend la mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût J, de préférence une méthode de descente de gradient stochastique.
De préférence encore, la fonction de coût J dépend également de la fonction paramétrique ψθdécrite précédemment.
Dans ce cas, la sous-étape d’optimisation 14 comprend également une optimisation du vecteur de paramètres θ pour minimiser la fonction de coût J.
Ceci est avantageux, dans la mesure où l’optimisation du vecteur de paramètres θ se traduit par une meilleure adéquation de la réponse du réseau de neurones 2 à la fonction de prédiction f.
De préférence, l’optimisation du vecteur de paramètres θ comprend la mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût J, de préférence une méthode de descente de gradient stochastique.
A titre d’exemple, la fonction de coût J s’écrit:
sous la contrainte
est une entropie croisée;
Θ est une fonction de pénalité positive sur les variables-supports;
«arg» est la fonction «argument»;
«min» est la fonction «minimum»;
µc ,iest une variable-support optimisée quelconque; et
γ est une constante positive prédéterminée.
Une expression classique pour l’entropie croisée est:
où «log» est la fonction logarithme et, pour tout vecteur d’entrée x dans (4), y est la réponse attendue correspondante.
Une telle expression de la fonction de coût J est avantageuse. En effet, dans un cadre classique, la fonction de coût, notée J0, est prise égale à l’entropie croisée. Or, la minimisation d’une telle fonction de coût J0est un problème NP-difficile, ce qui n’est pas souhaitable.
Or, la fonction de pénalité Θ est une fonction positive, de sorte que J constitue une borne supérieure de J0. En choisissant une fonction de pénalité Θ différentiable adéquate, le problème NP-difficile décrit ci-dessus laisse place à un problème différentiable (même si non nécessairement convexe) pour lequel une solution est susceptible d’être trouvée aisément au moyen de la méthode de descente de gradient, comme cela a été décrit précédemment.
La fonction de pénalité Θ est, par exemple, une fonction dont la valeur est d’autant plus faible que les variables-supports sont choisies dans les parties de l’ensemble les plus denses en vecteurs d’entrée x. Dans ce cas, une expression possible de la fonction de pénalité Θ est:
est la norme euclidienne d’un vecteur a; et
, c’est-à-dire l’indice de l’exemple-support pour lequel la réponse du réseau de neurone 2 est la plus proche de la variable-support μi.
Une telle expression est avantageuse, dans la mesure où il est plus probable de trouver des variables-supports qui sont de bonnes approximations des exemples-supports dans les parties de l’ensemble les plus denses en vecteurs d’entrée x.
Une autre fonction de pénalité Θ est susceptible d’être obtenue en partant de l’expression (5), et en y incluant un terme traduisant un coût topologique pour les exemples-supports. L’expression (6) suivante est ainsi obtenue:
où η est un réel positif prédéterminé, de préférence supérieur ou égal à 0,3.
Une telle fonction de pénalité est avantageuse, dans la mesure où, garantissant une propagation aux plus proches voisins, est évitée une situation dans laquelle des exemples-supports pertinents ne sont jamais sélectionnés du fait d’un mauvais choix des variables-supports lors de l’étape de choix 10.
Une autre fonction de pénalité Θ est susceptible d’être obtenue en partant de l’expression (6), et en y incluant un terme de stabilité. L’expression suivante est ainsi obtenue:
où xm (x)désigne l’exemple-support xcle plus proche d’un vecteur d’entrée x donné quelconque.
Une telle fonction de pénalité est avantageuse, dans la mesure où elle réduit le risque qu’une variable-support μisoit associée successivement (lors d’une sous-étape 16 de détermination décrite ultérieurement) à un exemple-support xcdonné puis à l’un de ses voisins à chaque itération de l’étape de calcul 12.
Puis, au cours de la sous-étape 16 de détermination d’exemples-supports, l’ordinateur détermine, pour chaque variable-support μc ,ioptimisée, l’exemple-support xc ,icorrespondant.
L’exemple-support xc ,icorrespondant à une variable-support optimisée μc ,idonnée est égal au vecteur d’entrée x pour lequel la sortie correspondante ψθ(x) du réseau de neurones 2 est la plus proche de ladite variable-support optimisée μc ,iau regard d’une norme prédéterminée.
Avantageusement, si, au cours de la mise en œuvre de la méthode de descente de gradient pour optimiser les valeurs des variables-supports, un vecteur d’entrée x choisi pour la mise en œuvre de ladite optimisation conduit à une réponse ψθ(x) du réseau de neurones 2 qui est plus proche, au regard de la norme prédéterminée, d’une variable-support optimisée μc ,ique l’exemple-support associé xc,i, alors la valeur dudit vecteur d’entrée x choisi est affectée à l’exemple-support associé xc,i.
Puis, au cours d’une sous-étape 18 de mise à jour, l’ordinateur met à jour la fonction de prédiction f, à partir des exemples-supports xcdéterminés.
Avantageusement, au cours de la sous-étape 18 de mise à jour, l’ordinateur met également à jour la fonction de prédiction f, à partir des vecteurs de pondération et/ou du vecteur de paramètres optimisés.
Puis, au cours de l’étape de décision 20, l’ordinateur détermine si un critère a été satisfait ou non.
Si le critère est satisfait, l’ordinateur cesse de mettre en œuvre l’étape de calcul 12. Sinon, l’ordinateur met de nouveau en œuvre l’étape de calcul 12.
Par exemple, le critère est satisfait lorsque la plus grande différence entre les variables-supports fournies par l’itération courante et par l’itération précédente de l’étape de calcul 12 est inférieure à un seuil prédéterminé.
Une fois le procédé de détermination de la fonction de prédiction exécuté, l’ordinateur est également configuré pour implémenter un procédé de traitement, par le réseau de neurones 2, d’au moins un vecteur à tester, chaque vecteur à tester étant de mêmes dimensions que les vecteurs d’entrée de l’ensemble d’apprentissage.
Plus précisément, l’ordinateur calcule une similarité, au regard d’un critère prédéterminé, entre le vecteur à tester et les exemples-supports xcde l’ensemble-support C associé au réseau de neurones 2.
Dans ce cas, l’ordinateur est configuré pour générer une alerte si la plus grande similarité calculée est inférieur à un seuil de similarité prédéterminé.
Sinon, la fonction de prédiction est appliquée au vecteur à tester pour obtenir une prédiction sur la base dudit vecteur à tester.
Ceci est avantageux, dans la mesure où une telle alerte traduit le fait que le vecteur à tester est trop différent des exemples-supports pour conduire à un résultat susceptible d’être prédit et interprété par un observateur humain. La fiabilité du réseau de neurones 2 est ainsi accrue.

Claims (9)

  1. Procédé de détermination d’une fonction de prédiction (f) mettant en œuvre un réseau de neurones (2), la fonction de prédiction étant fonction d’un ensemble-support (C) comprenant M exemples-supports (xc) choisis parmi N vecteurs d’entrée (x), chaque vecteur d’entrée (x) étant associé à une réponse attendue (y) correspondante, chaque vecteur d’entrée (x) et la réponse attendue (y) correspondante formant un couple d’un ensemble d’apprentissage (4) du réseau de neurones (2), M et N étant deux entiers naturels non nuls, M étant inférieur à N,
    le procédé de détermination étant mis en œuvre par un ordinateur et comprenant les étapes:
    - choix (10) aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties (ψθ(x)) du réseau de neurones (2);
    - mise en œuvre d’un calcul (12) itératif comprenant les sous-étapes:
    • optimisation (14) des variables-supports pour minimiser une fonction de coût prédéterminée, la fonction de coût dépendant des variables-supports, des vecteurs d’entrée (x) et d’une fonction de similarité prédéterminée;
    • pour chaque variable-support optimisée, détermination (16) de l’exemple-support (xc) correspondant, égal au vecteur d’entrée (x) pour lequel la sortie correspondante (ψθ(xc)) du réseau de neurones (2) est la plus proche de la variable-support optimisée au regard d’une norme prédéterminée; et
    • mise à jour, à partir des exemples-supports (xc) déterminés, de la fonction de prédiction (f).
  2. Procédé de détermination selon la revendication 1, dans lequel l’optimisation (14) des variables-supports comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût.
  3. Procédé de détermination selon la revendication 2, dans lequel la mise en œuvre de la méthode de descente de gradient comprend le choix d’au moins un vecteur d’entrée (x), la détermination (16) l’exemple-support (xc) comprenant, si une réponse du réseau de neurones (2) à l’au moins un vecteur d’entrée (x) choisi est plus proche d’une variable-support optimisée que l’exemple-support (xc) associé au regard de la norme prédéterminée, l’affectation de l’au moins un vecteur d’entrée (x) choisi à l’exemple-support (xc) associé à la variable-support optimisée.
  4. Procédé de détermination selon l’une quelconque des revendications 1 à 3, dans lequel la fonction de prédiction (f) met en œuvre un vecteur de fonctions intermédiaires, chaque fonction intermédiaire étant égale à une somme de M fonctions de similarité pondérée par un vecteur de pondération correspondant, chaque fonction de similarité étant associée à un exemple-support (xc) correspondant,
    la fonction de coût dépendant également de chaque vecteur de pondération, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation (14) des variables-supports, une mise en œuvre d’une optimisation de chaque vecteur de pondération pour minimiser la fonction de coût prédéterminée.
  5. Procédé de détermination selon la revendication 4, dans lequel l’optimisation de chaque vecteur de pondération comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût.
  6. Procédé de détermination selon l’une quelconque des revendications 1 à 5, dans lequel la fonction de coût dépend également d’une fonction paramétrique représentative d’une sortie du réseau de neurones (2) en fonction des vecteurs d’entrée (x), la fonction paramétrique étant associée à un vecteur de paramètres correspondant, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l’optimisation (14) des variables-supports, une mise en œuvre d’une optimisation du vecteur de paramètres associé à la fonction paramétrique pour minimiser la fonction de coût prédéterminée.
  7. Procédé de détermination selon la revendication 6, dans lequel l’optimisation du vecteur de paramètres comprend une mise en œuvre d’une méthode de descente de gradient appliquée à la fonction de coût.
  8. Procédé de détermination selon l’une quelconque des revendications 1 à 7, dans lequel la fonction de coût s’écrit:

    sous la contrainte
    où J est la fonction de coût;
    est une entropie croisée;
    Θ est une fonction de pénalité sur les variables-supports;
    μ est une liste de variables-supports;
    α est une liste de vecteurs de pondération associés à la fonction de prédiction;
    xc ,iest un exemple-support quelconque de l’ensemble-support;
    «arg» est la fonction «argument»;
    «min» est la fonction «minimum»;
    μc ,iest une i-ème variable-support optimisée;
    ψθest une fonction paramétrique représentative d’une sortie du réseau de neurones (2) en fonction des vecteurs d’entrée (x);
    θ est un vecteur de paramètres de la fonction paramétrique ψθ;
    x est un vecteur d’entrée quelconque de l’ensemble des vecteurs d’entrée; et
    γ est une constante positive prédéterminée.
  9. Procédé de traitement d’un vecteur à tester, le vecteur à tester étant de mêmes dimensions que des vecteurs d’entrée (x) d’un ensemble d’apprentissage (4) associé à un réseau de neurones (2), le procédé de traitement comprenant les étapes:
    - calcul d’une similarité, au regard d’un critère prédéterminé, entre le vecteur à tester et chaque exemple-support (xc) d’un ensemble-support (C) associé au réseau de neurones (2) et déterminé par la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 8 de détermination d’une fonction de prédiction mettant en œuvre ledit réseau de neurones (2); et
    - génération d’une alerte si la plus grande similarité calculée est inférieure à un seuil de similarité prédéterminé.
FR1912795A 2019-11-15 2019-11-15 Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé Pending FR3103294A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1912795A FR3103294A1 (fr) 2019-11-15 2019-11-15 Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé
PCT/FR2020/052079 WO2021094694A1 (fr) 2019-11-15 2020-11-13 Procédé de détermination d'une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1912795A FR3103294A1 (fr) 2019-11-15 2019-11-15 Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé
FR1912795 2019-11-15

Publications (1)

Publication Number Publication Date
FR3103294A1 true FR3103294A1 (fr) 2021-05-21

Family

ID=72088151

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1912795A Pending FR3103294A1 (fr) 2019-11-15 2019-11-15 Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé

Country Status (2)

Country Link
FR (1) FR3103294A1 (fr)
WO (1) WO2021094694A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116165646B (zh) * 2023-02-22 2023-08-11 哈尔滨工业大学 基于分割网络的虚警可控雷达目标检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147357A1 (en) * 2017-11-16 2019-05-16 Red Hat, Inc. Automatic detection of learning model drift

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147357A1 (en) * 2017-11-16 2019-05-16 Red Hat, Inc. Automatic detection of learning model drift

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SERCAN O ARIK ET AL: "ProtoAttend: Attention-Based Prototypical Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 February 2019 (2019-02-17), XP081493777 *
THILO SPINNER ET AL: "explAIner: A Visual Analytics Framework for Interactive and Explainable Machine Learning Search Space Exploration Model Quality Monitoring Comparative Analytics Data Shift Scoring XAI Strategies Knowledge Generation Provenance Tracking Reporting & Trust Building", 2 August 2019 (2019-08-02), XP055685353, Retrieved from the Internet <URL:https://bib.dbvis.de/uploadedFiles/2019-08-02paper.pdf> [retrieved on 20200414] *

Also Published As

Publication number Publication date
WO2021094694A1 (fr) 2021-05-20

Similar Documents

Publication Publication Date Title
EP1877826B1 (fr) Détecteur séquentiel markovien
US11669723B2 (en) Data object classification using an optimized neural network
WO2020208153A1 (fr) Procede de definition d&#39;un chemin
FR3103294A1 (fr) Procédé de détermination d’une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé
WO2023075885A1 (fr) Débruitage de données d&#39;image de profondeur à l&#39;aide de réseaux neuronaux
EP1792278B1 (fr) Procede de detection et de pistage de cibles ponctuelles, dans un systeme de surveillance optronique
CN111950251A (zh) 测量给定ai任务的数据集的相似性的方法
EP2980529B1 (fr) Procede d&#39;estimation de la distance d&#39;un objet a un systeme d&#39;imagerie
EP3660748A1 (fr) Procédé d&#39;analyse d&#39;un jeu de paramètres d&#39;un réseau de neurones en vue d&#39;obtenir une amélioration technique, par exemple un gain en mémoire
EP4012620A1 (fr) Méthode d&#39;apprentissage automatique par transfert
EP4242921A1 (fr) Procédé, programme d&#39;ordinateur et dispositif d&#39;entrainement d&#39;un réseau neuronal convolutif à architecture dynamique pour la segmentation sémantique d&#39;image
FR3123748A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
EP3488383B1 (fr) Procede et dispositif d&#39;aide a la navigation d&#39;un vehicule
FR3039677A1 (fr) Procede de conception de pieces mecaniques, notamment d&#39;aubes de turbomachine
EP3140677A2 (fr) Procédé de traitement d&#39;images sismiques
FR3080932A1 (fr) Procede de generation automatique de reseaux de neurones artificiels
Arlot Contributions to statistical learning theory: estimator selection and change-point detection
US20230125150A1 (en) Augmentation of testing or training sets for machine learning models
EP3920101A1 (fr) Methode de reduction de la taille d&#39;un reseau de neurones artificiel
EP4012619A1 (fr) Méthode de compression d&#39;un réseau de neurones artificiel
Samii et al. Iterative learning: Leveraging the computer as an on-demand expert artist
FR3135342A1 (fr) Procédé d’identification d’un joint d’étanchéité torique sur un plan technique et produit programme associé.
FR3136299A1 (fr) Procédé d’optimisation des hyperparamètres d’un modèle d’apprentissage automatique
EP4300129A1 (fr) Procede de regroupement de descriptions de formes d&#39;ondes
WO2021245227A1 (fr) Procédé de génération d&#39;un système d&#39;aide à la décision et systèmes associés

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210521

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5