EP3815001A1

EP3815001A1 - Procede de modelisation pour le controle des resultats fournis par un reseau de neurones artificiels et autres procedes associes

Info

Publication number: EP3815001A1
Application number: EP19733051.7A
Authority: EP
Inventors: Benoît SCHMAUCH; Johan FERRET; Nicolas MERIC
Original assignee: Dreamquark
Current assignee: Dreamquark
Priority date: 2018-06-29
Filing date: 2019-06-28
Publication date: 2021-05-05
Also published as: FR3083354A1; WO2020002573A1; SG11202012987TA; CA3104759A1; US20210279526A1

Abstract

Un aspect de l'invention concerne un procédé de modélisation pour le contrôle des résultats fournis par un réseau de neurones artificiels comportant les étapes suivantes : - Générer un réseau de neurones artificiels; - Entraîner le réseau de neurones artificiels sur une base de données d'entraînement; - Tester le réseau de neurones artificiels sur au moins une donnée de test dépendant d'une pluralité de variables v_i; de manière à obtenir un résultat R par donnée de test, le résultat R dépendant des variables v_i; - Pour chaque résultat R : · Approximer par un modèle linéaire une première fonction F₁ dépendant uniquement du résultat R pour obtenir une deuxième fonction F₂, la première fonction F₁ et la deuxième fonction F₂ dépendant des variables v_i; · Simplifier la deuxième fonction F₂pour obtenir une troisième fonction F₃ dépendant d'un nombre plus réduit de variables v_i; · Appliquer à la troisième fonction F₃ la fonction inverse de la première fonction F₁ pour obtenir un modèle de fonctionnement du réseau de neurones.

Description

PROCEDE DE MODELISATION POUR LE CONTROLE DES RESULTATS FOURNIS PAR UN RESEAU DE NEURONES ARTIFICIELS ET AUTRES

PROCEDES ASSOCIES

DOMAINE TECHNIQUE DE L’INVENTION

Le domaine technique de l’invention est celui des réseaux de neurones artificiels.

La présente invention concerne un procédé permettant le contrôle des résultats fournis par un réseau de neurones artificiels et plus particulièrement un procédé de modélisation pour le contrôle des résultats fournis par un réseau de neurones artificiels. La présente invention concerne également un procédé de contrôle des résultats fournis par un réseau de neurones artificiels, un procédé de comparaison des performances de deux réseaux de neurones artificiels, un procédé d’analyse d’une prise de décision d’un réseau de neurones artificiels, un dispositif et un produit-programme d’ordinateur mettant en oeuvre de tels procédés et un support d’enregistrement du produit-programme d’ordinateur.

ARRIERE-PLAN TECHNOLOGIQUE DE L’INVENTION

Les réseaux de neurones ou réseaux de neurones artificiels constituent le principal outil de l’apprentissage profond ou deep learning qui tente de modéliser des données afin d’être capable par la suite d’effectuer des tâches spécifiques avec de nouvelles données, comme des tâches de classification ou de détection. Pour cela, un réseau de neurones passe par une phase d'entraînement ou phase d’apprentissage pendant laquelle il apprend en parcourant sur plusieurs itérations une base de données d’entraînement puis par une phase de généralisation pendant laquelle il réalise, sur une base de données de généralisation, la tâche pour laquelle il a été entraîné.

Un réseau de neurones est un algorithme complexe, faisant intervenir plusieurs milliers - voire millions de paramètres dans sa prise de décision. Si cette complexité est nécessaire pour que le réseau de neurones ait la capacité de détecter des structures dans des données, elle limite l’interprétation qui peut être faite des résultats par un utilisateur, l’empêchant de contrôler leur pertinence.

Par exemple, dans le cas de la détection de personnes dans une image, on fournit en entrée une image au réseau de neurones et celui-ci fournit idéalement en sortie la même image dans laquelle il a encadré les personnes. Le réseau de neurones peut fournir en sortie l’image dans laquelle il aura bien encadré toutes les personnes présentes - ce qui suggérera à l’utilisateur que le réseau de neurones est performant - sans pour autant que les paramètres qu’il a utilisés pour détecter les personnes soient tous pertinents. Par exemple, si toutes les images qui ont été fournies au réseau de neurones lors de son apprentissage représentent une personne sur un fond de ciel bleu, le réseau de neurones aura pu choisir de baser son résultat notamment sur la couleur du fond et non uniquement sur les caractéristiques propres à une personne. Le réseau de neurones détecte alors très bien les personnes sur un fond bleu mais sera incapable de détecter une personne sur un fond rouge. Dans ce cas précis, le réseau de neurones n’est pas adapté à la détection de personnes. Pourtant, l’utilisateur aurait pu conclure le contraire sur la base des résultats fournis par le réseau de neurones sur les images avec un fond bleu.

Dans le domaine du traitement des images, il existe des outils visuels permettant d’afficher les zones de l’image sur la base desquelles le réseau de neurones a pris sa décision. Cependant, ces outils ne sont pas adaptés à d’autres types de données, comme des enregistrements sonores ou des données biologiques.

Un autre exemple serait le cas où l’utilisateur a deux réseaux de neurones différents présentant des performances similaires sur une base de test et où il veut déterminer celui des deux réseaux de neurones qui utilise dans sa prise de décision des variables préférées par l’utilisateur. Les variables préférées sont par exemple des variables plus facilement interprétables. Par exemple, dans le cas de la classification d’animaux en deux classes, ours polaire et ours grizzly, à partir de données comprenant par exemple la couleur du pelage, le type d’alimentation, l’âge de l’animal, la taille de l’animal etc., une variable préférée de l’utilisateur pourrait être la couleur du pelage puisqu’il s’agit de la différence la plus évidente entre les deux espèces. Les deux réseaux de neurones peuvent tous les deux présenter les mêmes performances et classifier correctement la donnée mais l’utilisateur préférera utiliser dans son application le premier réseau de neurones qui utilise principalement la couleur du pelage et dont le fonctionnement est donc plus facilement appréhendable que le deuxième réseau de neurones qui utilise également l’âge de l’animal et sa taille pour conclure.

Ainsi, quand un réseau de neurones est impliqué dans une prise de décision pouvant avoir de graves conséquences, par exemple la décision ou non de freiner pour le véhicule autonome ou encore la décision ou non d’opérer une personne malade, il n’existe actuellement aucun moyen d’appréhender les raisons de la prise de décision du réseau de neurones, à savoir les variables ayant eu le plus d’influence sur la prise de décision, ce qui peut poser problème au niveau légal/ réglementaire.

Il existe donc un besoin pour un utilisateur de contrôler facilement les résultats fournis par un réseau de neurones artificiels pour s’assurer que celui-ci ne prend pas en compte des données non pertinentes, quel que soit le type de données traitées et donc de disposer d’éléments techniques factuels et objectifs pour pouvoir analyser et comprendre une prise de décision par un réseau de neurones artificiels.

RESUME DE L’INVENTION

L’invention offre une solution aux problèmes évoqués précédemment, en permettant de contrôler la pertinence des données utilisées dans la prise de décision d’un réseau de neurones artificiels.

Un premier aspect de l’invention concerne un procédé de modélisation pour le contrôle des résultats fournis par un réseau de neurones artificiels comportant les étapes suivantes mises en oeuvre par un calculateur : - Générer un réseau de neurones artificiels ;

- Entraîner le réseau de neurones artificiels sur une base de données d’entraînement ;

- Tester le réseau de neurones artificiels sur au moins une donnée de test dépendant d’une pluralité de variables v, de manière à obtenir un résultat R par donnée de test, le résultat R dépendant des variables v, ;

- Pour chaque résultat R :

• Approximer par un modèle linéaire une première fonction Fi dépendant uniquement du résultat R pour obtenir une deuxième fonction F₂, la première fonction F-i et la deuxième fonction F₂ dépendant des variables v, ;

• Simplifier la deuxième fonction F₂ pour obtenir une troisième fonction F₃ dépendant d’un nombre plus réduit de variables v, ;

• Appliquer à la troisième fonction F₃ la fonction inverse de la première fonction F-i pour obtenir un modèle de fonctionnement du réseau de neurones.

Grâce à l’invention, un modèle de fonctionnement du réseau de neurones est généré pour chaque donnée testée, chaque modèle de fonctionnement dépendant d’un nombre réduit de variables qui sont les variables ayant le plus de poids dans la prise de décision du réseau de neurones. Il est ainsi possible de contrôler les résultats du réseau de neurones pour pouvoir par exemple diagnostiquer une base de données d’entraînement, comparer les performances de deux réseaux de neurones ou encore analyser une prise de décision par un réseau de neurones. Le procédé de modélisation ainsi défini est déterministe et reproductible, c’est-à- dire que le modèle de fonctionnement généré est le même tant que l’on conserve le même réseau de neurones, la même base de données d’entraînement et la même donnée testée.

Outre les caractéristiques qui viennent d’être évoquées dans le paragraphe précédent, le procédé de modélisation selon un premier aspect de l’invention peut présenter une ou plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon toutes les combinaisons techniquement possibles.

Avantageusement, la première fonction Fi est une fonction non bornée. Ainsi, l’approximation linéaire de la première fonction Fi est plus pertinente étant donné qu’une fonction linéaire est non bornée.

Avantageusement, la première fonction F-i est définie par :

Ainsi, le résultat R peut être obtenu en appliquant à la fonction Fi la fonction sigmoïde qui est utilisée dans la régression logistique, l’un des algorithmes les plus simples utilisés en apprentissage automatique.

Avantageusement, la deuxième fonction F₂ est le développement limité au premier ordre de la première fonction F au voisinage d’une donnée. Ainsi, il suffit de calculer le gradient de la première fonction F par rapport aux variables v, pour obtenir la deuxième fonction F₂.

Avantageusement, la deuxième fonction F₂ s’exprime comme la somme d’un coefficient d’ordonnée à l’origine b et de la somme des variables v, multipliées chacune par un coefficient directeur a, :

Ainsi, la deuxième fonction F₂ est une approximation linéaire de la première fonction Fi par rapport à l’ensemble des variables v, dont dépend le résultat.

Avantageusement, une première variable vi corrélée à une deuxième variable v₂ s’exprime en fonction de la deuxième variable v₂ comme la somme d’une variable non corrélée Si et d’un coefficient de corrélation Ci₂ multiplié à la deuxième variable v₂ :

^V1 ^— Cl2^V2 + 8-L Avantageusement, l’étape de simplification comporte les sous-étapes suivantes :

- Créer un vecteur de variables V_v comportant les variables v, ;

- Créer un vecteur de variables synthétiques V_Vs vide ;

- Créer un vecteur de coefficients de contribution V_c vide ;

- Réaliser au moins une fois les sous-étapes suivantes :

• Pour chaque variable v_k du vecteur de variables V_v, exprimer un coefficient de contribution W_k en fonction du coefficient directeur a_k de ladite variable v_k, des coefficients directeurs a, et des coefficients de corrélation C_ki des variables v, du vecteur de variables V_v corrélées à ladite variable v_k ;

• Comparer les valeurs absolues des coefficients de contribution W, et déterminer une variable de référence v_ref ayant le coefficient de contribution W_ref de valeur absolue la plus élevée ;

• Ajouter au vecteur de variables synthétiques V_Vs ladite variable de référence v_ref ;

• Ajouter au vecteur de coefficients de contribution V_c le coefficient de contribution W_ret de ladite variable de référence v_ref ;

• Pour chaque variable v_k du vecteur de variables V_v différente de la variable de référence v_ref et corrélée à la variable de référence v_ref, exprimer ladite variable v_k corrélée en fonction de la variable de référence v_ref et normaliser la variable non corrélée s_k pour obtenir une nouvelle variable v_k’ ;

• Vider le vecteur de variables V_v et remplir le vecteur de variables V_v avec les nouvelles variables n,’ ;

- Exprimer les variables contenues dans le vecteur de variables synthétiques V_Vs en fonction des variables v, de la deuxième fonction F₂ pour obtenir des variables restantes vr_p ;

- Exprimer un coefficient directeur de variable restante ar_p pour chaque variable restante vr_p à l’aide du vecteur de coefficients de contribution V_c.

Ainsi, on ne conserve que les variables v, ayant un coefficient de contribution important en prenant en compte les corrélations entre variables. Avantageusement, la troisième fonction F₃ s’exprime comme la somme du coefficient d’ordonnée à l’origine b et de la somme des variables restantes vr_p multipliées chacune par son coefficient directeur de variable restante ar_p :

Ainsi, la troisième fonction F₃ dépend d’un nombre plus réduit de variables que le résultat ce qui rend plus facile le contrôle de ce résultat.

Avantageusement, le procédé selon un premier aspect de l’invention comporte une étape de synthèse des modèles de fonctionnement obtenus. Ainsi, il est possible de contrôler la cohérence des résultats du réseau de neurones.

Un deuxième aspect de l’invention concerne un procédé de contrôle des résultats fournis par un réseau de neurones artificiels caractérisé en ce qu’il comporte toutes les étapes du procédé de modélisation selon un premier aspect de l’invention et une étape additionnelle d’évaluation de la base de données d’entraînement à partir d’au moins un modèle de fonctionnement.

Ainsi, à partir du modèle de fonctionnement obtenu, il est possible de diagnostiquer une base de données d’entraînement qui n’est pas adaptée à la tâche que l’utilisateur souhaite réaliser avec le réseau de neurones.

Un troisième aspect de l’invention concerne un procédé de comparaison des performances d’un premier réseau de neurones artificiels et d’un deuxième réseau de neurones artificiels, caractérisé en ce qu’il comporte les étapes suivantes :

- Appliquer le procédé de modélisation selon un premier aspect de l’invention au premier réseau de neurones pour obtenir au moins un premier modèle de fonctionnement du premier réseau de neurones artificiels ;

- Appliquer le procédé de modélisation selon un premier aspect de l’invention au deuxième réseau de neurones pour obtenir au moins un deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels ;

- Comparer les performances du premier réseau de neurones artificiels et du deuxième réseau de neurones artificiels en comparant chaque premier modèle de fonctionnement du premier réseau de neurones artificiels et chaque deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels correspondants à une même donnée de test.

Ainsi, en comparant le premier modèle de fonctionnement et le deuxième modèle de fonctionnement correspondant à une même donnée testée, il est possible de comparer les performances d’un premier réseau de neurones et d’un deuxième réseau de neurones pour choisir le réseau de neurones qui prend en compte les variables de la donnée testée les plus pertinentes.

Un quatrième aspect de l’invention concerne un procédé d’analyse d’une prise de décision d’un réseau de neurones artificiels, la décision ayant été prise sur la base d’au moins une donnée de test, caractérisé en ce qu’il comporte les étapes du procédé de modélisation selon l’une quelconque des revendications 1 à 5 suivies d’une étape de génération d’un rapport explicatif de la prise de décision à partir du modèle de fonctionnement du réseau de neurones artificiels correspondant à la donnée de test.

Ainsi, grâce au modèle de fonctionnement du réseau de neurones, il est possible de comprendre objectivement les raisons de la prise de décision d’un réseau de neurones en identifiant les variables ayant le plus de poids dans cette prise de décision.

Un cinquième aspect de l’invention concerne un calculateur caractérisé en ce qu’il est adapté pour mettre en oeuvre le procédé de modélisation selon un premier aspect de l’invention et/ou le procédé de contrôle selon un deuxième aspect de l’invention et/ou le procédé de comparaison selon un troisième aspect de l’invention.

Un sixième aspect de l’invention concerne un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par ordinateur, conduisent celui-ci à mettre en oeuvre les étapes du procédé de modélisation selon un premier aspect de l’invention et/ou du procédé de contrôle selon un deuxième aspect de l’invention et/ou du procédé de comparaison selon un troisième aspect de l’invention.

Un septième aspect de l’invention concerne un support d’enregistrement lisible par un ordinateur, sur lequel est enregistré le produit programme d’ordinateur selon un cinquième aspect de l’invention.

L’invention et ses différentes applications seront mieux comprises à la lecture de la description qui suit et à l’examen des figures qui l’accompagnent.

BREVE DESCRIPTION DES FIGURES

Les figures sont présentées à titre indicatif et nullement limitatif de l’invention.

- La figure 1 montre un schéma synoptique du procédé de modélisation selon un premier aspect de l’invention.

- La figure 2 montre un schéma synoptique du procédé de contrôle selon un deuxième aspect de l’invention.

- La figure 3 montre un schéma synoptique du procédé de comparaison selon un troisième aspect de l’invention.

- La figure 4 montre un schéma synoptique du procédé d’analyse selon un quatrième aspect de l’invention.

DESCRIPTION DETAILLEE D’AU MOINS UN MODE DE REALISATION DE L’INVENTION

Sauf précision contraire, un même élément apparaissant sur des figures différentes présente une référence unique.

Un premier aspect de l’invention concerne un procédé de modélisation 100 pour le contrôle des résultats fournis par un réseau de neurones artificiels. Dans la suite de la demande, on utilisera indifféremment les termes « neurone » et « neurone artificiel ».

Un réseau de neurones comporte une pluralité de couches comportant chacune une pluralité de neurones. Par exemple, un réseau de neurones comporte entre 2 et 20 couches et chaque couche du réseau de neurones comporte entre 10 et 2000 neurones. De manière générale, chaque neurone de chaque couche est connecté à chaque neurone de la couche précédente et à chaque neurone de la couche suivante par le biais d’une synapse artificielle. Cependant, on pourrait envisager le cas où chaque neurone de chaque couche est connecté uniquement à une partie des neurones de la couche précédente et/ou à une partie des neurones de la couche suivante. Une connexion entre deux neurones est affectée d’un poids ou coefficient synaptique et chaque neurone est affecté d’un coefficient de biais. Le coefficient de biais d’un neurone est sa valeur par défaut, c’est-à-dire sa valeur quand les neurones de la couche précédente auxquels il est connecté ne lui envoient aucun signal.

L’objectif du procédé de modélisation 100 est de générer un modèle simplifié pour chaque résultat R généré par le réseau de neurones. On entend par « résultat généré par un réseau de neurones », une donnée de sortie associée à la prise de décision du réseau de neurones concernant une donnée d’entrée. Avant de pouvoir générer des résultats, le réseau de neurones est entraîné sur une base de données d’entraînement ou base de données d’apprentissage pour être adapté à une tâche prédéfinie. L’apprentissage peut être supervisé ou non supervisé. En apprentissage supervisé, l’apprentissage est contraint par la base de données d’apprentissage. En effet, la base de données d’apprentissage est annotée pour signaler au réseau de neurones les structures qu’il doit repérer. Au contraire, en apprentissage non supervisé, le réseau de neurones trouve lui-même des structures sous-jacentes à partir des données brutes de la base de données d’entraînement.

La tâche prédéfinie est par exemple de la détection, de la classification ou encore de la reconnaissance. Classifier des données consiste à les séparer en plusieurs classes, c’est-à-dire à les classer, et à identifier chacune des classes. Par exemple, dans un échantillon contenant des données noires et des données blanches, classer les données correspond à les séparer en deux classes alors que classifier les données correspond à les séparer en deux classes et à attribuer à l’une le nom de « classe noire » et à l’autre le nom de « classe blanche ». Ainsi, un réseau de neurones ayant reçu un apprentissage supervisé est capable de classifier des données alors qu’un réseau de neurones ayant reçu un apprentissage non supervisé est seulement capable de classer des données.

Le réseau de neurones est ensuite testé sur une base de données de test ou base de données de généralisation. Pour chaque donnée de test de la base de données de test, le réseau de neurones fournit alors un résultat R illustrant sa prise de décision concernant la donnée de test. Par exemple, si la tâche pour laquelle le réseau de neurones a été entraîné est de la classification et que le réseau de neurones a pris la décision que la donnée de test faisait partie de la classe C, le résultat R fourni par le réseau de neurones est la probabilité associée à la classe C.

En pratique, la base de données d’entraînement et la base de données de test peuvent être deux bases de données distinctes ou deux parties séparées d’une même base de données.

Les données utilisées dans la base de données d’entraînement et dans la base de données de test sont par exemple des données biologiques, des données relatives à la réalisation d’un procédé ou d’un produit, des images, des données audios ou encore des signaux électriques. Une donnée comporte une pluralité de variables v, et chaque donnée utilisée comporte le même nombre de variables v,. Par exemple, une donnée comporte entre 10 et 10 000 variables v,.

Les variables v, peuvent être de type numérique, binaire, catégorique comme par exemple une nationalité ou une profession ou encore des dates. Dans le cas de données biologiques, les variables v, sont par exemple des informations sur un patient comme son âge, ses symptômes, son poids ainsi que des informations sur le résultat d’examens qu’il a passés comme des examens sanguins ou des examens IRM. Dans le cas de données relatives à la réalisation d’un produit, les variables v, sont par exemple des informations sur le produit comme son nom, sa composition ainsi que des informations sur son procédé de fabrication comme son temps de fabrication, le nom de la chaîne de montage sur laquelle il a été réalisé. Dans le cas de données relatives à des images, les variables v, sont par exemple la variance et la moyenne des niveaux de gris.

Les données utilisées peuvent être des données tabulaires comportant une pluralité d’exemples, chaque exemple dépendant d’une pluralité de variables v,. Une donnée utilisée de type tabulaire comporte par exemple entre 1000 et 1 000 000 exemples, comportant chacun entre 10 et 10 000 variables v,.

Prenons l’exemple d’un réseau de neurones comportant L couches de N neurones, utilisé sur une donnée de test dépendant de N variables v,.

L’expression h ⁺¹⁾ du neurone k de la couche 1+1 s’exprime en fonction des N neurones i de la couche I de la manière suivante :

Avec f une fonction non linéaire, P^⁺¹⁾ le poids affecté à la connexion entre le neurone k de la couche 1+1 et le neurone i de la couche I, h® l’expression du neurone i de la couche I et b^¹⁺¹⁾ le coefficient de biais affecté au neurone k de la couche 1+1.

La fonction f se définit par exemple comme : f(z) = max(z, 0)

L’expression du neurone k d’une couche s’exprime donc en fonction des expressions des neurones de la couche précédente et l’expression h®⁾ du neurone k de la couche 1 s’exprime en fonction des variables v, de la donnée d’entrée de la manière suivante :

Pour un problème de classification, la probabilité p_k associée à la classe k s’exprime alors de la manière suivante :

Le résultat R correspond alors à la probabilité p_k maximale.

Le résultat R généré par un réseau de neurones est donc une fonction de l’ensemble des variables v, de la donnée de test pour laquelle le résultat R est généré, paramétrisée par les coefficients synaptiques P_ki affectés aux connexions du réseau de neurones et par les coefficients de biais b_k affectés à chaque neurone.

Il devient donc vite très compliqué de contrôler les résultats fournis par un réseau de neurones, le nombre de variables v, des données de test pouvant aller jusqu’à 10 000. Le procédé de modélisation 100 fournit un modèle qui est une approximation du résultat R généré par un réseau de neurones par une expression simplifiée, qui est fonction d’un nombre plus restreint de variables v,.

Le procédé de modélisation 100 selon un premier aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 1 . Ces étapes sont mises en oeuvre par un calculateur comportant au moins un processeur et une mémoire.

La première étape 101 du procédé de modélisation 100 est une étape de génération d’un réseau de neurones artificiels. Pour cela, le nombre de couches et le nombre de neurones par couche du réseau de neurones sont fixés ainsi que d’autres paramètres comme le pas d’apprentissage et le coefficient de régularisation, qui décrivent son processus d’apprentissage. Le pas d’apprentissage du réseau de neurones définit la fréquence à laquelle sont mis à jour les poids du réseau de neurones durant la phase d’apprentissage et le coefficient de régularisation limite le sur-apprentissage du réseau de neurones.

A la fin de cette étape 101 de génération du réseau de neurones, le réseau de neurones est prêt à être entraîné.

La deuxième étape 102 du procédé de modélisation 100 est une étape d’entraînement du réseau de neurones sur une base de données d’entraînement. A la fin de cette étape 102 d’entraînement du réseau de neurones, le réseau de neurones est apte à réaliser une tâche prédéfinie sur un certain type de données, le type des données présentes dans la base de données d’entraînement.

La troisième étape 103 du procédé de modélisation 100 est une étape de test du réseau de neurones sur au moins une donnée de test dépendant d’une pluralité de variables v,. Les données de test sont de même type que les données de la base de données d’entraînement. Durant cette étape, le réseau de neurones génère un résultat R par donnée de test traitée, le résultat R dépendant des mêmes variables v, que la donnée de test traitée.

La quatrième étape 104 du procédé de modélisation 100 est une étape d’approximation linéaire d’une première fonction F-i dépendant d’un résultat R généré à l’étape précédente 103.

Un résultat R est une fonction des variables v,, fonction dont les valeurs sont comprises entre 0 et 1 . Le résultat R est donc une fonction bornée. Or, une fonction linéaire n’est pas bornée. On applique donc avantageusement une transformation au résultat R pour obtenir une première fonction Fi non bornée qui sera approximée linéairement.

La première fonction F-, est par exemple définie par : Fi = log

Ainsi, la première fonction F-i est non bornée et dépend des mêmes variables v, que le résultat R. La première fonction F-i est ainsi obtenue en appliquant au résultat R la fonction inverse de la fonction sigmoïde s se définissant comme :

La fonction sigmoïde est utilisée dans la régression logistique, l’un des algorithmes d’apprentissage automatique les plus simples permettant de séparer une classe de l’ensemble des autres classes du problème. En effet, la régression logistique consiste en l’application d’une fonction sigmoïde à une expression linéaire. Ainsi, approximer la fonction Fi par une fonction linéaire L revient à approximer le résultat R par une régression logistique a(L). La première fonction F est ensuite approximée linéairement, en effectuant par exemple un développement limité au premier ordre au voisinage de la donnée de test, pour obtenir une deuxième fonction F₂.

La deuxième fonction F₂ s’exprime alors de la manière suivante :

Avec : b un coefficient d’ordonnée à l’origine, a, un coefficient directeur et v, les variables de la donnée de test.

Si l’approximation linéaire est réalisée en effectuant un développement limité au premier ordre au voisinage de la donnée de test, on a :

Avec : X, le point de données voisin de la donnée de test auquel est réalisé le développement limité.

Il suffit alors de calculer les gradients de la première fonction Fi par rapport aux variables v, de la donnée de test pour obtenir la deuxième fonction F₂.

La cinquième étape 105 du procédé de modélisation 1 00 selon un premier aspect de l’invention est une étape de simplification de la deuxième fonction F₂.

L’étape 105 de simplification comporte une première phase consistant à classer les variables v, en éliminant les corrélations entre les variables v,.

Initialement, les variables v, sont normalisées. Par exemple, toutes les variables v, ont une moyenne nulle et un écart type de 1 .

Un coefficient de contribution W, est calculée pour chaque variable v, de la donnée de test. Le coefficient de contribution W_k de la variable k s’exprime de la manière suivante :

Avec a_k le coefficient directeur de la variable k dans la deuxième fonction F₂, _, le coefficient directeur de la variable j dans la deuxième fonction F₂ et C_kJ- le coefficient de corrélation entre la variable k et la variable j.

La variable v, avec le coefficient de contribution W, ayant la valeur absolue la plus élevée est désignée comme variable de référence v_ref. Chaque variable v, différente de la variable de référence v_ref est alors exprimée en fonction de la valeur de référence v_ref de la manière suivante :

vi ref^vref 5^” Avec i une variable non corrélée à la variable v_ref et C_iref le coefficient de corrélation entre la variable i et la variable de référence v_ref. s_j est ensuite normalisé pour obtenir une nouvelle variable n,’ :

Les nouvelles variables v,’ ainsi obtenues sont comparables car de même moyenne et de même écart-type.

Le coefficient directeur a,’ de chaque variable v,’ est alors exprimé de la manière suivante :

Les mêmes étapes sont alors appliquées aux nouvelles variables v,’, c’est-à-dire qu’un coefficient de contribution W,’ dépendant des coefficients directeurs a,’ et des coefficients de corrélation entre les nouvelles variables C’ est calculé pour chaque nouvelle variable v,’, une nouvelle valeur de référence v_ref’ est sélectionnée et de nouvelles variables v,” sont obtenues et ainsi de suite sur plusieurs itérations.

Le nombre d’itérations est prédéfini. Le nombre d’itérations est strictement inférieur au nombre de variables v, de la deuxième fonction F₂ et supérieur ou égal à 1 . La pertinence de la valeur choisie pour le nombre d’itérations pourra être contrôlée en comparant la fonction linéaire obtenue pour ce nombre d’itérations et la fonction linéaire obtenue pour un nombre d’itérations supérieur, à l’aide d’une mesure de proximité, par exemple le rapport des normes des vecteurs de coefficients directeurs des fonctions linéaires obtenues.

La valeur de référence obtenue à chaque itération est une variable synthétique, les variables synthétiques étant indépendantes les unes des autres. Ainsi, si p itérations sont réalisées, p variables synthétiques sont obtenues et au bout de ces p itérations, les coefficients de contribution de toutes les autres variables sont mis à zéro.

Par exemple, si la deuxième fonction F₂ dépend de 5 variables v-i, v₂, v₃, v₄ et v₅, et que le nombre d’itérations choisi est trois, la première phase de l’étape 105 de simplification consiste, dans un premier temps, à calculer le coefficient de corrélation de chaque variable W-i, W₂, W₃, W₄ et W₅. Par exemple, W₃ vaut :

W₃ = a₃ + C^a-_L + C₃₂a₂ + C ₄a₄ -I- C₃₅a₅

Les valeurs absolues des coefficients de corrélation W-i, W₂, W₃, W₄ et W₅ sont comparées entre elles et la variable ayant le coefficient de corrélation de valeur absolue la plus élevée est sélectionnée comme valeur de référence. Par exemple, v-i est sélectionnée comme valeur de référence.

Les variables restantes v₂, v₃, v₄ et v₅ sont alors exprimées en fonction de la variable de référence v-i . Par exemple, v₂ vaut :

v₂ = C₂₁ v₄ + e₂

A partir de ces expressions, de nouvelles variables v₂’, v₃’, v₄’ et v₅’ sont calculées. Par exemple, v₂’ vaut :

A l’issue de ces calculs, la première itération est terminée et l’on applique les mêmes étapes que précédemment aux nouvelles variables v₂’, v₃’, v₄’ et v₅’. Par exemple, v₂’ est sélectionnée comme variable de référence. v₃’, v₄’ et v₅’ sont alors exprimées en fonction de v₂’. Par exemple, v₃’ vaut : Puis, de nouvelles variables v₃”, v₄” et v₅” sont calculées. Par exemple, v₃” vaut : A l’issue de ces calculs, la deuxième itération est terminée.

Pendant la troisième et dernière itération, une variable de référence est sélectionnée parmi les nouvelles variables v₃”, v₄” et v₅” comme précédemment. Par exemple, v₃” est sélectionnée comme variable de référence. Puis, les coefficients de contribution des variables restantes v₄” et v₅” sont mis à zéro.

A la fin de la première phase de l’étape 105 de simplification, trois variables synthétiques v-i , v₂’ et v₃” sont obtenues. Les variables synthétiques ainsi exprimées ne correspondent pas aux variables v, de la donnée de test. Pour pouvoir contrôler le résultat R du réseau de neurones, il faudrait que le résultat R dépende des variables v, de la donnée de test.

Dans une deuxième phase de l’étape 105 de simplification, les variables synthétiques sont donc exprimées en fonction des variables v, de la donnée de test en utilisant la formule suivante jusqu’à ce que leur expression ne dépende plus que des variables v, de la deuxième fonction F₂ :

Avec v® la variable variable

variable de référence à l’itération I correspondant initialement à la variable i et

C.·· ^ le coefficient de corrélation entre la variable i et la variable j à l'itération I. En reprenant l’exemple précédent de la deuxième fonction F₂ dépendant de 5 variables, la valeur de référence de la première itération est la variable v-i et la valeur de référence de la deuxième itération est la variable v₂’, donc la valeur de référence de la deuxième itération s’exprime comme :

La valeur de référence de la troisième itération est la variable v₃”, qui s’exprime donc comme :

Avec

Les variables v, de la donnée de test dont dépendent les variables synthétiques sont des variables restantes vr_p. Le nombre de variables restantes vr_p est strictement inférieur au nombre de variables v, de la donnée de test.

La troisième fonction F₃ s’exprime alors ainsi :

Avec ar_p un coefficient directeur de variable restante.

Pour calculer les coefficients directeurs de variable restante ar_p, les variables synthétiques sont parcourues en ordre inverse de la dernière sélectionnée à la première sélectionnée. Ainsi, si l’on a p itérations, à l’étape p - k + 1 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la k-ème variable synthétique sélectionnée à la k-ème itération de la première phase de l’étape 105 de simplification est mis à jour suivant : tandis que les coefficients directeurs des variables sélectionnées après la k-ème variable synthétique, c’est-à-dire les variables synthétiques sélectionnées après la k-ème itération, sont mis à jour suivant :

En reprenant l’exemple précédent de la deuxième fonction F₂ dépendant de 5 variables, les variables synthétiques sont v-i, v₂’ et v₃”.

A l’étape 1 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la troisième variable synthétique v₃” est mis à jour suivant :

Les autres variables synthétiques ayant été sélectionnées avant la troisième variable synthétique, leurs coefficients directeurs ne sont pas mis à jour à cette étape.

A l’étape 2 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la deuxième variable synthétique v₂’ est mis à jour suivant :

Le coefficient directeur de la troisième variable synthétique v₃” sélectionnée après la deuxième variable synthétique v₂’ est mis à jour suivant :

A l’étape 3 de calcul des coefficients directeurs de variable restante, le coefficient directeur de la première variable synthétique vi est mis à jour suivant : Les coefficients directeurs des deuxième et troisième variable synthétique v₂’ et v₃” sélectionnée après la première variable synthétique v-i sont mis à jour suivant : ar-,

A l’issue de l’étape 105 de simplification, la troisième fonction F₃ dépend donc uniquement des variables restantes vr_p, c’est-à-dire d’un nombre réduit de variables v, de la donnée de test.

L’étape 106 du procédé de modélisation 100 selon un premier aspect de l’invention consiste à appliquer la fonction inverse de la première fonction Fi à la troisième fonction F₃ pour obtenir un modèle de fonctionnement du réseau de neurones pour le résultat R. Le modèle de fonctionnement du réseau de neurones est un résultat R simplifié, dépendant d’un nombre réduit de variables v, facilitant le contrôle du résultat R fourni par le réseau de neurones.

Le procédé de modélisation 100 selon un premier aspect de l’invention génère un modèle de fonctionnement pour chaque résultat R. Si plusieurs résultats R ont été générés par le réseau de neurones, le procédé de modélisation 100 peut par exemple comporter une étape additionnelle de synthèse des modèles de fonctionnement. Les données de test étant similaires, l’étape de synthèse peut permettre de contrôler la cohérence des résultats du réseau de neurones.

Un deuxième aspect de l’invention concerne un procédé de contrôle 200 pour contrôler les résultats fournis par un réseau de neurones artificiels.

Le procédé de contrôle 200 selon un deuxième aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 2. Le procédé de contrôle 200 selon un deuxième aspect de l’invention comporte toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention permettant d’obtenir au moins un modèle de fonctionnement du réseau de neurones.

Le procédé de contrôle 200 selon un deuxième aspect de l’invention comporte ensuite une étape 201 d’évaluation de la base de données d’entraînement consistant à comparer le nombre restreint de variables v, dont dépend chaque modèle de fonctionnement avec un certain nombre de variables v, pertinentes.

Par exemple, dans le cas de la détection de personnes dans une image, seuls les pixels de l’image sur lesquels se trouvent les personnes sont pertinents. Si les variables v, sont par exemple la moyenne et la variance de chaque pixel de l’image, les variables v, pertinentes sont donc la moyenne et la variance des pixels sur lesquels se trouvent les personnes. Si le modèle de fonctionnement dépend majoritairement de variables v, liées à des pixels ne correspondant pas à une personne dans l’image mais à des pixels du fond, cela signifie que les variables v, prises en compte dans la prise de décision du réseau de neurones sont erronées, et donc que l’apprentissage n’a pas permis au réseau de neurones de devenir performant pour la tâche escomptée. Ceci est une indication que la base de données d’entraînement n’est pas adaptée à la détection de personnes. Les variables v, non pertinentes prises en compte par le réseau de neurones donnent alors des pistes permettant de comprendre pourquoi la base de données d’entraînement n’est pas adaptée et ainsi d’y remédier. Dans cet exemple, le fait que le réseau de neurones prenne en compte des pixels du fond peut être dû à une trop grande homogénéité des fonds derrière les personnes. Une solution est donc d’ajouter à la base de données d’entraînement des images avec des fonds plus variés. Au contraire, si le modèle de fonctionnement dépend majoritairement de variables v, pertinentes, cela signifie que la base de données d’entraînement est bien adaptée pour la tâche escomptée.

Un troisième aspect de l’invention concerne un procédé de comparaison 300 pour comparer les performances de deux réseaux de neurones artificiels. Les deux réseaux de neurones peuvent, pour une donnée de test donnée, avoir des résultats similaires, par exemple, dans le cas où l’on veut prédire la maladie d’un patient à partir de symptômes, les deux réseaux de neurones donnent en sortie la même maladie avec une même probabilité de certitude, ou des résultats différents, par exemple, les deux réseaux de neurones ne donnent pas la même maladie en sortie. Pour deux réseaux de neurones ayant des performances similaires, cela peut alors permettre de choisir un réseau de neurone préféré, qui utilise des variables plus pertinentes dans sa prise de décision. Pour deux réseaux de neurones ayant des performances différentes, cela peut par exemple permettre de comprendre pourquoi l’un des réseaux de neurones est défaillant.

Le procédé de comparaison 300 selon un troisième aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 3.

Le procédé de comparaison 300 selon un troisième aspect de l’invention comporte toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention pour un premier réseau de neurones permettant d’obtenir au moins un premier modèle de fonctionnement du premier réseau de neurones et toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention pour un deuxième réseau de neurones permettant d’obtenir au moins un deuxième modèle de fonctionnement du deuxième réseau de neurones.

Le procédé de comparaison 300 selon un troisième aspect de l’invention comporte ensuite une étape 301 de comparaison des performances du premier réseau de neurones et du deuxième réseau de neurones en comparant pour une même donnée de test, le premier modèle de fonctionnement du premier réseau de neurones artificiels et le deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels. Plus précisément, l’étape 301 de comparaison consiste à comparer les variables v, dont dépend le premier modèle de fonctionnement et les variables v, dont dépend le deuxième modèle de fonctionnement. Les variables v, prises en compte dans un des deux modèles de fonctionnement et pas dans l’autre modèle de fonctionnement sont alors comparées avec un certain nombre de variables v, pertinentes. Ainsi, le réseau de neurones utilisant le moins de variables v, non pertinentes dans sa prise de décision est considéré comme le plus performant.

Par exemple, dans le cas où l’on veut prédire la maladie d’un patient à partir de ses symptômes, le premier modèle de fonctionnement prend en compte la fièvre, la fatigue et les courbatures alors que le deuxième modèle de fonctionnement prend en compte la fièvre, la fatigue et la douleur à l’oreille pour diagnostiquer la grippe. Les variables v, prises en compte dans un des deux modèles de fonctionnement et pas dans l’autre modèle de fonctionnement sont les courbatures pour le premier modèle de fonctionnement et la douleur à l’oreille pour le deuxième modèle de fonctionnement. Les variables v, pertinentes sont les symptômes couramment observés chez un patient atteint de la grippe. Les courbatures font donc partie des variables v, pertinentes ce qui n’est pas le cas de la douleur à l’oreille. Le réseau de neurones le plus performant pour réaliser cette tâche est donc le premier réseau de neurones.

Le procédé de contrôle 200 et le procédé de comparaison 300 sont compatibles, c’est-à-dire que le procédé de comparaison 300 peut comporter l’étape 201 d’évaluation de la base de données d’entraînement.

L’étape 201 d’évaluation de la base de données d’entraînement du procédé de contrôle 200 et l’étape 301 de comparaison des performances des deux réseaux de neurones peuvent être mises en oeuvre par un calculateur ou réalisées manuellement. Un quatrième aspect de l’invention concerne un procédé d’analyse d’une prise de décision d’un réseau de neurones artificiels.

La prise de décision est automatique, c’est-à-dire qu’elle est réalisée par un réseau de neurones ayant été entraîné pour cette prise de décision.

La décision est prise à partir d’au moins une donnée de test.

Par exemple dans le contexte du véhicule autonome, la prise de décision d’un réseau de neurones adapté à la détection de piétons peut être de freiner ou non en fonction de la présence ou non d’un piéton dans l’environnement proche de la voiture.

Le procédé d’analyse 400 selon un quatrième aspect de l’invention comporte plusieurs étapes dont l’enchaînement est représenté à la figure 4.

Le procédé d’analyse 400 selon un quatrième aspect de l’invention comporte toutes les étapes 101 à 106 du procédé de modélisation 100 selon un premier aspect de l’invention pour un réseau de neurones permettant d’obtenir au moins un modèle de fonctionnement du réseau de neurones à partir d’au moins une donnée de test.

Le procédé d’analyse 400 selon un quatrième aspect de l’invention comporte ensuite une étape 401 de génération d’un rapport expliquant la prise de décision du réseau de neurones à partir du ou des modèle(s) de fonctionnement correspondant à la ou aux donnée(s) de test.

L’étape 401 de génération d’un rapport consiste par exemple à synthétiser les modèles de fonctionnement s’il y en a plusieurs pour identifier les variables ayant le plus de poids dans la prise de décision et à générer un rapport comportant ces variables. La synthèse consiste par exemple à ne garder que les variables ayant un pourcentage de présence dans les modèles de fonctionnement supérieur à un certain seuil de présence.

Le rapport comporte par exemple les variables accompagnées de leur pourcentage de présence et de leur poids dans la prise de décision.

Ainsi, dans le cas d’un réseau de neurones adapté au diagnostic d’une maladie sur la base de symptômes, les principaux symptômes ayant abouti au diagnostic de telle maladie sont indiqués dans le rapport généré. Il est alors possible d’identifier les éventuelles failles du réseau de neurones et de les corriger.

En cas de faute grave liée à la prise de décision d’un réseau de neurones, par exemple une mauvaise médication liée à un mauvais diagnostic ayant entraîné des complications ou encore un accident impliquant un véhicule autonome, un tel rapport permet de déterminer les causes de la faute et éventuellement le ou les responsable(s), répondant ainsi à un impératif légal/réglementaire.

Claims

REVENDICATIONS

1. Procédé de modélisation (100) pour le contrôle des résultats fournis par un réseau de neurones artificiels comportant les étapes suivantes mises en oeuvre par un calculateur :

- Générer un réseau de neurones artificiels (101 ) ;

- Entraîner le réseau de neurones artificiels sur une base de données d’entraînement (102) ;

- Tester le réseau de neurones artificiels sur au moins une donnée de test dépendant d’une pluralité de variables v, de manière à obtenir un résultat R par donnée de test, le résultat R dépendant des variables Vi (103) ;

- Pour chaque résultat R :

• Approximer par un modèle linéaire une première fonction F-i dépendant uniquement du résultat R pour obtenir une deuxième fonction F₂, la première fonction Fi et la deuxième fonction F₂ dépendant des variables v, (104) ;

• Simplifier la deuxième fonction F₂ pour obtenir une troisième fonction F₃ dépendant d’un nombre plus réduit de variables v, (105) ;

• Appliquer à la troisième fonction F₃ la fonction inverse de la première fonction Fi pour obtenir un modèle de fonctionnement du réseau de neurones (106).

2. Procédé de modélisation (100) selon la revendication 1 , caractérisé en ce que la deuxième fonction F₂ s’exprime comme la somme d’un coefficient d’ordonnée à l’origine b et de la somme des variables v, multipliées chacune par un coefficient directeur a, :

3. Procédé de modélisation (100) selon l’une quelconque des revendications précédentes, caractérisé en ce qu’une première variable vi corrélée à une deuxième variable v₂ s’exprime en fonction de la deuxième variable v₂ comme la somme d’une variable non corrélée Si et d’un coefficient de corrélation Ci₂ multiplié à la deuxième variable v₂ :

^V1 ⁼ Cl2^v2 + Si

4. Procédé de modélisation (100) selon la revendication 2 et la revendication 3, caractérisé en ce que l’étape de simplification (105) comporte les sous- étapes suivantes :

- Créer un vecteur de variables V_v comportant les variables v, ;

- Créer un vecteur de variables synthétiques V_Vs vide ;

- Créer un vecteur de coefficients de contribution V_c vide ;

- Réaliser au moins une fois les sous-étapes suivantes :

• Pour chaque variable v_k du vecteur de variables V_v, exprimer un coefficient de contribution W_k en fonction du coefficient directeur a_k de ladite variable v_k, des coefficients directeurs a, et des coefficients de corrélation C_k, des variables v, du vecteur de variables V_v corrélées à ladite variable v_k ;

• Ajouter au vecteur de variables synthétiques V_Vs ladite variable de référence v_ret ;

• Pour chaque variable v_k du vecteur de variables V_v différente de la variable de référence v_ret et corrélée à la variable de référence v_ref, exprimer ladite variable v_k corrélée en fonction de la variable de référence v_ref et normaliser la variable non corrélée s_k pour obtenir une nouvelle variable v_k’ ;

• Vider le vecteur de variables V_v et remplir le vecteur de variables V_v avec les nouvelles variables n,’ ; - Exprimer les variables contenues dans le vecteur de variables synthétiques V_Vs en fonction des variables v, de la deuxième fonction F₂ pour obtenir des variables restantes vr_p ;

5. Procédé de modélisation selon la revendication 4, caractérisé en ce que la troisième fonction F₃ s’exprime comme la somme du coefficient d’ordonnée à l’origine b et de la somme des variables restantes vr_p multipliées chacune par son coefficient directeur de variable restante ar_p :

6. Procédé de contrôle (200) des résultats fournis par un réseau de neurones artificiels caractérisé en ce qu’il comporte toutes les étapes du procédé de modélisation selon l’une quelconque des revendications précédentes et une étape (201 ) additionnelle d’évaluation de la base de données d’entraînement à partir d’au moins un modèle de fonctionnement.

7. Procédé de comparaison (300) des performances d’un premier réseau de neurones artificiels et d’un deuxième réseau de neurones artificiels, caractérisé en ce qu’il comporte les étapes suivantes :

- Appliquer le procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 au premier réseau de neurones artificiels pour obtenir au moins un premier modèle de fonctionnement du premier réseau de neurones artificiels ;

- Appliquer le procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 au deuxième réseau de neurones artificiels pour obtenir au moins un deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels ;

- Comparer les performances du premier réseau de neurones artificiels et du deuxième réseau de neurones artificiels en comparant chaque premier modèle de fonctionnement du premier réseau de neurones artificiels et chaque deuxième modèle de fonctionnement du deuxième réseau de neurones artificiels correspondants à une même donnée de test (301 ).

8. Calculateur caractérisé en ce qu’il est adapté pour mettre en oeuvre le procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 et/ou le procédé de contrôle (200) selon la revendication 6 et/ou le procédé de comparaison (300) selon la revendication 7.

9. Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par ordinateur, conduisent celui-ci à mettre en oeuvre les étapes du procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 et/ou du procédé de contrôle (200) selon la revendication 6 et/ou du procédé de comparaison (300) selon la revendication 7.

10. Support d’enregistrement lisible par un ordinateur, sur lequel est enregistré le produit programme d’ordinateur selon la revendication 9.

1 1. Procédé (400) d’analyse d’une prise de décision d’un réseau de neurones artificiels, la décision ayant été prise sur la base d’au moins une donnée de test, caractérisé en ce qu’il comporte les étapes du procédé de modélisation (100) selon l’une quelconque des revendications 1 à 5 suivies d’une étape (401 ) de génération d’un rapport explicatif de la prise de décision à partir du modèle de fonctionnement du réseau de neurones artificiels correspondant à la donnée de test.