FR3131038A1

FR3131038A1 - Procédé de détermination d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique, système et programme d’ordinateur associés

Info

Publication number: FR3131038A1
Application number: FR2113872A
Authority: FR
Inventors: Gilles Madi Wamba; Lucas Perret; Nicolas Gaude
Original assignee: Prevision Io; PrevisionIo
Current assignee: Prevision Io; PrevisionIo
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-06-23

Abstract

Procédé de détermination d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique, système et programme d’ordinateur associés L’invention concerne un procédé de détermination d’hyper-paramètres de configuration d’une méthode d’apprentissage automatique. Chaque modèle obtenu est associé à un indice de performance déterminé par une fonction d’évaluation. Chaque jeu de données st associé à un vecteur caractéristique comprenant une pluralité de caractéristiques. Le procédé comprend les étapes suivantes : pour une pluralité de jeux de données de référence, entrainement de la méthode d’apprentissage automatique en fonction d’une pluralité d’ensembles d’hyper-paramètres de test et détermination de l’indice de performance pour chaque modèle obtenu ;génération d’une base de données de référence, comprenant pour chaque jeu de données de référence, le vecteur caractéristique, l’ensemble d’hyper-paramètres de test et l’indice de performance associés ;initialisation d’une fonction de prédiction entrainée sur la base de la donnée de référence;sélection parmi la pluralité de jeux de données de référence, d’au moins un jeu de données de référence dit similaire au jeu de données d’intérêt;pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire, entrainement de la méthode d’apprentissage automatique sur le jeu de données d’intérêt ;affinage de la fonction de prédiction. Pas de figure

Description

Procédé de détermination d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique, système et programme d’ordinateur associés

La présente invention concerne un procédé de détermination d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique pour un jeu de données d’intérêt.

L’invention concerne également un système électronique configuré pour déterminer un tel ensemble d’hyper-paramètres.

L’invention concerne également un programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un tel procédé.

Une méthode d’apprentissage automatique permet d’obtenir un modèle capable de résoudre des tâches sans être explicitement programmé pour chacune de ces tâches. L'apprentissage automatique comporte deux phases. La première phase consiste à définir un modèle à partir de données présentes dans une base de données d’apprentissage, appelées aussi observations. La définition du modèle consiste par exemple à l’entraîner reconnaître la présence d'un ou plusieurs objets dans une image. Cette phase dite d'apprentissage est généralement réalisée préalablement à l'utilisation pratique du modèle.

La seconde phase correspond à l’utilisation du modèle : le modèle étant défini, de nouvelles images peuvent alors être soumises au modèle afin d'obtenir le ou les objets détectés sur lesdites images.

De manière conventionnelle, un hyper-paramètre est un paramètre de configuration et d’ajustement de la méthode d’apprentissage automatique qui est externe à la méthode et dont la valeur ne peut pas être estimée à partir des données.

Les hyper-paramètres sont souvent spécifiés en amont par l’opérateur (aussi appelé « Data Scientist » ou « Scientifique des données » en français) qui définit le modèle issu de la méthode d’apprentissage automatique.

Les hyper-paramètres sont donc différents des paramètres internes au modèle et dont la valeur peut être estimée à partir de données d’entrainement. Les paramètres internes constituent la partie du modèle qui est apprise à partir des données d'entraînement.

La performance de la méthode d’apprentissage automatique et ainsi la pertinence du modèle obtenu dépendent de manière importante de la configuration initiale des hyper-paramètres. Le réglage des hyper-paramètres est donc une étape cruciale dans la conception d'un modèle issue d’une méthode d'apprentissage automatique. En effet, la capacité d'apprentissage d'un modèle dépend étroitement des hyper-paramètres choisis.

En général, l’opérateur (ou « Data Scientist ») qui construit un modèle d'apprentissage automatique pour répondre à un cas d'utilisation réel passe beaucoup de temps avec une méthode manuelle d'essais et d'erreurs pour obtenir un modèle acceptable.

Au cours de l'étape de réglage des hyper-paramètres, le « Data Scientist » essaye plusieurs combinaisons d'hyper-paramètres et évalue chacune d'entre elles. Cette étape est très coûteuse en temps et en ressources de calcul car l'étape d'évaluation implique la formation et l’apprentissage d'un modèle à partir de zéro, et le temps nécessaire pour cela varie typiquement de quelques heures à plusieurs jours.

En effet, il n’existe pas de solution exacte pour trouver ces configurations performantes autrement que par l’essai itératif de chacune des combinaisons possibles. Or l'évaluation d’une configuration demandea minimaune mesure de la performance obtenue par un entraînement sur tout ou une partie des données, ce qui est coûteux en temps de calcul et en ressources matérielles.

Il existe donc un besoin pour un procédé permettant une détermination de ces hyper-paramètres de configuration plus rapide, tout en assurant une qualité du modèle final suffisante.

A cet effet, l’invention a pour objet un procédé de détermination d’hyper-paramètres de configuration d’une méthode d’apprentissage automatique pour un jeu de données d’intérêt, la méthode d’apprentissage automatique étant propre à prendre en entrée un jeu de données afin d’obtenir un modèle dudit jeu de données après un entrainement de la méthode d’apprentissage automatique sur ledit jeu de données ; la méthode d’apprentissage automatique étant fonction d’un ensemble d’hyper-paramètres de configuration de l’entrainement ; chaque modèle obtenu étant associé à un indice de performance déterminé par une fonction de coût ; chaque jeu de données étant associé à un vecteur caractéristique comprenant une pluralité de caractéristiques dudit jeu de données ; le procédé comprenant au moins les étapes suivantes :

pour une pluralité de jeux de données de référence, entrainement de la méthode d’apprentissage automatique sur chaque jeu de données de référence en fonction d’une pluralité d’ensembles d’hyper-paramètres de test et détermination de l’indice de performance pour chaque modèle obtenu ;
génération d’une base de données de référence, comprenant pour chaque jeu de données de référence, le vecteur caractéristique, l’ensemble d’hyper-paramètres de test et l’indice de performance associés ;
initialisation d’une fonction de prédiction entrainée sur la base de la donnée de référence et propre à fournir pour un vecteur caractéristique d’un jeu de données et un ensemble d’hyper-paramètres, une estimation de l’indice de performance du modèle obtenu associé audit jeu de données à partir dudit ensemble d’hyper-paramètres ;
sélection parmi la pluralité de jeux de données de référence, d’au moins un jeu de données de référence dit similaire au jeu de données d’intérêt à partir d’une fonction de similarité sur la base du vecteur caractéristique du jeu de données d’intérêt et des vecteurs caractéristiques des jeux de données de référence ;
pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire, entrainement de la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction dudit d’ensemble d’hyper-paramètres et détermination de l’indice de performance pour chaque modèle obtenu ;
affinage de la fonction de prédiction en fonction du ou des indices de performance obtenu pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire.

Suivant d’autres aspects avantageux de l’invention, le procédé de détermination comprend une ou plusieurs des caractéristiques suivantes, prises isolément ou suivant toutes les combinaisons techniquement possibles :

le procédé comprend en outre, suite à l’étape d’affinage, une étape de détermination d’un ensemble d’hyper-paramètres dit performant pour le jeu de données d’intérêt comprenant une pluralité d’itérations des sous-étapes de:

+ sélection d’un nouvel ensemble d’hyper-paramètres au moyen d’une méthode d’optimisation bayésienne,

+ estimation au moyen de la fonction de prédiction de l’indice de performance du modèle obtenu à partir du jeu de données d’intérêt et fonction du nouvel ensemble d’hyper-paramètres, l’ensemble d’hyper-paramètres dit performant étant l’ensemble d’hyper-paramètres associé à l’indice de performance estimé le plus élevé ;

le procédé comprend en outre la détermination d’un espace de recherche sous la forme d’une distribution représentant une densité de probabilités de pertinence associée à l’ensemble d’hyper-paramètres à partir du ou des ensembles d’hyper-paramètres associés aux jeux de données de référence similaires, la méthode d’optimisation bayésienne sélectionnant chaque nouvel ensemble d’hyper-paramètres performant en fonction de la distribution associé à l’espace de recherche ;
le procédé comprend en outre une étape d’obtention d’un modèle à partir du jeu de données d’intérêt et fonction de l’ensemble d’hyper-paramètres pertinent ;
le procédé comprend en outre une étape d’ajout à la base de données de référence du jeu de données d’intérêt, du vecteur caractéristique, de l’ensemble d’hyper-paramètres performant et de l’indice de performance associés ;
le vecteur caractéristique associé à chaque jeu de données comprend entre 10 et 30 caractéristiques dudit jeu de données ;
la fonction de prédiction est initialisée au moyen d’une méthode d’apprentissage automatique entraînée sur la base de données de référence ;
l’étape de détermination d’un ensemble d’hyper-paramètres performant comprend, régulièrement après un nombre prédéterminé d’itérations, en outre les sous-étapes de :

+ entrainement de la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction du nouvel ensemble d’hyper-paramètres associé à l’itération en cours ;

+ détermination de l’indice de performance du modèle obtenu ;

+ comparaison de l’indice de performance déterminé avec l’indice de performance estimé par la fonction de prédiction et affinage de la fonction de prédiction en fonction de la comparaison ;

l’étape d’entrainement de la méthode d’apprentissage automatique suivie de l’étape de génération d’une base de données de référence et de l’étape détermination de la fonction de prédiction sont effectuées sur un premier calculateur, l’étape de sélection d’au moins un jeu de données de référence similaire suivi de l’étape d’entrainement de la méthode d’apprentissage automatique et de l’étape d’affinage sont effectuées sur un deuxième calculateur, le premier calculateur étant différent du deuxième calculateur.

L’invention concerne également un système électronique configuré pour déterminer un ensemble d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique pour un jeu de données d’intérêt, la méthode d’apprentissage automatique étant propre à prendre en entrée un jeu de données afin d’obtenir un modèle dudit jeu de données après un entrainement de la méthode d’apprentissage automatique sur ledit jeu de données ; la méthode d’apprentissage automatique étant fonction d’un ensemble d’hyper-paramètres de configuration de l’entrainement ; chaque modèle obtenu étant associé à un indice de performance déterminé par une fonction de coût ; chaque jeu de données étant associé à un vecteur caractéristique comprenant une pluralité de caractéristiques dudit jeu de données ; le système électronique comprenant :

un premier calculateur configuré pour :

+ pour une pluralité de jeux de données de référence, entrainer la méthode d’apprentissage automatique sur chaque jeu de données de référence en fonction d’une pluralité d’ensembles d’hyper-paramètres de test et déterminer l’indice de performance pour chaque modèle obtenu ;

+ générer une base de données de référence, comprenant pour chaque jeu de données de référence, le vecteur caractéristique, l’ensemble d’hyper-paramètres de test et l’indice de performance associés ;

+ initialiser une fonction de prédiction entrainée sur la base de la donnée de référence et propre à fournir pour un vecteur caractéristique d’un jeu de données et un ensemble d’hyper-paramètres, une estimation de l’indice de performance du modèle obtenu associé audit jeu de données à partir dudit ensemble d’hyper-paramètres ;

un deuxième calculateur configuré pour :

+ sélectionner parmi la pluralité de jeux de données de référence, au moins un jeu de données de référence dit similaire au jeu de données d’intérêt à partir d’une fonction de similarité sur la base du vecteur caractéristique du jeu de données d’intérêt et des vecteurs caractéristiques des jeux de données de référence ;

+ pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire, entrainer la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction dudit d’ensemble d’hyper-paramètres et déterminer l’indice de performance pour chaque modèle obtenu ;

+ affiner la fonction de prédiction en fonction du ou des indices de performance obtenu pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire.

L’invention a également pour objet un programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé tel que défini ci-dessus.

Ces caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

la est une représentation schématique d’un système électronique selon l’invention, et

la est un organigramme d’un procédé, selon l’invention, de détermination d’hyper-paramètres.

Un système électronique 10 est représenté sur la .

Comme cela sera expliqué plus en détail par la suite, le système 10 est configuré pour déterminer un ensemble d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique pour un jeu de données d’intérêt.

Comme expliqué ci-dessus, une méthode d’apprentissage automatique permet d’obtenir un modèle capable de résoudre des tâches sans être explicitement programmé pour chacune de ces tâches.

La méthode d’apprentissage automatique est propre à prendre en entrée un jeu de données afin d’obtenir un modèle dudit jeu de données après un entraînement de la méthode d’apprentissage automatique sur ledit jeu de données.

Le modèle d’apprentissage automatique comporte par exemple la mise en œuvre d’un réseau de neurones. Un réseau de neurones est en général composé d'une succession de couches dont chacune prend ses entrées sur les sorties de la précédente. Chaque couche est composée d’une pluralité de neurones, prenant leurs entrées sur les neurones de la couche précédente. À chaque synapse entre neurones est associée un poids synaptique, de sorte que les entrées reçues par un neurone sont multipliées par ce poids, puis additionnées par ledit neurone. Le réseau de neurones est optimisé grâce aux ajustements des différents poids synaptiques pendant son entrainement en fonction des données présentes dans la base de données d’apprentissage. Le réseau de neurones ainsi optimisé est alors le modèle. Un nouveau jeu de donnés, dit par la suite jeu de données d’intérêt, peut alors être donné en entrée du réseau de neurones qui fournit alors le résultat de la tâche pour laquelle il a été entrainé.

La méthode d’apprentissage automatique est fonction d’un ensemble d’hyper-paramètres de configuration de l’entrainement.

Chaque hyper-paramètre est un paramètre de configuration et d’ajustement de la méthode d’apprentissage automatique qui est externe à la méthode et dont la valeur ne peut pas être estimée à partir des données.

Chaque hyper-paramètre est ainsi externe au processus d'entraînement, il en définit des propriétés et peut rester statique durant l’entrainement.

A titre d’exemple, la taille de la base de données d’entrainement, le facteur d'apprentissage (ou « learning rate ») ou encore le nombre d’ « epoch » sont des exemples d’hyper-paramètres.

Chaque modèle obtenu est associé à un indice de performance déterminé par une fonction d’évaluation.

La fonction d’évaluation aide à trouver l’erreur entre le résultat estimé par le modèle obtenu et le résultat attendu. Plus le modèle est performant et donc obtient un résultat proche de celui qui est attendu, plus la fonction d’évaluation est proche d’un extrema, par exemple un minimum ou un maximum. Le but est donc de trouver les hyper-paramètres qui minimisent le résultat de cette fonction d’évaluation.

Chaque jeu de données est associé à un vecteur caractéristique comprenant une pluralité de caractéristiques dudit jeu de données.

Le vecteur caractéristique associé à chaque jeu de données comprend avantageusement entre 10 et 30 caractéristiques dudit jeu de données.

Les caractéristiques d’un jeu de données peuvent être classés ici dans trois groupes : les caractéristiques générales, les caractéristiques statistiques et les caractéristiques de la théorie de l’information.

Les caractéristiques générales sont facilement extraites des données et ne nécessitent pas de ressources informatiques importantes. Ces caractéristiques sont pertinentes pour caractériser les principaux aspects d'un jeu de données, ainsi que la qualité du jeu de données. A titre d’exemple, les caractéristiques générales sont notamment :

- le nombre d'attributs dans la base de données ;

- le nombre d'attributs binaires ;

- le nombre d'attributs catégoriels ;

- le nombre d'attributs numériques ;

- la proportion d'attributs catégoriels par rapport aux attributs numériques ;

- le proportion d'attributs numériques par rapport aux attributs catégoriels ;

- le nombre d'instances dans l'ensemble de données ;

- le nombre de classes ;

- le nombre de classes par attribut ;

- le nombre d'instances par classes ;

- le nombre d'attributs manquants ;

- le nombre d'instances manquantes.

Les caractéristiques statistiques d'un jeu de données donnent des propriétés numériques du jeu de données. Elles extraient des informations sur la distribution des données. A titre d’exemple, les caractéristiques statistiques sont notamment :

- l’écart-type moyen, l’écart-type minimum et l’écart-type maximum qui estiment la dispersion des valeurs ;

- la corrélation et la covariance qui capturent l'interdépendance des attributs prédictifs ;

- le nombre d'attributs corrélés qui calcule la proportion de paires d'attributs fortement corrélés ;

- l'écart interquartile, le kurtosis maximum, le kurtosis moyen, le kurtosis minimum, l'écart-type, l'asymétrie et la variance qui mesurent également la dispersion des données ;

- le nombre d'attributs normalement distribués qui mesure la normalité ;

- le nombre de valeurs aberrantes qui compte le nombre d'attributs qui contiennent des valeurs aberrantes.

Les caractéristiques de la théorie de l'information permettent de saisir la quantité d'information contenue dans les données.

A titre d’exemple, les caractéristiques de la théorie de l’information sont notamment :

- l’entropie normalisée des classes : la valeur d'entropie d'une variable de classe indique la quantité d'information nécessaire pour spécifier une classe ;

- l’entropie normalisée des attributs qui mesure le contenu en information lié aux valeurs que peut prendre un attribut ;

- l’information mutuelle de la classe et de l'attribut qui mesure l'information commune partagée entre les attributs ;

- le rapport bruit-signal qui mesure la quantité d'informations non pertinentes contenues dans un ensemble de données.

En référence à la , le système 10 comprend un premier calculateur 12 et au moins un deuxième calculateur 14. Ici, le système comprend cinq deuxièmes calculateurs 14.

Comme cela sera expliqué plus en détail par la suite, le premier calculateur 12 et les deuxièmes calculateurs 14 sont différents l’un de l’autre. Le premier calculateur 12 et les deuxièmes calculateurs 14 peuvent être notamment situés à distance l’un de l’autre.

Chaque calculateur 12, 14 comprend une unité de traitement d’informations formée par exemple d’une mémoire et d’un processeur associé à la mémoire. La mémoire est apte à stocker un ou des logiciels, exécutables par le processeur.

Le fonctionnement du serveur informatique 10 selon l’invention va désormais être expliqué à l’aide de la représentant un organigramme du procédé, selon l’invention, de détermination d’hyper-paramètres, le procédé étant mis en œuvre par le système 10.

Le procédé est mis en œuvre en deux phases successives.

Une première phase 100 est mise en œuvre par le premier calculateur 12.

Cette première phase 100 est dite « offline » ou « phase amont ». Durant la première phase 100, les contraintes de temps et de ressources matérielles ne sont habituellement pas primordiales. Ainsi, l’objectif est de réaliser le plus de calculs couteux en ressources temporelles et matérielles en amont durant cette première phase 100.

Une deuxième phase 200 est mise en œuvre par le deuxième calculateur 14.

Cette deuxième phase 200 est dite « online » ou « phase opérationnelle ». Durant la deuxième phase 200, les contraintes de temps et de ressources matérielles deviennent limitantes et il est ainsi important de limiter les calculs couteux.

En référence à la , la première phase 100 comprend une première étape 110 d’entrainement. En particulier, pour une pluralité de jeux de données de référence, la méthode d’apprentissage automatique est entrainée sur chaque jeu de données de référence en fonction d’une pluralité d’ensembles d’hyper-paramètres de test.

Puis, pour chaque modèle obtenu, l’indice de performance est déterminé au moyen de la fonction d’évaluation.

Les jeux de données de référence sont choisis de sorte à rencontrer une grande diversité de situations possibles pour obtenir le maximum de connaissance en amont de la phase opérationnelle. Cette connaissance sera utilisée par la suite lors de la phase opérationnelle comme cela sera expliqué par la suite.

Avantageusement, la méthode d’apprentissage automatique est entrainée sur entre 100 et 500 jeux de données de référence.

Puis, lors d’une étape 120, une base de données de référence est ainsi générée, comprenant pour chaque jeu de données de référence, le vecteur caractéristique, l’ensemble d’hyper-paramètres de test et l’indice de performance associés.

Le procédé comprend alors une étape 130 d’initialisation d’une fonction de prédiction entrainée sur la base de la donnée de référence.

La fonction de prédiction est propre à fournir pour un vecteur caractéristique d’un jeu de données et un ensemble d’hyper-paramètres, une estimation de l’indice de performance du modèle obtenu associé audit jeu de données à partir dudit ensemble d’hyper-paramètres.

Comme expliqué précédemment, la détermination de l’indice de performance est couteuse car pour évaluer un échantillon d’hyper-paramètres, il est nécessaire d’entraîner complètement un modèle et calculer la fonction de cout.

La fonction de prédiction permet de réduire le coût de cette étape. La fonction de prédiction est une modélisation qui estime l’indice de performance à partir d’un ensemble d’hyper paramètres, et donc sans qu’un modèle entrainé à partir de ces hyper-paramètres soit nécessaire.

La fonction de prédiction est avantageusement initialisée au moyen d’une méthode d’apprentissage automatique entraînée sur la base de données de référence. Cet entrainement est réalisé par exemple au moyen d'un apprentissage dit par transfert. Dans le cadre de l'apprentissage par transfert, la fonction est d’abord entraînée pour réaliser un certains nombre de tâches spécifiques sur la base de données de référence. La fonction entrainée est ensuite dans un deuxième temps ajustée pour réaliser sur une tâche différente avec un jeu de données différent. Les fonctions précédemment entraînées sont réutilisés comme points de départ pour les nouvelles tâches afin d’accélérer la formation et améliorer les performances sur les problèmes connexes.

Puis, la deuxième phase 200 est mise en œuvre, par l’un des deuxièmes calculateurs 14.

Lors de cette deuxième phase 200, l’objectif est de trouver un ensemble d’hyper paramètres pertinent pour un jeu de données d’intérêt, non compris dans la base de données de référence, sans avoir à tester au hasard une pluralité de combinaisons d'hyper-paramètres en effectuant l’entrainement pour chacune d'entre elles.

L’objectif est donc de rechercher des configurations d’hyper paramètres à fort potentiels.

A cet effet, la deuxième phase 200 comprend une étape 210 de sélection parmi la pluralité de jeux de données de référence, d’au moins un jeu de données de référence dit similaire au jeu de données d’intérêt à partir d’une fonction de similarité sur la base du vecteur caractéristique du jeu de données d’intérêt et des vecteurs caractéristiques des jeux de données de référence.

L'intuition est que les performances d'un algorithme d'apprentissage automatique donné avec un ensemble d'hyper-paramètres donné sont similaires lorsqu'elles sont évaluées sur des ensembles de données similaires.

Un parallèle peut être fait avec des plateformes de contenu vidéo en ligne. Si un premier utilisateur aime un certain film, on suppose qu'un deuxième utilisateur qui ressemble au premier utilisateur est susceptible d'aimer ce film. Ici, le défi consiste à définir objectivement ce que signifie le fait que deux utilisateurs se ressemblent. Par exemple deux utilisateurs se ressemblent éventuellement s'ils ont le même âge, vivent dans le même pays, passent un temps équivalent sur la plateforme, l'intersection de leurs listes de surveillance est élevée, etc.

Dans le cas présent, deux jeux de données sont dit similaires si leurs caractéristiques associées sont proches. A cet effet, la fonction de similarité permet de définir à partir des vecteurs caractéristiques si les jeux de données associés sont similaires. Par exemple, la fonction de similarité compte le nombre de caractéristiques égales entre les deux vecteurs caractéristiques. En variante, pour chaque caractéristique, la fonction de similarité permet de calculer la distance entre les deux valeurs et ainsi de calculer une distance globale entre deux jeux de données. Plus la distance est faible, plus les jeux de données sont dits similaires.

La deuxième phase 200 comprend alors, pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire, une étape 220 d’entrainement de la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction dudit d’ensemble d’hyper-paramètres.

A titre d’exemple, entre cinq et dix entrainements sont ainsi réalisés à partir des hyper-paramètres associés aux jeux de données de référence similaire.

Pour chaque modèle obtenu, la détermination de l’indice de performance pour chaque modèle obtenu est réalisée par la fonction d’évaluation.

Puis, lors d’une étape 230, la fonction de prédiction est affinée en fonction du ou des indices de performance obtenu pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire.

On entend par « affinage » que la fonction de prédiction est modifiée de sorte que les prédictions de cette fonction de prédiction soit plus proche des résultats attendus sur la base des entrainements réalisés et des indices de performance associés déterminés.

La deuxième phase 200 comprend alors une étape de détermination 240 d’un ensemble d’hyper-paramètres dit performant pour le jeu de données d’intérêt.

L’ensemble d’hyper-paramètres dit performant est l’ensemble d’hyper-paramètres associé à l’indice de performance estimé le plus élevé parmi tous les ensemble d’hyper-paramètres à disposition.

L’étape de détermination 240 comprenant une pluralité d’itérations des sous-étapes de:

sélection 244 d’un nouvel ensemble d’hyper-paramètres au moyen d’une méthode d’optimisation bayésienne,
estimation 246 au moyen de la fonction de prédiction de l’indice de performance du modèle obtenu à partir du jeu de données d’intérêt et fonction du nouvel ensemble d’hyper-paramètres.

A chaque itération, si l’ensemble d’hyper-paramètres performant est éventuellement remplacé par un nouvel ensemble d’hyper-paramètres performant si l’indice de performance estimé associé est supérieur. Sinon, l’ensemble d’hyper-paramètres performant est gardé.

La sous étape 244 de sélection est réalisée dans un espace éventuellement non-ﬁni dans lequel le deuxième calculateur 14 recherche des ensembles d’hyper paramètres pertinents.

La sous-étape 244 est avantageusement optimisé en recherchant les configurations d’hyper-paramètres par génération d’un espace de recherche restreint et adéquat.

A cet effet, l’étape de détermination 240 comprend avantageusement une sous étape initiale 242 de détermination d’un espace de recherche sous la forme d’une distribution représentant une densité de probabilités de pertinence associée à l’ensemble d’hyper-paramètres à partir du ou des ensembles d’hyper-paramètres associés aux jeux de données de référence similaires.

Chaque espace de recherche se présente sous la forme d’une distribution, par exemple sous la forme d’une gaussienne. Par exemple, si la majorité des jeux de données de référence similaires sont associés à un hyper-paramètre dont la valeur est toujours situé près d’une certaine valeur, la distribution se présente par exemple sous la forme d’une gaussienne centrée sur cette valeur afin d’inciter la recherche d’hyper-paramètres près de cette valeur tout en laissant une certaine liberté de cherche d’autres valeurs différentes dans le voisinage de cette valeur.

La méthode d’optimisation bayésienne sélectionne alors, lors de la sous étape 244, chaque nouvel ensemble d’hyper-paramètres performant en fonction de la distribution associée à l’espace de recherche.

L’optimisation bayésienne est une approche séquentielle connue en soi qui permet d’utiliser un petit nombre d’observations pour estimer un comportement plus global. En exploitant efficacement la connaissance accumulée, il est possible de minimiser le nombre d’observations et de converger rapidement vers la configuration qui maximise l’indice de performance.

En particulier, les hyper-paramètres et des indices de performance associés déjà connus sont utilisés pour inférer la probabilité des ensemble d’hyper-paramètres pas encore testés. Dans le cadre de l’optimisation bayésienne, le point de départ est un ensemble d’observations dont le résultat est déjà connu et pour chaque valeur en dehors de cet ensemble, la distribution de probabilité de l’évaluation de la fonction en ce point est déterminée.

Le choix du point utilisé pour l’évaluation suivante est soumis à un double critère. D’une part l’objectif est de gagner en connaissance sur le comportement de la fonction et donc choisir une zone de l’espace de recherche où l’inconnu est grand : c’est l’exploration. D’autre part, l’autre objectif est également de trouver le point qui minimise/maximise notre fonction : c’est l’exploitation. Ces deux notions sont matérialisées par les indicateurs tels que l’écart-type et la moyenne. Quand l’écart-type est grand, c’est que la zone est mal connue et donc intéressante à explorer. Quand la moyenne est petite/grande, c’est que la zone observée est intéressante pour trouver un minimum/maximum. Ce compromis entre exploration et exploitation est exprimé par une fonction d’acquisition. Cette fonction associe à chaque point de l’espace de recherche un potentiel pour être l’optimal. À chaque étape de l’optimisation bayésienne, le point choisi pour l’évaluation est celui qui maximise cette fonction d’exploitation.

L’estimation 246 au moyen de la fonction de prédiction de l’indice de performance du modèle obtenu permet d’accélérer la recherche en évaluant de façon approximative chaque configuration d’hyper-paramètres candidate sans la nécessité d’un entraînement complet explicite pour chaque configuration.

Avantageusement, l’étape de détermination 240 d’un ensemble d’hyper-paramètres performant comprend, régulièrement après un nombre prédéterminé d’itérations, un affinage 248 de fonction de prédiction.

Par exemple, l’affinage est réalisé toutes les quinze itérations de l’étape de détermination 240.

En particulier, l’affinage 248 comprend les sous-étapes de :

entrainement de la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction du nouvel ensemble d’hyper-paramètres associé à l’itération en cours ;
détermination de l’indice de performance du modèle obtenu ;
comparaison de l’indice de performance déterminé avec l’indice de performance estimé par la fonction de prédiction et affinage de la fonction de prédiction en fonction de la comparaison.

Puis, le procédé comprend une étape d’obtention 250 d’un modèle à partir du jeu de données d’intérêt et fonction de l’ensemble d’hyper-paramètres pertinent.

Ce modèle obtenu à partir de l’ensemble d’hyper-paramètres pertinent est donc celui présentant l’indice de performance le plus élevé parmi les ensembles d’hyper-paramètres testés.

Ce modèle est alors éventuellement utilisé par un opérateur en opération.

Avantageusement, le procédé comprend en outre une étape d’ajout 260 à la base de données de référence du jeu de données d’intérêt, du vecteur caractéristique, de l’ensemble d’hyper-paramètres performant et de l’indice de performance associés.

Ainsi, la base de données de référence est enrichie avec un nouvel ensemble d’hyper-paramètres performant associé à un jeu de données et ainsi le niveau de connaissance est enrichi pour les prochaines utilisations du procédé par un autre deuxième calculateur 14.

On comprend alors que l’invention présente un certain nombre d’avantages.

En effet, l’invention permet une détermination des hyper-paramètres de configuration plus rapide en utilisant la connaissance de configurations préalablement acquises sur des apprentissages automatiques précédents. Ainsi, la recherche d’hyper paramètres performants est accélérée par la connaissance a priori de ce que serait une configuration performante pour un jeu de données d’intérêt.

En outre, l’utilisation d’une fonction de prédiction de la performance d’une configuration, sans entraînement explicite des données, permet d'évaluer plus rapidement la performance potentielle d'une configuration d’hyper-paramètres donnée.

Ainsi, l’invention permet de résoudre le problème de « démarrage à froid » rencontré par les algorithmes de recherche conventionnels, de construire un espace de recherche comprenant les hyper-paramètres prometteurs, et d’accélérer les itérations de recherche en prédisant la qualité des hyper paramètres échantillonnés.

Enfin, l’invention permet d’offrir au moins la même qualité du modèle final qu’avec des méthodes de recherche d’hyper paramètres conventionnels, tout en étant bien plus rapide.

A titre d’exemple, de manière conventionnel, un « Data scientist » a besoin d’environ une semaine pour faire une cinquantaine d’itérations pour tester différents ensemble d’hyper-paramètres alors que l’invention permet d’obtenir un ensemble d’hyper paramètres en moins de 24 heures.

Claims

Procédé de détermination d’hyper-paramètres de configuration d’une méthode d’apprentissage automatique pour un jeu de données d’intérêt,
la méthode d’apprentissage automatique étant propre à prendre en entrée un jeu de données afin d’obtenir un modèle dudit jeu de données après un entrainement de la méthode d’apprentissage automatique sur ledit jeu de données ;
la méthode d’apprentissage automatique étant fonction d’un ensemble d’hyper-paramètres de configuration de l’entrainement ;
chaque modèle obtenu étant associé à un indice de performance déterminé par une fonction d’évaluation;
chaque jeu de données étant associé à un vecteur caractéristique comprenant une pluralité de caractéristiques dudit jeu de données ;
le procédé comprenant au moins les étapes suivantes :
pour une pluralité de jeux de données de référence, entrainement (110) de la méthode d’apprentissage automatique sur chaque jeu de données de référence en fonction d’une pluralité d’ensembles d’hyper-paramètres de test et détermination de l’indice de performance pour chaque modèle obtenu ;

génération (120) d’une base de données de référence, comprenant pour chaque jeu de données de référence, le vecteur caractéristique, l’ensemble d’hyper-paramètres de test et l’indice de performance associés ;

initialisation (130) d’une fonction de prédiction entrainée sur la base de la donnée de référence et propre à fournir pour un vecteur caractéristique d’un jeu de données et un ensemble d’hyper-paramètres, une estimation de l’indice de performance du modèle obtenu associé audit jeu de données à partir dudit ensemble d’hyper-paramètres ;

sélection (210) parmi la pluralité de jeux de données de référence, d’au moins un jeu de données de référence dit similaire au jeu de données d’intérêt à partir d’une fonction de similarité sur la base du vecteur caractéristique du jeu de données d’intérêt et des vecteurs caractéristiques des jeux de données de référence ;

pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire, entrainement (220) de la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction dudit d’ensemble d’hyper-paramètres et détermination de l’indice de performance pour chaque modèle obtenu ;

affinage (230) de la fonction de prédiction en fonction du ou des indices de performance obtenu pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire.
Procédé de détermination selon la revendication 1 comprenant en outre, suite à l’étape d’affinage (230), une étape de détermination (240) d’un ensemble d’hyper-paramètres dit performant pour le jeu de données d’intérêt comprenant une pluralité d’itérations des sous-étapes de:
sélection (244) d’un nouvel ensemble d’hyper-paramètres au moyen d’une méthode d’optimisation bayésienne,

estimation (246) au moyen de la fonction de prédiction de l’indice de performance du modèle obtenu à partir du jeu de données d’intérêt et fonction du nouvel ensemble d’hyper-paramètres,
l’ensemble d’hyper-paramètres dit performant étant l’ensemble d’hyper-paramètres associé à l’indice de performance estimé le plus élevé.
Procédé de détermination selon la revendication 2, comprenant en outre la détermination (242) d’un espace de recherche sous la forme d’une distribution représentant une densité de probabilités de pertinence associée à l’ensemble d’hyper-paramètres à partir du ou des ensembles d’hyper-paramètres associés aux jeux de données de référence similaires, la méthode d’optimisation bayésienne sélectionnant chaque nouvel ensemble d’hyper-paramètres performant en fonction de la distribution associé à l’espace de recherche.
Procédé de détermination selon la revendication 2 ou 3, comprenant en outre une étape d’obtention (250) d’un modèle à partir du jeu de données d’intérêt et fonction de l’ensemble d’hyper-paramètres pertinent.
Procédé de détermination selon l’une quelconque des revendications 2 à 4, comprenant en outre une étape d’ajout (260) à la base de données de référence du jeu de données d’intérêt, du vecteur caractéristique, de l’ensemble d’hyper-paramètres performant et de l’indice de performance associés.
Procédé de détermination selon l’une quelconque des revendications précédentes, dans lequel le vecteur caractéristique associé à chaque jeu de données comprend entre 10 et 30 caractéristiques dudit jeu de données.
Procédé de détermination selon l’une quelconque des revendications précédentes, dans lequel la fonction de prédiction est initialisée au moyen d’une méthode d’apprentissage automatique entraînée sur la base de données de référence.
Procédé de détermination selon la revendication 2, dans lequel l’étape de détermination d’un ensemble d’hyper-paramètres performant comprend, régulièrement après un nombre prédéterminé d’itérations, en outre les sous-étapes (248) de :
entrainement de la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction du nouvel ensemble d’hyper-paramètres associé à l’itération en cours ;

détermination de l’indice de performance du modèle obtenu ;

comparaison de l’indice de performance déterminé avec l’indice de performance estimé par la fonction de prédiction et affinage de la fonction de prédiction en fonction de la comparaison.
Procédé de détermination selon l’une quelconque des revendications précédentes, dans lequel l’étape d’entrainement (110) de la méthode d’apprentissage automatique suivie de l’étape de génération (120) d’une base de données de référence et de l’étape détermination (130) de la fonction de prédiction sont effectuées sur un premier calculateur (12),
l’étape de sélection (210) d’au moins un jeu de données de référence similaire suivi de l’étape d’entrainement (220) de la méthode d’apprentissage automatique et de l’étape d’affinage (230) sont effectuées sur un deuxième calculateur (14),
le premier calculateur (12) étant différent du deuxième calculateur (14).
Système électronique (10) configuré pour déterminer un ensemble d’hyper-paramètres de configuration d’un modèle d’apprentissage automatique pour un jeu de données d’intérêt,
la méthode d’apprentissage automatique étant propre à prendre en entrée un jeu de données afin d’obtenir un modèle dudit jeu de données après un entrainement de la méthode d’apprentissage automatique sur ledit jeu de données ;
la méthode d’apprentissage automatique étant fonction d’un ensemble d’hyper-paramètres de configuration de l’entrainement ;
chaque modèle obtenu étant associé à un indice de performance déterminé par une fonction d’évaluation;
chaque jeu de données étant associé à un vecteur caractéristique comprenant une pluralité de caractéristiques dudit jeu de données ;
le système électronique (10) comprenant :
un premier calculateur (12) configuré pour :

pour une pluralité de jeux de données de référence, entrainer la méthode d’apprentissage automatique sur chaque jeu de données de référence en fonction d’une pluralité d’ensembles d’hyper-paramètres de test et déterminer l’indice de performance pour chaque modèle obtenu ;

générer une base de données de référence, comprenant pour chaque jeu de données de référence, le vecteur caractéristique, l’ensemble d’hyper-paramètres de test et l’indice de performance associés ;

initialiser une fonction de prédiction entrainée sur la base de la donnée de référence et propre à fournir pour un vecteur caractéristique d’un jeu de données et un ensemble d’hyper-paramètres, une estimation de l’indice de performance du modèle obtenu associé audit jeu de données à partir dudit ensemble d’hyper-paramètres ;

un deuxième calculateur (14) configuré pour :

sélectionner parmi la pluralité de jeux de données de référence, au moins un jeu de données de référence dit similaire au jeu de données d’intérêt à partir d’une fonction de similarité sur la base du vecteur caractéristique du jeu de données d’intérêt et des vecteurs caractéristiques des jeux de données de référence ;

pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire, entrainer la méthode d’apprentissage automatique sur le jeu de données d’intérêt en fonction dudit d’ensemble d’hyper-paramètres et déterminer l’indice de performance pour chaque modèle obtenu ;

affiner la fonction de prédiction en fonction du ou des indices de performance obtenu pour chaque ensemble d’hyper-paramètres associé à l’au moins un jeu de données de référence similaire.
Programme d’ordinateur comportant des instructions logicielles qui, lorsqu’elles sont exécutées par un ordinateur, mettent en œuvre un procédé de détermination selon l’une quelconque des revendications 1 à 9.