FR3109232A1 - Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees - Google Patents

Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees Download PDF

Info

Publication number
FR3109232A1
FR3109232A1 FR2003637A FR2003637A FR3109232A1 FR 3109232 A1 FR3109232 A1 FR 3109232A1 FR 2003637 A FR2003637 A FR 2003637A FR 2003637 A FR2003637 A FR 2003637A FR 3109232 A1 FR3109232 A1 FR 3109232A1
Authority
FR
France
Prior art keywords
rule
variables
data
rules
explanatory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2003637A
Other languages
English (en)
Inventor
Christophe Geissler
Vincent Margot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advestis
Original Assignee
Advestis
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advestis filed Critical Advestis
Priority to FR2003637A priority Critical patent/FR3109232A1/fr
Publication of FR3109232A1 publication Critical patent/FR3109232A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Procédé technique de classification de données apte à être mis en œuvre sur un ordinateur de bureau, le procédé exploitant des données d’entrée d’un ensemble d’apprentissage comprenant : des co-variables Xi explicatives, décrites par un ensemble d’instances indexées par un ensemble d’individus Ik et un ensemble d’occurrence Tl ; les observations d’une variable Y d’intérêt ;caractérisé en ce que les données des co-variables Xi explicatives ne sont pas contenues dans un unique fichier, le procédé comprend les étapes suivantes : définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ; définition de la complexité de la règle ; discrétisation de l’espace des variables explicatives en M modalités ; recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ; sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.

Description

Titre
PROCEDE DE PREDICTION INTERPRETABLE PAR APPRENTISSAGE FONCTIONNANT SOUS RESSOURCES MEMOIRES LIMITEES
L’invention a trait aux algorithmes de prédiction, et notamment les algorithmes de prédiction exploitant des séries temporelles.
Par « séries temporelles » on désigne ici des données numériques évoluant dans le temps.
L’indice temps peut être, selon les cas, par exemple la minute, l’heure, le jour, l’année.
Les séries temporelles sont des variables dont on dispose d’un échantillon de donnéesD n = (X i ,Y i )1<=i<=noù pour toutidésignant le temps,X i est un ensemble de variables explicatives ou covariables, etY i une variable d’intérêt.
Idéalement, la prédiction des séries temporelles consiste à modéliser le système qui a généré les données de la série, par exemple par un système d’équations mathématiques déterministes.
En connaissant les conditions initiales, il serait alors possible de prévoir l’évolution du système.
Le plus souvent toutefois, les mécanismes ayant généré la série temporelle ne sont pas connus, et les seules informations disponibles sont les données passées.
La modélisation se résume alors à imiter les facteurs générateurs de données, à partir des données passées, sans expliciter les mécanismes en action.
Cette approche est à l’origine de la théorie statistique de l’apprentissage.
Les séries temporelles sont omniprésentes et apparaissent par exemples en météorologie, en biologie, dans le domaine médical, ou en économétrie.
La prédiction effectuée à partir des séries temporelles peut être utile, par exemples, pour la surveillance des patients dans les services médicaux, la détermination d’une charge de consommation d’énergie sur un réseau, la surveillance de l’état des forêts, la communication d’un taux de pollution de l’air, la maintenance prédictive, la prédiction du trafic automobile, l’optimisation de la valeur d’un portefeuille d’actifs.
La prédiction la plus simple à partir de séries temporelles passe par des approches linéaires et le calcul d’indices, tels que par exemple des indices de tendance centrale (moyenne, médiane), des indices de dispersion (variance), des indices de dépendance (auto-covariance, auto-corrélation).
L’on connait ainsi des modèles statistiques anciens de prédiction de séries temporelles univariées, ces modèles étant de type auto-régressifs (AR Auto-Regressive), moyenne mobile (MA Moving Average), ainsi que leurs combinaisons et variantes (ARIMA Autoregressive Integrated Moving Average,NARMA) et extension à la prédiction de séries temporelles multivariées, c’est-à-dire celles où plusieurs valeurs évoluent simultanément (VAR).
Les approches linéaires classiques supposent que les séries temporelles sont stationnaires et qu’elles présentent des dépendances linéaires dans le temps.
Les régressions linéaires postulent une relation de dépendance globale entre la variable à expliquer Y et les variables liées
Nest la dimension temporelle de l’échantillon d’observation,Vest le nombre de covariables,Zest l’erreur d’estimation,Aréalise
Les régressions linéaires présentent plusieurs inconvénients, en particulier une fragilité aux valeurs manquantes.
Par ailleurs, lorsqueVest très supérieur à 1, les coefficients de régression sont incontrôlables.
Cet inconvénient a conduit à pénaliser les coefficients en norme L1 (Lasso), ou L2 (Ridge), dans lesquelsAréalise
αétant un paramètre de contrôle.
L’on connait également des modèles non linéaires de prédiction de séries temporelles univariées (ARCH,GARCH).
Les séries temporelles peuvent également être projetées dans des espaces définis par des descripteurs statiques, par exemple transformation de Fourier, par ondelettes, ou décompositions polynomiales.
Les algorithmes d’intelligence artificielle pour la prédiction se sont largement développés ces dernières années, notamment pour la prédiction de l’état de santé de patients, même s’il existe des résistances à leur adoption.
De tels algorithmes peuvent apparaître comme concurrents du personnel professionnel, dans la mesure où ces algorithmes sont construits en vue d’éliminer des biais de jugement et de synthétiser des signaux contradictoires.
De tels algorithmes peuvent en outre apparaître comme opaques dans leurs fonctionnements.
L’invention concerne notamment les algorithmes de prédiction exploitant des séries temporelles issues de systèmes dynamiques qui présentent des irrégularités, par exemple des systèmes déterministes non-linéaires ou chaotiques.
L’invention concerne également les algorithmes de prédiction exploitant des échantillons de donnéesD n = (X i ,Y i )1<=i<=noù pour toutidésignant le temps,X i est un ensemble de variables explicatives etY i une variable d’intérêt, les donnéesDétant modélisées par des variables aléatoires indépendantes, les suites de variables (X 1 ,Y 1 ), (X 2 ,Y 2 )…(X n ,Y n ) ne suivant pas une même loi inconnue.
L’invention trouve en outre des applications avantageuses lorsque l’indépendance des observations n’est pas réaliste ou peu probable, par exemple lorsque la variable d’intérêt est le taux de pollution de l’air, ou le rythme cardiaque d’un patient, ou encore la valeur d’un actif dans un portefeuille.
L’invention concerne notamment les algorithmes de prédiction exploitant des séries temporelles et mettant en œuvre un apprentissage, c’est-à-dire la construction de règles pour le traitement automatique des données.
De tels algorithmes de prédiction ont été proposés dans l’état de la technique, en particulier machines à vecteur support, forêts aléatoires, réseaux de neurones.
Les machines à vecteur support (SVM Support Vector Machine) travaillent à partir de classes de fonctions hypothèses, consistant en hyperplans d’un espace de caractéristiques, implicitement défini à partir de l’espace original, par une transformation non linéaire, construite via un noyau.
L’algorithme SVM comprend une première phase d’apprentissage, consistant à déterminer un modèle de classification à partir des échantillons du jeu d’entraînement.
Une deuxième phase consiste ensuite à appliquer le modèle à la totalité de la population à classer.
Le document CN 106419936 (Shenzhen Oudmon Tech) décrit l’utilisation d’une machine à vecteur support pour l’évaluation de l’état émotionnel d’une personne, par analyse de séries temporelles de photopléthysmographie.
Le document EP 3011895 décrit l’utilisation de machines à vecteur support pour la classification de signaux d’électroencéphalogrammes.
Les forêts aléatoires (RF Random Forest) mettent en œuvre une séparation des classes par un ensemble d’arbres de décision générés aléatoirement.
Ces arbres de décision sont appliqués à des sous-ensembles du jeu d’entraînement en phase d’apprentissage.
Le modèle final est ensuite appliqué à l’ensemble de la population à classer.
Le document EP 3564853 décrit l’utilisation de forêts aléatoires pour le traitement des obstacles par un véhicule autonome.
Les algorithmes de référence pour les arbres de décision sont ID3 (Iterative Dichotomiser), C4.5 et CART.
Lors de la construction d’un arbre de décision, un critère de pureté comme l’entropie (utilisé dans C4.5) ou Gini (utilisé dans CART) est employé pour transformer une feuille en nœud.
Des versions incrémentales des arbres de décision sont proposées (ID4, ID5R, ITI).
Un exemple d’utilisation d’arbre de décision CART pour l’aide au diagnostic d’athérosclérose est présenté en février 2020 parGhiasi et al, Decision tree-based diagnosis of coronary artery disease : CART model, Computer Methods and Programs in Biomedecine 192.
Les données utilisées concernent 303 patients et 55 paramètres indépendants.
Le développement du modèle est effectué sur un ordinateur de bureau (CPU 2,93 GHz, 8 GB RAM).
Les réseaux de neurones (ANN Artificial Neural Networks) consistent en l’association en un graphe de neurones formels, modèles caractérisés par un état interne, des signaux d’entrée et une fonction d’activation effectuant une transformation d’une combinaison affine des signaux d’entrée.
Cette combinaison est déterminée par un vecteur de poids associé à chaque neurone et dont les valeurs sont estimées durant la phase d’apprentissage.
Pour obtenir un système totalement non linéaire, le réseau de neurones doit comporter au moins une couche intermédiaire, appelée généralement couche cachée.
Le document US2018336452 (Sap) décrit un système de prédiction des incendies de forêt utilisant un réseau de neurones.
Les réseaux de neurones présentent plusieurs inconvénients.
En particulier, il est a priori impossible de connaître l’influence effective d’une variable d’entrée sur le système, notamment dès qu’une couche cachée intervient.
Ce fonctionnement en boite noire contraint fortement l’interprétation des résultats obtenus.
Il semble par ailleurs que les performances des réseaux de neurones chutent lorsque l’on augmente l’horizon de prédiction ou lorsque l’on augmente la dimension des données.
Les méthodes algorithmiques de l’état de la technique présentent plusieurs inconvénients.
Les algorithmes existants ne sont que peu voire pas interprétables ou transparents.
En d’autres termes, ils ne permettent pas de connaître les variables d’entrée qui ont une influence sur la prédiction.
Cet inconvénient est particulièrement présent pour les algorithmes mettant en œuvre des réseaux de neurones avec ou sans apprentissage profond.
Lorsque les algorithmes de l’état de la technique sont relativement interprétables ou transparents, leur capacité de prédiction est faible lorsque les relations entre variables d’entrée et variables de sortie sont complexes.
Cet inconvénient est particulièrement présent pour les algorithmes mettant en œuvre des arbres de décision, ou des machines à vecteur support.
Les algorithmes existants ont une faible tolérance par rapport aux données manquantes.
Or, les données réelles dans les différentes applications scientifiques, industrielles, médicales ou financières de prédiction présentent souvent des plages manquantes ou incomplètes.
Un prétraitement des données peut certes être effectué, en inférant les données manquantes à base d’heuristiques.
Par exemple, la donnée manquante peut être remplacée par la moyenne des valeurs observées sur une séquence, ou par la dernière valeur observée sur la séquence.
Ce prétraitement est toutefois long et couteux.
L’invention concerne plus particulièrement les algorithmes d’intelligence artificielle, de prédiction, mettant en œuvre une construction de règles par agrégation supervisée.
De tels algorithmes sont connus dans l’art antérieur, sous différentes formes.
Le document Patra (Apprentissage à grande échelle, contribution à l’étude d’algorithmes de clustering répartis asynchrones, 2012) propose de mesurer les performances d’une stratégie de prévision quantile à l’aide d’une fonction de perte
une stratégie étant d’autant plus précise que la fonction de perte est petite.
La stratégie de prévision repose sur une agrégation d’experts, chacun des prédicteurs fondamentaux étant fondé sur la technique des plus proches voisins, les prédictions étant agrégées avec des poids dépendant directement de leurs performances passées.
Le poids d’un expert dans l’agrégat évolue ainsi au fur et à mesure du temps et est d’autant plus important que les prévisions passées de l’expert considéré ont été satisfaisantes.
Selon Patra, cette stratégie de prévisiongest universellement convergente.
En d’autres termes, pour tout processus stationnaire et ergodique on a la convergence suivante
L*est la plus petite perte asymptotique moyenne possible pour une stratégie de prévision.
Pour assurer la manipulation de grosses quantités de données, Patra propose un clustering, les séries temporelles étant séparées en sous-groupes présentant des similarités.
Le document Guedj (Agrégation d’estimateurs et de classificateurs : théorie et méthodes, 2013), rappelle que, selon le formalisme issu de la théorie de l’information, le risque associé à un estimateur, dans sa version empirique construite sur l’échantillonDnest noté
oulest la fonction de perte, par exemple quadratique.
Guedj présente l’implémentation de méthodes d’agrégation à poids exponentiels.
Une présentation des différentes stratégies d’agrégation d’experts peut être trouvée dans le documentSoltz Aggrégation séquentielle de prédicteurs : méthodologie générale et applications à la prévision de la qualité de l’air et à celle de la consommation électrique, Journal de la société française de statistique, vol 151, n°2, 2010.
Le document Margot et al (Rule Induction Partitioning Estimator, ISSN 0302-9743, pp 288-301) décrit un algorithme (RIPE) sélectionnant, à partir d’un échantillon (Xi, Yi)1<=i<=n, un ensemble de règles de type « Si A alors B », les conditions A étant des évènements du type {X ∈ r}, r étant un hyperrectangle.
L’ensemble des hyperrectangles est ensuite transformé en une partition de l’espace permettant de construire un estimateur universellement consistant.
L’algorithme sélectionne un sous ensemble de règlesS n dans un ensemble de règles générées sur la base d’une condition de minium de l’erreur moyenne de prédiction
La demanderesse a constaté que l’algorithme RIPE est bien adapté pour des données statiques identiquement distribuées, et n’exploite pas de manière satisfaisante la structure temporelle des données.
La demanderesse a constaté que les algorithmes d’apprentissage supervisé de l’état de la technique, notamment ceux disponibles dans les librairies publiques, exigent que les données soient rassemblées dans un fichier ou matrice unique.
Or, la taille de cette matrice en mémoire vive peut facilement excéder les possibilités d’une machine ordinaire, notamment lorsque le nombre de variables est important.
Dès lors que le problème de classification porte sur des entités complexes, comme par exemple des patients dans un centre médical, le nombre total de variables peut être de plusieurs milliers.
La totalité des données à prendre en compte croise dont l’ensemble des variables, l’ensemble des entités et l’ensemble des instances d’observations, par exemple à différents instants.
Cet ensemble de données occupe donc une taille mémoire proportionnelle au nombre de variables et peut se révéler rapidement impossible à charger en une seule fois.
Les modules standards de machine learning ne peuvent donc pas opérer sur ces ensembles de données.
Pour éviter un temps d’accès aux données sur disque dur, il est connu d’accéder aux données sous forme de flux, à l’aide d’algorithmes en ligne, utilisant des méthodes d’échantillonnage, de résumé de données ou de calcul distribué.
Pour limiter le temps de calcul et les besoins en mémoire, il a été proposé de construire le modèle au fur et à mesure de l’arrivée des données en utilisant un algorithme d’apprentissage incrémental, capable de mettre à jour son modèle à l’aide des nouvelles données, sans avoir besoin de toutes les revoir.
De nombreux algorithmes incrémentaux existent, mais leurs besoins en ressource mémoire et processeur ont une croissance non linéaire avec la taille des données.
On connaît dans l’art antérieur différentes approches pour générer un modèle à partir de données ne pouvant être toutes chargées en mémoire : les données peuvent être découpées en plusieurs ensembles (chunks) et/ou utiliser des techniques de parallélisassions de l’algorithme d’apprentissage.
L’apprentissage hors lignes correspond à l’apprentissage d’un modèle sur un jeu de données disponible au moment de l’apprentissage.
Ce type d’apprentissage est réalisable sur des volumes de taille faible, jusqu’à quelques giga-octets (GO).
Au delà, le temps d’accès et de lecture des données devient prohibitif, et il devient difficile de réaliser un apprentissage qui ne prenne pas des heures ou des jours.
L’invention vise à pallier les inconvénients des algorithmes connus dans l’état de la technique, en particulier pour la prédiction à partir de séries temporelles.
Un premier objet de l’invention est une méthode algorithmique d’exploitation de séries temporelles ne présentant pas les inconvénients des méthodes antérieures et permettant une mise en œuvre sur une machine de bureau, telle qu’un ordinateur personnel, dont les ressources en mémoire vive (RAM) sont limitées.
Un deuxième objet de l’invention est de fournir une telle méthode algorithmique consommant des ressources de mémoire vive indépendantes du nombre de variables descriptives dans le problème de classification.
Un troisième objet de l’invention est de fournir une telle méthode algorithmique pouvant opérer sur des données contenues dans des fichiers situés sur des supports séparés.
Un quatrième objet de l’invention est de fournir une telle méthode algorithmique fournissant des commentaires explicatifs associés à la classification d’observations numériques, les commentaires explicatifs étant exprimés comme des conditions simples portant sur les variables retenues par les utilisateurs pour la classification.
Un cinquième objet de l’invention est de fournir une telle méthode algorithmique fournissant des commentaires explicatifs ayant la forme de règles d’association du type « si condition 1 et condition 2 et… condition n, alors la variable d’intérêt appartient à la classe K ».
Un autre objet de l’invention est une telle méthode algorithmique, notamment pour l’exploitation de séries temporelles, ne présentant pas les inconvénients des méthodes antérieures et permettant en particulier une prévision interprétable.
Un autre objet de l’invention est une telle méthode algorithmique, en particulier d’exploitation de séries temporelles, permettant le traitement de données structurées massives.
Un autre objet de l’invention est une telle méthode algorithmique, pour l’exploitation de séries temporelles par apprentissage.
Un autre objet de l’invention est de fournir une telle méthode algorithmique permettant de révéler les variables influentes dans la prévision, et donc dans les décisions prises sur la base de ces prévisions.
A ces fins, il est proposé, selon un premier aspect, un procédé technique de classification de données apte à être mis en œuvre sur un ordinateur de bureau, le procédé exploitant des données d’entrée d’un ensemble d’apprentissage comprenant :
- des co-variables Xiexplicatives, décrites par un ensemble d’instances indexées par un ensemble d’individus Iket un ensemble d’occurrence Tl;
- les observations d’une variable Y d’intérêt ;
les données des co-variables Xiexplicatives étant contenues dans des fichiers distincts, le procédé comprend les étapes suivantes :
  • définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ;
  • définition de la complexité de la règle ;
  • discrétisation de l’espace des variables explicatives en M modalités ;
  • recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ;
  • sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.
Les données des co-variables explicatives peuvent se trouver dans différents répertoires, dans différents lecteurs d’un réseau, dans différents périphériques externes.
Une règle est ainsi un objet de type
tel que
  • la conditionSiteste si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives
  • l’implication est la valeur prédite par la règle sur la condition est vérifiée, avec
  • la complexité d’une règle étant définie par
Avantageusement, le procédé comprend une détermination de l’acceptabilité d’une règle, cette détermination comprenant les étapes suivantes :
- calcul de la couverture de la règle ;
- calcul de la significativité de la règle ;
- vérification de ce que la couverture de la règle est comprise entre deux valeurs prédéterminées ;
- vérification de ce que la significativité de la règle est supérieure à une valeur prédéterminée ;
- calcul d’un gain pénalisé.
Avantageusement, une règle est acceptable uniquement si la condition de couverture, la condition de significativité, et la condition sur les gains sont vérifiées.
La condition de significativité peut ainsi être avantageusement exprimée comme suit :
n(r,D n ) désignant le nombre d’observations de l’ensembleD n qui satisfont les conditions de la règler.
La condition de couverture peut avantageusement être exprimée comme suit :
c min etc max étant deux constantes vérifiant 0 <c min <c max < 1.
Avantageusement, le procédé comprend une étape de vérification de ce qu’une condition sur le gain pénalisé est vérifiée.
Dans certaines mises en œuvre, la condition sur les gains est exprimée comme suit :
où Δ est une période fixée etγ rune pénalisation dépendante de la règle.
Avantageusement, le procédé est mis en œuvre sur un ordinateur de bureau dont la mémoire vive est d’une capacité inférieure à 20 GO.
L’invention se rapporte, selon un deuxième aspect, à un procédé d’apprentissage par ordinateur d’une commande d’un système technique, le procédé mettant en œuvre une classification technique de données tel que présenté ci-dessus, le procédé d’apprentissage étant basé sur des séries temporelles sous la forme d’un échantillon de donnéesD n =(Xi, Yi)1<=i<=noù pour tout i,X i est un ensemble de variables explicatives etY i une variable d’intérêt.
L’invention se rapporte, selon un troisième aspect, à un support lisible par ordinateur sur lequel sont stockées des instructions lisibles par machine pour exécuter un procédé tel qu’il vient d’être présenté.
D’autres objets et avantages de l’invention apparaîtront à la lumière de la description de modes de réalisation, faite ci-après, en référence aux dessins annexés dans lesquels :
est un schéma illustrant l’élimination de règles similaires, dans la mise en œuvre d’un procédé alternatif d’apprentissage supervisé disponible dans les librairies publiques ;
est un graphe représentant la profondeur explicative des règles obtenues par un procédé selon l’invention ;
[Fig.3] est un graphe représentant la profondeur explicative des règles obtenues par un procédé alternatif d’apprentissage supervisé disponible dans les librairies publiques.
L’invention propose un algorithme de prédiction exploitant des données de séries temporelles, l’algorithme mettant en œuvre un apprentissage, c’est-à-dire la construction de règles de décision et d’inférence pour le traitement automatique des données.
Les séries temporelles sont des variables dont on dispose d’un échantillon de donnéesD n = (X i ,Y i )1<=i<=noù pour touti,X i est un ensemble de variables explicatives etY i une variable d’intérêt.
L’on souhaite prédireYconditionnellement àX.
Les observations (X i ,Y i )1<=i<=nsont modélisées par des variables aléatoires.
On suppose que les variables explicatives et les variables d’intérêts appartiennent à des ensembles mesurables.
Les observations sont modélisées par des variables aléatoires suivant une même loi ou non, indépendantes ou non.
L’hypothèse d’indépendance des observations n’est pas retenue lorsque le phénomène observé la rend peu réaliste, comme par exemple dans le cas de la surveillance de la pollution de l’air.
Pour une application mesurable appelée prédicteur est défini un risque et la prévision consiste à trouver, à l’aide des donnéesD n uniquement, un prédicteur tel que son risque est minimal.
La loi suivie par les variables étant inconnue, le risque est celui d’une règle d’apprentissage (ou estimateur) lié à l’échantillonD n défini par
Dans l’algorithme, la fonction de contrastecest avantageusement la fonction de contraste quadratique.
Un expertf i de poids Πiest une fonction constante en son premier argument et qui vaut l’espérance empirique deYsachantX:
Au moins un sous ensemble d’expert est identifié par minimum de contraste, soit
en prenant le contraste quadratique.
Le prédicteur est construit sous la forme d’une agrégation d’experts, via une stratégieS
avec
Le prédicteur peut ainsi s’écrire aussi sous la forme d’un estimateur linéaire de la fonction de régression :
avec
L’on dispose ainsi d’un estimateur de la fonction de régression et d’un prédicteur ayant des performances comparables à celles de la meilleure combinaison convexe du sous ensemble d’experts identifié.
Le procédé selon l’invention d’apprentissage par ordinateur permet une commande d’un système technique.
Le système technique est par exemple un système d’alerte à usage médical, signalant un risque pour un patient, au vu de l’analyse de séries temporelles de rythmes cardiaque.
Le système technique est, dans un autre exemple, un système de trading.
Le procédé selon l’invention est basé sur l’analyse de séries temporelles sous la forme d’un échantillon de donnéesD n = (X i ,Y i )1<=i<=noù pour touti,X i est un ensemble de variables explicatives etY i une variable d’intérêt.
Le procédé comprend les étapes suivantes :
- définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ;
- définition de la complexité de la règle ;
- discrétisation de l’espace des variables explicatives en M modalités ;
- recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ;
- sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.
Une règle est ainsi un objet de type
tel que
  • la conditionSiteste si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives
  • l’implication est la valeur prédite par la règle sur la condition est vérifiée, avec
  • la complexité d’une règle étant définie par
Le procédé comprend avantageusement une détermination de l’acceptabilité d’une règle, cette détermination comprenant les étapes suivantes :
- calcul de la couverture de la règle ;
- calcul de la significativité de la règle ;
- vérification de ce que la couverture de la règle est comprise entre deux valeurs prédéterminées ;
- vérification de ce que la significativité de la règle est supérieure à une valeur prédéterminée ;
- calcul d’un gain pénalisé.
Une règle est acceptable uniquement si la condition de couverture, la condition de significativité, et la condition sur les gains sont vérifiées.
La condition de significativité peut ainsi être avantageusement exprimée comme suit
La condition de couverture peut avantageusement être exprimée comme suit :
La condition sur les gains peut être exprimée comme suit :
où Δ est une période fixée etγ rune pénalisation dépendante de la règle.
Les algorithmes selon l’invention exploitent ainsi la structure temporelle des données, au moyen d’une fonction de gain pénalisée.
La fonction de gain pénalisée combine avantageusement l’espérance conditionnelle des règles, leur fréquence d’occurrence et une mesure de la régularité spectrale des activations des règles.
L’invention permet ainsi de prendre en compte l’intensité et la fréquence des signaux, pour la recherche d’évènements rares à forte intensité et la recherche de signaux faibles et récurrents.
Une application de l’invention est l’extraction de signaux prédictifs à partir de données extra financières portant sur des entreprises, par exemple les notations au regard de la politique RSE des organisations.
Le procédé selon l’invention permet de montrer l’existence d’un lien entre performance financière et critères extra financiers de type ESG.
Le procédé selon l’invention est ainsi avantageusement utilisé dans l’extraction de signaux prédictifs pour la gestion d’actifs.
Avantageusement, la mise en œuvre du procédé est effectuée en plusieurs étapes.
Dans une première étape, une première preuve de concept est effectuée sur la base d’une simulation de portefeuilles.
Dans une deuxième étape, une extension de la preuve de concept est effectuée, à des données de notes d’analystes sur les sociétés, ces données présentant une qualité très supérieure aux données brutes issues du web ou des réseaux sociaux.
Dans une troisième étape, un module de visualisation est créé, présentant les indications données par l’algorithme d’apprentissage et s’appuyant sur un algorithme de recherche de configurations proches d’une configuration donnée, dans une base historique.
Une autre application de l’invention est l’extraction de signaux prédictifs à partir de données portant sur des patients, par exemple en service de réanimation.
Les données sont par exemple le rythme cardiaque.
Lorsque des décisions médicales sont prises sur la base de prévisions fournies par des algorithmes, les exigences des assureurs et les attentes des familles ne sont pas compatibles avec un fonctionnement de type boite noire, dans lequel aucune indication ne peut être trouvée sur les variables ayant participé à une prédiction.
L’invention fournit avantageusement des commentaires explicatifs associés à la classification des données médicales.
Exemple comparatif
Les performances du procédé selon l’invention vont être présentées en comparaison avec celles d’un « procédé alternatif » issu de l’état de la technique.
Plus précisément, un ensemble de données numériques massives a fait l’objet d’un traitement par apprentissage supervisé selon l’invention, et d’un traitement à l’aide d’un procédé d’apprentissage supervisé utilisant des moyens de l’état de la technique (« procédé alternatif »), ces moyens étant présents dans des librairies publiques d’apprentissage supervisé.
Il va être présenté ci-dessous un procédé technique de classification de données selon l’invention, opérant sur un ordinateur de bureau à ressources limitées en mémoire vive.
Le procédé selon l’invention fournit des commentaires explicatifs associés à la classification d’observations numériques.
Ensemble de données traitées lors de la mise en œuvre de l’exemple comparatif
L’ensemble de données est constitué d’une variable d’intérêt Y à prédire et de co-variables X i (i∈ 1…V).
Y et chacun des X i sont décrites par un ensemble d’instances indexées par :
  • un ensemble d’individus I k ,k∈ 1..K.
  • un ensemble d’occurrences T l ,l∈ 1..L. Les occurrences sont ordonnées selon les relations T1< T2< ...TL
Chaque observation d’une variable X i se note donc
et correspond à la mesure de l’attribut X i effectuée sur l’individu Iklors du relevé d’occurrence Tl.
De même, l’observation correspondante de la variable Y est notée Yk,l.
Les variables prennent des valeurs dans
nan étant une valeur non numérique attribuées aux valeurs non renseignées.
Cahier des charges de l’essai comparatif
Afin de mener la comparaison à parité, les deux procédés sont soumis au même cahier des charges.
Les données d’entrée sont :
  • un ensemble de covariables X i (i∈ 1…V) et une variable d’intérêt Y, classifiable en M classes. La donnée des covariables X i (i∈ 1…V) et de Y constitue l’ensemble d’apprentissage ;
  • une consigne de complexité maximale. La valeur de 2 a été retenue pour cet exemple. Une complexité K implique de vérifier 2xk conditions sur les variables ;
  • une condition de significativité statistique minimum ;
  • une condition de couverture relative minimum. La valeur de 5% a été retenue dans cet exemple ;
  • une condition de taux d’intersection maximum entre deux règles. La valeur de 80% a été retenue pour cet exemple.
Les données de sortie : fournir une liste de règlesRjsatisfaisant aux quatre conditions présentées ci-dessus (consigne de complexité maximale, condition de significativité statistique minimum, condition de couverture relative minimum, condition de taux d’intersection maximum entre deux règles). Ces règles doivent s’appliquer à l’ensemble des données, et n’être spécifiques ni à un individu particulier, ni à une occurrence particulière.
Les objectifs sont :
  • consommer en cours d’exécution une quantité de mémoire vive maximale indépendante du nombre de variables ;
  • maximiser la moyenne de la profondeur explicative sur l’ensemble des exemples d’apprentissage.
Définitions utilisées
Une règleR j est définie par
  • des conditions portant sur k co-variables
  • une affectation de classification
associée aux conditions.
La complexitéc(R j ) est le nombre v de co-variables présentes dans les conditions de la règle.
L’ensemble d’activation Act (R) d’une règle R est l’ensemble des paires
vérifiant la règle
Par convention, on a
ce qui implique qu’une observation manquante d’une variable ne peut jamais appartenir à l’ensemble d’activation d’une règle contenant cette variable.
La couverture cov(R) d’une règle est définie par
La couverture relative rcov(R) d’une règle est définie par
Le taux d’intersection entre deux règles R et R’ est défini par
Le contexte explicatifExpl(i,k) d’une observation indexée
est l’ensemble des observations défini par
Il s’agit donc de l’ensemble des règles qui englobent une observation donnée dans leur ensemble d’activation.
La profondeur explicativeexpl_d(i,k) d’une observation indexée est définie par la taille du contexte explicatif de ce point, soit
Le jeu de données utilisé lors de la mise en œuvre de l’exemple comparatif
Les données correspondent àV=1009 attributs numériquesX i concernantK=657 individus selonL=1850 occurrences, et un vecteur de résultats Y également renseigné pour lesKindividus et lesLoccurrences.
Le nombre total de cellules est donc de (V+1)KL=1.23 109.
L’occupation en mémoire vive d’un tel ensemble dépend de la représentation des nombres flottants dans le langage utilisé. Dans le cas du langage Python, utilisé dans cet exemple comparatif, les nombres flottants sont codés sur 8 octets (64 bits). La taille de la matrice totale en mémoire est donc de 9,8 GO.
Afin que les règles conservent un caractère interprétable, les attributs numériques
sont discrétisés en cinq modalités.
Imputation des valeurs manquantes
Les modules d’arbres de décision de Scikit-Learn ne permettent pas de traiter les valeurs manquantes dans les variables. Si, pour un indice
et un individuI k , on a
c’est à dire si l’attribut Xin’est pas renseigné pour l’occurrence T l de l’individuI k , alors aucune comparaison ne pourra être faite sur cet attribut et l’ensemble des occurrences de cet attribut pour l’individuI k sera ignoré.
Le procédé selon l’invention rejette uniquement les occurrences non renseignées d’un attribut lorsqu’elles interviennent dans une règle.
Pour permettre une comparaison, il est donc nécessaire de définir une stratégie d’imputation des valeurs manquantes, dans le procédé alternatif.
La stratégie d’imputation des valeurs manquantes définie dans le procédé alternatif est la suivante. Pour un individuI k et un attributX i , si l’occurrenceT l est manquante,
alors on effectue l’imputation selon la dernière occurrence connue:
Si aucune occurrence précédente n’est renseignée, alors l’imputation est effectuée selon la valeur moyenne pour l’occurrence 0, des observations prises pour tous les individus possédant un attribut
différent de nan. Par convention, la moyenne d’une observation sur un ensemble vide d’individus est fixée à zéro.
Mise en œuvre du procédé selon l’invention
Le procédé selon l’invention est mis en œuvre sur un ordinateur de bureau.
Les données d’entrées comprennent :
  • les fichiers contenant les variablesX i . Ces fichiers peuvent se trouver dans des répertoires, des lecteurs réseau ou des périphériques séparés;
  • le fichier contenant les observations de la variable Y;
  • un fichier de consignes d’entrées.
Les consignes d’entrée comprennent:
  • l’information relative à la localisation physique des fichiers,
  • le nombre maximum de variables utilisées dans une règle (complexité), fixée à deux pour cet exemple;
  • le taux d’intersection maximum entre deux règles, fixé à 0,8 pour cet exemple;
  • le nombre de modalités selon lequel les variablesX i sont discrétisées, fixé à cinq pour cet exemple;
  • des seuils de significativité statistique pour la rétention des règles.
Les données de sortie sont un fichier contenant la description des règles retenues par l’algorithme.
Chaque rège est décrite par des bornes portant sur deux co-variables:
Un exemple de transcription de règle en langage naturel est donné dans le tableau ci-dessous. Chaque règle comporte deux variables. Les bornes respectives des variables sont Bmin et Bmax. La transcription en langue naturelle de la règle est donnée dans la colonne “description”.
Mise en œuvre du procédé alternatif
Le procédé alternatif de comparaison utilise les arbres de décision.
Dans cet exemple comparatif, le même jeu de données est utilisé.
Les modules CART (Classification and regression Tree) de la librairie publique Scikit-Learn sont utilisés.
Comme pour les autres modules d’apprentissage supervisé de l’état de la technique, le module CART s’exécute en chargeant en mémoire l’ensemble des données. Cette exigence rendrait la mise en œuvre potentiellement inopérante pour un nombre de variable élevé.
Pour contourner cette difficulté, un arbre de décision est construit pour chaque individu, soit 657 arbres pour le jeu de données utilisé.
Le nombre de cellules chargées simultanément est ainsi limité à l’ensemble des observations relatives à cet individu, dont la taille est VL=1866650.
La boucle suivante est mise en œuvre.
Pour chaque individuX i :
  • la construction d’un arbre à partir des variables de l’individuX i est effectuée par appel au module CART;
  • les caractéristiques de cet arbre sont sauvegardées sur disque;
  • la mémoire est vidée pour le prochain arbre.
La profondeur d’un arbre est fixée à 4. Cette profondeur est à parité avec la complexité maximale de 2, fixée comme consigne pour le procédé selon l’invention.
Transformation des arbres en règles
Un arbre de décision correspond à une procédure dichotomique de classification d’individus, base sur la comparaison de certaines co-variables à des seuils.
L’ensemble des résultats possibles de comparaisons entre les variables et les seuils correspondants constitue une branche de l’arbre.
L’ensemble des individus identifiés par les conditions d’une branche constitue une feuille de l’arbre.
Ces conditions sont directement exprimables sous forme d’une règle, dont les variables ne sont autres que les variables intervenant le long de la branche.
La complexité de la règle obtenue est égale au nombre de variables.
Les feuilles de l’arbre fournissent une partition de l’ensemble des observations au moyen de règles.
La transformation en règles des arbres construits à l’étape précédente donne environ 13000 règles.
Vérification des règles
Les règles obtenues à l’étape précédente sont chacune spécifiques à un individu, alors que le cahier des charges impose de fournir des règles générales valables pour l’ensemble des individus.
Il est donc nécessaire de filtrer les règles obtenues et de ne conserver que celles qui satisfont le critère de significativité statistique pour l’ensemble des individus.
Cette étape peut être complétée au moyen d’une boucle sur les individus, en ne chargeant que les variables intervenant dans la règle.
La vérification de la significativité des règles se fait dans l’ensemble d’apprentissage.
Seules les règles passant le test de significativité sur l’ensemble des individus sont conservées. Un total de 2725 règles et alors obtenu, contre environ 13000 avant filtrage. Cette étape de vérification prend environ neuf heures.
Elimination des règles redondantes
Après la vérification, les règles sont filtrées. En construisant un arbre par individu, il se peut qu’une même règle apparaisse dans différents arbres. L’objectif étant de produire un ensemble de règles s’appliquant uniformément à l’ensemble des individus, le procédé alternatif élimine les règles syntaxiquement identiques, définies par des conditions identiques sur les mêmes variables.
Dans une étape suivante, afin de réduire le nombre de règles, un second filtrage est effectué.
Ce second filtrage vise à éliminer les règles ayant des ensembles d’activation trop proches. Cette étape élargit l’élimination des règles identiques à celles de règles simplement similaires.
La figure 1 illustre la stratégie appliquée.
Dans une première étape, les règles sont triées selon un critère de qualité métier variant en fonction de l’application. La règle ayant le meilleur critère est automatiquement conservée.
Dans une deuxième étape, le nombre de points qui activent la règle (r1) est calculé, ainsi que le nombre de points qui activent la seconde règle (r2) et le nombre de points activant les deux règles (r1&r2). Ce nombre de points en commun ne doit pas dépasser 80% de r1ou r2, pour que la seconde règle soit conservée. Cette condition correspond à la première ligne de la figure 1.
Les règles suivantes sont traitées de la même manière, la différence étant que la règle r1est remplacée par le nombre de points activant au moins une des règles déjà sélectionnées. Ceci correspond à la deuxième ligne de la figure 1.
Cette étape de filtrage retient finalement 9 règles sur les 2725 de l’étape précédente.
Comparaison des résultats obtenus par le procédé selon l’invention et le procédé alternatif
Le procédé selon l’invention produit 27 règles de complexité 2 sur l’ensemble de données. La consommation maximum de mémoire au cours de l’exécution est de 15,2 GO, quel que soit le nombre de variables.
Le procédé alternatif produit 9 règles de complexité 4 sur l’ensemble de données. La consommation maximum de mémoire au cours de l’exécution est de 9,6 GO, proportionnelle au nombre de variables.
Les performances comparées du procédé selon l’invention et selon le procédé alternatif peuvent être détaillées, en répétant l’essai comparatif avec différentes valeurs du nombre de variables V, du nombre d’individus X et du nombre d’occurrences.
Le tableau ci-dessous présente la consommation maximale de mémoire vive (RAM) durant l’exécution du procédé selon l’invention et du procédé alternatif.
Consommation maximale
de mémoire vive en cours de calcul
X=10 X=100 X=657 X=657 X
V=1009 V=1009 V=1009 V=4000 V
L=100 L=1850 L=1850 L=1850 L
Procédé selon l’invention 2.1 GO 2.3 GO 15.2 GO 15.2GO C1+ C2× L × X
Procédé alternatif 2.4 GO 9.6 GO 9.6 GO 38.4 GO C3+ C4× V ×L × X
Dans ce tableau, C1, C2, C3et C4sont des constantes dont les valeurs sont estimées à
C1=C3=2,0GO (quantités de mémoire minimales pour mettre en œuvre les procédés)
C2=8,2 10-7et C4=5,4 10-7(constantes de proportionnalité respectives des deux procédés, par rapport à la taille du problème posé). `
Comme le montre le tableau ci-dessus, le procédé selon l’invention présente l’avantage d’une consommation maximale de mémoire vive indépendante du nombre de variables.
Le procédé alternatif, comme tout procédé issu de librairies standards qui exige le chargement de l’ensemble des données simultanément, présente une consommation de mémoire vive linéairement croissante en fonction du nombre de variables.
Dans les deux procédés, il existe une dépendance linéaire par rapport au nombre d’individus de la base (nombre d’individus X et nombre d’occurrences L). Cette dépendance est conventionnellement contournée, pour un nombre d’occurrences très élevé, par la mise en œuvre de techniques de type « map reduce » opérant sur des données distribuées.
Les figures 2 et 3 permettent de comparer la profondeur explicative entre les règles produites par le procédé selon l’invention (figure 2) et selon le procédé alternatif (figure 3). La profondeur explicative correspond au nombre moyen de règles activées par individu.
Sur les figures 2 et 3, l’axe des abscisses représente la date d’occurrence du relevé des attributs des individus X, groupés par année. L’axe des ordonnées représente les individus regroupés selon quatre familles. La nuance de gris, sur l’échelle de droite du graphe, représente la profondeur explicative moyenne de chaque groupe, c’est à dire le nombre moyen de règles actives pour chaque occurrence.
La profondeur explicative du procédé selon l’invention apparaît deux fois plus élevée que celle du procédé alternatif.
Ceci s’explique notamment par le fait que le procédé selon l’invention recherche directement des règles statistiquement significatives sur l’ensemble des individus. Cette caractéristique est rendue possible par la capacité de l’algorithme de parcourir l’espace de recherche sans charger l’ensemble des variables.
Le procédé alternatif, comme tout procédé construit à partir d’une librairie d’apprentissage telle que Scikit-Learn, contraint à rechercher initialement des règles localement valables pour un individu seulement. La généralisation à l’ensemble des individus n’intervient que dans un second temps. Cette généralisation fournit in fine moins de règles que le procédé selon l’invention, car une règle optimisée pour un individu subit en moyenne une perte de significativité élevée lorsqu’on temps de la généraliser à l’ensemble des individus, ce mécanisme expliquant le taux de perte de 13000 à 9 règles dans le procédé alternatif.
Avantages des algorithmes selon l’invention
Comme montré dans l’exemple comparatif, l’invention permet de fournir des contextes explicatifs à partir d’un ensemble arbitraire de variables structurées, non nécessairement situées dans un unique fichier. Ces variables peuvent contenir des données manquantes.
Le procédé selon l’invention consomme une quantité de mémoire vive indépendante du nombre de variables. L’exemple comparatif montre que le procédé de l’invention peut être mis en œuvre sur un ordinateur de bureau doté d’une mémoire vive de 16 GO.
Le procédé selon l’invention peut fonctionner sur une machine de bureau en consommant des ressources de mémoire vive indépendantes du nombre de variables descriptives présentes dans le problème de classification.
Le procédé selon l’invention peut opérer sur des données contenues dans des fichiers situés sur des supports séparés.
Si l’on cherche à obtenir des résultats analogues en utilisant des algorithmes d’apprentissage supervisés disponibles dans les librairies publiques, un obstacle technique se présente, les librairies publiques exigeant que les données soient rassemblées dans un fichier ou matrice unique. La taille de cette matrice en mémoire vive peut facilement excéder les possibilités d’une machine ordinaire, en particulier si le nombre de variables est important.
Le procédé de classification de données selon l’invention est capable de fournir des éléments d’explication sur la façon dont chaque donnée est classifiée. Les commentaires explicatifs sont exprimés comme des conditions simples portant sur les variables retenues par les utilisateurs pour la classification.
Ces commentaires explicatifs ont la forme de règles d’association du type « Si condition 1 et condition 2 et … conditio n, Alors la variable d’intérêt appartient à la classe K ».
Les algorithmes d’apprentissage supervisé qui viennent d’être décrits permettent d’expliquer une performance, à partir d’un échantillon de co-variables.
Les algorithmes selon l’invention présentent de nombreux avantages :
  • capacité à traiter un grand nombre de co-variables ;
  • tolérance vis-à-vis de données manquantes, contrairement aux machines à vecteur support (SVM), et aux régressions linéaires ;
  • rendre compte d’effets de seuils sur des variables, contrairement aux machines à vecteur support (SVM), aux régressions linéaires, et aux approches topologiques de type plus proche voisin ;
  • rendre compte de dépendances non linéaires ;
  • traçabilité et parcimonie du modèle prédictif ;
  • pas d’hypothèse sur la distribution statistique des variables ;
  • pas d’à priori sur une hiérarchie inter variables, contrairement aux arbres de décision ;
  • évolutivité en fonction de nouvelles données ;
  • fournir des prédicteurs concurrents et partiellement corrélés.
Les algorithmes d’apprentissage selon l’invention sont déterministes et interprétables par tous, contrairement aux machines à vecteur support, aux forêts aléatoires et aux réseaux de neurones.
Par interprétable, on souligne ici qu’une personne peut comprendre la logique ayant conduit à la prédiction fournie par l’algorithme.
Les algorithmes selon l’invention sont adaptés à des données qualitatives et quantitatives.
L’agrégation d’experts fournit un prédicteur dont les performances sont comparables à celle de la meilleure combinaison convexe.
La construction du prédicteur permet de l’exprimer comme un estimateur de la fonction de régression.
Les algorithmes selon l’invention permettent d’éviter les biais de jugement, et permettent une synthèse de signaux contradictoires.
Les algorithmes selon l’invention permettent d’extraire les bons signaux d’une masse de données pour enrichir la variété des données, incorporer des indicateurs propriétaires.
Les algorithmes selon l’invention ne fonctionnent pas en boite noire, et leur fonctionnement peut être expliqué par les utilisateurs. Ils permettent une représentation des tendances et de leurs intermittences.
L’utilisation des algorithmes selon l’invention permet de fournir des prévisions interprétables.
Cette performance est avantageuse dans de nombreux secteurs.
En effet, par exemple, lorsque des décisions d’investissement sont prises sur la base de prévisions fournies par des algorithmes, les exigences réglementaires de traçabilité des décisions et de suivi des risques ne sont pas compatibles avec un fonctionnement de type boite noire, dans lequel aucune indication ne peut être trouvée sur les variables ayant participé à une prédiction.
Dans la plupart des problèmes de prédiction rencontrés, en particulier dans des situations industrielles, médicales ou environnementales, le nombre d’individus et d’occurrences est une donnée fixe (taille d’une banque de données d’images, de parcours clients, ou de caractéristiques biologiques de patients). La différence en matière de pouvoir prédictif entre plusieurs algorithmes se fait sur la capacité à créer de nouvelles variables Xiadaptées au problème posé. Cette étape de « features engineering » doit pouvoir être menée avec aussi peu de contraintes que possible sur le nombre de variables présentées à l’algorithme. Dans ce contexte, la capacité technique de l’invention à fonctionner en utilisant une quantité de mémoire indépendante du nombre de variables est particulièrement avantageuse.

Claims (7)

  1. Procédé technique de classification de données apte à être mis en œuvre sur un ordinateur de bureau, le procédé exploitant des données d’entrée d’un ensemble d’apprentissage comprenant :
    - des co-variables Xiexplicatives, décrites par un ensemble d’instances indexées par un ensemble d’individus Iket un ensemble d’occurrence Tl;
    - les observations d’une variable Y d’intérêt ;
    caractérisé en ce que les données des co-variables Xiexplicatives sont contenues dans des fichiers distincts, le procédé comprend les étapes suivantes :
    • définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ;
    • définition de la complexité de la règle ;
    • discrétisation de l’espace des variables explicatives en M modalités ;
    • recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ;
    • sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.
  2. Procédé selon la revendication 1, caractérisé en ce qu’il comprend une détermination de l’acceptabilité d’une règle, cette détermination comprenant les étapes suivantes :
    - calcul de la couverture de la règle ;
    - calcul de la significativité de la règle ;
    - vérification de ce que la couverture de la règle est comprise entre deux valeurs prédéterminées ;
    - vérification de ce que la significativité de la règle est supérieure à une valeur prédéterminée ;
    - calcul d’un gain pénalisé.
  3. Procédé selon la revendication 2, caractérisé en ce qu’il comprend une étape de vérification de ce qu’une condition sur le gain pénalisé est vérifiée.
  4. Procédé selon la revendication 3, caractérisé en ce que la condition sur les gains est exprimée comme suit :

    où Δ est une période fixée etγ rune pénalisation dépendante de la règle.
  5. Procédé selon l’une quelconque des revendications précédentes, caractérisé en ce qu’il est mis en œuvre sur un ordinateur de bureau dont la mémoire vive est d’une capacité inférieure à 20 GO.
  6. Procédé d’apprentissage par ordinateur d’une commande d’un système technique, le procédé mettant en œuvre une classification technique de données selon l’une des revendications 1 à 5, le procédé d’apprentissage étant basé sur des séries temporelles sous la forme d’un échantillon de donnéesD n =(X i ,Y i )1<=i<=noù pour tout i,X i est un ensemble de variables explicatives etY i une variable d’intérêt.
  7. Support lisible par ordinateur sur lequel sont stockées des instructions lisibles par machine pour exécuter un procédé selon l’une quelconque des revendications précédentes.
FR2003637A 2020-04-10 2020-04-10 Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees Pending FR3109232A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR2003637A FR3109232A1 (fr) 2020-04-10 2020-04-10 Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2003637 2020-04-10
FR2003637A FR3109232A1 (fr) 2020-04-10 2020-04-10 Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees

Publications (1)

Publication Number Publication Date
FR3109232A1 true FR3109232A1 (fr) 2021-10-15

Family

ID=73698883

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2003637A Pending FR3109232A1 (fr) 2020-04-10 2020-04-10 Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees

Country Status (1)

Country Link
FR (1) FR3109232A1 (fr)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3011895A1 (fr) 2014-10-26 2016-04-27 Tata Consultancy Services Limited Détermination de la charge cognitive d'un sujet à partir d'électroencéphalographie (EEG) des signaux
US20160210552A1 (en) * 2013-08-26 2016-07-21 Auckland University Of Technology Improved Method And System For Predicting Outcomes Based On Spatio/Spectro-Temporal Data
CN106419936A (zh) 2016-09-06 2017-02-22 深圳欧德蒙科技有限公司 一种基于脉搏波时间序列分析的情绪分类方法及装置
US20180336452A1 (en) 2017-05-22 2018-11-22 Sap Se Predicting wildfires on the basis of biophysical indicators and spatiotemporal properties using a long short term memory network
FR3069357A1 (fr) * 2017-07-18 2019-01-25 Worldline Systeme d'apprentissage machine pour diverses applications informatiques
EP3564853A2 (fr) 2018-09-07 2019-11-06 Baidu Online Network Technology (Beijing) Co., Ltd. Procédé et appareil de classification d'obstacles sur la base d'un véhicule sans pilote, dispositif et support d'enregistrement
US20190379589A1 (en) * 2018-06-12 2019-12-12 Ciena Corporation Pattern detection in time-series data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160210552A1 (en) * 2013-08-26 2016-07-21 Auckland University Of Technology Improved Method And System For Predicting Outcomes Based On Spatio/Spectro-Temporal Data
EP3011895A1 (fr) 2014-10-26 2016-04-27 Tata Consultancy Services Limited Détermination de la charge cognitive d'un sujet à partir d'électroencéphalographie (EEG) des signaux
CN106419936A (zh) 2016-09-06 2017-02-22 深圳欧德蒙科技有限公司 一种基于脉搏波时间序列分析的情绪分类方法及装置
US20180336452A1 (en) 2017-05-22 2018-11-22 Sap Se Predicting wildfires on the basis of biophysical indicators and spatiotemporal properties using a long short term memory network
FR3069357A1 (fr) * 2017-07-18 2019-01-25 Worldline Systeme d'apprentissage machine pour diverses applications informatiques
US20190379589A1 (en) * 2018-06-12 2019-12-12 Ciena Corporation Pattern detection in time-series data
EP3564853A2 (fr) 2018-09-07 2019-11-06 Baidu Online Network Technology (Beijing) Co., Ltd. Procédé et appareil de classification d'obstacles sur la base d'un véhicule sans pilote, dispositif et support d'enregistrement

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GHIASI ET AL.: "Decision tree-based diagnosis of coronary artery disease : CART model", COMPUTER METHODS AND PROGRAMS IN BIOMEDECINE, vol. 192, February 2020 (2020-02-01), XP086185864, DOI: 10.1016/j.cmpb.2020.105400
GUEDJ, AGRÉGATION D'ESTIMATEURS ET DE CLASSIFICATEURS : THÉORIE ET MÉTHODES, 2013
MARGOT ET AL., RULE INDUCTION PARTITIONING ESTIMATOR, pages 288 - 301, ISSN: ISSN 0302-9743
PATRA, APPRENTISSAGE À GRANDE ÉCHELLE, CONTRIBUTION À L'ÉTUDE D'ALGORITHMES DE CLUSTERING RÉPARTIS ASYNCHRONES, 2012
SOLTZ: "Aggrégation séquentielle de prédicteurs : méthodologie générale et applications à la prévision de la qualité de l'air et à celle de la consommation électrique", JOURNAL DE LA SOCIÉTÉ FRANÇAISE DE STATISTIQUE, vol. 151, no. 2, 2010

Similar Documents

Publication Publication Date Title
L’heureux et al. Machine learning with big data: Challenges and approaches
Weng et al. Predicting short-term stock prices using ensemble methods and online data sources
Stevenson et al. The value of text for small business default prediction: A deep learning approach
Zhou et al. Big data opportunities and challenges: Discussions from data analytics perspectives [discussion forum]
Wang et al. A DT-SVM strategy for stock futures prediction with big data
Mukherjee et al. Armdn: Associative and recurrent mixture density networks for eretail demand forecasting
Ang et al. Using machine learning to demystify startups’ funding, post-money valuation, and success
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
Shukla et al. Comparative analysis of ml algorithms & stream lit web application
CA3165582A1 (fr) Procede et systeme de traitement des donnees base sur un modele de similarite
Darwiesh et al. Business intelligence for risk management: A review
Thomas et al. A survey on crime analysis and prediction
Duarte et al. Machine Learning and Marketing: A Literature Review.
US20220180119A1 (en) Chart micro-cluster detection
Li et al. Predicting the default borrowers in P2P platform using machine learning models
EP3588301A1 (fr) Determination automatique et auto-optimisee des parametres d&#39;execution d&#39;une application logicielle sur une plateforme de traitement de l&#39;information
US11551104B2 (en) Method and system for exchange of packets pertaining to an instrument
Semiu et al. A boosted decision tree model for predicting loan default in P2P lending communities
FR3105863A1 (fr) Procédé ET système de conception d’un modèle de prédiction
FR3109232A1 (fr) Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees
US20230315553A1 (en) System for early detection of operational failure in component-level functions within a computing environment
Yang et al. Interpretable neural networks for panel data analysis in economics
CN113869423A (zh) 一种营销响应模型构建方法、设备及介质
CN113850508A (zh) 基于数据湖与数据银行内的政务数据和银行数据对个体信用的评分方法
FR3099615A1 (fr) Procede de prediction interpretable par apprentissage exploitant des series temporelles

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20211015

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5