FR3109232A1

FR3109232A1 - Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees

Info

Publication number: FR3109232A1
Application number: FR2003637A
Authority: FR
Inventors: Christophe Geissler; Vincent Margot
Original assignee: Advestis
Current assignee: Advestis
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2021-10-15

Abstract

Procédé technique de classification de données apte à être mis en œuvre sur un ordinateur de bureau, le procédé exploitant des données d’entrée d’un ensemble d’apprentissage comprenant : des co-variables Xi explicatives, décrites par un ensemble d’instances indexées par un ensemble d’individus Ik et un ensemble d’occurrence Tl ; les observations d’une variable Y d’intérêt ;caractérisé en ce que les données des co-variables Xi explicatives ne sont pas contenues dans un unique fichier, le procédé comprend les étapes suivantes : définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ; définition de la complexité de la règle ; discrétisation de l’espace des variables explicatives en M modalités ; recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ; sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.

Description

Titre

PROCEDE DE PREDICTION INTERPRETABLE PAR APPRENTISSAGE FONCTIONNANT SOUS RESSOURCES MEMOIRES LIMITEES

L’invention a trait aux algorithmes de prédiction, et notamment les algorithmes de prédiction exploitant des séries temporelles.

Par « séries temporelles » on désigne ici des données numériques évoluant dans le temps.

L’indice temps peut être, selon les cas, par exemple la minute, l’heure, le jour, l’année.

Les séries temporelles sont des variables dont on dispose d’un échantillon de donnéesD _n = (X _i ,Y _i )_1<=i<=noù pour toutidésignant le temps,X _i est un ensemble de variables explicatives ou covariables, etY _i une variable d’intérêt.

Idéalement, la prédiction des séries temporelles consiste à modéliser le système qui a généré les données de la série, par exemple par un système d’équations mathématiques déterministes.

En connaissant les conditions initiales, il serait alors possible de prévoir l’évolution du système.

Le plus souvent toutefois, les mécanismes ayant généré la série temporelle ne sont pas connus, et les seules informations disponibles sont les données passées.

La modélisation se résume alors à imiter les facteurs générateurs de données, à partir des données passées, sans expliciter les mécanismes en action.

Cette approche est à l’origine de la théorie statistique de l’apprentissage.

Les séries temporelles sont omniprésentes et apparaissent par exemples en météorologie, en biologie, dans le domaine médical, ou en économétrie.

La prédiction effectuée à partir des séries temporelles peut être utile, par exemples, pour la surveillance des patients dans les services médicaux, la détermination d’une charge de consommation d’énergie sur un réseau, la surveillance de l’état des forêts, la communication d’un taux de pollution de l’air, la maintenance prédictive, la prédiction du trafic automobile, l’optimisation de la valeur d’un portefeuille d’actifs.

La prédiction la plus simple à partir de séries temporelles passe par des approches linéaires et le calcul d’indices, tels que par exemple des indices de tendance centrale (moyenne, médiane), des indices de dispersion (variance), des indices de dépendance (auto-covariance, auto-corrélation).

L’on connait ainsi des modèles statistiques anciens de prédiction de séries temporelles univariées, ces modèles étant de type auto-régressifs (AR Auto-Regressive), moyenne mobile (MA Moving Average), ainsi que leurs combinaisons et variantes (ARIMA Autoregressive Integrated Moving Average,NARMA) et extension à la prédiction de séries temporelles multivariées, c’est-à-dire celles où plusieurs valeurs évoluent simultanément (VAR).

Les approches linéaires classiques supposent que les séries temporelles sont stationnaires et qu’elles présentent des dépendances linéaires dans le temps.

Les régressions linéaires postulent une relation de dépendance globale entre la variable à expliquer Y et les variables liées

oùNest la dimension temporelle de l’échantillon d’observation,Vest le nombre de covariables,Zest l’erreur d’estimation,Aréalise

Les régressions linéaires présentent plusieurs inconvénients, en particulier une fragilité aux valeurs manquantes.

Par ailleurs, lorsqueVest très supérieur à 1, les coefficients de régression sont incontrôlables.

Cet inconvénient a conduit à pénaliser les coefficients en norme L1 (Lasso), ou L2 (Ridge), dans lesquelsAréalise

αétant un paramètre de contrôle.

L’on connait également des modèles non linéaires de prédiction de séries temporelles univariées (ARCH,GARCH).

Les séries temporelles peuvent également être projetées dans des espaces définis par des descripteurs statiques, par exemple transformation de Fourier, par ondelettes, ou décompositions polynomiales.

Les algorithmes d’intelligence artificielle pour la prédiction se sont largement développés ces dernières années, notamment pour la prédiction de l’état de santé de patients, même s’il existe des résistances à leur adoption.

De tels algorithmes peuvent apparaître comme concurrents du personnel professionnel, dans la mesure où ces algorithmes sont construits en vue d’éliminer des biais de jugement et de synthétiser des signaux contradictoires.

De tels algorithmes peuvent en outre apparaître comme opaques dans leurs fonctionnements.

L’invention concerne notamment les algorithmes de prédiction exploitant des séries temporelles issues de systèmes dynamiques qui présentent des irrégularités, par exemple des systèmes déterministes non-linéaires ou chaotiques.

L’invention concerne également les algorithmes de prédiction exploitant des échantillons de donnéesD _n = (X _i ,Y _i )_1<=i<=noù pour toutidésignant le temps,X _i est un ensemble de variables explicatives etY _i une variable d’intérêt, les donnéesDétant modélisées par des variables aléatoires indépendantes, les suites de variables (X ₁ ,Y ₁ ), (X ₂ ,Y ₂ )…(X _n ,Y _n ) ne suivant pas une même loi inconnue.

L’invention trouve en outre des applications avantageuses lorsque l’indépendance des observations n’est pas réaliste ou peu probable, par exemple lorsque la variable d’intérêt est le taux de pollution de l’air, ou le rythme cardiaque d’un patient, ou encore la valeur d’un actif dans un portefeuille.

L’invention concerne notamment les algorithmes de prédiction exploitant des séries temporelles et mettant en œuvre un apprentissage, c’est-à-dire la construction de règles pour le traitement automatique des données.

De tels algorithmes de prédiction ont été proposés dans l’état de la technique, en particulier machines à vecteur support, forêts aléatoires, réseaux de neurones.

Les machines à vecteur support (SVM Support Vector Machine) travaillent à partir de classes de fonctions hypothèses, consistant en hyperplans d’un espace de caractéristiques, implicitement défini à partir de l’espace original, par une transformation non linéaire, construite via un noyau.

L’algorithme SVM comprend une première phase d’apprentissage, consistant à déterminer un modèle de classification à partir des échantillons du jeu d’entraînement.

Une deuxième phase consiste ensuite à appliquer le modèle à la totalité de la population à classer.

Le document CN 106419936 (Shenzhen Oudmon Tech) décrit l’utilisation d’une machine à vecteur support pour l’évaluation de l’état émotionnel d’une personne, par analyse de séries temporelles de photopléthysmographie.

Le document EP 3011895 décrit l’utilisation de machines à vecteur support pour la classification de signaux d’électroencéphalogrammes.

Les forêts aléatoires (RF Random Forest) mettent en œuvre une séparation des classes par un ensemble d’arbres de décision générés aléatoirement.

Ces arbres de décision sont appliqués à des sous-ensembles du jeu d’entraînement en phase d’apprentissage.

Le modèle final est ensuite appliqué à l’ensemble de la population à classer.

Le document EP 3564853 décrit l’utilisation de forêts aléatoires pour le traitement des obstacles par un véhicule autonome.

Les algorithmes de référence pour les arbres de décision sont ID3 (Iterative Dichotomiser), C4.5 et CART.

Lors de la construction d’un arbre de décision, un critère de pureté comme l’entropie (utilisé dans C4.5) ou Gini (utilisé dans CART) est employé pour transformer une feuille en nœud.

Des versions incrémentales des arbres de décision sont proposées (ID4, ID5R, ITI).

Un exemple d’utilisation d’arbre de décision CART pour l’aide au diagnostic d’athérosclérose est présenté en février 2020 parGhiasi et al, Decision tree-based diagnosis of coronary artery disease : CART model, Computer Methods and Programs in Biomedecine 192.

Les données utilisées concernent 303 patients et 55 paramètres indépendants.

Le développement du modèle est effectué sur un ordinateur de bureau (CPU 2,93 GHz, 8 GB RAM).

Les réseaux de neurones (ANN Artificial Neural Networks) consistent en l’association en un graphe de neurones formels, modèles caractérisés par un état interne, des signaux d’entrée et une fonction d’activation effectuant une transformation d’une combinaison affine des signaux d’entrée.

Cette combinaison est déterminée par un vecteur de poids associé à chaque neurone et dont les valeurs sont estimées durant la phase d’apprentissage.

Pour obtenir un système totalement non linéaire, le réseau de neurones doit comporter au moins une couche intermédiaire, appelée généralement couche cachée.

Le document US2018336452 (Sap) décrit un système de prédiction des incendies de forêt utilisant un réseau de neurones.

Les réseaux de neurones présentent plusieurs inconvénients.

En particulier, il est a priori impossible de connaître l’influence effective d’une variable d’entrée sur le système, notamment dès qu’une couche cachée intervient.

Ce fonctionnement en boite noire contraint fortement l’interprétation des résultats obtenus.

Il semble par ailleurs que les performances des réseaux de neurones chutent lorsque l’on augmente l’horizon de prédiction ou lorsque l’on augmente la dimension des données.

Les méthodes algorithmiques de l’état de la technique présentent plusieurs inconvénients.

Les algorithmes existants ne sont que peu voire pas interprétables ou transparents.

En d’autres termes, ils ne permettent pas de connaître les variables d’entrée qui ont une influence sur la prédiction.

Cet inconvénient est particulièrement présent pour les algorithmes mettant en œuvre des réseaux de neurones avec ou sans apprentissage profond.

Lorsque les algorithmes de l’état de la technique sont relativement interprétables ou transparents, leur capacité de prédiction est faible lorsque les relations entre variables d’entrée et variables de sortie sont complexes.

Cet inconvénient est particulièrement présent pour les algorithmes mettant en œuvre des arbres de décision, ou des machines à vecteur support.

Les algorithmes existants ont une faible tolérance par rapport aux données manquantes.

Or, les données réelles dans les différentes applications scientifiques, industrielles, médicales ou financières de prédiction présentent souvent des plages manquantes ou incomplètes.

Un prétraitement des données peut certes être effectué, en inférant les données manquantes à base d’heuristiques.

Par exemple, la donnée manquante peut être remplacée par la moyenne des valeurs observées sur une séquence, ou par la dernière valeur observée sur la séquence.

Ce prétraitement est toutefois long et couteux.

L’invention concerne plus particulièrement les algorithmes d’intelligence artificielle, de prédiction, mettant en œuvre une construction de règles par agrégation supervisée.

De tels algorithmes sont connus dans l’art antérieur, sous différentes formes.

Le document Patra (Apprentissage à grande échelle, contribution à l’étude d’algorithmes de clustering répartis asynchrones, 2012) propose de mesurer les performances d’une stratégie de prévision quantile à l’aide d’une fonction de perte

une stratégie étant d’autant plus précise que la fonction de perte est petite.

La stratégie de prévision repose sur une agrégation d’experts, chacun des prédicteurs fondamentaux étant fondé sur la technique des plus proches voisins, les prédictions étant agrégées avec des poids dépendant directement de leurs performances passées.

Le poids d’un expert dans l’agrégat évolue ainsi au fur et à mesure du temps et est d’autant plus important que les prévisions passées de l’expert considéré ont été satisfaisantes.

Selon Patra, cette stratégie de prévisiongest universellement convergente.

En d’autres termes, pour tout processus stationnaire et ergodique on a la convergence suivante

oùL*est la plus petite perte asymptotique moyenne possible pour une stratégie de prévision.

Pour assurer la manipulation de grosses quantités de données, Patra propose un clustering, les séries temporelles étant séparées en sous-groupes présentant des similarités.

Le document Guedj (Agrégation d’estimateurs et de classificateurs : théorie et méthodes, 2013), rappelle que, selon le formalisme issu de la théorie de l’information, le risque associé à un estimateur, dans sa version empirique construite sur l’échantillonDnest noté

oulest la fonction de perte, par exemple quadratique.

Guedj présente l’implémentation de méthodes d’agrégation à poids exponentiels.

Une présentation des différentes stratégies d’agrégation d’experts peut être trouvée dans le documentSoltz Aggrégation séquentielle de prédicteurs : méthodologie générale et applications à la prévision de la qualité de l’air et à celle de la consommation électrique, Journal de la société française de statistique, vol 151, n°2, 2010.

Le document Margot et al (Rule Induction Partitioning Estimator, ISSN 0302-9743, pp 288-301) décrit un algorithme (RIPE) sélectionnant, à partir d’un échantillon (X_i, Y_i)_1<=i<=n, un ensemble de règles de type « Si A alors B », les conditions A étant des évènements du type {X ∈ r}, r étant un hyperrectangle.

L’ensemble des hyperrectangles est ensuite transformé en une partition de l’espace permettant de construire un estimateur universellement consistant.

L’algorithme sélectionne un sous ensemble de règlesS _n dans un ensemble de règles générées sur la base d’une condition de minium de l’erreur moyenne de prédiction

La demanderesse a constaté que l’algorithme RIPE est bien adapté pour des données statiques identiquement distribuées, et n’exploite pas de manière satisfaisante la structure temporelle des données.

La demanderesse a constaté que les algorithmes d’apprentissage supervisé de l’état de la technique, notamment ceux disponibles dans les librairies publiques, exigent que les données soient rassemblées dans un fichier ou matrice unique.

Or, la taille de cette matrice en mémoire vive peut facilement excéder les possibilités d’une machine ordinaire, notamment lorsque le nombre de variables est important.

Dès lors que le problème de classification porte sur des entités complexes, comme par exemple des patients dans un centre médical, le nombre total de variables peut être de plusieurs milliers.

La totalité des données à prendre en compte croise dont l’ensemble des variables, l’ensemble des entités et l’ensemble des instances d’observations, par exemple à différents instants.

Cet ensemble de données occupe donc une taille mémoire proportionnelle au nombre de variables et peut se révéler rapidement impossible à charger en une seule fois.

Les modules standards de machine learning ne peuvent donc pas opérer sur ces ensembles de données.

Pour éviter un temps d’accès aux données sur disque dur, il est connu d’accéder aux données sous forme de flux, à l’aide d’algorithmes en ligne, utilisant des méthodes d’échantillonnage, de résumé de données ou de calcul distribué.

Pour limiter le temps de calcul et les besoins en mémoire, il a été proposé de construire le modèle au fur et à mesure de l’arrivée des données en utilisant un algorithme d’apprentissage incrémental, capable de mettre à jour son modèle à l’aide des nouvelles données, sans avoir besoin de toutes les revoir.

De nombreux algorithmes incrémentaux existent, mais leurs besoins en ressource mémoire et processeur ont une croissance non linéaire avec la taille des données.

On connaît dans l’art antérieur différentes approches pour générer un modèle à partir de données ne pouvant être toutes chargées en mémoire : les données peuvent être découpées en plusieurs ensembles (chunks) et/ou utiliser des techniques de parallélisassions de l’algorithme d’apprentissage.

L’apprentissage hors lignes correspond à l’apprentissage d’un modèle sur un jeu de données disponible au moment de l’apprentissage.

Ce type d’apprentissage est réalisable sur des volumes de taille faible, jusqu’à quelques giga-octets (GO).

Au delà, le temps d’accès et de lecture des données devient prohibitif, et il devient difficile de réaliser un apprentissage qui ne prenne pas des heures ou des jours.

L’invention vise à pallier les inconvénients des algorithmes connus dans l’état de la technique, en particulier pour la prédiction à partir de séries temporelles.

Un premier objet de l’invention est une méthode algorithmique d’exploitation de séries temporelles ne présentant pas les inconvénients des méthodes antérieures et permettant une mise en œuvre sur une machine de bureau, telle qu’un ordinateur personnel, dont les ressources en mémoire vive (RAM) sont limitées.

Un deuxième objet de l’invention est de fournir une telle méthode algorithmique consommant des ressources de mémoire vive indépendantes du nombre de variables descriptives dans le problème de classification.

Un troisième objet de l’invention est de fournir une telle méthode algorithmique pouvant opérer sur des données contenues dans des fichiers situés sur des supports séparés.

Un quatrième objet de l’invention est de fournir une telle méthode algorithmique fournissant des commentaires explicatifs associés à la classification d’observations numériques, les commentaires explicatifs étant exprimés comme des conditions simples portant sur les variables retenues par les utilisateurs pour la classification.

Un cinquième objet de l’invention est de fournir une telle méthode algorithmique fournissant des commentaires explicatifs ayant la forme de règles d’association du type « si condition 1 et condition 2 et… condition n, alors la variable d’intérêt appartient à la classe K ».

Un autre objet de l’invention est une telle méthode algorithmique, notamment pour l’exploitation de séries temporelles, ne présentant pas les inconvénients des méthodes antérieures et permettant en particulier une prévision interprétable.

Un autre objet de l’invention est une telle méthode algorithmique, en particulier d’exploitation de séries temporelles, permettant le traitement de données structurées massives.

Un autre objet de l’invention est une telle méthode algorithmique, pour l’exploitation de séries temporelles par apprentissage.

Un autre objet de l’invention est de fournir une telle méthode algorithmique permettant de révéler les variables influentes dans la prévision, et donc dans les décisions prises sur la base de ces prévisions.

A ces fins, il est proposé, selon un premier aspect, un procédé technique de classification de données apte à être mis en œuvre sur un ordinateur de bureau, le procédé exploitant des données d’entrée d’un ensemble d’apprentissage comprenant :

- des co-variables Xⁱexplicatives, décrites par un ensemble d’instances indexées par un ensemble d’individus I_ket un ensemble d’occurrence T_l;

- les observations d’une variable Y d’intérêt ;

les données des co-variables Xⁱexplicatives étant contenues dans des fichiers distincts, le procédé comprend les étapes suivantes :

définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ;
définition de la complexité de la règle ;
discrétisation de l’espace des variables explicatives en M modalités ;
recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ;
sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.

Les données des co-variables explicatives peuvent se trouver dans différents répertoires, dans différents lecteurs d’un réseau, dans différents périphériques externes.

Une règle est ainsi un objet de type

tel que

la conditionSiteste si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives

l’implication est la valeur prédite par la règle sur la condition est vérifiée, avec

la complexité d’une règle étant définie par

Avantageusement, le procédé comprend une détermination de l’acceptabilité d’une règle, cette détermination comprenant les étapes suivantes :

- calcul de la couverture de la règle ;

- calcul de la significativité de la règle ;

- vérification de ce que la couverture de la règle est comprise entre deux valeurs prédéterminées ;

- vérification de ce que la significativité de la règle est supérieure à une valeur prédéterminée ;

- calcul d’un gain pénalisé.

Avantageusement, une règle est acceptable uniquement si la condition de couverture, la condition de significativité, et la condition sur les gains sont vérifiées.

La condition de significativité peut ainsi être avantageusement exprimée comme suit :

n(r,D _n ) désignant le nombre d’observations de l’ensembleD _n qui satisfont les conditions de la règler.

La condition de couverture peut avantageusement être exprimée comme suit :

c _min etc _max étant deux constantes vérifiant 0 <c _min <c _max < 1.

Avantageusement, le procédé comprend une étape de vérification de ce qu’une condition sur le gain pénalisé est vérifiée.

Dans certaines mises en œuvre, la condition sur les gains est exprimée comme suit :

où Δ est une période fixée etγ _rune pénalisation dépendante de la règle.

Avantageusement, le procédé est mis en œuvre sur un ordinateur de bureau dont la mémoire vive est d’une capacité inférieure à 20 GO.

L’invention se rapporte, selon un deuxième aspect, à un procédé d’apprentissage par ordinateur d’une commande d’un système technique, le procédé mettant en œuvre une classification technique de données tel que présenté ci-dessus, le procédé d’apprentissage étant basé sur des séries temporelles sous la forme d’un échantillon de donnéesD _n =(X_i, Y_i)_1<=i<=noù pour tout i,X _i est un ensemble de variables explicatives etY _i une variable d’intérêt.

L’invention se rapporte, selon un troisième aspect, à un support lisible par ordinateur sur lequel sont stockées des instructions lisibles par machine pour exécuter un procédé tel qu’il vient d’être présenté.

D’autres objets et avantages de l’invention apparaîtront à la lumière de la description de modes de réalisation, faite ci-après, en référence aux dessins annexés dans lesquels :

est un schéma illustrant l’élimination de règles similaires, dans la mise en œuvre d’un procédé alternatif d’apprentissage supervisé disponible dans les librairies publiques ;

est un graphe représentant la profondeur explicative des règles obtenues par un procédé selon l’invention ;

[Fig.3] est un graphe représentant la profondeur explicative des règles obtenues par un procédé alternatif d’apprentissage supervisé disponible dans les librairies publiques.

L’invention propose un algorithme de prédiction exploitant des données de séries temporelles, l’algorithme mettant en œuvre un apprentissage, c’est-à-dire la construction de règles de décision et d’inférence pour le traitement automatique des données.

Les séries temporelles sont des variables dont on dispose d’un échantillon de donnéesD _n = (X _i ,Y _i )_1<=i<=noù pour touti,X _i est un ensemble de variables explicatives etY _i une variable d’intérêt.

L’on souhaite prédireYconditionnellement àX.

Les observations (X _i ,Y _i )_1<=i<=nsont modélisées par des variables aléatoires.

On suppose que les variables explicatives et les variables d’intérêts appartiennent à des ensembles mesurables.

Les observations sont modélisées par des variables aléatoires suivant une même loi ou non, indépendantes ou non.

L’hypothèse d’indépendance des observations n’est pas retenue lorsque le phénomène observé la rend peu réaliste, comme par exemple dans le cas de la surveillance de la pollution de l’air.

Pour une application mesurable appelée prédicteur est défini un risque et la prévision consiste à trouver, à l’aide des donnéesD _n uniquement, un prédicteur tel que son risque est minimal.

La loi suivie par les variables étant inconnue, le risque est celui d’une règle d’apprentissage (ou estimateur) lié à l’échantillonD _n défini par

Dans l’algorithme, la fonction de contrastecest avantageusement la fonction de contraste quadratique.

Un expertf _i de poids Π_iest une fonction constante en son premier argument et qui vaut l’espérance empirique deYsachantX:

Au moins un sous ensemble d’expert est identifié par minimum de contraste, soit

en prenant le contraste quadratique.

Le prédicteur est construit sous la forme d’une agrégation d’experts, via une stratégieS

avec

Le prédicteur peut ainsi s’écrire aussi sous la forme d’un estimateur linéaire de la fonction de régression :

avec

L’on dispose ainsi d’un estimateur de la fonction de régression et d’un prédicteur ayant des performances comparables à celles de la meilleure combinaison convexe du sous ensemble d’experts identifié.

Le procédé selon l’invention d’apprentissage par ordinateur permet une commande d’un système technique.

Le système technique est par exemple un système d’alerte à usage médical, signalant un risque pour un patient, au vu de l’analyse de séries temporelles de rythmes cardiaque.

Le système technique est, dans un autre exemple, un système de trading.

Le procédé selon l’invention est basé sur l’analyse de séries temporelles sous la forme d’un échantillon de donnéesD _n = (X _i ,Y _i )_1<=i<=noù pour touti,X _i est un ensemble de variables explicatives etY _i une variable d’intérêt.

Le procédé comprend les étapes suivantes :

- définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ;

- définition de la complexité de la règle ;

- discrétisation de l’espace des variables explicatives en M modalités ;

- recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ;

- sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.

Une règle est ainsi un objet de type

tel que

la complexité d’une règle étant définie par

Le procédé comprend avantageusement une détermination de l’acceptabilité d’une règle, cette détermination comprenant les étapes suivantes :

- calcul de la couverture de la règle ;

- calcul de la significativité de la règle ;

- calcul d’un gain pénalisé.

Une règle est acceptable uniquement si la condition de couverture, la condition de significativité, et la condition sur les gains sont vérifiées.

La condition de significativité peut ainsi être avantageusement exprimée comme suit

La condition de couverture peut avantageusement être exprimée comme suit :

La condition sur les gains peut être exprimée comme suit :

Les algorithmes selon l’invention exploitent ainsi la structure temporelle des données, au moyen d’une fonction de gain pénalisée.

La fonction de gain pénalisée combine avantageusement l’espérance conditionnelle des règles, leur fréquence d’occurrence et une mesure de la régularité spectrale des activations des règles.

L’invention permet ainsi de prendre en compte l’intensité et la fréquence des signaux, pour la recherche d’évènements rares à forte intensité et la recherche de signaux faibles et récurrents.

Une application de l’invention est l’extraction de signaux prédictifs à partir de données extra financières portant sur des entreprises, par exemple les notations au regard de la politique RSE des organisations.

Le procédé selon l’invention permet de montrer l’existence d’un lien entre performance financière et critères extra financiers de type ESG.

Le procédé selon l’invention est ainsi avantageusement utilisé dans l’extraction de signaux prédictifs pour la gestion d’actifs.

Avantageusement, la mise en œuvre du procédé est effectuée en plusieurs étapes.

Dans une première étape, une première preuve de concept est effectuée sur la base d’une simulation de portefeuilles.

Dans une deuxième étape, une extension de la preuve de concept est effectuée, à des données de notes d’analystes sur les sociétés, ces données présentant une qualité très supérieure aux données brutes issues du web ou des réseaux sociaux.

Dans une troisième étape, un module de visualisation est créé, présentant les indications données par l’algorithme d’apprentissage et s’appuyant sur un algorithme de recherche de configurations proches d’une configuration donnée, dans une base historique.

Une autre application de l’invention est l’extraction de signaux prédictifs à partir de données portant sur des patients, par exemple en service de réanimation.

Les données sont par exemple le rythme cardiaque.

Lorsque des décisions médicales sont prises sur la base de prévisions fournies par des algorithmes, les exigences des assureurs et les attentes des familles ne sont pas compatibles avec un fonctionnement de type boite noire, dans lequel aucune indication ne peut être trouvée sur les variables ayant participé à une prédiction.

L’invention fournit avantageusement des commentaires explicatifs associés à la classification des données médicales.

Exemple comparatif

Les performances du procédé selon l’invention vont être présentées en comparaison avec celles d’un « procédé alternatif » issu de l’état de la technique.

Plus précisément, un ensemble de données numériques massives a fait l’objet d’un traitement par apprentissage supervisé selon l’invention, et d’un traitement à l’aide d’un procédé d’apprentissage supervisé utilisant des moyens de l’état de la technique (« procédé alternatif »), ces moyens étant présents dans des librairies publiques d’apprentissage supervisé.

Il va être présenté ci-dessous un procédé technique de classification de données selon l’invention, opérant sur un ordinateur de bureau à ressources limitées en mémoire vive.

Le procédé selon l’invention fournit des commentaires explicatifs associés à la classification d’observations numériques.

Ensemble de données traitées lors de la mise en œuvre de l’exemple comparatif

L’ensemble de données est constitué d’une variable d’intérêt Y à prédire et de co-variables X ⁱ (i∈ 1…V).

Y et chacun des X ⁱ sont décrites par un ensemble d’instances indexées par :

un ensemble d’individus I _k ,k∈ 1..K.
un ensemble d’occurrences T _l ,l∈ 1..L. Les occurrences sont ordonnées selon les relations T₁< T₂< ...T_L

Chaque observation d’une variable X ⁱ se note donc

et correspond à la mesure de l’attribut X ⁱ effectuée sur l’individu I_klors du relevé d’occurrence T_l.

De même, l’observation correspondante de la variable Y est notée Y_k,l.

Les variables prennent des valeurs dans

nan étant une valeur non numérique attribuées aux valeurs non renseignées.

Cahier des charges de l’essai comparatif

Afin de mener la comparaison à parité, les deux procédés sont soumis au même cahier des charges.

Les données d’entrée sont :

un ensemble de covariables X ⁱ (i∈ 1…V) et une variable d’intérêt Y, classifiable en M classes. La donnée des covariables X ⁱ (i∈ 1…V) et de Y constitue l’ensemble d’apprentissage ;
une consigne de complexité maximale. La valeur de 2 a été retenue pour cet exemple. Une complexité K implique de vérifier 2xk conditions sur les variables ;
une condition de significativité statistique minimum ;
une condition de couverture relative minimum. La valeur de 5% a été retenue dans cet exemple ;
une condition de taux d’intersection maximum entre deux règles. La valeur de 80% a été retenue pour cet exemple.

Les données de sortie : fournir une liste de règlesRjsatisfaisant aux quatre conditions présentées ci-dessus (consigne de complexité maximale, condition de significativité statistique minimum, condition de couverture relative minimum, condition de taux d’intersection maximum entre deux règles). Ces règles doivent s’appliquer à l’ensemble des données, et n’être spécifiques ni à un individu particulier, ni à une occurrence particulière.

Les objectifs sont :

consommer en cours d’exécution une quantité de mémoire vive maximale indépendante du nombre de variables ;
maximiser la moyenne de la profondeur explicative sur l’ensemble des exemples d’apprentissage.

Définitions utilisées

Une règleR _j est définie par

des conditions portant sur k co-variables

une affectation de classification

associée aux conditions.

La complexitéc(R _j ) est le nombre v de co-variables présentes dans les conditions de la règle.

L’ensemble d’activation Act (R) d’une règle R est l’ensemble des paires

vérifiant la règle

Par convention, on a

ce qui implique qu’une observation manquante d’une variable ne peut jamais appartenir à l’ensemble d’activation d’une règle contenant cette variable.

La couverture cov(R) d’une règle est définie par

La couverture relative rcov(R) d’une règle est définie par

Le taux d’intersection entre deux règles R et R’ est défini par

Le contexte explicatifExpl(i,k) d’une observation indexée

est l’ensemble des observations défini par

Il s’agit donc de l’ensemble des règles qui englobent une observation donnée dans leur ensemble d’activation.

La profondeur explicativeexpl_d(i,k) d’une observation indexée est définie par la taille du contexte explicatif de ce point, soit

Le jeu de données utilisé lors de la mise en œuvre de l’exemple comparatif

Les données correspondent àV=1009 attributs numériquesX ⁱ concernantK=657 individus selonL=1850 occurrences, et un vecteur de résultats Y également renseigné pour lesKindividus et lesLoccurrences.

Le nombre total de cellules est donc de (V+1)KL=1.23 10⁹.

L’occupation en mémoire vive d’un tel ensemble dépend de la représentation des nombres flottants dans le langage utilisé. Dans le cas du langage Python, utilisé dans cet exemple comparatif, les nombres flottants sont codés sur 8 octets (64 bits). La taille de la matrice totale en mémoire est donc de 9,8 GO.

Afin que les règles conservent un caractère interprétable, les attributs numériques

sont discrétisés en cinq modalités.

Imputation des valeurs manquantes

Les modules d’arbres de décision de Scikit-Learn ne permettent pas de traiter les valeurs manquantes dans les variables. Si, pour un indice

et un individuI _k , on a

c’est à dire si l’attribut Xⁱn’est pas renseigné pour l’occurrence T _l de l’individuI _k , alors aucune comparaison ne pourra être faite sur cet attribut et l’ensemble des occurrences de cet attribut pour l’individuI _k sera ignoré.

Le procédé selon l’invention rejette uniquement les occurrences non renseignées d’un attribut lorsqu’elles interviennent dans une règle.

Pour permettre une comparaison, il est donc nécessaire de définir une stratégie d’imputation des valeurs manquantes, dans le procédé alternatif.

La stratégie d’imputation des valeurs manquantes définie dans le procédé alternatif est la suivante. Pour un individuI _k et un attributX ⁱ , si l’occurrenceT _l est manquante,

alors on effectue l’imputation selon la dernière occurrence connue:

Si aucune occurrence précédente n’est renseignée, alors l’imputation est effectuée selon la valeur moyenne pour l’occurrence 0, des observations prises pour tous les individus possédant un attribut

différent de nan. Par convention, la moyenne d’une observation sur un ensemble vide d’individus est fixée à zéro.

Mise en œuvre du procédé selon l’invention

Le procédé selon l’invention est mis en œuvre sur un ordinateur de bureau.

Les données d’entrées comprennent :

les fichiers contenant les variablesX ⁱ . Ces fichiers peuvent se trouver dans des répertoires, des lecteurs réseau ou des périphériques séparés;
le fichier contenant les observations de la variable Y;
un fichier de consignes d’entrées.

Les consignes d’entrée comprennent:

l’information relative à la localisation physique des fichiers,
le nombre maximum de variables utilisées dans une règle (complexité), fixée à deux pour cet exemple;
le taux d’intersection maximum entre deux règles, fixé à 0,8 pour cet exemple;
le nombre de modalités selon lequel les variablesX ⁱ sont discrétisées, fixé à cinq pour cet exemple;
des seuils de significativité statistique pour la rétention des règles.

Les données de sortie sont un fichier contenant la description des règles retenues par l’algorithme.

Chaque rège est décrite par des bornes portant sur deux co-variables:

Un exemple de transcription de règle en langage naturel est donné dans le tableau ci-dessous. Chaque règle comporte deux variables. Les bornes respectives des variables sont Bmin et Bmax. La transcription en langue naturelle de la règle est donnée dans la colonne “description”.

Mise en œuvre du procédé alternatif

Le procédé alternatif de comparaison utilise les arbres de décision.

Dans cet exemple comparatif, le même jeu de données est utilisé.

Les modules CART (Classification and regression Tree) de la librairie publique Scikit-Learn sont utilisés.

Comme pour les autres modules d’apprentissage supervisé de l’état de la technique, le module CART s’exécute en chargeant en mémoire l’ensemble des données. Cette exigence rendrait la mise en œuvre potentiellement inopérante pour un nombre de variable élevé.

Pour contourner cette difficulté, un arbre de décision est construit pour chaque individu, soit 657 arbres pour le jeu de données utilisé.

Le nombre de cellules chargées simultanément est ainsi limité à l’ensemble des observations relatives à cet individu, dont la taille est VL=1866650.

La boucle suivante est mise en œuvre.

Pour chaque individuX ⁱ :

la construction d’un arbre à partir des variables de l’individuX ⁱ est effectuée par appel au module CART;
les caractéristiques de cet arbre sont sauvegardées sur disque;
la mémoire est vidée pour le prochain arbre.

La profondeur d’un arbre est fixée à 4. Cette profondeur est à parité avec la complexité maximale de 2, fixée comme consigne pour le procédé selon l’invention.

Transformation des arbres en règles

Un arbre de décision correspond à une procédure dichotomique de classification d’individus, base sur la comparaison de certaines co-variables à des seuils.

L’ensemble des résultats possibles de comparaisons entre les variables et les seuils correspondants constitue une branche de l’arbre.

L’ensemble des individus identifiés par les conditions d’une branche constitue une feuille de l’arbre.

Ces conditions sont directement exprimables sous forme d’une règle, dont les variables ne sont autres que les variables intervenant le long de la branche.

La complexité de la règle obtenue est égale au nombre de variables.

Les feuilles de l’arbre fournissent une partition de l’ensemble des observations au moyen de règles.

La transformation en règles des arbres construits à l’étape précédente donne environ 13000 règles.

Vérification des règles

Les règles obtenues à l’étape précédente sont chacune spécifiques à un individu, alors que le cahier des charges impose de fournir des règles générales valables pour l’ensemble des individus.

Il est donc nécessaire de filtrer les règles obtenues et de ne conserver que celles qui satisfont le critère de significativité statistique pour l’ensemble des individus.

Cette étape peut être complétée au moyen d’une boucle sur les individus, en ne chargeant que les variables intervenant dans la règle.

La vérification de la significativité des règles se fait dans l’ensemble d’apprentissage.

Seules les règles passant le test de significativité sur l’ensemble des individus sont conservées. Un total de 2725 règles et alors obtenu, contre environ 13000 avant filtrage. Cette étape de vérification prend environ neuf heures.

Elimination des règles redondantes

Après la vérification, les règles sont filtrées. En construisant un arbre par individu, il se peut qu’une même règle apparaisse dans différents arbres. L’objectif étant de produire un ensemble de règles s’appliquant uniformément à l’ensemble des individus, le procédé alternatif élimine les règles syntaxiquement identiques, définies par des conditions identiques sur les mêmes variables.

Dans une étape suivante, afin de réduire le nombre de règles, un second filtrage est effectué.

Ce second filtrage vise à éliminer les règles ayant des ensembles d’activation trop proches. Cette étape élargit l’élimination des règles identiques à celles de règles simplement similaires.

La figure 1 illustre la stratégie appliquée.

Dans une première étape, les règles sont triées selon un critère de qualité métier variant en fonction de l’application. La règle ayant le meilleur critère est automatiquement conservée.

Dans une deuxième étape, le nombre de points qui activent la règle (r₁) est calculé, ainsi que le nombre de points qui activent la seconde règle (r₂) et le nombre de points activant les deux règles (r₁&r₂). Ce nombre de points en commun ne doit pas dépasser 80% de r₁ou r₂, pour que la seconde règle soit conservée. Cette condition correspond à la première ligne de la figure 1.

Les règles suivantes sont traitées de la même manière, la différence étant que la règle r₁est remplacée par le nombre de points activant au moins une des règles déjà sélectionnées. Ceci correspond à la deuxième ligne de la figure 1.

Cette étape de filtrage retient finalement 9 règles sur les 2725 de l’étape précédente.

Comparaison des résultats obtenus par le procédé selon l’invention et le procédé alternatif

Le procédé selon l’invention produit 27 règles de complexité 2 sur l’ensemble de données. La consommation maximum de mémoire au cours de l’exécution est de 15,2 GO, quel que soit le nombre de variables.

Le procédé alternatif produit 9 règles de complexité 4 sur l’ensemble de données. La consommation maximum de mémoire au cours de l’exécution est de 9,6 GO, proportionnelle au nombre de variables.

Les performances comparées du procédé selon l’invention et selon le procédé alternatif peuvent être détaillées, en répétant l’essai comparatif avec différentes valeurs du nombre de variables V, du nombre d’individus X et du nombre d’occurrences.

Le tableau ci-dessous présente la consommation maximale de mémoire vive (RAM) durant l’exécution du procédé selon l’invention et du procédé alternatif.

Consommation maximale de mémoire vive en cours de calcul	X=10	X=100	X=657	X=657	X
	V=1009	V=1009	V=1009	V=4000	V
	L=100	L=1850	L=1850	L=1850	L
Procédé selon l’invention	2.1 GO	2.3 GO	15.2 GO	15.2GO	C₁+ C₂× L × X
Procédé alternatif	2.4 GO	9.6 GO	9.6 GO	38.4 GO	C₃+ C₄× V ×L × X

Dans ce tableau, C₁, C₂, C₃et C₄sont des constantes dont les valeurs sont estimées à

C₁=C₃=2,0GO (quantités de mémoire minimales pour mettre en œuvre les procédés)

C₂=8,2 10^-7et C₄=5,4 10^-7(constantes de proportionnalité respectives des deux procédés, par rapport à la taille du problème posé). `

Comme le montre le tableau ci-dessus, le procédé selon l’invention présente l’avantage d’une consommation maximale de mémoire vive indépendante du nombre de variables.

Le procédé alternatif, comme tout procédé issu de librairies standards qui exige le chargement de l’ensemble des données simultanément, présente une consommation de mémoire vive linéairement croissante en fonction du nombre de variables.

Dans les deux procédés, il existe une dépendance linéaire par rapport au nombre d’individus de la base (nombre d’individus X et nombre d’occurrences L). Cette dépendance est conventionnellement contournée, pour un nombre d’occurrences très élevé, par la mise en œuvre de techniques de type « map reduce » opérant sur des données distribuées.

Les figures 2 et 3 permettent de comparer la profondeur explicative entre les règles produites par le procédé selon l’invention (figure 2) et selon le procédé alternatif (figure 3). La profondeur explicative correspond au nombre moyen de règles activées par individu.

Sur les figures 2 et 3, l’axe des abscisses représente la date d’occurrence du relevé des attributs des individus X, groupés par année. L’axe des ordonnées représente les individus regroupés selon quatre familles. La nuance de gris, sur l’échelle de droite du graphe, représente la profondeur explicative moyenne de chaque groupe, c’est à dire le nombre moyen de règles actives pour chaque occurrence.

La profondeur explicative du procédé selon l’invention apparaît deux fois plus élevée que celle du procédé alternatif.

Ceci s’explique notamment par le fait que le procédé selon l’invention recherche directement des règles statistiquement significatives sur l’ensemble des individus. Cette caractéristique est rendue possible par la capacité de l’algorithme de parcourir l’espace de recherche sans charger l’ensemble des variables.

Le procédé alternatif, comme tout procédé construit à partir d’une librairie d’apprentissage telle que Scikit-Learn, contraint à rechercher initialement des règles localement valables pour un individu seulement. La généralisation à l’ensemble des individus n’intervient que dans un second temps. Cette généralisation fournit in fine moins de règles que le procédé selon l’invention, car une règle optimisée pour un individu subit en moyenne une perte de significativité élevée lorsqu’on temps de la généraliser à l’ensemble des individus, ce mécanisme expliquant le taux de perte de 13000 à 9 règles dans le procédé alternatif.

Avantages des algorithmes selon l’invention

Comme montré dans l’exemple comparatif, l’invention permet de fournir des contextes explicatifs à partir d’un ensemble arbitraire de variables structurées, non nécessairement situées dans un unique fichier. Ces variables peuvent contenir des données manquantes.

Le procédé selon l’invention consomme une quantité de mémoire vive indépendante du nombre de variables. L’exemple comparatif montre que le procédé de l’invention peut être mis en œuvre sur un ordinateur de bureau doté d’une mémoire vive de 16 GO.

Le procédé selon l’invention peut fonctionner sur une machine de bureau en consommant des ressources de mémoire vive indépendantes du nombre de variables descriptives présentes dans le problème de classification.

Le procédé selon l’invention peut opérer sur des données contenues dans des fichiers situés sur des supports séparés.

Si l’on cherche à obtenir des résultats analogues en utilisant des algorithmes d’apprentissage supervisés disponibles dans les librairies publiques, un obstacle technique se présente, les librairies publiques exigeant que les données soient rassemblées dans un fichier ou matrice unique. La taille de cette matrice en mémoire vive peut facilement excéder les possibilités d’une machine ordinaire, en particulier si le nombre de variables est important.

Le procédé de classification de données selon l’invention est capable de fournir des éléments d’explication sur la façon dont chaque donnée est classifiée. Les commentaires explicatifs sont exprimés comme des conditions simples portant sur les variables retenues par les utilisateurs pour la classification.

Ces commentaires explicatifs ont la forme de règles d’association du type « Si condition 1 et condition 2 et … conditio n, Alors la variable d’intérêt appartient à la classe K ».

Les algorithmes d’apprentissage supervisé qui viennent d’être décrits permettent d’expliquer une performance, à partir d’un échantillon de co-variables.

Les algorithmes selon l’invention présentent de nombreux avantages :

capacité à traiter un grand nombre de co-variables ;
tolérance vis-à-vis de données manquantes, contrairement aux machines à vecteur support (SVM), et aux régressions linéaires ;
rendre compte d’effets de seuils sur des variables, contrairement aux machines à vecteur support (SVM), aux régressions linéaires, et aux approches topologiques de type plus proche voisin ;
rendre compte de dépendances non linéaires ;
traçabilité et parcimonie du modèle prédictif ;
pas d’hypothèse sur la distribution statistique des variables ;
pas d’à priori sur une hiérarchie inter variables, contrairement aux arbres de décision ;
évolutivité en fonction de nouvelles données ;
fournir des prédicteurs concurrents et partiellement corrélés.

Les algorithmes d’apprentissage selon l’invention sont déterministes et interprétables par tous, contrairement aux machines à vecteur support, aux forêts aléatoires et aux réseaux de neurones.

Par interprétable, on souligne ici qu’une personne peut comprendre la logique ayant conduit à la prédiction fournie par l’algorithme.

Les algorithmes selon l’invention sont adaptés à des données qualitatives et quantitatives.

L’agrégation d’experts fournit un prédicteur dont les performances sont comparables à celle de la meilleure combinaison convexe.

La construction du prédicteur permet de l’exprimer comme un estimateur de la fonction de régression.

Les algorithmes selon l’invention permettent d’éviter les biais de jugement, et permettent une synthèse de signaux contradictoires.

Les algorithmes selon l’invention permettent d’extraire les bons signaux d’une masse de données pour enrichir la variété des données, incorporer des indicateurs propriétaires.

Les algorithmes selon l’invention ne fonctionnent pas en boite noire, et leur fonctionnement peut être expliqué par les utilisateurs. Ils permettent une représentation des tendances et de leurs intermittences.

L’utilisation des algorithmes selon l’invention permet de fournir des prévisions interprétables.

Cette performance est avantageuse dans de nombreux secteurs.

En effet, par exemple, lorsque des décisions d’investissement sont prises sur la base de prévisions fournies par des algorithmes, les exigences réglementaires de traçabilité des décisions et de suivi des risques ne sont pas compatibles avec un fonctionnement de type boite noire, dans lequel aucune indication ne peut être trouvée sur les variables ayant participé à une prédiction.

Dans la plupart des problèmes de prédiction rencontrés, en particulier dans des situations industrielles, médicales ou environnementales, le nombre d’individus et d’occurrences est une donnée fixe (taille d’une banque de données d’images, de parcours clients, ou de caractéristiques biologiques de patients). La différence en matière de pouvoir prédictif entre plusieurs algorithmes se fait sur la capacité à créer de nouvelles variables Xⁱadaptées au problème posé. Cette étape de « features engineering » doit pouvoir être menée avec aussi peu de contraintes que possible sur le nombre de variables présentées à l’algorithme. Dans ce contexte, la capacité technique de l’invention à fonctionner en utilisant une quantité de mémoire indépendante du nombre de variables est particulièrement avantageuse.

Claims

Procédé technique de classification de données apte à être mis en œuvre sur un ordinateur de bureau, le procédé exploitant des données d’entrée d’un ensemble d’apprentissage comprenant :
- des co-variables Xⁱexplicatives, décrites par un ensemble d’instances indexées par un ensemble d’individus I_ket un ensemble d’occurrence T_l;
- les observations d’une variable Y d’intérêt ;
caractérisé en ce que les données des co-variables Xⁱexplicatives sont contenues dans des fichiers distincts, le procédé comprend les étapes suivantes :
définition d’une règle testant si une réalisation de X est dans un hyperrectangle de l’espace des variables explicatives ;

définition de la complexité de la règle ;

discrétisation de l’espace des variables explicatives en M modalités ;

recherche récursive sur la complexité des règles jusqu’à une complexité maximale fixée ;

sélection d’un sous ensemble de règles avec prédiction supérieure à zéro et d’un sous ensemble de règles avec prédiction inférieure à zéro, en contrôlant leur chevauchement.
Procédé selon la revendication 1, caractérisé en ce qu’il comprend une détermination de l’acceptabilité d’une règle, cette détermination comprenant les étapes suivantes :
- calcul de la couverture de la règle ;
- calcul de la significativité de la règle ;
- vérification de ce que la couverture de la règle est comprise entre deux valeurs prédéterminées ;
- vérification de ce que la significativité de la règle est supérieure à une valeur prédéterminée ;
- calcul d’un gain pénalisé.
Procédé selon la revendication 2, caractérisé en ce qu’il comprend une étape de vérification de ce qu’une condition sur le gain pénalisé est vérifiée.
Procédé selon la revendication 3, caractérisé en ce que la condition sur les gains est exprimée comme suit :

où Δ est une période fixée etγ _rune pénalisation dépendante de la règle.
Procédé selon l’une quelconque des revendications précédentes, caractérisé en ce qu’il est mis en œuvre sur un ordinateur de bureau dont la mémoire vive est d’une capacité inférieure à 20 GO.
Procédé d’apprentissage par ordinateur d’une commande d’un système technique, le procédé mettant en œuvre une classification technique de données selon l’une des revendications 1 à 5, le procédé d’apprentissage étant basé sur des séries temporelles sous la forme d’un échantillon de donnéesD _n =(X _i ,Y _i )_1<=i<=noù pour tout i,X _i est un ensemble de variables explicatives etY _i une variable d’intérêt.
Support lisible par ordinateur sur lequel sont stockées des instructions lisibles par machine pour exécuter un procédé selon l’une quelconque des revendications précédentes.