FR2865056A1

FR2865056A1 - Procede et dispositif de division d'une population d'individus pour predire des modalites d'un attribut cible donne

Info

Publication number: FR2865056A1
Application number: FR0400179A
Authority: FR
Inventors: Marc Boule
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2004-01-09
Filing date: 2004-01-09
Publication date: 2005-07-15
Also published as: US20050160055A1

Abstract

L'invention concerne un procédé et un dispositif de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné dans lesquels sont calculées (E201), à partir d'un modèle de partition en régions, des valeurs d'un modèle de distribution discret de régions indépendantes obtenues pour une pluralité de nombres de régions et/ou une pluralité de nombres d'individus compris dans les régions respectives et/ou une pluralité de nombres d'individus de même modalité cible compris dans les régions, le modèle de partition en régions étant tel que les distributions des individus sur chaque région sont indépendantes les unes des autres et la distribution des individus sur chaque région est définie par le nombre d'individus dans la région.

Description

La présente invention concerne un procédé et un dispositif de division

d'une population d'individus caractérisés par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné.

L'invention trouve particulièrement application dans l'exploitation statistique des données, notamment dans le domaine de l'apprentissage supervisé.

L'analyse statistique des données ou Data Mining en terminologie anglosaxonne a pris un effort considérable ces dernières années avec l'apparition de très grandes bases de données. Le Data Mining vise de manière générale à explorer, classifier et extraire des règles d'associations sous-jacentes au sein d'une base de données. Il est notamment utilisé pour construire des modèles de classification ou de prédiction. La classification permet d'identifier au sein d'une base de données des catégories à partir de combinaisons d'attributs, puis de ranger les données en fonction des catégories.

Ainsi, un des objectifs du Data Mining dit supervisé est la construction d'un modèle prédictif visant à prédire un attribut prédéterminé. La construction d'un modèle prédictif repose souvent sur une étape de sélection d'attributs. Cette sélection consiste à identifier parmi les attributs de la base de données considérée, celui ou ceux qui présentent la plus forte dépendance statistique avec un attribut cible et à décrire cette dépendance.

Un individu est par exemple un produit parmi l'ensemble de produits similaires formant une population.

Ce produit est par exemple un téléphone mobile dont les attributs sont par exemple, la référence, les fonctionnalités dont il dispose, sa date de fabrication, le lieu de fabrication de celui-ci, le fabricant, la zone géographique dans laquelle il a été vendu, voire le type d'abonnement associé à celui-ci. Par exemple, l'attribut cible est un défaut de fonctionnement de celui-ci.

La prédiction de cet attribut cible permet alors de détecter les risques de pannes des combinés téléphoniques en fonction des attributs sources et de pouvoir modifier des téléphones mobiles de manière à réduire ces pannes.

Un individu peut aussi être un client à un service. Ses attributs sources sont par exemple son âge, sa profession, son statut social, ses revenus, son lieu de résidence. L'attribut cible est par exemple la fidélité de celui-ci à un service auquel il souscrit.

Un individu peut aussi être une station météorologique dont les différents relevés constituent les attributs de la station météorologique. A partir de ces attributs sources, la présente invention peut ainsi prédire des attributs cibles tels que de possibles dégradations de conditions météorologiques, voire des catastrophes naturelles telles que des inondations.

Un attribut prend différentes valeurs. Ces valeurs, appelées classiquement modalités peuvent être numériques ou symboliques. On parle alors d'attributs numériques et d'attributs symboliques.

Certaines méthodes de Data mining supervisé requièrent une partition en régions des modalités des attributs. Ces régions sont connues sous le terme de groupes lorsque les attributs sont symboliques et d'intervalles lorsque les attributs sont numériques.

L'ensemble de modalités d'un ou de plusieurs attributs sont ainsi groupées en un nombre fini de régions en recherchant un compromis entre la valeur informationnelle et la valeur prédictive de la partition formée.

Certaines méthodes de Data Mining supervisé requièrent une discrétisation des attributs numériques. On entend ici par discrétisation d'un attribut numérique, un découpage du domaine des modalités prises par un attribut en un nombre fini de régions. Si le domaine en question est une plage de modalités continues, la discrétisation se traduira par une quantification de cette plage. Si le domaine est déjà constitué de modalités discrètes ordonnées, la discrétisation aura pour fonction de regrouper ces modalités en groupes de modalités consécutives.

La discrétisation des attributs numériques est un sujet largement traité dans la littérature.

On distingue deux types de méthodes de discrétisation: les méthodes descendantes et les méthodes ascendantes. Les méthodes descendantes partent de l'intervalle complet à discrétiser et cherchent le meilleur point de coupure de l'intervalle en optimisant un critère prédéterminé.

Les méthodes ascendantes partent d'intervalles élémentaires et cherchent la meilleure fusion de deux intervalles adjacents en optimisant un critère prédéterminé.

Dans les deux cas, elles sont appliquées itérativement jusqu'à ce qu'un critère d'arrêt soit satisfait.

Certaines de ces méthodes nécessitent un paramétrage utilisateur pour modifier le comportement du critère de choix du point de discrétisation ou pour fixer un seuil pour l'arrêt de la méthode. En effet, les méthodes de discrétisation doivent garantir un bon compromis entre la qualité informationnelle, c'est-à-dire l'homogénéité des intervalles vis-à-vis de l'attribut cible à prédire et la qualité statistique, c'est-à-dire la présence dans les intervalles d'un nombre de modalités suffisant pour assurer une généralisation efficace.

Un certain nombre de méthodes de discrétisation sont inspirées de la théorie de l'information et notamment du principe de longueur de description minimum MDL, acronyme de Minimum Description Length en terminologie anglo-saxonne.

Parmi ces méthodes, la méthode décrite dans la publication de Fayyad, U. et Irani, K. intitulée On the handling of continuous-valued attributes in decision tree generation. et publiée dans la revue Machine Learning 8:87-102 en 1992 utilise un critère de mesure de la quantité d'informations d'un intervalle sans coupure, et celle d'un intervalle avec coupure. Cette méthode basée sur le principe de la longueur de description minimale MDL est une méthode de discrétisation descendante. Elle part de l'intervalle complet, évalue toutes les coupures potentielles, et retient celle dont la quantité d'informations résultantes est minimum. Si cette quantité d'informations est inférieure à celle de l'intervalle initial, la coupure est retenue, l'algorithme est appliqué récursivement aux deux intervalles obtenus. Cette méthode de discrétisation est basée sur un critère d'évaluation, ainsi que sur un algorithme d'optimisation qui définissent implicitement un a priori favorisant certains modèles, soit par le critère, soit par l'heuristique d'optimisation. Cette même méthode se focalise aussi sur le problème du codage d'un modèle, ainsi que sur les exceptions à ce modèle.

Une autre méthode basée sur le principe MDL a été proposée par B Pfahringer dans un document intitulé Compression-Based Discretization of Continuous Attributes , lors de la 12ème conférence internationale sur l'étude de machine en 1995 (Twelfth International Conference on Machine Learning).

Cette méthode utilise un critère d'évaluation global d'une discrétisation. Dans un premier temps, une méthode telle que la méthode proposée par J Catlett intitulée On changing continuous attributes into ordered discrete attributes into ordered discrete attributes est utilisée pour générer un ensemble de points de coupure potentiellement intéressants. Cette méthode est une méthode descendante cherchant récursivement la meilleure bipartition d'un intervalle en maximisant un critère de gain d'informations. Cette méthode est appliquée de manière à obtenir trentedeux intervalles initiaux. Ces intervalles obtenus, un algorithme est appliqué pour rechercher la meilleure discrétisation en optimisant le critère MDL pour les frontières des intervalles.

Le coût total de la discrétisation selon cet algorithme est, lorsque l'attribut cible comporte deux modalités, égal à : Discretization = (I,,, a,-1).ent(I-1, Imax-1) + I.ent(I1, I) + E n, n, ) avec I,,,ax le nombre maximum d'intervalles, I le nombre d'intervalles, Ii le nombre d'intervalles pour lesquels la modalité majoritaire est la modalité 1, ent(k,n) est la quantité d'informations correspondant au choix de k possibilités parmi n et est donné par la formule ent(k,n)= -(k/n)log(k/n) (1-k/n)log(1-k/n), n; le nombre d'individus dans l'intervalle i, et ni.] le nombre d'individus qui ont la modalité majoritaire de l'intervalle i.

Le coût total de discrétisation se décompose en une somme de trois termes. Le premier terme (I,nax-1).ent(I-1, In,ax-1) est représentatif du codage des frontières entre les intervalles et est représentatif de l'évaluation des partitions. Le second terme I.ent(I1, I) est représentatif du codage des modalités majoritaires des intervalles et dépend donc à la fois du nombre d'intervalles total et du nombre d'intervalles ayant la première modalité cible comme modalité majoritaire. Le troisième terme n.ent(n,n,) est représentatif du codage des exemples de la modalité majoritaire dans chaque intervalle et est représentatif de l'évaluation d'un intervalle.

La dépendance du second terme par rapport au nombre d'intervalles total, qui est une information globale de la partition, et au nombre d'intervalles ayant la première modalité cible comme modalité majoritaire, qui est une information locale dépendant de chaque intervalle, fait que le critère utilisé dans cette méthode n'est pas décomposable sur les intervalles.

Ainsi, il n'est pas possible pour une telle méthode de décomposer ce critère sur les intervalles et donc de traiter un premier intervalle puis un second intervalle sans 25 que le traitement du second intervalle n'influence le premier intervalle.

Les méthodes précédemment décrites, bien qu'utilisant des critères de choix de discrétisation de bonne qualité, ne sont pas optimales. Ces méthodes sont basées sur des critères d'évaluation, ainsi que sur des algorithmes d'optimisation qui définissent implicitement un a priori favorisant certains modèles, soit par le critère qu'elles utilisent, soit par l'heuristique d'optimisation.

L'utilisation de critères de choix de discrétisation non décomposables ne permet pas la détermination d'un algorithme d'optimisation efficace et optimal et ainsi une exploitation optimale des données.

L'invention a pour but de résoudre les inconvénients de l'art antérieur en proposant un procédé de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné qui soit à la fois optimal, basé sur un a priori explicitement défini par l'utilisateur et qui soit décomposable sur les intervalles.

A cette fin, selon un premier aspect, l'invention propose un procédé de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné, à un individu est associée une modalité de l'attribut cible, caractérisé en ce que la population d'individus est divisée en une partition de régions, chaque région comprenant un nombre n; d'individus, à chaque région sont associés les nombres d'individus de même modalité cible compris dans la région, et le procédé comporte les étapes de: - calcul, à partir d'un modèle de partition en régions, de valeurs d'un modèle de distribution discret de régions indépendantes obtenues pour une pluralité de nombres de régions et/ou une pluralité de nombres d'individus compris dans les régions respectives et/ou une pluralité de nombres d'individus de même modalité cible compris dans les régions, le modèle de partition en régions étant tel que les distributions des individus sur chaque région sont indépendantes les unes des autres et la distribution des individus sur chaque région est définie par le nombre d'individus par modalité cible dans la région, - détermination parmi les valeurs calculées de la valeur minimale du modèle, - division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité cible compris dans les régions correspondant au calcul de la valeur minimale.

Corrélativement, l'invention propose un dispositif de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné, à un individu est associée une modalité de l'attribut cible, caractérisé en ce que la population d'individus est divisée en une partition de régions, chaque région comprenant un nombre d'individus, à chaque région sont associés les nombres d'individus de même modalité cible compris dans la région et le dispositif comporte: - des moyens de calcul, à partir d'un modèle de partition en régions, de valeurs d'un modèle de distribution discret de régions indépendantes obtenues pour une pluralité de nombres de régions et/ou une pluralité de nombres d'individus compris dans les régions respectives et/ou une pluralité de nombres d'individus de même modalité cible compris dans les régions, le modèle de partition en régions étant tel que les distributions des individus sur chaque région sont indépendantes les unes des autres et la distribution des individus sur chaque région est définie par le nombre d'individus par modalité cible dans la région, - des moyens de détermination parmi les valeurs calculées de la valeur minimale du modèle, - des moyens de division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité cible compris dans les régions correspondant au calcul de la valeur minimale.

Ainsi, en utilisant un modèle de partition en régions étant tel que les distributions des individus sur chaque région sont indépendantes les unes des autres et la distribution des individus sur chaque région est définie par le nombre d'individus par modalité cible dans la région, il est possible de déterminer de manière optimale une partition en région d'une population d'individus et tout en ayant un algorithme de détermination de complexité de calcul limitée.

De plus, en explicitant le modèle de partition en régions, il est alors possible de permettre un apprentissage optimal pour ce modèle de partition en régions.

Selon un autre aspect de l'invention, les attributs sont des attributs symboliques et le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre de modalités de l'attribut source, pour un nombre de régions donné toutes les divisions des individus en un nombre prédéterminé de régions sont équiprobables et pour une région donnée, toutes les distributions des modalités de l'attribut cible sont équiprobables.

Ainsi, en utilisant un tel modèle de partition en régions, il est possible de définir un critère d'optimisation fiable et qui permet de trouver la solution optimale pour un a priori sur les modèles explicitement définis.

De plus, un tel modèle de partition en régions simplifie la complexité de l'algorithme de prédiction d'un attribut cible.

Selon un autre aspect de l'invention, les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IGDD) = log B + E log(C R+J_1)+ log(nk!/nk, ! nk 2!... nk r!) A=1 k=1 dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut cible, I est le nombre de modalités de l'attribut source, n; est le nombre d'individus pour une modalité source donnée, n; est le nombre d'individus pour une modalité de l'attribut source donnée et une modalité de l'attribut cible donnée, K est le nombre de régions, nki est le nombre d'individus qui ont la modalité cible j dans la région k, B est le nombre de partitions de I modalités de l'attribut source en K régions.

Ainsi, cette foilnule permet d'obtenir un critère d'arrêt d'un algorithme d'optimisation qui soit décomposable sur les intervalles. L'utilisation d'une définition paramétrique de l'espace des modèles permet alors de calculer exactement les probabilités des modèles et des données connaissant les modèles. Ce calcul débouche sur un critère d'évaluation d'une discrétisation ou d'un groupage, dont le minimum correspond à la discrétisation ou le groupage optimal au sens de Bayes.

Selon un autre aspect de l'invention, les attributs sont des attributs numériques et le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre d'individus, pour un nombre de régions donné toutes les divisions des individus en un nombre prédéterminé de régions sont équiprobables et pour une région donnée, toutes les distributions des modalités de l'attribut cible sont équiprobables.

Selon un autre aspect de l'invention, les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) = log(C + 1-1 -, )+ log(C +)+ E log(n1!/n1,, !n,,2!...n;, J I i=1 i=1 dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut, I est le nombre de régions, n; est le nombre d'individus dans une région donnée i et n; est le nombre d'individus pour une modalité de l'attribut source dans la région donnée i.

Ainsi, cette formule permet d'obtenir un critère d'arrêt d'un algorithme d'optimisation qui soit décomposable sur les intervalles. L'utilisation d'une définition paramétrique de l'espace des modèles permet alors de calculer exactement les probabilités des modèles et des données connaissant les modèles. Ce calcul débouche sur un critère d'évaluation d'une discrétisation ou d'un groupage, dont le minimum correspond à la discrétisation ou le groupage optimal au sens de Bayes.

Selon un autre aspect de l'invention, les attributs sont des attributs numériques et le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre d'individus, pour un nombre de partitions donné toutes les partitions en régions des individus et toutes les distributions des modalités de l'attribut cible pour ces régions sont équiprobables.

Selon un autre aspect de l'invention, les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) = Iog(C,.)+ log(n,!/n; ,!'1i,2!...n,,.) dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut cible, I est le nombre de régions, n; est le nombre d'individus dans une région donnée i et ni,i est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

Selon un autre aspect de l'invention, les attributs sont des attributs numériques et le modèle de partition en régions est tel que toutes les partitions en régions sont équiprobables quel que soit le nombre de régions et pour une région donnée, toutes les distributions des modalités sont équiprobables.

Selon un autre aspect de l'invention, le modèle de partition en régions est en outre tel que toutes les régions comportent le même nombre d'individus n; Selon un autre aspect de l'invention, on détermine une amplitude de variation des modalités de l'attribut source et le modèle de partition en régions est en outre tel que la partition en régions est telle que les régions ont la même amplitude de variation des modalités de l'attribut source.

Selon un autre aspect de l'invention, les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) _ log(C +,- )+ log(n; !/n,,, !n,,2!...n,,r!) dans laquelle J est le nombre de modalités de l'attribut cible, I est le nombre de régions, n; est le nombre d'individus dans une région donnée i et n, est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

Selon un autre aspect de l'invention, les attributs sont des attributs numériques et le modèle de partition en régions est tel que tous les modèles de discrétisation sont équiprobables quel que soit le nombre de régions, la partition en régions et la distribution des modalités par intervalles.

Selon un autre aspect de l'invention, les valeurs d'un modèle de distribution 15 discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) = log(n; !/ni,, ! n;,2!...n; , !) dans laquelle I est le nombre de régions, n; est le nombre d'individus dans une région donnée i et n1 est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

Selon un autre aspect de l'invention, le calcul de valeurs d'un modèle de distribution discret de régions indépendantes est effectué à partir d'un modèle de partition en régions, la détermination de la valeur minimale du modèle est effectuée à partir d'un algorithme d'optimisation optimale ou d'un algorithme de discrétisation ascendant ou d'un algorithme de discrétisation descendant.

Ainsi, la présente invention permet l'utilisation d'algorithmes produisant une solution optimale avec un coût de calcul raisonnable ou l'utilisation d'algorithmes performants en coût de calcul et produisant une solution proche de la solution optimale.

Selon un autre aspect de l'invention, lorsque le calcul de valeurs d'un modèle de distribution discret de régions indépendantes, la détermination de la valeur minimale du modèle sont effectués à partir d'un algorithme ascendant, le procédé comporte en outre les étapes effectuées sur la partition de régions de: - fusion de régions adjacentes deux à deux itérativement jusqu'à former une unique région, - calcul et mémorisation, pour chaque fusion, de la valeur du modèle de discrétisation, détermination de la valeur minimale mémorisée, - division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité compris dans les régions correspondant au calcul de la valeur minimale, - modification de la partition de régions en évaluant simultanément des divisions d'intervalles en deux intervalles, des changements de frontière entre deux intervalles consécutifs et la réunion de trois intervalles consécutifs en deux intervalles sur la partition de régions.

Selon un autre aspect de l'invention, lorsque le calcul de valeurs d'un modèle de distribution discret de régions indépendantes, la détermination de la valeur minimale du modèle sont effectués à partir d'un algorithme descendant, le procédé comporte en outre les étapes effectuées sur la partition de régions de: - division de régions en deux régions itérativement jusqu'à obtenir autant de régions que d'individus, - calcul et mémorisation, pour chaque division, de la valeur du modèle de discrétisation, - détermination de la valeur mémorisée minimale, division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité compris dans les régions correspondant au calcul de la valeur minimale, - modification de la partition de régions en évaluant simultanément des divisions d'intervalles en deux intervalles, des changements de frontière entre deux intervalles consécutifs et la réunion de trois intervalles consécutifs en deux intervalles sur la partition de régions.

Ainsi, ces optimisations permettent d'obtenir une solution quasi optimale tout en ayant un coût de calcul limité.

L'invention concerne aussi le programme d'ordinateur stocké sur un support d'informations, ledit programme comportant des instructions permettant de mettre en oeuvre le procédé précédemment décrit, lorsqu'il est chargé et exécuté par un système informatique.

Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels: la Fig. 1 représente le schéma bloc d'un dispositif de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné; la Fig. 2 représente l'algorithme de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné ; la Fig. 3 représente un algorithme de post optimisation effectué par le dispositif de division à la suite d'une optimisation selon un algorithme de type GBUD; la Fig. 4 représente un algorithme de post optimisation effectué par le dispositif de division à la suite d'une optimisation selon un algorithme de type GTDD.

La présente invention est basée sur une définition paramétrique de l'espace des modèles de discrétisation ou de groupage et sur la définition explicite de la distribution a priori des modèles dans cet espace.

L'utilisation d'une définition paramétrique de l'espace des modèles permet alors de calculer exactement les probabilités des modèles et des données connaissant les modèles. Ce calcul débouche sur un critère d'évaluation d'une discrétisation ou d'un groupage, dont le minimum correspond à la discrétisation ou le groupage optimal au sens de Bayes.

Dans le cadre de la présente invention, lorsque les individus ont des attributs numériques, les individus sont triés selon les modalités de l'attribut à discrétiser. Les modalités constituent alors une chaîne S, de longueur n égale au nombre d'individus à trier comportant une séquence de modalités de l'attribut cible, l'attribut cible pouvant prendre J modalités différentes.

Selon la présente invention, un modèle de discrétisation est considéré comme un modèle à intervalles indépendants avec des distributions discrètes s'il ne repose que sur l'ordre des individus de la chaîne S représentant l'ensemble des individus et cela sans tenir compte des modalités de l'attribut à discrétiser, s'il permet de définir unepartition de la chaîne S en sous-chaînes représentant les individus dans un intervalle, si les distributions des individus sur chaque intervalle sont indépendantes les unes des autres et si la distribution des individus sur chaque intervalle est définie uniquement par le nombre d'individus par modalité cible sur cet intervalle.

Ainsi, selon la présente invention, un modèle de discrétisation à intervalles indépendants avec des distributions discrètes (IIDD) est compatible avec une chaîne S si les sous-chaînes correspondant aux intervalles définis par le modèle ont une distribution d'individus identique à celle définie par le modèle.

Aussi, le modèle de discrétisation IIDD d'une chaîne S ne peut-être optimal au sens de Bayes que s'il est compatible avec cette chaîne.

En effet, la probabilité qu'une chaîne S non compatible avec un modèle IIDD soit conforme à ce modèle est par définition nulle. L'intérêt de ce résultat est que tout algorithme d'optimisation d'une discrétisation IIDD d'une chaîne S n'a qu'à parcourir les modèles compatibles avec la chaîne S pour obtenir la solution optimale, le choix des distributions par intervalle étant donné par la chaîne S. Selon la présente invention, toute distribution de probabilités portant sur les réalisations possibles du modèle est appelée a priori un modèle de discrétisation.

Par exemple et selon un premier mode de réalisation de la présente invention, un premier a priori de modèle de discrétisation IIDD selon la présente invention est basé sur les hypothèses suivantes: - le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre d'individus, - pour un nombre de régions donné, toutes les divisions des individus en un nombre prédéterminé de régions sont équiprobables et pour une région donnée, - toutes les distributions des modalités de l'attribut cible sont équiprobables.

Pour une discrétisation de type IIDD, un a priori est défini dès que l'on connaît une distribution de probabilités de ses paramètres caractéristiques.

Nous adopterons par la suite les notations suivantes: - p(I): probabilité a priori d'observer un nombre d'intervalles I, - p({n;}): probabilité a priori d'observer l'ensemble des valeurs ni pour un nombre d'intervalles I donné, - p(ni): probabilité a priori d'observer une valeur de n; pour un intervalle donné i, - p({n;j}): probabilité a priori d'observer l'ensemble des valeurs n;j pour un nombre d'intervalles I donné, - p({nid};): probabilité a priori d'observer l'ensemble des valeurs ni; d'un intervalle donné i.

Un modèle est optimum au sens de Bayes s'il est le modèle le plus probable connaissant les données, ce qui revient à maximiser la probabilité p(IIDD/S) pour une chaîne S donnée.

D'après la formule de Bayes, ceci revient à maximiser p(IIDD) p(S/IIDD)/ p(S) Comme p(S) est constant, il suffit alors de maximiser p(IIDD) p(S/IIDD) Concernant le premier terme: p(IIDD) = p(I, {n; }, {ni) }) p(IIDD) = p(I)p(}ni}/I)p({ni}I, {ni}) Le nombre d'intervalles étant compris entre 1 et n de façon équiprobable, nous avons p(I) =1/n.

Pour un nombre d'intervalles donné, toutes les partitions en intervalles sont équiprobables. D'après la formule d'énumération combinatoire de ce nombre de partitions, on a p(}n; }/I)=1C '+;_, Concernant le troisième terme: Ani/ }n;})=P(n;i1,{ni}2 ÉÉ,{' i1,/ ,{ni 1) Les distributions de valeurs cibles sont indépendantes par intervalles, donc: I {ni l {n}I,{nr} )=II p({n;i 1,/I,}) p({n;i{n;})=P({n,i};/n;) i=i Or, pour un intervalle i donné de taille n;, le nombre de distributions possibles de nk en J nombre de modalités de l'attribut cible est égal à C j'+;_, . r r- pn,i I, {n, 1) = ;_1 Ainsi, nous obtenons: Él p(IIDD) _ (1 / n)(1/C,r, +r-i 1/C,J 1 r_, Nous allons maintenant évaluer la probabilité d'observer la chaîne S si elle a été émise conformément au modèle de discrétisation IIDD.

p(S/IIDD) = p(S/I, {n, }, {no D En découpant la chaîne S en I souschaînes Si de taille ni nous obtenons: p(S/IIDD) = p(S, , S2,..., Sr /I, {nt}, {n,i I La chaîne S ayant été émise par un modèle de discrétisation à intervalles indépendants, les probabilités d'observer chaque sous- chaîne Si sont indépendantes entre elles et donc: p(S/IIDD) = fi p(S,/I, {n,}, {ni{) i=i Sur chaque sous-chaîne, la distribution observée ne dépend que du modèle localement à l'intervalle correspondant, ainsi: p(S, /I, (n, }, {n,i}) = p(S, }i) Si le modèle de la distribution k}. des modalités cibles sur l'intervalle est incompatible avec la sous-chaîne Si, la probabilité d'observer Si sachant qu'elle est émise par le modèle est nulle.

Par la suite, nous ne nous intéresserons qu'aux modèles compatibles avec la chaîne observée.

Sur un intervalle donné, le modèle est défini par le nombre d'individus pour chaque modalité cible, et toutes les sous-chaînes compatibles avec le modèle sont observables de façon équiprobable. Le nombre de possibilités de sous-chaînes Si pour un modèle de distribution donné dérive de la formule du multinome.

Il est remarquer ici que la formule du multinome représente le nombre de possibilités de partager un ensemble de ni individus en J sous-ensembles disjoints deux à deux de n, individus.

On a donc: p(S; /I, {n, }, {jZ,i D= 1/(n, !/n;,, ! n,,2!...i,, !) p(S/IIDD) U V(n, !/n,,1!n;,2!...n;,, !) Ainsi, pour une chaîne S, il faut donc trouver, parmi les modèles IIDD compatibles avec la chaîne S, celui qui maximise la formule suivante: p(IIDD)p(S/IIDD) = (1/n)(1/C,+1-1) 1II/C f.;_, fj 1/(ni!/n;1! ni,2!...ni,j!) i=1 i=1 En prenant l'opposé du logarithme de la formule précédente, et en éliminant le terme constant log(n), ceci revient à maximiser le critère: Valeur(IIDD) = log(C,';_, )+ log(C'+_, )+ E log(n; !/ni,, ! ni,2!...n;,r!) t=1 t=1 Ainsi, le modèle de discrétisation IIDD suivant le premier a priori est optimal au sens de Bayes si son évaluation par la formule suivante est minimale sur l'ensemble de tous les modèles: Valeur(IIDD) =1og(C;+,_, )+ log(C'+;_, )+ log(n; ! ni,2!...n; j!) i=1 i=1 Un critère d'évaluation d'une discrétisation est décomposable sur les intervalles si: -il permet une évaluation globale de la discrétisation, - il se décompose de manière additive en une évaluation de la partition, ne dépendant que de S et de I, et une évaluation de chaque intervalle ne dépendant que de Si, soit: Discretisation(S, I, {Si,1 S i 5 I}) = Partition (S, I) + Interval (Si) r=1 - chaque terme de la décomposition est borné, permettant ainsi une optimisation du critère.

Selon notre exemple,

Partition(S, I) = log(C+;_, ) Interval(S;) = log(C ' , )+ log(n; !/n,1! n; ,2!...n; )) Ainsi, le critère de discrétisation suivant le modèle de discrétisation IIDD est décomposable sur les intervalles.

Selon un second mode de réalisation de l'invention, un second a priori de modèle de discrétisation IIDD est basé sur les hypothèses suivantes: - le nombre d'intervalles est compris entre 1 et n, de façon équiprobable, pour un nombre d'intervalles donné, toutes les partitions en intervalles de la chaîne à discrétiser et toutes les distributions de modalités de l'attribut cible pour ces intervalles sont équiprobables.

Ainsi, le modèle de discrétisation IIDD suivant le second mode de réalisation est optimal au sens de Bayes si son évaluation par la formule suivante est minimale sur l'ensemble de tous les modèles: Valeur(IIDD) = 1og(C,,, 1.r -1 )+ log(n, !/n,,, ! n,,2!...n, j!) i=I Ce critère est aussi décomposable sur les intervalles, et dans ce second mode de réalisation: Partition(S, I) =1og(C,',+;_t) Interval (S,) = log(n, !/n,,, ! n,,2!...n;,J!) Selon un troisième mode de réalisation de l'invention, un troisième a priori de modèle de discrétisation IIDD est basé sur les hypothèses suivantes: - toutes les partitions en intervalles sont équiprobables quel que soit le nombre d'intervalles, - pour un intervalle donné, toutes les distributions de modalités de l'attribut cible sont équiprobables.

Selon un quatrième mode de réalisation de l'invention, un quatrième a priori de modèle de discrétisation IIDD est basé sur une hypothèse supplémentaire au troisième mode de réalisation, cette hypothèse étant que toutes les régions comportent le même nombre d'individus n; Selon un cinquième mode de réalisation de l'invention, un cinquième a priori de modèle de discrétisation IIDD est basé sur une hypothèse supplémentaire au troisième mode de réalisation, cette hypothèse étant que la partition en régions est telle que les régions ont la même amplitude de variation des modalités de l'attribut source.

Ainsi, le modèle de discrétisation IIDD suivant les troisième, quatrième et cinquième modes de réalisation est optimal au sens de Bayes si son évaluation par la formule suivante est minimale sur l'ensemble de tous les modèles: Valeur(IIDD) = log(C +)+ log(n, !/ni,, !n;,2!) i=1 i=1 Ce critère est aussi décomposable sur les intervalles, et dans ce second mode de réalisation: 17 Interval(S;) = iog(c, + ' j _, )+ log(ni!/n, , ! n. ,!...n, j!) Selon un sixième mode de réalisation de l'invention, un sixième a priori de modèle de discrétisation IIDD est basé sur les hypothèses suivantes: - tous les modèles de discrétisation sont équiprobables, quel que soit le nombre 5 d'intervalles, la partition en intervalles et la distribution de modalités de l'attribut cible par intervalles.

Ainsi, le modèle de discrétisation IIDD suivant le sixième mode de réalisation est optimal au sens de Bayes si son évaluation par la formule suivante est minimale sur l'ensemble de tous les modèles: Valeur(IIDD) nia, !...n,,, !) Ce critère est aussi décomposable sur les intervalles, et dans ce second mode de réalisation: Interval(S;) = log(n, !/n,,, ! ni, 2!...n, r!) Le critère d'évaluation étant défini, l'un quelconque des critères précédemment définis est par exemple utilisé dans un algorithme d'optimisation tel que celui proposé dans la publication de Y Lechevallier, en 1990 dans le Technical report N 1247, INRIA et intitulée Recherche d'une partition optimale sous contrainte d'ordre total .

Cet algorithme, appelé OPTD pour Optimal Discretization permet de trouver la discrétisation de coût optimal pour une complexité égale au nombre n d'individus de la chaîne pris à la puissance trois. Cet algorithme trouve, pour un critère additif donné, la meilleure partition en moins de I intervalles fixés.

Un critère est additif si pour une partition optimale de S en I intervalles S I, S2....

SI, la partition de (S-Si) en (I-1) intervalles est optimale sur S2.... SI.

Le critère de discrétisation suivant le modèle de discrétisation IIDD étant décomposable sur les intervalles, celui-ci est un critère additif.

En effet, Discretisation(S, I) = Partition(S, I) + E Interval (S,) Discretization (S, I) = Partition(S, I) Partition(S S, , I -1) + Interval (S, ) + 30 Partition(S Si, I -1) + Interval (S, i=2 Si le coût est optimal pour le découpage de S en I intervalles, alors la formule cidessus montre que le coût est optimal pour le découpage de (S-S I) en (I1) intervalles.

On peut donc appliquer l'algorithme de programmation dynamique dont on va rappeler ci-dessous les grandes lignes.

Soit S l'ensemble initial composé de n individus.

Soit Sk le sous-ensemble de S composé des individus k à n. On a S = Si.

Dans une étape d'initialisation, on cherche la meilleure partition des ensembles Sk en un intervalle.

On a trivialement Sk =[k, n].

A chaque étape suivante, on part d'un état initial où l'on dispose pour chaque ensemble Sk de sa partition en I intervalles, et on cherche la meilleure partition en I+1 intervalles.

Posons Local(S, I) = Discretisation(S, 1) Partition(S, 1) _ Interval (S; ) Pour un I donné, optimiser Discretisation(S,I) est équivalent à optimiser Local (S, I) . Il est alors aisé de calculer la partition optimale en I+1 intervalles pour chacun des ensembles Sk en parcourant les discrétisations optimales en I intervalles des ensembles Sk, pour k'> k, ce qui correspond à une complexité algorithmique fonction du nombre d'individus de la population pris à la puissance deux à chaque étape.

A chaque étape, on a la meilleure partition de S= S' en I intervalles, et on peut évaluer son coût global. Arrivé à l'étape I, on a ainsi trouvé, en mémorisant la meilleure solution rencontrée, la meilleure discrétisation en moins de I intervalles.

Il y a au plus n étapes, ce qui entraîne une complexité algorithmique fonction du nombre d'individus de la population pris à la puissance trois pour la recherche de la partition optimale en moins de n intervalles.

Bien entendu d'autres algorithmes d'optimisation peuvent aussi être utilisés dans la présente invention.

L'algorithme GBUD, acronyme de Greedy Bottom Up Discretization" et connu sous l'appellation d'algorithme glouton ascendant peut aussi être utilisé dans la présente invention. Cet algorithme est décrit dans la demande de brevet français dont le numéro de publication est FR 2825168.

Selon cet algorithme, à partir d'intervalles élémentaires par exemple constitués chacun d'un unique individu, toutes les fusions d'intervalles possibles sont envisagées, et la meilleure fusion au sens du critère à optimiser est déterminée. Tant que le critère d'arrêt n'est pas atteint, la fusion est effectuée et l'algorithme est réitéré.

L'algorithme GTDD, acronyme de Greedy Top Down Discretization et connu sous l'appellation d'algorithme glouton descendant peut aussi être utilisé dans la présente invention.

Cet algorithme part du domaine numérique initialement complet, envisage toutes les coupures en deux intervalles, et évalue la meilleure coupure au sens du critère à optimiser. Si le critère d'arrêt n'est pas atteint, la coupure est effectuée et l'algorithme est réitéré.

Chaque recherche de bipartition dans un intervalle de taille n a une complexité égale au nombre n d'individus de la chaîne.

Cet algorithme récursif est particulièrement adapté dans le cas d'un critère d'évaluation de bipartition, local à deux intervalles.

Selon la présente invention, l'algorithme GTDD est adapté pour prendre en compte des critères d'évaluation décomposables par intervalles.

Dans un premier temps, la meilleure bipartition en deux sous-intervalles est recherchée en évaluant tous les points de coupures potentiels, et la coupure est effectuée si l'évaluation globale de la bipartition est meilleure que l'évaluation de l'intervalle complet initial.

Pour un intervalle donné il, on va chercher sa meilleure coupure au sens global en deux sous-intervalles ila et ilb. Suite à cette coupure, le nouveau coût de discrétisation est: Discretisation (Spliti) = Partition (, I + 1) + Interval(S, ) + Interval(i u)+ Interval(S; )+ Interval(Si i=1 i=i,+I La variation du coût suite à la coupure des deux intervalles est: zDiscretization (Spliti) = Part ition (S, I +1) Partition (S, I) + Interval (i)+ Interval (i) Interval (Si Soient OPartition(S,I)= Partition(S,I +1) Partition(S,I) , AInterval(Split, )= Interval( )+ Interval(Si j Interval(i).

On a ADiscretisation(Spliti)= APartition(S,I)+ i Interval(Spliti).

Cette formule permet de rechercher la meilleure coupure d'intervalles en évaluant uniquement les variations des coûts d'intervalles, puis d'évaluer le critère d'arrêt de l'algorithme en comparant la variation du coût des intervalles à la variation du coût de la partition qui elle, est indépendante du choix des intervalles coupés.

Il suffit alors à chaque étape de mémoriser pour chaque intervalle de l'algorithme son coût de discrétisation et la variation de ce coût de discrétisation suite à sa bipartition. Après une coupure d'intervalles, seuls les deux sous- intervalles issus de la coupure doivent être mis à jour pour préparer l'étape suivante.

Lorsque les individus ont des attributs symboliques, chaque individu est aussi décrit par au moins une modalité de l'attribut source et une modalité de l'attribut cible. Les modalités d'un attribut symbolique peuvent être distinguées les unes des autres, mais ne peuvent être ordonnées de manière classique contrairement aux attributs numériques.

Selon la présente invention, un modèle de groupage est considéré comme un modèle à groupes indépendants avec des distributions discrètes s'il permet de définir une partition des populations d'individus en groupes, si les distributions des modalités de l'attribut cible dans chaque groupe sont indépendantes les une des autres et si la distribution des modalités de l'attribut cible sur chaque groupe est définie uniquement par la fréquence des modalités de l'attribut cible dans ce groupe.

Un tel modèle de groupage sera par la suite appelé modèle IGDD.

Selon la présente invention, un modèle de groupage IGDD est compatible avec une chaîne d'individus si les sous-ensembles d'individus correspondant aux groupes définis par le modèle ont une distribution de modalités de l'attribut cible identique à celle définie par le modèle et un modèle de groupage IGDD d'une chaîne d'individus ne peut être optimal au sens de Bayes que s'il est compatible avec cette chaîne.

Selon la présente invention, toute distribution de probabilités portant sur les réalisations possibles du modèle est appelée a priori un modèle de groupage.

Par exemple, un a priori de modèle de groupage IGDD selon la présente invention est basé sur les hypothèses suivantes: - le nombre K de groupes est compris entre un et le nombre I de modalités de l'attribut source de façon équiprobable, - pour un nombre de groupes donné, toutes les partitions des modalités de l'attribut source en K groupes sont équiprobables, - pour un groupe donné, toutes les distributions de modalités de l'attribut cible sont équiprobables.

Ainsi, le modèle de discrétisation IGDD est optimal au sens de Bayes si son évaluation par la formule suivante est minimale sur l'ensemble de tous les modèles: Valeur(IGDD) = log(B(I, K))+ log(C +)+ log(nk!/nk,, ! nk,2! ÉÉÉnk J k=1 k=I dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut cible, I est le nombre de modalités de l'attribut source, ni est le nombre d'individus pour une modalité source donnée, n;,; est le nombre d'individus pour une modalité de l'attribut source donnée et une modalité de l'attribut cible donnée, K est le nombre de régions ou groupes, nk; est le nombre d'individus qui ont la modalité cible j dans la région ou groupe k, B(I,K) est le nombre de partitions de I modalités de l'attribut source en K régions ou groupes ou appelé par la suite nombre de Bell généralisé.

Selon une variante de réalisation de la présente invention, on impose que chaque groupe ne soit pas vide et dans ce cas, le nombre de partitions de I modalités de l'attribut source en K régions est égal à S(n,i): dans lequel S(n,i) est le nombre de Stirling de seconde espèce.

Il est à remarquer ici que le nombre de Stirling de seconde espèce S(n,k) représente le nombre de partitions de n individus en k parties non vides, alors que le nombre de Bell B(n) représente le nombre total de partitions de n individus.

La notion de nombre de Bell généralisé B(n,k) introduite dans la présente invention est égale au nombre total de partitions de n individus en k parties éventuellement vides.

La Fig. 1 représente le schéma bloc d'un dispositif de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné.

Le dispositif de division 10 est par exemple un micro-ordinateur.

Le dispositif de division 10 comporte un bus de communication 101 auquel sont reliés une unité centrale 100, une mémoire morte ROM 102, une mémoire vive RAM 103, un écran 104, un clavier 105, une interface de communication 106 avec un réseau de télécommunication 150, un disque dur 108 et un lecteur enregistreur de données 109 sur un support amovible.

La mémoire morte ROM 102 mémorise entre autres les programmes mettant en oeuvre l'invention qui seront décrits ultérieurement en référence aux Figs. 2, 3 et 4.

La mémoire morte ROM 102 mémorise aussi les différents critères d'optimisation de la présente invention, ainsi que les différents algorithmes d'optimisation de la présente invention.

De manière plus générale, les programmes selon la présente invention sont mémorisés dans un moyen de stockage. Ce moyen de stockage est lisible par un ordinateur ou un microprocesseur 100. Ce moyen de stockage est intégré ou non au dispositif de division 10, et peut être amovible.

Lors de la mise sous tension du dispositif de division 10, ou lors du lancement du logiciel de division, les programmes selon la présente invention sont transférés dans la mémoire vive 103 qui contient alors le code exécutable de l'invention ainsi que les données nécessaires à la mise en oeuvre de l'invention.

Le dispositif de division 10 comporte un écran 104 apte à reproduire des informations représentatives de la partition en régions de la population en régions selon la présente invention.

Le dispositif de division 10 comporte aussi un clavier 105 servant d'interface homme machine. Par l'intermédiaire de ce clavier 105, l'utilisateur du dispositif de division 10 sélectionne le critère de discrétisation parmi les différents critères d'optimisation déterminés par la présente invention, ainsi qu'un algorithme d'optimisation parmi les algorithmes d'optimisation selon la présente invention.

Par l'intermédiaire du clavier 105 et de l'écran 104, l'utilisateur sélectionne une base de données à traiter, une population d'individus à diviser, ainsi qu'un attribut cible pour lequel la prédiction doit être effectuée.

Bien entendu, le clavier 105 peut être remplacé ou complémenté par une interface homme machine telle qu'une souris.

L'interface réseau 106 permet la réception de bases de données à traiter ou de requêtes comprenant l'attribut cible pour lequel la prédiction doit être effectuée.

L'interface réseau 106 permet aussi le transfert par l'intermédiaire du réseau de télécommunication 150 de la prédiction sur l'attribut cible qui a été effectuée par le dispositif de traitement.

Le disque dur 108 mémorise les bases de données utilisées par la présente invention pour la prédiction d'un attribut cible.

Le disque dur 108 mémorise aussi en variante les programmes mettant en oeuvre l'invention qui seront décrits ultérieurement en référence aux Figs. 2, 3 et 4, ainsi que les différents critères d'optimisation de la présente invention et les différents algorithmes d'optimisation de la présente invention.

Le lecteur enregistreur de données 109 sur un moyen de mémorisation amovible est par exemple un lecteur enregistreur de disques compacts.

Le lecteur enregistreur de données 109 est apte à lire les programmes selon la présente invention pour le transfert de ceux-ci sur le disque dur 108.

Le lecteur enregistreur de données 109 est aussi apte à lire des bases de données utilisées pour la prédiction d'un attribut cible selon la présente invention et à mémoriser le résultat de la prédiction sur un support d'informations amovible.

La Fig. 2 représente l'algorithme de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné.

L'étape E200 consiste à définir un a priori de modèle de discrétisation.

Selon un premier mode de réalisation de la présente invention, un premier a priori de modèle de discrétisation IIDD selon la présente invention est basé sur les hypothèses suivantes: - le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre d'individus, - pour un nombre de régions donné, toutes les divisions des individus en un nombre prédéterminé de régions sont équiprobables et pour une région donnée, - toutes les distributions des modalités de l'attribut cible sont équiprobables. Selon le second mode de réalisation de l'invention, un second a priori de modèle de discrétisation IIDD est basé sur les hypothèses suivantes: - le nombre d'intervalles est compris entre 1 et n, de façon équiprobable, - pour un nombre d'intervalles donné, toutes les partitions en intervalles de la chaîne à discrétiser et toutes les distributions de modalités de l'attribut cible pour ces intervalles sont équiprobables.

Selon le troisième mode de réalisation de la présente invention, un troisième a priori de modèle de discrétisation IIDD est basé sur les hypothèses suivantes: - toutes les partitions en intervalles sont équiprobables quel que soit le nombre d'intervalles, - pour un intervalle donné, toutes les distributions de symboles sont équiprobables.

Selon le quatrième mode de réalisation de l'invention, un quatrième a priori de modèle de discrétisation IIDD est basé sur une hypothèse supplémentaire au troisième mode de réalisation, cette hypothèse étant que toutes les régions comportent le même nombre d'individus n; Selon le cinquième mode de réalisation de l'invention, un cinquième a priori de modèle de discrétisation IIDD est basé sur une hypothèse supplémentaire au troisième mode de réalisation, cette hypothèse étant que la partition en régions est telle que les régions ont la même amplitude de variation des modalités de l'attribut source.

Selon le sixième mode de réalisation de l'invention, un sixième a priori de modèle de discrétisation IIDD est basé sur les hypothèses suivantes: tous les modèles de discrétisation sont équiprobables, quel que soit le nombre d'intervalles, la partition en intervalles et la distribution de modalités de l'attribut cible par intervalles.

L'a priori utilisé dans la présente invention défini, l'étape suivante E201 consiste à exécuter un algorithme d'optimisation en utilisant les formules précédemment décrites et correspondant à l'a priori défini pour déterminer la valeur minimale calculée pour l'ensemble des modèles possibles.

Connaissant J le nombre de modalités de l'attribut, n le nombre d'individus à discrétiser, en calculant les différentes valeurs Valeur(IIDD) correspondantes aux différentes variations du nombre I de régions, du nombre ni d'individus dans une région donnée i et du nombre n; d'individus pour une modalité de l'attribut source dans la région donnée i, il est possible de déterminer la division de la population d'individus optimale au sens de Bayes.

Des algorithmes classiques peuvent être utilisés pour cette détermination.

L'algorithme d'optimisation tel que celui proposé dans la publication de Y Lechevallier, en 1990 dans le Technical report N 1247, INRIA et intitulée Recherche d'une partition optimale sous contrainte d'ordre total est par exemple utilisé dans la présente invention.

La valeur minimale déterminée, l'algorithme passe à l'étape suivante E202.

A cette étape, la population d'individus est divisée en une partition derégions correspondante selon le nombre I de régions, le nombre ni d'individus dans une région donnée i et le nombre ni.; d'individus pour une modalité de l'attribut source dans la région donnée i correspondant à la valeur minimale calculée.

Cette opération effectuée, et selon un mode particulier de réalisation, une post- optimisation est effectuée à l'étape E203 sur la partition de régions.

Cette post-optimisation sera explicitée plus en détails en référence aux Fig. 3 et 4.

De la même manière que celle décrite précédemment, lorsque les attributs sont des attributs symboliques, le présent algorithme est apte à diviser une population d'individus dont les modalités des attributs cibles sont au nombre de deux et dont les groupes formés sont compatibles avec l'ordre des modalités de l'attribut source triées par fréquence d'apparition croissante.

De même, le présent algorithme est apte à diviser une population d'individus définis par un ensemble d'attributs symboliques sources pour prédire des modalités d'un attribut cible.

Pour cela, un attribut symbolique est déterminé à partir de l'ensemble d'attributs sources. Cet attribut symbolique est par exemple déterminé en effectuant le produit cartésien des attributs symboliques de l'ensemble d'attributs symboliques sources.

De même, le présent algorithme est apte à diviser une population d'individus définis par un ensemble d'attributs symboliques et numériques sources pour prédire des modalités d'un attribut cible.

Pour cela, les attributs numériques sont préalablement discrétisés et à chaque intervalle de discrétisation est associée une valeur symbolique. Cette valeur symbolique est par exemple un indice identifiant l'intervalle.

L'algorithme d'optimisation tel que l'algorithme GBUD ou algorithme glouton ascendant peut aussi être utilisé dans la présente invention lorsque les attributs sont symboliques. Cet algorithme est décrit dans la demande de brevet français dont le numéro de publication est FR 2825168.

Selon un mode particulier de réalisation, une pré-optimisation peut aussi être effectuée préalablement à l'étape E201 lorsque les attributs sont des attributs symboliques.

Cette pré-optimisation consiste essentiellement à limiter le nombre de modalités initial I à un nombre 1' fi; . Cette limitation permet alors de réduire de manière importante la complexité de l'algorithme d'optimisation.

Dans un premier temps, les modalités de l'attribut source pures, c'est-àdire les modalités sources associées à un seul type de modalité cible, sont regroupées par modalités de l'attribut cible.

Dans un second temps, si le nombre de modalités est toujours important, les modalités de l'attribut source apparaissant le moins fréquemment sont regroupées jusqu'à obtenir le nombre de modalités I'.

Par exemple, lorsqu'une modalité n'est présente qu'une seule fois, celleci est mise à la modalité prédéterminée et est associée à un groupe prédéterminé comprenant toutes les modalités mises à la modalité prédéterminée.

La Fig. 3 représente un algorithme de post-optimisation effectué par le dispositif de division à la suite d'une optimisation selon un algorithme de type OBUD.

Il est à remarquer que l'utilisation d'un algorithme d'optimisation glouton GBUD peut parfois ne pas fournir une solution optimale. En effet, lorsque des minimums locaux existent, l'algorithme GBUD peut s'arrêter sur un de ces minimums locaux.

De plus, l'algorithme GBUD peut, dans certaines conditions, diviser la population d'individus en un nombre trop important de partitions, voire une détermination imprécise des frontières.

L'algorithme tel que représenté en Fig. 3 vise à résoudre ces problèmes en proposant une post-optimisation de l'algorithme GBUD en plusieurs étapes notées E301 et E302. Ces étapes sont basées sur des opérations élémentaires de fusions d'intervalles adjacents, de coupure d'un intervalle en deux sous-intervalles.

L'étape E300 est représentative de l'exécution de l'algorithme GBUD. Cette étape effectuée, la population d'individus est divisée en une partition de régions ou intervalles.

A l'étape suivante E301, les intervalles obtenus précédemment à l'étape E300 sont fusionnés les uns avec les autres jusqu'à l'obtention d'un unique intervalle. A chaque fusion de deux intervalles, la valeur du modèle de discrétisation est mémorisée.

Lorsque l'unique intervalle est obtenu, la partition en régions correspondant à la valeur minimale de discrétisation mémorisée est alors considérée comme la partition de référence.

Cette étape permet de s'affranchir d'un minimum local en cumulant plusieurs fusions consécutives.

Cette étape consiste à forcer l'algorithme glouton descendant à accepter toutes les fusions d'intervalles inconditionnellement jusqu'à obtenir un seul intervalle final, et à mémoriser la discrétisation de coût minimal rencontrée au cours du processus. Cet algorithme permet de sortir d'un minimum local en cumulant plusieurs fusions consécutives tout en maintenant une complexité raisonnable de l'algorithme de partition GBUD.

Cette étape effectuée, l'étape E302 consiste, à partir de la partition en régions correspondant à la discrétisation de coût minimal déterminée à l'étape E301, en une modification de la partition en régions obtenue en évaluant simultanément des divisions d'intervalles en deux intervalles, des changements de frontière entre deux intervalles consécutifs et la réunion de trois intervalles consécutifs en deux intervalles.

La division d'un intervalle en deux intervalles a pour but de rechercher le meilleur découpage d'un des intervalles et d'augmenter ainsi le nombre d'intervalles de la discrétisation.

Le changement de frontière entre deux intervalles consécutifs laisse invariant le nombre d'intervalles de la discrétisation.

La réunion de trois intervalles consécutifs en deux intervalles recherche le meilleur re-découpage de trois intervalles consécutifs en deux intervalles adjacents, et diminue de un le nombre d'intervalles de la discrétisation.

L'intérêt d'effectuer les trois algorithmes simultanément est, d'une part, d'améliorer le temps de convergence de l'algorithme en recherchant la meilleure des améliorations parmi tous les types d'amélioration possibles et, d'autre part, d'optimiser les mises à jour des structures algorithmiques dès qu'une amélioration est retenue.

La Fig. 4 représente un algorithme de post-optimisation effectué par le dispositif de division à la suite d'une optimisation selon un algorithme de type GTDD.

Il est à remarquer que l'utilisation d'un algorithme d'optimisation glouton GTDD peut parfois ne pas fournir une solution optimale. En effet, lorsque des minimums locaux existent, l'algorithme GTDD peut s'arrêter sur un de ces minimums locaux.

De plus, l'algorithme GTDD peut, dans certaines conditions, diviser la population d'individus en un nombre trop restreint de régions, voire une détermination imprécise des frontières.

L'algorithme tel que représenté en Fig. 4 vise à résoudre ces problèmes en proposant une post-optimisation de l'algorithme GTDD en deux étapes notées E401 et E402. Ces étapes sont basées sur des opérations élémentaires de fusions d'intervalles adjacents, de coupure d'un intervalle en deux sous-intervalles.

L'étape E400 est représentative de l'exécution de l'algorithme GTDD. Cette étape effectuée, la population d'individus est divisée en une partition de régions ou intervalles.

A l'étape suivante E401, les intervalles obtenus précédemment à l'étape E400 sont divisés en deux jusqu'a l'obtention d'un nombre d'intervalles égal au nombre total d'individus de la population. A chaque division d'un intervalle en deux intervalles, la valeur du modèle de discrétisation est mémorisée.

Lorsque le nombre d'intervalles est égal au nombre total d'individus de la population, la partition en régions correspondant à la valeur minimale de discrétisation mémorisée est alors considérée comme la partition de référence.

Cette étape effectuée, l'étape E402 consiste, à partir de la partition en régions correspondant à la discrétisation de coût minimal déterminée à l'étape E401, en une modification de la partition en régions obtenue en évaluant simultanément des divisions d'intervalles en deux intervalles, des changements de frontière entre deux intervalles consécutifs et la réunion de trois intervalles consécutifs en deux intervalles.

Lorsque les attributs sont des attributs symboliques et plus particulièrement lorsque qu'une pré-optimisation a été effectuée conformément à celle décrite en référence à la Fig. 2, une postoptimisation est préférablement effectuée afin d'éviter tous les problèmes liés à la présence de particularités locales.

Une première post-optimisation consiste à déplacer les modalités d'un groupe à un autre groupe. Pour chaque modalité, on évalue la variation de coût entraînée par son transfert vers un autre groupe. On effectue ces transferts tant qu'il y a amélioration du critère d'évaluation selon la présente invention. En fait, chaque valeur descriptive est ainsi attirée vers son groupe le plus proche.

Une seconde post-optimisation consiste à rechercher une nouvelle division en partition en groupes en supprimant un groupe. L'heuristique consiste dans un premier temps à rechercher la meilleure fusion de groupes, à forcer cette fusion inconditionnellement, puis à post-optimiser le groupage au moyen de la première post-optimisation, par échange de valeurs entre les groupes. Le nouveau groupage est accepté s'il y a amélioration du critère.

Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits ici, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.

Claims

REVENDICATIONS

1) Procédé de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné, à un individu est associée une modalité de l'attribut cible, caractérisé en ce que la population d'individus est divisée en une partition de régions, chaque région comprenant un nombre n; d'individus, à chaque région sont associés les nombres d'individus de même modalité cible compris dans la région, et en ce que le procédé comporte les étapes de: - calcul, à partir d'un modèle de partition en régions, (E201) de valeurs d'un modèle de distribution discret de régions indépendantes obtenues pour une pluralité de nombres de régions et/ou une pluralité de nombres d'individus compris dans les régions respectives et/ou une pluralité de nombres d'individus de même modalité cible compris dans les régions, le modèle de partition en régions étant tel que les distributions des individus sur chaque région sont indépendantes les unes des autres et la distribution des individus sur chaque région est définie par le nombre d'individus par modalité cible dans la région, - détermination parmi les valeurs calculées de la valeur minimale du modèle (E201), - division (E202) de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité cible compris dans les régions correspondant au calcul de la valeur minimale.

2) Procédé selon la revendication 1, caractérisé en ce que les attributs sont des attributs symboliques et en ce que le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre de modalités de l'attribut source, pour un nombre de régions donné toutes les divisions des individus en un nombre prédéterminé de régions sont équiprobables et pour une région donnée, toutes les distributions des modalités de l'attribut cible sont équiprobables.

3) Procédé selon la revendication 2, caractérisé en ce que les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IGDD) = log B + log(C, +r-1)+ E log(nk!/nk,l! nk,2!ÉÉÉnk f!) k=l k=1 dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut cible, I est le nombre de modalités de l'attribut source, ni est le nombre d'individus pour une modalité source donnée, n;J est le nombre d'individus pour une modalité de l'attribut source donnée et une modalité de l'attribut cible donnée, K est le nombre de régions, nki est le nombre d'individus qui ont la modalité cible j dans la région k, B est le nombre de partitions de I modalités de l'attribut source en K régions.

4) Procédé selon la revendication 1, caractérisé en ce que les attributs sont des attributs numériques et en ce que le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre d'individus, pour un nombre de régions donné toutes les divisions des individus en un nombre prédéterminé de régions sont équiprobables et pour une région donnée, toutes les distributions des modalités de l'attribut cible sont équiprobables.

5) Procédé selon la revendication 4, caractérisé en ce que les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) =1og(C,; )+ log(C r+J_1)+ log(n; !/n, ,i! n; 2!...n, !) t=1;=1 dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut cible, I est le nombre de régions, ni est le nombre d'individus dans une région donnée i et n;J est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

6) Procédé selon la revendication 1, caractérisé en ce que les attributs sont des attributs numériques et en ce que le modèle de partition en régions est tel que le nombre de régions est équiprobable entre un et le nombre d'individus, pour un nombre de partition donné toutes les partitions en régions des individus et toutes les distributions des modalités de l'attribut cible pour ces régions sont équiprobables.

7) Procédé selon la revendication 6, caractérisé en ce que les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) = log(C,, 1.j_1)+ E Iog(n; !/n,,, ! ni,2!...ni j!) r=i dans laquelle n est le nombre d'individus, J est le nombre de modalités de l'attribut cible, I est le nombre de régions, n; est le nombre d'individus dans une région donnée i et n;,; est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

8) Procédé selon la revendication 1, caractérisé en ce que les attributs sont des attributs numériques et en ce que le modèle de partition en régions est tel que toutes les partitions en régions sont équiprobables quel que soit le nombre de régions et pour une région donnée, toutes les distributions des modalités sont équiprobables.

9) Procédé selon la revendication 8, caractérisé en ce que le modèle de partition en régions est en outre tel que toutes les régions comportent le même nombre d'individus n;

10) Procédé selon la revendication 8, caractérisé en ce qu'on détermine une amplitude de variation des modalités de l'attribut source et en ce que le modèle de partition en régions est en outre tel que la partition en régions est telle que les régions ont la même amplitude de variation des modalités de l'attribut source.

11) Procédé selon l'une quelconque des revendications 8 à 10, caractérisé en ce que les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) _ E log(C +;_1)+ E log(n; !/n,,, ! n,,2!...n; r!) i=1 i=1 dans laquelle J est le nombre de modalités de l'attribut cible, I est le nombre de régions, ni est le nombre d'individus dans une région donnée i et n;,; est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

12) Procédé selon la revendication 1, caractérisé en ce que les attributs sont des attributs numériques et en ce que le modèle de partition en régions est tel que tous les modèles de discrétisation sont équiprobables quel que soit le nombre de régions, la partition en régions et la distribution des modalités par intervalles.

13) Procédé selon la revendication 12, caractérisé en ce que les valeurs d'un modèle de distribution discret de régions indépendantes sont calculées à partir de la formule: Valeur(IIDD) _ log(n; !/n;,, ! n.,2 l... n, !) i=i dans laquelle I est le nombre de régions, ni est le nombre d'individus dans une région donnée i et n;j est le nombre d'individus pour une modalité de l'attribut cible dans la région donnée i.

14) Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que le calcul, à partir d'un modèle de partition en régions, de valeurs d'un modèle de distribution discret de régions indépendantes, la détermination de la valeur minimale du modèle est effectuée à partir d'un algorithme d'optimisation optimale ou d'un algorithme de discrétisation ascendant ou d'un algorithme de discrétisation descendant.

15) Procédé selon la revendication 14, caractérisé en ce que lorsque le calcul de valeurs d'un modèle de distribution discret de régions indépendantes, la détermination de la valeur minimale du modèle sont effectués à partir d'un algorithme ascendant, le procédé comporte en outre les étapes effectuées sur la partition de régions de: - fusion de régions adjacentes deux à deux itérativement jusqu'à former une unique région, calcul et mémorisation, pour chaque fusion, de la valeur du modèle de discrétisation, - détermination de la valeur minimale mémorisée, division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité compris dans les régions correspondant au calcul de la valeur minimale, - modification de la partition de régions en évaluant simultanément des divisions d'intervalles en deux intervalles, des changements de frontière entre deux intervalles consécutifs et la réunion de trois intervalles consécutifs en deux intervalles sur la partition de régions.

16) Procédé selon la revendication 14, caractérisé en ce que lorsque le calcul de valeurs d'un modèle de distribution discret de régions indépendantes, la détermination de la valeur minimale du modèle sont effectués à partir d'un algorithme descendant, le procédé comporte en outre les étapes effectuées sur la partition de régions de: - division de régions en deux régions itérativement jusqu'à obtenir autant de régions que d'individus, - calcul et mémorisation, pour chaque division, de la valeur du modèle de discrétisation, - détermination de la valeur mémorisée minimale, - division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité compris dans les régions correspondant au calcul de la valeur minimale, - modification de la partition de régions en évaluant simultanément des divisions d'intervalles en deux intervalles, des changements de frontière entre deux intervalles consécutifs et la réunion de trois intervalles consécutifs en deux intervalles sur la partition de régions.

17) Dispositif de division d'une population d'individus définis par au moins un attribut source et un attribut cible sur une base de données pour prédire des modalités d'un attribut cible donné, à un individu est associée une modalité de l'attribut cible, caractérisé en ce que la population d'individus est divisée en une partition de régions, chaque région comprenant un nombre d'individus, à chaque région sont associés les nombres d'individus de même modalité cible compris dans la région et en ce que le dispositif comporte: - des moyens de calcul, à partir d'un modèle de partition en régions, de valeurs d'un modèle de distribution discret de régions indépendantes obtenues pour une pluralité de nombres de régions et/ou une pluralité de nombres d'individus compris dans les régions respectives et/ou une pluralité de nombres d'individus de même modalité cible compris dans les régions, le modèle de partition en régions étant tel que les distributions des individus sur chaque région sont indépendantes les unes des autres et la distribution des individus sur chaque région est définie par le nombre d'individus par modalité cible dans la région, - des moyens de détermination parmi les valeurs calculées de la valeur minimale du modèle, - des moyens de division de la population d'individus en une partition de régions selon: le nombre de régions, le nombre d'individus compris dans les régions et le nombre d'individus de même modalité cible compris dans les régions correspondant sau calcul de la valeur minimale.

18) Programme d'ordinateur stocké sur un support d'informations, ledit programme comportant des instructions permettant de mettre en oeuvre le procédé selon l'une quelconque des revendications 1 à 16, lorsqu'il est chargé et exécuté par un système informatique.