FR2952733A1

FR2952733A1 - Procede d'analyse discriminante de donnees d'observations

Info

Publication number: FR2952733A1
Application number: FR0958009A
Authority: FR
Inventors: Marc Sturzel; Cifuentes Christina Garcia
Original assignee: European Aeronautic Defence and Space Company EADS France
Current assignee: Airbus Group SAS
Priority date: 2009-11-13
Filing date: 2009-11-13
Publication date: 2011-05-20

Abstract

L'invention concerne un procédé d'analyse discriminante de données d'observations caractéristiques d'un objet, comportant une phase d'apprentissage destinée à définir un ensemble de classifieurs binaires, et une phase de prédiction destinée à analyser lesdites données d'observations et à délivrer une valeur représentative de la probabilité d'appartenance de l'objet observé à une classe ck parmi un nombre prédéfini de classes {c1, c2, ...ck}. Les étapes du procédé selon l'invention permettent de construire automatiquement un système complet de décision (par exemple de classification multi-classes) à partir de classifieurs binaires, avec pour seules entrées des bases d'apprentissages annotées avec un indice de classe pour chaque exemple et des paramètres utilisateurs facultatifs telle que la complexité maximale tolérée.

Description

PROCEDE D'ANALYSE DISCRIMINANTE DE DONNEES D'OBSERVATIONS DOMAINE TECHNIQUE L'invention se situe dans le domaine de reconnaissance d'objets par traitement d'images et concerne plus spécifiquement un procédé d'analyse discriminante de données d'observations caractéristiques d'un objet, comportant une phase d'apprentissage destinée à définir un modèle de prédiction, et une phase de prédiction destinée à analyser lesdites données d'observations et à délivrer une valeur représentative de la probabilité d'appartenance de l'objet observé à une classe ck parmi un nombre prédéfini de classes {cl, c2, ...ck}.

L'invention concerne également un dispositif destiné à mettre en oeuvre le procédé. ÉTAT DE LA TECHNIQUE ANTÉRIEURE Les techniques de reconnaissance d'objet par traitement d'images de l'art antérieur utilisent des algorithmes de classification comportant une phase d'apprentissage destinée à définir un modèle de classifieur à partir de données d'apprentissage annotées de manière à affecter automatiquement à chaque donnée l'identifiant de la classe à laquelle elle appartient, et une deuxième phase de prédiction, destinée à prédire un identifiant à chacune des nouvelles observations par application du classifieur défini par la phase d'apprentissage. 2 Rappelons que la fonction d'un classifieur est la catégorisation algorithmique d'objets. Cette catégorisation consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se basant sur des données statistiques. Cela fait couramment appel à l'apprentissage automatique et est largement utilisé en reconnaissance de formes. Les algorithmes d'apprentissage automatiques (machine learning en anglais) les plus efficaces sont binaires, c'est-à-dire, qu'ils répondent à un problème binaire. Un problème binaire est un problème auquel on peut répondre par "oui" ou par "non", ou plus généralement, auquel on peut répondre avec une seule valeur flottante qui traduit par exemple la probabilité d'appartenance à l'une de deux classes d'un ensemble de classes prédéfini, le complément à 1 étant alors la probabilité d'appartenance à l'autre classe. Un classifieur binaire peut aussi être qualifié de classifieur mono-classe (une classe contre "le reste du monde") ou bi-classe (une classe contre une autre classe). Or, de nombreux problèmes sont multiclasses, c'est-à-dire des problèmes pour lesquels plusieurs réponses sont possibles, et non uniquement deux. Pour tirer pleinement profit de l'efficacité des techniques d'apprentissages binaires connues, il est courant de décomposer un problème multi-classe en plusieurs problèmes bi-classes plus simples, d'utiliser des classifieurs binaires pour attribuer une classe ou catégorie à un objet ou 3 individu à classer, puis fusionner les résultats obtenus par les différents classifieurs binaires. Cette approche comporte actuellement les inconvénients suivants . - les choix de décomposition sont généralement empiriques et non optimaux. Ainsi, il est courant de choisir la stratégie « un contre tous » (one-versus-all, en anglais) alors que celle-ci n'est pas la mieux adaptée pour le problème à traiter, - les classifieurs ne sont pas calibrés ou sont calibrées sans estimation de l'imprécision. Il en résulte que la probabilité d'appartenance d'un objet à une classe est calculée sans information précise sur la fiabilité de cette probabilité, - la fusion est simplifiée, c'est-à-dire, qu'elle ne prend pas en compte la fiabilité des estimations des probabilités d'appartenance des différents objets aux différentes classes. Une autre stratégie de décomposition 20 couramment utilisée est la stratégie « one versus one » dans laquelle on teste tous les couples possibles de classes. Celle-ci a l'inconvénient de présenter un coût exponentiel en nombre de classes. Un but de l'invention est de pallier les 25 inconvénients de l'art antérieur décrits ci-dessus. Un autre but de l'invention est de définir automatiquement un système complet de décision permettant de réaliser une classification multi-classes à partir des résultats de classifieurs binaires. 15 EXPOSÉ DE L'INVENTION Ces buts sont atteints au moyen d'un procédé d'analyse discriminante de données d'observations caractéristiques d'un objet, comportant une phase d'apprentissage destinée à définir un ensemble de classifieurs binaires, et une phase de prédiction destinée à analyser lesdites données d'observations et à délivrer une valeur représentative de la probabilité d'appartenance de l'objet observé à une classe ci parmi un nombre prédéfini de classes {cl, c2, ...ck} i variant de 1 0 k.. Selon l'invention, la phase d'apprentissage comporte les étapes suivantes: - définir, à partir d'un code correcteur d'erreurs (CRC), une matrice M comportant k lignes et m colonnes, k et m étant des nombres entiers, chaque ligne correspondant à une classe parmi l'ensemble de classes {cl, c2, ...ck}, et chaque colonne définissant un problème binaire servant de base à la définition d'un classifieur binaire, - évaluer la complexité de chaque problème binaire au moyen de classifieurs pré-paramétrés, - définir une matrice M' à partir de ladite matrice M en fonction d'une heuristique préalablement choisie et en fonction de la complexité des problèmes binaires évaluée à l'étape précédente, ladite matrice M' comportant un nombre de classifieurs binaires m' inférieur au nombre de classifieurs binaires m de la matrice M, - optimiser les classifieurs binaires de la matrice M' en fonction de contraintes applicatives, 4 - calibrer les résultats des classifieurs de la matrice M' au moyen de données d'apprentissage prédéfinies, - fusionner les résultats calibrés des 5 classifieurs de la matrice M', et, la phase de prédiction comporte les étapes suivantes . - appliquer lesdites données d'observations aux classifieurs de la matrice M', - calculer des estimations des probabilités d'appartenance de l'objet observé aux différentes classes/ensembles de classes, et de la fiabilité desdites mesures de probabilité, - fusionner les résultats desdits classifieurs de manière à obtenir une probabilité d'appartenance de l'objet observé à chacune des classes {cl, c2, ...ck} en fonction des probabilités estimées et des fiabilités des mesures de probabilité calculées. L'optimisation des classifieurs binaires de la matrice M' correspond à une sélection optimale des paramètres d'apprentissage afin d'obtenir la meilleure performance de classification atteignable par le type de classifieur sélectionné. L'optimisation peut par ailleurs consister à sélectionner le meilleur type d'algorithme d'apprentissage statistique : SVM, Boosting, etc... Selon un premier mode de réalisation de l'invention, les colonnes retenues pour ladite matrice M' sont obtenues en supprimant de la matrice M les colonnes qui correspondent à des problèmes binaires 6 complexes et en gardant les colonnes qui correspondent à des problèmes binaires simples. Préférentiellement, la sous-matrice M' est déterminée par un algorithme génétique, et les classifieurs retenus dans la matrice M' sont optimisés par un algorithme génétique. Dans un mode préféré de mise en oeuvre de l'invention, l'étape de calibration des résultats des classifieurs de la matrice M' est réalisée par régression isotonique monotone et l'étape de fusion des résultats calibrés des classifieurs de la matrice M' est réalisée par une fusion probabiliste. Selon une autre caractéristique du procédé selon l'invention, pour plusieurs observations d'un même objet, les résultats fusionnés pour chaque observation sont fusionnés temporellement de manière à obtenir une répartition unique et globale des probabilités d'appartenance de l'objet à chacune des classes.

Le procédé selon l'invention comporte en outre une étape d'ordonnancement des résultats de la classification multi-classes en fonction des probabilités d'appartenance obtenue pour chaque classe. L'ordonnancement consiste à d'ordonner tous les objets observés selon leur probabilité décroissante d'appartenance à une classe de requête (par ex. on cherche toutes les voitures : on affiche en premier les objets qui ont la plus forte probabilité d'être une voiture...).

Pour réaliser cet ordonnancement, on utilise une fonction de score calculée sur la 7 répartition des probabilités. Deux choix typiques sont alors possibles : - Soit on considère la probabilité de la classe de requête, - soit on considère la distance euclidienne entre la répartition de probabilité estimée et la répartition idéale (Dirac sur la classe de requête, c'est-à-dire, 1 sur la classe de requête et 0 sur les autres classes). Le procédé selon l'invention est mis en oeuvre par un dispositif d'analyse discriminante de données d'observations caractéristiques d'un objet, comportant un module d'apprentissage destiné à définir un ensemble de classifieurs binaires, et un module de 15 prédiction destiné à analyser lesdites données d'observation et à délivrer une valeur représentative de la probabilité d'appartenance de l'objet observé à une classe ci parmi un nombre prédéfini de classes {cl, c2, ...ck}. 20 Selon l'invention, le module d'apprentissage comporte : - des moyens pour définir, à partir d'un code correcteur d'erreurs (CRC), une matrice M comportant k lignes et m colonnes, k et m étant des 25 nombres entiers, chaque ligne correspondant à une classe parmi l'ensemble de classes {cl, c2, ...ck}, et chaque colonne définissant un problème binaire servant de base à la définition d'un classifieur binaire, - des moyens pour évaluer la complexité de 30 chaque problème binaire au moyen de classifieurs pré- paramétrés en utilisant une base prédéfinie de test, 10 8 - des moyens pour définir une matrice M' à partir de ladite matrice M en fonction d'une heuristique préalablement choisie et en fonction de la complexité des problèmes binaires évaluée à l'étape précédente, ladite matrice M' comportant un nombre de classifieurs binaires m' inférieur au nombre de classifieurs binaires m la matrice M, - des moyens pour optimiser les classifieurs binaires de la matrice M' en fonction de 10 contraintes applicatives, - des moyens pour calibrer les résultats des classifieurs de la matrice M' au moyen de données d'apprentissage prédéfinies, - des moyens pour fusionner les résultats 15 calibrés des classifieurs de la matrice M', ledit module de prédiction comportant : - des moyens pour appliquer lesdites données d'observation aux classifieurs de la matrice M', 20 - des moyens pour calculer les probabilités d'appartenance de l'objet observé aux différentes classes/ensembles de classes et des estimations des fiabilités de ces mesures. BRÈVE DESCRIPTION DES DESSINS 25 D'autres caractéristiques et avantages de l'invention ressortiront de la description qui va suivre, prise à titre d'exemple non limitatif, par référence aux figures annexées dans lesquelles : - la figure 1 illustre schématiquement une 30 chaîne complète de traitement de données d'observations selon l'invention, 9 - la figure 2 illustre schématiquement une matrice M définissant la décomposition du problème multi-classe en problèmes binaires, - la figure 3 illustre schématiquement un exemple de calibration par échantillonnage régulier et par régression isotonique des scores délivrés par des classifieurs binaires selon l'invention, - la figure 4 illustre schématiquement le principe de la fusion temporelle.

EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS La figure 1 illustre schématiquement une chaîne d'apprentissage d'un module de prédiction, i.e. de traitement de données d'observations d'un objet fixe ou mobile comportant un module de description 2 "labelling" des données d'observations pour réaliser la définition des problèmes binaires { C+i, C_i } où C+iuC_ ic{cl...ck} et C+inC-i={}, à partir d'un problème multiclasses, un module de classification 4 pour définir des classifieurs binaires aptes à fournir, pour chaque donnée d'observations une décision binaire, un score d'appartenance de l'objet observé à un groupe de classes C{+-{i défini par le problème binaire correspondant, un module de calibration 6 des scores délivrés par le module de classification 4, et un module de calcul 8 de la distribution des probabilités d'appartenance de l'objet observé à une classe d'un groupe prédéfini de k classes {cl, c2,..., ck}, k étant un nombre entier. 10 Il est à noter qu'un un problème binaire est défini par la partition en deux ensembles (pas nécessairement équilibrés) de l'ensemble des classes. Dans l'exemple de réalisation illustré par la figure 1, le module de description 2 comporte m' décompositions distinctes 21 à 2m, adaptées pour décomposer un problème multi-classes à quatre classes en plusieurs problèmes binaires, selon deux descripteurs (les axes x et y du plan). La décomposition d'un problème multi-classes en problèmes binaires consiste à définir, pour chaque classifieur binaire, deux classes distinctes, une classe dite positive notée C+ et une classe dite négative notée C_, et à déterminer si l'objet observé appartient à l'une ou à l'autre des deux classes. Il est à noter que dans le cas général, le nombre de classifieurs est différent du nombre de classes, et est presque toujours sensiblement plus élevé que ce dernier. Dans l'exemple de la figure 2, m' = 6 Par exemple. Rappelons qu'un problème binaire consiste à déterminer à partir des données d'observations disponibles (descripteurs calculés sur le signal), à quelle classe, parmi deux classes distinctes, appartient l'objet observé, alors qu'un problème multiclasses consiste à déterminer, à partir desdites données d'observation, à quelle classe parmi un nombre entier k supérieur à deux de classes {cl, c2,..., ck} appartient l'objet observé.

Le module de classification 4 comporte quatre classifieurs binaires 41 à 44 destinés à séparer 11 deux ensembles de classes. Chaque classifieur binaire 4i (i=1 à 4) est apte à fournir un résultat R sous forme d'une valeur flottante. Ce score peut se traduire en décision binaire par seuillage : la décision sera par exemple un (+) (classe des positifs) si R est supérieur à zéro et un (-) (classe des négatifs) sinon. Le module de calibration 6 comporte quatre modules de normalisation 61 à 64, chaque module de normalisation 6i (i=1 à 4) étant destiné à normaliser le résultat R du classifieur binaire 4i (i=1 à 4), la normalisation consistant à générer une fonction qui associe à chaque résultat R la probabilité empirique d'appartenance à la classe positive notée C+. Un classifieur binaire une fois calibré, fournit en sortie un score représentant la probabilité d'appartenance à sa classe positive, et donc la probabilité d'appartenance à sa classe négative. Ces scores sont donc directement comparables entre eux ce qui permet une fusion probabiliste des résultats obtenus.

Notons que dans le procédé selon l'invention, la calibration fournit non seulement la probabilité d'appartenance à la classe (+), mais également la fiabilité de cette estimation de la probabilité.

Le module de calcul 8 est destiné à réaliser la fusion probabiliste des scores des différents classifieurs. A cet effet, le procédé selon l'invention comporte deux phases distinctes, une première phase dite d'apprentissage qui permet de définir un modèle de classifieur à partir de données d'apprentissage 12 annotées, et une phase de prédiction consistant à appliquer le classifieur ainsi défini pour prédire et attribuer un identifiant à chaque nouvelle observation. Pour la phase d'apprentissage, on dispose pour chaque donnée d'observation de l'identifiant de la classe à laquelle elle appartient et on fournit au module de description un ensemble de données, chaque "donnée" pouvant être vue comme une observation (par exemple une imagette d'un véhicule détecté) ou, numériquement, comme un vecteur de flottants (par exemple des histogrammes de couleurs et de gradients calculés sur l'imagette considérée). Pour chacune de ces données de la base d'apprentissage, on dispose de l'information de sortie correspondant à l'identifiant de la classe que l'on désire obtenir par le classifieur envisagé. Quand l'apprentissage est terminé, on dispose d'un classifieur capable d'opérer des prédictions, c'est-à-dire, capable de prédire l'identifiant de la classe de l'objet observé à partir de nouvelles observations pour laquelle des descripteurs ont été préalablement calculés mais pour laquelle la classe n'est pas connue. Par exemple, un classifieur multi-classes obtenu à l'issue de la phase d'apprentissage, peut indiquer, dans la phase de prédiction, si un véhicule détecté est une voiture, une camionnette ou un camion. La phase d'apprentissage sera expliquée en détail par référence à la figure 1 et à la figure 2.

Sur la figure 1, on dispose d'un nuage 1 de points visualisés graphiquement en dimension deux de 13 quatre classes définissant le problème multi-classes, chaque couleur de point correspondant à une classe et chaque point correspond à une observation, c'est-à-dire à une donnée de la base d'apprentissage. Le module de description 2 permet de réaliser la décomposition en problèmes binaires plus simples à résoudre. Au niveau du module de classification 4, sont représentés seulement deux types de points, soit des points dits positifs correspondant à la classe positive C+ et des points dits négatifs correspondant à la classe négative C_. La définition des classifieurs binaires est symbolisée par deux zones distinctes 10 et 12 correspondant respectivement à la classe notée C+ et à la classe négative C_. Cette définition symbolise une décision binaire sur le score en sortie. Notons néanmoins que c'est bien la valeur flottante non seuillée, donc non binarisée, qui est utilisée pour la calibration. Les fonctions de calibration sont représentées au niveau du module de calibration 6 par des graphiques ayant pour abscisse les scores en sortie des classifieurs binaires considérés et pour ordonnées les probabilités associées à ces scores. La fusion des résultats des classifieurs binaires sur chaque observation, pour aboutir à une répartition de probabilité entre les différentes classes est illustrée par le graphique représenté au niveau du module de calcul 8 (la hauteur des barres correspond à la probabilité d'appartenance à la classe correspondante). 14 Pour réaliser la phase d'apprentissage, la complexité de chaque problème binaire est estimée par un classifieur pré-paramétré qui donne une bonne évaluation empirique de la difficulté intrinsèque du problème posé. Il est possible d'utiliser pour cette estimation un classifieur dont le paramétrage a été optimisé par algorithme génétique, par exemple, ou estimé par des heuristiques ou des choix des utilisateurs.

Dans un mode préféré de réalisation, on choisira un algorithme très faiblement paramétré, tel que l'AdaBoost, par exemple. La figure 2 illustre schématiquement une matrice M qui permet de décomposer un problème multi- classes consistant à déterminer à quelle classe parmi quatre classes c1...c4 appartient une observation, en plusieurs problèmes binaires, chacun consistant à déterminer à quelle classe parmi la classe positive C+ et la classe négative C_ appartient une observation.

Les résultats des classifications binaires sont ensuite combinés pour aboutir à une solution au problème multiclasses. A cet effet, les colonnes de la matrice M représentent résoudre et lignes de identifiants allant de 1 les définitions des problèmes binaires à les classifieurs b1...b6 associés, et les ladite matrice M représentent les des classes c1...c4. Les éléments m i (i à 4 et j de 1 à 6) de cette matrice M prennent leurs valeurs dans l'ensemble discret 30 1,0,1}. 15 Une colonne j (j allant de 1 à 6) définit via les valeurs m ij (i allant de 1 à 4) un problème binaire, c'est-à-dire, un problème de discrimination entre la classe positive C+ et la classe négative C_ de 5 la manière suivante : si m ij = 0, les données de la classe i sont ignorées du problème, si m i] = 1, les données de la classe i sont rajoutées à la classe C+, 10 - si m ij = -1, les données de la classe i sont rajoutées à la classe C_, - pour pouvoir combiner les résultats des différents classifieurs binaires, il faut que les problèmes binaires soient suffisamment complémentaires. 15 Cela revient à définir une matrice M ayant des colonnes très "différentes" les unes des autres. Dans un mode préféré de réalisation de l'invention, on initialise la matrice M avec des codes correcteurs d'erreurs (ECOC) qui garantissent une bonne 20 propriété de complémentarités et d'indépendance entre les colonnes. Cependant, cette initialisation ne garantit néanmoins pas la définition de problèmes binaires simples. En effet, les problèmes binaires que l'on peut ainsi définir sont très nombreux, certains 25 peuvent être faciles et d'autres très difficiles, la difficulté d'un problème binaire se mesurant au taux maximal de bonne classification qui est atteignable. Ainsi par exemple, sur des données de faible résolution, distinguer une mobylette d'un vélo est très 30 compliqué, alors que distinguer une moto d'un camion est très simple. De plus, afin de réduire le coût de 16 calcul, la matrice de définition des problèmes doit avoir le moins de colonnes possibles. En effet, chaque colonne est un classifieur qui nécessite un temps de traitement spécifique. De plus, il est préférable de choisir des problèmes binaires simples pour optimiser la fusion des résultats des classifieurs binaires. Il y a donc intérêt à choisir pour la matrice M le plus petit ensemble de colonnes très complémentaires correspondant aux problèmes les plus simples. A cet effet, on construit une matrice M dite "maximale", à partir de codes correcteurs d'erreurs, le nombre de ligne étant égal au nombre de classes, (quatre dans l'exemple de la figure 1), mais le nombre de problèmes binaires étant pris très grand (n » 4), ensuite, on sélectionne dans cette matrice les colonnes qui sont intéressantes, c'est-à-dire celles qui correspondent à des problèmes simples et complémentaires, et on en déduit une sous-matrice M' "optimale". La matrice M' est utilisée lors de la phase de prédiction. Le choix de la matrice M' est réalisé par une procédure automatique qui permet de sélectionner la sous-matrice optimale de M, permettant d'effectuer une bonne fusion en respectant des contraintes de performances. La performance complète est ensuite estimée pour chaque ensemble en déroulant la chaîne complète sur les classifieurs pré-paramétrés précédents. 17 Une fois M' définie, chaque problème binaire retenu est appris par « machine learning », en optimisant les paramètres du modèle défini précédemment. Les classifieurs binaires sont ensuite calibrés, c'est-à-dire, qu'une fonction est calculée de manière à traduire les réponses de chaque classifieur en probabilité d'appartenance aux groupes de classes considérés. Cette fonction est apprise sur une base d'évaluation qui peut être la même que la base d'apprentissage du classifieur, sur laquelle le comportement du classifieur est analysé. Cependant, il est préférable qu'elle en soit indépendante. Préférentiellement, la calibration comporte en outre une estimation du degré de fiabilité de cette valeur, i.e. de la confiance que l'on peut affecter à cette mesure (calculée typiquement par le biais de l'écart type). Ensuite, une fusion, typiquement logique ou probabiliste, exploite les propriétés de la matrice M' et l'ensemble des sorties de tous les classifieurs binaires pour obtenir en sortie une probabilité d'appartenance pour chacune des classes du problème. La figure 3 illustre schématiquement un exemple de calibration par échantillonnage régulier et par régression isotonique des scores délivrés par les classifieurs binaires 21 à 24. Sur cette figure, l'axe horizontal correspond au score fourni par chaque classifieur, et l'axe vertical correspond à la probabilité associée. L'axe horizontal n'étant pas nécessairement borné (les valeurs de sorties peuvent être dans l'ensemble des réels, sans limitations a priori), aucune échelle n'a 18 été marquée sur cette figure ; la fonction de calibration est ainsi définie sur l'ensemble du domaine possible des valeurs de sortie du classifieur considéré. L'échantillonnage régulier correspond à la courbe bleue, et colle précisément aux données, au risque d'être imprécis lorsque les données sont rares (ce qui implique de fortes imprécisions statistiques). La courbe orange correspond à la régression isotonique, qui permet de régulariser la fonction de calibration à l'aide d'un a priori, la croissance monotone de la courbe (a priori généralement acquis de par la définition des classifieurs, puisque les scores vont de la classe des négatifs vers la classe des positifs). En phase de prédiction, un seul point du nuage de point 1 constituant l'observation à classifier est traité. A cet effet, on réalise, pour ce point, une classification au moyen des classifieurs binaires 41 à 44, puis une calibration au moyen des modules de normalisation 61 à 64r ensuite une fusion des résultats délivrés par chaque module de normalisation 61 à 64 au moyen du module de calcul 8 qui délivre les probabilités d'appartenance à chacune des classes cl à c4 avec une estimation statistique empirique des variances associées à chaque probabilités d'appartenance.

Dans un exemple de réalisation de l'invention, on considère les observations de véhicules en mouvement, chaque véhicule disposant de plusieurs observations (vignettes extraites aux instants t, t+1, t+2...). Pour chaque observation, on effectue une 19 classification multi-classes (classification, puis calibration, puis fusion des scores calibrés, et on obtient donc pour chaque observation la répartition des probabilités entre les différentes classes (les classes étant par exemple voiture, camionnette, camion, moto). La figure 4 illustre schématiquement le principe de la fusion temporelle dans le cas où plusieurs observations d'un même objet sont disponibles ou de plusieurs observations vues simultanées d'un même objet, par exemple. Une fusion probabiliste « temporelle » permet de n'affecter qu'une seule probabilité par classe et par objet, afin d'aboutir à une décision optimale unique qui prenne en compte l'ensemble des observations. Le résultat des traitements précédents peut notamment être utilisé pour effectuer un classement, entre l'ensemble des objets considérés, dans l'ordre du plus probable au moins probable étant donné une (ou plusieurs) classe(s) de requête. Comme cela est schématisé à la figure 4, les données d'observations relatives à chaque véhicule 30 sont traitées à l'étape 32. Chaque traitement fournit une distribution probabiliste 40 d'appartenance aux classes considérées {cl, c2....ck}. A l'étape 42, On effectue la fusion temporelle de ces répartitions de probabilités sur l'ensemble des observations de chaque véhicule et on fait le tri, c'est-à-dire, l'ordonnancement, sur une classe donnée, par exemple "camionnette", pour afficher en premier le véhicule le plus probable de cette 20 classe, c'est-à-dire, celui pour lequel on est le plus sûr qu'il s'agit d'une camionnette, et en dernier celui pour lequel la probabilité d'appartenir à cette classe est la plus faible. Notons que l'étape 42 ne s'intéresse qu'à un seul objet, pour lequel on fusionne les résultats des analyses des observations. En appliquant cette étape pour plusieurs objets, il est possible d'opérer par la suite des classements de ces objets des plus probables aux moins probables étant donné des requêtes données. La fusion probabiliste peut notamment faire appel à un algorithme itératif contraint initialisé par une équi-répartition des probabilités et garantissant à tout moment une somme égale à 1. Elle peut également exploiter les variances calculées précédemment, par exemple dans le cadre de la théorie des fonctions de croyance Dempster-Shafer. Notons que la fusion temporelle peut être disjonctive, de compromis ou conjonctive. Dans ce dernier cas, on utilise une fusion dite hybride pour garantir l'obtention dans tous les cas de la solution la plus conjonctive possible, même lorsque certaines sources d'information sont en contradiction. On utilise également un paramètre permettant de sélectionner le comportement adéquat. Par défaut, une solution de compromis sera retenue. Une procédure d'évaluation sur les bases d'apprentissage peut notamment permettre d'estimer automatiquement le choix optimal du paramètre de compromis étant donné l'application et les performances globales du système ainsi défini. Une 21 fusion dans le cadre de la théorie des fonctions de croyance (Dempster-Shafer) peut aussi être utilisée. Dans une problématique de ranking, le score considéré pourra utiliser les probabilités calculées lors de la fusion, notamment, la distance entre la distribution estimée et un Dirac sur l'ensemble des classes de la requête, généralement, un singleton. Ceci revient à fusionner les classes de la requête et à faire comme s'il ne s'agissait que d'une seule classe.

On obtient alors une bonne mesure pour effectuer le tri. Cette nouvelle approche comporte plusieurs avantages, notamment les suivants : - la définition du système est entièrement automatique : aucun ajustement de paramètre, choix de modélisation ni test n'est requis ; - la modélisation est consistante d'un point de vue mathématique et probabiliste, sur l'ensemble de la chaîne. Le procédé permet d'obtenir la chaîne optimale étant donné les choix d'algorithmes de machine learning et la complexité maximale tolérée : - une méthode de fusion en deux temps permettant d'exploiter les propriétés de la matrice M' et les probabilités et variances calculées lors de la calibration ; - une méthode de ranking consistante avec ce cadre d'un point de vue probabiliste. 25

Claims

REVENDICATIONS1. Procédé d'analyse discriminante de données d'observations caractéristiques d'un objet, comportant une phase d'apprentissage destinée à définir un ensemble de classifieurs binaires, et une phase de prédiction destinée à analyser lesdites données d'observations et à délivrer une valeur représentative de la probabilité d'appartenance de l'objet observé à une classe ck parmi un nombre prédéfini de classes {cl, c2, ...ck}, procédé caractérisé en ce que ladite phase d'apprentissage comporte les étapes suivantes : - définir, à partir d'un code correcteur d'erreurs (CRC), une matrice M comportant k lignes et m colonnes, k et m étant des nombres entiers, chaque ligne correspondant à une classe parmi l'ensemble de classes {cl, c2, ...ck}, et chaque colonne définissant un problème binaire servant de base à la définition d'un classifieur binaire, - évaluer la complexité de chaque problème binaire au moyen de classifieurs pré-paramétrés en utilisant une base prédéfinie de test, - définir une matrice M' à partir de ladite matrice M en fonction d'une heuristique préalablement choisie et en fonction de la complexité des problèmes binaires évaluée à l'étape précédente, ladite matrice M' comportant un nombre de classifieurs binaires m' inférieur au nombre de classifieurs binaires m la matrice M, 23 - optimiser les classifieurs binaires de la matrice M' en fonction de contraintes applicatives, - calibrer les résultats des classifieurs de la matrice M' au moyen de données d'apprentissage prédéfinies, - fusionner les résultats calibrés des classifieurs de la matrice M', ladite phase de prédiction consistant à : - appliquer lesdites données d'observations aux classifieurs de la matrice M', - calculer des estimations des probabilités d'appartenance de l'objet observé aux différentes classes/ensembles de classes ainsi que de la fiabilité de ces mesures, - fusionner les résultats desdits classifieurs de manière à obtenir une probabilité d'appartenance de l'objet observé à une classe ck parmi l'ensemble de classes {cl, c2, ...ck} en fonction des estimations des mesures de probabilité calculées.
2. Procédé selon la revendication 1, dans lequel les colonnes retenues pour ladite matrice M' sont obtenues en supprimant de la matrice M les colonnes qui correspondent à des problèmes binaires complexes et en gardant les colonnes qui correspondent à des problèmes binaires simples.
3. Procédé selon la revendication 2, dans lequel pour chaque problème binaire défini par une colonne de la matrice M, l'estimation de la complexité 24 des problèmes binaires est calculée par évaluation sur une base de test.
4. Procédé selon la revendication 1, dans lequel la sous-matrice M' est déterminée par optimisation, typiquement par un algorithme génétique.
5. Procédé selon la revendication 2, selon lequel les classifieurs retenus dans la matrice M' sont optimisés par un algorithme génétique.
6. Procédé selon la revendication 1, dans lequel l'étape de calibration des résultats des classifieurs de la matrice M' est réalisée par régression isotonique monotone.
7. Procédé selon la revendication 1, dans lequel l'étape de fusion des résultats calibrés des classifieurs de la matrice M' est réalisée par une fusion probabiliste.
8. Procédé selon la revendication 7, dans lequel, pour plusieurs observations d'un même objet, les résultats fusionnés pour chaque observation sont fusionnés temporellement de manière à obtenir une repartition unique et globale des probabilités d'appartenance de l'objet à chacune des classes.
9. Procédé selon la revendication 8 comportant en outre une étape d'ordonnancement des résultats de la classification multi-classes sur 25 plusieurs objets en fonction d'un score calculé sur les probabilités d'appartenance obtenues pour chaque classe.
10. Dispositif d'analyse discriminante de données d'observations caractéristiques d'un objet, comportant un module d'apprentissage destiné à définir un ensemble de classifieurs binaires, et un module de prédiction destiné à analyser lesdites données d'observations et à délivrer une valeur représentative de la probabilité d'appartenance de l'objet observé à une classe ck parmi un nombre prédéfini de classes {cl, c2, ...ck}, dispositif caractérisé en ce que ledit 15 module d'apprentissage comporte : - des moyens pour définir, à partir d'un code correcteur d'erreurs (CRC), une matrice M comportant k lignes et m colonnes, k et m étant des nombres entiers, chaque ligne correspondant à une 20 classe parmi l'ensemble de classes {cl, c2, ...ck}, et chaque colonne définissant un problème binaire servant de base à la définition d'un classifieur binaire, - des moyens pour évaluer la complexité de chaque problème binaire au moyen de classifieurs pré- 25 paramétrés en utilisant une base prédéfinie de test, - des moyens pour définir une matrice M' à partir de ladite matrice M en fonction d'une heuristique préalablement choisie et en fonction de la complexité des problèmes binaires évaluée à l'étape 30 précédente, ladite matrice M' comportant un nombre de 26 classifieurs binaires m' inférieur au nombre de classifieurs binaires m la matrice M, - des moyens pour optimiser les classifieurs binaires de la matrice M' en fonction de contraintes applicatives, - des moyens pour calibrer les résultats des classifieurs de la matrice M' au moyen de données d'apprentissage prédéfinies, - des moyens pour fusionner les résultats calibrés des classifieurs de la matrice M', ledit module de prédiction comportant : - des moyens pour appliquer lesdites données d'observation aux classifieurs de la matrice M', - des moyens pour calculer des estimations des probabilités d'appartenance de l'objet observé aux différentes classes/ensembles de classes et des estimations de fiabilité de ces mesures.20