EP1984873A1

EP1984873A1 - Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques

Info

Publication number: EP1984873A1
Application number: EP06847192A
Authority: EP
Inventors: Franck Meyer; Jérôme BESOMBES; Fabrice Clerot
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-01-03
Filing date: 2006-12-20
Publication date: 2008-10-29
Also published as: US8886678B2; FR2895813A1; WO2007077378A1; US20090037458A1

Abstract

L'invention concerne un procédé d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées. Le procédé selon l'invention comporte pour un groupe de documents donné et un niveau de l'arborescence donné les étapes suivantes: a) obtention de contraintes (E300) définies entre au moins deux documents dudit groupe et mémorisation de ces contraintes; b) construction de sous-groupes (E310) en fonction des contraintes obtenues et des caractéristiques des documents dudit groupe; c) création d'un niveau d'arborescence (E320) correspondant aux sous-groupes crées; d) sélection d'un sous-groupe créé (E340) et itération des étapes a), b), c) et d) pour le sous groupe sélectionné jusqu'à obtention de ladite arborescence. L'invention se rapporte également à un dispositif mettant en œuvre ce procédé.

Description

Procédé et dispositif d'aide à la construction d'une arborescence de groupe de documents électroniques

L'invention se rapporte à un procédé et à un dispositif d'aide à la construction d'une arborescence de groupe de documents électroniques.

Le nombre de documents électroniques (mails, images, pages web, textes, ...) qu'un utilisateur a à gérer est souvent d'un volume important et de croissance constante. Une méthode bien connue de construction d'une arborescence de groupes de documents est la méthode entièrement manuelle. L'utilisateur qui possède un certain nombre de documents à classer, crée une arborescence de répertoires dans lequel il insère ces documents selon son bon vouloir. Cette méthode a pour avantage de respecter le choix de l'utilisateur et permet de plus de modifier facilement l'arborescence manuellement. Cette méthode peut cependant devenir très fastidieuse lorsque le nombre de document à répertorier est important. D'autres méthodes proposent une classification totalement automatique de documents électroniques. Pour cela, les documents sont définis par des caractéristiques (par exemple le nom du fichier, son type, sa taille, des comptes de mots pour des documents textuels, des mesures de colorimétries pour des images,...). Pour chaque document, ces différentes caractéristiques sont regroupées pour former un vecteur décrivant ce document. Il est alors possible de définir une distance entre deux vecteurs, et donc une mesure de proximité entre les documents. Prenant en compte les distances entre documents, les méthodes de classification construisent des groupes qui peuvent être structurés sous forme arborescente (méthode de «Classification Hiérarchique Ascendante» par exemple) ou non (méthode du «k- Means» par exemple). L'inconvénient de telles partitions automatiques est qu'elles ne correspondent pas toujours à une organisation voulue par l'utilisateur. Aucune correction n'est alors possible et l'utilisateur est contraint d'accepter le groupement obtenu, ou de recommencer l'ensemble du processus en faisant varier les paramètres initiaux (nombre de groupes désirés par exemple) pour un résultat différent. Des méthodes d'apprentissage automatique dites "supervisées" ou "semi- supervisées" permettent de prendre en considération des critères fixés a priori par l'utilisateur pour mettre en œuvre un mécanisme d'apprentissage. En classification supervisée, l'utilisateur doit donner des étiquettes à une partie des documents qu'il veut grouper. Deux documents ayant une étiquette identique doivent rejoindre le même groupe et inversement. Un algorithme d'apprentissage supervisé construit un modèle qui permet, pour chaque document non étiqueté, et en fonction de sa description, de lui donner une étiquette appropriée. Une méthode supervisée suppose que l'utilisateur connaisse toutes les étiquettes possibles des documents à classer et donc les groupes de l'organisation finale. L'utilisateur n'a que rarement cette connaissance a priori de la structure de la classification de ses données. Les connaissances initiales nécessaires à l'utilisation des tels algorithmes sont alors une forte restriction à leur utilisation pour la gestion de documents. Un exemple de méthode "semi-supervisée" est décrit dans le document "Distance metric learning, with application to clustering with side-information" de Eric P. Xing, Andrew Y. Ng, Michael I. Jordan et Stuart Russell (NIPS 15,2003), où l'utilisateur spécifie des objets comme étant similaires ou différents. A partir de ces informations, le système va déterminer une métrique (une pondération des différentes caractéristiques de description des documents qui favorise certaines caractéristiques et en pénalise d'autres) qui va donner une nouvelle mesure de distance entre les documents à adopter pour la classification.

Un autre exemple de classification semi-supervisée est celle proposée par le document "Constrainted K-means clustering with background knowledge" de KM Wagstaff, Claire Cardie, Seth Rogers et Stefan Schroedl (ICML 2001). Cette méthode propose de donner des contraintes à des paires de documents spécifiant ainsi qu'ils appartiennent à un même groupe ou qu'au contraire, ils n'appartiennent pas à un même groupe. La méthode connue de type "k-means" est alors utilisée pour regrouper les documents tout en essayant de respecter au mieux les contraintes d'appartenance données au préalable. Cette méthode ne fonctionne que pour une classification non hiérarchisée. De plus, cette méthode ne propose pas de solution pour modifier, supprimer ou déplacer des documents dans la classification obtenue et elle est susceptible d'échouer s'il est impossible de satisfaire les contraintes fournies (dans ce cas, aucun classement n'est effectué).

L'invention a pour but de pallier ces inconvénients en proposant une méthode d'aide à la construction d'une arborescence de groupe de documents qui permet une classification hiérarchique de documents facilement modifiable. Le procédé selon l'invention aide l'utilisateur à construire une arborescence de groupe de documents de façon à ce que celui-ci ait un minimum d'interactions et que celles-ci lui soient les plus simples possibles. L'utilisateur n'intervient que de façon intuitive sans connaissance approfondie en informatique.

L'utilisateur peut ne pas connaître a priori la structure finale et la répartition des documents dans cette structure. Le procédé selon l'invention permet à l'utilisateur de faire évoluer ces préférences de classification.

La présente invention offre un procédé simple à mettre en œuvre et convivial pour l'utilisateur.

A cet effet, l'invention propose un procédé d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées. Le procédé étant tel qu'il comporte pour un groupe de documents donné et un niveau de l'arborescence donné les étapes suivantes: a) obtention de contraintes définies entre au moins deux documents dudit groupe et mémorisation de ces contraintes; b) construction de sous-groupes en fonction des contraintes obtenues et des caractéristiques des documents dudit groupe; c) création d'un niveau d'arborescence correspondant aux sous-groupes crées; d) sélection d'un sous-groupe créé et itération des étapes a), b), c) et d) pour le sous groupe sélectionné jusqu'à obtention de ladite arborescence.

Ainsi, le procédé permet la construction d'une arborescence en prenant en compte des contraintes définies pour chaque groupe de documents et à chaque niveau de l'arborescence. Cette construction n'est donc pas figée à une définition faite a -A-

priori, elle peut évoluer au fil de la construction de l'arborescence ou être reprise pour une partie de l'arborescence en cas de besoin de modification.

Dans un mode préféré de réalisation, l'étape de construction de sous-groupes comporte les étapes suivantes:

- création d'un groupe par document participant à au moins une contrainte;

- association des documents ne participant à aucune contrainte aux groupes ainsi créés selon un critère calculé à partir des caractéristiques des documents à associer d'une part et des caractéristiques des documents appartenant auxdits groupes d'autre part;

- fusion itérative en conformité avec les contraintes définies des groupes issus de l'étape d'association.

Ces étapes de construction permettent de regrouper de façon automatique les documents à la fois sur des critères que l'utilisateur a définis et sur des critères de distances entre caractéristiques de documents, ceci de façon à obtenir un nombre restreint de groupes de façon efficace.

Dans un mode de réalisation de l'invention, l'obtention de contraintes s'effectue par une étape de sélection de documents pour lesquels une contrainte doit être associée et de sélection d'un type de contrainte à l'aide d'une interface utilisateur.

Ainsi, l'utilisateur peut simplement définir ces contraintes entre documents, sur des critères qui lui sont propres et qui peuvent évoluer au cours du temps.

Dans un autre mode de réalisation, l'étape d'obtention de contraintes s'effectue par une lecture de contraintes prédéfinies dans un espace mémoire.

Ainsi, des contraintes qui ont déjà été définies antérieurement peuvent être prises en compte, notamment lors de modifications de l'arborescence.

De façon avantageuse, à la suite d'une requête utilisateur de déplacement d'un document d'un premier groupe appartenant à un premier niveau d'arborescence vers un deuxième groupe appartenant à un deuxième niveau d'arborescence, le procédé comporte en outre les étapes préalables de:

- détermination et sélection du groupe commun de niveau supérieur le plus bas dans l'arborescence; - déplacement des documents provenant des sous-groupes inférieurs dans l'arborescence dans le groupe déterminé;

- suppression de la partie inférieure de l'arborescence par rapport au groupe déterminé;

- création automatique de nouvelles contraintes prenant en compte le déplacement dudit document et mémorisation de ces nouvelles contraintes par niveau d'arborescence.

De même, à la suite d'une requête utilisateur de création d'un nouveau sous- groupe pour un niveau d'arborescence donné et comportant au moins un document sélectionné provenant d'un second sous-groupe du même niveau, le procédé comporte en outre les étapes préalables de:

- détermination et sélection du groupe commun de niveau supérieur le plus bas dans l'arborescence;

- déplacement des documents provenant des sous-groupes inférieurs dans l'arborescence dans le groupe déterminé;

- suppression de la partie inférieure de l'arborescence par rapport au groupe déterminé ;

- création automatique de nouvelles contraintes prenant en compte la création du nouveau sous-groupe, et mémorisation de ces nouvelles contraintes par niveau d'arborescence.

Ainsi, pour une modification demandée par l'utilisateur, le procédé permet de reprendre la construction de l'arborescence de façon automatique en prenant en compte les nouveaux critères de la modification.

L'invention vise également un dispositif d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées. Le dispositif est tel qu'il comporte:

- des moyens d'obtention de contraintes définies entre au moins deux documents d'un groupe donné à un niveau d'arborescence donné;

- des moyens de mémorisation des contraintes provenant des moyens d'obtention;

- des moyens de construction de sous-groupes en fonction des contraintes provenant des moyens d'obtention et des caractéristiques des documents du groupe donné;

- des moyens de création d'un niveau d'arborescence correspondant aux sous-groupes issus des moyens de construction de sous-groupes;

- des moyens de sélection d'un sous-groupe issu des moyens de construction de sous- groupes.

Dans un mode particulier de réalisation, les moyens d'obtention de contraintes comportent des moyens d'interface utilisateur, ces moyens d'interface utilisateur comportant des moyens d'affichage dans lequel des icônes représentant les contraintes à obtenir sont sélectionnables par l'utilisateur.

Dans un autre mode particulier de réalisation, les moyens d'obtention de contraintes comportent des moyens de lecture dans un espace mémoire de contraintes sauvegardées.

Le dispositif a les mêmes avantages que le procédé qu'il met en œuvre.

L'invention porte aussi sur un équipement électronique multimédia comportant des moyens de stockage de documents multimédias, cet équipement comporte des moyens pour mettre en œuvre le procédé d'aide à la construction d'une arborescence de groupes de documents électroniques selon l'invention.

L'invention concerne également un programme d'ordinateur comportant des instructions de programme adaptées à la mise en œuvre d'un procédé d'aide à la construction d'une arborescence de groupe de documents électroniques selon l'invention tel que décrit précédemment, lorsque le dit programme est chargé et exécuté dans un système informatique.

Enfin, l'invention vise un moyen de stockage, éventuellement totalement ou partiellement amovible, lisible par un ordinateur, stockant un jeu d'instructions exécutables par ledit ordinateur pour mettre en œuvre le procédé d'aide à la construction d'une arborescence de groupe de documents électroniques selon l'invention.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: - la figure 1 représente un mode de réalisation d'un dispositif selon l'invention;

- la figure 2 représente les principaux éléments constitutifs du dispositif selon l'invention;

- la figure 3 illustre sous forme d'organigramme, les principales étapes d'un procédé d'aide à la construction d'une arborescence de groupe de documents conforme à l'invention;

- la figure 4 illustre de façon détaillée, sous forme d'organigramme, l'étape de construction de sous-groupes selon l'invention;

- la figure 5 illustre de façon schématique les étapes mises en œuvre lors de la construction de sous-groupes selon l'invention;

- la figure 6a illustre un niveau d'arborescence et les contraintes associées aux documents appartenant à un groupe de ce niveau d'arborescence;

- la figure 6b illustre deux autres niveaux d'arborescence, les groupes de documents et leurs contraintes associées après la mise en oeuvre d'un procédé conforme à l'invention;

- la figure 7 illustre un exemple d'interface graphique proposée à l'utilisateur;

- les figures 8a, 8b, 8c et 8d illustrent sous forme de schéma de l'arborescence, les étapes mises en oeuvre lors d'une modification de type déplacement d'un document dans l'arborescence selon l'invention; et

- les figures 9a, 9b et 9c illustrent les étapes mises en oeuvre lors d'une modification de type création d'un autre groupe de documents dans l'arborescence selon l'invention.

La figure 1 représente un schéma bloc d'un mode de réalisation d'un dispositif d'aide à la construction d'une arborescence de groupe de documents selon l'invention. Ce dispositif est par exemple un micro-ordinateur 10. Ce dispositif possède un bus de communication 190 auquel sont reliés une unité centrale 110, une mémoire morte 120, une mémoire vive RAM 130, un écran 140, un clavier 150, une interface de communication 180 avec un réseau de communication 115, un disque dur 170 et un lecteur enregistreur de données 160 sur un support amovible. La mémoire morte 120 mémorise entre autres, le programme mettant en œuvre les principales étapes du procédé selon l'invention qui seront décrites ultérieurement en référence aux figures 3 et 4.

La mémoire morte 120 mémorise aussi les différentes contraintes associées aux documents qui sont définis par l'utilisateur.

De manière plus générale, le programme selon l'invention est mémorisé dans un moyen de stockage. Ce moyen de stockage est lisible par un ordinateur ou un microprocesseur 110. Ce moyen de stockage est intégré ou non au dispositif et peut être amovible.

Lors de la mise sous tension du dispositif, le programme selon la présente invention est transféré dans la mémoire vive 130 qui contient alors le code exécutable de l'invention ainsi que les données nécessaires à la mise en œuvre de l'invention.

Le dispositif selon l'invention possède un écran apte à reproduire des informations représentatives de la construction de l'arborescence selon l'invention. L'écran est également apte à afficher une interface graphique à l'utilisateur pour qu'il détermine les documents pour lesquels une contrainte doit être associée.

Par l'intermédiaire du clavier, ou d'un autre moyen d'interface comme une souris d'ordinateur, l'utilisateur sélectionne le groupe de documents pour lesquels il désire construire une arborescence et sélectionne les documents pour lesquels une contrainte doit être associée ainsi que le type de contrainte.

Le disque dur 170 mémorise les documents qui sont classés selon le procédé de l'invention.

Le disque dur peut en variante mémoriser le programme mettant en œuvre le procédé de l'invention décrit ultérieurement en référence aux figures 3 et 4.

Le lecteur enregistreur de données 160 sur un moyen de mémorisation amovible est par exemple un lecteur enregistreur de disques compacts ou de DVD.

Les documents classés selon l'invention peuvent également être sauvegardés sur un moyen de mémorisation amovible tel qu'un disque compact ou un DVD.

Le lecteur enregistreur est apte à lire le programme selon l'invention pour le transfert de celui-ci sur le disque dur 170. La classification des documents et l'arborescence de groupes de documents obtenues par la mise en œuvre de l'invention, ne sont pas nécessairement couplées avec l'organisation physique des documents dans le système de stockage. La représentation de l'arborescence issue de la mise en œuvre de l'invention peut n'être qu'une représentation logique. Ainsi plusieurs représentations logiques peuvent être obtenues pour une seule organisation physique.

La figure 2 représente sous forme de schéma bloc les principaux éléments constitutifs du dispositif de l'invention.

Les documents provenant d'une base de stockage 280 sont traités par le module M210 de vectorisation. Ce module de vectorisation permet de construire pour chaque document un vecteur numérique décrivant ce document. Par exemple, pour une image, cela peut consister en un ensemble de mesures, de fonctions appliquées à la représentation Bitmap de l'image, pour un document texte, cela peut consister à un calcul de mots prédéfinis pour chaque document. Ainsi, un vecteur représentera les caractéristiques du document qui lui correspond. Il est alors possible de définir une distance entre deux vecteurs et donc une mesure de proximité entre document. La distance entre deux vecteurs représentera la distance entre les caractéristiques des documents.

Le module M220 de normalisation permet de normaliser les vecteurs représentants les documents de manière à obtenir des vecteurs de norme constante. Cette normalisation peut par exemple s'effectuer par la mise à l'échelle de toutes les variables descriptives dans l'intervalle [0;l].

Les documents ainsi traités par les modules M210 et M220 arrivent ensuite en entrée du dispositif d'aide à la construction d'une arborescence de documents conforme à l'invention 200.

Ce dispositif comprend entre autres, un module M240 d'interface utilisateur qui permet à un utilisateur de travailler en mode interactif sur les classifications des documents. Ce module permet notamment à l'utilisateur de définir des contraintes à associer aux documents, de modifier l'arborescence construit selon le procédé de l'invention. Le dispositif comporte également un module M250 d'obtention de contraintes définies entre au moins deux documents d'un groupe. L'obtention de contraintes peut s'effectuer via le module d'interface graphique M240 ou par exemple par simple lecture de contraintes définies antérieurement et qui sont stockées dans un espace mémoire du dispositif (M280). Les contraintes nouvellement obtenues sont mémorisées dans un espace mémoire M280 du dispositif.

Le dispositif comporte un module M260 de construction de sous-groupes de documents en fonction des contraintes obtenus par le module M 250 et des caractéristiques propres aux documents. Il comporte un module de création de niveaux d'arborescence M290 correspondants aux sous-groupes provenant du module M260. Le module M290 est lié au module d'interface utilisateur pour l'affichage de l'arborescence obtenue.

Enfin, le dispositif comporte un module M270 de sélection d'un groupe ou sous-groupe crée par le module M260. La sélection d'un groupe ou sous-groupe s'effectue par l'intermédiaire du module d'interface utilisateur. Le groupe ainsi sélectionné sera alors appliqué aux modules précédemment décrit du dispositif afin d'obtenir en sortie du dispositif 200, une arborescence de groupes de documents qui satisfait l'utilisateur.

Le dispositif selon l'invention peut-être intégré dans un équipement électronique multimédia qui comporte un moyen de stockage de documents multimédias comme par exemple des images, des fichiers musicaux, des documents écrits... Cet équipement est par exemple un lecteur de fichier musicaux qui comporte également une interface graphique, un ordinateur de poche ou agenda électronique, un téléphone mobile avec ou sans dispositif photographique.

Ainsi, le procédé d'aide à la construction d'une arborescence selon l'invention, de faible complexité, peut être mis en œuvre sur ce type d'équipement pour classer les contenus multimédias stockés.

Les principales étapes du procédé d'aide à la construction d'une arborescence de groupe de documents selon l'invention sont maintenant décrites en référence à la figure 3. A partir d'un groupe de documents D sélectionné à un niveau d'arborescence donné, une étape E300 d'obtention de contraintes entre au moins deux documents du groupe est effectuée. Cette étape d'obtention est par exemple la sélection par l'utilisateur de deux documents et d'une icône de l'interface graphique représentant une contrainte de type "doit être associé" ou "Must-Link" en anglais (ML) ou de type "ne doit pas être associé" ou "Cannot-Link" en anglais (CL). Un exemple d'interface graphique utilisée pour l'obtention de contraintes sera décrit ultérieurement en référence à la figure 7.

La contrainte de type ML exprime la volonté de retrouver les deux documents dans le même groupe au niveau inférieur (sous-groupe) et la contrainte de type CL exprime la volonté de ne pas retrouver les deux documents dans le même groupe au niveau inférieur.

Ainsi, une contrainte est définie par une paire de documents, un type de contrainte (ML ou CL) et un niveau de l'arborescence. Ces contraintes ainsi définies sont mémorisées dans un espace mémoire du dispositif.

L'obtention de contraintes à l'étape E300 peut aussi s'effectuer par simple lecture de contraintes préalablement mémorisées dans un espace mémoire.

L'obtention de contraintes peut également s'effectuer par la sélection par l'utilisateur d'un certain nombre de documents qu'il souhaite associer dans un même sous-groupe. Il peut ainsi créer une ébauche de sous-groupes. Des contraintes sont alors automatiquement crées à l'étape E300, l'ensemble des documents représentatifs des sous-groupes étant associés deux à deux (selon tous les couples possibles de deux documents distincts) par des contraintes CL.

Les contraintes ainsi définies à l'étape E300 sont ensuite utilisées à l'étape E310 pour la construction de sous-groupes. La construction des ces sous-groupes est aussi fonction des caractéristiques des documents. L'étape de construction de sous- groupe sera détaillée ultérieurement en référence aux figures 4 et 5.

L'étape E310 est suivie de l'étape E320 où la création d'un nouveau niveau d'arborescence correspondant aux sous-groupes ainsi crées est effectuée. Une représentation de l'arborescence en cours de création est illustrée aux figures 6a et 6b.

A l'étape E330, l'utilisateur peut arrêter la création de l'arborescence s'il considère qu'elle est satisfaisante. Dans ce cas (O), le procédé est fini. Dans le cas contraire (N), l'étape E330 est suivie de l'étape E340 où la sélection d'un sous-groupe précédemment crée et au niveau inférieur de l'arborescence est effectuée. Cette sélection peut être effectuée par l'utilisateur par l'intermédiaire de l'interface graphique.

Elle peut aussi être proposée de manière automatique à l'utilisateur selon un critère qui peut être par exemple la sélection du sous-groupe de plus fort effectif ou du sous-groupe contenant la dernière image sélectionnée.

L'étape E340 est suivie de l'étape E300 précédemment décrite. Les étapes E300, E310, E320, E330 et E340 sont ainsi itérées pour le sous-groupe sélectionné jusqu'à obtention d'une arborescence satisfaisante pour l'utilisateur.

La figure 4 illustre en détails l'étape E310 décrite en référence à la figure 3. Ainsi, à partir des contraintes obtenues à l'étape E300, l'étape E400 consiste à créer un groupe par document participant à au moins une contrainte.

Cette étape E400 est illustrée à la figure 5 où les documents sont représentés par des cercles pleins, les contraintes ML par des traits pleins et les contraintes CL par des traits en pointillés. A cette étape, un groupe ne comporte qu'un seul document (un noyau). L'étape E400 est suivie de l'étape E410 où il est effectué une association des documents ne participant pas à au moins une contrainte aux groupes créés à l'étape E400.

Cette association s'effectue selon un critère de distance entre les caractéristiques des documents à associer et celles des documents appartenant aux groupes. Ainsi la distance d'un document à un groupe nouvellement créé est définie comme la distance entre le document et le noyau du groupe (à ce stade, chaque groupe possède un noyau unique). Le critère d'association d'un document à un groupe est un critère de distance la plus petite. Comme mentionné précédemment en référence à la figure 2, la distance entre caractéristiques de documents s'effectue par une mesure de distance entre vecteurs représentant les caractéristiques des documents

Ainsi, à l'issue de l'étape E410, on obtient des groupes comme illustré sous la référence de l'étape E410 à la figure 5.

L'étape E410 est suivie de l'étape E420 où une fusion itérative de certains groupes obtenus à l'étape précédente, est effectuée. Cette fusion est effectuée en fonction des contraintes associées aux documents. Ainsi, si un groupe contient un document dl participant à une contrainte ML avec un document d4 d'un autre groupe, les deux groupes fusionnent automatiquement. Ceci est illustré sous la référence E420 à la figure 5.

Dans cette figure, on voit bien que les groupes dans lesquels d2 et d3 participent à une contrainte ML, ont été fusionnées. De même pour les groupes comportant les documents d5 et d6. A cette étape, l'illustration de la figure 5 montre la construction de trois groupes Gl, G2 et G3.

L'étape E420 est suivie de l'étape E430.

A l'étape E430, une fusion de groupes est effectuée de telle sorte que si un groupe G2 et un groupe G3 comme illustré en figure 5, ne comportent pas respectivement un document pour lequel il existe une contrainte CL, alors G2 et G3 fusionnent. On obtient alors les sous-groupes illustrés sous la référence E430 de la figure 5.

A chaque étape de fusions de groupes décrite ci-avant, dans le cas où plusieurs fusions sont possibles, le choix est fait de fusionner en priorité les deux groupes les plus proches parmi ceux dont une fusion est possible ; la distance entre deux groupes étant définie, par exemple, par la plus petite distance entre un des noyaux du premier groupe et un des noyaux du deuxième (après les premières fusions, chaque sous-groupe possède un ou plusieurs noyaux).

L'étape E430 est suivie de l'étape E320 précédemment décrite en référence à la figure 3. Les figures 6a et 6b illustrent la construction des groupes de documents de l'arborescence avec les contraintes associées à chaque niveau de l'arborescence. La figure 6a représente par exemple un groupe de documents qui correspond aux documents illustrés en figure 5 sous la référence E400. Des contraintes sur certains de ces documents ont été définies et enregistrés et sont représentés sur la figure 6a. Ces contraintes restent associées au niveau correspondant, ici, le niveau 0.

La figure 6b illustre la création de deux niveaux d'arborescence. Le premier niveau crée (niveau -1) correspond aux sous-groupes obtenus à l'issue de l'étape E430 illustré en référence à la figure 5. La création de ce niveau d'arborescence correspond à l'étape E320 décrite en référence à la figure 3.

La sélection d'un groupe de documents correspondant à l'étape E340 de la figure 3 est représentée en négatif sur la figure 6b. Selon le procédé de l'invention décrit en référence à la figure 3, les étapes E300, E310, E320 sont exécutées à nouveau. Des nouvelles contraintes correspondants au niveau -1 sont ainsi définies et représentées sur la figure 6b, de nouveaux sous-groupes sont crées et un autre niveau d'arborescence (niveau -2) est crée et représenté sur la figure 6b.

La figure 7 est une illustration d'un exemple d'interface graphique présentée à l'utilisateur. Un groupe de document dans l'arborescence représentée dans la fenêtre 700, est sélectionné. Ce groupe sélectionné est représenté en négatif. Les documents de ce groupe sélectionné sont affichés dans une deuxième fenêtre 710. L'utilisateur peut alors sélectionner deux documents, par exemple les documents dl7 et dl9 et ensuite sélectionner l'icône représentant la contrainte qu'il souhaite associer à ces documents, par exemple l'icône 770 correspondant à la contrainte ML. Une contrainte associée au niveau -2 de l'arborescence est alors créée et affichée dans la troisième fenêtre de visualisation 720. La contrainte CL peut être sélectionnée par l'icône correspondant 770. Une fois que les contraintes du groupe sélectionné sont définies, l'utilisateur peut sélectionner l'icône "learn" 730 pour que l'étape E310 du procédé représenté en figure 3 soit exécutée.

Lorsqu'une arborescence, a été partiellement construite selon le procédé de l'invention, elle peut être modifiée à tout moment en utilisant le même procédé. Par exemple, si l'utilisateur veut supprimer une partie de l'arborescence, il sélectionne par exemple un groupe de document de l'arborescence en utilisant par exemple l'interface graphique de la figure 7. Il "clique" ensuite sur l'icône 760 pour supprimer toute la partie inférieure de l'arborescence. Par cette action, on effectue une étape de déplacement dans le groupe sélectionné des documents des groupes de la partie de l'arborescence supprimée. Toutes les contraintes liées aux documents pour les niveaux inférieurs de l'arborescence sont également supprimées.

Ainsi, le procédé d'aide à la construction d'une arborescence décrit en référence à la figure 3 peut de nouveau être mis en oeuvre à partir du groupe sélectionné.

Nous allons à présent décrire en référence aux figures 8a, 8b, 8c et 8d, les étapes mises en œuvre lors d'une modification de l'arborescence initiée par la volonté de l'utilisateur de déplacer un document d d'un premier groupe de l'arborescence vers un deuxième groupe de l'arborescence. Comme illustré en figure 8a, l'utilisateur souhaite déplacer le document d d'un groupe de niveau -2 dans l'arborescence vers un groupe de niveau -3. Pour cela l'utilisateur effectue par exemple un déplacement à l'aide de la souris de l'icône représentant le document à déplacer et sélectionné dans la fenêtre 710 de l'interface graphique de la figure 7, du premier groupe de documents vers le deuxième groupe.

Comme illustré à la figure 8a, les contraintes par niveau d'arborescence sont sauvegardées en mémoire.

Le procédé qui va permettre de reconstruire une arborescence différente va commencer tout d'abord par déterminer et par sélectionner le groupe commun de niveau supérieur le plus bas dans l'arborescence, c'est à dire le premier groupe commun au groupe initial de d et groupe destination du déplacement, rencontré lorsqu'on remonte l'arborescence en partant des deux groupes concernés, vers les niveaux supérieurs. Toute la partie de l'arborescence de niveau inférieur à ce groupe sélectionné est supprimée. Comme mentionné précédemment pour la suppression d'une partie de l'arborescence, tous les documents issus des groupes de la partie supprimée sont déplacés dans le groupe sélectionné. Par contre, dans le cas présent, les contraintes des niveaux inférieurs qui concernent les autres documents que celui à déplacer sont conservés en mémoire. De nouvelles contraintes sont définies pour prendre en compte le déplacement du document d.

Ainsi, comme illustré en figure 8b, les contraintes représentées en souligné ont été crées automatiquement. Elles expriment le fait que au niveau -1, le document d et le document noyau dl doivent être regroupés (contrainte ML "Must link") de manière à forcer d à rejoindre le sous-groupe de dl au niveau -2 (figure 8c). Il en est de même pour le document d et le document noyau d5 au niveau -2.

Ainsi, le procédé de construction d'une arborescence décrit en référence à la figure 3 est mis en œuvre à partir du groupe commun supérieur sélectionné et avec les contraintes déjà définies et sauvegardées en mémoire. Après l'application de ce procédé, on obtient une arborescence comme illustré en figure 8d où le document d a bien été déplacé dans le groupe désiré. Certains documents proches du document déplacé d qui ne participent pas à des contraintes et qui se trouvaient dans le même premier groupe que d vont suivre automatiquement le même chemin que le document d et vont se retrouver dans le même groupe destination.

On va à présent décrire en référence aux figures 9a, 9b et 9c, les étapes mises en œuvre lors de la reconstruction d'une arborescence suite à une modification de type création d'un groupe, initiée par l'utilisateur. Comme illustré en référence à la figure 9a, l'utilisateur désire créer un nouveau groupe contenant le document d, de même niveau que le groupe contenant initialement d. Pour cela, l'utilisateur sélectionne un document dans la fenêtre 710 de l'interface graphique représentée en figure 7 et "clique" sur l'icône 740 de création d'un groupe. Une étape de détermination et de sélection du groupe supérieur dans l'arborescence est mise en œuvre. Comme dans les modifications décrites antérieurement, la partie de l'arborescence inférieure au groupe sélectionné est supprimée et les documents issus des groupes de cette partie de l'arborescence sont inclus dans le groupe sélectionné... De nouvelles contraintes de type CL sont crées comme représenté en souligné en référence à la figure 9b. Ces nouvelles contraintes spécifient que le document d doit être séparé des documents noyaux dl et d4 au niveau -2. Comme d ne peut plus rejoindre aucun des sous-groupes, un nouveau sous-groupe sera automatiquement créé lors d'une phase de construction de l'arborescence défini en référence à la figure 3. On notera que, dans le but d'empêcher d de pouvoir rejoindre le sous-groupe contenant les noyaux dl et d5 au niveau -2, la nouvelle contrainte CL(dl,d) a été créée au niveau -1. La contrainte CL(d5,d) aurait tout aussi bien jouer ce rôle. Dans le cas où plusieurs noyaux sont possible pour la création d'un nouveau lien CL en vue d'empêcher un document de rejoindre un sous-groupe, le choix du noyau le plus éloigné de ce document est fait (dans notre exemple, on suppose ainsi que d5 est plus proche de d que dl et donc dl c'est choisi pour le lien CL(dl,d) créé.

Ainsi, le procédé de construction d'une arborescence décrit en référence à la figure 3 est mis en œuvre à partir du groupe supérieur sélectionné et avec les nouvelles contraintes définies et sauvegardées en mémoire. Après l'application de ce procédé, on obtient une arborescence comme illustré en figure 9c où un nouveau groupe a été crée automatiquement, contenant le document d et possiblement des documents suffisamment proche de d (ces documents ayant été assignés à ce nouveau sous-groupe lors de la construction de l'arborescence défini en référence à la figure 3).

D'autres modifications peuvent être effectuées sur l'arborescence comme par exemple la suppression d'un groupe sélectionné. Dans ce cas, la partie de l'arborescence située en dessous de ce groupe est supprimée, les documents issus des groupes de cette partie et du groupe supprimé sont déplacés dans le groupe de niveau supérieur dans l'arborescence. Les contraintes associées aux documents de ces groupes sont également supprimées. Le procédé de construction de l'arborescence défini en référence à la figure 3 est alors mis en œuvre à partir de ce groupe de niveau supérieur.

Ainsi, l'utilisateur peut maintenir ses habitudes de gestion de fichiers tout en étant assisté par la mise en œuvre d'un procédé automatique de construction d'une arborescence, via la définition automatique ou manuelle de liens ML et CL entre un petit nombre de documents. Cela apporte donc à l'utilisateur un gain de temps important et une satisfaction par rapport au résultat obtenu.

Claims

REVENDICATIONS

1. Procédé d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées, caractérisé en ce qu'il comporte pour un groupe de documents donné et un niveau de l'arborescence donné les étapes suivantes: a) obtention de contraintes (E300) définies entre au moins deux documents dudit groupe et mémorisation de ces contraintes; b) construction de sous-groupes (E310) en fonction des contraintes obtenues et des caractéristiques des documents dudit groupe; c) création d'un niveau d'arborescence (E320) correspondant aux sous-groupes crées; d) sélection d'un sous-groupe créé (E340) et itération des étapes a), b), c) et d) pour le sous groupe sélectionné jusqu'à obtention de ladite arborescence.

2. Procédé selon la revendication 1, caractérisé en ce que l'étape de construction de sous-groupes comporte les étapes suivantes:

- création (E400) d'un groupe par document participant à au moins une contrainte;

- association (E410) des documents ne participant à aucune contrainte aux groupes ainsi créés selon un critère calculé à partir des caractéristiques des documents à associer d'une part et des caractéristiques des documents appartenant auxdits groupes d'autre part;

- fusion itérative (E420, E430), en conformité avec les contraintes définies, des groupes issus de l'étape d'association.

3. Procédé selon la revendication 1 ou 2, caractérisé en ce que l'obtention de contraintes s'effectue par une étape de sélection de documents pour lesquels une contrainte doit être associée et de sélection d'un type de contrainte à l'aide d'une interface utilisateur.

4. Procédé selon la revendication 1 ou 2, caractérisé en ce que l'étape d'obtention de contraintes s'effectue par une lecture de contraintes prédéfinies dans un espace mémoire.

5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que à la suite d'une requête utilisateur de déplacement d'un document d'un premier groupe appartenant à un premier niveau d'arborescence vers un deuxième groupe appartenant à un deuxième niveau d'arborescence, le procédé comporte en outre les étapes préalables de:

6. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que à la suite d'une requête utilisateur de création d'un nouveau sous-groupe pour un niveau d'arborescence donné et comportant au moins un document sélectionné provenant d'un second sous-groupe du même niveau, le procédé comporte en outre les étapes préalables de:

7. Dispositif d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées, caractérisé en ce qu'il comporte:

- des moyens d'obtention (M250) de contraintes définies entre au moins deux documents d'un groupe donné à un niveau d'arborescence donné;

- des moyens de mémorisation (M280) des contraintes provenant des moyens d'obtention;

- des moyens de construction (M260) de sous-groupes en fonction des contraintes provenant des moyens d'obtention et des caractéristiques des documents du groupe donné;

- des moyens de création (M290) d'un niveau d'arborescence correspondant aux sous- groupes issus des moyens de construction de sous-groupes;

- des moyens de sélection (M270) d'un sous-groupe issu des moyens de construction de sous-groupes.

8. Dispositif selon la revendication 7, caractérisé en ce que les moyens d'obtention de contraintes comportent des moyens d'interface utilisateur.

9. Dispositif selon la revendication 8, caractérisée en ce que les moyens d'interface utilisateur comportant des moyens d'affichage dans lequel des icônes représentant les contraintes à obtenir sont sélectionnables par l'utilisateur.

10. Dispositif selon l'une des revendications 7 à 9, caractérisé en ce que les moyens d'obtention de contraintes comportent des moyens de lecture dans un espace mémoire de contraintes sauvegardées.

11. Equipement électronique multimédia comportant des moyens de stockage de documents multimédias caractérisé en ce qu'il comporte des moyens pour mettre en œuvre le procédé d'aide à la construction d'une arborescence de groupes de documents électroniques selon l'une quelconque des revendications 1 à 6.

12. Programme d'ordinateur comportant des instructions de programme adaptées à la mise en œuvre d'un procédé d'aide à la construction d'une arborescence de groupes de documents électroniques selon l'une quelconque des revendications 1 à 6, lorsque ledit programme est chargé et exécuté dans un système informatique.