FR3004828A1

FR3004828A1 - Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte

Info

Publication number: FR3004828A1
Application number: FR1300948A
Authority: FR
Inventors: Bertrand Duqueroie; Benedicte Goujon
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2013-04-23
Filing date: 2013-04-23
Publication date: 2014-10-24
Also published as: WO2014173882A1

Abstract

L'invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le procédé comporte une extraction (60,62) d'un ensemble de mots clés dudit au moins un texte, suivi de l'obtention (66, 68, 72) d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés. Ensuite, une simplification (74) du graphe complet est appliquée, comprenant un traitement de simplification basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

Description

Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte La présente invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte et un dispositif associé.

L'invention se situe dans le domaine du traitement automatique des connaissances et de l'extraction automatique d'informations à partir de documents contenant du texte, et trouve des applications notamment dans les systèmes d'aide à la décision multicritères et dans les systèmes de classification automatique de textes. De nos jours, une très grande quantité d'informations est disponible sous forme de documents électroniques de divers types, en particulier des documents contenant du texte. Il apparaît très difficile pour un être humain d'analyser, catégoriser et extraire des connaissances à partir d'un large corpus de textes. A cet effet, des méthodes d'extraction automatiques d'informations à partir d'un ou plusieurs documents électroniques contenant 'du texte ont été proposées.

La plupart des méthodes connues pour l'extraction automatique de thèmes à partir de textes utilisent un corpus d'apprentissage ou une description générique des thèmes attendus sous forme de liste de mots clés. Ce type de méthode présente l'inconvénient de nécessiter un nouvel apprentissage ou l'introduction d'une nouvelle liste de mots clés, potentiellement à fournir par un expert, à chaque changement de contexte ou de domaine à traiter. On connaît également une méthode d'extraction de thèmes abordés dans un document contenant du texte décrite dans l'article « Document Topic Extraction based on Wikipedia Category » de Yun et al, publié en 2011, lors de la conférence «Fourth International Joint Conference on Sciences and Optimization ». La méthode décrite s'affranchit de la nécessité d'apprentissage ou de liste de mots clés préalable, en proposant l'extraction des thèmes d'un texte, sous forme d'un graphe représentatif du texte traité, chaque noeud du graphe, représentatif d'un thème abordé dans le texte, étant associé à une catégorie de la base de données Wikipédia ®, qui est une base de connaissances hiérarchisées à plusieurs niveaux de profondeur. Dans la méthode proposée dans cet article, les catégories extraites de la base de données comprennent la catégorie correspondant à un mot ou groupement de mots extrait du texte, ainsi que les catégories directement liées à cette catégorie, par une relation directe parent/enfant, afin de limiter la taille du graphe représentatif du texte traité et d'éviter l'introduction de catégories distantes apportant du bruit pour un traitement ultérieur. Cependant, il a été constaté par les inventeurs que la méthode proposée dans cet article de Yun et al fournit des résultats qui ne sont pas suffisamment pertinents.

L'invention a pour objectif de fournir une méthode d'extraction de thèmes à partir de texte sans apprentissage préalable, et améliorant la pertinence des thèmes extraits par rapport aux méthodes connues. A cet effet, l'invention propose, selon un premier aspect, un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le procédé comporte les étapes suivantes, mises en oeuvre par un processeur d'un dispositif de calcul : - extraction d'un ensemble de mots clés dudit au moins un texte, - obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, -simplification du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé. Avantageusement, le procédé de l'invention comporte l'extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, quelque soit le niveau de parenté avec la catégorie de la base de connaissances correspondant à un mot clé du texte, suivie d'une simplification basée sur la structure du graphe complet, sans aucune connaissance externe supplémentaire relative à la pertinence des catégories contenues dans les noeuds. Ainsi, cette méthode permet de retenir, automatiquement et sans connaissance externe supplémentaire, des catégories pertinentes de la base de connaissances, différentes des catégories qui sont directement parentes des catégories correspondant aux mots clés. Le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte peut également présenter une ou plusieurs des caractéristiques ci- dessous, prises indépendamment ou en combinaison : Il comporte en outre une étape d'affectation d'un score à chaque noeud du graphe à simplifier et lesdits scores sont pris en compte dans au moins un traitement de simplification. Dans l'étape d'affectation d'un score, le score affecté à chaque noeud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit noeud feuille dans ledit au moins un texte. Dans l'étape d'affectation d'un score, le score affecté à un noeud parent est dépendant des scores affectés aux noeuds feuilles descendants dudit noeud parent et d'une hauteur dudit noeud parent égale à une distance dudit noeud parent par rapport auxdits noeuds feuilles. Un traitement de simplification est une suppression de noeuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée. Un traitement de simplification comporte une suppression du lien entre un noeud parent du graphe à simplifier et un noeud descendant directement dudit noeud parent si ledit noeud parent a un score associé inférieur au score associé audit noeud descendant directement dudit noeud parent. Un traitement de simplification comporte une classification non supervisée permettant de regrouper des noeuds intermédiaires du graphe à simplifier, un noeud intermédiaire étant un noeud ayant au moins un noeud parent et au moins un noeud descendant direct. Un traitement de simplification est une suppression de tous les noeuds du graphe à simplifier ayant un seul noeud descendant direct. Un traitement de simplification comporte une suppression du lien entre un noeud parent et un noeud descendant direct si l'ensemble de noeuds feuilles descendants dudit noeud descendant direct est identique à l'ensemble des noeuds feuilles descendants dudit noeud parent, et un ajout d'un lien entre ledit noeud descendant direct et au moins un noeud parent dudit noeud parent. Un traitement de simplification comporte une suppression de noeuds parents du graphe à simplifier n'ayant plus aucun lien vers un noeud descendant direct.

Selon un deuxième aspect, l'invention concerne un dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques.

Le dispositif selon l'invention comporte: - un module d'extraction d'un ensemble de mots clés dudit au moins un texte, -un module d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, et -un module de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé. Le dispositif présente les mêmes avantages que le procédé selon l'invention brièvement décrit ci-dessus, et comporte des moyens de mise en oeuvre de l'ensemble des caractéristiques du procédé selon l'invention. Selon un troisième aspect, l'invention concerne un programme d'ordinateur comportant des instructions pour mettre en oeuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte tel que brièvement décrit ci-dessus lors de l'exécution du programme par un processeur d'un dispositif programmable. D'autres caractéristiques et avantages de l'invention ressortiront de la description qui en est donnée ci-dessous, à titre indicatif et nullement limitatif, en référence aux figures annexées, parmi lesquelles : -la figure 1 est un schéma représentant les blocs fonctionnels d'un dispositif programmable apte à mettre en oeuvre l'invention ; - la figure 2 est un schéma bloc des principaux modules permettant la mise en oeuvre de l'invention ; -la figure 3 est un exemple schématique de graphe hiérarchisé ; -la figure 4 est un organigramme représentant les principales étapes d'un procédé d'extraction automatique de thèmes d'un texte selon un mode de réalisation de l'invention ; -la figure 5 est un organigramme illustrant la simplification structurelle d'un graphe utilisant les scores associés aux noeuds du graphe selon un mode de réalisation, et -la figure 6 est un organigramme illustrant la simplification structurelle d'un graphe sans utilisation de scores selon un mode de réalisation.

La figure 1 illustre les principaux modules d'un dispositif apte à mettre en oeuvre le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'invention.

Un dispositif 10 apte à mettre en oeuvre l'invention, typiquement un dispositif programmable de type ordinateur, comprend un écran 12, un module 14 de saisie des commandes d'un utilisateur, par exemple un clavier, optionnellement un moyen supplémentaire de pointage 16, tel une souris, permettant de sélectionner des éléments graphiques affichés sur l'écran 12, une unité centrale de traitement 18, ou processeur, apte à exécuter des instructions de programme de commande lorsque le dispositif 10 est mis sous tension. Le dispositif 10 comporte également un module de stockage d'informations 20, apte à stocker des instructions de code exécutable permettant la mise en oeuvre de programmes d'ordinateur aptes à mettre en oeuvre le procédé selon l'invention. En outre, de manière optionnelle, le dispositif 10 comporte un module de communication 22, apte à assurer la communication du dispositif 10 avec des dispositifs serveurs connectés via un réseau de communication, par exemple Internet, selon un protocole de communication adapté. Les divers blocs fonctionnels du dispositif 10 décrits ci-dessus sont connectés via un bus de communication 24.

La figure 2 représente plus en détail des modules contenus dans le module de stockage d'informations 20 selon un mode de réalisation, permettant la mise en oeuvre d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte. Ainsi, dans un espace de mémorisation 26 sont stockés le ou les documents T contenant du texte à traiter. Par exemple, l'ensemble de documents T comporte une pluralité d'articles stockés sous formes de fichiers informatiques, dans un ou plusieurs format(s) donné(s), contenant du texte et des images. L'espace de mémorisation 28 comporte une base de connaissances B, qui est semi-structurée ou structurée en catégories liées entre elles par des liens hiérarchiques.

En variante, la base de connaissances B est stockée à l'extérieur du dispositif 10, sur un ou plusieurs serveurs du réseau de communication non représenté, et est accessible au moyen de requêtes/réponses échangées par l'intermédiaire du module de communication 22. Le module de stockage 20 d'un dispositif 10 apte à mettre en oeuvre l'invention comporte également un module 30 d'extraction de mots clés, apte à mettre en oeuvre une extraction de mots clés à partir des documents T à traiter. Les mots clés obtenus sont fournis à un module 32 d'obtention de graphe complet représentatif des documents T traités, obtenu, comme expliqué plus en détail ci-après en référence à la figure 4, par mise en oeuvre des mots clés extraits et extraction de l'arborescence complète des catégories liées à ces mots clés à partir de la base de connaissances B. Le graphe complet comporte des noeuds et un score est affecté à chaque noeud, le score étant calculé pour être représentatif de la pertinence de la catégorie associée au noeud en fonction de l'ensemble des documents T. Un module de simplification 34 applique au moins un traitement de simplification du graphe complet, basé sur la structure du graphe complet, et, selon un mode de réalisation, sur les scores associés aux noeuds, comme expliqué plus en détail ci-après en référence aux figures 5 et 6. Dans la suite, sans perte de généralité, l'invention est expliquée pour le traitement d'un document T comprenant du texte, appelé simplement texte T. La figure 3 illustre schématiquement un extrait d'un graphe 38 hiérarchisé ou directionnel représentatif d'un texte. Le graphe 38 est de type arborescent, et comporte un noeud racine 40, ayant une catégorie associée, qui est la catégorie la plus générique associée au texte, obtenue à partir de la base de connaissances B. Le noeud racine est un noeud qui n'a pas d'ascendants ou noeuds parents. Les noeuds intermédiaires 42, 44, 46 et 48 sont des noeuds ayant des ascendants et des descendants, et qui ont une catégorie extraite de la base de connaissances associée. Les noeuds intermédiaires et le(s) noeud(s) racine(s) sont des noeuds parents, ayant au moins un descendant dans le graphe. Les noeuds 50, 52, 54, 56 et 58, dits noeuds feuilles, sont associés directement à des mots clés extraits du texte traité. Les noeuds feuilles sont les noeuds qui n'ont pas de descendants. Par exemple, lorsque la base de connaissances utilisée est la base Wikipédia®, chaque noeud feuille a pour catégorie associée le titre de l'article obtenu directement par une requête sur la base de connaissances avec un mot clé d'un texte. Certains noeuds du graphe sont liés, définissant des relations de parenté de type parent-enfant dans le graphe. Ainsi, le noeud 40 a pour enfants directs les noeuds 42 et 44, et pour enfants indirects tous les autres noeuds 46-58 du graphe 38. Le noeud 48 a les noeuds 56 et 58 comme noeuds enfants, ou noeuds fils, et comme parent le noeud 42. Le graphe 38 a une structure hiérarchique arborescente, avec quatre niveaux de profondeur, les noeuds feuilles 54, 56 et 58 étant au niveau de profondeur le plus bas, appelé niveau zéro. Le noeud 46 et le noeud 48 sont au niveau de profondeur 1, et ainsi de suite. Les noeuds racines sont au niveau de profondeur le plus élevé. Il est très fréquent qu'il existe plusieurs chemins entre un noeud feuille et un de ses parents indirects. Par conséquent, les noeuds ont simultanément plusieurs hauteurs ou niveaux de profondeur associés. Comme déjà expliqué, chaque noeud du graphe 38 a également un score associé. Par exemple, les noeuds feuilles 54, 56 et 58 ont les scores respectifs Si, S2 et S3 associés, le noeud 46 a un score S4 associé, le noeud 48 un score S5 et le noeud 42 un score S6. Le score d'un noeud feuille dépend du nombre d'occurrences du mot clé associé dans le texte T traité. Les scores des noeuds parents sont calculés de proche en proche, à partir des scores associés aux noeuds enfants, directement ou indirectement liés, et de la distance du lien les unissant.

Dans un mode de réalisation, un graphe représentatif d'un texte T calculé par le procédé de l'invention est affiché sur une interface graphique pour exploitation par un utilisateur, et la taille de représentation des noeuds est variable et proportionnelle à leur score, de manière à permettre une évaluation immédiate de l'importance des noeuds et donc des thèmes abordés dans le texte, les thèmes étant définis par les catégories associées aux noeuds. La figure 4 illustre les principales étapes mises en oeuvre dans un procédé selon un mode de réalisation de l'invention, typiquement mises en oeuvre par le processeur 18 d'un dispositif 10. En entrée, le procédé reçoit un document comprenant du texte T à traiter, sous forme de document électronique, par exemple en format HTML, ou tout autre format de document électronique approprié, moyennant une extraction du texte au format texte brut. Lors d'une première étape 60, le texte est découpé en mots ou groupes de mots, en appliquant des techniques connues utilisant les espaces et les ponctuations. Des groupes de mots ayant plusieurs occurrences ou des particularités, par exemple une succession de mots commençant par des majuscules, comme « Etats-Unis », sont conservés. Ensuite, une étape de filtrage grammatical 62 est appliquée, permettant d'annoter les mots ou groupes de mots retenus en fonction de leur rôle grammatical dans une phrase et de ne conserver que les types les plus informatifs : verbes, noms, adjectifs.

A l'issue de l'étape 62, un ensemble de mots ou groupes de mots, appelé ensemble de mots clés 64 est obtenu. Cet ensemble est mémorisé dans un espace mémoire du dispositif 10, ainsi que, pour chaque mot clé le constituant, son nombre d'occurrences dans le texte T. Les mots/groupes de mots, appelés ci-après mots clés de l'ensemble 64, sont utilisés ensuite, un par un, comme argument d'une requête 66 sur la base de connaissances B utilisée. Par exemple, la base WikipédiaCt est utilisée. En variante, toute autre base de données comportant des connaissances structurées ou semi-structurées est utilisable. Pour chaque mot clé, l'étape de requête 66 avec le mot clé comme argument permet de trouver un article correspondant dans la base de connaissances B. L'ensemble des catégories parentes, liées à la ou aux catégories de l'article trouvé sont extraites de la base de connaissances à l'étape 68. L'extraction ne se limite pas aux catégories directement parentes, toutes les catégories parentes, quelque soit la profondeur du lien, sont extraites. Un graphe complet 70 pour le mot clé traité est ainsi obtenu et mémorisé. Les étapes 66 et 68 sont répétées pour chacun des mots clés de l'ensemble 64, et les graphes complets par mots clés sont fusionnés à l'étape 72 en un graphe complet Cc représentatif du texte T. En variante, les graphes extraits par mot clé sont fusionnés au fur et à mesure de leur extraction pour obtenir un graphe complet Gc lorsque l'ensemble des mots clés a été traité. A l'étape de fusion 72, une résolution de cycle est également appliquée, de manière à éliminer tous les cycles du graphe Cc. De préférence, le noeud de niveau le plus bas de l'arborescence est choisi comme représentant d'un groupe de noeuds appartenant à un cycle. S'il existe plusieurs noeuds au niveau le plus bas, un des noeuds est choisi sur un critère donné, par exemple celui dont le nom de catégorie est le plus court. Un noeud déconnecté après ré-affectation des liens pour pointer vers le noeud choisi comme représentant est supprimé.

En utilisant la base de connaissances Wikipédia0, il a été constaté pour un texte de 500 mots, un graphe complet Gc d'environ 8000 noeuds liés par l'intermédiaire de 20000 liens est obtenu. Il est clair qu'un tel graphe n'est pas exploitable par un être humain. Un traitement de simplification structurelle du graphe complet Gc est appliqué à l'étape 74 et permet d'obtenir un graphe représentatif des thèmes du texte T. La simplification structurelle du graphe comporte plusieurs traitements de simplification, qui peuvent être séparés en simplifications basées sur la structure du graphe uniquement d'une part et simplifications basées sur la structure du graphe et sur les scores associés aux noeuds d'autre part.

La figure 5 illustre un procédé de simplification basé sur la structure d'un graphe G à simplifier et sur des scores associés aux noeuds du graphe. Le graphe G à simplifier est soit le graphe complet Gc, soit un graphe G' déjà partiellement simplifié. Dans un premier temps, un score est affecté à chaque noeud du graphe G traité. L'affectation de score s'effectue en deux étapes. Lors d'une première étape 80, un score est affecté aux noeuds feuilles du graphe G, en fonction du nombre d'occurrences des mots clés correspondants dans le texte T.

Dans un mode de réalisation, le score associé à un noeud feuille est égal au nombre d'occurrences du mot clé associé dans le texte. Dans un mode de réalisation alternatif, le nombre d'occurrences est pondéré par un coefficient c, qui prend une valeur donnée, par exemple c=1, lorsque le titre d'article de la base de connaissances B est identique au mot clé pour un noeud feuille et une valeur inférieure lorsqu'il y a une différence entre le mot clé du texte et l'intitulé de l'article trouvé dans la base de connaissances B. Dans le cas où la base de connaissance contient des catégories spéciales, on peut également utiliser cette information pour modifier la pondération. Dans le cas de Wikipedia0, on peut utiliser les pages « portails ».

Ensuite, un score est affecté, de proche en proche, à chaque noeud parent du graphe G, à l'étape 82. Le calcul du score d'un noeud parent prend en compte les scores des noeuds-feuilles enfants du noeud parent, directs ou indirects, pondéré par une distance dans le graphe G par rapports aux noeuds-enfants. Les scores obtenus pour les noeuds parents sont des scores normalisés par rapport au niveau de profondeur des noeuds dans le graphe, afin d'éviter une sur-évaluation du score des noeuds de bas niveau, qui représentent des catégories conceptuelles larges. Pour cela on affecte également un score aux arcs reliant les noeuds, le score d'un noeud étant la somme des scores des arcs entrants, éventuellement divisé par le nombre d'arcs entrants. Prenons l'exemple de la figure 3 avec S1=1, S2=3 et S3=2. Notons L14 le lien entre les noeuds 54, de score Si, et 56, de score S2, L25 le lien entre les noeuds 56 et 48 comme montré sur la figure 3. Prenons comme facteur de décroissance la fonction h qui associe une valeur à une hauteur telle que : - à la hauteur 1, h associe 1 ; - à la hauteur 2, h associe 1/2; - aux hauteurs supérieures à 2, h associe O. Alors le score du lien L14, noté s(L14), est s(Li4)=S1*h(1)=1*1=1. Le score du lien L25 est s(L25)=S2*h(1)=3*1=3. Le score du lien L35 est s(L35)=S3*h(1)=2*1=2. Les scores des noeuds non feuilles étant la somme des scores des arcs entrants, on a S4= s(L14)=1, S5= s(L25)+s(L35)=5. Le score du lien L46 vaut quand à lui s(L46)=S1*h(2)=11/2=1/2 . En outre on a s(L56)=S2*h(2)+ S3*h(2)= 31/2+21/2=5/2. Le score S6 est S6= s(L46)+s(L56)=3. Enfin le score de L67 vaut s(L67) = s(S1)*h(3)+ s(S2)*h(3)+ s(S3)*h(3)=0 car h(3)=0. Empiriquement, on constate que la fonction h qui à n associe 1/n pour n compris entre 0 et 5, et associe 0 à n supérieur à 5 donne les meilleurs résultats pour la base de connaissance Wikipedia®. On remarque que chaque chemin liant une feuille de l'arbre à un noeud apporte une contribution au score du noeud. Néanmoins, avec la fonction h nulle à partir d'un rang R faible, par exemple R=5 et plus généralement R inférieur à 10, seuls les chemins de longueurs au plus R contribuent au score du noeud. Une approche de type « branch & bound », connue dans le domaine d'optimisation combinatoire, évite donc la combinatoire induite par le nombre de chemins possibles.

Ainsi, tous les noeuds du graphe ont un score associé à l'issue de l'étape 82. Suite à ces étapes, une ou plusieurs des étapes suivantes de simplification du graphe G en utilisant les scores associés aux noeuds sont mises en oeuvre. Une suppression des noeuds parents de faible score est appliquée à l'étape 86. Dans un mode de réalisation, un score seuil S est fixé, et les noeuds parents dont le score est inférieur à S sont supprimés. Dans un mode de réalisation alternatif, lorsqu'un noeud parent a un score inférieur au score d'un de ses fils, le lien entre ce noeud parent et ce noeud fils est supprimé. Lors de la suppression d'un noeud intermédiaire, les noeuds enfants sont liés aux noeuds grands-parents. Par exemple, dans l'exemple de la figure 3, si le noeud 46 est supprimé, le noeud 54 est lié au noeud 42, parent du noeud 46. Dans un mode de réalisation alternatif, une simplification supplémentaire par troncation est mise en oeuvre à l'étape 90 : il s'agit de la suppression des noeuds dont la distance minimale par rapport aux noeuds feuilles est supérieure à un seuil donné. Afin de réduire le nombre de parents des noeuds du graphe en cours de simplification, une étape 92 applique une classification non supervisée, permettant de regrouper des catégories associées à des noeuds intermédiaires du graphe. De préférence, un algorithme de classification connu sous le nom de « mean shift classification » est appliqué. Pour appliquer cet algorithme, l'ensemble des catégories associées aux noeuds parents du graphe est ordonné de manière arbitraire, et un indice i est associé à chaque catégorie. Ainsi, si le graphe contient N catégories, les noeuds feuilles peuvent être représentés dans un espace à N dimensions. Un vecteur Vf à N dimensions est associé à chaque noeud feuille Nf, un 1 à la position j dans le vecteur Vf indiquant que le noeud associé à la catégorie Ci est parent du noeud Nf, un 0 indiquant que ce noeud n'est pas parent. L'algorithme de classification utilise une distance, par exemple la distance de Manhattan, pour les calculs. Alternativement, d'autres distances connues pour la classification non supervisée sont utilisées. Par exemple, on peut utiliser comme distance entre deux vecteurs la distance suivante : d(V1,V2) =1- 2 * nb 12 nbi+ nb2 Avec nk2 le nombre de dimensions sur lesquelles V1 et V2 ont une coordonnée égale à 1, nbi le nombre de dimensions sur lesquelles V1 a une coordonnée non nulle, et, nb2 le nombre de dimensions sur lesquelles V2 a une coordonnée non nulle. Les hauteurs associées aux noeuds peuvent également être utilisés dans la classification en prenant par exemple la distance suivante: d(V1,V2) =1-2* nb12 nb,+ nb2 Avec nb; = I -1, E = , et H1 les hauteurs des hiEHlhi hiE H2 hi 111E1112 hi catégories sur lesquelles V1 a une coordonnée non nulle, H2 les hauteurs des catégories sur lesquelles V2 a une coordonnée non nulle, H12 les hauteurs des catégories sur lesquelles V1 ou V2 a une coordonnée non nulle. Avec cette distance, l'algorithme de classification va donner moins d'importance aux axes qui correspondent à des catégories plus hautes dans l'arbre, c'est-à-dire plus générales, plus abstraites et ayant tendance à regrouper indirectement un grand nombre de noeuds feuilles.

En complément, avant ou après les étapes de simplification structurelle fonction des scores associés aux noeuds décrite ci-dessus, des traitements de simplification structurelle sont appliqués, soit directement au graphe complet Gc, soit au graphe obtenu après divers traitements de simplification comme expliqué ci-dessus en référence à la figure 5.

La figure 6 illustre un procédé de simplification structurelle mis en oeuvre par le processeur 18 d'un dispositif 10. Lors d'une première étape 100 de simplification structurelle, les noeuds parents qui n'ont qu'un seul noeud enfant, dit noeuds parents simples, sont supprimés. Ensuite, une étape de simplification 102 par support est appliquée, le support d'un noeud parent étant défini comme tous les noeuds feuilles, qui sont des enfants directs ou indirects de ce noeud parent. Si un noeud parent a un même support qu'un de ses noeuds enfants, alors ce noeud enfant est directement lié au(x) noeud(s) parent(s) du noeud parent, c'est-à-dire le noeud parent est court-circuité. Enfin, lors d'une étape 104, les noeuds parents qui n'ont plus de noeuds enfants sont supprimés. En effet, les divers traitements de simplification successifs, en particulier les modifications de liens, rendent certains noeuds sans noeud enfant. Ces noeuds sont supprimés itérativement.

Avantageusement, le procédé de l'invention permet une extraction automatique de thèmes à partir d'un ou plusieurs textes, permettant d'obtenir un graphe représentatif hiérarchisé de catégories de thèmes pertinents. Cette extraction automatique emploie une base de connaissances hiérarchisée. Ce procédé permet de traiter automatiquement des larges ensembles de textes, sans nécessité d'intervention d'un expert.

Claims

REVENDICATIONS1.- Procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques, caractérisé en ce qu'il comporte les étapes suivantes, mises en oeuvre par un processeur d'un dispositif de calcul : - extraction (60,62) d'un ensemble de mots clés dudit au moins un texte, - obtention (66, 68, 72) d'un graphe complet hiérarchisé (Gc) représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé (Gc) comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, -simplification (74) du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé (Gc), soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
2.- Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape d'affectation (80, 82) d'un score à chaque noeud du graphe à simplifier et en ce que lesdits scores sont pris en compte dans au moins un traitement de simplification.
3.- Procédé selon la revendication 2, caractérisé en ce que, dans l'étape d'affectation (80) d'un score, le score affecté à chaque noeud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit noeud feuille dans ledit au moins un texte.
4.- Procédé selon la revendication 3, caractérisé en ce que dans l'étape d'affectation (82) d'un score, le score affecté à un noeud parent est dépendant des scores affectés aux noeuds feuilles descendants dudit noeud parent et d'une hauteur dudit noeud parent égale à une distance dudit noeud parent par rapport auxdits noeuds feuilles.
5.- Procédé selon l'une des revendications 2 à 4, caractérisé en ce qu'un dit traitement de simplification est une suppression (86) de noeuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée.
6.- Procédé selon l'une des revendications 2 à 5, caractérisé en ce qu'un dit traitement de simplification comporte une suppression du lien entre un noeud parent du graphe à simplifier et un noeud descendant directement dudit noeud parent si ledit noeud parent a un score associé inférieur au score associé audit noeud descendant directement dudit noeud parent.
7.- Procédé selon l'une des revendications 2 à 6, caractérisé en ce qu'un dit traitement de simplification comporte une classification non supervisée permettant de regrouper des noeuds intermédiaires du graphe à simplifier, un noeud intermédiaire étant un noeud ayant au moins un noeud parent et au moins un noeud descendant direct.
8.- Procédé selon l'une des revendications 1 à 7, caractérisé en ce qu'un dit traitement de simplification est une suppression (100) de tous les noeuds du graphe à simplifier ayant un seul noeud descendant direct.
9.- Procédé selon l'une des revendications 1 à 8, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (102) du lien entre un noeud parent et un noeud descendant direct si l'ensemble de noeuds feuilles descendants dudit noeud descendant direct est identique à l'ensemble des noeuds feuilles descendants dudit noeud parent, et un ajout d'un lien entre ledit noeud descendant direct et au moins un noeud parent dudit noeud parent.
10.- Procédé selon la revendication 9, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (104) de noeuds parents du graphe à simplifier n'ayant plus aucun lien vers un noeud descendant direct.
11. - Dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques,caractérisé en ce qu'il comporte: - un module (30) d'extraction d'un ensemble de mots clés dudit au moins un texte, -un module (32) d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, et -un module (34) de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
12. Programme d'ordinateur comportant des instructions pour mettre en oeuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'une des revendications 1 à 10 lors de l'exécution du programme par un processeur d'un dispositif programmable.