FR3004828A1 - Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte - Google Patents

Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte Download PDF

Info

Publication number
FR3004828A1
FR3004828A1 FR1300948A FR1300948A FR3004828A1 FR 3004828 A1 FR3004828 A1 FR 3004828A1 FR 1300948 A FR1300948 A FR 1300948A FR 1300948 A FR1300948 A FR 1300948A FR 3004828 A1 FR3004828 A1 FR 3004828A1
Authority
FR
France
Prior art keywords
graph
node
hierarchical
nodes
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1300948A
Other languages
English (en)
Inventor
Bertrand Duqueroie
Benedicte Goujon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Priority to FR1300948A priority Critical patent/FR3004828A1/fr
Priority to PCT/EP2014/058110 priority patent/WO2014173882A1/fr
Publication of FR3004828A1 publication Critical patent/FR3004828A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un nœud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le procédé comporte une extraction (60,62) d'un ensemble de mots clés dudit au moins un texte, suivi de l'obtention (66, 68, 72) d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des nœuds sans descendant dits nœuds feuilles, lesdits nœuds feuilles correspondant auxdits mots clés. Ensuite, une simplification (74) du graphe complet est appliquée, comprenant un traitement de simplification basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.

Description

Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte La présente invention concerne un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte et un dispositif associé.
L'invention se situe dans le domaine du traitement automatique des connaissances et de l'extraction automatique d'informations à partir de documents contenant du texte, et trouve des applications notamment dans les systèmes d'aide à la décision multicritères et dans les systèmes de classification automatique de textes. De nos jours, une très grande quantité d'informations est disponible sous forme de documents électroniques de divers types, en particulier des documents contenant du texte. Il apparaît très difficile pour un être humain d'analyser, catégoriser et extraire des connaissances à partir d'un large corpus de textes. A cet effet, des méthodes d'extraction automatiques d'informations à partir d'un ou plusieurs documents électroniques contenant 'du texte ont été proposées.
La plupart des méthodes connues pour l'extraction automatique de thèmes à partir de textes utilisent un corpus d'apprentissage ou une description générique des thèmes attendus sous forme de liste de mots clés. Ce type de méthode présente l'inconvénient de nécessiter un nouvel apprentissage ou l'introduction d'une nouvelle liste de mots clés, potentiellement à fournir par un expert, à chaque changement de contexte ou de domaine à traiter. On connaît également une méthode d'extraction de thèmes abordés dans un document contenant du texte décrite dans l'article « Document Topic Extraction based on Wikipedia Category » de Yun et al, publié en 2011, lors de la conférence «Fourth International Joint Conference on Sciences and Optimization ». La méthode décrite s'affranchit de la nécessité d'apprentissage ou de liste de mots clés préalable, en proposant l'extraction des thèmes d'un texte, sous forme d'un graphe représentatif du texte traité, chaque noeud du graphe, représentatif d'un thème abordé dans le texte, étant associé à une catégorie de la base de données Wikipédia ®, qui est une base de connaissances hiérarchisées à plusieurs niveaux de profondeur. Dans la méthode proposée dans cet article, les catégories extraites de la base de données comprennent la catégorie correspondant à un mot ou groupement de mots extrait du texte, ainsi que les catégories directement liées à cette catégorie, par une relation directe parent/enfant, afin de limiter la taille du graphe représentatif du texte traité et d'éviter l'introduction de catégories distantes apportant du bruit pour un traitement ultérieur. Cependant, il a été constaté par les inventeurs que la méthode proposée dans cet article de Yun et al fournit des résultats qui ne sont pas suffisamment pertinents.
L'invention a pour objectif de fournir une méthode d'extraction de thèmes à partir de texte sans apprentissage préalable, et améliorant la pertinence des thèmes extraits par rapport aux méthodes connues. A cet effet, l'invention propose, selon un premier aspect, un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques. Le procédé comporte les étapes suivantes, mises en oeuvre par un processeur d'un dispositif de calcul : - extraction d'un ensemble de mots clés dudit au moins un texte, - obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, -simplification du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé. Avantageusement, le procédé de l'invention comporte l'extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, quelque soit le niveau de parenté avec la catégorie de la base de connaissances correspondant à un mot clé du texte, suivie d'une simplification basée sur la structure du graphe complet, sans aucune connaissance externe supplémentaire relative à la pertinence des catégories contenues dans les noeuds. Ainsi, cette méthode permet de retenir, automatiquement et sans connaissance externe supplémentaire, des catégories pertinentes de la base de connaissances, différentes des catégories qui sont directement parentes des catégories correspondant aux mots clés. Le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte peut également présenter une ou plusieurs des caractéristiques ci- dessous, prises indépendamment ou en combinaison : Il comporte en outre une étape d'affectation d'un score à chaque noeud du graphe à simplifier et lesdits scores sont pris en compte dans au moins un traitement de simplification. Dans l'étape d'affectation d'un score, le score affecté à chaque noeud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit noeud feuille dans ledit au moins un texte. Dans l'étape d'affectation d'un score, le score affecté à un noeud parent est dépendant des scores affectés aux noeuds feuilles descendants dudit noeud parent et d'une hauteur dudit noeud parent égale à une distance dudit noeud parent par rapport auxdits noeuds feuilles. Un traitement de simplification est une suppression de noeuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée. Un traitement de simplification comporte une suppression du lien entre un noeud parent du graphe à simplifier et un noeud descendant directement dudit noeud parent si ledit noeud parent a un score associé inférieur au score associé audit noeud descendant directement dudit noeud parent. Un traitement de simplification comporte une classification non supervisée permettant de regrouper des noeuds intermédiaires du graphe à simplifier, un noeud intermédiaire étant un noeud ayant au moins un noeud parent et au moins un noeud descendant direct. Un traitement de simplification est une suppression de tous les noeuds du graphe à simplifier ayant un seul noeud descendant direct. Un traitement de simplification comporte une suppression du lien entre un noeud parent et un noeud descendant direct si l'ensemble de noeuds feuilles descendants dudit noeud descendant direct est identique à l'ensemble des noeuds feuilles descendants dudit noeud parent, et un ajout d'un lien entre ledit noeud descendant direct et au moins un noeud parent dudit noeud parent. Un traitement de simplification comporte une suppression de noeuds parents du graphe à simplifier n'ayant plus aucun lien vers un noeud descendant direct.
Selon un deuxième aspect, l'invention concerne un dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques.
Le dispositif selon l'invention comporte: - un module d'extraction d'un ensemble de mots clés dudit au moins un texte, -un module d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, et -un module de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé. Le dispositif présente les mêmes avantages que le procédé selon l'invention brièvement décrit ci-dessus, et comporte des moyens de mise en oeuvre de l'ensemble des caractéristiques du procédé selon l'invention. Selon un troisième aspect, l'invention concerne un programme d'ordinateur comportant des instructions pour mettre en oeuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte tel que brièvement décrit ci-dessus lors de l'exécution du programme par un processeur d'un dispositif programmable. D'autres caractéristiques et avantages de l'invention ressortiront de la description qui en est donnée ci-dessous, à titre indicatif et nullement limitatif, en référence aux figures annexées, parmi lesquelles : -la figure 1 est un schéma représentant les blocs fonctionnels d'un dispositif programmable apte à mettre en oeuvre l'invention ; - la figure 2 est un schéma bloc des principaux modules permettant la mise en oeuvre de l'invention ; -la figure 3 est un exemple schématique de graphe hiérarchisé ; -la figure 4 est un organigramme représentant les principales étapes d'un procédé d'extraction automatique de thèmes d'un texte selon un mode de réalisation de l'invention ; -la figure 5 est un organigramme illustrant la simplification structurelle d'un graphe utilisant les scores associés aux noeuds du graphe selon un mode de réalisation, et -la figure 6 est un organigramme illustrant la simplification structurelle d'un graphe sans utilisation de scores selon un mode de réalisation.
La figure 1 illustre les principaux modules d'un dispositif apte à mettre en oeuvre le procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'invention.
Un dispositif 10 apte à mettre en oeuvre l'invention, typiquement un dispositif programmable de type ordinateur, comprend un écran 12, un module 14 de saisie des commandes d'un utilisateur, par exemple un clavier, optionnellement un moyen supplémentaire de pointage 16, tel une souris, permettant de sélectionner des éléments graphiques affichés sur l'écran 12, une unité centrale de traitement 18, ou processeur, apte à exécuter des instructions de programme de commande lorsque le dispositif 10 est mis sous tension. Le dispositif 10 comporte également un module de stockage d'informations 20, apte à stocker des instructions de code exécutable permettant la mise en oeuvre de programmes d'ordinateur aptes à mettre en oeuvre le procédé selon l'invention. En outre, de manière optionnelle, le dispositif 10 comporte un module de communication 22, apte à assurer la communication du dispositif 10 avec des dispositifs serveurs connectés via un réseau de communication, par exemple Internet, selon un protocole de communication adapté. Les divers blocs fonctionnels du dispositif 10 décrits ci-dessus sont connectés via un bus de communication 24.
La figure 2 représente plus en détail des modules contenus dans le module de stockage d'informations 20 selon un mode de réalisation, permettant la mise en oeuvre d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte. Ainsi, dans un espace de mémorisation 26 sont stockés le ou les documents T contenant du texte à traiter. Par exemple, l'ensemble de documents T comporte une pluralité d'articles stockés sous formes de fichiers informatiques, dans un ou plusieurs format(s) donné(s), contenant du texte et des images. L'espace de mémorisation 28 comporte une base de connaissances B, qui est semi-structurée ou structurée en catégories liées entre elles par des liens hiérarchiques.
En variante, la base de connaissances B est stockée à l'extérieur du dispositif 10, sur un ou plusieurs serveurs du réseau de communication non représenté, et est accessible au moyen de requêtes/réponses échangées par l'intermédiaire du module de communication 22. Le module de stockage 20 d'un dispositif 10 apte à mettre en oeuvre l'invention comporte également un module 30 d'extraction de mots clés, apte à mettre en oeuvre une extraction de mots clés à partir des documents T à traiter. Les mots clés obtenus sont fournis à un module 32 d'obtention de graphe complet représentatif des documents T traités, obtenu, comme expliqué plus en détail ci-après en référence à la figure 4, par mise en oeuvre des mots clés extraits et extraction de l'arborescence complète des catégories liées à ces mots clés à partir de la base de connaissances B. Le graphe complet comporte des noeuds et un score est affecté à chaque noeud, le score étant calculé pour être représentatif de la pertinence de la catégorie associée au noeud en fonction de l'ensemble des documents T. Un module de simplification 34 applique au moins un traitement de simplification du graphe complet, basé sur la structure du graphe complet, et, selon un mode de réalisation, sur les scores associés aux noeuds, comme expliqué plus en détail ci-après en référence aux figures 5 et 6. Dans la suite, sans perte de généralité, l'invention est expliquée pour le traitement d'un document T comprenant du texte, appelé simplement texte T. La figure 3 illustre schématiquement un extrait d'un graphe 38 hiérarchisé ou directionnel représentatif d'un texte. Le graphe 38 est de type arborescent, et comporte un noeud racine 40, ayant une catégorie associée, qui est la catégorie la plus générique associée au texte, obtenue à partir de la base de connaissances B. Le noeud racine est un noeud qui n'a pas d'ascendants ou noeuds parents. Les noeuds intermédiaires 42, 44, 46 et 48 sont des noeuds ayant des ascendants et des descendants, et qui ont une catégorie extraite de la base de connaissances associée. Les noeuds intermédiaires et le(s) noeud(s) racine(s) sont des noeuds parents, ayant au moins un descendant dans le graphe. Les noeuds 50, 52, 54, 56 et 58, dits noeuds feuilles, sont associés directement à des mots clés extraits du texte traité. Les noeuds feuilles sont les noeuds qui n'ont pas de descendants. Par exemple, lorsque la base de connaissances utilisée est la base Wikipédia®, chaque noeud feuille a pour catégorie associée le titre de l'article obtenu directement par une requête sur la base de connaissances avec un mot clé d'un texte. Certains noeuds du graphe sont liés, définissant des relations de parenté de type parent-enfant dans le graphe. Ainsi, le noeud 40 a pour enfants directs les noeuds 42 et 44, et pour enfants indirects tous les autres noeuds 46-58 du graphe 38. Le noeud 48 a les noeuds 56 et 58 comme noeuds enfants, ou noeuds fils, et comme parent le noeud 42. Le graphe 38 a une structure hiérarchique arborescente, avec quatre niveaux de profondeur, les noeuds feuilles 54, 56 et 58 étant au niveau de profondeur le plus bas, appelé niveau zéro. Le noeud 46 et le noeud 48 sont au niveau de profondeur 1, et ainsi de suite. Les noeuds racines sont au niveau de profondeur le plus élevé. Il est très fréquent qu'il existe plusieurs chemins entre un noeud feuille et un de ses parents indirects. Par conséquent, les noeuds ont simultanément plusieurs hauteurs ou niveaux de profondeur associés. Comme déjà expliqué, chaque noeud du graphe 38 a également un score associé. Par exemple, les noeuds feuilles 54, 56 et 58 ont les scores respectifs Si, S2 et S3 associés, le noeud 46 a un score S4 associé, le noeud 48 un score S5 et le noeud 42 un score S6. Le score d'un noeud feuille dépend du nombre d'occurrences du mot clé associé dans le texte T traité. Les scores des noeuds parents sont calculés de proche en proche, à partir des scores associés aux noeuds enfants, directement ou indirectement liés, et de la distance du lien les unissant.
Dans un mode de réalisation, un graphe représentatif d'un texte T calculé par le procédé de l'invention est affiché sur une interface graphique pour exploitation par un utilisateur, et la taille de représentation des noeuds est variable et proportionnelle à leur score, de manière à permettre une évaluation immédiate de l'importance des noeuds et donc des thèmes abordés dans le texte, les thèmes étant définis par les catégories associées aux noeuds. La figure 4 illustre les principales étapes mises en oeuvre dans un procédé selon un mode de réalisation de l'invention, typiquement mises en oeuvre par le processeur 18 d'un dispositif 10. En entrée, le procédé reçoit un document comprenant du texte T à traiter, sous forme de document électronique, par exemple en format HTML, ou tout autre format de document électronique approprié, moyennant une extraction du texte au format texte brut. Lors d'une première étape 60, le texte est découpé en mots ou groupes de mots, en appliquant des techniques connues utilisant les espaces et les ponctuations. Des groupes de mots ayant plusieurs occurrences ou des particularités, par exemple une succession de mots commençant par des majuscules, comme « Etats-Unis », sont conservés. Ensuite, une étape de filtrage grammatical 62 est appliquée, permettant d'annoter les mots ou groupes de mots retenus en fonction de leur rôle grammatical dans une phrase et de ne conserver que les types les plus informatifs : verbes, noms, adjectifs.
A l'issue de l'étape 62, un ensemble de mots ou groupes de mots, appelé ensemble de mots clés 64 est obtenu. Cet ensemble est mémorisé dans un espace mémoire du dispositif 10, ainsi que, pour chaque mot clé le constituant, son nombre d'occurrences dans le texte T. Les mots/groupes de mots, appelés ci-après mots clés de l'ensemble 64, sont utilisés ensuite, un par un, comme argument d'une requête 66 sur la base de connaissances B utilisée. Par exemple, la base WikipédiaCt est utilisée. En variante, toute autre base de données comportant des connaissances structurées ou semi-structurées est utilisable. Pour chaque mot clé, l'étape de requête 66 avec le mot clé comme argument permet de trouver un article correspondant dans la base de connaissances B. L'ensemble des catégories parentes, liées à la ou aux catégories de l'article trouvé sont extraites de la base de connaissances à l'étape 68. L'extraction ne se limite pas aux catégories directement parentes, toutes les catégories parentes, quelque soit la profondeur du lien, sont extraites. Un graphe complet 70 pour le mot clé traité est ainsi obtenu et mémorisé. Les étapes 66 et 68 sont répétées pour chacun des mots clés de l'ensemble 64, et les graphes complets par mots clés sont fusionnés à l'étape 72 en un graphe complet Cc représentatif du texte T. En variante, les graphes extraits par mot clé sont fusionnés au fur et à mesure de leur extraction pour obtenir un graphe complet Gc lorsque l'ensemble des mots clés a été traité. A l'étape de fusion 72, une résolution de cycle est également appliquée, de manière à éliminer tous les cycles du graphe Cc. De préférence, le noeud de niveau le plus bas de l'arborescence est choisi comme représentant d'un groupe de noeuds appartenant à un cycle. S'il existe plusieurs noeuds au niveau le plus bas, un des noeuds est choisi sur un critère donné, par exemple celui dont le nom de catégorie est le plus court. Un noeud déconnecté après ré-affectation des liens pour pointer vers le noeud choisi comme représentant est supprimé.
En utilisant la base de connaissances Wikipédia0, il a été constaté pour un texte de 500 mots, un graphe complet Gc d'environ 8000 noeuds liés par l'intermédiaire de 20000 liens est obtenu. Il est clair qu'un tel graphe n'est pas exploitable par un être humain. Un traitement de simplification structurelle du graphe complet Gc est appliqué à l'étape 74 et permet d'obtenir un graphe représentatif des thèmes du texte T. La simplification structurelle du graphe comporte plusieurs traitements de simplification, qui peuvent être séparés en simplifications basées sur la structure du graphe uniquement d'une part et simplifications basées sur la structure du graphe et sur les scores associés aux noeuds d'autre part.
La figure 5 illustre un procédé de simplification basé sur la structure d'un graphe G à simplifier et sur des scores associés aux noeuds du graphe. Le graphe G à simplifier est soit le graphe complet Gc, soit un graphe G' déjà partiellement simplifié. Dans un premier temps, un score est affecté à chaque noeud du graphe G traité. L'affectation de score s'effectue en deux étapes. Lors d'une première étape 80, un score est affecté aux noeuds feuilles du graphe G, en fonction du nombre d'occurrences des mots clés correspondants dans le texte T.
Dans un mode de réalisation, le score associé à un noeud feuille est égal au nombre d'occurrences du mot clé associé dans le texte. Dans un mode de réalisation alternatif, le nombre d'occurrences est pondéré par un coefficient c, qui prend une valeur donnée, par exemple c=1, lorsque le titre d'article de la base de connaissances B est identique au mot clé pour un noeud feuille et une valeur inférieure lorsqu'il y a une différence entre le mot clé du texte et l'intitulé de l'article trouvé dans la base de connaissances B. Dans le cas où la base de connaissance contient des catégories spéciales, on peut également utiliser cette information pour modifier la pondération. Dans le cas de Wikipedia0, on peut utiliser les pages « portails ».
Ensuite, un score est affecté, de proche en proche, à chaque noeud parent du graphe G, à l'étape 82. Le calcul du score d'un noeud parent prend en compte les scores des noeuds-feuilles enfants du noeud parent, directs ou indirects, pondéré par une distance dans le graphe G par rapports aux noeuds-enfants. Les scores obtenus pour les noeuds parents sont des scores normalisés par rapport au niveau de profondeur des noeuds dans le graphe, afin d'éviter une sur-évaluation du score des noeuds de bas niveau, qui représentent des catégories conceptuelles larges. Pour cela on affecte également un score aux arcs reliant les noeuds, le score d'un noeud étant la somme des scores des arcs entrants, éventuellement divisé par le nombre d'arcs entrants. Prenons l'exemple de la figure 3 avec S1=1, S2=3 et S3=2. Notons L14 le lien entre les noeuds 54, de score Si, et 56, de score S2, L25 le lien entre les noeuds 56 et 48 comme montré sur la figure 3. Prenons comme facteur de décroissance la fonction h qui associe une valeur à une hauteur telle que : - à la hauteur 1, h associe 1 ; - à la hauteur 2, h associe 1/2; - aux hauteurs supérieures à 2, h associe O. Alors le score du lien L14, noté s(L14), est s(Li4)=S1*h(1)=1*1=1. Le score du lien L25 est s(L25)=S2*h(1)=3*1=3. Le score du lien L35 est s(L35)=S3*h(1)=2*1=2. Les scores des noeuds non feuilles étant la somme des scores des arcs entrants, on a S4= s(L14)=1, S5= s(L25)+s(L35)=5. Le score du lien L46 vaut quand à lui s(L46)=S1*h(2)=11/2=1/2 . En outre on a s(L56)=S2*h(2)+ S3*h(2)= 31/2+21/2=5/2. Le score S6 est S6= s(L46)+s(L56)=3. Enfin le score de L67 vaut s(L67) = s(S1)*h(3)+ s(S2)*h(3)+ s(S3)*h(3)=0 car h(3)=0. Empiriquement, on constate que la fonction h qui à n associe 1/n pour n compris entre 0 et 5, et associe 0 à n supérieur à 5 donne les meilleurs résultats pour la base de connaissance Wikipedia®. On remarque que chaque chemin liant une feuille de l'arbre à un noeud apporte une contribution au score du noeud. Néanmoins, avec la fonction h nulle à partir d'un rang R faible, par exemple R=5 et plus généralement R inférieur à 10, seuls les chemins de longueurs au plus R contribuent au score du noeud. Une approche de type « branch & bound », connue dans le domaine d'optimisation combinatoire, évite donc la combinatoire induite par le nombre de chemins possibles.
Ainsi, tous les noeuds du graphe ont un score associé à l'issue de l'étape 82. Suite à ces étapes, une ou plusieurs des étapes suivantes de simplification du graphe G en utilisant les scores associés aux noeuds sont mises en oeuvre. Une suppression des noeuds parents de faible score est appliquée à l'étape 86. Dans un mode de réalisation, un score seuil S est fixé, et les noeuds parents dont le score est inférieur à S sont supprimés. Dans un mode de réalisation alternatif, lorsqu'un noeud parent a un score inférieur au score d'un de ses fils, le lien entre ce noeud parent et ce noeud fils est supprimé. Lors de la suppression d'un noeud intermédiaire, les noeuds enfants sont liés aux noeuds grands-parents. Par exemple, dans l'exemple de la figure 3, si le noeud 46 est supprimé, le noeud 54 est lié au noeud 42, parent du noeud 46. Dans un mode de réalisation alternatif, une simplification supplémentaire par troncation est mise en oeuvre à l'étape 90 : il s'agit de la suppression des noeuds dont la distance minimale par rapport aux noeuds feuilles est supérieure à un seuil donné. Afin de réduire le nombre de parents des noeuds du graphe en cours de simplification, une étape 92 applique une classification non supervisée, permettant de regrouper des catégories associées à des noeuds intermédiaires du graphe. De préférence, un algorithme de classification connu sous le nom de « mean shift classification » est appliqué. Pour appliquer cet algorithme, l'ensemble des catégories associées aux noeuds parents du graphe est ordonné de manière arbitraire, et un indice i est associé à chaque catégorie. Ainsi, si le graphe contient N catégories, les noeuds feuilles peuvent être représentés dans un espace à N dimensions. Un vecteur Vf à N dimensions est associé à chaque noeud feuille Nf, un 1 à la position j dans le vecteur Vf indiquant que le noeud associé à la catégorie Ci est parent du noeud Nf, un 0 indiquant que ce noeud n'est pas parent. L'algorithme de classification utilise une distance, par exemple la distance de Manhattan, pour les calculs. Alternativement, d'autres distances connues pour la classification non supervisée sont utilisées. Par exemple, on peut utiliser comme distance entre deux vecteurs la distance suivante : d(V1,V2) =1- 2 * nb 12 nbi+ nb2 Avec nk2 le nombre de dimensions sur lesquelles V1 et V2 ont une coordonnée égale à 1, nbi le nombre de dimensions sur lesquelles V1 a une coordonnée non nulle, et, nb2 le nombre de dimensions sur lesquelles V2 a une coordonnée non nulle. Les hauteurs associées aux noeuds peuvent également être utilisés dans la classification en prenant par exemple la distance suivante: d(V1,V2) =1-2* nb12 nb,+ nb2 Avec nb; = I -1, E = , et H1 les hauteurs des hiEHlhi hiE H2 hi 111E1112 hi catégories sur lesquelles V1 a une coordonnée non nulle, H2 les hauteurs des catégories sur lesquelles V2 a une coordonnée non nulle, H12 les hauteurs des catégories sur lesquelles V1 ou V2 a une coordonnée non nulle. Avec cette distance, l'algorithme de classification va donner moins d'importance aux axes qui correspondent à des catégories plus hautes dans l'arbre, c'est-à-dire plus générales, plus abstraites et ayant tendance à regrouper indirectement un grand nombre de noeuds feuilles.
En complément, avant ou après les étapes de simplification structurelle fonction des scores associés aux noeuds décrite ci-dessus, des traitements de simplification structurelle sont appliqués, soit directement au graphe complet Gc, soit au graphe obtenu après divers traitements de simplification comme expliqué ci-dessus en référence à la figure 5.
La figure 6 illustre un procédé de simplification structurelle mis en oeuvre par le processeur 18 d'un dispositif 10. Lors d'une première étape 100 de simplification structurelle, les noeuds parents qui n'ont qu'un seul noeud enfant, dit noeuds parents simples, sont supprimés. Ensuite, une étape de simplification 102 par support est appliquée, le support d'un noeud parent étant défini comme tous les noeuds feuilles, qui sont des enfants directs ou indirects de ce noeud parent. Si un noeud parent a un même support qu'un de ses noeuds enfants, alors ce noeud enfant est directement lié au(x) noeud(s) parent(s) du noeud parent, c'est-à-dire le noeud parent est court-circuité. Enfin, lors d'une étape 104, les noeuds parents qui n'ont plus de noeuds enfants sont supprimés. En effet, les divers traitements de simplification successifs, en particulier les modifications de liens, rendent certains noeuds sans noeud enfant. Ces noeuds sont supprimés itérativement.
Avantageusement, le procédé de l'invention permet une extraction automatique de thèmes à partir d'un ou plusieurs textes, permettant d'obtenir un graphe représentatif hiérarchisé de catégories de thèmes pertinents. Cette extraction automatique emploie une base de connaissances hiérarchisée. Ce procédé permet de traiter automatiquement des larges ensembles de textes, sans nécessité d'intervention d'un expert.

Claims (12)

  1. REVENDICATIONS1.- Procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques, caractérisé en ce qu'il comporte les étapes suivantes, mises en oeuvre par un processeur d'un dispositif de calcul : - extraction (60,62) d'un ensemble de mots clés dudit au moins un texte, - obtention (66, 68, 72) d'un graphe complet hiérarchisé (Gc) représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé (Gc) comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, -simplification (74) du graphe complet, comprenant au moins un traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé (Gc), soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
  2. 2.- Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape d'affectation (80, 82) d'un score à chaque noeud du graphe à simplifier et en ce que lesdits scores sont pris en compte dans au moins un traitement de simplification.
  3. 3.- Procédé selon la revendication 2, caractérisé en ce que, dans l'étape d'affectation (80) d'un score, le score affecté à chaque noeud feuille dudit graphe à simplifier est directement lié au nombre d'occurrences du mot clé correspondant audit noeud feuille dans ledit au moins un texte.
  4. 4.- Procédé selon la revendication 3, caractérisé en ce que dans l'étape d'affectation (82) d'un score, le score affecté à un noeud parent est dépendant des scores affectés aux noeuds feuilles descendants dudit noeud parent et d'une hauteur dudit noeud parent égale à une distance dudit noeud parent par rapport auxdits noeuds feuilles.
  5. 5.- Procédé selon l'une des revendications 2 à 4, caractérisé en ce qu'un dit traitement de simplification est une suppression (86) de noeuds parents du graphe à simplifier dont le score est inférieur à une valeur seuil prédéterminée.
  6. 6.- Procédé selon l'une des revendications 2 à 5, caractérisé en ce qu'un dit traitement de simplification comporte une suppression du lien entre un noeud parent du graphe à simplifier et un noeud descendant directement dudit noeud parent si ledit noeud parent a un score associé inférieur au score associé audit noeud descendant directement dudit noeud parent.
  7. 7.- Procédé selon l'une des revendications 2 à 6, caractérisé en ce qu'un dit traitement de simplification comporte une classification non supervisée permettant de regrouper des noeuds intermédiaires du graphe à simplifier, un noeud intermédiaire étant un noeud ayant au moins un noeud parent et au moins un noeud descendant direct.
  8. 8.- Procédé selon l'une des revendications 1 à 7, caractérisé en ce qu'un dit traitement de simplification est une suppression (100) de tous les noeuds du graphe à simplifier ayant un seul noeud descendant direct.
  9. 9.- Procédé selon l'une des revendications 1 à 8, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (102) du lien entre un noeud parent et un noeud descendant direct si l'ensemble de noeuds feuilles descendants dudit noeud descendant direct est identique à l'ensemble des noeuds feuilles descendants dudit noeud parent, et un ajout d'un lien entre ledit noeud descendant direct et au moins un noeud parent dudit noeud parent.
  10. 10.- Procédé selon la revendication 9, caractérisé en ce qu'un dit traitement de simplification comporte une suppression (104) de noeuds parents du graphe à simplifier n'ayant plus aucun lien vers un noeud descendant direct.
  11. 11. - Dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte, sous forme d'un graphe représentatif hiérarchisé, un noeud dudit graphe étant représentatif d'un thème abordé dans ledit texte, et correspondant à une catégorie extraite d'une base de connaissances hiérarchisée, une dite base de connaissance hiérarchisée comprenant des descriptions de thèmes par catégories liées par des liens de parenté sur une pluralité de niveaux hiérarchiques,caractérisé en ce qu'il comporte: - un module (30) d'extraction d'un ensemble de mots clés dudit au moins un texte, -un module (32) d'obtention d'un graphe complet hiérarchisé représentatif dudit au moins un texte par extraction de la totalité des catégories de la base de connaissances hiérarchisée correspondant à l'ensemble des mots clés extrait, ledit graphe complet hiérarchisé comprenant des noeuds parents ayant au moins un descendant et des noeuds sans descendant dits noeuds feuilles, lesdits noeuds feuilles correspondant auxdits mots clés, et -un module (34) de simplification du graphe complet, comprenant au moins un module traitement de simplification d'un graphe à simplifier, un dit graphe à simplifier étant soit ledit graphe complet hiérarchisé, soit un graphe résultant d'un traitement de simplification préalable, un dit traitement de simplification étant basé sur la structure du graphe à simplifier, pour obtenir un graphe représentatif hiérarchisé.
  12. 12. Programme d'ordinateur comportant des instructions pour mettre en oeuvre les étapes d'un procédé d'extraction automatique de thèmes à partir d'au moins un document contenant du texte selon l'une des revendications 1 à 10 lors de l'exécution du programme par un processeur d'un dispositif programmable.
FR1300948A 2013-04-23 2013-04-23 Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte Pending FR3004828A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1300948A FR3004828A1 (fr) 2013-04-23 2013-04-23 Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte
PCT/EP2014/058110 WO2014173882A1 (fr) 2013-04-23 2014-04-22 Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1300948A FR3004828A1 (fr) 2013-04-23 2013-04-23 Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte

Publications (1)

Publication Number Publication Date
FR3004828A1 true FR3004828A1 (fr) 2014-10-24

Family

ID=49209420

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1300948A Pending FR3004828A1 (fr) 2013-04-23 2013-04-23 Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte

Country Status (2)

Country Link
FR (1) FR3004828A1 (fr)
WO (1) WO2014173882A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329824A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 多模型融合训练方法、文本分类方法以及装置
CN113239669A (zh) * 2021-05-21 2021-08-10 合肥工业大学 试题难度预测方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309316B (zh) * 2018-06-08 2022-10-25 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN114219876B (zh) * 2022-02-18 2022-06-24 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IOANA HULPUS ET AL: "Unsupervised graph-based topic labelling using dbpedia", PROCEEDINGS OF THE SIXTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING, WSDM '13, 4 February 2013 (2013-02-04), New York, New York, USA, pages 465 - 474, XP055094990, ISBN: 978-1-45-031869-3, DOI: 10.1145/2433396.2433454 *
JIALI YUN ET AL: "Document Topic Extraction Based on Wikipedia Category", COMPUTATIONAL SCIENCES AND OPTIMIZATION (CSO), 2011 FOURTH INTERNATIONAL JOINT CONFERENCE ON, IEEE, 15 April 2011 (2011-04-15), pages 852 - 856, XP031897803, ISBN: 978-1-4244-9712-6, DOI: 10.1109/CSO.2011.119 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329824A (zh) * 2020-10-23 2021-02-05 北京中科智加科技有限公司 多模型融合训练方法、文本分类方法以及装置
CN113239669A (zh) * 2021-05-21 2021-08-10 合肥工业大学 试题难度预测方法
CN113239669B (zh) * 2021-05-21 2024-04-09 合肥工业大学 试题难度预测方法

Also Published As

Publication number Publication date
WO2014173882A1 (fr) 2014-10-30

Similar Documents

Publication Publication Date Title
JP7421604B2 (ja) モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US10031952B2 (en) Corpus augmentation system
US10430405B2 (en) Apply corrections to an ingested corpus
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
US9684726B2 (en) Realtime ingestion via multi-corpus knowledge base with weighting
WO2016025412A1 (fr) Génération et utilisation d'un modèle enrichi en connaissances
US10108661B2 (en) Using synthetic events to identify complex relation lookups
CN107545071B (zh) 一种字符串匹配的方法和装置
FR3004828A1 (fr) Procede et dispositif d'extraction automatique de themes a partir d'au moins un document contenant du texte
BE1008621A3 (fr) Procedure et procede de communication entre machines et procede generalise de preparation de programmes afferents.
WO2014198595A1 (fr) Procede de classification thematique automatique d'un fichier de texte numerique
FR3043816A1 (fr) Procede de suggestion de contenus extraits d’un ensemble de sources d’information
EP1828941B1 (fr) Dispositif de traitement de données à définition formelle
JP6952259B2 (ja) 情報処理方法、情報処理装置、及び、プログラム
US10229156B2 (en) Using priority scores for iterative precision reduction in structured lookups for questions
FR2902913A1 (fr) Procede et dispositif de codage d'une note de similarite semantique et spatiale entre concepts d'une ontologie memorisee sous forme de treillis numerote hierarchiquement
FR3031823A1 (fr) Lemmatisateur semantique base sur des dictionnaires ontologiques.
WO2023245523A1 (fr) Procédé et appareil de génération de données d'apprentissage
FR2880715A1 (fr) Procede et systeme de codage d'un treillis representatif d'une hierarchie d'elements
JP2022079442A (ja) ユーザの検索シーンを識別する方法及びシステム
CN105528414B (zh) 一种搜集深网数据全集的爬虫方法和系统
KR20100080345A (ko) 최소 개의 입력들로 액티비티를 수행하는 바람직한 명령 시퀀스를 최종 사용자에게 프롬프팅하기 위한 시스템 및 방법
FR3060800A1 (fr) Procede et dispositif d'indexation automatique d'un document textuel
US20240012808A1 (en) Computer Systems and Methods for a Guided Query
WO2023241226A1 (fr) Procédé et dispositif de génération d'instruction et support d'enregistrement

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

PLFP Fee payment

Year of fee payment: 11

PLFP Fee payment

Year of fee payment: 12