EP3008635A1 - Method for automatic thematic classification of a digital text file - Google Patents

Method for automatic thematic classification of a digital text file

Info

Publication number
EP3008635A1
EP3008635A1 EP14728537.3A EP14728537A EP3008635A1 EP 3008635 A1 EP3008635 A1 EP 3008635A1 EP 14728537 A EP14728537 A EP 14728537A EP 3008635 A1 EP3008635 A1 EP 3008635A1
Authority
EP
European Patent Office
Prior art keywords
category
node
term
nodes
text file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP14728537.3A
Other languages
German (de)
French (fr)
Inventor
François-Régis CHAUMARTIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Proxem
Original Assignee
Proxem
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Proxem filed Critical Proxem
Publication of EP3008635A1 publication Critical patent/EP3008635A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Definitions

  • the invention relates to an automatic thematic classification method of a digital text file.
  • the invention thus relates to the field of computer science applied to the language.
  • Categorization is the process of associating a given document with one or more predefined categories (or labels).
  • the goal of automatic text categorization is to automatically infer a classification by analyzing its content.
  • the very nature of the predefined categories varies according to the objectives; it may be to identify the language of the text, the themes addressed, but also for example the desired prioritization for the treatment of the document, or the feelings expressed.
  • the difficulty of the task varies according to the type and length of the document: a tweet, an email, a press article, a scientific document or a consumer opinion do not generally be analyzed in the same way.
  • the categorization of a digital text file usually requires a significant investment upstream with an adaptation that depends on the scope.
  • the operational stages prior to the learning of a classification are most often: i) the constitution of the classification plan, ii) the manual annotation of the learning corpus, iii) the definition of linguistic characteristics used by the learning algorithm.
  • the invention aims to meet this need by proposing a method of thematic classification of a digital text file from an encyclopedic database comprising a category graph defined by a set of category nodes to each one. of which is attached at least one article, a generic category node being connected to zero, one, or more nodes of more specific category, characterized in that said method comprises, during a learning phase for developing a thematic classification model, the step of grouping, for each category node, all items directly attached to said category node so as to obtain for each category node a set of words called "bag of words", to determine a vector called term-frequency vector characteristic of the category node corresponding to the number of occurrences of each word in the word bag, to combine on each category node the vector term-frequencies which is directly related to it with term-frequency vectors of more specific nodes, and in that it comprises, during a production phase, the step of calculating the term-frequency vector of said digital text file and to retain in said thematic classification model N category nodes
  • the invention thus makes it possible to process an all-in digital text file in a generic and automatic manner, that is to say without first imposing a learning phase specific to the domain or to the language of the document. .
  • the invention makes it possible to associate finely with an approximate text written in a given language, categories in this language preferably represented in the form of a graph.
  • inter-language index of the database may allow in some implementations to obtain a subset of these categories in languages other than that of the original text. It will thus be possible to authorize a cross-language search of the documents associated with a given theme.
  • the method further comprises the step of reconstituting a computer representation in the form of a graph of the selected category nodes.
  • the method comprises the step of removing any cycles of the category graph to obtain an acyclic oriented graph.
  • a category node which is associated with a number of items below a threshold is merged with a more generic category node and the articles that were directly connected to it. are attached to said more generic category node.
  • the combination consists in summing the term-frequency vector of each category node, called the target node, with term-frequency vectors of more specific category nodes directly connected to said target node, so-called nodes of subcategories, said subcategory nodes being weighted.
  • each term-frequency vector of a subcategory node is weighted with a factor 1 / (M + 1).
  • the term-frequency vector or vectors of the N category nodes closest to the term-frequency vector of the digital text file are those maximizing the dot product with the term-frequency vector of the text file. digital.
  • said scalar product is weighted with TF.IDF and / or Okapi BM25 type techniques.
  • the method comprises the step of establishing a classification of the digital text file into categories in a language other than that of the digital text file by means of an inter-language index associating with a text file. category node its translations into other languages.
  • the method comprises the step of deleting the low relevance category nodes having a degree less than or equal to a threshold.
  • the encyclopedic database is the "Wikipedia” (registered trademark) database. [024] According to one implementation, the encyclopedic database consists of consumer opinions grouped by categories.
  • Figure 1 is a schematic representation of the various elements involved in the implementation of the automatic classification method according to the invention.
  • Figure 2 shows a diagram of the various steps of the automatic classification method according to the invention.
  • Figures 3a to 3f show the different processing operations performed on a category graph during a learning phase of the automatic classification method according to the invention
  • Figures 4a to 4d show the different operations performed on a category graph during a production phase of the automatic classification method according to the invention.
  • the thematic classification method makes it possible to automatically provide a list of relevant categories corresponding to a digital text file 1.
  • the list of relevant categories is preferably displayed as a computer representation of a graph G1 in the language L1 corresponding to the language of the digital text file 1.
  • This graph G1 may, if necessary, be transposed in several languages L2, L3, etc. to obtain the corresponding representations G2, G3, ....
  • a classifier 2 preferably taking the form of a search engine uses a thematic classification model 3 providing the list of categories relevant to the file 1 analyzed.
  • the thematic classification model 3 is developed by learning on an encyclopedic database 5 organized into categories to which articles are attached.
  • This database is in this case the database "Wiki desperatedia” (trademark) treated as a "dump.xml" file by the module 8, but could alternatively be any other equivalent database, alternatively, the encyclopedic database consists of consumer reviews grouped by categories.
  • the encyclopedic database 5 comprises a graph G of categories represented in a simplified manner defined by a set of category nodes Ci each of which is attached to at least one item Ai.j, a node said generic category being connected by an arc to zero, one, or more specific category nodes than the generic category.
  • the category "shoes” is more generic than the category “boots” or "sports shoes” which are specific categories.
  • the generic category node C1 is linked to the specific category nodes C2, C3 and C4, which constitute generic category nodes with respect to the specific category nodes C5, C6, C7 and C8.
  • a category node Ci associated with a number of items less than a threshold is merged with the more generic category node Ci and the items Ai.j that were it directly connected are attached to said generic category node Ci.
  • the item threshold Ai.j attached to a category node Ci equaling three
  • the category node C8 containing too few items A8.1, A8.2, A8 .3 is merged with its more generic C4 category node and the related A8.1 -A8.3 items go back to the more generic C4 category node.
  • all the texts of the articles directly attached to the category node are grouped in a step 103 so as to obtain for each category a set of words called "bag of words". English).
  • a vector Vi said term-frequency vector characteristic of the category node Ci corresponding to the number of occurrences of each word in the "word bag" is determined in a step 104.
  • the vector V4 associated with the node of category C4 is defined by a term t1 having an occurrence f4.1, the term t2 having an occurrence f4; 2, the term t3 having an occurrence f4.3, etc ... the term tk having an occurrence f4.k.
  • each category node Ci is combined the vector terms-frequencies Vi which is directly related to it with term-frequency vectors of more specific category Ci nodes.
  • the objective is to associate with each category node Ci a representative term-frequency vector. The combination is made so that the texts which are directly attached to the node of the category constitute a majority contribution, whereas the texts attached to the more specific categories constitute a minority contribution.
  • the term-frequency vector Vi of each category node is summed with term-frequency vectors Vi of more specific category Ci nodes directly connected to said target node, said nodes of subcategories Ci , said subcategory nodes Ci being weighted.
  • each term-frequency vector of a subcategory node is weighted with a damping factor (for example 1 / (M + 1)) .
  • a damping factor for example 1 / (M + 1)
  • the optimized term-frequency vectors Vi 'of the categories closest to the term-frequency vector V of the digital text file 1 are those which maximize the dot product between the term-frequency vector V and the vector optimized frequency-terms Vi 'of a category Ci.
  • the dot product is weighted with TF.IDF and / or Okapi BM25 type techniques.
  • the digital text file 1 will be associated with the nodes of category C3, C4, C7, C1, C2, the parameter "p" corresponding to the level of relevance of each node of category.
  • a step 203 the local graph shown in Figure 4b is reconstructed from the categories retained by the search engine 2 using the shape of the category graph.
  • This form of the category graph corresponds to the information 1 1 of the arcs connecting the category nodes stored previously in the classification model at the time of the creation of the search index 10.
  • the graph G1 it will be possible to adapt the display color of the category Ci nodes to their relevance "p", the category nodes the more relevant having a dark display while the less relevant present a clearer display.
  • a step 204 the topology of the graph is used to delete the category Ci nodes of low relevance which are not closely related to the others, for example the nodes of degree 1, that is to say those which comprise a single or no bow.
  • the category node C3 has been deleted.
  • the encyclopedic database 5 contains an interlanged index 12 which associates with a category node Ci its translations Ci ', Ci ", etc. in other languages, the exploitation of this index 12 by the model classification 3 directly allows to establish in one step a classification of the text file 1 into categories of another language L2-L3.
  • the category nodes C1 'C2' C4 'of the graph G2 correspond to the translation into another language L2 of the initial category nodes C1, C2, C4 in the language L1 whereas there is no match for the category node C7 in the other language L2.
  • the completeness of the inter-language index 12 is random and varies according to the category Ci nodes. For those deemed important by the users, links are provided to a large number of languages; on the other hand, no link will sometimes exist for a category that is too fine or of secondary interest.
  • the classifier may be based on the use of techniques including HMM (Hiden Markov Model) or SVM (Support Vector Machine) or maximum entropy or neural network.
  • HMM Hiden Markov Model
  • SVM Small Vector Machine

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention primarily relates to a method for the thematic classification of a digital text file (1) from an encyclopaedic database (5) comprising a category graph (G), said method comprising, during a learning phase (PA) making it possible to develop a thematic classification model (3), the step of grouping together, for each category node, all of the items directly attached to that category node so as to obtain a "word bag" for each category node; determining a so-called term-frequency vector characteristic of the category node; combining, on each category node, the term-frequency vector directly connected to it with term-frequency vectors of more specific nodes; and in that it comprises, during a production phase (PP), a step for calculating the term-frequency vector (V) of said digital text file (1) and selecting, in said thematic classification model (3), N category nodes having the term-frequency vectors (V') closest to the term-frequency vector (V) of the digital text file.

Description

PROCEDE DE CLASSIFICATION THEMATIQUE AUTOMATIQUE D'UN FICHIER DE TEXTE NUMERIQUE  METHOD FOR AUTOMATIC THEMATIC CLASSIFICATION OF A DIGITAL TEXT FILE
[01] DOMAINE TECHNIQUE DE L'INVENTION [01] TECHNICAL FIELD OF THE INVENTION
[02] L'invention porte sur un procédé de classification thématique automatique d'un fichier de texte numérique. L'invention concerne ainsi le domaine de l'informatique appliquée au langage. [02] The invention relates to an automatic thematic classification method of a digital text file. The invention thus relates to the field of computer science applied to the language.
[03] ARRIERE PLAN TECHNOLOGIQUE [03] BACKGROUND TECHNOLOGY
[04] La catégorisation est le processus qui consiste à associer à un document donné une ou plusieurs catégories (ou étiquettes) prédéfinies. L'objectif d'une catégorisation automatique de textes est d'inférer automatiquement une classification en analysant son contenu. La nature même des catégories prédéfinies varie en fonction des objectifs ; il peut s'agir d'identifier la langue du texte, les thématiques abordées, mais aussi par exemple la priorisation souhaitée pour le traitement du document, ou encore les sentiments exprimés. La difficulté de la tâche varie selon le type et la longueur du document: un tweet, un email, un article de presse, un document scientifique ou un avis de consommateur ne s'analysent généralement pas de la même façon. [04] Categorization is the process of associating a given document with one or more predefined categories (or labels). The goal of automatic text categorization is to automatically infer a classification by analyzing its content. The very nature of the predefined categories varies according to the objectives; it may be to identify the language of the text, the themes addressed, but also for example the desired prioritization for the treatment of the document, or the feelings expressed. The difficulty of the task varies according to the type and length of the document: a tweet, an email, a press article, a scientific document or a consumer opinion do not generally be analyzed in the same way.
[05] En outre, la catégorisation d'un fichier de texte numérique nécessite généralement un investissement important en amont avec une adaptation qui dépend du domaine d'application. En effet, les étapes opérationnelle préalables à l'apprentissage d'une classification sont le plus souvent : i) la constitution du plan de classement, ii) l'annotation manuelle du corpus d'apprentissage, iii) la définition de caractéristiques linguistiques utilisées par l'algorithme d'apprentissage. Ces opérations peuvent être consommatrices en temps et leur résultat n'est généralement applicable qu'au domaine particulier concerné par les catégories prédéfinies, et aux types de documents représentatifs du corpus d'apprentissage. [05] In addition, the categorization of a digital text file usually requires a significant investment upstream with an adaptation that depends on the scope. Indeed, the operational stages prior to the learning of a classification are most often: i) the constitution of the classification plan, ii) the manual annotation of the learning corpus, iii) the definition of linguistic characteristics used by the learning algorithm. These operations can consume time and their result is generally applicable only to the particular domain concerned by the predefined categories, and to the types of documents representative of the learning corpus.
[06] Des procédés d'apprentissage automatique à la catégorisation sont connus. Ainsi, le document Sebastiani, 2002, "Machine learning in automated Text Categorizatio, in ACM, Computing Surveys, Vol. 34, N ° 1 , pages 1 -47, fournit un tableau comparatif des méthodes et applications possibles. Le document Dasari, 2012, "Text Categorization and Machine Learning Methods: Current State of the Art", GJCST, Vol. 12, N ° 1 1 , complète cet état de l'art avec des approches plus récentes et mesure les progrès accomplis en 10 ans. [06] Methods of automatic learning to categorization are known. Thus, the document Sebastiani, 2002, "Machine Learning in Automated Text Categorization, in ACM, Computing Surveys, Vol 34, No. 1, pages 1-47, provides a comparative table of possible methods and applications. Dasari, 2012, "Text Categorization and Machine Learning Methods: Current State of the Art," GJCST, Vol. 12, No. 1 1, completes this state of the art with more recent approaches and measures the progress made in 10 years.
[07] Une question se pose à propos des plans de classement, généralement définis pour un domaine particulier. En effet, il faut pouvoir savoir quel jeu de catégories prédéfini serait suffisamment couvrant pour catégoriser d'une façon raisonnablement générique un texte tout venant. [08] Les catégories de la base de données en ligne "Wikipédia" sont récemment apparues comme une possibilité de tel plan de classement universel. Le document Schônhofer, P, 2009, "Identifying document topics using the Wikipédia category network", Web Intelligence and Agent Systems, Vol. 7, N °2, pages 195-207, propose ainsi de les utliser pour effectuer une catégorisation thématique avec un algorithme simple qui se contente d'exploiter les titres et les catégories des articles. Une idée proche est présentée dans le document Yun et al., 201 1 , "Topic Extraction Based on Wikipédia Category", Actes de Computational Sciences and Optimization (CSO). Les catégories Wikipédia servent aussi de référence dans l'ontologie YAGO divulguée par le document SUCHANEK F., et al., "YAGO: a core of semantic knowledge", WWW 2007, pp. 697-706. [07] A question arises about classification plans, usually defined for a particular area. Indeed, it is necessary to know which set of predefined categories would be sufficiently covering to categorize in a reasonably generic way a text coming from anywhere. [08] The categories of the "Wikipedia" online database have recently emerged as a possibility of such a universal ranking scheme. Schoenhofer, P, 2009, "Identifying document topics using the Wikipedia category network," Web Intelligence and Agent Systems, Vol. 7, No. 2, pages 195-207, proposes to use them to carry out a thematic categorization with a simple algorithm that is content to exploit the titles and categories of the articles. A related idea is presented in Yun et al., 201 1, "Topic Extraction Based on Wikipédia Category", Proceedings of Computational Sciences and Optimization (CSO). The Wikipedia categories also serve as a reference in the YAGO ontology disclosed by SUCHANEK F., et al., "YAGO: a core of semantic knowledge", WWW 2007, pp. 697-706.
[09] Toutefois, les méthodes connues proposent un classement thématique sujet aux erreurs de catégorisation du fait du traitement brut des données de catégories de la base de données Wikipédia. Il existe donc le besoin d'une méthode plus robuste et précise que les méthodes existantes. [09] However, the known methods propose a thematic classification subject to categorization errors due to the raw processing of category data from the Wikipedia database. There is therefore a need for a more robust and accurate method than existing methods.
[010] OBJET DE L'INVENTION [010] OBJECT OF THE INVENTION
[011] L'invention vise à répondre à ce besoin en proposant un procédé de classification thématique d'un fichier de texte numérique à partir d'une base de données encyclopédique comportant un graphe de catégories défini par un ensemble de nœuds de catégories à chacun desquels est rattaché au moins un article, un nœud dit de catégorie générique étant relié à zéro, un, ou à plusieurs nœuds de catégorie plus spécifique, caractérisé en ce que ledit procédé comporte, au cours d'une phase d'apprentissage permettant d'élaborer un modèle de classification thématique, l'étape de regrouper, pour chaque nœud de catégorie, tous les articles rattachés directement audit nœud de catégorie de manière à obtenir pour chaque nœud de catégorie un ensemble de mots dit "sac de mots", déterminer un vecteur dit vecteur termes-fréquences caractéristique du nœud de catégorie correspondant au nombre d'occurrences de chaque mot dans le sac de mots, combiner sur chaque nœud de catégorie le vecteur termes-fréquences qui lui est directement relié avec des vecteurs termes-fréquences de nœuds plus spécifiques, et en ce qu'il comporte, lors d'une phase de production, l'étape de calculer le vecteur termes-fréquences dudit fichier de texte numérique et de retenir dans ledit modèle de classification thématique N nœuds de catégorie ayant les vecteurs termes-fréquences les plus proches du vecteur termes-fréquences du fichier de texte numérique. [012] L'invention permet ainsi de traiter un fichier de texte numérique tout-venant d'une façon générique et automatique, c'est-à-dire sans imposer préalablement une phase d'apprentissage spécifique au domaine ou à la langue du document. L'invention permet d'associer finement à un texte tout- venant écrit dans une langue donnée des catégories dans cette langue de préférence représentées sous forme d'un graphe. [011] The invention aims to meet this need by proposing a method of thematic classification of a digital text file from an encyclopedic database comprising a category graph defined by a set of category nodes to each one. of which is attached at least one article, a generic category node being connected to zero, one, or more nodes of more specific category, characterized in that said method comprises, during a learning phase for developing a thematic classification model, the step of grouping, for each category node, all items directly attached to said category node so as to obtain for each category node a set of words called "bag of words", to determine a vector called term-frequency vector characteristic of the category node corresponding to the number of occurrences of each word in the word bag, to combine on each category node the vector term-frequencies which is directly related to it with term-frequency vectors of more specific nodes, and in that it comprises, during a production phase, the step of calculating the term-frequency vector of said digital text file and to retain in said thematic classification model N category nodes having the term-frequency vectors closest to the term-frequency vector of the file. er of digital text. [012] The invention thus makes it possible to process an all-in digital text file in a generic and automatic manner, that is to say without first imposing a learning phase specific to the domain or to the language of the document. . The invention makes it possible to associate finely with an approximate text written in a given language, categories in this language preferably represented in the form of a graph.
[013] L'utilisation d'un index inter-langues de la base de données pourra permettre dans certaines mises en œuvre d'obtenir un sous-ensemble de ces catégories dans d'autres langues que celle du texte d'origine. Il sera ainsi possible d'autoriser alors une recherche cross-langue des documents associés à une thématique donnée. [013] The use of an inter-language index of the database may allow in some implementations to obtain a subset of these categories in languages other than that of the original text. It will thus be possible to authorize a cross-language search of the documents associated with a given theme.
[014] Selon une mise en œuvre, le procédé comporte en outre l'étape de reconstituer une représentation informatique sous forme de graphe des nœuds de catégorie retenus. [014] According to one implementation, the method further comprises the step of reconstituting a computer representation in the form of a graph of the selected category nodes.
[015] Selon une mise en œuvre, le procédé comporte l'étape de supprimer des éventuels cycles du graphe de catégories pour obtenir un graphe orienté acyclique. [016] Selon une mise en œuvre, lors de la phase d'apprentissage, un nœud de catégorie auquel est associé un nombre d'articles inférieur à un seuil est fusionné avec un nœud de catégorie plus générique et les articles qui lui étaient directement reliés sont rattachés audit nœud de catégorie plus générique. [015] According to one implementation, the method comprises the step of removing any cycles of the category graph to obtain an acyclic oriented graph. [016] According to one implementation, during the learning phase, a category node which is associated with a number of items below a threshold is merged with a more generic category node and the articles that were directly connected to it. are attached to said more generic category node.
[017] Selon une mise en œuvre, la combinaison consiste à sommer le vecteur termes-fréquences de chaque nœud de catégorie, dit nœud cible, avec des vecteurs termes-fréquences de nœuds de catégorie plus spécifiques directement reliés audit nœud cible, dits nœuds de sous- catégories, lesdits nœuds de sous-catégories étant pondérés. [017] According to one embodiment, the combination consists in summing the term-frequency vector of each category node, called the target node, with term-frequency vectors of more specific category nodes directly connected to said target node, so-called nodes of subcategories, said subcategory nodes being weighted.
[018] Selon une mise en œuvre, pour un nœud cible ayant M nœuds de sous-catégories, chaque vecteur termes-fréquences d'un nœud de sous- catégorie est pondéré avec un facteur 1 /(M+1 ). [018] According to one implementation, for a target node having M sub-category nodes, each term-frequency vector of a subcategory node is weighted with a factor 1 / (M + 1).
[019] Selon une mise en œuvre, le ou les vecteurs termes-fréquences des N nœuds de catégorie les plus proches du vecteur termes-fréquences du fichier de texte numérique sont ceux maximisant le produit scalaire avec le vecteur termes-fréquences du fichier de texte numérique. [019] According to one implementation, the term-frequency vector or vectors of the N category nodes closest to the term-frequency vector of the digital text file are those maximizing the dot product with the term-frequency vector of the text file. digital.
[020] Selon une mise en œuvre, ledit produit scalaire est pondéré avec des techniques de type TF.IDF et/ou Okapi BM25. [021] Selon une mise en œuvre, le procédé comporte l'étape d'établir une classification du fichier de texte numérique en catégories dans une langue autre que celle du fichier de texte numérique au moyen d'un index inter-langues associant à un nœud de catégorie ses traductions en d'autres langues. [022] Selon une mise en œuvre, le procédé comporte l'étape de supprimer les nœuds de catégorie de faible pertinence ayant un degré inférieur ou égal à un seuil. [020] According to one implementation, said scalar product is weighted with TF.IDF and / or Okapi BM25 type techniques. [021] According to one implementation, the method comprises the step of establishing a classification of the digital text file into categories in a language other than that of the digital text file by means of an inter-language index associating with a text file. category node its translations into other languages. [022] According to one implementation, the method comprises the step of deleting the low relevance category nodes having a degree less than or equal to a threshold.
[023] Selon une mise en œuvre, la base de données encyclopédique est la base de données "Wikipedia" (marque déposée). [024] Selon une mise en œuvre, la base de données encyclopédique consiste en des avis de consommateurs regroupés par catégories. [023] According to one implementation, the encyclopedic database is the "Wikipedia" (registered trademark) database. [024] According to one implementation, the encyclopedic database consists of consumer opinions grouped by categories.
[025] BREVE DESCRIPTION DES FIGURES [025] BRIEF DESCRIPTION OF THE FIGURES
[026] L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Ces figures ne sont données qu'à titre illustratif mais nullement limitatif de l'invention. [026] The invention will be better understood on reading the description which follows and on examining the figures that accompany it. These figures are given for illustrative but not limiting of the invention.
[027] La figure 1 est une représentation schématique des différents éléments intervenant dans la mise en œuvre du procédé de classification automatique selon l'invention; [028] La figure 2 montre un diagramme des différentes étapes du procédé de classification automatique selon l'invention; [027] Figure 1 is a schematic representation of the various elements involved in the implementation of the automatic classification method according to the invention; [028] Figure 2 shows a diagram of the various steps of the automatic classification method according to the invention;
[029] Les figures 3a à 3f représentent les différentes opérations de traitement réalisées sur un graphe de catégories lors d'une phase d'apprentissage du procédé de classification automatique selon l'invention; [030] Les figures 4a à 4d représentent les différentes opérations réalisées sur un graphe de catégories lors d'une phase de production du procédé de classification automatique selon l'invention. [029] Figures 3a to 3f show the different processing operations performed on a category graph during a learning phase of the automatic classification method according to the invention; [030] Figures 4a to 4d show the different operations performed on a category graph during a production phase of the automatic classification method according to the invention.
[031] Les éléments identiques, similaires ou analogues conservent la même référence d'une figure à l'autre. [032] DESCRIPTION D'EXEMPLES DE REALISATION DE L'INVENTION [031] The identical, similar or similar elements retain the same reference from one figure to another. [032] DESCRIPTION OF EXAMPLES OF THE EMBODIMENT OF THE INVENTION
[033] Comme cela est montré sur la figure 1 , le procédé de classification thématique selon l'invention permet de fournir de manière automatique une liste de catégories pertinentes correspondant à un fichier de texte numérique 1 . La liste de catégories pertinentes est affichée de préférence sous forme d'une représentation informatique d'un graphe G1 dans la langue L1 correspondant à la langue du fichier de texte numérique 1 . Ce graphe G1 pourra, le cas échéant, être transposé dans plusieurs langues L2, L3, etc.. pour obtenir les représentations correspondantes G2, G3, .... [034] A cet effet, un classifieur 2 prenant de préférence la forme d'un moteur de recherche utilise un modèle de classification thématique 3 fournissant la liste de catégories pertinentes eu égard au fichier 1 analysé. [033] As shown in FIG. 1, the thematic classification method according to the invention makes it possible to automatically provide a list of relevant categories corresponding to a digital text file 1. The list of relevant categories is preferably displayed as a computer representation of a graph G1 in the language L1 corresponding to the language of the digital text file 1. This graph G1 may, if necessary, be transposed in several languages L2, L3, etc. to obtain the corresponding representations G2, G3, .... [034] For this purpose, a classifier 2 preferably taking the form of a search engine uses a thematic classification model 3 providing the list of categories relevant to the file 1 analyzed.
[035] Plus précisément, le modèle de classification thématique 3 est élaboré par apprentissage sur une base de données encyclopédique 5 organisée en catégories auxquelles sont rattachées des articles. Cette base de données est en l'occurrence la base de données "Wikipédia" (marque déposée) traitée sous forme de fichier "dump.xml" par le module 8, mais pourrait en variante être toute autre base de données équivalente, Alternativement, la base de données encyclopédique consiste en des avis de consommateurs regroupés par catégories. [035] More specifically, the thematic classification model 3 is developed by learning on an encyclopedic database 5 organized into categories to which articles are attached. This database is in this case the database "Wikipédia" (trademark) treated as a "dump.xml" file by the module 8, but could alternatively be any other equivalent database, alternatively, the encyclopedic database consists of consumer reviews grouped by categories.
[036] Comme montré sur la figure 3a, la base de données encyclopédique 5 comporte un graphe G de catégories représenté de manière simplifiée défini par un ensemble de nœuds de catégories Ci à chacun desquels est rattaché au moins un article Ai.j, un nœud dit de catégorie générique étant relié par un arc à zéro, un, ou à plusieurs nœuds de catégorie plus spécifique que la catégorie générique. Dans un exemple, la catégorie "chaussures" est plus générique que la catégorie "bottes" ou "chaussures de sport" qui en sont des catégories spécifiques. [037] En l'occurrence, le nœud de catégorie générique C1 est relié aux nœuds de catégorie spécifiques C2, C3 et C4, lesquels constituent des nœuds de catégorie générique par rapport aux nœuds de catégorie spécifiques C5, C6, C7 et C8. Pour un nœud de catégorie Ci donné, un arc dit "entrant" provient d'un nœud de catégorie plus générique, tandis qu'un arc dit "sortant" est relié à un nœud de catégorie plus spécifique. Dans l'exemple représenté, on aura donc compris que l'on va du nœud de catégorie le plus générique au nœud de catégorie le plus spécifique lorsqu'on se déplace du haut vers le bas. Toutefois, cette représentation est purement arbitraire et aurait pu être inversée. [038] Au cours d'une phase d'apprentissage PA permettant d'élaborer le modèle de classification thématique 3, les cycles du graphe de catégories sont supprimés dans une étape 101 pour obtenir un graphe G orienté acyclique (DAG-Directed Acyclic Graph) et éviter ainsi les boucles infinies. [039] A cette fin, on met de préférence en œuvre l'algorithme décrit dans le document Tarjan (1972), "Depth-first search and linear graph algorithms", SIAM Journal on Computing, Vol. 1 , N °2, p. 146-160 qui détecte les zones fortement connexes d'un graphe orienté avec une exploration en profondeur à partir des racines c'est-à-dire des nœuds de catégorie Ci dépourvus d'arc entrant. On supprime ensuite localement un arc jusqu'à supprimer tous les cycles. Le choix de l'arc à supprimer est arbitraire et consiste en l'occurrence à sélectionner ceux qui relient les nœuds de catégorie Ci les plus bas dans la hiérarchie. Ainsi, dans l'exemple représenté, on supprime le cycle entre les nœuds de catégorie C7 et C1 pour obtenir le graphe G de la figure 3b. [036] As shown in FIG. 3a, the encyclopedic database 5 comprises a graph G of categories represented in a simplified manner defined by a set of category nodes Ci each of which is attached to at least one item Ai.j, a node said generic category being connected by an arc to zero, one, or more specific category nodes than the generic category. In one example, the category "shoes" is more generic than the category "boots" or "sports shoes" which are specific categories. [037] In this case, the generic category node C1 is linked to the specific category nodes C2, C3 and C4, which constitute generic category nodes with respect to the specific category nodes C5, C6, C7 and C8. For a node of category Ci given, an arc called "incoming" comes from a node of more generic category, while an arc called "outgoing" is connected to a node of more specific category. In the example shown, we have therefore understood that we go from the most generic category node to the most specific category node when moving from top to bottom. However, this representation is purely arbitrary and could have been reversed. [038] During a learning phase PA making it possible to elaborate the thematic classification model 3, the cycles of the category graph are removed in a step 101 to obtain an acyclic graph G (DAG-Directed Acyclic Graph). and thus avoid infinite loops. [039] For this purpose, the algorithm described in the document Tarjan (1972), "Depth-first search and linear graph algorithms", SIAM Journal on Computing, Vol. 1, No. 2, p. 146-160 which detects the strongly connected areas of a directed graph with a deep exploration from the roots that is to say category nodes Ci devoid of incoming arc. An arc is then locally suppressed until all cycles are removed. The choice of the arc to be deleted is arbitrary and in this case consists in selecting those which connect the lowest category nodes Ci in the hierarchy. Thus, in the example shown, the cycle between the nodes of category C7 and C1 is eliminated to obtain the graph G of FIG. 3b.
[040] Par ailleurs, au cours d'une étape 102, un nœud de catégorie Ci auquel est associé un nombre d'articles inférieur à un seuil est fusionné avec le nœud de catégorie Ci plus générique et les articles Ai.j qui lui étaient directement reliés sont rattachés audit nœud de catégorie Ci plus générique. Dans l'exemple représenté aux figures 3c et 3d, le seuil d'articles Ai.j rattaché à un nœud de catégorie Ci valant trois, le nœud de catégorie C8 qui contient trop peu d'articles A8.1 , A8.2, A8.3 est fusionné avec son nœud catégorie plus générique C4 et les articles A8.1 -A8.3 qui lui étaient directement reliés remontent audit nœud de catégorie plus générique C4. [041] Pour chaque nœud de catégorie, tous les textes des articles rattachés directement au nœud de catégorie sont regroupés dans une étape 103 de manière à obtenir pour chaque catégorie un ensemble de mots dit "sac de mots" ("bag of words" en anglais). [040] Furthermore, during a step 102, a category node Ci associated with a number of items less than a threshold is merged with the more generic category node Ci and the items Ai.j that were it directly connected are attached to said generic category node Ci. In the example shown in FIGS. 3c and 3d, the item threshold Ai.j attached to a category node Ci equaling three, the category node C8 containing too few items A8.1, A8.2, A8 .3 is merged with its more generic C4 category node and the related A8.1 -A8.3 items go back to the more generic C4 category node. [041] For each category node, all the texts of the articles directly attached to the category node are grouped in a step 103 so as to obtain for each category a set of words called "bag of words". English).
[042] Un vecteur Vi dit vecteur termes-fréquences caractéristique du nœud de catégorie Ci correspondant au nombre d'occurrences de chaque mot dans le "sac de mots" est déterminé dans une étape 104. Ainsi, comme cela est représenté sur la figure 3e par exemple, le vecteur V4 associé au nœud de catégorie C4 est défini par un terme t1 ayant une occurrence f4.1 , le terme t2 ayant une occurrence f4;2, le terme t3 ayant une occurrence f4.3, etc... le terme tk ayant une occurrence f4.k. [042] A vector Vi said term-frequency vector characteristic of the category node Ci corresponding to the number of occurrences of each word in the "word bag" is determined in a step 104. Thus, as shown in FIG. 3e for example, the vector V4 associated with the node of category C4 is defined by a term t1 having an occurrence f4.1, the term t2 having an occurrence f4; 2, the term t3 having an occurrence f4.3, etc ... the term tk having an occurrence f4.k.
[043] Au préalable, les textes des articles auront pu être traités par exemple via le moteur de recherche appelé "Lucene" selon une séquence d'opérations classiques en recherche d'informations, telles que la segmentation du texte en mots, la normalisation de leur casse, la suppression des diacritiques, la suppression des mots grammaticaux ("stop words" comme les articles notamment), la racinisation (stemming) et le comptage des termes. L'un des intérêts du moteur "Lucene" est de proposer en standard ces opérations pour une trentaine de langues. [043] Beforehand, the texts of the articles could have been processed for example via the search engine called "Lucene" according to a sequence of conventional operations in search of information, such as the segmentation of text into words, the normalization of their case, the deletion of diacritics, the elimination of grammatical words ("stop words" like articles in particular), rooting (stemming) and the counting of terms. One of the interests of the engine "Lucene" is to propose as standard these operations for about thirty languages.
[044] On effectue ensuite l'exploration du graphe G des racines les plus génériques vers les feuilles les plus spécifiques dépourvues d'arc sortant, et lors de la remontée récursive, on combine dans une étape 105 sur chaque nœud de catégorie Ci le vecteur termes-fréquences Vi qui lui est directement relié avec des vecteurs termes-fréquences de nœuds de catégorie Ci plus spécifiques. L'objectif est d'associer à chaque nœud de catégorie Ci un vecteur termes-fréquences représentatif. La combinaison est effectuée en sorte que les textes qui sont directement rattachés au nœud de la catégorie constituent une contribution majoritaire, tandis que les textes rattachés aux catégories plus spécifiques constituent une contribution minoritaire. En l'occurrence, le vecteur termes-fréquences Vi de chaque nœud de catégorie, dit nœud cible, est sommé avec des vecteurs termes-fréquences Vi de nœuds de catégorie Ci plus spécifiques directement reliés audit nœud cible, dits nœuds de sous-catégories Ci, lesdits nœuds de sous-catégories Ci étant pondérés. On obtient alors des vecteurs termes-fréquences dits vecteurs optimisés Vi'. [044] Next, the graph G is explored from the most generic roots to the most specific leaves devoid of an outgoing arch, and during the recursive feedback, in a step 105 on each category node Ci is combined the vector terms-frequencies Vi which is directly related to it with term-frequency vectors of more specific category Ci nodes. The objective is to associate with each category node Ci a representative term-frequency vector. The combination is made so that the texts which are directly attached to the node of the category constitute a majority contribution, whereas the texts attached to the more specific categories constitute a minority contribution. In this case, the term-frequency vector Vi of each category node, called said target node, is summed with term-frequency vectors Vi of more specific category Ci nodes directly connected to said target node, said nodes of subcategories Ci , said subcategory nodes Ci being weighted. We then obtain term-frequency vectors called optimized vectors Vi '.
[045] De préférence, pour un nœud cible ayant M nœuds de sous- catégorie, chaque vecteur termes-fréquences d'un nœud de sous-catégorie est pondéré avec un facteur d'amortissement (par exemple 1 /(M+1 )). Ainsi, comme cela est illustré sur la figure 3f, au cours d'une première étape de la remontée récursive le vecteur termes-fréquences V4 est remplacé par le vecteur termes-fréquences V4' = V4 + 0.5*V7. On précise que le vecteur V7 est pondéré par 0.5 car on a M=1 nœuds de sous-catégories en dessous de C4; en sorte que le facteur de combinaison linéaire vaut 1 /((M=1 )+1 )= 0.5. On répète ainsi les opérations jusqu'à la remontée complète du graphe. [045] Preferably, for a target node having M subcategory nodes, each term-frequency vector of a subcategory node is weighted with a damping factor (for example 1 / (M + 1)) . Thus, as illustrated in FIG. 3f, during a first step of the recursive ascent the term-frequency vector V4 is replaced by the term-frequency vector V4 '= V4 + 0.5 * V7. We specify that the vector V7 is weighted by 0.5 because we have M = 1 nodes of subcategories below C4; so that the linear combination factor is 1 / ((M = 1) +1) = 0.5. This repeats the operations until the complete recovery of the graph.
[046] Les catégories Ci et leur vecteur termes-fréquences Vi' optimisé sont indexés dans un index de recherche 10 stocké dans le modèle de classification 3. [047] Lors d'une phase de production PP, on calcule au cours d'une étape 201 le vecteur termes-fréquences V du fichier de texte numérique 1 à catégoriser de la même façon que l'on avait calculé le vecteur termes- fréquences Vi des articles Ai.j directement rattachés à une catégorie Ci. [048] La classification effective est effectuée en réalisant dans une étape 202 une recherche dans l'index de recherche 10 précédemment constitué au moyen du moteur de recherche 2 qui renvoie alors la liste "à plat" des N catégories les plus pertinentes, c'est-à-dire celles qui ont un vecteur termes- fréquences optimisé Vi' le plus proche du vecteur termes-fréquences V du texte. N qui pourra être fixé par l'utilisateur est compris typiquement entre 5 et 30. Par liste "à plat" de catégorie, on entend les catégories qui ne sont pas hiérarchisées sous forme de graphe dans la mesure où les catégories ne sont pas hiérarchisées en graphe dans l'index de recherche 10. [046] The categories Ci and their optimized term-frequency vector Vi 'are indexed in a search index 10 stored in the classification model 3. [047] During a production phase PP, during a step 201, the term-frequency vector V of the digital text file 1 is computed in the same way as the term-frequency vector has been calculated. Vi of the articles Ai.j directly attached to a category Ci. [048] The effective classification is carried out by realizing in a step 202 a search in the search index 10 previously constituted by means of the search engine 2 which then returns the list "flat" of the N most relevant categories, that is to say those which have an optimized term-frequency vector Vi 'closest to the term-frequency vector V of the text. N that can be set by the user is typically between 5 and 30. Category list "flat" means categories that are not hierarchical graph form since the categories are not hierarchical in graph in the search index 10.
[049] De préférence, on considère que les vecteurs termes-fréquences optimisés Vi' des catégories les plus proches du vecteur termes-fréquences V du fichier de texte numérique 1 sont ceux qui maximisent le produit scalaire entre le vecteur termes-fréquences V et le vecteur termes- fréquences optimisé Vi' d'une catégorie Ci. De préférence, le produit scalaire est pondéré avec des techniques de type TF.IDF et/ou Okapi BM25. [050] Ainsi, comme cela est représenté sur la figure 4a, le fichier de texte numérique 1 sera associé aux nœuds de catégorie C3, C4, C7, C1 , C2, le paramètre "p" correspondant au niveau de pertinence de chaque nœud de catégorie. [049] Preferably, it is considered that the optimized term-frequency vectors Vi 'of the categories closest to the term-frequency vector V of the digital text file 1 are those which maximize the dot product between the term-frequency vector V and the vector optimized frequency-terms Vi 'of a category Ci. Preferably, the dot product is weighted with TF.IDF and / or Okapi BM25 type techniques. [050] Thus, as shown in FIG. 4a, the digital text file 1 will be associated with the nodes of category C3, C4, C7, C1, C2, the parameter "p" corresponding to the level of relevance of each node of category.
[051] Dans une étape 203, le graphe local montré sur la figure 4b est reconstitué à partir des catégories retenues par le moteur de recherche 2 en utilisant la forme du graphe des catégories. Cette forme du graphe des catégories correspond à l'information 1 1 des arcs reliant les nœuds de catégorie stockée préalablement dans le modèle de classification au moment de la création de l'index de recherche 10. [052] Dans le graphe G1 , il sera possible d'adapter la couleur d'affichage des nœuds de catégorie Ci à leur pertinence "p", les nœuds de catégorie les plus pertinents présentant un affichage foncé tandis que les moins pertinents présentent un affichage plus clair. [051] In a step 203, the local graph shown in Figure 4b is reconstructed from the categories retained by the search engine 2 using the shape of the category graph. This form of the category graph corresponds to the information 1 1 of the arcs connecting the category nodes stored previously in the classification model at the time of the creation of the search index 10. [052] In the graph G1, it will be possible to adapt the display color of the category Ci nodes to their relevance "p", the category nodes the more relevant having a dark display while the less relevant present a clearer display.
[053] Dans une étape 204, on utilise la topologie du graphe pour supprimer les nœuds de catégorie Ci de faible pertinence peu reliés aux autres, comme par exemple les nœuds de degré 1 , c'est-à-dire ceux qui comporte un seul ou aucun arc. Dans l'exemple de la figure 4c, on a supprimé ainsi le nœud de catégorie C3. [053] In a step 204, the topology of the graph is used to delete the category Ci nodes of low relevance which are not closely related to the others, for example the nodes of degree 1, that is to say those which comprise a single or no bow. In the example of FIG. 4c, the category node C3 has been deleted.
[054] Si la base de données encyclopédique 5 contient un index interlangue 12 qui associe à un nœud de catégorie Ci ses traductions Ci', Ci", etc .. en d'autres langues, l'exploitation de cet index 12 par le modèle de classification 3 permet directement d'établir dans une étape une classification du fichier de texte 1 en catégories d'une autre langue L2-L3. [054] If the encyclopedic database 5 contains an interlanged index 12 which associates with a category node Ci its translations Ci ', Ci ", etc. in other languages, the exploitation of this index 12 by the model classification 3 directly allows to establish in one step a classification of the text file 1 into categories of another language L2-L3.
[055] Ainsi, comme montré sur la figure 4d, les nœuds-catégories C1 ' C2' C4' du graphe G2 correspondent à la traduction dans une autre langue L2 des nœuds de catégorie initiaux C1 , C2, C4 dans la langue L1 tandis qu'il n'existe pas de correspondance pour le nœud de catégorie C7 dans l'autre langue L2. En effet, il est à noter que la complétude de l'index inter-langues 12 est aléatoire et varie en fonction des nœuds de catégorie Ci. Pour celles jugées importantes par les utilisateurs, des liens sont fournis vers un grand nombre de langues; en revanche, aucun lien n'existera parfois pour une catégorie trop fine ou d'intérêt secondaire. [055] Thus, as shown in FIG. 4d, the category nodes C1 'C2' C4 'of the graph G2 correspond to the translation into another language L2 of the initial category nodes C1, C2, C4 in the language L1 whereas there is no match for the category node C7 in the other language L2. Indeed, it should be noted that the completeness of the inter-language index 12 is random and varies according to the category Ci nodes. For those deemed important by the users, links are provided to a large number of languages; on the other hand, no link will sometimes exist for a category that is too fine or of secondary interest.
[056] L'homme du métier pourra bien entendu apporter des modifications au procédé ci-dessus. Ainsi, en variante, le classifieur pourra être basé sur l'utilisation de techniques notamment de type HMM (Hiden Markov Model) ou SVM (Support Vector Machine) ou maximum d'entropie ou réseau de neurones. [056] One skilled in the art will of course be able to make modifications to the above process. Thus, alternatively, the classifier may be based on the use of techniques including HMM (Hiden Markov Model) or SVM (Support Vector Machine) or maximum entropy or neural network.

Claims

REVENDICATIONS
1 . Procédé de classification thématique automatique d'un fichier de texte numérique (1 ) à partir d'une base de données encyclopédique (5) comportant un graphe de catégories (G) défini par un ensemble de nœuds de catégories (Ci) à chacun desquels est rattaché au moins un article (Ai.j), un nœud dit de catégorie générique étant relié à zéro, un, ou à plusieurs nœuds de catégorie plus spécifique, caractérisé en ce que ledit procédé comporte, au cours d'une phase d'apprentissage (PA) permettant d'élaborer un modèle de classification thématique (3), l'étape de regrouper, pour chaque nœud de catégorie (Ci), tous les articles (Ai.j) rattachés directement audit nœud de catégorie (Ci) de manière à obtenir pour chaque nœud de catégorie (Ci) un ensemble de mots dit "sac de mots", déterminer un vecteur (Vi) dit vecteur termes-fréquences caractéristique du nœud de catégorie (Ci) correspondant au nombre d'occurrences de chaque mot dans le sac de mots, combiner sur chaque nœud de catégorie le vecteur (Vi) termes- fréquences qui lui est directement relié avec des vecteurs termes-fréquences de nœuds plus spécifiques, et en ce qu'il comporte, lors d'une phase de production, l'étape de calculer le vecteur (V) termes-fréquences dudit fichier de texte numérique (1 ) et de retenir dans ledit modèle de classification thématique (3) N nœuds de catégorie ayant les vecteurs (Vi') termes- fréquences les plus proches du vecteur (V) termes-fréquences du fichier de texte numérique (1 ). 1. A method for automatic thematic classification of a digital text file (1) from an encyclopedic database (5) comprising a category graph (G) defined by a set of category nodes (Ci) to each of which is attached to at least one article (Ai.j), a generic category node being connected to zero, one, or more nodes of more specific category, characterized in that said method comprises, during a learning phase (PA) for developing a thematic classification model (3), the step of grouping, for each category node (Ci), all items (Ai.j) directly attached to said category node (Ci) so as to to obtain for each category node (Ci) a set of words called "bag of words", to determine a vector (Vi) said term-frequency vector characteristic of the category node (Ci) corresponding to the number of occurrences of each word in the bag of words, com biner on each category node the vector (Vi) terms-frequencies which is directly connected to it with term-frequency vectors of more specific nodes, and in that it comprises, during a production phase, the step of calculating the term-frequency vector (V) of said digital text file (1) and retaining in said thematic classification model (3) N category nodes having the vectors (Vi ') term-frequencies closest to the vector (V ) frequency-terms of the digital text file (1).
2. Procédé selon la revendication 1 , caractérisé en ce qu'il comporte en outre l'étape de reconstituer une représentation informatique sous forme de graphe (G1 ) des nœuds de catégorie retenus. 2. Method according to claim 1, characterized in that it further comprises the step of reconstructing a computer representation as a graph (G1) category nodes retained.
3. Procédé selon la revendication 1 ou 2, caractérisé en ce qu'il comporte l'étape de supprimer des éventuels cycles du graphe de catégories (G) pour obtenir un graphe orienté acyclique. 3. Method according to claim 1 or 2, characterized in that it comprises the step of removing any cycles of the category graph (G) to obtain an acyclic oriented graph.
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que lors de la phase d'apprentissage, un nœud de catégorie (Ci) auquel est associé un nombre d'articles inférieur à un seuil est fusionné avec un nœud de catégorie plus générique et les articles (Ai.j) qui lui étaient directement reliés sont rattachés audit nœud de catégorie plus générique. 4. Method according to one of claims 1 to 3, characterized in that during the learning phase, a category node (Ci) which is associated with a number of items less than a threshold is merged with a node of category more generic and articles (Ai.j) which were directly related thereto are attached to said node more generic category.
5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que la combinaison consiste à sommer le vecteur (Vi) termes-fréquences de chaque nœud de catégorie (Ci), dit nœud cible, avec des vecteurs termes- fréquences de nœuds de catégorie (Ci) plus spécifiques directement reliés audit nœud cible, dits nœuds de sous-catégories, lesdits nœuds de sous- catégories étant pondérés. 5. Method according to one of claims 1 to 4, characterized in that the combination consists in summing the vector (Vi) terms-frequencies of each category node (Ci), said target node, with term-frequency vectors of more specific category (Ci) nodes directly connected to said target node, said subcategory nodes, said subcategory nodes being weighted.
6. Procédé selon la revendication 5, caractérisé en ce que pour un nœud cible ayant M nœuds de sous-catégories, chaque vecteur (Vi) termes- fréquences d'un nœud de sous-catégorie est pondéré avec un facteur 1 /(M+1 ). 6. Method according to claim 5, characterized in that for a target node having M sub-category nodes, each term-frequency vector (Vi) of a subcategory node is weighted with a factor 1 / (M + 1).
7. Procédé selon l'une des revendications 1 à 6, caractérisé en ce que le ou les vecteurs (Vi') termes-fréquences des N nœuds de catégorie les plus proches du vecteur termes-fréquences du fichier de texte numérique (1 ) sont ceux maximisant le produit scalaire avec le vecteur termes-fréquences (V) du fichier de texte numérique (1 ). 7. Method according to one of claims 1 to 6, characterized in that the one or more term-frequency vectors (Vi ') of the N category nodes closest to the term-frequency vector of the digital text file (1) are those maximizing the scalar product with the term-frequency vector (V) of the digital text file (1).
8. Procédé selon la revendication 7, caractérisé en ce que ledit produit scalaire est pondéré avec des techniques de type TF.IDF et/ou Okapi BM25. 8. Method according to claim 7, characterized in that said scalar product is weighted with TF.IDF type techniques and / or Okapi BM25.
9. Procédé selon l'une des revendications 1 à 8, caractérisé en ce qu'il comporte l'étape d'établir une classification du fichier de texte numérique (1 ) en catégories dans une langue autre que celle du fichier de texte numérique (1 ) au moyen d'un index inter-langues (12) associant à un nœud de catégorie (Ci) ses traductions en d'autres langues. 9. Method according to one of claims 1 to 8, characterized in that it comprises the step of establishing a classification of the digital text file (1) in categories in a language other than that of the digital text file ( 1) by means of an inter-language index (12) associating with a category node (Ci) its translations into other languages.
10. Procédé selon la revendication 2, caractérisé en ce qu'il comporte l'étape de supprimer les nœuds de catégorie (Ci) de faible pertinence ayant un degré inférieur ou égal à un seuil. 10. The method as claimed in claim 2, characterized in that it includes the step of deleting category nodes (Ci) of low relevance having a degree less than or equal to a threshold.
1 1 . Procédé selon l'une des revendications précédentes, caractérisé en ce que la base de données encyclopédique (5) est la base de données "Wikipedia" (marque déposée). 1 1. Method according to one of the preceding claims, characterized in that the encyclopedic database (5) is the "Wikipedia" (registered trademark) database.
12. Procédé selon l'une des revendications 1 à 10, caractérisé en ce que la base de données encyclopédique (5) consiste en des avis de consommateurs regroupés par catégories. 12. Method according to one of claims 1 to 10, characterized in that the encyclopedic database (5) consists of consumer reviews grouped by categories.
EP14728537.3A 2013-06-14 2014-06-04 Method for automatic thematic classification of a digital text file Ceased EP3008635A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1355596A FR3007164B1 (en) 2013-06-14 2013-06-14 METHOD FOR AUTOMATIC THEMATIC CLASSIFICATION OF A DIGITAL TEXT FILE
PCT/EP2014/061535 WO2014198595A1 (en) 2013-06-14 2014-06-04 Method for automatic thematic classification of a digital text file

Publications (1)

Publication Number Publication Date
EP3008635A1 true EP3008635A1 (en) 2016-04-20

Family

ID=49998308

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14728537.3A Ceased EP3008635A1 (en) 2013-06-14 2014-06-04 Method for automatic thematic classification of a digital text file

Country Status (4)

Country Link
US (1) US20160140220A1 (en)
EP (1) EP3008635A1 (en)
FR (1) FR3007164B1 (en)
WO (1) WO2014198595A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391593A (en) * 2017-06-29 2017-11-24 努比亚技术有限公司 A kind of document handling method, mobile terminal and computer-readable recording medium
CN110222175A (en) * 2019-05-20 2019-09-10 北京语言大学 A kind of method and system constructing classification classification vocabulary based on entry writer's temperature

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
WO2015184525A1 (en) * 2014-06-05 2015-12-10 Interdev Technologies Systems and methods of interpreting speech data
US10042936B1 (en) * 2014-07-11 2018-08-07 Google Llc Frequency-based content analysis
CN110096591A (en) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 Long text classification method, device, computer equipment and storage medium based on bag of words
CN110955776A (en) * 2019-11-16 2020-04-03 中电科大数据研究院有限公司 Construction method of government affair text classification model
CN111552803B (en) * 2020-04-08 2023-03-24 西安工程大学 Text classification method based on graph wavelet network model
US12020417B2 (en) * 2020-04-24 2024-06-25 Camtek Ltd. Method and system for classifying defects in wafer using wafer-defect images, based on deep learning
CN111538870B (en) * 2020-07-07 2020-12-18 北京百度网讯科技有限公司 Text expression method and device, electronic equipment and readable storage medium
CN112464927B (en) * 2020-11-25 2023-10-31 苏宁金融科技(南京)有限公司 Information extraction method, device and system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2014198595A1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391593A (en) * 2017-06-29 2017-11-24 努比亚技术有限公司 A kind of document handling method, mobile terminal and computer-readable recording medium
CN110222175A (en) * 2019-05-20 2019-09-10 北京语言大学 A kind of method and system constructing classification classification vocabulary based on entry writer's temperature

Also Published As

Publication number Publication date
WO2014198595A1 (en) 2014-12-18
FR3007164B1 (en) 2016-10-07
US20160140220A1 (en) 2016-05-19
FR3007164A1 (en) 2014-12-19

Similar Documents

Publication Publication Date Title
EP3008635A1 (en) Method for automatic thematic classification of a digital text file
Cheng et al. MMALFM: Explainable recommendation by leveraging reviews and images
US7765212B2 (en) Automatic organization of documents through email clustering
JP2021192241A (en) Prediction of potentially related topic based on retrieved/created digital medium file
EP1364316A2 (en) Device for retrieving data from a knowledge-based text
CN104765729B (en) A kind of cross-platform microblogging community account matching process
FR3043816A1 (en) METHOD FOR SUGGESTION OF CONTENT EXTRACTED FROM A SET OF INFORMATION SOURCES
CN106557476A (en) The acquisition methods and device of relevant information
Velásquez Web site keywords: A methodology for improving gradually the web site text content
EP3356955A1 (en) Method and system for searching for similar images that is nearly independent of the scale of the collection of images
Kabra et al. Convolutional neural network based sentiment analysis with tf-idf based vectorization
WO2007077378A1 (en) Assistance method and device for building the arborescence of an electronic document group
EP1665083A1 (en) Data processing method based on simple element dynamic structures
Rezaei et al. Sentiment analysis on Twitter using McDiarmid tree algorithm
KR102251612B1 (en) Method of managing categorized contents and system thereof
CN108021548A (en) A kind of recognition methods of affective characteristics and device
Malik et al. Self-refining targeted readings recommender system
Ssentumbwe et al. Low-resource youtube comment encoding for luganda sentiment classification performance
Naz et al. Twitter sentiment analysis using convolutional neural network
EP3114597B1 (en) Method for analysing a plurality of messages, and associated computer programme product and device
Sahu et al. Movie Rating Prediction and Viewers’ Sentiment Trend Analysis Using YouTube Trailer Comments
Saleh How Should You plan Your App's Features?: Selecting and Prioritizing A Mobile App's Initial Features Based on User Reviews
Abdelouhab et al. Une approche cellulaire de fusion d’ontologies
Vahdatnia et al. Monitoring of Digitization and Sustainability on Twitter
Maia et al. Using chained machine learning models for scientific articles recommendation

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20151214

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20170308

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20181126