FR3096157A1 - procédé d’indexation multidimensionnelle de contenus textuels - Google Patents

procédé d’indexation multidimensionnelle de contenus textuels Download PDF

Info

Publication number
FR3096157A1
FR3096157A1 FR1905077A FR1905077A FR3096157A1 FR 3096157 A1 FR3096157 A1 FR 3096157A1 FR 1905077 A FR1905077 A FR 1905077A FR 1905077 A FR1905077 A FR 1905077A FR 3096157 A1 FR3096157 A1 FR 3096157A1
Authority
FR
France
Prior art keywords
vectors
vector
textual content
digital
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1905077A
Other languages
English (en)
Inventor
Mirisaee Hamid
Cedric Lagnier
Eric Gaussier
Agnes Guerraz
Guillaume Emery
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Skopai
Universite Grenoble Alpes
Original Assignee
Skopai
Universite Grenoble Alpes
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Skopai, Universite Grenoble Alpes filed Critical Skopai
Priority to FR1905077A priority Critical patent/FR3096157A1/fr
Priority to PCT/FR2020/050766 priority patent/WO2020229760A1/fr
Publication of FR3096157A1 publication Critical patent/FR3096157A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L’invention porte sur un procédé d’indexation multidimensionnelle d’un contenu textuel numérique comportant : Une première étape d’extraction des mots dudit contenu textuel (6) pour constituer une table numérique de mots ; Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots les mots non signifiants ; Une troisième consistant à vectoriser chacun des mots pour construire une table de vecteurs à partir d’un modèle vectoriel (5) ; Une quatrième étape de calcul d’un vecteur unique fonction des vecteurs de ladite table de vecteurs. Selon l’invention, on procède en outre : à la constitution d’une table de vecteurs numériques voisins dudit vecteur unique ; au calcul d’une seconde représentation vectorielle du contenu textuel par combinaison des vecteurs voisins. Figure à publier avec l’abrégé : Fig. 1

Description

procédé d’indexation multidimensionnelle de contenus textuels
La présente invention concerne un procédé d’indexation multidimensionnelle automatique d’un contenu textuel numérique. L'indexation conduit à l'enregistrement des concepts contenus dans un document, sous une forme organisée et facilement accessible, permettant la recherche des informations enregistrées à partir de ces outils de recherche documentaire et les traitements automatiques d’analyse de grands volumes de documents pour procéder à des classifications, des regroupements par similarité de contenu, des ordonnancements et plus généralement tous types de traitements automatiques permettant d’exploiter de manière efficace et pertinente de grands volumes d’écrits.
L’indexation date du XVIème siècle et consistait initialement à établir une « table » des termes signifiants d’un ouvrage ou d’une collection d’ouvrages pour en faciliter l’accès. Très vite, les limites d’une telle démarche, menée de manière empirique par des documentalistes, sont apparues : En tête du tome V de ses Diversités (1610), Jean-Pierre Camus, l'évêque de Belley, dit son hostilité à la pratique de l'indexation, désignée alors par la « représentation tabulaire », et au mode de lecture qu'elle induit. « L’indexation est une erreur populaire, qui n'infecte que les faibles cerveaux, qui appellent cela l'âme du livre, et c'est l'instrument de leur stupidité. Ces gens peuvent être appelés Doctores tabularii, lesquels sapiunt tantum per Indices. Les enquerrez-vous de ce qu'ils savent? Ils vous demandent un livre pour le montrer, et aussitôt à la Table pour trouver ce qu'ils cherchent, les habiles appellent cela le pont aux ânes. »
Jean-Pierre Camus : « Les tables des tomes précédents de l'auteur, faites par je ne sais qui, et à son insu, lui déplaisent, sachant qu'il faut retrancher tant que l'on peut ce qui fomente la paresse, paresse mère de l'ignorance. »
Le développement de l’informatique a permis de palier partiellement au problème du biais cognitif induite par la culture personnelle des documentalistes humains, en automatisant les traitements par des approches totalement objectives. L’introduction de formats numériques de type XML a également conduit à l’enrichissement de textes avec des métadonnées facilitant l’indexation automatique de documents numériques.
Une nouvelle étape a été franchie par le développement des techniques d’indexation vectorielle, ouvrant la voie à des traitements automatiques pour permettre des recherches de similarité, de plus proches voisins, et d’accélérer l’accès à une grande collection de données par leurs positions dans un espace multidimensionnel.
A titre d’illustration, la thèse de Thierry Urruty « Optimisation de l'indexation multidimensionnelle : application aux descripteurs multimédia » soutenue en 2007 à l’université de Lille 1 présente les principes généraux des traitements de contenus multimédias ayant fait l’objet d’une indexation multidimensionnelle. La pertinence de ces approches est fortement dépendante de la qualité des traitements numériques de construction des représentations numériques d’un document textuel, et la présente invention concerne plus particulièrement cette étape essentielle du traitement automatique de contenus.
Plusieurs techniques d'indexation multidimensionnelle ont été développées. Elles reposent sur le même principe : regroupera prioriles données de la base de telle sorte que les données proches dans l'espace soient dans le même groupe, puis développer des algorithmes qui exploitenta posteriorila structure mise en place pour effectuer des recherches efficaces dans la base.
Ces techniques peuvent être classées en trois familles : les techniques basées sur le partitionnement des données, connues sous les appellations anglaises R*-tree, SR-tree, X-tree, etc., les techniques basées sur le partitionnement de l'espace, k-d-b-tree, LSD h-tree, PyramidTree, etc., et les techniques basées sur la compression, le VA-File et ses variantes.
Plusieurs travaux ont montré que ces techniques sont inefficaces dans les espaces de grande dimension pour diverses raisons. D'une part, les groupes de données sont généralement mal formés, car les procédures de structuration des données sont très sensibles à l'ordre d'insertion des vecteurs et à la distribution des données, et d'autre part, les procédures de recherche sont incapables de confiner la recherche à un petit sous-ensemble des données auquel il suffit d'accéder pour construire l'ensemble résultat. Ce dernier problème est dû principalement à la complexité de l'organisation, généralement arborescente, des groupes de données.
L'article intitulé “When is "nearest neighbor" meaningful ?” dans la revue Proceedings of the 7th International Conference on Database Theory, 217-235, Jerusalem, Israel, January 1999, de K. Beyer, J. Goldstein, R. Ramakrishnan and U. Shaft ou l'article "A quantitative analysis and performance study for similarity search methods in high-dimensional spaces" dans la revue Proceedings of the 24th International Conference on Very Large Data Bases, 194-205, New York City, New York, USA, August 1998, de R. Weber, H.-J. Schek and S. Blott, ont même montré que, dans certains cas, les performances des techniques connues en indexation multidimensionnelle sont inférieures à celles d'une simple recherche séquentielle.
ARRIERE PLAN TECHNOLOGIQUE DE L’INVENTION
On connaît par exemple du document EP3118751 une telle méthode. Elle comprend l'obtention d'un texte brut, par exemple du code source HTML extrait d'un site Web, et la préparation de ce texte brut pour former un contenu textuel exploitable (formatage, lemmatisation). Des mots-clés sont ensuite extraits du contenu textuel exploitable.
On connaît aussi le brevet européen délivré sous le numéro EP1828933 décrivant un procédé d'indexation de documents comprenant des étapes de stockage de ces documents dans au moins une arborescence de répertoires imbriqués les uns dans les autres à partir d'un répertoire racine, d'un espace de stockage, caractérisé en ce qu'il comprend en outre les étapes consistant à :
- pour chaque document mémorisé dans l'espace de stockage, indexer par un ordinateur le contenu sémantique du document et les noms des répertoires imbriqués dans lesquels le document est stocké,
- mémoriser le résultat de l'indexation dans une base d'indexation multidimensionnelle en association avec le document présent dans l'espace de stockage.
On connaît aussi le brevet français délivré sous le numéro FR2835940 qui a pour objet un procédé de recherche des k plus proches voisins d'un vecteur requête q dans une base de données multidimensionnelle de N vecteurs comprenant une phase de structuration de la base en clusters pour le regroupement des vecteurs et une phase de recherche, caractérisé en ce qu'il comprend les étapes suivantes :
- calcul de la distance Dppc (C, p) du centre de gravité d'un cluster C de la base au pième plus proche vecteur voisin parmi les vecteurs du cluster, p étant un entier naturel supérieur ou égal à k,
- calcul de la distance distc (C, q) du vecteur requête q au centre de gravité du cluster C,
- calcul de la somme distPc (C, q, p) des distances distc (C, q) et Dppc (C, p),
- calcul, sur l'ensemble des clusters C de la base, de la plus petite valeur distPc (C, q, p),
- élimination des clusters C de la base dont la distance mindist (C, q), qui est la plus petite distance entre le vecteur requête q et la sphère englobante du cluster C, est supérieure à la plus petite valeur distPc.
Inconvénients de l’art antérieur
Le problème à résoudre concerne le calcul d’une représentation vectorielle d’un document à contenu textuel ne se limitant pas à l’exploitation de ce contenu textuel uniquement, pour permettre un positionnement dans un espace multidimensionnel homogène par rapport au positionnement d’autre documents à contenu textuel.
Dans les solutions de l’art antérieur, chaque document fait l’objet d’un traitement sur la base de son propre contenu, pour calculer une représentation vectorielle qui fait ensuite l’objet de comparaison avec la représentation vectorielle d’autres documents, par des calculs de distance euclidienne dans un espace multidimensionnel commun.
La plupart des documents analysés sont élaborés de manière indépendante, chaque rédacteur d’un document ayant son propre vocabulaire, ses propres biais cognitifs et son propre contexte thématique, ce qui se traduit par des contenus dont les termes constitutifs et la structuration ne sont pas harmonisés. Les traitements automatiques appliqués sur la base des indexations multidimensionnelles de l’art antérieur sont donc peu fiables et conduisent à des résultats très approximatifs voire erronés.
OBJET DE L’INVENTION
La présente invention, en s'appuyant sur le formalisme du plongement de mot, cherche donc, par calcul arithmétique sur des vecteurs, à établir au moins un vecteur représentatif d'un contenu textuel, ce vecteur ne faisant pas nécessairement partie des vecteurs associés à un mot-clé du champ lexical du document. Autrement dit, la présente invention propose d'indexer automatiquement, par des vecteurs qui peuvent être représentatifs de mots-clés, un document ou une collection de documents. Ces vecteurs et ces mots-clés sont représentatifs du contenu des documents sans correspondre précisément aux mots qu’ils contiennent.
BREVE DESCRIPTION DE L’INVENTION
En vue de la réalisation de ce but, l’objet de l’invention propose selon son acception la plus générale un procédé d’indexation multidimensionnelle d’un contenu textuel numérique comportant :
  • Une première étape d’extraction des mots dudit contenu textuel pour constituer une table numérique de mots ;
  • Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots les mots non signifiants ;
  • Une troisième étape consistant à vectoriser chacun des mots pour construire une table de vecteurs à partir d’un modèle vectoriel ;
  • Une quatrième étape de calcul d’un vecteur unique fonction des vecteurs de ladite table de vecteurs.
Selon l’invention, on procède en outre :
  • à la constitution d’une table de vecteurs numériques voisins dudit vecteur unique ;
  • au calcul d’une seconde représentation vectorielle du contenu textuel par combinaison des vecteurs voisins.
De manière préférée, la table de vecteurs numériques voisins dudit vecteur unique est établie par :
  • la constitution d’une première table de vecteurs numériques voisins dudit vecteur unique ;
  • le calcul d’un ensemble de N-uplets de vecteurs par combinaisons desdits vecteurs de la première table ;
  • au calcul, pour chacun desdits N-uplets de vecteurs, d’un vecteur nouveau unique pour former la table de vecteurs numériques voisins.
Selon une variante de ce mode préféré, le procédé comporte une étape additionnelle de sélection d’au moins un vecteur, parmi les vecteurs nouveaux uniques, présentant la plus forte occurrence pour former une table de vecteurs numériques voisins.
Selon une première variante, ladite table de vecteurs comporte en outre un indicateur Oifonction du nombre d’occurrence du mot Mi associé au vecteur Vi, dans ledit contenu textuel.
Selon une deuxième variante, non exclusive de la précédente, ladite table de vecteurs comporte en outre un indicateur Fifonction du nombre d’apparition du mot Miassocié au vecteur Vi, dans ledit modèle vectoriel.
Avantageusement, ladite quatrième étape de calcul d’un vecteur unique fonction des vecteurs de ladite table de vecteurs consiste à calculer la moyenne desdits vecteurs.
De préférence, ladite quatrième étape de calcul d’un vecteur unique fonction des vecteurs de ladite table de vecteurs consiste à calculer le barycentre pondéré en fonction desdits indicateurs Oiet/ou Fidesdits vecteurs.
Selon un mode de réalisation particulier, ladite deuxième étape de filtrage consiste supprimer de ladite table numérique de mots les mots du texte brut non compris dans le dictionnaire d'entrée du modèle vectoriel pour former le contenu textuel.
Dans un exemple d’application particulier, le procédé comprend de plus les étapes suivantes :
- identifier dans le modèle linguistique un premier nombre de vecteurs les plus proches du vecteur unique ;
- identifier dans le modèle linguistique un second nombre de vecteurs les plus proches de la deuxième représentation vectorielle ;
– retenir les vecteurs communs au premier et au deuxième nombre de vecteurs pour former au moins en partie une liste des vecteurs clés.
Avantageusement, la liste des vecteurs clés comprend également des vecteurs issus d'une analyse par graphe du contenu textuel.
Selon un mode de réalisation particulier, les vecteurs clés de la liste des vecteurs clés sont associés à un degré de pertinence.
Avantageusement, le degré de pertinence est une similarité cosinus entre le vecteur clé et le vecteur unique ou la deuxième représentation vectorielle.
L’invention concerne aussi un procédé de regroupement de contenus textuels caractérisé en ce que l’on procède pour chacun desdits contenus textuels à une indexation multidimensionnelle susvisée et en ce que l’on associe un indicateur de regroupement aux contenus textuels dont les secondes représentations vectorielles présentent entre eux une distance euclidienne inférieure à une valeur seuil.
L’invention concerne encore un procédé de recherche de contenus similaires à un document de référence caractérisé en ce que l’on procède pour une collection de contenus textuels ainsi que pour ledit document de référence à une indexation multidimensionnelle précitée et en ce que l’on recherche les contenus textuels dont la seconde représentation vectorielle associée est la plus proche de la seconde représentation vectorielle associée audit document de référence.
L’invention concerne aussi un procédé de représentation graphique du positionnement de documents à contenu textuel caractérisé en ce que l’on procède pour une collection de contenus textuels à une indexation multidimensionnelle susvisée et en ce que l’on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l’interface graphique étant une fonction de la distance euclidienne entre les secondes représentations vectorielles de chacun desdits documents.
D’autres caractéristiques et avantages de l’invention ressortiront de la description détaillée de l’invention qui va suivre en référence aux figures annexées sur lesquels :
La figure 1 représente un environnement informatique permettant de mettre en œuvre un procédé d'extraction de mots-clés conforme à l'invention ;
La figure 2 représente le logigramme d’un procédé d’indexation conforme à l’invention.
On a représenté sur la figure 1, un environnement informatique permettant de mettre en œuvre un procédé conforme à l'invention.
Une unité de traitement informatique 1 est configurée pour exécuter un programme informatique. Elle est reliée à des moyens de stockage de données 2 et connectée à un réseau informatique 3, par exemple le réseau Internet. L’unité de traitement informatique 1 dispose par ailleurs de toutes les interfaces d'entrée-sortie conventionnelles (écran, clavier, ports de communication,…).
Ces moyens informatiques donnent notamment accès à des ressources documentaires 4, tels que des sites Web accessibles via le réseau 3 ou des fichiers de texte enregistrés dans les moyens de stockage 2. Ces ressources documentaires 4 constituent des textes bruts qui peuvent former des données d'entrée du procédé qui fait l’objet de la présente description.
Modèle linguistique multidimensionnel
On dispose également, par exemple enregistré dans les moyens de stockage 2 de l’environnement informatique de la figure 1, d’un modèle linguistique vectoriel 5 mettant respectivement en correspondance les mots d’un dictionnaire avec des vecteurs.
Le modèle vectoriel vise à représenter documents et requêtes comme des vecteurs dans un espace à n dimensions.
Comme cela a été précisé en introduction, ce modèle linguistique qui peut se présenter sous la forme d’une simple table de donnée mots – vecteurs, associe des mots linguistiquement proches à des vecteurs également proches dans l'espace multidimensionnel dans lequel ces vecteurs sont définis. La dimension de l'espace vectoriel de définition des vecteurs peut être très importante, typiquement de plusieurs centaines. La mesure de proximité de deux vecteurs dans cet espace peut être déterminée par une mesure de similarité de ces deux vecteurs, par exemple la mesure de similarité cosinus.
Le modèle linguistique vectoriel 5 peut être un modèle préexistant et accessible publiquement. Mais avantageusement, lorsque le procédé d’extraction de mots-clés vise un domaine d’application spécifique, le modèle linguistique vectoriel 5 a été préalablement élaboré à partir d'un corpus de documents de ce domaine d'application. On pourra se référer au document de la littérature citée en introduction de cette demande pour obtenir le détail d'implémentation permettant de constituer, par apprentissage, un tel modèle linguistique vectoriel à partir d'un corpus de documents choisis.
Extraction des mots
Dans une étape préliminaire du procédé d’extraction, on fournit un texte brut 4 que l'on prépare pour former un contenu textuel 6 exploitable de type table numérique de mots [M1; M2; … ; Mi], dont le format et le contenu sont adaptés à son futur traitement. Cette étape de fourniture peut être mise en œuvre par un module logiciel d'extraction enregistré dans les moyens de stockage 2 et s'exécutant sur l'unité de traitement 1. Ce module accède au texte brut 4 à partir par exemple d’adresse Web ou de chemins d'accès aux moyens de stockages 2 qui lui sont fournis. Ce module peut consister ou comprendre un robot d’indexation (« web crawler », selon la terminologie anglo-saxonne usuelle dans ce domaine) qui explore automatiquement le réseau pour collecter des ressources documentaires 4 d’intérêt. Le texte brut 4 est préparé, au cours d’une étape de filtrage opérée par le module logiciel d’extraction, par des opérations classiques d'élimination de mots non signifiants tels que les conjonctions de coordination, par lemmatisation, ou par toute autre opération permettant d’établir un contenu textuel ne comportant que des mots connus du modèle linguistique 5.
Généralement, le dictionnaire de mots formant l’entrée du modèle linguistique 5 est établi dans une langue déterminée, ce qui ne permet pas de traiter des textes bruts exprimés dans d’autres langues. Pour traiter cette situation de textes bruts en langue étrangère, l’invention prévoit une étape de traduction. Cette étape de traduction s’appuie sur une pluralité de modèles de traduction vectoriels, un par langue que l’on souhaite traiter. Chaque modèle de traduction est similaire au modèle linguistique vectoriel 5, et associe un mot à un vecteur dans un espace multidimensionnel, par exemple par l’intermédiaire d’une table de mise en correspondance. Les modèles de traduction et le modèle linguistique sont cohérents entre eux, c’est-à-dire que deux mots identiques dans des langues différents sont respectivement reliés à des vecteurs identiques ou très proches. Il existe de nombreux modèles de traduction préexistants et librement disponibles. Pour traiter un texte brut en langue étrangère, on emploie le modèle de traduction correspondant à cette langue pour transformer tous les mots en vecteurs, puis on applique le modèle linguistique pour effectuer la transformation inverse, i.e. transformer les vecteurs en mots. On peut de la sorte revenir à un texte brut qui s’exprime dans la langue du modèle linguistique, et on peut y appliquer les traitements préliminaires permettant de fournir le contenu textuel.
On dispose donc, à l'issue de cette étape préliminaire, de données exploitables 6, désignées par « contenu textuel » dans la suite de cette description, qui peut se présenter sous la forme d’une chaine ou table numérique de mots uniques Mienregistrés dans les moyens de stockage 2, et dont le format et le contenu sont réguliers. Le contenu textuel 6 associé à un texte brut 4 peut être composé d’un grand nombre de mots, plusieurs centaines, voire plusieurs milliers. Le contenu textuel 6 associé à un texte brut d’origine peut donc être traité de manière systématique par les étapes suivantes du procédé.
L’étape préliminaire mise en œuvre par le module d’extraction peut effectuer d’autres opérations sur le texte brut 4 d’origine, comme par exemple déterminer le coefficient numérique de TF-IDF («term frequency-inverse document frequency» ou Fréquence d’un Terme – Fréquence inverse de document) des mots composant le contenu textuel. Ce coefficient, dont le calcul est bien connu dans le domaine, vise à mesurer numériquement l’importance d’un mot dans un document. Ces coefficients peuvent être enregistrés conjointement avec les mots extraits du texte brut 4 traité, sous la forme d’une structure de données adéquate constituant le contenu textuel 6.
Les facteurs TF et IDF permettent de considérer les pondérations locales et globales d’un terme. On distingue la fréquence d’apparition d’un terme dans un document (term frequency, TF) et la fréquence d’apparition de ce même terme dans toute la collection considérée (inverse document frequency, IDF). La mesure TFIDF permet d’approximer la représentativité d’un terme dans un document, surtout dans les corpus de documents de tailles homogènes.
L’étape d’extraction aboutit à une table de mots Miassociés optionnellement à un indicateur d’occurrence Oifonction du nombre d’occurrences du mot Miconsidéré dans le document origine ainsi qu’à un indicateur de fréquence Fifonction de la fréquence d’apparition du mot Miconsidéré dans le corpus constituant le modèle vectoriel 5.
Dans une étape suivante du procédé d’extraction, on cherche à établir une première représentation VU du contenu textuel 6. Pour cela, on détermine le vecteur Vicorrespondant à chaque mot unique Micomposant le contenu textuel 6 à l’aide du modèle linguistique vectoriel 5. Puis, on combine ensemble numériquement les vecteurs Vide mots pour former cette première représentation vectorielle VU du contenu textuel 6.
La combinaison peut correspondre à une simple moyenne, mais préférablement cette combinaison numérique est un calcul de barycentre pour lequel on pondère chaque vecteur Vide mot Mid’une mesure d’importance du mot correspondant, par exemple Oiet/ou Fi, c’est à dire les coefficients numériques de TF et/ou IDF de ce mot Midans le texte brut 4, qui a pu être établi par le module logiciel d'extraction au cours de l’étape préliminaire du procédé.
À l'issue de cette étape, on dispose donc d'un premier vecteur unique VU représentatif du contenu textuel 6 traité.
On note que ce premier vecteur unique VU, calculé numériquement, ne correspond pas nécessairement à un mot existant dans le modèle linguistique, mais il découle toutefois très directement des mots du contenu textuel 6.
Pour tenter de se détacher du champ lexical précisément employé dans le texte brut 4 et qui se retrouve dans le contenu textuel 6, un procédé conforme à la présente description prévoit plusieurs étapes complémentaires cherchant à fournir une seconde représentation vectorielle VUalphadu contenu textuel, qui s'affranchisse justement des mots extraits du contenu textuel 6.
Enrichissement de la représentation vectorielle
Ainsi, au cours d’une nouvelle étape du procédé, on établit une liste de vecteurs voisins VVjde la première représentation vectorielle VU.
On peut s'appuyer pour cela sur le modèle linguistique vectoriel 5, en établissant par exemple un coefficient de similarité entre le premier vecteur unique représentatif VU et chaque vecteur composant ce modèle 5. Comme on l’a vu, ce coefficient de similarité peut être calculé pratiquement comme une mesure de similarité cosinus. Cela permet de déterminer très aisément la liste de vecteurs de ce modèle 5 situés dans un voisinage du premier vecteur représentatif VU, c’est-à-dire dont le degré de similarité est inférieur à un seuil prédéterminé. Alternativement cette liste de vecteurs peut présenter une taille prédéterminée, et dans ce cas on choisit les vecteurs voisins VVjcomme les vecteurs du modèle 5 dont les degrés de similarité avec le premier vecteur représentatif VU sont les plus faibles.
Il existe de nombreuses autres manières permettant d'établir cette liste. Dans un exemple avantageux, on forme dans un premier temps une première liste de N vecteurs du modèle linguistique 5 les plus proches du premier vecteur représentatif VU. Pour chacun des vecteurs de la première liste, on recherche à nouveau les M vecteurs les plus proches dans le modèle linguistique 5, et on forme une seconde liste qui réunisse ces N*M vecteurs. N et M peuvent par exemple être compris entre 5 et 20, typiquement 10 On collecte de la sorte, dans la seconde liste, les vecteurs présents dans le voisinage du voisinage du premier vecteur représentatif VU, et on s'assure de capturer une grande variété de vecteurs et donc de se détacher du contenu textuel 6 ou du texte brut 4 d'origine.
On pourrait d’ailleurs prévoir de poursuivre un plus grand nombre de fois cette récurrence pour diversifier encore plus la seconde liste des vecteurs ou d'appliquer d'autres approches, en complément au remplacement de celle qui sont proposées, pour accroitre encore cette diversité.
La seconde liste de vecteurs peut présenter une taille particulièrement importante, et comporter des vecteurs insignifiants. Aussi, la liste des vecteurs voisins VVjde la première représentation vectorielle VU qui est établie au cours de cet exemple ne correspond pas exactement, dans un mode préféré de mise en œuvre du procédé, à la seconde liste. La liste des vecteurs voisins VVjde la première représentation vectorielle VU est préférentiellement établie en choisissant dans la seconde liste le groupe de vecteurs ayant la plus grande occurrence. On peut ainsi choisir, et à titre d’exemple, 5 à 10 vecteurs pour former la liste des vecteurs voisins VVjdu premier vecteur représentatif VU d’un contenu textuel 6.
Dans un autre exemple avantageux pour former une table de vecteurs voisins VVj, on forme dans un premier temps, et tout comme dans l’exemple précédent, une première table de vecteurs du modèle linguistique 5 les plus proches du premier vecteur représentatif VU. On calcule ensuite des combinaisons de vecteurs de la première table pour former des N-uplets de N vecteurs VVjalphade la première table, dont on calcule, pour chaque N-uplet, la moyenne ou barycentre sous la forme d’un vecteur nouveau unique VNalpha .Il peut ainsi s’agir de déterminer tous les N-uplets possibles dans cette première liste ou une partie de ceux-ci uniquement. On désigne par K le nombre de N-uplets déterminés et donc de vecteurs nouveaux uniques VNalphadéterminés. Pour chacun des vecteurs VNalpha, on recherche à nouveau les M vecteurs les plus proches dans le modèle linguistique 5, et on forme une seconde liste qui réunisse ces K*M vecteurs. On collecte de la sorte une grande variété de vecteurs. Tout comme dans l’exemple précédent, la liste des vecteurs voisins VVjde la première représentation vectorielle VU est préférentiellement établie en choisissant dans la seconde liste le groupe de vecteurs ayant la plus grande occurrence. On peut ainsi choisir, et à titre d’exemple, 5 à 10 vecteurs pour former la liste des vecteurs voisins VVjdu premier vecteur représentatif VU d’un contenu textuel 6.
Quelle que soit la méthode choisie pour élaborer la liste des vecteurs voisins VVj, on peut alors combiner numériquement entre eux les vecteurs formant cette liste, par exemple à l’aide d’une simple moyenne, pour établir une seconde représentation vectorielle sous la forme d’un second vecteur unique représentatif VUalphadu contenu textuel.
Ce vecteur VUalpha, tout comme la première représentation vectorielle VU, ne correspond pas nécessairement à un mot du dictionnaire d'entrée du modèle linguistique vectoriel 5. Aussi, dans un exemple d’application, pour établir au moins un mot-clé à partir de ces vecteurs représentatifs VU, VUalpha, il est donc nécessaire de les projeter dans le référentiel défini par le modèle linguistique vectoriel 5 en vue d'obtenir au moins un vecteur représentatif associé dans ce modèle à au moins un mot du dictionnaire d’entrée. Ce ou ces mots formera le mot-clé extrait du contenu textuel 6, qui en est représentatif et qui peut permettre, par exemple, de l’indexer.
Extraction de vecteurs et mots clés
A cet effet, le procédé peut comprendre une étape additionnelle visant à former une liste de vecteurs-clés, contenue dans le modèle linguistique vectoriel 5, cette liste de vecteurs-clés comprenant des vecteurs proches de la première et de la deuxième représentation VU, VUalpha.
Pour cela, on peut par exemple identifier respectivement dans le modèle linguistique vectoriel 5, un premier nombre et un deuxième nombre de vecteurs les plus proches de la première représentation VU et de la deuxième représentation VUalpha. À nouveau, on pourra faire usage dans ce traitement du calcul de proximité par similarité cosinus. Puis on retient les vecteurs communs à ce premier et second nombre de vecteurs, c'est-à-dire que l'on prend l'intersection de ces deux ensembles pour former au moins en partie la liste des vecteurs-clés. Le premier et le deuxième nombre de vecteurs peuvent être choisis assez librement, par exemple entre 10 et 200.
Dans une étape suivante du procédé, on peut transformer cette liste de vecteurs clés, ou une partie de celle-ci, en une liste de mots-clés, en s’appuyant sur le modèle linguistique vectoriel 5. Cette liste peut ainsi former les mots-clés indexant le contenu textuel qui vient d’être traité.
De préférence toutefois, on préférera fournir un nombre plus limité de mots-clés que le nombre de vecteurs composant la liste de vecteurs-clés. Le procédé comprend alors une étape de sélection d'au moins un vecteur-clé dans la liste. Pour opérer cette sélection, on peut ordonner les vecteurs-clés par ordre décroissant de proximité avec les premier et deuxième vecteurs représentatifs VU et VUalpha. La sélection consiste alors à prendre en tout premier lieu les vecteurs-clés présentant la plus grande proximité. On s'assure de la sorte de la pertinence des mots-clés choisis. En d’autres termes, on choisit au moins un vecteur clé dans la liste des vecteurs clés et on établit au moins un mot-clé représentatif du contenu textuel 6 en déterminant, à l'aide du modèle linguistique, le(s) mot(s)-clé(s) correspondant au(x) vecteur(s)-clé(s) choisi(s).
La liste de vecteurs-clés peut être complétée par d'autres méthodes, de manière à ce que la sélection soit le plus riche possible. Par exemple, la liste des mots-clés peut être augmentée des mots-clés issus d'une analyse par graphe du contenu textuel 6, comme cela a été présenté en introduction de la demande.
Un procédé conforme à la présente description peut trouver de nombreuses autres applications.
Il peut par exemple s’appliquer au regroupement de contenus textuel. Dans cet exemple, on applique le procédé d’indexation multidimensionnelle qui vient d’être présenté à des contenus textuels disponibles, et l’on associe un indicateur de regroupement R aux contenus dont les secondes représentations vectorielles VUalphaprésentent entre elles une distance euclidienne inférieure à une valeur seuil D, qui peut être prédéterminée.
Il peut également s’appliquer à la recherche de contenus similaires à un document de référence. On procède alors pour une collection de contenus textuels ainsi que pour ledit document de référence à l’indexation multidimensionnelle précitée et l’on recherche les contenus textuels dont la seconde représentation vectorielle VUalphaassociée est la plus proche du vecteur unique associé audit document de référence.
Dans un autre exemple d’application, on peut former une représentation graphique du positionnement de documents à contenu textuel. On procède pour une collection de documents à contenus textuels à l’indexation multidimensionnelle susvisée et l’on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l’interface graphique étant une fonction de la distance, par exemple euclidienne, ou la similarité entre les secondes représentations vectorielles VUalphade chacun desdits documents.
Bien entendu l'invention n'est pas limitée au mode de mise en œuvre décrit et on peut y apporter des variantes de réalisation sans sortir du cadre de l'invention tel que défini par les revendications.
Il est à noter que les procédés décrits ici ont vocation à être mis en œuvre par des instructions, stockées sur un support lisible par ordinateur, et exécutées par une machine, un appareil ou un dispositif d'exécution d'instructions, tel qu’un ordinateur, une machine basée sur ordinateur ou contenant un processeur.

Claims (15)

  1. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique, le procédé étant mis en œuvre par un dispositif d'exécution d'instructions, et comportant :
    • Une première étape d’extraction des mots dudit contenu textuel (6) pour constituer une table numérique de mots (Mi) ;
    • Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots (Mi) les mots non signifiants ;
    • Une troisième étape consistant à vectoriser chacun des mots (Mi) pour construire une table de vecteurs (Vi) à partir d’un modèle vectoriel (5) ;
    • Une quatrième étape de calcul d’un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) ;
    caractérisé en ce que l’on procède en outre :
    • à la constitution d’une table de vecteurs numériques voisins (VVj) dudit vecteur unique (VU) ;
    • au calcul d’une seconde représentation vectorielle (VUalpha) du contenu textuel par combinaison des vecteurs voisins (VVj).
  2. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon la revendication 1 dans lequel la table de vecteurs numériques voisins (VVj) dudit vecteur unique (VU) est établie par :
    • la constitution d’une première table de vecteurs numériques voisins dudit vecteur unique (VU) ;
    • le calcul d’un ensemble de N-uplets de vecteurs (VVjalpha) par combinaisons desdits vecteurs de la première table ;
    • au calcul, pour chacun desdits N-uplets de vecteurs (VVjalpha), d’un vecteur nouveau unique (VNalpha) pour former la table de vecteurs numériques voisins (VVj).
  3. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon la revendication précédente caractérisé en ce qu’il comporte une étape additionnelle de sélection d’au moins un vecteur, parmi les vecteurs nouveaux uniques (VNalpha), présentant la plus forte occurrence pour former une table de vecteurs numériques voisins (VVj).
  4. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon l’une des revendications précédentes caractérisé en ce que ladite table de vecteurs (Vi) comporte en outre un indicateur d’occurrence (Oi) fonction du nombre d’occurrences du mot Miassocié au vecteur Vi, dans ledit contenu textuel.
  5. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon l’une des revendications précédentes caractérisé en ce que ladite table de vecteurs (Vi) comporte en outre un indicateur de fréquence (Fi) fonction du nombre d’apparitions du mot Miassocié au vecteur Vi, dans le corpus constituant ledit modèle vectoriel (5).
  6. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon l’une des revendications 1 à 3 caractérisé en ce que ladite quatrième étape de calcul d’un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) consiste à calculer la moyenne desdits vecteurs (Vi).
  7. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon la revendication 4 ou 5 caractérisé en ce que ladite quatrième étape de calcul d’un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) consiste à calculer le barycentre pondéré en fonction desdits indicateurs d’occurrence (Oi) et/ou de fréquence (Fi) desdits vecteurs (Vi).
  8. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon l’une des revendications précédentes dans lequel ladite deuxième étape de filtrage consiste à supprimer de ladite table numérique de mots (Mi) les mots du texte brut non compris dans le dictionnaire d'entrée du modèle vectoriel (5) pour former le contenu textuel (6).
  9. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon l’une des revendications précédentes.comprenant les étapes suivantes :
    - identifier dans le modèle linguistique (5) un premier nombre de vecteurs les plus proches du vecteur unique (VU) ;
    - identifier dans le modèle linguistique un second nombre de vecteurs les plus proches de la seconde représentation vectorielle (VUalpha) ;
    – retenir les vecteurs communs au premier et au deuxième nombre de vecteurs pour former au moins en partie une liste des vecteurs clés.
  10. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon la revendication précédente dans lequel la liste des vecteurs clés comprend également des vecteurs issus d'une analyse par graphe du contenu textuel (6).
  11. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon l’une des deux revendications précédentes dans lequel les vecteurs clés de la liste des vecteurs clés sont associés à un degré de pertinence.
  12. Procédé d’indexation multidimensionnelle d’un contenu textuel numérique selon la revendication précédente, dans lequel le degré de pertinence est une similarité cosinus entre le vecteur clé et le vecteur unique (VU) ou la deuxième représentation vectorielle (VUalpha).
  13. Procédé de regroupement de contenus textuels caractérisé en ce que l’on procède pour chacun desdits contenus textuels à une indexation multidimensionnelle selon l’une au moins des revendications 1 à 11 et en ce que l’on associe un indicateur de regroupement (R) aux contenus textuels dont les secondes représentations vectorielles (VUalpha) présentent entre eux une distance euclidienne inférieure à une valeur seuil (D).
  14. Procédé de recherche de contenus similaires à un document de référence caractérisé en ce que l’on procède pour une collection de contenus textuels ainsi que pour ledit document de référence à une indexation multidimensionnelle selon l’une au moins des revendications 1 à 11 et en ce que l’on recherche les contenus textuels dont la seconde représentation vectorielle (VUalpha) associée est la plus proche de la seconde représentation vectorielle (VUalpha) associée audit document de référence.
  15. Procédé de représentation graphique du positionnement de documents à contenu textuel caractérisé en ce que l’on procède pour une collection de contenus textuels à une indexation multidimensionnelle selon l’une au moins des revendications 1 à 11 et en ce que l’on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l’interface graphique étant une fonction de la distance euclidienne entre les secondes représentations vectorielles (VUalpha) de chacun desdits documents.
FR1905077A 2019-05-15 2019-05-15 procédé d’indexation multidimensionnelle de contenus textuels Pending FR3096157A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1905077A FR3096157A1 (fr) 2019-05-15 2019-05-15 procédé d’indexation multidimensionnelle de contenus textuels
PCT/FR2020/050766 WO2020229760A1 (fr) 2019-05-15 2020-05-11 Procede d'indexation multidimensionnelle de contenus textuels

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1905077 2019-05-15
FR1905077A FR3096157A1 (fr) 2019-05-15 2019-05-15 procédé d’indexation multidimensionnelle de contenus textuels

Publications (1)

Publication Number Publication Date
FR3096157A1 true FR3096157A1 (fr) 2020-11-20

Family

ID=67957046

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1905077A Pending FR3096157A1 (fr) 2019-05-15 2019-05-15 procédé d’indexation multidimensionnelle de contenus textuels

Country Status (2)

Country Link
FR (1) FR3096157A1 (fr)
WO (1) WO2020229760A1 (fr)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835940A1 (fr) 2002-02-08 2003-08-15 Thomson Licensing Sa Procede de recherche des plus proches voisins d'un vecteur requete
EP1828933A1 (fr) 2004-12-02 2007-09-05 France Telecom Procede et systeme de gestion dynamique de connaissances
EP2624149A2 (fr) * 2012-02-02 2013-08-07 Xerox Corporation Traitement de documents utilisant une modélisation thématique probabiliste de documents représentés sous forme de mots textuels transformés en un espace continu
EP3118751A1 (fr) 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
US20180300295A1 (en) * 2017-04-14 2018-10-18 Digital Genius Limited Automated tagging of text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2835940A1 (fr) 2002-02-08 2003-08-15 Thomson Licensing Sa Procede de recherche des plus proches voisins d'un vecteur requete
EP1828933A1 (fr) 2004-12-02 2007-09-05 France Telecom Procede et systeme de gestion dynamique de connaissances
EP2624149A2 (fr) * 2012-02-02 2013-08-07 Xerox Corporation Traitement de documents utilisant une modélisation thématique probabiliste de documents représentés sous forme de mots textuels transformés en un espace continu
EP3118751A1 (fr) 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
US20180300295A1 (en) * 2017-04-14 2018-10-18 Digital Genius Limited Automated tagging of text

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JON EZEIZA ALVAREZ: "A review of word embedding and document similarity algorithms applied to academic text", 22 October 2017 (2017-10-22), XP055634328, Retrieved from the Internet <URL:https://pdfs.semanticscholar.org/0502/05c30069de7df8164f2e4a368e6fa2b804d9.pdf> [retrieved on 20191021] *
JULIAN BRENDL: "Keyword Based Document Retrieval via Document Embeddings", 15 June 2018 (2018-06-15), XP055634324, Retrieved from the Internet <URL:http://isl.anthropomatik.kit.edu/cmu-kit/downloads/julianbrendl_bachelorarbeit.pdf> [retrieved on 20191021] *

Also Published As

Publication number Publication date
WO2020229760A1 (fr) 2020-11-19

Similar Documents

Publication Publication Date Title
RU2324220C2 (ru) Оснащение пользовательского интерфейса расширением поисковых запросов
US8983954B2 (en) Finding data in connected corpuses using examples
FR2821186A1 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
Bernardini et al. A WaCky introduction
EP2188744B1 (fr) Installation de gestion d&#39;une base de données
US20120162244A1 (en) Image search color sketch filtering
FR3043816B1 (fr) Procede de suggestion de contenus extraits d’un ensemble de sources d’information
FR2853747A1 (fr) Controle dans un reseau neuronal pour ameliorer une recherche de texte
Barbaresi Ad hoc and general-purpose corpus construction from web sources
EP3005171A1 (fr) Procédé de recherche dans une base de données
FR3096157A1 (fr) procédé d’indexation multidimensionnelle de contenus textuels
Ibekwe‐SanJuan Constructing and maintaining knowledge organization tools: a symbolic approach
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
EP1334444A1 (fr) Procede de recherche, de selection et de representation cartographique de pages web
WO2013117872A1 (fr) Procede d&#39;identification d&#39;un ensemble de phrases d&#39;un document numerique, procede de generation d&#39;un document numerique, dispositif associe
Molková Indexing very large text data
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
Zhang et al. Python-Based Unstructured Data Retrieval System
Smits et al. Personal semantic indexation of images using textual annotations
FR3041125A1 (fr) Generateur automatique de document de synthese et moteur de recherche l&#39;utilisant
FR3136298A1 (fr) Procede d’association d’une donnee a un document numerique, systeme associe
WO2019034452A1 (fr) Procede de completion de requete sql
WO2007088254A1 (fr) Systeme d&#39;information structure, relationnel et incremental
Ibekwe-SanJuan Clustering semantic relations for constructing and maintaining knowledge organization tools
WO2015055307A1 (fr) Procede de decouverte d&#39;un ensemble de sources definissant des pages web

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20201120

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5