FR3132155A3 - Method for automatically selecting and displaying the selection of a significant digest in textual content - Google Patents

Method for automatically selecting and displaying the selection of a significant digest in textual content Download PDF

Info

Publication number
FR3132155A3
FR3132155A3 FR2200594A FR2200594A FR3132155A3 FR 3132155 A3 FR3132155 A3 FR 3132155A3 FR 2200594 A FR2200594 A FR 2200594A FR 2200594 A FR2200594 A FR 2200594A FR 3132155 A3 FR3132155 A3 FR 3132155A3
Authority
FR
France
Prior art keywords
digital
text
vectors
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2200594A
Other languages
French (fr)
Inventor
David DUTOUR
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enno Ai
Original Assignee
Enno Ai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enno Ai filed Critical Enno Ai
Priority to FR2200594A priority Critical patent/FR3132155A3/en
Publication of FR3132155A3 publication Critical patent/FR3132155A3/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

L’invention concerne un procédé de sélection automatique et d’affichage de la sélection d’un condensé significatif, comprenant la mise en œuvre des étapes suivantes par le dispositif numérique : -une étape (301) numérique d’extraction des mots du texte à analyser ; -une étape (302) de filtrage numérique ; -une étape (303) de génération d’une table de concepts (103); -une étape (304) de vectorisation numérique des concepts ; -une étape (305) de calcul numérique d’une table (105) de vecteurs de segments ; -une étape (306) de calcul numérique d’un vecteur unique pour un texte de référence; -pour chacun desdits segments du texte, une étape (307) de calcul de la distance entre son vecteur unique et le vecteur unique du texte de référence ; -une étape (308) de sélection numérique des vecteurs uniques des segments ayant une distance inférieure à un seuil prédéfini. Figure à publier avec l’abrégé : Fig. 7The invention relates to a method for automatically selecting and displaying the selection of a significant digest, comprising the implementation of the following steps by the digital device: a digital step (301) for extracting the words from the text to analyze ; -a step (302) of digital filtering; -a step (303) for generating a table of concepts (103); a step (304) of digital vectorization of the concepts; -a step (305) of digital calculation of a table (105) of segment vectors; -a step (306) of digital calculation of a unique vector for a reference text; for each of said text segments, a step (307) of calculating the distance between its unique vector and the unique vector of the reference text; -a step (308) of digital selection of the unique vectors of the segments having a distance less than a predefined threshold. Figure to be published with abstract: Fig. 7

Description

Procédé de sélection automatique et d’affichage de la sélection d’un condensé significatif dans un contenu textuelMethod for automatically selecting and displaying the selection of a significant digest in textual content

L’invention concerne l’assistance à l’analyse de contenus textuels de grands volumes, tels que des contrats, textes légaux, thèses scientifiques ou rapports annuels de sociétés, et en particulier les outils d’aide à la sélection automatique de condensés significatifs dans ces contenus textuels.The invention relates to assistance in the analysis of large volumes of textual content, such as contracts, legal texts, scientific theses or annual company reports, and in particular tools for assisting in the automatic selection of significant digests in these textual contents.

Chaque jour, en moyenne, une personne passe plus de 2h30 à rechercher et comprendre des informations qui lui sont soumises au détriment du temps accordé à la réflexion ou à la prise de décision. Or, depuis 30 ans, le volume total d’informations disponibles double tous les 2 ans. La charge du temps de lecture pour des utilisateurs est donc en croissance, du fait de l’accroissement de la quantité d’information à analyser.Every day, on average, a person spends more than 2.5 hours researching and understanding information submitted to them to the detriment of time given to reflection or decision-making. However, for 30 years, the total volume of available information has doubled every 2 years. The reading time burden for users is therefore increasing, due to the increase in the quantity of information to be analyzed.

Parmi les technologies disponibles dans le domaine, des modèles d’extraction et de génération de termes textuels de même contexte sont connues. De tels modèles reposent par exemple sur une technique dite de radicalisation des termes textuels, consistant à identifier le radical des différents termes textuels et à associer les mots partageant ce radical. Les occurrences de chaque mot correspondant à un radical sont calculées pour l’ensemble du contenu textuel, pour aboutir au poids de chaque radical. Dans chaque phrase, la présence d’un mot correspondant à un radical va être associée au poids de ce radical, ce qui permet de calculer un poids pour la phrase. Le poids d’une phrase correspondant à son niveau de pertinence. Un certain nombre de phrases de poids le plus élevé sont sélectionnées comme les plus pertinentes. La sélection de ces phrases est ensuite affichée à l’utilisateur.Among the technologies available in the field, models for extracting and generating textual terms from the same context are known. Such models are based, for example, on a technique called radicalization of textual terms, consisting of identifying the radical of different textual terms and associating the words sharing this radical. The occurrences of each word corresponding to a radical are calculated for the entire textual content, to arrive at the weight of each radical. In each sentence, the presence of a word corresponding to a radical will be associated with the weight of this radical, which makes it possible to calculate a weight for the sentence. The weight of a sentence corresponding to its level of relevance. A number of sentences with the highest weight are selected as the most relevant. The selection of these sentences is then displayed to the user.

Malgré la simplicité de sa mise en œuvre, cette solution entraine de gros problèmes de pertinence : les homonymes possèdent en effet des radicaux identiques par calcul, entrainant des erreurs de pertinence flagrantes dans les analyses automatisées.Despite the simplicity of its implementation, this solution leads to major relevance problems: homonyms in fact have identical radicals by calculation, leading to blatant relevance errors in automated analyses.

L’invention vise à résoudre un ou plusieurs de ces inconvénients. L’invention porte ainsi sur un procédé de sélection automatique et d’affichage de la sélection d’un condensé significatif dans un texte à analyser, mis en œuvre par un dispositif numérique d’exécution d’instructions, le procédé comprenant la mise en œuvre des étapes suivantes par le dispositif numérique :
-une étape numérique d’extraction des mots du texte à analyser pour générer une table numérique de mots, les mots étant associés à différents segments respectifs du texte à analyser ;
-une étape de filtrage numérique, incluant la suppression d’une liste de mots non signifiants de ladite table numérique de mots pour générer une table numérique de mots filtrés ;
-une étape de génération d’une table de concepts à partir de la table numérique de mots filtrés, en associant des mots ayant des racines identiques dans un même concept de la table ;
-une étape de vectorisation numérique des concepts de la table de concepts pour générer une table de vecteurs à partir d’un modèle vectoriel, la table de vecteurs incluant un vecteur unique pour chacun desdits concepts, la distance entre les vecteurs étant minimisée en fonction de la proximité des concepts dans des textes de référence ;
-une étape de calcul numérique d’une table de vecteurs de segments, calculant un vecteur pour chacun des segments du texte, le vecteur d’un segment étant calculé par un produit vectoriel entre les différents vecteurs des concepts de ce segment ;
-une étape de calcul numérique d’un vecteur unique pour un texte de référence, le vecteur unique du texte de référence étant calculé par produit vectoriel entre des vecteurs uniques de concepts du texte de référence ;
-pour chacun desdits segments du texte, une étape de calcul de la distance entre son vecteur unique et le vecteur unique du texte de référence ;
-une étape de sélection numérique des vecteurs uniques des segments ayant une distance inférieure à un seuil prédéfini par rapport au vecteur unique du texte de référence ;
-une étape d’affichage numérique du texte à analyser, avec affichage des segments correspondant aux vecteurs de segments sélectionnés avec un contraste par rapport aux segments correspondant aux vecteurs de segments non sélectionnés.
The invention aims to resolve one or more of these drawbacks. The invention thus relates to a method of automatic selection and display of the selection of a significant digest in a text to be analyzed, implemented by a digital device for executing instructions, the method comprising the implementation of the following steps by the digital device:
-a digital step of extracting words from the text to be analyzed to generate a digital table of words, the words being associated with different respective segments of the text to be analyzed;
-a digital filtering step, including the deletion of a list of non-meaningful words from said digital table of words to generate a digital table of filtered words;
-a step of generating a table of concepts from the digital table of filtered words, by associating words having identical roots in the same concept of the table;
-a step of digital vectorization of the concepts of the concept table to generate a table of vectors from a vector model, the table of vectors including a unique vector for each of said concepts, the distance between the vectors being minimized as a function of the proximity of concepts in reference texts;
-a step of digital calculation of a table of segment vectors, calculating a vector for each of the segments of the text, the vector of a segment being calculated by a vector product between the different vectors of the concepts of this segment;
-a step of numerical calculation of a unique vector for a reference text, the unique vector of the reference text being calculated by vector product between unique vectors of concepts of the reference text;
-for each of said segments of the text, a step of calculating the distance between its unique vector and the unique vector of the reference text;
-a step of digital selection of the unique vectors of the segments having a distance less than a predefined threshold relative to the unique vector of the reference text;
-a step of digital display of the text to be analyzed, with display of the segments corresponding to the selected segment vectors with a contrast compared to the segments corresponding to the unselected segment vectors.

L’invention porte également sur les variantes suivantes. L’homme du métier comprendra que chacune des caractéristiques des variantes suivantes peut être combinée indépendamment aux caractéristiques ci-dessus, sans pour autant constituer une généralisation intermédiaire.The invention also relates to the following variants. Those skilled in the art will understand that each of the characteristics of the following variants can be combined independently with the above characteristics, without constituting an intermediate generalization.

Selon une variante, lesdits segments correspondant aux vecteurs de segments sélectionnés représentent moins de 10% de la taille dudit texte à analyser.According to a variant, said segments corresponding to the selected segment vectors represent less than 10% of the size of said text to be analyzed.

Selon une autre variante, le texte à analyser sur lequel le procédé est appliqué présente plus de 10000 mots.According to another variant, the text to be analyzed to which the method is applied has more than 10,000 words.

Selon une autre variante, lesdits vecteurs uniques et les vecteurs de segments ont une dimension d’au moins 600.According to another variant, said unique vectors and the segment vectors have a dimension of at least 600.

Selon encore une autre variante, comprend une étape préalable de récupération d’un fichier numérique incluant le texte à analyser sous forme de mots séparés par des caractères alphanumériques sépaTaux/ Rateurs, l’étape numérique d’extraction des mots du texte à analyser incluant la génération de la table numérique de mots en éliminant lesdits caractères alphanumériques séparateurs.According to yet another variant, comprises a prior step of recovering a digital file including the text to be analyzed in the form of words separated by sepaTal/Rator alphanumeric characters, the digital step of extracting the words from the text to be analyzed including the generation of the digital table of words by eliminating said separator alphanumeric characters.

Selon une variante, l’étape de calcul numérique de chaque vecteur de segment inclut une altération aléatoire du résultat du produit vectoriel.According to a variant, the digital calculation step of each segment vector includes a random alteration of the result of the vector product.

L’invention concerne également un procédé de sélection automatique et d’affichage de la sélection d’un condensé significatif dans un texte à analyser, mis en œuvre par un dispositif numérique d’exécution d’instructions, comprenant la mise en œuvre des étapes suivantes par le dispositif numérique :
-une étape numérique d’extraction des mots du texte à analyser pour générer une table numérique de mots, les mots étant associés à différents segments respectifs du texte à analyser ;
-une étape de filtrage numérique, incluant la suppression d’une liste de mots non signifiants de ladite table numérique de mots pour générer une table numérique de mots filtrés ;
-une étape de génération d’une table de concepts à partir de la table numérique de mots filtrés, en associant des mots ayant des racines identiques dans un même concept de la table ;
-une étape de vectorisation numérique des concepts de la table de concepts pour générer une table de vecteurs à partir d’un modèle vectoriel, la table de vecteurs incluant un vecteur unique pour chacun desdits concepts, la distance entre les vecteurs étant minimisée en fonction de la proximité des concepts dans des textes de référence ;
-une étape de calcul numérique d’une table de vecteurs de segments, calculant un vecteur pour chacun des segments du texte, le vecteur d’un segment étant calculé par un produit vectoriel entre les différents vecteurs des concepts de ce segment ;
-une étape de sélection numérique des vecteurs des segments ayant une norme supérieure à un seuil prédéfini ;
-une étape d’affichage numérique du texte à analyser, avec affichage des segments correspondant aux vecteurs de segments sélectionnés avec un contraste par rapport aux segments correspondant aux vecteurs non sélectionnés.
The invention also relates to a method for automatically selecting and displaying the selection of a significant digest in a text to be analyzed, implemented by a digital instruction execution device, comprising the implementation of the following steps by the digital device:
-a digital step of extracting words from the text to be analyzed to generate a digital table of words, the words being associated with different respective segments of the text to be analyzed;
-a digital filtering step, including the deletion of a list of non-meaningful words from said digital table of words to generate a digital table of filtered words;
-a step of generating a table of concepts from the digital table of filtered words, by associating words having identical roots in the same concept of the table;
-a step of digital vectorization of the concepts of the concept table to generate a table of vectors from a vector model, the table of vectors including a unique vector for each of said concepts, the distance between the vectors being minimized as a function of the proximity of concepts in reference texts;
-a step of digital calculation of a table of segment vectors, calculating a vector for each of the segments of the text, the vector of a segment being calculated by a vector product between the different vectors of the concepts of this segment;
-a step of digital selection of the vectors of the segments having a norm greater than a predefined threshold;
-a step of digital display of the text to be analyzed, with display of the segments corresponding to the selected segment vectors with a contrast compared to the segments corresponding to the unselected vectors.

D'autres caractéristiques et avantages de l'invention ressortiront clairement de la description qui en est faite ci-après, à titre indicatif et nullement limitatif, en référence aux dessins annexés, dans lesquels :Other characteristics and advantages of the invention will emerge clearly from the description given below, for information only and in no way limiting, with reference to the appended drawings, in which:

illustre un extrait d’un exemple de texte à analyser ; illustrates an extract from an example of text to be analyzed;

illustre un extrait d’un exemple de table de mots ; illustrates an extract from an example word table;

illustre un extrait d’un exemple de table de mots filtrés ; illustrates an extract from an example filtered word table;

illustre un extrait d’un exemple de table de concepts ; illustrates an extract from an example concept table;

illustre un extrait d’un exemple de table de vecteurs de concepts ; illustrates an extract from an example concept vector table;

illustre un extrait d’un exemple de table de vecteurs de segments ; illustrates an extract from an example segment vector table;

illustre un exemple d’affichage faisant ressortir un segment sélectionné dans le texte à afficher ; illustrates an example of a display highlighting a selected segment in the text to be displayed;

illustre une séquence d’étapes d’un procédé mis en œuvre selon un mode de réalisation de l’invention ; illustrates a sequence of steps of a method implemented according to one embodiment of the invention;

illustre un exemple d’environnement de mise en œuvre d’un procédé selon l’invention ; illustrates an example of an environment for implementing a method according to the invention;

illustre une séquence d’étapes d’un procédé mis en œuvre selon un autre mode de réalisation de l’invention ; illustrates a sequence of steps of a method implemented according to another embodiment of the invention;

illustre un extrait d’un exemple de texte de référence. illustrates an excerpt from a sample reference text.

L’invention vise à faire ressortir une partie d’un texte à analyser, par rapport au reste de ce texte, en identifiant automatiquement un segment pertinent avec une moindre incidence des homonymies. Par l’affichage différentié d’un ou plusieurs segments du texte à analyser, on peut permettre à l’utilisateur de consulter un condensé significatif du texte à analyser, pour lui permettre d’appréhender les grandes lignes du texte en un temps réduit.The invention aims to highlight part of a text to be analyzed, in relation to the rest of this text, by automatically identifying a relevant segment with a lower incidence of homonyms. By the differentiated display of one or more segments of the text to be analyzed, the user can be enabled to consult a significant summary of the text to be analyzed, to enable him to understand the main points of the text in a reduced time.

Un procédé selon l’invention est mis en œuvre selon une suite d’étapes, illustrées sous forme d’un logigramme à la . Le procédé peut être mis en œuvre dans un environnement 1 tel qu’illustré à la .A method according to the invention is implemented according to a series of steps, illustrated in the form of a flowchart at the . The method can be implemented in an environment 1 as illustrated in .

L’environnement 1 de mise en œuvre de l’invention comporte ici un dispositif numérique de traitement et d’exécution d’instructions 2 et une base de données 20. Le dispositif numérique d’exécution d’instructions 2 est typiquement mis en œuvre sous la forme d'un serveur informatique accessible par un réseau informatique 3, typiquement Internet. Un certain nombre d’étapes du procédé selon l’invention peuvent ainsi être mises en œuvre sous la forme d’un service sous forme de logiciel (SaaS). La base de données 20 est accessible par le dispositif numérique 2. Des exemples de contenu de la base de données 20 seront détaillés par la suite.The environment 1 for implementing the invention here comprises a digital device for processing and executing instructions 2 and a database 20. The digital device for executing instructions 2 is typically implemented under the form of a computer server accessible by a computer network 3, typically the Internet. A certain number of steps of the method according to the invention can thus be implemented in the form of a software service (SaaS). The database 20 is accessible by the digital device 2. Examples of content of the database 20 will be detailed later.

À cet effet, l'utilisateur dispose ici d'un terminal 4 connecté au dispositif numérique 2 par l'intermédiaire du réseau informatique 3. Le terminal 4 est configuré pour afficher un certain nombre d'informations sur un écran de l'utilisateur. Le terminal 4 peut par exemple disposer d'un navigateur Internet communiquant avec le dispositif numérique 2 et affichant une interface utilisateur. L'utilisateur peut disposer d'une interface de saisie telle qu'une souris 5, en vue de fournir des réponses au navigateur Internet, ensuite transmises au dispositif numérique 2. Le terminal 4 dispose par ailleurs d'un accès à un texte à analyser, typiquement mémorisé sur une mémoire de masse 7. La mémoire de masse 7 peut être un stockage local du terminal 4 ou un stockage distant, par exemple sur des serveurs de stockage accessibles en ligne. Le dispositif numérique 2 peut être configuré pour envoyer des informations d'affichage au terminal 4, par exemple sous la forme de contenus HTML.For this purpose, the user here has a terminal 4 connected to the digital device 2 via the computer network 3. The terminal 4 is configured to display a certain amount of information on a user screen. The terminal 4 can for example have an Internet browser communicating with the digital device 2 and displaying a user interface. The user can have an input interface such as a mouse 5, in order to provide responses to the Internet browser, then transmitted to the digital device 2. The terminal 4 also has access to a text to be analyzed , typically stored on a mass memory 7. The mass memory 7 can be local storage of the terminal 4 or remote storage, for example on storage servers accessible online. The digital device 2 can be configured to send display information to the terminal 4, for example in the form of HTML content.

Le dispositif numérique 2 est configuré pour récupérer un texte à analyser, fourni par le terminal 4. L’invention s’avère particulièrement avantageuse pour un texte à analyser de grande taille, typiquement un texte de plus de 10 000 mots, nécessitant normalement un temps de lecture et d’analyse importants pour son lecteur. Un extrait 100 d’un exemple de texte à analyser est illustré en référence à la .The digital device 2 is configured to retrieve a text to be analyzed, provided by the terminal 4. The invention proves to be particularly advantageous for a large text to be analyzed, typically a text of more than 10,000 words, normally requiring a time reading and analysis important for its reader. An extract 100 of an example of text to be analyzed is illustrated with reference to the .

Le dispositif numérique 2 met en œuvre une étape numérique 201 d'extraction des mots du texte à analyser pour générer une table numérique de mots 101. Les mots du texte à analyser sont alors associés dans cette table 101 à différents segments respectifs du texte à analyser, comme illustré à la . Dans une étape préalable, le texte à analyser peut être récupéré sous la forme de fichier numérique incluant le texte à analyser sous forme de mots séparés par des caractères alphanumériques séparateurs. La table 101 peut être générée en éliminant les caractères alphanumériques séparateurs du fichier.The digital device 2 implements a digital step 201 of extracting words from the text to be analyzed to generate a digital table of words 101. The words of the text to be analyzed are then associated in this table 101 with different respective segments of the text to be analyzed. , as shown in . In a preliminary step, the text to be analyzed can be recovered in the form of a digital file including the text to be analyzed in the form of words separated by alphanumeric separator characters. Table 101 can be generated by eliminating the separator alphanumeric characters from the file.

Le dispositif numérique 2 met en œuvre une étape 202 de filtrage numérique. Durant l’étape 202, une liste de mots non signifiants est supprimée de la table numérique 101, pour générer une table numérique de mots filtrés 102. Typiquement, les mots de liaison et les articles définis ou indéfinis sont supprimés lors de ce filtrage.The digital device 2 implements a digital filtering step 202. During step 202, a list of non-meaningful words is deleted from the numerical table 101, to generate a numerical table of filtered words 102. Typically, linking words and definite or indefinite articles are deleted during this filtering.

Le dispositif numérique 2 met en œuvre une étape 203 de génération d'une table de concepts 103 à partir de la table numérique de mots filtrés. La table de concepts 103 est générée en associant les mots filtrés ayant des racines identiques en les regroupant dans un même concept de la table. Par exemple, les mots confidentialité, confidentiel, confidentiels et confidentielles sont regroupés dans un même concept confidentiel. Ainsi, pour chaque segment, la table de concept 103 identifie une liste de concepts.The digital device 2 implements a step 203 of generating a table of concepts 103 from the digital table of filtered words. The concept table 103 is generated by associating the filtered words having identical roots by grouping them in the same concept of the table. For example, the words confidentiality, confidential, confidential and confidential are grouped into the same confidential concept. Thus, for each segment, the concept table 103 identifies a list of concepts.

Le dispositif numérique 2 met en œuvre une étape 204 de vectorisation numérique des concepts de la table de concepts pour générer une table de vecteurs 104 à partir d'un modèle vectoriel. La table de vecteurs 104 inclut alors un vecteur unique pour chacun des concepts. Chaque segment dispose alors d’un vecteur unique pour chacun des concepts qu’il inclut. Selon des méthodes connues en soit, un modèle vectoriel génère un vecteur unique pour chaque mot, en minimisant la distance entre les vecteurs des mots en fonction de leur proximité dans des textes de référence. Des bibliothèques de vecteurs uniques correspondant à un dictionnaire de mots peuvent être générées au préalable par entrainement sur une multitude de textes de références. Les bibliothèques de vecteurs uniques peuvent être stockées dans la base de données 20.The digital device 2 implements a step 204 of digital vectorization of the concepts of the concept table to generate a table of vectors 104 from a vector model. The vector table 104 then includes a unique vector for each of the concepts. Each segment then has a unique vector for each of the concepts it includes. According to known methods, a vector model generates a unique vector for each word, by minimizing the distance between the vectors of the words according to their proximity in reference texts. Libraries of unique vectors corresponding to a dictionary of words can be generated beforehand by training on a multitude of reference texts. Unique vector libraries can be stored in database 20.

Dans un souci de simplification, les composantes des vecteurs sont ici illustrées sous forme d’entiers. Les composantes des vecteurs peuvent bien entendu être des valeurs réelles. Pour une mise en œuvre optimale du procédé, les vecteurs ont avantageusement une dimension d’au moins 200 composantes, par exemple entre 200 et 500 composantes, et de préférence d’au moins 600.For the sake of simplification, the components of the vectors are illustrated here in integer form. The components of the vectors can of course be real values. For optimal implementation of the method, the vectors advantageously have a dimension of at least 200 components, for example between 200 and 500 components, and preferably at least 600.

Le dispositif numérique 2 met en œuvre une étape 205 de calcul numérique d’une table 105 de vecteurs pour chacun des segments du texte. Le vecteur de chaque segment est calculé par un produit vectoriel entre les différents vecteurs uniques des concepts du segment. Ainsi, si une grande disparité de concepts est présente dans un segment, le produit vectoriel entre les vecteurs uniques des concepts de ce segment prend une norme assez réduite, du fait de la distance entre les vecteurs associés à ces concepts. A contrario, si un segment a une grande cohérence de concepts, on peut considérer qu’il est très signifiant pour l’utilisateur. Du fait de la cohérence entre ces concepts, la norme du produit vectoriel entre les vecteurs uniques des concepts de ce segment sera relativement élevée.The digital device 2 implements a step 205 of digital calculation of a table 105 of vectors for each of the segments of the text. The vector of each segment is calculated by a vector product between the different unique vectors of the concepts of the segment. Thus, if a large disparity of concepts is present in a segment, the vector product between the unique vectors of the concepts of this segment takes a fairly reduced standard, due to the distance between the vectors associated with these concepts. Conversely, if a segment has a high degree of coherence of concepts, we can consider that it is very meaningful for the user. Due to the consistency between these concepts, the norm of the cross product between the unique vectors of the concepts in this segment will be relatively high.

Le dispositif numérique 2 met en œuvre une étape 206 de sélection numérique des vecteurs de concept ayant une norme supérieure à un seuil prédéfini. Le seuil prédéfini peut être mis à jour de façon dynamique, pour tenir compte des valeurs des normes de vecteurs de segment calculées jusque-là, afin de retenir par exemple un nombre prédéfini de segments.The digital device 2 implements a step 206 of digital selection of concept vectors having a standard greater than a predefined threshold. The predefined threshold can be updated dynamically, to take into account the values of the segment vector standards calculated so far, in order to retain for example a predefined number of segments.

Le dispositif numérique 2 met en œuvre une étape 207 d'affichage numérique du texte à analyser, avec affichage des segments correspondant aux vecteurs de segments sélectionnés avec un contraste par rapport aux segments correspondant aux vecteurs uniques non sélectionnés. Un extrait 106 d’un tel affichage est illustré en référence à la . On peut identifier un segment qui a été sélectionné. Le contraste peut être réalisé par tout moyen approprié, en soulignant le segment, en le mettant en gras, ou encore en surbrillance par exemple.The digital device 2 implements a step 207 of digital display of the text to be analyzed, with display of the segments corresponding to the selected segment vectors with a contrast compared to the segments corresponding to the unselected unique vectors. An extract 106 of such a display is illustrated with reference to the . We can identify a segment that has been selected. The contrast can be achieved by any appropriate means, by underlining the segment, making it bold, or even highlighting for example.

Pour que la sélection permette effectivement à l’utilisateur de faire une lecture vraiment synthétique du texte à analyser, les segments correspondant aux vecteurs de segments sélectionnés représentent moins de 10% de la taille du texte à analyser.So that the selection effectively allows the user to make a truly synthetic reading of the text to be analyzed, the segments corresponding to the selected segment vectors represent less than 10% of the size of the text to be analyzed.

Pour rendre le résultat du procédé moins déterministe, le procédé peut mettre en œuvre une altération aléatoire, soit des vecteurs uniques des concepts, soit des vecteurs de segments. Par exemple, une erreur d’une amplitude prédéterminée (par exemple d’une amplitude aléatoire maximale de 5%) peut être appliquée aux composantes des vecteurs à corriger.To make the result of the process less deterministic, the process can implement random alteration, either of unique concept vectors or of segment vectors. For example, an error of a predetermined amplitude (for example of a maximum random amplitude of 5%) can be applied to the components of the vectors to be corrected.

Un autre aspect indépendant de l’invention va maintenant être décrit. Un utilisateur peut par exemple vouloir identifier des passages clés d’un texte à analyser, qui correspondent à un texte de référence bien spécifique. Par exemple, dans un long contrat traitant de multiples aspects juridiques, un utilisateur pourra souhaiter identifier ce qui traite d’une thématique spécifique. En se basant sur un texte de référence très spécifique, un procédé selon l’invention permet de réaliser une sélection et un affichage des passages clés dans le texte à analyser.Another independent aspect of the invention will now be described. For example, a user may want to identify key passages of a text to analyze, which correspond to a very specific reference text. For example, in a long contract dealing with multiple legal aspects, a user may wish to identify what deals with a specific topic. Based on a very specific reference text, a method according to the invention makes it possible to select and display key passages in the text to be analyzed.

Un procédé selon cet autre aspect de l’invention est mis en œuvre selon une suite d’étapes, illustrées sous forme d’un logigramme à la . Le procédé peut être mis en œuvre dans un environnement 1 tel qu’illustré à la .A method according to this other aspect of the invention is implemented according to a series of steps, illustrated in the form of a flowchart at the . The method can be implemented in an environment 1 as illustrated in .

L’environnement 1 comporte un dispositif numérique de traitement et d’exécution d’instructions 2, une base de données, un réseau informatique 3, un terminal 4, une interface de saisie 5, et une mémoire de masse 7 tels que déjà détaillés auparavant.Environment 1 comprises a digital device for processing and executing instructions 2, a database, a computer network 3, a terminal 4, an input interface 5, and a mass memory 7 as already detailed previously .

Le dispositif numérique 2 est configuré pour récupérer un texte à analyser, fourni par le terminal 4. Le texte à analyser peut être identique à celui dont l’extrait est illustré à la .The digital device 2 is configured to retrieve a text to be analyzed, provided by the terminal 4. The text to be analyzed may be identical to that whose extract is illustrated in the .

Le dispositif numérique 2 met en œuvre une étape numérique 301 d'extraction des mots du texte à analyser pour générer une table numérique de mots 101, comme pour le mode de réalisation précédent. Les mots du texte à analyser sont alors associés dans cette table 101 à différents segments respectifs du texte à analyser, comme illustré à la .The digital device 2 implements a digital step 301 of extracting words from the text to be analyzed to generate a digital table of words 101, as for the previous embodiment. The words of the text to be analyzed are then associated in this table 101 with different respective segments of the text to be analyzed, as illustrated in .

Le dispositif numérique 2 met en œuvre une étape 302 de filtrage numérique. Durant l’étape 302, une liste de mots non signifiants est supprimée de la table numérique 101, pour générer une table numérique de mots filtrés 102, comme dans le mode de réalisation précédent.The digital device 2 implements a digital filtering step 302. During step 302, a list of non-meaningful words is deleted from the digital table 101, to generate a digital table of filtered words 102, as in the previous embodiment.

Le dispositif numérique 2 met en œuvre une étape 303 de génération d'une table de concepts 103 à partir de la table numérique de mots filtrés. La table de concepts 103 est générée en associant les mots filtrés ayant des racines identiques en les regroupant dans un même concept de la table, comme détaillé en référence au mode de réalisation précédent. Ainsi, pour chaque segment, la table de concept 103 identifie une liste de concepts.The digital device 2 implements a step 303 of generating a concept table 103 from the digital table of filtered words. The concept table 103 is generated by associating the filtered words having identical roots by grouping them in the same concept of the table, as detailed with reference to the previous embodiment. Thus, for each segment, the concept table 103 identifies a list of concepts.

Le dispositif numérique 2 met en œuvre une étape 304 de vectorisation numérique des concepts de la table de concepts pour générer une table de vecteurs 104 à partir d'un modèle vectoriel. La table de vecteurs 104 inclut alors un vecteur unique pour chacun des concepts, comme pour le mode de réalisation précédent.The digital device 2 implements a step 304 of digital vectorization of the concepts of the concept table to generate a table of vectors 104 from a vector model. The vector table 104 then includes a unique vector for each of the concepts, as for the previous embodiment.

Dans un souci de simplification, les composantes des vecteurs sont ici illustrées sous forme d’entiers. Les composantes des vecteurs peuvent bien entendu être des valeurs réelles. Pour une mise en œuvre optimale du procédé, les vecteurs ont avantageusement une dimension d’au moins 200 composantes, par exemple entre 200 et 500 composantes, et de préférence d’au moins 600.For the sake of simplification, the components of the vectors are illustrated here in integer form. The components of the vectors can of course be real values. For optimal implementation of the method, the vectors advantageously have a dimension of at least 200 components, for example between 200 and 500 components, and preferably at least 600.

Le dispositif numérique 2 met en œuvre une étape 305 de calcul numérique d’une table 105 de vecteurs pour chacun des segments du texte. Comme pour le mode de réalisation précédent, le vecteur de chaque segment est calculé par un produit vectoriel entre les différents vecteurs uniques des concepts du segment.The digital device 2 implements a step 305 of digital calculation of a table 105 of vectors for each of the segments of the text. As for the previous embodiment, the vector of each segment is calculated by a vector product between the different unique vectors of the concepts of the segment.

Le dispositif numérique 2 met en œuvre une étape 306 de calcul numérique d’un vecteur unique pour un texte de référence, servant de base pour réaliser une sélection dans le texte à analyser. Un exemple d’extrait 107 de texte de référence est illustré à la . Le texte de référence peut être sélectionné par l’utilisateur comme un texte particulièrement précis pour une thématique donnée.The digital device 2 implements a step 306 of digital calculation of a unique vector for a reference text, serving as a basis for making a selection in the text to be analyzed. An example of extract 107 of reference text is illustrated in . The reference text can be selected by the user as a particularly precise text for a given theme.

Le dispositif numérique 2 met en œuvre une étape 306 de de calcul numérique d’un vecteur unique pour le texte de référence. Le vecteur unique du texte de référence est calculé par produit vectoriel entre des vecteurs uniques des concepts du texte de référence. Ainsi, les étapes 301 à 305 peuvent être mises en œuvre de façon similaire pour le texte de référence, en traitant ce texte de référence comme un unique segment.The digital device 2 implements a step 306 of digital calculation of a unique vector for the reference text. The unique vector of the reference text is calculated by cross product between unique vectors of the concepts of the reference text. Thus, steps 301 to 305 can be implemented in a similar manner for the reference text, by treating this reference text as a single segment.

Le dispositif numérique 2 met en œuvre une étape 307. Durant l’étape 307, pour chacun des segments du texte, une étape de calcul de calcul de la distance entre son vecteur unique et le vecteur unique du texte de référence est mise en œuvre.The digital device 2 implements a step 307. During step 307, for each of the segments of the text, a calculation step of calculating the distance between its unique vector and the unique vector of the reference text is implemented.

Le dispositif numérique 2 met en œuvre une étape 308. Durant l’étape 308, on effectue une sélection numérique des vecteurs uniques des segments ayant une distance inférieure à un seuil prédéfini par rapport au vecteur unique du texte de référence. Une faible distance entre le vecteur unique d’un segment et le vecteur unique du texte à analyser est en effet caractéristique d’une très grande similitude sémantique.The digital device 2 implements a step 308. During step 308, a digital selection is made of the unique vectors of the segments having a distance less than a predefined threshold relative to the unique vector of the reference text. A small distance between the unique vector of a segment and the unique vector of the text to be analyzed is in fact characteristic of a very high semantic similarity.

Le dispositif numérique 2 met en œuvre une étape 309. Durant l’étape 309, on réalise l’affichage numérique du texte à analyser, avec affichage des segments correspondant aux vecteurs de segments sélectionnés avec un contraste par rapport aux segments correspondant aux vecteurs de segments non sélectionnés.The digital device 2 implements a step 309. During step 309, the digital display of the text to be analyzed is carried out, with display of the segments corresponding to the selected segment vectors with a contrast in relation to the segments corresponding to the segment vectors not selected.

Claims (7)

Procédé de sélection automatique et d’affichage de la sélection d’un condensé significatif dans un texte à analyser (100), mis en œuvre par un dispositif numérique d’exécution d’instructions (2), caractérisé en ce qu’il comprend la mise en œuvre des étapes suivantes par le dispositif numérique :
-une étape (301) numérique d’extraction des mots du texte à analyser pour générer une table numérique de mots (101), les mots étant associés à différents segments respectifs du texte à analyser ;
-une étape (302) de filtrage numérique, incluant la suppression d’une liste de mots non signifiants de ladite table numérique de mots (101) pour générer une table numérique de mots filtrés (102) ;
-une étape (303) de génération d’une table de concepts (103) à partir de la table numérique de mots filtrés, en associant des mots ayant des racines identiques dans un même concept de la table ;
-une étape (304) de vectorisation numérique des concepts de la table de concepts pour générer une table de vecteurs (104) à partir d’un modèle vectoriel, la table de vecteurs (104) incluant un vecteur unique pour chacun desdits concepts, la distance entre les vecteurs étant minimisée en fonction de la proximité des concepts dans des textes de référence ;
-une étape (305) de calcul numérique d’une table (105) de vecteurs de segments, calculant un vecteur pour chacun des segments du texte, le vecteur d’un segment étant calculé par un produit vectoriel entre les différents vecteurs des concepts de ce segment ;
-une étape (306) de calcul numérique d’un vecteur unique pour un texte de référence, le vecteur unique du texte de référence étant calculé par produit vectoriel entre des vecteurs uniques de concepts du texte de référence ;
-pour chacun desdits segments du texte, une étape (307) de calcul de la distance entre son vecteur unique et le vecteur unique du texte de référence ;
-une étape (308) de sélection numérique des vecteurs uniques des segments ayant une distance inférieure à un seuil prédéfini par rapport au vecteur unique du texte de référence ;
-une étape (309) d’affichage numérique du texte à analyser, avec affichage des segments correspondant aux vecteurs de segments sélectionnés avec un contraste par rapport aux segments correspondant aux vecteurs de segments non sélectionnés.
Method for automatically selecting and displaying the selection of a significant digest in a text to be analyzed (100), implemented by a digital instruction execution device (2), characterized in that it comprises the implementation of the following steps by the digital device:
-a digital step (301) of extracting words from the text to be analyzed to generate a digital table of words (101), the words being associated with different respective segments of the text to be analyzed;
-a step (302) of digital filtering, including the deletion of a list of non-meaningful words from said digital table of words (101) to generate a digital table of filtered words (102);
-a step (303) of generating a table of concepts (103) from the digital table of filtered words, by associating words having identical roots in the same concept of the table;
-a step (304) of digital vectorization of the concepts of the concept table to generate a table of vectors (104) from a vector model, the table of vectors (104) including a unique vector for each of said concepts, the distance between vectors being minimized according to the proximity of concepts in reference texts;
-a step (305) of digital calculation of a table (105) of segment vectors, calculating a vector for each of the segments of the text, the vector of a segment being calculated by a vector product between the different vectors of the concepts of this segment;
-a step (306) of numerical calculation of a unique vector for a reference text, the unique vector of the reference text being calculated by vector product between unique vectors of concepts of the reference text;
-for each of said segments of the text, a step (307) of calculating the distance between its unique vector and the unique vector of the reference text;
-a step (308) of digital selection of the unique vectors of the segments having a distance less than a predefined threshold relative to the unique vector of the reference text;
-a step (309) of digital display of the text to be analyzed, with display of the segments corresponding to the selected segment vectors with a contrast compared to the segments corresponding to the unselected segment vectors.
Procédé de sélection automatique et d’affichage selon la revendication 1, dans lequel lesdits segments correspondant aux vecteurs de segments sélectionnés représentent moins de 10% de la taille dudit texte à analyser.Automatic selection and display method according to claim 1, wherein said segments corresponding to the selected segment vectors represent less than 10% of the size of said text to be analyzed. Procédé de sélection automatique et d’affichage selon la revendication 1 ou 2, dans lequel le texte à analyser sur lequel le procédé est appliqué présente plus de 10000 mots.Automatic selection and display method according to claim 1 or 2, in which the text to be analyzed to which the method is applied has more than 10,000 words. Procédé de sélection automatique et d’affichage selon l'une quelconque des revendications précédentes, dans lequel lesdits vecteurs uniques et les vecteurs de segments ont une dimension d’au moins 600.Automatic selection and display method according to any one of the preceding claims, wherein said unique vectors and the segment vectors have a dimension of at least 600. Procédé de sélection automatique et d’affichage selon l'une quelconque des revendications précédentes, comprenant une étape préalable de récupération d’un fichier numérique incluant le texte à analyser sous forme de mots séparés par des caractères alphanumériques séparateurs, l’étape numérique d’extraction des mots du texte à analyser incluant la génération de la table numérique de mots en éliminant lesdits caractères alphanumériques séparateurs.Automatic selection and display method according to any one of the preceding claims, comprising a prior step of recovering a digital file including the text to be analyzed in the form of words separated by alphanumeric separator characters, the digital step of extraction of words from the text to be analyzed including the generation of the digital table of words by eliminating said separator alphanumeric characters. Procédé de sélection automatique et d’affichage selon l'une quelconque des revendications précédentes, dans lequel l’étape de calcul numérique de chaque vecteur de segment inclut une altération aléatoire du résultat du produit vectoriel.Automatic selection and display method according to any one of the preceding claims, wherein the step of numerical calculation of each segment vector includes a random alteration of the result of the vector product. Procédé de sélection automatique et d’affichage de la sélection d’un condensé significatif dans un texte à analyser (100), mis en œuvre par un dispositif numérique d’exécution d’instructions (2), caractérisé en ce qu’il comprend la mise en œuvre des étapes suivantes par le dispositif numérique :
-une étape (201) numérique d’extraction des mots du texte à analyser pour générer une table numérique de mots (101), les mots étant associés à différents segments respectifs du texte à analyser ;
-une étape (202) de filtrage numérique, incluant la suppression d’une liste de mots non signifiants de ladite table numérique de mots (101) pour générer une table numérique de mots filtrés (102) ;
-une étape (203) de génération d’une table de concepts (103) à partir de la table numérique de mots filtrés, en associant des mots ayant des racines identiques dans un même concept de la table ;
-une étape (204) de vectorisation numérique des concepts de la table de concepts pour générer une table de vecteurs (104) à partir d’un modèle vectoriel, la table de vecteurs (104) incluant un vecteur unique pour chacun desdits concepts, la distance entre les vecteurs étant minimisée en fonction de la proximité des concepts dans des textes de référence ;
-une étape (205) de calcul numérique d’une table (105) de vecteurs de segments, calculant un vecteur pour chacun des segments du texte, le vecteur d’un segment étant calculé par un produit vectoriel entre les différents vecteurs des concepts de ce segment ;
-une étape (206) de sélection numérique des vecteurs des segments ayant une norme supérieure à un seuil prédéfini ;
-une étape (207) d’affichage numérique du texte à analyser, avec affichage (106) des segments correspondant aux vecteurs de segments sélectionnés avec un contraste par rapport aux segments correspondant aux vecteurs non sélectionnés.
Method for automatically selecting and displaying the selection of a significant digest in a text to be analyzed (100), implemented by a digital instruction execution device (2), characterized in that it comprises the implementation of the following steps by the digital device:
-a digital step (201) of extracting words from the text to be analyzed to generate a digital table of words (101), the words being associated with different respective segments of the text to be analyzed;
-a step (202) of digital filtering, including the deletion of a list of non-meaningful words from said digital table of words (101) to generate a digital table of filtered words (102);
-a step (203) of generating a table of concepts (103) from the digital table of filtered words, by associating words having identical roots in the same concept of the table;
-a step (204) of digital vectorization of the concepts of the concept table to generate a table of vectors (104) from a vector model, the table of vectors (104) including a unique vector for each of said concepts, the distance between vectors being minimized according to the proximity of concepts in reference texts;
-a step (205) of digital calculation of a table (105) of segment vectors, calculating a vector for each of the segments of the text, the vector of a segment being calculated by a vector product between the different vectors of the concepts of this segment;
-a step (206) of digital selection of the vectors of the segments having a norm greater than a predefined threshold;
-a step (207) of digital display of the text to be analyzed, with display (106) of the segments corresponding to the selected segment vectors with a contrast compared to the segments corresponding to the unselected vectors.
FR2200594A 2022-01-24 2022-01-24 Method for automatically selecting and displaying the selection of a significant digest in textual content Pending FR3132155A3 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR2200594A FR3132155A3 (en) 2022-01-24 2022-01-24 Method for automatically selecting and displaying the selection of a significant digest in textual content

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2200594 2022-01-24
FR2200594A FR3132155A3 (en) 2022-01-24 2022-01-24 Method for automatically selecting and displaying the selection of a significant digest in textual content

Publications (1)

Publication Number Publication Date
FR3132155A3 true FR3132155A3 (en) 2023-07-28

Family

ID=81851664

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2200594A Pending FR3132155A3 (en) 2022-01-24 2022-01-24 Method for automatically selecting and displaying the selection of a significant digest in textual content

Country Status (1)

Country Link
FR (1) FR3132155A3 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160012122A1 (en) * 2014-07-14 2016-01-14 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
FR3060152A1 (en) * 2016-12-14 2018-06-15 Landmark Graphics Corporation AUTOMATIC CLASSIFICATION OF DRILLING REPORTS WITH POTENTIAL NATURAL LANGUAGE PROCESSING

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160012122A1 (en) * 2014-07-14 2016-01-14 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
FR3060152A1 (en) * 2016-12-14 2018-06-15 Landmark Graphics Corporation AUTOMATIC CLASSIFICATION OF DRILLING REPORTS WITH POTENTIAL NATURAL LANGUAGE PROCESSING

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAPNES TOBA ET AL: "Contextual Approach for Paragraph Selection in Question Answering Task", 1 September 2010 (2010-09-01), XP055958702, Retrieved from the Internet <URL:https://www.researchgate.net/publication/221159681_Contextual_Approach_for_Paragraph_Selection_in_Question_Answering_Task> [retrieved on 20220907] *

Similar Documents

Publication Publication Date Title
US10678835B2 (en) Generation of knowledge graph responsive to query
KR101637237B1 (en) Systems and methods for providing advanced search result page content
US9152674B2 (en) Performing application searches
US11222053B2 (en) Searching multilingual documents based on document structure extraction
US8868570B1 (en) Selection and display of online content items
US10331673B2 (en) Applying level of permanence to statements to influence confidence ranking
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
US11157540B2 (en) Search space reduction for knowledge graph querying and interactions
FR2977343A1 (en) TRANSLATION SYSTEM SUITABLE FOR TRANSLATION OF REQUESTS VIA A RECLASSIFICATION FRAMEWORK
US11361227B2 (en) Onboarding of entity data
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
US11321329B1 (en) Systems, apparatuses, and methods for document querying
CN111159341A (en) Information recommendation method and device based on user investment and financing preference
US20220292160A1 (en) Automated system and method for creating structured data objects for a media-based electronic document
US20190324997A1 (en) Ordering search results based on a knowledge level of a user performing the search
US11822875B2 (en) Automatically evaluating summarizers
US11347822B2 (en) Query processing to retrieve credible search results
FR3132155A3 (en) Method for automatically selecting and displaying the selection of a significant digest in textual content
Sunita et al. Web URLs retrieval with least execution time using MPV clustering approach
EP3114597B1 (en) Method for analysing a plurality of messages, and associated computer programme product and device
Chanakitkarnchok et al. Autonomous website categorization with pre-defined dictionary
US20220414129A1 (en) Contextual search in collaborative communications applications
US11416562B1 (en) Corpus expansion using lexical signatures
US10454992B2 (en) Automated RSS feed curator
EP4155967A1 (en) Method for exchanging information about an object of interest between a first and a second entity, associated electronic information exchange device and computer program product

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLFP Fee payment

Year of fee payment: 3