FR3041125A1 - AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME - Google Patents

AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME Download PDF

Info

Publication number
FR3041125A1
FR3041125A1 FR1558525A FR1558525A FR3041125A1 FR 3041125 A1 FR3041125 A1 FR 3041125A1 FR 1558525 A FR1558525 A FR 1558525A FR 1558525 A FR1558525 A FR 1558525A FR 3041125 A1 FR3041125 A1 FR 3041125A1
Authority
FR
France
Prior art keywords
elements
extracted
document
content
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1558525A
Other languages
French (fr)
Inventor
Geraldine Damnati
Marc Denjean
Adrien Tallot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1558525A priority Critical patent/FR3041125A1/en
Publication of FR3041125A1 publication Critical patent/FR3041125A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Abstract

L'invention concerne un générateur automatique de document de synthèse de contenu. Le générateur automatique de document de synthèse étant en particulier utilisé par un moteur de recherche de contenus. Un objet de l'invention est un générateur automatique d'un document de synthèse d'au moins un contenu comportant un générateur de lien de parenté entre des éléments extraits d'au moins trois niveaux distincts, le générateur de lien de parenté déterminant si un lien de parenté existe entre un premier élément extrait du contenu et un deuxième élément extrait du contenu en fonction de l'inclusion d'une clé du premier élément dans une clé du deuxième élément, les premier et deuxième éléments extraits étant de niveau directement voisin et la clé d'un élément étant déterminée comme étant une concaténation des éléments de base constituant l'élément, desquels ont été supprimés les éléments outils, les éléments extraits des au moins trois niveaux distincts ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse. Ainsi, le document de synthèse généré permet une réduction du bruit des résultats d'une recherche de contenus ou d'une détermination de pertinence d'un contenu car permettant au moyen des trois niveaux d'éléments parents de sélectionner/trier les contenus, dont le élément-clé lemme correspond à la première définition attendu ou à un sujet spécifique et pas au sujet voisin.The invention relates to an automatic document synthesis generator. The automatic synthesis document generator is in particular used by a content search engine. An object of the invention is an automatic generator of a summary document of at least one content comprising a linkage generator between elements extracted from at least three distinct levels, the kinship generator determining whether a kinship exists between a first element extracted from the content and a second element extracted from the content according to the inclusion of a key of the first element in a key of the second element, the first and second extracted elements being of directly adjacent level and the key of an element being determined as being a concatenation of the basic elements constituting the element, from which the tool elements have been removed, the elements extracted from the at least three distinct levels as well as the links of kinship generated between them being integrated in the Document synthesis. Thus, the summary document generated makes it possible to reduce the noise of the results of a content search or of determining the relevance of a content because, by means of the three levels of parent elements, it is possible to select / sort the contents, of which the lemma key-element corresponds to the first expected definition or to a specific subject and not to the neighboring subject.

Description

L'invention concerne un générateur automatique de document de synthèse de contenu. Le générateur automatique de document de synthèse étant en particulier utilisé par un moteur de recherche de contenus.The invention relates to an automatic document synthesis generator. The automatic synthesis document generator is in particular used by a content search engine.

Les moteurs de recherche actuels se basent sur des mots-clés constitués d’un lemme associés à des contenus notamment sous la forme de métadonnées pour rechercher un ou plusieurs contenus résultats. Ainsi, lorsqu’un utilisateur saisit les premières lettres de sa recherche dans une interface de saisie du moteur de recherche, le moteur de recherche propose éventuellement une liste de mots-clés lemmes commençant ou contenant ces lettres.Current search engines are based on keywords consisting of a lemma associated with content in particular in the form of metadata to search for one or more contents results. Thus, when a user enters the first letters of his search in a search engine input interface, the search engine optionally proposes a list of lemmas keywords starting or containing these letters.

Le problème d’une sélection de contenus basée sur des mots-clés lemmes est l’obtention d’une liste de contenus bruitée c'est-à-dire fournissant outre des contenus d’intérêt, des contenus associés effectivement aux mots-clés lemmes recherchées voire à une combinaison de mots-clés lemmes mais non intéressants car portant sur un sujet voisin mais ne traitant pas le sujet recherché, voire un sujet correspondant à une seconde définition du lemme distincte de la première définition recherchée.The problem of a content selection based on lemmas keywords is the obtaining of a list of noisy contents that is to say providing, in addition to contents of interest, contents actually associated with the keywords lemmas. searched or even a combination of keywords lemmas but not interesting because of a related subject but not treating the subject sought, or a subject corresponding to a second definition of the lemma distinct from the first definition sought.

En outre, le moteur de recherche affiche des liens vers une liste de contenus constituant les résultats de la recherche. Avec ces liens, le moteur de recherche peut aussi afficher l’ensemble des mots-clés associés à chaque contenu, voir un résumé de chaque contenu.In addition, the search engine displays links to a list of contents constituting the results of the search. With these links, the search engine can also display all the keywords associated with each content, see a summary of each content.

La détermination de la pertinence des contenus sélectionnés comme résultat de la recherche peut alors être effectuée en utilisant différentes méthodes d’exploration de contenus, notamment de grande collections de contenus tels que des documents textuels : soit directement à partir des mots-clés lemmes, soit à partir de nuages de lemmes, soit de graphes sémantiques, soit à partir des résumés fournis avec les contenus.The determination of the relevance of the contents selected as a result of the search can then be carried out by using different methods of content exploration, in particular large collections of content such as textual documents: either directly from the lemma keywords or from clouds of lemmas, either semantic graphs, or from the summaries provided with the contents.

Le simple listage des mots clés lemmes associés à un contenu résultats présentant pour la détermination de la pertinence du contenu les mêmes inconvénients que pour la sélection de contenus en fonction de mots-clés lemmes à savoir le risque de bruité, par exemple, un tri des contenus par pertinence en mettant en tête de liste des contenus qui ne sont déclarés pertinents en fonction des mots clés correspondant à un sujet voisin mais ne traitant pas le sujet recherché, voire un sujet correspondant à une seconde définition du lemme distincte de la première définition recherchée.The simple listing of the key words lemmes associated with a content results presenting for the determination of the relevance of the content the same disadvantages as for the selection of contents according to keywords lemmes namely the risk of noisiness, for example, a sort of contents by relevance by putting at the top of the list contents that are not declared relevant according to the keywords corresponding to a neighboring subject but not treating the subject sought, or even a subject corresponding to a second definition of the lemma distinct from the first definition sought .

Les nuages de mots, ont été très à la mode ces dernières années car ils permettent d’offrir une « photographie sémantique » d’un contenu, notamment d’un site web. Leur inconvénient majeur vient du fait qu’ils n’ont pas été conçus pour supporter la notion de granularité des blocs sémantiques affichés. Dès l’instant qu’un mot-clé, au sein d’un nuage de mots, contient plusieurs mots, sa lisibilité par un utilisateur ou un dispositif capteur entre en conflit avec ses voisins. En outre, même si le nuage de mots permet de regrouper dans un mot-clé plusieurs mots, le nuage ne comportera pas de mots-clés ayant un ou plusieurs mots de base commun et même si l’exploration du contenu pour la détermination de sa pertinence du fait de la présentation en nuage (à condition qu’il n’y ait pas de chevauchement des mots-clés), l’inconvénient des nuages de mots reste le même que celui de l’utilisation des mots-clés lemmes.Clouds of words have been very popular in recent years because they offer a "semantic photograph" of content, including a website. Their major disadvantage comes from the fact that they were not designed to support the notion of granularity of the semantic blocks displayed. As soon as a keyword, within a word cloud, contains several words, its readability by a user or a sensor device conflicts with its neighbors. In addition, even if the word cloud is used to group several words into a keyword, the cloud will not include keywords with one or more common basic words and even if the content is searched for the determination of its content. relevance due to cloud presentation (provided that there is no overlap of keywords), the disadvantage of word clouds remains the same as that of using keywords lemmas.

Dans le cas des graphes, le problème majeur vient du temps nécessaire au décodage de leur signification du fait que ce décodage nécessite de procéder à plusieurs actions simultanées: lire les labels et bien identifier la nature des relations... Ces deux actions nécessitent une attention importante au détriment de notre capacité à percevoir rapidement du sens en lisant des mots. En général, la représentation « graphique » l’emporte sur la représentation «sémantique» faisant des graphes des outils plus adaptés à l’exploration des relations entre les concepts que pour l’exploration de grands corpus textuels.In the case of graphs, the major problem comes from the time needed to decode their meaning because this decoding requires several simultaneous actions: read labels and clearly identify the nature of relations ... These two actions require attention important to the detriment of our ability to perceive meaning quickly by reading words. In general, the "graphical" representation outweighs the "semantic" representation making graphs tools more suitable for exploring the relationships between concepts than for exploring large textual corpora.

Les résumés (automatiques ou éditoriaux) permettent de se faire une idée précise sur le contenu mais ne sont pas adaptés pour l’exploration transverse d’un ensemble de contenus car dans ce cas, même si leur écriture peut être très concise, l’accès à leur signification nécessite un processus de « typo lecture ». Si toutefois les résumés sont très puissants pour fournir le sens d’un contenu ils sont totalement inopérants pour entrer dans le contenu à des endroits pertinents. Ainsi, dans le cas d’une détermination de pertinence de contenus à partir des résumés fournis avec les contenus, il y a un risque d’erreur lié au fait que le sujet recherché ne soit pas le sujet principal du contenu et donc pas repris dans le résumé.The abstracts (automatic or editorial) allow to get a precise idea about the content but are not suitable for the transversal exploration of a set of contents because in this case, even if their writing can be very concise, the access to their meaning requires a process of "typo reading". If however the abstracts are very powerful to provide the meaning of a content they are totally inoperative to enter the content at relevant places. Thus, in the case of a determination of relevance of content from the summaries provided with the contents, there is a risk of error related to the fact that the subject sought is not the main subject of the content and therefore not included in the summary.

Un des buts de la présente invention est de remédier à des insuffisances de l'état de la technique.One of the aims of the present invention is to remedy deficiencies of the state of the art.

Un objet de l’invention est un générateur automatique d’un document de synthèse d’au moins un contenu comportant un générateur de lien de parenté entre des éléments extraits d’au moins trois niveaux distincts, le générateur de lien de parenté déterminant si un lien de parenté existe entre un premier élément extrait du contenu et un deuxième élément extrait du contenu en fonction de l’inclusion d’une clé du premier élément dans une clé du deuxième élément, les premier et deuxième éléments extraits étant de niveau directement voisin et la clé d’un élément étant déterminée comme étant une concaténation des éléments de base constituant l’élément, desquels ont été supprimés les éléments outils, les éléments extraits des au moins trois niveaux distincts ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse.An object of the invention is an automatic generator of a summary document of at least one content comprising a linkage generator between elements extracted from at least three distinct levels, the kinship generator determining whether a kinship exists between a first element extracted from the content and a second element extracted from the content according to the inclusion of a key of the first element in a key of the second element, the first and second extracted elements being of directly adjacent level and the key of an element being determined as being a concatenation of the basic elements constituting the element, from which the tool elements have been removed, the elements extracted from the at least three distinct levels as well as the links of kinship generated between them being integrated in the Document synthesis.

Ainsi, le document de synthèse généré permet une réduction du bruit des résultats d’une recherche de contenus ou d’une détermination de pertinence d’un contenu car permettant au moyen des trois niveaux d’éléments parents de sélectionner/trier les contenus, dont le élément-clé lemme correspond à la première définition attendu ou à un sujet spécifique et pas au sujet voisin.Thus, the summary document generated makes it possible to reduce the noise of the results of a content search or of determining the relevance of a content because, by means of the three levels of parent elements, it is possible to select / sort the contents, of which the lemma key-element corresponds to the first expected definition or to a specific subject and not to the neighboring subject.

Avantageusement, le générateur automatique de document de synthèse comporte trois extracteurs fournissant les éléments de trois niveaux distincts, les extracteurs étant connectés à un analyseur syntaxique de contenu: • Un extracteur de lemme sélectionnant les éléments de base du document augmentés des entités nommées et des locutions ; • Un extracteur de contexte immédiat regroupant les éléments de base en fonction d’informations de catégorie syntaxique et des groupes syntaxiques relatifs à ces éléments de base, l’extracteur de contexte immédiat est un extracteur de niveau directement voisin de l’extracteur de lemme; • Un extracteur de contexte étendu regroupant les éléments de base en fonction de règles d’association des groupes syntaxiques, l’extracteur de contexte étendu est un extracteur de niveau directement voisin de l’extracteur de contexte immédiat.Advantageously, the automatic synthesis document generator comprises three extractors providing elements of three distinct levels, the extractors being connected to a content parser: • A lemma extractor selecting the basic elements of the document augmented by the named entities and the phrases ; • An immediate context extractor grouping the base elements according to syntactic category information and syntactic groups related to these basic elements, the immediate context extractor is a level extractor directly adjacent to the lemma extractor; • An extended context extractor grouping the base elements according to syntactic group association rules, the extended context extractor is a level extractor directly adjacent to the immediate context extractor.

Ainsi, le sens de l’élément-clé lemme est élargi sur deux niveaux afin d’évacuer progressivement les ambiguïtés de sens.Thus, the meaning of the key element lemma is widened on two levels in order to gradually evacuate ambiguities of meaning.

En outre, l’utilisation de trois extracteurs permet, lors de la reproduction du document de synthèse, une utilisation du document de synthèse par lecture dans un mode « typo vision ». Ce mode de lecture « typo vision » permettant une lecture plus rapide par l’utilisateur ou un dispositif capteur du document de synthèse qu’un mode de lecture « typo lecture » tel que nécessaire pour l’utilisation d’un résumé tout en fournissant plus d’informations sur le contenu que de simples mots-clés lemmes, un graphe sémantique ou un nuage de mots. L’utilisation des informations de catégorie syntaxique et de groupes syntaxiques permet un élargissement plus pertinent qu’une simple augmentation du nombre d’éléments par exemple par sélection d’un groupe d’éléments constitué des seuls voisins immédiats de l’élément-clé lemme. Les éléments de base de contexte immédiat et de contexte étendu constituent alors des groupes d’éléments cohérents.In addition, the use of three extractors makes it possible, during the reproduction of the summary document, to use the synthesis document by reading in a "typo vision" mode. This "typo vision" reading mode allowing a faster reading by the user or a sensor device of the summary document than a reading mode "typo reading" as necessary for the use of a summary while providing more content information than just lemmas keywords, a semantic graph, or a word cloud. The use of syntactic category information and syntactic groups allows a more relevant expansion than a simple increase in the number of elements, for example by selecting a group of elements consisting of the only immediate neighbors of the key element lemma. . The basic elements of immediate context and extended context then constitute groups of coherent elements.

Avantageusement, le générateur automatique de document de synthèse comporte un analyseur syntaxique de contenu connecté à au moins trois extracteurs, l’analyseur syntaxique fournissant des informations relatives aux éléments de base du contenu aux extracteurs déterminant les premier, deuxième et troisième éléments extraits.Advantageously, the automatic synthesis document generator comprises a content parser connected to at least three extractors, the parser providing information relating to the basic elements of the content to the extractors determining the first, second and third extracted elements.

Ainsi, les éléments extraits sont plus pertinents.Thus, the extracted elements are more relevant.

Avantageusement, les extracteurs fournissent comme élément extrait une forme de surface en sélectionnant la forme la plus fréquente parmi des formes synthétiques, une forme synthétique d’un élément extrait étant déterminée comme étant fonction d’une concaténation des éléments de base de l’élément extrait et de règles d’écriture.Advantageously, the extractors provide, as extracted element, a surface form by selecting the most common form among synthetic forms, a synthetic form of an extracted element being determined as a function of a concatenation of the basic elements of the extracted element. and writing rules.

Ainsi, plusieurs éléments extraits associés à une même clé sont regroupés sous un identifiant unique : « la forme de surface » permettant de faciliter la recherche des éléments extraits dans le contenu et la lecture du document de synthèse. Cette « forme de surface » associée à l’ensemble des éléments extraits qui présentent la même clé, est choisie comme étant la forme synthétique la plus fréquemment rencontrée dans le document pour ces éléments extraits.Thus, several extracted elements associated with the same key are grouped under a unique identifier: "the surface shape" making it easier to search for extracted elements in the content and reading of the summary document. This "surface shape" associated with all extracted elements that have the same key, is chosen as the synthetic form most frequently encountered in the document for these extracted elements.

Avantageusement, le générateur automatique de document de synthèse comporte un pondérateur calculant le poids de chaque élément extrait permettant de trier les éléments extraits en fonction de leur poids.Advantageously, the automatic synthesis document generator comprises a weighting calculator calculating the weight of each extracted element for sorting the extracted elements according to their weight.

Avantageusement, le générateur automatique de document de synthèse fournit des éléments-clés déroulés, chaque élément-clé déroulé comportant au moins un élément extrait du contenu d’au moins trois niveaux distincts ainsi que les liens de parenté générés entre ces éléments extraits de niveaux distincts.Advantageously, the automatic synthesis document generator provides unwrapped key elements, each unwrapped key element comprising at least one element extracted from the content of at least three distinct levels as well as the kinship links generated between these elements extracted from different levels. .

Ainsi, la saisie d’une recherche dans un document ou une collection est facilité par la proposition pour la saisie des premières lettres d’un élément-clé du élément-clé déduit non pas dans sa forme simple (habituelle), mais dans sa forme déroulé permettant de préciser la recherche en utilisant le premier voire le deuxième niveau du élément-clé déroulé, c'est-à-dire le contexte immédiat voire le contexte étendu du élément-clé.Thus, entering a search into a document or a collection is facilitated by the proposal for entering the first letters of a key-element of the key-element deduced not in its simple form (usual), but in its form. scrolled to specify the search using the first or the second level of the key element unwound, that is to say, the immediate context or the extended context of the key-element.

Un objet de l’invention est aussi un moteur de recherche comportant : • Un générateur automatique de document de synthèse; • Une interface de saisie d’un champ de recherche reproduisant un document de synthèse fourni par le générateur automatique de document de synthèse en fonction des premières données saisies dans ledit champ de recherche.An object of the invention is also a search engine comprising: an automatic synthesis document generator; • An interface for entering a search field reproducing a summary document provided by the automatic synthesis document generator according to the first data entered in said search field.

Un objet de l’invention est également un moteur de recherche comportant : • Un générateur automatique de document de synthèse; • Une interface de résultats de recherche reproduisant un document de synthèse fourni par le générateur automatique de document de synthèse des contenus sélectionnés par le moteur de recherche comme résultats de recherche.An object of the invention is also a search engine comprising: an automatic synthesis document generator; • A search results interface reproducing a summary document provided by the automatic document synthesis generator of the contents selected by the search engine as search results.

Un objet de l’invention est encore un procédé de génération automatique d’un document de synthèse d’au moins un contenu comportant un génération de lien de parenté entre des éléments extraits d’au moins trois niveaux distincts, le générateur de lien de parenté déterminant si un lien de parenté existe entre un premier élément extrait du contenu et un deuxième élément extrait du contenu en fonction de l’inclusion d’une clé du premier élément dans une clé du deuxième élément, les premier et deuxième éléments extraits étant de niveau directement voisin et la clé d’un élément étant déterminée comme étant une concaténation des éléments de base constituant l’élément, desquels ont été supprimés les éléments outils, les éléments extraits des au moins trois niveaux distincts ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse.An object of the invention is also a method for automatically generating a document summarizing at least one content comprising a generation of relationship between elements extracted from at least three distinct levels, the linkage generator determining whether a relationship exists between a first element extracted from the content and a second element extracted from the content according to the inclusion of a key of the first element in a key of the second element, the first and second extracted elements being level directly neighbor and the key of an element being determined to be a concatenation of the elementary elements constituting the element, from which the tool elements, the elements extracted from the at least three distinct levels and the related relationships generated between them have been removed. being integrated in the summary document.

Avantageusement, le procédé de génération automatique de document de synthèse comporte trois extractions distinctes d’éléments du contenu fournissant des éléments extraits de trois niveaux distincts.Advantageously, the automatic synthesis document generation method comprises three distinct extractions of elements of the content providing elements extracted from three distinct levels.

Avantageusement, chaque extraction comporte un regroupement des éléments de base fournis par une analyse syntaxique du contenu, une sélection d’éléments extraits par filtrage sur la nature des groupes.Advantageously, each extraction comprises a grouping of the basic elements provided by a syntactic analysis of the content, a selection of elements extracted by filtering on the nature of the groups.

Avantageusement, l’extraction d’éléments composés de plusieurs éléments de base comporte une détermination de formes de surface par sélection de la forme la plus fréquente parmi les formes synthétiques des éléments extraits, une forme synthétique d’un élément extrait étant fonction d’une concaténation des éléments de base de l’élément extrait et de règles d’écriture.Advantageously, the extraction of elements composed of several basic elements comprises a determination of surface forms by selection of the most common form among the synthetic forms of the extracted elements, a synthetic form of an extracted element being a function of a concatenation of the basic elements of the extracted element and write rules.

Avantageusement, selon une implémentation de l'invention, les différentes étapes du procédé selon l'invention sont mises en œuvre par un logiciel ou programme d'ordinateur, ce logiciel comprenant des instructions logicielles destinées à être exécutées par un processeur de données d'un générateur automatique de document de synthèse et étant conçus pour commander l'exécution des différentes étapes de ce procédé. L'invention vise donc aussi un programme comprenant des instructions de code de programme pour l’exécution des étapes du procédé de génération automatique de document de synthèse lorsque ledit programme est exécuté par un processeur.Advantageously, according to an implementation of the invention, the various steps of the method according to the invention are implemented by a software or computer program, this software comprising software instructions intended to be executed by a data processor of a computer. automatic synthesis document generator and being designed to control the execution of the various steps of this method. The invention therefore also relates to a program comprising program code instructions for executing the steps of the method for automatic generation of summary document when said program is executed by a processor.

Ce programme peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet ou code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée ou dans n'importe quelle autre forme souhaitable.This program can use any programming language and be in the form of source code, object code or intermediate code between source code and object code such as in a partially compiled form or in any other desirable form.

Les caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description, faite à titre d'exemple, et des figures s’y rapportant qui représentent : - Figures 1a et 1b, un schéma simplifié du générateur automatique de document de synthèse, respectivement d’un extracteur du générateur automatique de document de synthèse, selon l’invention, - Figure 2, un schéma simplifié d’un élément-clé du document de synthèse, selon l’invention, - Figure 3, un schéma simplifié d’un moteur de recherche selon l’invention, - Figure 4, un procédé de génération de document de synthèse selon l’invention, - Figure 5, un exemple de représentation graphique simplifié d’un document de synthèse généré selon l’invention.The features and advantages of the invention will emerge more clearly on reading the description, given by way of example, and the figures relating thereto which represent: FIGS. 1a and 1b, a simplified diagram of the automatic document generator of synthesis, respectively of an extractor of the automatic synthesis document generator, according to the invention, - Figure 2, a simplified diagram of a key element of the summary document, according to the invention, - Figure 3, a simplified diagram of a search engine according to the invention, - Figure 4, a method for generating a summary document according to the invention, - Figure 5, an example of a simplified graphical representation of a synthesis document generated according to the invention.

La figure 1a illustre un schéma simplifié du générateur automatique de document de synthèse selon l’invention.FIG. 1a illustrates a simplified diagram of the automatic synthesis document generator according to the invention.

Un générateur 1 automatique d’un document de synthèse d’un contenu c comporte un générateur 14 de lien de parenté entre des éléments extraits ECh, EC2, EC3 d’au moins trois niveaux distincts. Le générateur 14 de lien de parenté détermine si un lien de parenté existe entre un premier élément extrait EC1: EC2 du contenu et un deuxième élément extrait EC2, EC3 du contenu si la clé Ky de l’élément extrait EC2, EC3 est incluse dans la clé de l’élément extrait EC1: EC2 .Les premier et deuxième éléments extraits sont de niveau directement voisin. La clé Ky est déterminée comme étant la concaténation des éléments de base constituant l'élément en dehors des éléments outils. Les éléments extraits des au moins trois niveaux distincts ECh, EC2, EC3 ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse ds.An automatic generator 1 of a document summarizing a content c includes a generator 14 of relationship between extracted elements ECh, EC2, EC3 of at least three distinct levels. The parent relationship generator 14 determines whether a relationship exists between a first extracted element EC1: EC2 of the content and a second extracted element EC2, EC3 of the content if the key Ky of the extracted element EC2, EC3 is included in the key of the extracted element EC1: EC2. The first and second extracted elements are of directly adjacent level. The key Ky is determined to be the concatenation of the basic elements constituting the element outside the tool elements. The elements extracted from the at least three distinct levels ECh, EC2, EC3 as well as the links of kinship generated between them being integrated in the summary document ds.

En particulier, le générateur 1 automatique de document de synthèse comporte au moins trois extracteurs 121: 122, 123 déterminant, chacun, des éléments extraits ECh, EC2, EC3 d’un niveau distinct des au moins deux autres extracteurs en fonction d’informations reçues ic, il, ig d’un analyseur syntaxique 11 de contenu auxquels les au moins trois extracteurs 121: 122, 123 sont connectés.In particular, the automatic synthesis document generator 1 comprises at least three extractors 121: 122, 123 determining, each, extracted elements ECh, EC2, EC3 of a level distinct from the other at least two other extractors as a function of information received. ic, il, ig of a content parser 11 to which the at least three extractors 121: 122, 123 are connected.

En particulier, le générateur automatique de document de synthèse comporte un analyseur syntaxique 11 de contenu connecté à au moins trois extracteurs^, 122, 123. L’analyseur syntaxique 11 fournissant des informations ic, il, ig relatives aux éléments de base du contenu c’ aux extracteurs 121: 122, 123 déterminant les premier, deuxième et troisième éléments extraits ECh, EC2, EC3 en fonction des informations ic, il, ig reçues de l’analyseur syntaxique 11.In particular, the automatic synthesis document generator comprises a content parser 11 connected to at least three extractors ^, 122, 123. The parser 11 providing information ic, il, ig relating to the basic elements of the content c to the extractors 121: 122, 123 determining the first, second and third extracted elements ECh, EC2, EC3 as a function of the information ic, il, ig received from the parser 11.

En particulier, les extracteurs 121: 122, 123 fournissent comme élément extrait ECi, EC2, EC3 une forme de surface de l’élément extrait déterminée en sélectionnant la forme la plus fréquente parmi les formes des éléments extraits desquels ont été supprimés les éléments outils.In particular, the extractors 121: 122, 123 provide, as extracted element ECi, EC2, EC3, a surface form of the extracted element determined by selecting the most frequent form among the shapes of the extracted elements from which the tool elements have been removed.

En particulier, le générateur 1 automatique de document de synthèse comporte un pondérateur 13 calculant le poids de chaque élément extrait permettant de trier les éléments extraits en fonction de leur poids w.In particular, the automatic synthesis document generator 1 comprises a weighting calculator 13 calculating the weight of each extracted element making it possible to sort the extracted elements according to their weight w.

En particulier, le générateur 1 automatique de document de synthèse fournit des éléments-clés déroulés, chaque élément-clé déroulé comportant au moins un élément extrait du contenu d’au moins trois niveaux distincts ainsi que les liens de parenté générés entre ces éléments extraits de niveaux distincts.In particular, the automatic synthesis document generator 1 provides unwrapped key elements, each unwrapped key element comprising at least one element extracted from the content of at least three distinct levels as well as the kinship links generated between these elements extracted from distinct levels.

En particulier, le générateur 1 automatique de document de synthèse opérant sur une collection de contenus {c] traite: • indépendamment chaque contenu c’= ci de la collection de contenus {c} fournissant un document de synthèse dsC' pour chaque contenu de la collection de contenus, et/ou • la collection comme un contenu unique c’={c} fournissant un document de synthèse pour l’ensemble des contenus dsc· de la collection de contenus.In particular, the automatic synthesis document generator 1 operating on a collection of contents {c] processes: • independently each content c '= ci of the collection of contents {c} providing a summary document dsC' for each content of the collection of contents, and / or • the collection as a single content c '= {c} providing a summary document for all contents dsc · of the content collection.

En particulier, le générateur 1 automatique de document de synthèse comporte un enregistreur 15 stockant les éléments extraits EC=, EC2, EC3 dans une matrice de synthèse dans laquelle les premiers éléments extraits sont placés dans une première colonne de la matrice, les deuxième éléments extraits dans une deuxième colonne de la grille dans une ligne déterminée en fonction de leur lien de parenté avec les premiers éléments extraits, et les troisième éléments extraits dans une troisième colonne de la matrice dans une ligne déterminée en fonction de leur lien de parenté avec les deuxième éléments extraits.In particular, the automatic synthesis document generator 1 comprises a recorder 15 storing the extracted elements EC =, EC2, EC3 in a synthesis matrix in which the first extracted elements are placed in a first column of the matrix, the second elements extracted in a second column of the grid in a line determined according to their relationship to the first elements extracted, and the third elements extracted in a third column of the matrix in a line determined according to their relationship to the second extracted elements.

La figure 1b illustre un extracteur 12n du générateur 1 automatique de document de synthèse, selon l’invention.FIG. 1b illustrates an extractor 12n of the automatic synthesis document generator 1, according to the invention.

En particulier, un extracteur 12n comporte un module de regroupement 121 n regroupant les éléments de base d’un contenu en éléments extraits {eg]a en fonction d’informations de catégorie syntaxique ic et des groupes syntaxiques ig relatifs à ces éléments de base. Par exemple, dans le cas où le contenu c’ est un document, les éléments de base eg sont des mots et le module de regroupement 121 n peut notamment regrouper les mots en entités nommées et/ou locutions,In particular, an extractor 12n includes a grouping module 121 n grouping the basic elements of a content in extracted elements {eg] a according to syntactic category information ic and syntactic groups ig relative to these basic elements. For example, in the case where the content is a document, the basic elements eg are words and the grouping module 121 n can notably group the words into named entities and / or phrases,

Par exemple : • Un extracteur de lemme 12! regroupe des éléments de bases du contenu en entités nommées et locutions; • Un extracteur de contexte immédiat 122 regroupe les éléments de base en fonction d’informations de catégorie syntaxique et des groupes syntaxiques relatifs à ces éléments de base, l’extracteur de contexte immédiat 122 est un extracteur de niveau directement voisin de l’extracteur de lemme 12^ • Un extracteur de contexte étendu 123 regroupe les éléments de base en fonction de règles d’association des groupes syntaxiques, l’extracteur de contexte étendu 123est un extracteur de niveau directement voisin de l’extracteur de contexte immédiat 122.For example: • A lemma extractor 12! groups basic elements of the content into named entities and phrases; An immediate context extractor 122 groups the basic elements according to syntactic category information and the syntactic groups relating to these basic elements, the immediate context extractor 122 is a level extractor directly adjacent to the extractor of the context. lemma 12 ^ • An extended context extractor 123 groups the basic elements according to association rules of the syntactic groups, the extended context extractor 123 is a level extractor directly adjacent to the immediate context extractor 122.

Ainsi, l’extracteur de lemme 12! fournit des éléments-clés lemmes EC^L, l’extracteur de contexte immédiat 122 des éléments-clés de contexte immédiat EC2=I et l’extracteur de contexte étendu 123 des éléments-clés de contexte étendu EC3=X. Le générateur de lien de parenté 14 fournit par exemple des éléments-clés hiérarchisés ECh , ou sous la forme d’ensemble d’éléments-clés de plusieurs niveaux imbriqués par exemple {Li,{lij, {Xijk]].So, the lemma extractor 12! provides key elements lemmas EC ^ L, the immediate context extractor 122 of immediate context key elements EC2 = I and the extended context extractor 123 of EC3 = X extended context key elements. For example, the kernel link generator 14 provides hierarchical key elements ECh, or in the form of a set of key elements of several nested levels for example {Li, {lij, {Xijk]].

En particulier, un extracteur 12n comporte un filtre 122n. Le filtre 122n est notamment connecté en sortie du module de regroupement 121 n. Le filtre 122n sélectionne les groupes d’éléments de base en fonction de leur nature.In particular, an extractor 12n has a filter 122n. The filter 122n is in particular connected at the output of the grouping module 121 n. The filter 122n selects the groups of basic elements according to their nature.

Ainsi, le document de synthèse ds ne comportera pas d’éléments extraits comportant, notamment, seulement des éléments de liaison, des éléments caractérisant...Thus, the summary document ds will not include extracted elements including, in particular, only connecting elements, elements characterizing ...

En particulier, un extracteur 12n comporte un générateur 123n de forme. Tout d’abord, une forme synthétique de l’élément extrait, en l’occurrence du groupe sélectionné, est déterminée comme étant fonction d’une concaténation des éléments de base de l’élément extrait et de règles d’écriture. La forme synthétique la plus fréquente associée aux éléments extraits possédant la même clé sera choisie comme « forme de surface » FS pour ces éléments extraits. La forme synthétique et/ou la forme de surface FS de l’élément extrait, est fournie par l’extracteur 12n comme élément extrait ECn. L’invention repose, donc notamment, sur le calcul des trois formes de surfaces. En effet, dans le cas de contenu sous forme de document, il ne suffit pas d’élargir le sens du mot-clé en augmentant simplement le nombre de mots qui l’entoure pour obtenir une forme de surface pertinente pour la lecture de la méta-représentation constitué par le document de synthèse ou le sondage par un moteur de recherche d’un corpus de contenus. Une sélection spécifique des groupes de mots et expressions est indispensable pour que la lecture/ le sondage soit efficace et pertinent. C’est pourquoi, le calcul des formes de surfaces par le générateur de document de synthèse est effectué sur les groupes de mots déterminés sur la sur la base d’une analyse syntaxique.In particular, an extractor 12n comprises a generator 123n of form. First, a synthetic form of the extracted element, in this case the selected group, is determined as a function of a concatenation of the basic elements of the extracted element and write rules. The most common synthetic form associated with the extracted elements having the same key will be chosen as "surface shape" FS for these extracted elements. The synthetic form and / or surface shape FS of the extracted element is provided by the extractor 12n as the extracted element ECn. The invention is based, in particular, on the calculation of the three surface shapes. Indeed, in the case of content as a document, it is not enough to broaden the meaning of the keyword by simply increasing the number of words around it to obtain a form of surface relevant to the reading of the meta -representation constituted by the summary document or the search by a search engine of a corpus of contents. A specific selection of groups of words and expressions is essential for the reading / survey to be effective and relevant. Therefore, the calculation of the surface shapes by the summary document generator is performed on the groups of words determined on the basis of a parsing.

Les formes de surface permettent d’anticiper la lecture du contenu notamment par une prévisualisation ou un déchiffrement anticipé du contenu, comme les vignettes de prévisualisation d’un film permettent de fournir une représentation en ligne de temps (timeline en anglais) des moments clés les plus significatifs d’un contenu vidéo qui permet d’anticiper le visionnage d’un film, ou la lecture par sauts dans le temps de la partition réalisée par le musicien afin d’accrocher le prochain bloc de notes à jouer alors que son cerveau reste libre pour accomplir l’exécution de la musique.The surface forms make it possible to anticipate the reading of the content, in particular by previewing or decrypting the content in advance, as the preview thumbnails of a film make it possible to provide an online representation of time (timeline in English) of the key moments. more significant of a video content that allows to anticipate the viewing of a film, or the time-based reading of the score made by the musician in order to hang the next block of notes to play while his brain remains free to complete the performance of the music.

Ainsi, le document de synthèse selon l’invention propose une nouvelle manière d’utiliser un contenu grâce à la génération automatisée d’un méta contenu : le document de synthèse représenté par une matrice d’éléments-clés multiforme. Cette matrice d’utilisation du contenu ou grille de lecture a l’immense avantage de pouvoir s’appliquer de la même manière à un seul contenu ou à une collection de contenu proposant de ce fait un nouveau paradigme d’utilisation de contenu (notamment de lecture) en rupture avec ce qui existe à ce jour.Thus, the summary document according to the invention proposes a new way of using a content thanks to the automated generation of a meta content: the summary document represented by a matrix of multiform key elements. This matrix of use of the content or reading grid has the immense advantage of being able to apply in the same way to a single content or a collection of content thus proposing a new paradigm of use of content (especially reading) to break with what exists to this day.

En ce qui concerne les contenus audio ou vidéo, le générateur de document de synthèse peut être connecté en aval d’un transcripteur automatique convertissant les données audio en données textuelles. Ainsi, l’utilisation, notamment la lecture, du document transcrit qui peut être difficile en raison par exemple d’erreurs de transcription, et/ou de manque de ponctuation... peut être réduite par l’utilisation du document de synthèse généré selon l’invention. Le taux de lisibilité du contenu est alors augmenté par le générateur de document de synthèse selon l’invention.With respect to audio or video contents, the summary document generator may be connected downstream of an automatic transcriber converting the audio data to textual data. Thus, the use, in particular the reading, of the transcribed document which can be difficult because of, for example, transcription errors, and / or lack of punctuation ... can be reduced by the use of the summary document generated according to the invention. The readability rate of the content is then increased by the synthesis document generator according to the invention.

La figure 2 illustre un schéma simplifié d’un élément-clé du document de synthèse, selon l’invention.FIG. 2 illustrates a simplified diagram of a key element of the summary document, according to the invention.

Un élément-clé hiérarchisé ECh du document de synthèse est généré progressivement par le générateur de document de synthèse. Cet élément-clé hiérarchisé ECh comporte l’élément-clé EC et au moins un lien de parenté h avec un autre élément extrait. L’élément-clé EC est aussi dit élément extrait car fourni par un extracteur. Il est représenté, notamment, par sa clé Ky, sa forme de surface FS et une information permettant de retrouver les occurrences de l’élément extrait EC dans le ou les contenus.A hierarchical key element ECh of the summary document is progressively generated by the summary document generator. This hierarchical key element ECh includes the key element EC and at least one family link h with another extracted element. The key element EC is also called element extracted because provided by an extractor. It is represented, in particular, by its key Ky, its surface form FS and information to find the occurrences of the EC extracted element in the content or contents.

Eventuellement, un élément-clé hiérarchisé ECh comporte en outre une pondération w calculée notamment en utilisant l’une des méthodes de pondération suivantes : fréquence de l’élément extrait dans le contenu, utilisation du coefficient Okapi, ou basé sur la fréquence inverse de l’élément extrait dans un ensemble de contenus, tel que la méthode de pondération TF-IDF (de l'anglais Term Frequency-lnverse Document Frequency).Optionally, a hierarchical key element ECh also comprises a weighting w calculated in particular by using one of the following weighting methods: frequency of the extracted element in the content, use of the Okapi coefficient, or based on the inverse frequency of the Extracted element in a set of contents, such as the TF-IDF (Term Frequency-Inverse Document Frequency) weighting method.

La figure 3 illustre un schéma simplifié d’un moteur de recherche selon l’invention. L’invention propose un paradigme de recherche très éloigné des mécanismes proposés par Google ou les autres moteurs de recherche en ce sens que, plutôt que de proposer une liste de complétion lors de la saisie des lettres dans un champ de recherche, ou de proposer une liste de résultats lors de la validation de ce champ de recherche suite à une saisie clavier ou une saisie vocale, un moteur de recherche utilisant le générateur de document de synthèse selon l’invention propose une liste sous la forme d’une « grille sémantique » de mots-clés « multi forme » permettant d’anticiper le plus rapidement possible la signification d’un mot-clé situé dans le contexte du ou des documents dans lequel il a été trouvé. En conséquence, un moteur de recherche utilisant un générateur de document de synthèse selon l’invention est un nouveau type de moteur de recherche fondé sur l’accès direct au sens des mots opérant comme un dictionnaire mais, au lieu de ne proposer que les formes souches des mots (les lemmes), offrirait une lecture de 3 niveaux sémantiques simultanés.Figure 3 illustrates a simplified diagram of a search engine according to the invention. The invention proposes a research paradigm far removed from the mechanisms proposed by Google or the other search engines in that, rather than proposing a completion list when entering letters in a search field, or proposing a list of results when the validation of this search field following a keyboard input or a voice input, a search engine using the synthesis document generator according to the invention proposes a list in the form of a "semantic grid" of "multiform" keywords making it possible to anticipate as quickly as possible the meaning of a keyword situated in the context of the document or documents in which it has been found. Consequently, a search engine using a summary document generator according to the invention is a new type of search engine based on direct access to the meaning of words operating as a dictionary but, instead of only proposing the forms strains of words (lemmas), would offer a reading of 3 simultaneous semantic levels.

Le moteur de recherche 2 peut comporter : • Un générateur 1 automatique de document de synthèse selon l’une quelconques des revendications précédentes ; • Une interface de saisie 201 d’un champ de recherche reproduisant un document de synthèse fourni par le générateur 1 automatique de document de synthèse en fonction des premières données saisies dans ledit champ de recherche.The search engine 2 may comprise: an automatic synthesis document generator 1 according to any one of the preceding claims; • An input interface 201 of a search field reproducing a summary document provided by the automatic generator 1 of summary document based on the first data entered in said search field.

Ainsi, un utilisateur U entre 2.cmd les premières lettres d’un mot-clé dans un champ de recherche de l’interface de saisie 201 au moyen de capteur de saisie 4, tel qu’un clavier, un écran tactile, un microphone.... (Par exemple, par la frappe l.cmdude ces lettres sur un clavier, un écran tactile...). L’interface de saisie 201 déclenche 3.req la récupération de document de synthèse généré par le générateur 1.Thus, a user U enters 2.cmd the first letters of a keyword in a search field of the input interface 201 by means of input sensor 4, such as a keyboard, a touch screen, a microphone .... (For example, by typing l.cmdude these letters on a keyboard, a touch screen ...). The input interface 201 triggers 3.req the summary document recovery generated by the generator 1.

En particulier, le moteur de recherche 2 comporte un intégrateur 202 récupérant 4’.prop un document de synthèse fournit par le générateur 1 de document de synthèse déclenchant 5’.rp la reproduction du document de synthèse notamment sur un écran 3a et/ou des haut-parleurs 3b. Ainsi, l’utilisateur U peut sélectionner 6’.vl au moyen du capteur de saisie 4 un mot-clé déroulé voire un mot-clé d’un des trois niveaux du document de synthèse présenté par l’intégrateur 202. L’intégrateur 202 insère 7’.psrch le mot-clé sélectionné dans le champ de saisie permettant d’accéder aux différentes occurrences du mot-clé voire du mot-clé déroulé dans un corpus de contenus.In particular, the search engine 2 comprises an integrator 202 recovering 4'.prop a summary document provided by the generator 1 of summary document 5'.rp triggering the reproduction of the summary document including a screen 3a and / or 3b speakers. Thus, the user U can select 6'.vl by means of the input sensor 4 or a key word of one of the three levels of the summary document presented by the integrator 202. The integrator 202 inserts 7'.psrch the keyword selected in the input field to access different occurrences of the keyword or keyword unwound in a corpus of content.

Et/ou le moteur de recherche 2 peut comporter : • Un générateur 1 automatique de document de synthèse selon l’une quelconques des revendications précédentes ; • Une interface de résultats de recherche 203 reproduisant un document de synthèse fourni par le générateur automatique de document de synthèse des contenus sélectionnés par le moteur de recherche comme résultats de recherche.And / or the search engine 2 may comprise: • An automatic synthesis document generator 1 according to any one of the preceding claims; • A search results interface 203 reproducing a summary document provided by the automatic document generator summary contents selected by the search engine as search results.

Ainsi, un utilisateur U entre 2.cmd dans un champ de recherche de l’interface de saisie 201 au moyen de capteur de saisie 4, tel qu’un clavier, un écran tactile, un microphone... un ou plusieurs mots-clés. L’interface de saisie 201 déclenche 4’.prop la récupération de document de synthèse généré par le générateur 1. En particulier, l’interface de résultat 203 recevant 4”.ds un document de synthèse fournit par le générateur 1 de document de synthèse déclenche 5”.rp la reproduction du document de synthèse notamment sur un écran 3a et/ou des haut-parleurs 3b.Thus, a user U enters 2.cmd in a search field of the input interface 201 by means of input sensor 4, such as a keyboard, a touch screen, a microphone ... one or more keywords . The input interface 201 triggers 4'.prop the synthesis document recovery generated by the generator 1. In particular, the result interface 203 receiving 4 ".ds a summary document provided by the generator 1 of the summary document triggers 5 ".rp reproduction of the summary document including a screen 3a and / or 3b speakers.

La figure 4 illustre un procédé de génération de document de synthèse selon l’invention.FIG. 4 illustrates a method of generating a summary document according to the invention.

Le procédé de génération automatique d’un document de synthèse dsc d’un contenu c comporte un génération de lien de parenté JNT entre des éléments extraits d’au moins trois niveaux distincts, le générateur de lien de parenté JNT déterminant si un lien de parenté existe entre un premier élément extrait du contenu et un deuxième élément extrait du contenu en fonction si la clé du deuxième élément extrait est incluse dans la clé du premier élément extrait., les premier et deuxième éléments extraits étant de niveau directement voisin et la clé étant déterminée comme étant la concaténation des éléments de base constituant l'élément en dehors des éléments outils, la clé d’un élément étant déterminée comme étant une concaténation des éléments de base constituant l’élément, les éléments extraits des au moins trois niveaux distincts ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse.The method of automatically generating a summary document dsc of a content c comprises a generation of JNT kinship between elements extracted from at least three distinct levels, the kinship link generator JNT determining whether a kinship link exists between a first element extracted from the content and a second element extracted from the content based on whether the key of the second extracted element is included in the key of the first extracted element., the first and second extracted elements being of directly adjacent level and the key being determined to be the concatenation of the basic elements constituting the element outside the tool elements, the key of an element being determined as being a concatenation of the basic elements constituting the element, the elements extracted from the at least three distinct levels as well as that the relationships of kinship generated between them being integrated into the summary document.

Ainsi, les trois niveaux sont joints fournissant une synthèse des différents niveaux d’éléments extraits sous une forme hiérarchique, tout en conservant l’information sur les occurrences de chacun des mots-clés lemmes sélectionnés. Le résultat est un arbre qui peut être représenté avec l’imbrication des niveaux.Thus, the three levels are joined providing a synthesis of the different levels of elements extracted in a hierarchical form, while keeping the information on the occurrences of each of the keywords selected lemmas. The result is a tree that can be represented with nesting levels.

Exemple de fichier xml de cet arbre : <kw0 key="suspicion" surface="suspicion" occList="8165 8165,8180 8180,8565, 8565,8576, 8576"> <kwl key="suspicion" surface="suspicion" occList="8164 8165,8564 8565,8575 8576 "> <kw2 key="suspicion" surface="suspicion" occList="8564 8565,8575 8 576 " /> <kw2 key="suspicion lait" surface="suspicion par rapport au lait" occList="8164 8169" /> </kwl> <kwl key="extension suspicion" surface="extension de la suspicion" occLi st = "8176 8180" > <kw2 key="extension suspicion produit animal" surface="extension de la suspicion sur les produits animaux" occList="8176 8184"/> </kwl> </kw0>Example of the xml file of this tree: <kw0 key = "suspicion" surface = "suspicion" occList = "8165 8165,8180 8180,8565, 8565,8576, 8576"> <kwl key = "suspicion" surface = "suspicion" occList = "8164 8165,8564 8565,8575 8576"> <kw2 key = "suspicion" surface = "suspicion" occList = "8564 8565,8575 8,576" /> <kw2 key = "milk suspicion" surface = "suspicion by relation to milk "occList =" 8164 8169 "/> </ kwl> <kwl key =" suspicion extension "surface =" extension of suspicion "occli st =" 8176 8180 "> <kw2 key =" animal product suspicion extension " surface = "extension of suspicion on animal products" occList = "8176 8184" /> </ kwl> </ kw0>

Chaque élément-clé est représenté par sa clé et sa forme de surface et une information permettant de retrouver les occurrences de l’élément-clé dans le ou les contenus. Les occurrences associées à une entité de la troisième colonne sont un sous-ensemble des occurrences de l’entité « parent » de la deuxième colonne.Each key element is represented by its key and its surface form and information to find the occurrences of the key element in the content or contents. The occurrences associated with an entity in the third column are a subset of the occurrences of the "parent" entity in the second column.

La relation de parenté entre un élément de niveau N et un élément de N-1 .aussi nommé niveau voisin est définie de la façon suivante : un élément ECn de niveau N est un fils d’un élément ECN-i de niveau N-1 si et seulement si la clé Ky de l’élément élément ECN-i est incluse dans la clé Ky de l’élément ECN. La liste des occurrences séparées, dans l’exemple ci-dessus du fichier xml, par des virgules fait notamment référence à des indices du premier et du dernier élément du groupe dans le contenu.The relationship between an N-level element and an N-1 element, also called a neighboring level, is defined as follows: an N-level element ECn is a child of an N-1 ECN-i element if and only if the key Ky of the element element ECN-i is included in the key Ky of the element ECN. The list of separate occurrences, in the above example of the xml file, by commas refers in particular to indices of the first and the last element of the group in the content.

En particulier, le procédé de génération automatique de document de synthèse comporte trois extractions distinctes L_XTR, l_XTR, X_XTR d’éléments du contenu fournissant des éléments extraits de trois niveaux distincts.In particular, the automatic synthesis document generation method comprises three distinct extractions L_XTR, l_XTR, X_XTR of elements of the content providing elements extracted from three distinct levels.

En particulier, chaque extraction L_XTR, l_XTR, X_XTR comporte un regroupement GRP des éléments de base fournis par une analyse syntaxique du contenu SYNT_NLZ, une sélection FLT d’éléments extraits par filtrage sur la nature des groupes et une détermination de forme de surface FS_DT.In particular, each extraction L_XTR, l_XTR, X_XTR comprises a grouping GRP of the basic elements provided by a syntactic analysis of the content SYNT_NLZ, a selection FLT of elements extracted by filtering on the nature of the groups and a determination of surface form FS_DT.

Notamment, le procédé de génération automatique de synthèse comporte une analyse syntaxique SYNT_NLZ qui comporte ou déclenche une ou plusieurs des étapes suivantes réalisées simultanément et/ou successivement : Détermination de la catégorie syntaxique de chaque élément de base, notamment mot, image, note... Détermination du lemme de chaque élément de base (par exemple pour l’élément de base « mot », sa forme canonique tel qu’inscrit dans un dictionnaire) ; Segmentation en groupes syntaxiques du contenu (par exemple, pour un document et/ou un contenu comportant une partie vocale, groupe nominal, groupe verbal, groupe prépositionnel...)In particular, the automatic synthesis synthesis method comprises a syntactical analysis SYNT_NLZ which comprises or triggers one or more of the following steps carried out simultaneously and / or successively: Determination of the syntactic category of each basic element, in particular word, image, note. Determination of the lemma of each basic element (for example for the basic element "word", its canonical form as written in a dictionary); Segmentation into syntactic groups of the content (for example, for a document and / or a content comprising a vocal part, nominal group, verbal group, prepositional group ...)

Le regroupement GRP permet, en particulier, de sélectionner les éléments-clés avec leurs contextes immédiats et étendus à partir des informations reçues de l’analyse syntaxique, notamment sur la base de règles sur les catégories et/ou groupes syntaxiques. Un avantage de cette méthode de regroupement est d’éviter l’utilisation de dictionnaire a priori d’élément-clé qui ne peut pas couvrir l’ensemble des contextes présents dans les contenus.The GRP grouping makes it possible, in particular, to select the key elements with their immediate and extended contexts based on the information received from the parsing, in particular on the basis of rules on the categories and / or syntactic groups. An advantage of this grouping method is to avoid the use of a priori key-element dictionary that can not cover all the contexts present in the contents.

Eventuellement, en amont du regroupement des contextes immédiats et contextes étendus, le procédé de génération automatique de document de synthèse comporte une détection d’entités nommées permet de typer les éléments de base du contenu de façon complémentaire et de fournir les éléments-clés lemmes restreints à certains types d’éléments de base tels que les lieux, les personnes, etc...Possibly, upstream of the grouping of immediate contexts and extended contexts, the method of automatic generation of summary document comprises a detection of named entities makes it possible to type the basic elements of the content in a complementary manner and to provide the key elements limited lemmas to certain types of basic elements such as places, people, etc ...

Ainsi, pour l’extraction lemme L_XTR, l’extraction comporte, notamment, une étape de regroupement GRP réduite au regroupement éventuel des entités nommées et/ou de locutions qu’il est préférable de traiter comme une entité à part entière (par exemple, dans le cas de mot-clé lemme: «dans la mesure où», «au cœur de»... sont des locutions qu’il est préférable de regrouper dans un mot-clé lemme pour ne pas tenir compte des éventuels noms qui la composent, à savoir « mesure » et « cœur »).Thus, for the lemma extraction L_XTR, the extraction comprises, in particular, a GRP grouping step reduced to the possible grouping of the named entities and / or of the phrases which it is preferable to treat as a separate entity (for example, in the case of keyword lemma: "insofar as", "at the heart of" ... are phrases that it is better to group in a lemma keyword to disregard any possible names that the make up, namely "measure" and "heart").

Pour l’extraction de contexte immédiat l_XTR, le regroupement GRP est effectuée sur la base de règles sur les catégories syntaxiques et /ou groupes syntaxiques (par exemple, dans le cas d’élément-clé constitué par des mots-clés, à des groupes de type « nom+adjectif » et/ou « nom+’de’+nom »).For the extraction of immediate context l_XTR, the GRP grouping is carried out on the basis of rules on the syntactic categories and / or syntactic groups (for example, in the case of key-element constituted by keywords, to groups of type "noun + adjective" and / or "name +" of "+ name").

Pour l’extraction de contexte étendu X_XTR, le regroupement GRP est effectuée sur la base de règles d’association entre les groupes du niveau voisin ou précédent, sans limite a priori sur leur longueur (par exemple, dans le cas d’élément-clé constitué par des mots-clés, on peut trouver plusieurs enchaînement prépositionnels comme « poursuite de la progression du marché des desserts lactés » vu dans l’exemple illustrant la figure 5).For extended context extraction X_XTR, the GRP grouping is performed on the basis of association rules between the groups of the next or previous level, without a priori limit on their length (for example, in the case of key element consisting of keywords, one can find several prepositional sequence as "continuation of the growth of the market of milk desserts" seen in the example illustrating Figure 5).

Eventuellement, l’extraction L_XTR, l_XTR, X_XTR comporte une sélection FLT grâce à un filtrage sur la nature des groupes établis lors d’un regroupement.Optionally, the extraction L_XTR, l_XTR, X_XTR comprises a selection FLT thanks to a filtering on the nature of the groups established during a grouping.

En particulier, l’extraction d’éléments composés de plusieurs éléments de base comporte une détermination de formes de surface FS_DT d’un groupe d’éléments en fonction d’une clé Ky et d’éléments outils. La détermination de forme de surface comporte une sélection de la forme synthétique la plus fréquente de groupes d’éléments disposant de la même clé Ky. En particulier, la détermination de la forme synthétique est fonction de la concaténation des éléments de base du groupe d’éléments et de règles d’écriture. Par ailleurs, la concaténation des éléments de base desquels ont été supprimés les éléments outils fournit la clé Ky d’un élément-clé EC.In particular, the extraction of elements composed of several basic elements comprises a determination of FS_DT surface forms of a group of elements according to a key Ky and tool elements. The surface shape determination comprises a selection of the most common synthetic form of groups of elements having the same key Ky. In particular, the determination of the synthetic form is a function of the concatenation of the basic elements of the group. elements and writing rules. In addition, the concatenation of the basic elements from which the tool elements have been removed provides the key Ky of a key element EC.

Ainsi, le mécanisme de clé permet d’associer différentes formes FS à un identifiant unique : la clé Ky qui est la concaténation des lemmes de chacun des éléments de base (notamment mots) hormis éléments outils (notamment les articles, déterminants, prépositions...). La concaténation des éléments de base n’offrant pas toujours une forme respectant les règles d’écriture de contenu, notamment une forme correcte à la lecture (par exemple un adjectif au masculin alors que le nom est féminin), la forme synthétique est obtenue sur la base de ces règles d’écriture (notamment, car elle correspond à une forme réellement rencontrée dans le ou les documents). Si plusieurs formes sont obtenues pour des extraits distincts du contenu ayant la même clé, la forme de surface retenue pour cette clé est la forme la plus fréquente.Thus, the key mechanism makes it possible to associate different FS forms with a unique identifier: the key Ky which is the concatenation of the lemmas of each of the basic elements (in particular words) except for tool elements (in particular the articles, determinants, prepositions). .). The concatenation of the basic elements does not always offer a form respecting the rules of writing content, including a correct form to reading (for example an adjective to the masculine while the name is feminine), the synthetic form is obtained on the basis of these writing rules (in particular, because it corresponds to a form actually encountered in the document or documents). If several shapes are obtained for extracts separate from the content having the same key, the surface shape retained for this key is the most common form.

Par exemple, si le contenu comporte la phrase « et ceci malgré la poursuite de la progression du marché des desserts lactés » : - le regroupement fournit un groupe étendu : dans notre exemple, « malgré la poursuite de la progression du marché des desserts lactés », - puis la sélection fourni une clé du groupe étendu : dans notre exemple, « poursuite progression marché dessert lacté » qui correspond au groupe étendu précédent duquel ont été supprimé les éléments-outils, -puis la détermination de la forme de surface fournit un mot-clé étendu respectant les règles d’écriture du contenu : dans notre exemple, « poursuite de la progression du marché des desserts lactés ».For example, if the content includes the phrase "and this despite the continued growth of the dairy desserts market": - the group provides a large group: in our example, "despite the continued growth of the dairy desserts market" - then the selection provided a key to the extended group: in our example, "Milk Dessert Market Progress Pursuit" which corresponds to the previous extended group from which the tool elements were deleted, - since the determination of the surface form provides a word -key extended according to the rules of writing of the content: in our example, "continued progress of the dairy desserts market".

Si le contenu comporte la phrase « pour la poursuite de la progression du marché du dessert lacté », l’extraction fournirait la même clé « poursuite progression marché dessert lacté » permettant de regrouper cette phrase dans le même élément-clé étendu « poursuite de la progression du marché des desserts lactés ».If the content contains the phrase "for the continued growth of the dairy dessert market", the extraction would provide the same key "continuation progress market milk dessert" to consolidate this sentence in the same key element extended "continuation of the progress of the dairy desserts market ".

Le procédé de génération de document de synthèse comporte éventuellement un calcul de pondération (non illustré) des différents éléments-clés de chaque niveau du document de synthèse. Ce calcul de pondération sur les mots-clés est effectué en fonction d’une méthode de pondération telle que le calcul de la fréquence de la clé dans le document, l’utilisation du coefficient Okapi, la méthode TF-IDF... En particulier, le procédé de génération de document de synthèse comporte un tri des éléments-clés des différents niveaux en fonction de la pondération calculé. Dans l’exemple d’une matrice de trois niveaux : le niveau lemme étant trié en premier, le niveau contexte immédiat étant trié en respectant le tri du niveau précédent, et le niveau contexte étendu étant trié en respectant le tri du niveau précédent.The method for generating a summary document optionally comprises a weighting calculation (not shown) of the different key elements of each level of the summary document. This calculation of weighting on the keywords is done according to a weighting method such as the calculation of the frequency of the key in the document, the use of the Okapi coefficient, the TF-IDF method ... In particular the synthesis document generation method comprises sorting the key elements of the different levels according to the calculated weighting. In the example of a matrix of three levels: the lemma level being sorted first, the immediate context level being sorted respecting the sorting of the previous level, and the extended context level being sorted respecting the sorting of the previous level.

Un mode de réalisation du procédé de génération automatique de document de synthèse selon l’invention est un programme comprenant des instructions de code de programme pour l’exécution des étapes du procédé de génération automatique de document de synthèse lorsque ledit programme est exécuté par un processeur.One embodiment of the automatic synthesis document generation method according to the invention is a program comprising program code instructions for executing the steps of the automatic synthesis document generation method when said program is executed by a processor. .

Ainsi, l’invention propose un nouvel outil d’exploration de contenu, notamment du texte d’un document, ou de l’audio d’un contenu multimédia, etc. , ou d’une collection de contenus sous la forme d’une grille d’éléments-clés (notamment de mots clés, sons-clés ou images-clés, etc.) dont la particularité est de disposer de plusieurs niveaux. Ces niveaux sont utilisés comme niveaux utilisés par un utilisateur, comme niveaux de pertinence par un moteur de recherche... Par exemple, les niveaux sont un niveau lemme, un niveau de contexte immédiat, un niveau de contexte étendu...Thus, the invention proposes a new tool for exploring content, in particular the text of a document, or the audio of a multimedia content, etc. , or a collection of content in the form of a grid of key elements (including keywords, key-sounds or keyframes, etc.) whose particularity is to have several levels. These levels are used as levels used by a user, as levels of relevance by a search engine ... For example, levels are a lemma level, an immediate context level, an extended context level ...

La figure 5 illustre un exemple de représentation graphique simplifié d’un document de synthèse généré selon l’invention. Cette représentation graphique est notamment une interface d’exploration de contenu mettant en œuvre l’invention.FIG. 5 illustrates an example of a simplified graphic representation of a synthesis document generated according to the invention. This graphic representation is in particular a content exploration interface embodying the invention.

Chaque niveau d’éléments extraits est affiché dans une colonne de la matrice ou grille et il y a autant de lignes que nécessaires pour le contenu ainsi synthétisé. L’élément-clé n’est donc plus affiché en tant que terme unique mais simultanément sous plusieurs formes appelées forme de surface de l’élément-clé. Ces formes de surfaces correspondant à l’emploi des éléments-clés tels qu’on peut les rencontrer dans le ou les contenus. A chaque forme de surface de l’élément-clé, en l’occurrence du mot-clé, est associé le nombre d’occurrences trouvées dans le ou les contenus (documents, ou textes transcrits de contenus audio et/ou vidéo...). La liste des occurrences peut être facilement affichée en cliquant sur sa cellule dans la grille.Each level of extracted elements is displayed in a column of the matrix or grid and there are as many lines as necessary for the content thus synthesized. The key-element is therefore no longer displayed as a single term but simultaneously in several forms called the surface form of the key-element. These forms of surfaces corresponding to the use of key elements such as can be encountered in the content or contents. At each surface form of the key element, in this case the keyword, is associated the number of occurrences found in the content or contents (documents, or transcribed texts of audio and / or video content ... ). The list of occurrences can be easily displayed by clicking on its cell in the grid.

Le nombre de niveaux par mot clé est supérieur ou égal à 2. Le nombre de niveaux est sans limite supérieur en théorie. Le nombre maximum de niveaux peut, par exemple, être prédéfini dans le générateur de document de synthèse) ou fonction du mode d’utilisation du document de synthèse (utilisation par un moteur de recherche, affichage pour lecture par un utilisateur, reproduction sonore pour écoute par un utilisateur).The number of levels per keyword is greater than or equal to 2. The number of levels has no upper bound in theory. The maximum number of levels may, for example, be predefined in the summary document generator) or depending on the mode of use of the summary document (use by a search engine, display for reading by a user, sound reproduction for listening by a user).

Dans notre exemple de « synthèse de documents », le nombre de niveaux a été déterminé en fonction de l’utilisation : lecture par un utilisateur en mode typo « vision » sur un écran comme étant égal à trois. En effet, l’utilisation de trois niveaux permet au lecteur de déplacer son regard dans la grille tout en restant dans un mode « typo vision » pour lire le texte des différentes formes de surface sans avoir recours au mode « typo lecture ».In our example of "document synthesis", the number of levels was determined according to the use: reading by a user in typo mode "vision" on a screen as being equal to three. Indeed, the use of three levels allows the reader to move his gaze in the grid while remaining in a "typo vision" mode to read the text of the various surface forms without using the "typo reading" mode.

La vision en trois colonnes permet une lecture rapide du contenu avec une vision, en l’occurrence de plus en plus précise de la gauche vers la droite pour des lecteurs de type européen comme montrer par la figure. Pour des lecteurs arabophones, il peut être envisagé de mettre dans la colonne de droit l’élément-clé lemme pour aller vers la gauche vers plus de précision. Pour des lecteurs asiatiques, l’organisation colonne-lignes peut être inversé pour distribuer un niveau par ligne et indiqué en haut de la ligne l’élément-clé lemme pour aller vers le bas vers plus de précision, etc.The three-column view allows a quick reading of the content with a vision, in this case more and more accurate left-to-right for European type readers as shown by the figure. For Arabic-speaking readers, it may be considered to put in the right-hand column the key-element lemma to go to the left towards more precision. For Asian readers, the column-line organization can be inverted to distribute one level per line and indicated at the top of the line the lemma key-element to go down to more precision, and so on.

Par lecture en mode « typo vision » est entendu un mécanisme de lecture mise en œuvre par le cerveau pour lire les mots inscrits, par exemple, dans les affiches, les slogans, les logos de marques, etc. Pour que la lecture en mode « typo vision » puisse être activée dans le cerveau, le texte est court, entourés d’une marge permettant d’éviter la confusion avec les textes voisins et utilisent une typographie compacte et lisible. Dans ce cas, le cerveau va accéder au sens des mots d’une manière bien plus rapide que dans un processus de lecture classique (mode « typo lecture »), l’œil parcourant la grille dans tous les sens (de droite à gauche, de haut en base, en diagonale, etc.) s’accrochant sur une « forme de surface « au gré de son intérêt personnel. Ainsi, le document de synthèse généré selon l’invention permettra ainsi au lecteur d’accéder rapidement à l’ensemble des sens différents associés à un même mot dans le ou les documents.By reading in "typo vision" mode is meant a reading mechanism implemented by the brain to read the words inscribed, for example, in posters, slogans, brand logos, etc. So that typo vision reading can be activated in the brain, the text is short, surrounded by a margin to avoid confusion with neighboring texts and use a compact and readable typography. In this case, the brain will access the meaning of words in a much faster way than in a classic reading process ("typo-reading" mode), the eye traversing the grid in all directions (from right to left, from top to bottom, diagonally, etc.) clinging to a "surface shape" according to his personal interest. Thus, the summary document generated according to the invention will thus allow the reader to quickly access all of the different meanings associated with the same word in the document or documents.

Le paradigme de lecture et/ou de recherche proposé par le document de synthèse généré selon l’invention est de permettre la recherche exploratoire soit par un utilisateur soit par un moteur de recherche au sein de grands corpus de contenus, notamment de textes, sans toutefois accéder aux contenus sources mais à une méta-forme représentée par une matrice d’éléments-clés. Ceci permet de réduire le temps, et les ressources nécessaires pour sonder un corpus de contenus tels que des documents textuels traditionnels (livres, articles, etc.) ou de documents textuels générés à partir de transcriptions de la parole, de manuscrits....The paradigm of reading and / or research proposed by the synthesis document generated according to the invention is to allow exploratory research either by a user or by a search engine within large corpus of content, including texts, without however access source content but a meta-form represented by a matrix of key elements. This reduces the time and resources needed to probe a body of content such as traditional textual documents (books, articles, etc.) or textual documents generated from speech transcripts, manuscripts, etc.

Comme le montre la figure 5, le document de synthèse propose ce qui peut être nommé des éléments-clés déroulés ou mots-clés déroulés qui pourraient correspondant à ce qu’on appelle à du code précompilé dans le langage informatique car permet d’utiliser (lecture/ sondage) le contenu sans utiliser le contenu dans son entier. Dans la première colonne, l’utilisateur/le moteur de recherche accède immédiatement à la forme « souche » de l’élément-clé (lemme). La deuxième colonne permet une première différentiation avec ce premier élément-clé ou élément-clé lemme en donnant une orientation sémantique alors que la troisième colonne propose une confirmation sémantique dont le but est d’évacuer au maximum l’ambiguïté. Les éléments-clés indiqués dans cette troisième colonne permettent ainsi de prédire le sujet traité dans les occurrences repérées dans le ou les contenus.As shown in Figure 5, the summary document proposes what can be called unwound key elements or unwrapped keywords that could correspond to what is called precompiled code in the computer language because allows to use ( reading / polling) the content without using the entire content. In the first column, the user / search engine immediately accesses the "stem" form of the key-element (lemma). The second column allows a first differentiation with this first key element or lemma key element by giving a semantic orientation while the third column proposes a semantic confirmation whose goal is to evacuate ambiguity as much as possible. The key elements indicated in this third column thus make it possible to predict the subject treated in the occurrences identified in the content or contents.

Ainsi, l’invention propose un document de synthèse permettant de « feuilleter » non plus individuellement un document mais une méta-représentation d’un contenu voire d’un corpus de contenus dont le générateur de document de synthèse a extrait le potentiel sémantique en s’appuyant sur des méthodes statistiques et, notamment, des connaissances linguistiques et/ou connaissances d’écriture musicale, vidéo, etc.Thus, the invention proposes a summary document for "leafing through" not individually a document but a meta-representation of a content or even a body of content whose synthesis document generator has extracted the semantic potential in s using statistical methods and, in particular, linguistic knowledge and / or knowledge of musical writing, video, etc.

Le générateur de document de synthèse selon l’invention fournit, notamment pour un contenu c, un document de synthèse qui peut être utilisé soit par un dispositif, par exemple un moteur de recherche, soit par un utilisateur. Pour un utilisateur, le générateur de document de synthèse est connecté en sortie à un dispositif de reproduction sonore, vidéo... via une interface de représentation du document de synthèse.The synthesis document generator according to the invention provides, in particular for a content c, a summary document that can be used either by a device, for example a search engine, or by a user. For a user, the summary document generator is outputted to a sound reproduction device, video ... via a representation interface of the summary document.

Dans le cas d’un dispositif de reproduction tel qu’un écran, l’interface de représentation est une interface graphique générant à partir du document de synthèse généré, une représentation graphique du document de synthèse ds_rg. Cette représentation graphique du document de synthèse ds_rg est notamment une représentation graphique interactive permettant de naviguer entre les différentes niveaux du document de synthèse et entre le document de synthèse ds et le contenu c.In the case of a reproduction device such as a screen, the representation interface is a graphical interface generating from the generated summary document, a graphical representation of the summary document ds_rg. This graphic representation of the summary document ds_rg is in particular an interactive graphical representation making it possible to navigate between the different levels of the summary document and between the summary document ds and the content c.

Dans cette représentation graphique d’un document de synthèse ds_rg, le titre du contenu ttl_c est, notamment, indiqué au-dessus de la représentation graphique de la matrice de synthèse du contenu ds_mt, par exemple ttl_c = « Le lait en Europe et en Asie » si le contenu c concerne une conférence sur ce sujet.In this graphical representation of a summary document ds_rg, the title of the content ttl_c is, in particular, indicated above the graphic representation of the synthesis matrix of the content ds_mt, for example ttl_c = "Milk in Europe and in Asia If the content c concerns a conference on this subject.

La matrice de synthèse ds_mt comporte 3 colonnes ds_cl1, ds_cl2 et ds_cl3 correspondant à 3 niveaux distincts d’éléments-clés, notamment en allant de gauche à droite : éléments-clés lemmes, éléments-clés de contexte immédiat et éléments-clés de contexte étendu. La matrice de synthèse ds_mtcomporte autant de lignes ds_lg1, ds_lg2 ... dsjgi que d’éléments-clés lemmes identifiés dans le document par le générateur de document de synthèse.The synthesis matrix ds_mt has 3 columns ds_cl1, ds_cl2 and ds_cl3 corresponding to 3 distinct levels of key elements, in particular going from left to right: key-elements lemmas, key-elements of immediate context and key-elements of extended context . The synthesis matrix ds_mtcomporte as many lines ds_lg1, ds_lg2 ... dsjgi as key elements lemmes identified in the document by the summary document generator.

Dans l’exemple de la figure 5, dans la première ligne dsjgi de la matrice de synthèse ds_mt, dans la première colonne ds_cl1 est inscrit un premier élément-clé lemme L1, dans notre exemple le mot lemme « poulain ». Dans la deuxième colonne ds_cl2 est inscrit un élément-clé de contexte immédiat 111 pour lequel un lien de parenté avec le premier élément-clé lemme L1 a été généré par le générateur de document de synthèse, dans notre exemple le groupe-clé de contexte immédiat « poulain ». En l’occurrence, dans notre exemple le groupe clés de contexte immédiat 111 est identique au mot clé lemme L1. Dans la troisième colonne ds_cl3 sont inscrits des éléments-clés de contexte étendu X111, X112, X113 pour lesquels un lien de parenté avec l’élément-clé de contexte immédiat 111 a été généré par le générateur de document de synthèse, dans notre exemple les groupes-clés de contexte étendu, respectivement « poulains», « petite cérémonie de la première traite des poulains », et « piquets pour l’accord de la taille des poulains».In the example of FIG. 5, in the first line dsjgi of the synthesis matrix ds_mt, in the first column ds_cl1 is inscribed a first key element lemma L1, in our example the word lemma "foal". In the second column ds_cl2 is inscribed an immediate context key element 111 for which a relationship with the first lemma key element L1 has been generated by the summary document generator, in our example the immediate context key-group " foal ". In this case, in our example, the immediate context key group 111 is identical to the key word lemma L1. In the third column ds_cl3 are written extended context key elements X111, X112, X113 for which a relationship with the immediate context key element 111 has been generated by the summary document generator, in our example the key groups of extended context, respectively "foals", "small ceremony of the first milking of the foals", and "pickets for the agreement of the size of foals".

Dans la deuxième ligne ds_lg2 de la matrice de synthèse ds_mt, dans la première colonne ds_cil est inscrit un deuxième élément-clé lemme L2, dans notre exemple le mot lemme « dessert». Dans la deuxième colonne ds_cl2 sont inscrits deux éléments-clés de contexte immédiat 121 et I22 pour lesquels un lien de parenté avec le deuxième élément-clé lemme L2 a été généré par le générateur de document de synthèse, dans notre exemple respectivement les groupes-clés de contexte immédiat « desserts lactés» et « marché des desserts lactés ». Dans la troisième colonne ds_cl3 sont inscrits, respectivement en face des éléments-clés de contexte immédiat 121 et I22, des éléments-clés de contexte étendu X211, X221 pour chacun desquels un lien de parenté avec l’élément-clé de contexte immédiat 121, respectivement 121, a été généré par le générateur de document de synthèse, dans notre exemple les groupes-clés de contexte étendu « desserts lactés», et « poursuite de la progression du marché des desserts lactés». Etc.In the second line ds_lg2 of the synthesis matrix ds_mt, in the first column ds_cil is inscribed a second key element lemma L2, in our example the word lemma "dessert". In the second column ds_cl2 are registered two immediate context key elements 121 and I22 for which a relationship with the second key element Lemma L2 has been generated by the summary document generator, in our example respectively the key groups of immediate context "dairy desserts" and "dairy desserts market". In the third column ds_cl3 are written respectively opposite the immediate context key elements 121 and I22, extended context key elements X211, X221 for each of which are related to the immediate context key element 121, respectively 121, was generated by the synthesis document generator, in our example the key groups of extended context "dairy desserts", and "continuing the growth of the dairy desserts market". Etc.

Dans la ième ligne dsjgi de la matrice de synthèse ds_mt, dans la première colonne ds_cl1 est inscrit un ième élément-clé lemme Li. Dans la deuxième colonne ds_cl2 sont inscrits j éléments-clés de contexte immédiat Ii1, Ii2...lij pour lesquels un lien de parenté avec le ième élément-clé lemme Li a été généré par le générateur de document de synthèse. Dans la troisième colonne ds_cl3 sont inscrits, respectivement en face des éléments-clés de contexte immédiat Ii1, Ii2... lij, des éléments-clés de contexte étendu, respectivement Xi 11, XM2, XM3 ; Xi21 ; et Xij1...Xijk pour chacun desquels un lien de parenté avec l’élément-clé de contexte immédiat Ii1, respectivement Ii2,..., respectivement lij, a été généré par le générateur de document de synthèse.In the ith line dsjgi of the synthesis matrix ds_mt, in the first column ds_cl1 is inscribed a th key element lemma Li. In the second column ds_cl2 are written j key elements of immediate context Ii1, Ii2 ... lij for which a kinship with the ith lemma key element Li was generated by the summary document generator. In the third column ds_cl3 are respectively written opposite the immediate context key elements Ii1, Ii2 ... lij, extended context key elements, respectively Xi 11, XM2, XM3; Xi21; and Xij1 ... Xijk for each of which a kinship relationship with the immediate context key element Ii1, respectively Ii2, ..., respectively lij, has been generated by the summary document generator.

La sélection d’un élément-clé, par exemple l’élément-clé 121 (« desserts lactés » dans notre exemple), de la matrice déclenche une reproduction dans une zone slct_ec_rg de la représentation graphique du document de synthèse ds_rg, par exemple à droite, fait apparaitre les occurrences de l’élément-clé sélectionné: ici (no/2, = a-1) occurrences présentées notamment avec une indication de leur position dans le contenu c modélisé par le point, respectivement ip1... ipa, et éventuellement un extrait plus large du contenu slct_ec_xtr1 ... slct_ec_xtra associé à chaque occurrence (par exemple la/les phrase(s) complète du contenu ou un autre contexte calculé automatiquement (4e niveau) )dans laquelle se trouve l’élément-clé.The selection of a key element, for example the key element 121 ("dairy desserts" in our example), of the matrix triggers a reproduction in a slct_ec_rg zone of the graphical representation of the summary document ds_rg, for example to right, shows the occurrences of the selected key-element: here (no / 2, = a-1) occurrences presented in particular with an indication of their position in the content c modelized by the point, respectively ip1 ... ipa, and possibly a larger extract of the content slct_ec_xtr1 ... slct_ec_xtra associated with each occurrence (for example the complete sentence (s) of the content or another automatically calculated context (4th level)) in which is the key element .

Les extraits sont notamment dans notre exemple : slct_ec_xtr1 : « en France tout particulièrement le développement différent de ce qu’on appelle les desserts lactés qui apparaît dans les hier des supermarchés » ; slct_ec_xtror. « Il y a beaucoup moins de desserts lactés comme si finalement l’espace du linéaire et qui qu’était occupé soit par les desserts lactés soit par le Net Astérix».The excerpts are particularly in our example: slct_ec_xtr1: "in France especially the different development of what we call the dairy desserts that appears in yesterday's supermarkets"; slct_ec_xtror. "There are many less milky desserts as if finally the space of the linear and which was occupied either by the milky desserts or by Net Asterix".

Dans notre exemple, le document étant une transcription d’une conférence, ces extraits peuvent comporter des erreurs de transcriptions.In our example, since the document is a transcript of a conference, these excerpt may contain transcript errors.

La sélection d’une occurrence, par exemple slct_ec_xtr1 déclenche la reproduction, notamment par un lecteur, du contenu au début de l’extrait xtra, dans une zone slct_xtr_rg de la représentation graphique du document de synthèse ds_rg, par exemple en bas à droite. Dans notre exemple, il s’agit de la vidéo de la conférence dont la lecture commence au début de l’extrait xtra incluant la sélection slct_ec_xtr1. L'invention vise aussi un support. Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique ou encore un moyen d'enregistrement magnétique, par exemple une disquette ou un disque dur. D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau notamment de type Internet.The selection of an instance, for example slct_ec_xtr1 triggers the reproduction, in particular by a reader, of the content at the beginning of the xtra extract, in a slct_xtr_rg area of the graphical representation of the summary document ds_rg, for example at the bottom right. In our example, this is the video of the conference whose playback begins at the beginning of the xtra extract including the selection slct_ec_xtr1. The invention also relates to a support. The information carrier may be any entity or device capable of storing the program. For example, the medium may include storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM or a magnetic recording means, for example a diskette or a hard disk. On the other hand, the information medium can be a transmissible medium such as an electrical or optical signal that can be conveyed via an electrical or optical cable, by radio or by other means. The program according to the invention may in particular be downloaded to a network, particularly of the Internet type.

Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.Alternatively, the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.

Dans une autre implémentation, l'invention est mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique le terme module peut correspondre aussi bien à un composant logiciel ou à un composant matériel. Un composant logiciel correspond à un ou plusieurs programmes d'ordinateur, un ou plusieurs sous-programmes d'un programme, ou de manière plus générale à tout élément d'un programme ou d'un logiciel apte à mettre en œuvre une fonction ou un ensemble de fonction selon la description ci-dessous. Un composant matériel correspond à tout élément d'un ensemble matériel (ou hardware) apte à mettre en œuvre une fonction ou un ensemble de fonctions.In another implementation, the invention is implemented by means of software and / or hardware components. In this context, the term module can correspond to a software component or a hardware component as well. A software component corresponds to one or more computer programs, one or more subroutines of a program, or more generally to any element of a program or software capable of implementing a function or a program. Function set according to the description below. A hardware component corresponds to any element of a hardware set (or hardware) capable of implementing a function or a set of functions.

Le générateur de document de synthèse selon l’invention peut permettre aux éditeurs de livres, de contenus audio-visuels ou radiophoniques d’offrir un mécanisme d’exploration de leurs documents ou de leurs collections en remplaçant l’offre gratuite des premières pages d’un livre, du premier chapitre d’un article ou des premières minutes d’un document audio ou vidéo par un outil d’exploration. Ce procédé à l’avantage d’offrir une « sensation de gratuité » et permet de découvrir ou de redécouvrir des contenus anciens permettant de valoriser, par exemple, les stocks générés par les blogs ou les podcasts d’émissions radios proposant des contenus pérennes.The summary document generator according to the invention can enable publishers of books, audio-visual or radio content to offer a mechanism for exploring their documents or their collections by replacing the free offer of the first pages of a book, the first chapter of an article or the first minutes of an audio or video document by an exploration tool. This process has the advantage of offering a "sensation of free" and can discover or rediscover old content to value, for example, the stocks generated by blogs or podcasts of radio programs offering perennial content.

Le générateur de document de synthèse selon l’invention peut également être envisagé en tant que module intégré à un navigateur web permettant d’offrir de façon instantanée une vue synthétique d’une page web (article, blog, etc...) avant sa consultation détaillée. Elle peut s’appliquer également à un ensemble de pages qui auraient été stockées au préalable, il est possible de générer la grille de mots-clés associée à une collection de documents. Les progrès de la parole de synthèse peuvent aujourd’hui permettre d’envisager un accès aux contenus grâce à la synthèse vocale des mots-clés dont les « formes de surface » sont suffisamment brèves pour offrir une exploration en situation multimodale (voiture, jogging...)The synthesis document generator according to the invention can also be envisaged as a module integrated into a web browser to instantly offer a synthetic view of a web page (article, blog, etc ...) before its detailed consultation. It can also apply to a set of pages that would have been stored previously, it is possible to generate the grid of keywords associated with a collection of documents. The progress of the synthetic speech can today make it possible to envisage an access to the contents thanks to the vocal synthesis of the keywords whose "forms of surface" are sufficiently brief to offer an exploration in multimodal situation (car, jogging. ..)

Le générateur de document de synthèse selon l’invention peut être, également, déployée pour offrir un mode d’exploration documentaire dans le contexte des handicaps visuels. Grâce aux flèches d’un clavier et à la touche de tabulation le parcours de la grille de lecture en utilisant une voix de synthèse peut permettre une exploration efficace d’un corpus de documents et offrir une méthode offrant la possibilité d’ouvrir le « sens d’un mot » dans son contexte grâce aux trois « formes de surfaces » d’un mot-clé (lemme, contexte immédiat, contexte élargi).The synthesis document generator according to the invention can also be deployed to provide a documentary exploration mode in the context of visual handicaps. Using the arrow keys on a keyboard and the tab key, the reading grid can be read using a synthetic voice to allow for an efficient exploration of a body of documents and to offer a method that offers the possibility of opening up the "meaning of a word "in context thanks to the three" surface forms "of a keyword (lemma, immediate context, expanded context).

Claims (15)

REVENDICATIONS 1. Générateur automatique d’un document de synthèse d’un contenu comportant un générateur de lien de parenté entre des éléments extraits d’au moins trois niveaux distincts, le générateur de lien de parenté déterminant si un lien de parenté existe entre un premier élément extrait du contenu et un deuxième élément extrait du contenu en fonction de l’inclusion d’une clé du premier élément dans une clé du deuxième élément, les premier et deuxième éléments extraits étant de niveau directement voisin et la clé d’un élément étant déterminée comme étant une concaténation des éléments de base constituant l’élément, desquels ont été supprimés les éléments outils, les éléments extraits des au moins trois niveaux distincts ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse.1. Automatic generator of a summary document of a content comprising a linkage generator between elements extracted from at least three distinct levels, the linkage generator determining whether a relationship exists between a first element extracting the content and a second element extracted from the content according to the inclusion of a key of the first element in a key of the second element, the first and second extracted elements being of directly adjacent level and the key of an element being determined as being a concatenation of the elementary elements constituting the element, from which the tool elements have been removed, the elements extracted from the at least three distinct levels as well as the links of kinship generated between them being integrated in the summary document. 2. Générateur automatique de document de synthèse selon la revendication précédente caractérisé en ce que le générateur automatique de document de synthèse comporte au moins trois extracteurs déterminant, chacun, des éléments extraits d’un niveau distinct des au moins deux autres extracteurs : • Un extracteur de lemme sélectionnant les éléments de base du document augmentés des entités nommées et des locutions ; • Un extracteur de contexte immédiat regroupant les éléments de base en fonction d’informations de catégorie syntaxique et des groupes syntaxiques relatifs à ces éléments de base, l’extracteur de contexte immédiat est un extracteur de niveau directement voisin de l’extracteur de lemme; • Un extracteur de contexte étendu regroupant les éléments de base en fonction de règles d’association des groupes syntaxiques, l’extracteur de contexte étendu est un extracteur de niveau directement voisin de l’extracteur de contexte immédiat.2. automatic synthesis document generator according to the preceding claim characterized in that the automatic synthesis document generator comprises at least three extractors each determining elements extracted from a level distinct from the other two or more extractors: • An extractor lemma selecting the basic elements of the document augmented with named entities and phrases; • An immediate context extractor grouping the base elements according to syntactic category information and syntactic groups related to these basic elements, the immediate context extractor is a level extractor directly adjacent to the lemma extractor; • An extended context extractor grouping the base elements according to syntactic group association rules, the extended context extractor is a level extractor directly adjacent to the immediate context extractor. 3. Générateur automatique de document de synthèse selon l’une quelconque des revendications précédentes caractérisé en ce que le générateur automatique de document de synthèse comporte un analyseur syntaxique de contenu connecté à au moins trois extracteurs, l’analyseur syntaxique fournissant des informations relatives aux éléments de base du contenu aux extracteurs déterminant les premier, deuxième et troisième éléments extraits en fonction des informations reçues de l’analyseur syntaxique.3. Automatic document synthesis generator according to any one of the preceding claims, characterized in that the automatic synthesis document generator comprises a content parser connected to at least three extractors, the parser providing information relating to the elements. base of the content to the extractors determining the first, second and third elements extracted according to the information received from the parser. 4. Générateur automatique de document de synthèse selon l’une quelconque des revendications précédentes caractérisé en ce que les extracteurs fournissent comme élément extrait une forme de surface en sélectionnant la forme la plus fréquente parmi des formes synthétiques, une forme synthétique d’un élément extrait étant déterminée comme étant fonction d’une concaténation des éléments de base de l’élément extrait et de règles d’écriture.4. Automated synthesis document generator according to any one of the preceding claims, characterized in that the extractors provide as extracted element a surface form by selecting the most common form among synthetic forms, a synthetic form of an extracted element. being determined as a function of a concatenation of the basic elements of the extracted element and write rules. 5. Générateur automatique de document de synthèse selon l’une quelconque des revendications précédentes caractérisé en ce que le générateur automatique de document de synthèse comporte un pondérateur calculant le poids de chaque élément extrait permettant de trier les éléments extraits en fonction de leur poids.5. automatic synthesis document generator according to any one of the preceding claims characterized in that the automatic generator of summary document comprises a weighting calculating the weight of each extracted element for sorting the extracted elements according to their weight. 6. Générateur automatique de document de synthèse selon l’une quelconque des revendications précédentes caractérisé en ce que le générateur automatique de document de synthèse fournit des éléments-clés déroulés, chaque élément-clé déroulé comportant au moins un élément extrait du contenu d’au moins trois niveaux distincts ainsi que les liens de parenté générés entre ces éléments extraits de niveaux distincts.6. automatic synthesis document generator according to any one of the preceding claims, characterized in that the automatic generator of summary document provides key elements unwound, each key element unwound comprising at least one element extracted from the content of at least three distinct levels as well as the kinship relationships generated between these elements extracted from distinct levels. 7. Générateur automatique de document de synthèse selon l’une quelconque des revendications précédentes, caractérisé en ce que le générateur automatique de document de synthèse opérant sur une collection de contenus traite: • indépendamment chaque contenu de la collection de contenus fournissant un document de synthèse pour chaque contenu de la collection de contenus, et/ou • la collection comme un contenu unique fournissant un document de synthèse pour l’ensemble des contenus de la collection de contenus.7. Automatic document synthesis generator according to any one of the preceding claims, characterized in that the automatic synthesis document generator operating on a collection of contents deals: • independently each content of the content collection providing a summary document for each content in the content collection, and / or • the collection as a single content providing a summary document for all contents of the content collection. 8. Générateur automatique de document de synthèse selon l’une quelconque des revendications précédentes, caractérisé en ce que le générateur automatique de document de synthèse comporte un enregistreur stockant les éléments extraits dans une matrice de synthèse dans laquelle les premiers éléments extraits sont placés dans une première colonne de la matrice, les deuxième éléments extraits dans une deuxième colonne de la grille dans une ligne déterminée en fonction de leur lien de parenté avec les premiers éléments extraits, et les troisième éléments extraits dans une troisième colonne de la matrice dans une ligne déterminée en fonction de leur lien de parenté avec les deuxième éléments extraits.8. automatic synthesis document generator according to any one of the preceding claims, characterized in that the automatic synthesis document generator comprises a recorder storing the extracted elements in a synthesis matrix in which the first extracted elements are placed in a first column of the matrix, the second extracted elements in a second column of the grid in a line determined according to their relationship to the first extracted elements, and the third elements extracted in a third column of the matrix in a given line according to their relationship to the second elements extracted. 9. Moteur de recherche comportant : • Un générateur automatique de document de synthèse selon l’une quelconques des revendications précédentes ; • Une interface de saisie d’un champ de recherche reproduisant un document de synthèse fourni par le générateur automatique de document de synthèse en fonction des premières données saisies dans ledit champ de recherche.9. Search engine comprising: an automatic synthesis document generator according to any one of the preceding claims; • An interface for entering a search field reproducing a summary document provided by the automatic synthesis document generator according to the first data entered in said search field. 10. Moteur de recherche comportant : • Un générateur automatique de document de synthèse selon l’une quelconques des revendications précédentes ; • Une interface de résultats de recherche reproduisant un document de synthèse fourni par le générateur automatique de document de synthèse des contenus sélectionnés par le moteur de recherche comme résultats de recherche.10. Search engine comprising: an automatic synthesis document generator according to any one of the preceding claims; • A search results interface reproducing a summary document provided by the automatic document synthesis generator of the contents selected by the search engine as search results. 11. Procédé de génération automatique d’un document de synthèse d’un contenu comportant un génération de lien de parenté entre des éléments extraits d’au moins trois niveaux distincts, le générateur de lien de parenté déterminant si un lien de parenté existe entre un premier élément extrait du contenu et un deuxième élément extrait du contenu en fonction de l’inclusion d’une clé du premier élément dans une clé du deuxième élément, les premier et deuxième éléments extraits étant de niveau directement voisin et la clé d’un élément étant déterminée comme étant une concaténation des éléments de base constituant l’élément, desquels ont été supprimés les éléments outils, les éléments extraits des au moins trois niveaux distincts ainsi que les liens de parenté générés entre eux étant intégrés au document de synthèse.11. A method for automatically generating a summary document of a content comprising a generation of relationship between elements extracted from at least three distinct levels, the linkage generator determining whether a relationship exists between a first element extracted from the content and a second element extracted from the content according to the inclusion of a key of the first element in a key of the second element, the first and second extracted elements being of directly adjacent level and the key of an element being determined to be a concatenation of the elementary elements constituting the element, from which the tool elements have been removed, the elements extracted from the at least three distinct levels as well as the links of kinship generated between them being integrated in the summary document. 12. Procédé de génération automatique d’un document de synthèse selon la revendication précédente, caractérisé en ce que le procédé de génération automatique de document de synthèse comporte trois extractions distinctes d’éléments du contenu fournissant des éléments extraits de trois niveaux distincts.12. A method for automatically generating a summary document according to the preceding claim, characterized in that the method of automatic generation of summary document comprises three distinct extractions of elements of the content providing elements extracted from three different levels. 13. Procédé de génération automatique d’un document de synthèse selon l’une quelconque des revendications 11 ou 12, caractérisé en ce que chaque extraction comporte • un regroupement des éléments de base fournis par une analyse syntaxique du contenu, et • une sélection d’éléments extraits par filtrage sur la nature des groupes.13. A method of automatic generation of a summary document according to claim 11, wherein each extraction comprises a grouping of the basic elements provided by a syntactic analysis of the content, and a selection of elements extracted by filtering on the nature of the groups. 14. Procédé de génération automatique d’un document de synthèse selon l’une quelconque des revendications 11 à 13, caractérisé en ce que l’extraction d’éléments composés de plusieurs éléments de base comporte une détermination de formes de surface par sélection de la forme la plus fréquente parmi les formes synthétiques des éléments extraits, une forme synthétique d’un élément extrait étant fonction d’une concaténation des éléments de base de l’élément extrait et de règles d’écriture.14. A method for automatic generation of a summary document according to any one of claims 11 to 13, characterized in that the extraction of elements composed of several basic elements comprises a determination of surface shapes by selection of the most common form among the synthetic forms of the extracted elements, a synthetic form of an extracted element being a function of a concatenation of the basic elements of the extracted element and writing rules. 15. Programme comprenant des instructions de code de programme pour l’exécution des étapes du procédé de génération automatique de document de synthèse selon l’une quelconque des revendications 11 à 14 lorsque ledit programme est exécuté par un processeur.A program comprising program code instructions for performing the steps of the automatic document generation method according to any one of claims 11 to 14 when said program is executed by a processor.
FR1558525A 2015-09-14 2015-09-14 AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME Withdrawn FR3041125A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1558525A FR3041125A1 (en) 2015-09-14 2015-09-14 AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1558525A FR3041125A1 (en) 2015-09-14 2015-09-14 AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME

Publications (1)

Publication Number Publication Date
FR3041125A1 true FR3041125A1 (en) 2017-03-17

Family

ID=55299566

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1558525A Withdrawn FR3041125A1 (en) 2015-09-14 2015-09-14 AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME

Country Status (1)

Country Link
FR (1) FR3041125A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4300326A1 (en) 2022-07-01 2024-01-03 Orange Method for matching an assembly to be analysed and a reference list, corresponding matching engine and computer program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083026A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Summarizing document with marked points
US20100228693A1 (en) * 2009-03-06 2010-09-09 phiScape AG Method and system for generating a document representation
US20110271179A1 (en) * 2010-04-28 2011-11-03 Peter Jasko Methods and systems for graphically visualizing text documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083026A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Summarizing document with marked points
US20100228693A1 (en) * 2009-03-06 2010-09-09 phiScape AG Method and system for generating a document representation
US20110271179A1 (en) * 2010-04-28 2011-11-03 Peter Jasko Methods and systems for graphically visualizing text documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YI-FANG WU BROOK ET AL: "Improve Searching in Large Document Collections Using Automatic Table-of-Contents Interface", 28 May 2002 (2002-05-28), pages 1 - 3, XP055277825, Retrieved from the Internet <URL:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.87.5261&rep=rep1&type=pdf> [retrieved on 20160603] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4300326A1 (en) 2022-07-01 2024-01-03 Orange Method for matching an assembly to be analysed and a reference list, corresponding matching engine and computer program
FR3137472A1 (en) 2022-07-01 2024-01-05 Orange Method for matching a set to be evaluated and a reference list, corresponding matching engine and computer program.

Similar Documents

Publication Publication Date Title
US8156114B2 (en) System and method for searching and analyzing media content
US20220139398A1 (en) Audio content processing systems and methods
US7912827B2 (en) System and method for searching text-based media content
US8799253B2 (en) Presenting an assembled sequence of preview videos
WO2002067142A2 (en) Device for retrieving data from a knowledge-based text
De Boer et al. DIVE into the event-based browsing of linked historical media
AU2009257386A1 (en) Searching using patterns of usage
WO2005101240A1 (en) Method for finding data, research engine and microprocessor therefor
CN101526938B (en) File processing device
FR3043816B1 (en) METHOD FOR SUGGESTION OF CONTENT EXTRACTED FROM A SET OF INFORMATION SOURCES
FR3038996A1 (en) KEY WORDS EXTRACTION METHOD, DEVICE AND CORRESPONDING COMPUTER PROGRAM
WO2023280946A1 (en) Computer-implemented method for delivering audio-visual media on-demand
EP2126735B1 (en) Automatic translation method
Taneva et al. Gem-based entity-knowledge maintenance
Seadle Managing and mining historical research data
Li et al. Improving automatic summarization for browsing longform spoken dialog
Balasubramanian et al. Topic pages: An alternative to the ten blue links
FR3041125A1 (en) AUTOMATIC SYNTHESIS DOCUMENT GENERATOR AND SEARCH ENGINE USING THE SAME
Kjellander Ambiguity at work: lexical blends in an American English web news context
JP2010191851A (en) Article feature word extraction device, article feature word extraction method and program
FR2986882A1 (en) METHOD FOR IDENTIFYING A SET OF PHRASES OF A DIGITAL DOCUMENT, METHOD FOR GENERATING A DIGITAL DOCUMENT, ASSOCIATED DEVICE
Rigamonti et al. Faericworld: browsing multimedia events through static documents and links
FR2970795A1 (en) Method for filtering of synonyms in electronic document database in information system for searching information in e.g. Internet, involves performing reduction of number of synonyms of keyword based on score value of semantic proximity
Fuller et al. Using term clouds to represent segment-level semantic content of podcasts
Gandy et al. Shout out: integrating news and reader comments

Legal Events

Date Code Title Description
PLSC Publication of the preliminary search report

Effective date: 20170317

ST Notification of lapse

Effective date: 20170531