FR3060801A1

FR3060801A1 - IDENTIFICATION OF AN INFORMATION SOURCE

Info

Publication number: FR3060801A1
Application number: FR1662830A
Authority: FR
Inventors: Jerome Besombes
Original assignee: Office National dEtudes et de Recherches Aerospatiales ONERA
Current assignee: Office National dEtudes et de Recherches Aerospatiales ONERA
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2018-06-22
Anticipated expiration: 2036-12-20
Also published as: FR3060801B1; WO2018115626A1

Abstract

L'identification d'une source d'information (S2-S4) qui a produit un contenu (D2-D4) accessible par au moins une base de données (BD) permet de connaître un niveau d'anticipation que possède cette source par rapport à d'autres sources qui ont produit ultérieurement d'autres contenus. Un suivi ultérieur d'une source qui a montré un niveau d'anticipation élevé, peut permettre d'accéder à une nouvelle information avant que cette information ait été largement répétée, reprise ou réutilisée.The identification of an information source (S2-S4) that has produced a content (D2-D4) accessible by at least one database (BD) makes it possible to know a level of anticipation that this source has over to other sources that later produced other content. Subsequent monitoring of a source that has shown a high level of anticipation may provide access to new information before this information has been widely repeated, re-used or reused.

Description

® RÉPUBLIQUE FRANÇAISE® FRENCH REPUBLIC

INSTITUT NATIONAL DE LA PROPRIÉTÉ INDUSTRIELLE © N° de publication : 3 060 801 (à n’utiliser que pour les commandes de reproduction)NATIONAL INSTITUTE OF INDUSTRIAL PROPERTY © Publication number: 3,060,801 (to be used only for reproduction orders)

©) N° d’enregistrement national : 16 62830©) National registration number: 16 62830

COURBEVOIE © Int Cl⁸ : G 06 F17/30 (2017.01), G 06 Q 50/00COURBEVOIE © Int Cl ⁸ : G 06 F17 / 30 (2017.01), G 06 Q 50/00

DEMANDE DE BREVET D'INVENTION A1A1 PATENT APPLICATION

©) Date de dépôt : 20.12.16. ©) Date of filing: 20.12.16. © Demandeur(s) : OFFICE NATIONAL D’ETUDES ET © Applicant (s): NATIONAL STUDIES OFFICE AND DE RECHERCHES AEROSPATIALES Etablissement OF AEROSPATIAL RESEARCH Establishment [GU) Priorité : [GU) Priority: public — FR. public - FR. @ Inventeur(s) : BESOMBES JEROME. @ Inventor (s): BESOMBES JEROME. ©) Date de mise à la disposition du public de la ©) Date of public availability of the demande : 22.06.18 Bulletin 18/25. request: 22.06.18 Bulletin 18/25. ©) Liste des documents cités dans le rapport de ©) List of documents cited in the report recherche préliminaire : Se reporter à la fin du preliminary research: Refer to end of présent fascicule present booklet (© Références à d’autres documents nationaux (© References to other national documents ® Titulaire(s) : OFFICE NATIONAL D'ETUDES ET DE ® Holder (s): NATIONAL OFFICE FOR STUDIES AND apparentés : related: RECHERCHES AEROSPATIALES Etablissement AEROSPATIAL RESEARCH Establishment public. public. ©) Demande(s) d’extension : ©) Extension request (s): © Mandataire(s) : CABINET PLASSERAUD. © Agent (s): CABINET PLASSERAUD.

[U4) IDENTIFICATION D'UNE SOURCE D'INFORMATION.[U4) IDENTIFICATION OF A SOURCE OF INFORMATION.

FR 3 060 801 - A1 _ L'identification d'une source d'information (S₂-S₄) qui a produit un contenu (D₂-D₄) accessible par au moins une base de données (BD) permet de connaître un niveau d'anticipation que possède cette source par rapport à d'autres sources qui ont produit ultérieurement d'autres contenus. Un suivi ultérieur d'une source qui a montré un niveau d'anticipation élevé, peut permettre d'accéder à une nouvelle information avant que cette information ait été largement répétée, reprise ou réutilisée.FR 3 060 801 - A1 _ The identification of an information source (S ₂ -S ₄ ) which has produced content (D ₂ -D ₄ ) accessible by at least one database (BD) makes it possible to know a level of anticipation that this source has compared to other sources that subsequently produced other content. Subsequent monitoring of a source that has shown a high level of anticipation, can allow access to new information before this information has been widely repeated, resumed or reused.

IDENTIFICATION D’UNE SOURCE D’INFORMATIONIDENTIFICATION OF A SOURCE OF INFORMATION

La présente invention concerne un procédé d’identification d’une source d’information, ainsi qu’un module de recherche automatique et un programme qui sont adaptés pour mettre en oeuvre un tel procédé.The present invention relates to a method for identifying a source of information, as well as an automatic search module and a program which are adapted to implement such a method.

La mise à disposition de bases documentaires qui sont de plus en plus 5 étendues, contenant notamment des informations, des articles, des images, des vidéos, des messages publiés via des réseaux sociaux, etc., et qui permettent à des auteurs de produire de nouveaux contenus avec une fréquence de plus en plus élevée, rend une tâche de surveillance documentaire de plus en plus complexe. Des systèmes automatisés de surveillance documentaire permettent de rechercher des contenus qui sont liés à un domaine d’intérêt déterminé par un utilisateur, puis de présenter à cet utilisateur les contenus collectés qui sont supposés lui être les plus utiles. L’utilité de ces contenus est couramment évaluée selon les deux critères suivants :The provision of documentary databases which are increasingly extensive, containing in particular information, articles, images, videos, messages published via social networks, etc., and which allow authors to produce new content with an increasingly high frequency, makes a task of documentary surveillance more and more complex. Automated document monitoring systems allow you to search for content that is related to an area of interest determined by a user, and then present to that user the collected content that is supposed to be most useful to them. The usefulness of this content is commonly assessed according to the following two criteria:

-l’ancienneté de l’information: une information est considérée d’autant plus pertinente que sa parution est récente ; et- the age of the information: information is considered all the more relevant as its publication is recent; and

- la pertinence de l’information : une information est considérée d’autant plus pertinente que son sujet correspond avec plus de coïncidence au domaine d’intérêt tel que déterminé par l’utilisateur.- the relevance of the information: information is considered all the more relevant as its subject corresponds with more coincidence to the area of interest as determined by the user.

A partir de ces deux critères, des systèmes connus de surveillance documentaire peuvent classer par ordre d’utilité décroissante les contenus qui préexistent dans la base de données interrogée, ou ceux qui ont été ajoutés pendant une certaine période, puis de soumettre ce classement à l’utilisateur.On the basis of these two criteria, known document surveillance systems can classify, in decreasing order of usefulness, the content which preexists in the database questioned, or that which has been added during a certain period, and then submit this classification to the 'user.

Toutefois, la pertinence des résultats de telles recherches dépend beaucoup de la capacité du système utilisé à intégrer le domaine d’intérêt de l’utilisateur. Or deux difficultés limitent cette capacité :However, the relevance of the results of such research depends very much on the ability of the system used to integrate the user's area of interest. However, two difficulties limit this capacity:

- la difficulté de modélisation du domaine d’intérêt : c’est-à-dire la manière dont ce domaine peut être exprimé, par exemple par mots-clés, et peut- the difficulty of modeling the area of interest: that is to say the way in which this area can be expressed, for example by keywords, and can

-2être intégré au système ; et-2be integrated into the system; and

- la difficulté de prise en compte d’une évolution possible du domaine d’intérêt de l’utilisateur au cours du temps.- the difficulty of taking into account a possible evolution of the user's field of interest over time.

Pour répondre à ces difficultés, différentes techniques ont été développées et sont mises en œuvre :To respond to these difficulties, various techniques have been developed and are being implemented:

- le filtrage collaboratif : le système intègre des usages d’autres utilisateurs qui sont jugés comme ayant des intérêts communs avec l’utilisateur en cours, par exemple parce qu’ils appartiennent à un même réseau social. Il est alors possible de modifier le domaine d’intérêt de l’utilisateur en cours, en fonction de domaines d’intérêt d’autres utilisateurs ; et- collaborative filtering: the system integrates the uses of other users who are deemed to have common interests with the current user, for example because they belong to the same social network. It is then possible to modify the area of interest of the current user, according to the areas of interest of other users; and

- l’apprentissage automatique : le système fait évoluer le domaine d’intérêt qui a été caractérisé initialement par l’utilisateur, par exemple en fonction d’interrogations qui ont été produites successivement par l’utilisateur, en fonction de consultations privilégiées, par l’utilisateur, de contenus qui concernent certains sujets, ou en fonction d’évaluations produites par l’utilisateur au sujet de contenus qui lui ont été présentés antérieurement.- automatic learning: the system changes the area of interest which was initially characterized by the user, for example as a function of questions which have been successively produced by the user, according to privileged consultations, by l 'user, of contents which relate to certain subjects, or according to evaluations produced by the user concerning contents which were previously presented to him.

Ces deux techniques peuvent être utilisées séparément ou en combinaison l’une avec l’autre.These two techniques can be used separately or in combination with each other.

Mais le filtrage collaboratif n’est possible que si l’utilisateur accepte de partager ses usages avec une communauté, ce qui est peu compatible avec des surveillances documentaires qui s’inscrivent dans un cadre concurrentiel ou un cadre sécuritaire. Par ailleurs, l’apprentissage automatique implique souvent une certaine inertie, qui ne permet pas de faire évoluer rapidement, lorsque cela peut être nécessaire, les caractéristiques de domaines d’intérêt qui sont issues des usages antérieurs. En outre, ces caractéristiques concernant les usages antérieurs, qui sont issues de l’analyse des usages de l’utilisateur, sont souvent faibles en qualité et quantité.But collaborative filtering is only possible if the user agrees to share their uses with a community, which is not very compatible with documentary surveillance which is part of a competitive or security framework. In addition, machine learning often involves a certain inertia, which does not allow the characteristics of areas of interest which arise from previous uses to evolve rapidly, when this is necessary. In addition, these characteristics relating to previous uses, which are the result of an analysis of user uses, are often weak in quality and quantity.

Pour améliorer encore la pertinence des contenus qui sont fournis à l’utilisateur en réponse à une requête d’interrogation établie d’après unTo further improve the relevance of the content that is provided to the user in response to a query request based on a

-3domaine d’intérêt qu’il a saisi, il est aussi connu d’identifier des sources des contenus utiles qui ont déjà été fournis à cet utilisateur. Ainsi, en plus de chaque contenu, la source de celui-ci peut être communiquée à l’utilisateur, telle que par exemple un compte Twitter, un site web de média ou de blog, etc. Il est alors possible pour l’utilisateur de «suivre» ces sources en consultant systématiquement ou de manière sélective les contenus qu’elles produisent. Ces sources peuvent éventuellement aussi produire des contenus en dehors du domaine d’intérêt saisi par l’utilisateur, ce qui peut permettre de faire évoluer ce domaine d’intérêt. Ainsi, une source qui a montré une capacité importante à produire des contenus utiles pour un domaine d’intérêt particulier, peut produire également des contenus qui sont pertinents pour l’utilisateur en dehors de ce domaine particulier ou en frontière de celui-ci. Une telle identification de sources est déjà largement pratiquée dans le cadre de l’analyse de réseaux sociaux. Il s’agit alors principalement d’identifier des personnes qui sont au cœur du réseau, appelées leaders d’opinion. Par principe, de tels leaders d’opinion ont des influences fortes, c’est-à-dire que les contenus qu’ils produisent sont repris par de nombreuses autres sources, si bien qu’une même information est obtenue avec une grande redondance en réponse à une requête d’interrogation. De ce fait, les sources de contenus qui sont leaders d’opinion masquent directement et indirectement des sources à faible occurrence dans les réponses à une requête d’interrogation. A cause de cela, des informations utiles qui sont faiblement reprises, aussi appelées signaux faibles, deviennent plus difficilement accessibles dans une masse d’informations fortement médiatisées.-3 area of interest that he seized, it is also known to identify sources of useful content that have already been provided to this user. Thus, in addition to each content, the source thereof can be communicated to the user, such as for example a Twitter account, a media or blog website, etc. It is then possible for the user to "follow" these sources by systematically or selectively consulting the content they produce. These sources can possibly also produce content outside the area of interest entered by the user, which can allow this area of interest to evolve. Thus, a source that has shown a significant capacity to produce useful content for a particular area of interest, can also produce content that is relevant to the user outside of this particular area or on the edge of it. Such identification of sources is already widely practiced in the context of social network analysis. The main aim is to identify people who are at the heart of the network, called opinion leaders. In principle, such opinion leaders have strong influences, that is to say that the content they produce is taken up by many other sources, so that the same information is obtained with great redundancy in response to an interrogation request. As a result, content sources that are opinion leaders directly and indirectly obscure low-occurrence sources in responses to a query. Because of this, useful information that is weakly picked up, also called weak signals, becomes more difficult to access in a mass of information that is highly publicized.

A partir de cette situation, un but de la présente invention est de fournir à un utilisateur un accès facilité à une source de contenus qui est à l’origine d’une information précoce sur des évènements, surtout si cette source a une faible audience ou apparaît avec un faible niveau d’occurrence dans les bases de données. Une telle source d’information précoce est appelée source clairvoyante dans la présente description, indépendamment de son audience et de son niveau d’influence sur d’autres sources. Une source clairvoyante à faible niveau d’audience sera nommée «source faible».From this situation, an object of the present invention is to provide a user with easy access to a content source which is the source of early information on events, especially if this source has a low audience or appears with a low level of occurrence in databases. Such a source of early information is called a clairvoyant source in the present description, regardless of its audience and its level of influence on other sources. A clairvoyant source with a low audience level will be called a "weak source".

Une fois que l’utilisateur a identifié une telle source clairvoyante etOnce the user has identified such a clairvoyant source and

-4dispose d’un accès à celle-ci, il lui sera possible de la «suivre» pour disposer d’informations qui sont pertinentes pour lui le plus rapidement possible après que ces informations sont apparues une première fois.-4 has access to it, he will be able to "follow" it to have information that is relevant to him as soon as possible after this information first appeared.

Un but annexe de la présente invention est d’identifier des sources clairvoyantes pour des domaines d’intérêt qui sont susceptibles d’évoluer, du fait de l’utilisateur ou du fait de tendances qui lui sont extérieures mais qui affectent la communauté des sources de contenus.An additional aim of the present invention is to identify clairvoyant sources for fields of interest which are liable to evolve, due to the user or due to trends which are external to him but which affect the community of sources of contents.

Pour atteindre l’un de ces buts ou d’autres, un premier aspect de la présente invention propose un procédé d’identification d’une source d’information, qui comprend les étapes suivantes à exécuter en utilisant un module de recherche automatique :To achieve one or more of these aims, a first aspect of the present invention proposes a method of identifying a source of information, which comprises the following steps to be performed using an automatic search module:

/1/produire au moins une requête d’interrogation qui correspond à plusieurs évènements ; et /2/ collecter en provenance d’au moins une base de données, des références de contenus qui sont obtenues en réponse à la requête d’interrogation, et dont les contenus correspondent chacun à l’un au moins des évènements, et pour chaque contenu, identifier une source et une date de production de ce contenu./ 1 / produce at least one interrogation request which corresponds to several events; and / 2 / collect, from at least one database, content references which are obtained in response to the query request, and the contents of which each correspond to at least one of the events, and for each content, identify a source and date of production of this content.

De façon générale dans la présente description, on entend par «au moins une requête d’interrogation» un ensemble de requêtes d’interrogation, pouvant contenir une ou plusieurs requêtes d’interrogation, qui sont mises en oeuvre lors d’une même exécution du procédé de l’invention.In general, in the present description, the expression “at least one interrogation request” means a set of interrogation requests, which may contain one or more interrogation requests, which are implemented during the same execution of the method of the invention.

Selon l’invention, le procédé comprend en outre les étapes supplémentaires suivantes :According to the invention, the method further comprises the following additional steps:

/3/ parmi les sources identifiées, sélectionner au moins une source qui a produit au moins un contenu relatif à au moins un des évènements de l’étape /1/ ;/ 3 / among the identified sources, select at least one source which has produced at least one content relating to at least one of the events of step / 1 /;

/4/ pour chaque source sélectionnée à l’étape /3/, et pour chaque contenu produit par cette source qui est relatif à l’un des évènements de l’étape /1/, déterminer un devancement temporel acquis par la source en ayant produit ce contenu, par rapport à une date de l’évènement ou par/ 4 / for each source selected in step / 3 /, and for each content produced by this source which is relative to one of the events in step / 1 /, determine a time advance acquired by the source having produces this content, relative to a date of the event or by

-5rapport à une date où d’autres contenus relatifs au même évènement ont été produits, puis combiner les devancements temporels acquis par une même des sources sélectionnées à l’étape /3/ afin de calculer une valeur numérique, appelée valeur d’anticipation et attribuée à la source, qui varie de façon monotone en fonction de chaque devancement temporel déterminé pour cette source ; puis /5/fournir un identifiant de l’une au moins des sources sélectionnées à l’étape /3/, avec la valeur d’anticipation qui a été calculée à l’étape /4/ pour cette source.-5 reports to a date when other content relating to the same event was produced, then combine the time advances acquired by the same source selected in step / 3 / in order to calculate a numerical value, called the anticipation value and attributed to the source, which varies monotonically as a function of each time advance determined for this source; then / 5 / provide an identifier of at least one of the sources selected in step / 3 /, with the anticipation value which was calculated in step / 4 / for this source.

Eventuellement, à l’étape /3/, il est possible de ne sélectionner une source que si elle a produit des contenus qui sont relatifs à plusieurs des évènements de l’étape /1/. Ainsi, le procédé de l’invention met en oeuvre une corrélation entre des sous-ensembles de contenus qui ont été obtenus en réponse à la requête d’interrogation, et qui sont relatifs à des évènements différents. La corrélation permet d’identifier les sources qui ont été actives au sujet de plusieurs évènements, en minimisant l’importance des sources qui n’ont été actives que pour un seul des évènements. De cette façon, les sources qui sont apparues dans les réponses alors qu’elles correspondent peu aux évènements de la requête d’interrogation, sont écartées.Optionally, in step / 3 /, it is possible to select a source only if it has produced content that is related to several of the events in step / 1 /. Thus, the method of the invention implements a correlation between subsets of content which have been obtained in response to the interrogation request, and which relate to different events. Correlation identifies sources that have been active for multiple events, minimizing the importance of sources that have been active for only one event. In this way, the sources that appeared in the responses when they hardly correspond to the events of the query, are removed.

Tous les contenus considérés à l’étape /4/ peuvent correspondre à des références qui ont été collectées à l’étape /2/.All content considered in step / 4 / can correspond to references that were collected in step / 2 /.

En outre, le procédé de l’invention classe les sources qui ont été actives au sujet de plusieurs des évènements, en fonction de leur anticipation cumulée par rapport à chaque évènement, ou par rapport aux autres sources au sujet des évènements concernés. Ainsi, une source qui a réagi en avance sur les autres à plusieurs évènements ou qui a anticipé plusieurs évènements plus que les autres sources, c’est-à-dire une source qui a été clairvoyante, est mise en évidence par le procédé de l’invention, et son identification est fournie à un opérateur de surveillance documentaire.In addition, the method of the invention classifies the sources which have been active on the subject of several of the events, according to their cumulative anticipation with respect to each event, or with respect to the other sources with regard to the events concerned. Thus, a source which reacted ahead of the others to several events or which anticipated several events more than the other sources, that is to say a source which was clairvoyant, is highlighted by the process of the invention, and its identification is provided to a document surveillance operator.

Dans des premiers modes de mise en oeuvre de l’invention, ladite au moins une requête d’interrogation est construite directement à partir d’une fourniture initiale de plusieurs évènements. Autrement dit, les évènements sontIn first embodiments of the invention, said at least one request for interrogation is constructed directly from an initial supply of several events. In other words, the events are

-6fixés et connus a priori par l’opérateur de surveillance documentaire qui applique l’invention. Dans ce cas, ladite au moins une requête d’interrogation est produite à l’étape /1/ à partir d’une saisie des évènements dans le module de recherche automatique, et chaque devancement temporel qui est acquis par une source peut être déterminé à l’étape /4/ comme une différence entre la date d’un des évènements et une date à laquelle la source a produit un contenu relatif au même évènement, et dont la référence a été collectée à l’étape /2/.-6 fixed and known a priori by the document surveillance operator who applies the invention. In this case, said at least one interrogation request is produced in step / 1 / from an entry of events in the automatic search module, and each time advance which is acquired by a source can be determined at step / 4 / as a difference between the date of one of the events and a date on which the source produced content relating to the same event, and whose reference was collected in step / 2 /.

Dans des seconds modes de mise en oeuvre de l’invention, les évènements peuvent ne pas être connus a priori, mais sont sous-jacents dans les réponses qui sont obtenues à ladite au moins une requête d’interrogation. Les dates respectives de ces évènements ne sont donc pas connues, mais des dates auxquelles sont produits simultanément ou en peu de temps de nombreux contenus qui correspondent à ladite au moins une requête d’interrogation, constituent des approximations de ces dates d’évènements. Ces approximations peuvent alors être utilisées pour évaluer le devancement temporel de chaque contenu. L’étape /1/ de tels seconds modes de mise en oeuvre de l’invention comprend alors de saisir une caractérisation d’un domaine d’intérêt dans le module de recherche automatique. La requête d’interrogation est ensuite déterminée à partir du domaine d’intérêt saisi, d’une façon qui est connue en soi. A l’étape /2/, après avoir collecté les références de contenus qui ont été obtenues en réponse à la requête d’interrogation, des dates sont déterminées, auxquelles des plus grands nombres de ces contenus ont été produits. Chacune de ces dates est alors associée à un des évènements de l’étape /1/, même si cet évènement peut rester inconnu. Alors, chaque devancement temporel qui est acquis par une source peut être déterminé à l’étape /4/ comme une différence entre l’une des dates auxquelles a été produit un plus grand nombre de contenus dont les références ont été collectées à l’étape /2/, et une date à laquelle la source a produit un contenu dont la référence a aussi été collectée à l’étape /2/.In second embodiments of the invention, the events may not be known a priori, but are underlying in the responses which are obtained to said at least one request for interrogation. The respective dates of these events are therefore not known, but dates on which numerous contents which correspond to said at least one interrogation request are produced simultaneously or in a short time constitute approximations of these event dates. These approximations can then be used to assess the time progress of each content. Step / 1 / such second modes of implementing the invention then comprises entering a characterization of an area of interest in the automatic search module. The query request is then determined from the area of interest entered, in a manner that is known per se. In step / 2 /, after collecting the content references that were obtained in response to the query request, dates are determined, at which the greatest numbers of this content were produced. Each of these dates is then associated with one of the events of step / 1 /, even if this event may remain unknown. Then, each time advance which is acquired by a source can be determined in step / 4 / as a difference between one of the dates on which a greater number of contents were produced whose references were collected in step / 2 /, and a date on which the source produced content, the reference of which was also collected in step / 2 /.

Dans des troisièmes modes de mise en oeuvre de l’invention, des événements peuvent être connus a priori, auxquels peuvent s’ajouter d’autres événements qui sont détectés comme à l’étape /1/ des seconds modes deIn third modes of implementation of the invention, events can be known a priori, to which can be added other events which are detected as in step / 1 / second modes of

-7 mise en œuvre.-7 implementation.

De façon générale pour l’invention, la valeur d’anticipation qui est calculée pour chaque source sélectionnée à l’étape /3/ peut être une fonction croissante de chaque devancement temporel qui a été acquis par cette source en ayant produit un contenu relatif à l’un des évènements. De cette façon, une source clairvoyante est caractérisée par une valeur d’anticipation qui est élevée.Generally for the invention, the anticipation value which is calculated for each source selected in step / 3 / can be an increasing function of each time advance which has been acquired by this source by having produced content relating to one of the events. In this way, a clairvoyant source is characterized by a high anticipation value.

Possiblement, les étapes 141 et /5/ peuvent être exécutées pour plusieurs sources qui ont été sélectionnées à l’étape /3/, et leurs identifiants sont fournis à l’étape /5/ en étant classés en fonction des valeurs d’anticipation qui ont été calculées pour chacune de ces sources.Possibly, steps 141 and / 5 / can be executed for several sources which have been selected in step / 3 /, and their identifiers are provided in step / 5 / by being classified according to the anticipation values which were calculated for each of these sources.

Aussi de façon générale, mais optionnellement, le procédé de l’invention peut comprendre une étape supplémentaire qui consiste à écarter des sources dont l’audience est trop importante, pour mettre plus en évidence les sources clairvoyantes à faible bruit. Pour cela, une valeur d’audience peut être déterminée pour chacune des sources qui ont été sélectionnées à l’étape /3/, et l’une d’elles peut être rejetée si sa valeur d’audience est supérieure à une valeur-seuil prédéterminée, ou supérieure à la valeur d’audience d’au moins une autre des sources sélectionnées à l’étape /3/. La valeur d’audience d’une source peut être notamment le nombre de consultations par des tiers des contenus qui ont été produits par cette source.Also generally, but optionally, the method of the invention may include an additional step which consists in removing sources whose audience is too large, in order to more clearly highlight clairvoyant sources with low noise. For this, an audience value can be determined for each of the sources that were selected in step / 3 /, and one of them can be rejected if its audience value is greater than a threshold value predetermined, or greater than the audience value of at least one other of the sources selected in step / 3 /. The audience value of a source can notably be the number of consultations by third parties of the content that was produced by this source.

Encore de façon générale pour l’invention, la requête d’interrogation qui est produite à l’étape /1/ peut être une agrégation de plusieurs requêtes élémentaires. Dans ce cas, l’agrégation est établie selon des règles d’agrégation prédéterminées, notamment des règles de proximité ou d’équivalence sémantique ou linguistique.Still generally for the invention, the query request which is produced in step / 1 / can be an aggregation of several elementary requests. In this case, the aggregation is established according to predetermined aggregation rules, in particular proximity or semantic or linguistic equivalence rules.

Dans des perfectionnements de l’invention, la valeur d’anticipation peut être calculée pour chaque source qui a été sélectionnée à l’étape /3/, aussi en fonction de l’un au moins des paramètres suivants, en plus des devancements temporels acquis par cette source :In improvements of the invention, the anticipation value can be calculated for each source which has been selected in step / 3 /, also as a function of at least one of the following parameters, in addition to the temporal advances acquired by this source:

-8- un nombre d’évènements parmi tous ceux de l’étape /1/, en relation avec chacun desquels au moins un contenu a été produit par la source dont la valeur d’anticipation est calculée ;-8- a number of events among all those of stage / 1 /, in relation to each of which at least one content has been produced by the source whose anticipation value is calculated;

-un nombre d’évènements parmi tous ceux de l’étape /1/, en relation avec chacun desquels aucun contenu n’a été produit par la source dont la valeur d’anticipation est calculée ;-a number of events among all those of step / 1 /, in relation to each of which no content has been produced by the source whose anticipation value is calculated;

- un nombre de contenus qui ont été produits en relation avec l’un au moins des évènements de l’étape /1/, et dont les références ont été collectées à l’étape /2/, alors que la source dont la valeur d’anticipation est calculée a produit ou non un contenu en relation avec cet évènement ; et- a number of contents which were produced in connection with at least one of the events of stage / 1 /, and whose references were collected in stage / 2 /, while the source whose value d anticipation is calculated whether or not it produced content related to this event; and

- au moins une valeur d’un rapport de hauteur de pic sur largeur du même pic, relative à des variations d’un nombre de contenus qui ont été produits par jour en relation avec l’un des évènements de l’étape /1/, et dont les références ont été collectées à l’étape /2/, alors que la source dont la valeur d’anticipation est calculée a produit ou non un contenu en relation avec cet évènement.- at least one value of a ratio of peak height to width of the same peak, relating to variations in the number of contents which were produced per day in relation to one of the events of step / 1 / , and whose references were collected in step / 2 /, while the source whose anticipation value is calculated has produced or not a content related to this event.

De tels paramètres supplémentaires pour calculer la valeur d’anticipation d’une source permettent de mettre encore plus en évidence une source clairvoyante qui a été précoce et pertinente pour plusieurs évènements. En outre, chaque événement peut être pondéré dans le calcul de la valeur d’anticipation, par une valeur d’importance de cet évènement qui peut être évaluée par un expert, ou qui peut être évaluée par exemple en fonction de la hauteur et/ou largeur du pic des variations du nombre de contenus produits. Il est aussi possible de pénaliser une source qui n’a pas réagi à l’un des évènements, ou encore de tenir compte de la réactivité générale à un évènement. Ainsi, la valeur d’anticipation peut encore mieux rendre compte du mérite d’une source à couvrir plusieurs évènements et à être précurseur sur ceux-ci.Such additional parameters for calculating the anticipation value of a source make it possible to highlight even more a clairvoyant source which was early and relevant for several events. In addition, each event can be weighted in the calculation of the anticipation value, by a value of importance of this event which can be evaluated by an expert, or which can be evaluated for example according to the height and / or width of the peak of the variations in the number of contents produced. It is also possible to penalize a source that did not react to one of the events, or to take into account the general reactivity to an event. Thus, the value of anticipation can better reflect the merit of a source to cover several events and to be a precursor on them.

Le procédé de l’invention peut comprendre en outre l’étape suivante, qui est exécutée après l’étape /5/ :The method of the invention can also comprise the following step, which is carried out after step / 5 /:

-9/6/ obtenir au moins un contenu qui a été produit par une source dont l’identifiant et la valeur d’anticipation ont été fournis à l’étape /5/.-9 / 6 / obtain at least one content that was produced by a source whose identifier and anticipation value were provided in step / 5 /.

Autrement dit, l’un des contenus qui a été produit par une source révélée comme étant clairvoyante par le procédé de l’invention, peut être fourni à l’opérateur de la surveillance documentaire.In other words, any of the content which was produced by a source revealed to be clairvoyant by the process of the invention, can be supplied to the operator of the documentary surveillance.

Possiblement aussi, le procédé de l’invention, comprenant les étapes /1/ à /5/ peut être exécuté deux fois, en utilisant le second mode de mise en oeuvre indiqué plus haut pour la seconde exécution. Alors, le domaine d’intérêt dont la caractérisation est saisie à l’étape /1/ de la seconde exécution peut être déterminé au moins partiellement à partir d’un autre domaine d’intérêt qui est relatif à une source dont l’identifiant et la valeur d’anticipation ont été fournis à l’étape /5/ de la première exécution. De cette façon, la première exécution du procédé de l’invention permet d’identifier une source clairvoyante, et la seconde exécution peut être focalisée sur des sujets d’intérêt de cette source clairvoyante, qui peuvent n’avoir pas été couverts par la requête d’interrogation de la première exécution du procédé de l’invention.Possibly also, the method of the invention, comprising steps / 1 / to / 5 / can be executed twice, using the second mode of implementation indicated above for the second execution. Then, the domain of interest whose characterization is entered in step / 1 / of the second execution can be determined at least partially from another domain of interest which is relative to a source whose identifier and the anticipation value was supplied in step / 5 / of the first execution. In this way, the first execution of the method of the invention makes it possible to identify a clairvoyant source, and the second execution can be focused on subjects of interest of this clairvoyant source, which may not have been covered by the request. of interrogation of the first execution of the method of the invention.

Un second aspect de l’invention propose un module de recherche automatique, qui comprend :A second aspect of the invention proposes an automatic search module, which includes:

- des moyens de production d’au moins une requête d’interrogation qui correspond à plusieurs évènements, y compris optionnellement des moyens pour agréger plusieurs requêtes d’interrogation élémentaires ;- means for producing at least one interrogation request which corresponds to several events, optionally including means for aggregating several elementary interrogation requests;

- des moyens de collecte, adaptés pour collecter en provenance d’au moins une base de données, des références de contenus qui sont obtenues en réponse à ladite au moins une requête d’interrogation, et dont les contenus correspondent chacun à l’un au moins des évènements ;- collection means, adapted to collect from at least one database, content references which are obtained in response to said at least one interrogation request, and the contents of which each correspond to one at less events;

- des moyens d’identification, adaptés pour identifier une source et une date de production pour chaque contenu dont la référence a été collectée par les moyens de collecte ;- means of identification, adapted to identify a source and a production date for each content whose reference was collected by the means of collection;

- des moyens de sélection, adaptés pour sélectionner parmi des sources identifiées par les moyens d’identification, au moins une source qui a- selection means, adapted to select from sources identified by the identification means, at least one source which has

-10produit au moins un contenu relatif à au moins un des évènements correspondant à la requête d’interrogation ;-10produce at least one content relating to at least one of the events corresponding to the interrogation request;

-des moyens de calcul adaptés pour déterminer pour chaque source sélectionnée par les moyens de sélection, un devancement temporel acquis par cette source en ayant produit un contenu relatif à un des évènements, par rapport à une date de cet évènement ou par rapport à une date où d’autres contenus relatifs au même évènement ont été produits, puis pour combiner les devancements temporels acquis par une même des sources sélectionnées afin de calculer une valeur numérique, appelée valeur d’anticipation et attribuée à la source, qui varie de façon monotone en fonction de chaque devancement temporel déterminé pour cette source ; et-means of calculation adapted to determine for each source selected by the selection means, a time advance acquired by this source having produced content relating to one of the events, with respect to a date of this event or with respect to a date where other content relating to the same event was produced, then to combine the time advances acquired by the same of the selected sources in order to calculate a numerical value, called anticipation value and attributed to the source, which varies monotonically in function of each time advance determined for this source; and

- des moyens de sortie, adaptés pour fournir un identifiant de l’une au moins des sources sélectionnées, avec la valeur d’anticipation calculée pour cette source.- output means, adapted to provide an identifier of at least one of the selected sources, with the anticipation value calculated for this source.

Un tel module de recherche automatique est adapté pour exécuter un procédé conforme au premier aspect de l’invention, possiblement y compris les perfectionnements et modes de mise en oeuvre mentionnés pour ce procédé.Such an automatic search module is suitable for executing a process in accordance with the first aspect of the invention, possibly including the improvements and modes of implementation mentioned for this process.

Optionnellement, les moyens de sélection peuvent être adaptés pour sélectionner parmi les sources identifiées par les moyens d’identification, au moins une source qui a produit des contenus relatifs à plusieurs des évènements correspondant à la requête d’interrogation.Optionally, the selection means can be adapted to select from among the sources identified by the identification means, at least one source which has produced content relating to several of the events corresponding to the query request.

Plus particulièrement, pour exécuter les premiers modes de mise en oeuvre qui ont été mentionnés plus haut, les moyens de production de la requête d’interrogation peuvent être adaptés pour permettre à un utilisateur de saisir plusieurs évènements, et en outre pour produire la requête d’interrogation à partir des évènements saisis. Dans ce cas, les moyens de calcul peuvent être adaptés pour déterminer chaque devancement temporel, pour une source sélectionnée qui a produit un contenu relatif à plusieurs des évènements, comme une différence entre la date d’un des évènements et une date à laquelle cette source a produit un contenu relatif au même évènement, et dont la référence a été collectée par les moyens de collecte.More particularly, in order to execute the first modes of implementation which have been mentioned above, the means for producing the interrogation request can be adapted to allow a user to enter several events, and in addition to produce the request for 'interrogation from the events entered. In this case, the calculation means can be adapted to determine each time advance, for a selected source which has produced content relating to several of the events, as a difference between the date of one of the events and a date on which this source produced content relating to the same event, and the reference of which was collected by the means of collection.

-11 Pour exécuter les seconds modes de mise en oeuvre qui ont été mentionnés plus haut, les moyens de production de la requête d’interrogation sont adaptés pour permettre à un utilisateur de saisir un domaine d’intérêt. Le module de recherche automatique comprend alors en outre des moyens de comptage adaptés pour compter, pour plusieurs dates, des contenus qui ont été produits à chacune de ces dates, et dont les références ont été collectées par le module de collecte. Il détermine ensuite celles des dates auxquelles des plus grands nombres de ces contenus ont été produits. Chaque date qui est ainsi déterminée est associée à un évènement qui correspond à ladite au moins une requête d’interrogation. En outre, les moyens de calcul peuvent être adaptés pour déterminer chaque devancement temporel, pour une source sélectionnée par les moyens de sélection, comme une différence entre l’une des dates auxquelles a été produit un plus grand nombre de contenus dont les références ont été collectées par les moyens de collecte, et une date à laquelle la source a produit un contenu dont la référence a aussi été collectée par les moyens de collecte.-11 To execute the second modes of implementation which have been mentioned above, the means of production of the interrogation request are adapted to allow a user to enter an area of interest. The automatic search module then further comprises counting means adapted to count, for several dates, content which has been produced on each of these dates, and the references of which have been collected by the collection module. It then determines those of the dates on which the greatest numbers of these contents were produced. Each date which is thus determined is associated with an event which corresponds to said at least one request for interrogation. In addition, the calculation means can be adapted to determine each time advance, for a source selected by the selection means, as a difference between one of the dates on which a greater number of contents whose references have been produced have been produced. collected by the means of collection, and a date on which the source produced content, the reference of which was also collected by the means of collection.

Enfin, un troisième aspect de l’invention propose un programme d’ordinateur qui comprend des codes adaptés pour produire une exécution d’un procédé conforme au premier aspect de l’invention, lorsque ces codes sont lus et exécutés par au moins un processeur, et que ce processeur a un accès à la base de données. Pour la présente demande de brevet, un tel programme est considéré comme un produit en tant que tel, qui est issu de l’invention et qui apporte une fonction nouvelle à un ordinateur. Pour cette raison, il est désigné par produit programme d’ordinateur.Finally, a third aspect of the invention proposes a computer program which includes codes suitable for producing an execution of a method in accordance with the first aspect of the invention, when these codes are read and executed by at least one processor, and that this processor has access to the database. For the present patent application, such a program is considered to be a product as such, which results from the invention and which provides a new function to a computer. For this reason, it is referred to as a computer program product.

D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-après d'exemples de mise en oeuvre non limitatifs, en référence aux dessins annexés, dans lesquels :Other particularities and advantages of the present invention will appear in the description below of nonlimiting examples of implementation, with reference to the appended drawings, in which:

- la figure 1 est un diagramme chronologique montrant plusieurs sources de contenus ;- Figure 1 is a chronological diagram showing several sources of content;

- la figure 2a est un diagramme d’étapes pour des premiers modes de mise en oeuvre possibles de la présente invention ;- Figure 2a is a step diagram for first possible modes of implementation of the present invention;

-12 - la figure 2b est un diagramme temporel de production de contenus dont les références ont été collectées, qui illustre les premiers modes de mise en oeuvre de l’invention ;FIG. 2b is a time diagram for the production of content, the references of which have been collected, which illustrates the first modes of implementation of the invention;

- la figure 3a est un diagramme d’étapes pour des seconds modes de mise en oeuvre possibles de la présente invention ; et- Figure 3a is a step diagram for possible second modes of implementation of the present invention; and

- la figure 3b est un diagramme temporel de production de contenus dont les références ont été collectées, qui illustre les seconds modes de mise en oeuvre de l’invention.- Figure 3b is a time diagram of content production whose references have been collected, which illustrates the second modes of implementation of the invention.

Dans ces figures, des références identiques désignent des éléments identiques, ou qui ont des rôles identiques.In these figures, identical references denote elements which are identical, or which have identical roles.

Dans la présente description d’invention, on entend par évènement tout fait ou manifestation qui a appartenu à l’actualité à un moment, qui est appelé date de l’évènement. Selon le contexte, une date peut signifier une date journalière, mais aussi plus généralement l’identification d’un instant avec une précision quelconque : date avec heure, date avec numéro de semaine, avec indication de mois, ou encore seulement avec une indication d’année, etc.In the present invention description, by event is meant any fact or manifestation which belonged to the news at a time, which is called the date of the event. Depending on the context, a date can mean a daily date, but also more generally the identification of an instant with any precision: date with hour, date with week number, with indication of month, or even only with indication of year, etc.

On entend par contenu toute donnée ou document, y compris un lien vers un site ou une page de site, toute information, ensemble d’informations, article, image, vidéo, message, notamment publié par l’intermédiaire d’un réseau social, qui peut être obtenu en réponse à une requête d’interrogation.Content means any data or document, including a link to a site or site page, any information, set of information, article, image, video, message, in particular published through a social network, which can be obtained in response to a query request.

On entend par base de données tout regroupement ou collection de contenus qui peut être interrogé en formulant une requête d’interrogation, et dont un certain nombre de contenus peuvent être sélectionnés pour être fournis à un utilisateur en réponse à la requête d’interrogation.By database is meant any grouping or collection of content that can be queried by formulating a query request, and of which a certain number of contents can be selected to be supplied to a user in response to the query request.

On entend par référence d’un contenu tout type de référence qui permet à l’utilisateur d’accéder à ce contenu, notamment des références d’accès, par exemple un lien à une page internet du contenu, des références bibliographiques, ou des combinaisons de références de types variables. Par simplicité et clarté de rédaction, on pourra dans certains cas confondre un contenu collecté avec un contenu dont la référence a été collectée.By reference to content is meant any type of reference which allows the user to access this content, in particular access references, for example a link to a content web page, bibliographical references, or combinations of variable type references. For simplicity and clarity of drafting, in certain cases we may confuse collected content with content whose reference has been collected.

-13On entend par source tout auteur auquel un contenu est attribué, ou tout éditeur référencé pour la publication du contenu. Une source peut éventuellement produire plusieurs contenus qui sont relatifs à un même évènement. Possiblement aussi, un même contenu peut avoir plusieurs sources différentes, par exemple plusieurs auteurs qui ont collaboré.-13We understand by source any author to whom a content is attributed, or any publisher referenced for the publication of the content. A source can possibly produce several contents which are relative to the same event. Possibly also, the same content can have several different sources, for example several authors who have collaborated.

On entend par identifiant d’une source toute coordonnée ou référence, telle que par exemple une adresse de courrier électronique, une référence de site internet ou de réseau social, etc., qui permet d’identifier la source de façon univoque.The identifier of a source is understood to be any coordinate or reference, such as for example an email address, a website or social network reference, etc., which makes it possible to identify the source unequivocally.

On entend par date de production d’un contenu une date qui est affectée à ce contenu dans une base de données, pour repérer l’incorporation du contenu dans cette base de données. Il s’agit donc d’une date de mise à disposition du contenu, à l’intention d’un utilisateur de la base de données.The date of production of a content is understood to be a date which is assigned to this content in a database, in order to identify the incorporation of the content into this database. This is therefore a date on which the content is made available to a user of the database.

On entend par module de recherche automatique toute entité fonctionnelle, matérielle ou logicielle qui permet d’interroger une base de données, et de fournir en réponse des références de contenus qui correspondent à la requête utilisée pour l’interrogation. Un tel module de recherche automatique peut comprendre un moteur de recherche tel que connu du grand public, mais comprend aussi des fonctionnalités de calcul d’une valeur d’anticipation pour mettre en oeuvre la présente invention. Il peut être enrichi en outre de fonctionnalités supplémentaires et optionnelles, telles que l’exécution de procédés collaboratifs ou d’apprentissage automatique pour élaborer des requêtes d’interrogation.The term automatic search module is understood to mean any functional, hardware or software entity which makes it possible to query a database, and to provide in response content references which correspond to the query used for the query. Such an automatic search module can include a search engine as known to the general public, but also includes functionalities for calculating an anticipation value for implementing the present invention. It can also be enriched with additional and optional functionalities, such as the execution of collaborative processes or machine learning to develop interrogation queries.

Des sources produisent des contenus qui sont stockés dans une ou plusieurs base(s) de données, à des moments de production qui peuvent varier entre les contenus et/ou les sources.Sources produce contents which are stored in one or more database (s), at times of production which can vary between the contents and / or the sources.

Un utilisateur d’un réseau de communication qui fournit un accès à cette (ces) base(s) de données, peut utiliser un module de recherche automatique pour interroger la (les) base(s) de données sur la base d’une requête formulée par cet utilisateur. Cette requête détermine le domaine d’intérêt de l’utilisateur, qui est l’objet de sa recherche de contenus. Elle peut être élaborée en utilisant un formulaire de caractérisation du domaine d’intérêt,A user of a communication network who provides access to this (these) database (s), can use an automatic search module to query the database (s) on the basis of a request formulated by this user. This query determines the user's area of interest, which is the subject of their content search. It can be developed using a characterization form for the area of interest,

-14appelé ontologie générique dans le jargon de l’Homme du métier. Pour cela, l’utilisateur complète des champs de l’ontologie générique, tels qu’un champ d’indication de produit concerné, un champ d’indication d’utilisation, des champs d’indication de modèle, de cible visée, de marque, d’approvisionnement, d’origine, etc. La combinaison de ces champs tels que complétés par l’utilisateur est appelée ontologie métier et exprime le domaine d’intérêt de l’utilisateur pour interroger la (les) base(s) de données.-14 called generic ontology in the jargon of the skilled person. For this, the user completes the fields of the generic ontology, such as a field for indicating the product concerned, a field for indicating use, fields for indicating the model, targeted target, brand. , supply, origin, etc. The combination of these fields as completed by the user is called business ontology and expresses the area of interest of the user to query the database (s).

Le module de recherche automatique établit alors une requête pour interroger la (les) base(s) de données sur la base de la requête métier. Cette requête peut être établie à partir de l’ontologie métier seulement, telle qu’élaborée par l’utilisateur.The automatic search module then establishes a request to interrogate the database (s) based on the business request. This request can be established from the business ontology only, as developed by the user.

Toutefois, il peut être avantageux, pour fournir à l’utilisateur des contenus plus pertinents ou un service enrichi, de combiner sa requête métier avec d’autres requêtes pour établir une requête finale sur la base de laquelle la (les) base(s) de données va (vont) être interrogée(s). Dans ce cas, la requête métier et chaque autre requête sont appelées requêtes élémentaires, et sont agrégées pour construire la requête finale, appelée requête d’interrogation avec laquelle la (les) base(s) de données est (sont) interrogée(s). Des règles d’agrégation prédéfinies sont utilisées pour cela, qui sont bien connues de l’Homme du métier. De telles règles d’agrégation traduisent notamment des proximités ou des équivalences sémantiques ou linguistiques, ou encore des opérations binaires sur les contenus des champs des requêtes élémentaires.However, it may be advantageous, to provide the user with more relevant content or an enriched service, to combine his business request with other requests to establish a final request on the basis of which the base (s) will be queried. In this case, the business query and each other query are called elementary queries, and are aggregated to build the final query, called the query query with which the database (s) is (are) queried. . Predefined aggregation rules are used for this, which are well known to those skilled in the art. Such aggregation rules notably translate semantic or linguistic proximities or equivalences, or even binary operations on the contents of the fields of elementary queries.

Selon une première possibilité, la requête métier qui est établie par l’utilisateur peut être combinée avec au moins une autre requête métier qui a été établie par un autre utilisateur, préférablement sous condition de proximité entre ces utilisateurs. Un tel procédé d’interrogation est couramment appelé filtrage collaboratif par l’Homme du métier.According to a first possibility, the business request which is established by the user can be combined with at least one other business request which has been established by another user, preferably under the condition of proximity between these users. Such an interrogation process is commonly called collaborative filtering by the skilled person.

Eventuellement, l’une des requêtes élémentaires qui est combinée avec la requête métier établie par l’utilisateur, peut correspondre à une caractérisation de domaine d’intérêt relative à une source de contenus qui est active en particulier dans le domaine d’intérêt de l’utilisateur. Ainsi, la requête métier telle que produite par l’utilisateur peut être enrichie ou orientée enOptionally, one of the elementary requests which is combined with the business request established by the user, can correspond to a characterization of area of interest relating to a content source which is active in particular in the area of interest of the 'user. Thus, the business request as produced by the user can be enriched or oriented in

-15fonction de celle de la source, si bien que le domaine d’intérêt de l’utilisateur peut suivre celui de la source, éventuellement en tenant compte aussi d’une évolution du domaine d’intérêt de la source. La requête métier de la source, qui est destinée à former une requête élémentaire dans l’agrégation avec celle de l’utilisateur, peut avoir été établie par la source elle-même, par exemple pour faciliter l’accès aux contenus qu’elle a produits, ou d’une façon automatique, notamment par un module d’édition de contenus.-15function of that of the source, so that the user's area of interest can follow that of the source, possibly also taking into account an evolution of the area of interest of the source. The source's business request, which is intended to form a basic request in aggregation with that of the user, may have been established by the source itself, for example to facilitate access to the content it has products, or automatically, in particular by a content editing module.

Selon une seconde possibilité, le module de recherche automatique peut avoir mémorisé des requêtes métiers qui ont été établies antérieurement par l’utilisateur, et les agréger en tant que requêtes élémentaires pour construire la requête d’interrogation. L’agrégation peut alors résulter d’un procédé d’apprentissage, qui extrapole les requêtes métiers établies successivement par l’utilisateur. Alternativement ou en combinaison, la requête métier qui a été établie par l’utilisateur peut aussi être combinée avec des contenus qui ont été consultés antérieurement par l’utilisateur, et éventuellement en tenant compte d’appréciations de certains de ces contenus qui ont été saisies par l’utilisateur. De cette façon, la requête d’interrogation peut anticiper une évolution du domaine d’intérêt de l’utilisateur. Un tel procédé d’interrogation est couramment appelé filtrage par apprentissage par l’Homme du métier.According to a second possibility, the automatic search module can have stored business queries which have been previously established by the user, and aggregate them as elementary queries to build the query query. Aggregation can then result from a learning process, which extrapolates the business queries successively established by the user. Alternatively or in combination, the business request that has been established by the user can also be combined with content that has been previously consulted by the user, and possibly taking into account assessments of some of this content that has been entered. by the user. In this way, the query request can anticipate an evolution in the user's area of interest. Such an interrogation process is commonly called filtering by learning by a person skilled in the art.

Dans les figures 1,2b et 3b, l’axe horizontal repère symboliquement le temps, noté t, avec un ordre chronologique de gauche à droite des figures. Sur la figure 1, S1-S4 désignent des sources de contenus qui sont stockés dans la (les) base(s) de données BD. De tels contenus sont indiqués génériquement par la lettre D. Le module de recherche automatique est désigné par la référence 1. L’utilisateur, ou opérateur de surveillance documentaire, est noté U, et la requête d’interrogation notée RQ. L’accolade à droite de la figure 1 désigne ceux des contenus D de la base de données BD qui correspondent à la requête d’interrogation RQ, à l’exclusion de contenus qui ne correspondent pas à cette requête d’interrogation.In Figures 1,2b and 3b, the horizontal axis symbolically marks time, noted t, in chronological order from left to right in the figures. In FIG. 1, S1-S4 denote sources of content which are stored in the database (s) BD. Such content is generically indicated by the letter D. The automatic search module is designated by the reference 1. The user, or document surveillance operator, is noted U, and the query request noted RQ. The brace on the right of FIG. 1 designates that of the contents D of the database BD which correspond to the query request RQ, with the exclusion of contents which do not correspond to this query query.

Le module de recherche automatique 1 collecte des références des contenus D qui correspondent à la requête d’interrogation RQ, ainsi que lesThe automatic search module 1 collects references of the contents D which correspond to the query request RQ, as well as the

-16dates de production et les sources de ces contenus. Dans l’exemple de la figure 1, la source Si ne produit pas de contenu qui corresponde à la requête d’interrogation RQ. La source S2 produit plusieurs contenus qui correspondent à la requête d’interrogation RQ, dont le contenu noté D₂ à la date T(D₂). De même, la source S₃ produit plusieurs contenus qui correspondent à la requête d’interrogation RQ, dont le contenu noté D₃ à la date T(D₃). Et aussi, la source S4 produit plusieurs contenus qui correspondent à la requête d’interrogation RQ, dont le contenu noté D₄ à la date T(D₄). A titre d’illustration, le contenu D₂a été produit par la source S₂ avant le contenu D₃ produit par la source S₃, ce dernier avant le contenu D₄ produit par la source S₄. Le module de recherche automatique 1 collecte donc en particulier les références, les identifiants des sources et les dates de production des contenus D₂, D₃ et D₄.-16dates of production and sources of these contents. In the example in FIG. 1, the source Si does not produce content which corresponds to the interrogation request RQ. The source S2 produces several contents which correspond to the interrogation request RQ, including the contents noted D ₂ at the date T (D ₂ ). Similarly, the source S ₃ produces several contents which correspond to the interrogation request RQ, including the contents noted D ₃ at the date T (D ₃ ). And also, the source S4 produces several contents which correspond to the interrogation request RQ, of which the contents noted D ₄ at the date T (D ₄ ). By way of illustration, the content D ₂ was produced by the source S ₂ before the content D ₃ produced by the source S ₃ , the latter before the content D ₄ produced by the source S ₄ . The automatic search module 1 therefore collects in particular the references, the identifiers of the sources and the dates of production of the contents D ₂ , D ₃ and D ₄ .

Les figures 2a et 2b illustrent des premiers modes de mise en œuvre de l’invention, dans lesquels des évènements sont des données initiales du procédé. L’étape ST1 consiste en une saisie, par exemple par l’utilisateur U, d’une série d’évènements qui sont désignés individuellement par EV) pour un premier de ces évènements dont la date d’évènement est T(EV-i), EV₂ pour un deuxième de ces évènements dont la date d’évènement est T(EV₂), etc. A partir de cette série d’évènements EV-ι, EV₂,..., le module de recherche automatique 1 construit la requête d’interrogation RQ à l’étape ST₂, et met en œuvre cette requête pour interroger la base de données BD. Le résultat de l’interrogation est un ensemble de contenus qui sont notés Dj, Dj,..., dont le module de recherche automatique 1 collecte les références, les identifiants des sources qui ont produit ces contenus, et les dates de production de ces contenus (étape ST₃). Ainsi, le contenu Dj a été produit par la source S(Dj) à la date T(Dj), le contenu Dj a été produit par la source S(Dj) à la date T(Dj), etc.FIGS. 2a and 2b illustrate first modes of implementation of the invention, in which events are initial data of the method. Step ST1 consists of an entry, for example by the user U, of a series of events which are designated individually by EV) for a first of these events whose event date is T (EV-i) , EV ₂ for a second of these events whose event date is T (EV ₂ ), etc. From this series of events EV-ι, EV ₂ , ..., the automatic search module 1 constructs the interrogation request RQ in step ST ₂ , and implements this request to interrogate the database of BD data. The result of the query is a set of contents which are noted Dj, Dj, ..., of which the automatic search module 1 collects the references, the identifiers of the sources which produced these contents, and the dates of production of these contents (step ST ₃ ). Thus, the Dj content was produced by the source S (Dj) on the date T (Dj), the Dj content was produced by the source S (Dj) on the date T (Dj), etc.

A l’étape ST₄, le module de recherche automatique 1 classe les contenus qui ont ainsi été collectés en réponse à la requête d’interrogation RQ, en fonction des sources qui les ont produits. Par exemple, une même source Sk a produit au moins les deux contenus D_m et D_n, le contenu D_m à la date T(D_m) et le contenu D_n à la date T(D_n). Optionnellement, celles des sources qui ne correspondent chacune qu’à une seule référence de contenu collectée, peuvent être écartées de la suite du procédé, de sorte que ne sont conservéesIn step ST ₄ , the automatic search module 1 classifies the contents which have thus been collected in response to the interrogation request RQ, according to the sources which produced them. For example, the same source Sk produced at least the two contents D _m and D _n , the content D _m at the date T (D _m ) and the content D _n at the date T (D _n ). Optionally, those from sources which each correspond only to a single collected content reference can be discarded from the rest of the process, so that they are not kept

-17 que les sources à contenus multiples. Pour chacune de celles-ci, chaque contenu qu’elle a produit est rapproché de celui des évènements de l’étape STi auquel ce contenu se rapporte, et un devancement temporel est calculé. Par exemple, le contenu D_m qui a été produit par la source S_k concerne l’évènement EV_X, et le devancement temporel de la source S_k pour ce contenu D_m est T(EV_X) - T(D_m), où T(EV_X) est la date de l’évènement EV_X et T(D_m) est la date de production du contenu D_m par la source S_k. De même pour le contenu D_n qui a aussi été produit par la source S_k mais qui se rapporte à l’évènement EV_y : le devancement temporel de la source S_k pour ce contenu D_n est T(EV_y) T(D_n), où T(EVy) est la date de l’évènement EV_y et T(D_n) est la date de production du contenu D_n. La source S_k est sélectionnée en outre de sorte que les évènements EV_X et EV_y soient différents l’un de l’autre. Tous les devancements temporels qui sont acquis par la source S_k en ayant produit des contenus différents, sont alors combinés à l’étape ST₅ pour calculer une valeur d’anticipation VA(S_k) qui est attribuée à cette source S_k. Autrement dit : VA(S_k) =f{..., T(EV_X) -T(D_m), T(EV_y)-T(D_n),...}, où f est une fonction de combinaison de tous les devancements temporels d’une même source de contenus. La valeur d’anticipation VA(S_k) est alors fournie à l’utilisateur U avec un identifiant de la source S_k.-17 than multiple content sources. For each of these, each content that it has produced is compared with that of the events of step STi to which this content relates, and a time advance is calculated. For example, the content D _m which was produced by the source S _k relates to the event EV _X , and the time advance of the source S _k for this content D _m is T (EV _X ) - T (D _m ), where T (EV _X ) is the date of the event EV _X and T (D _m ) is the date of production of the content D _m by the source S _k . Similarly for the content D _n which was also produced by the source S _k but which relates to the event EV _y : the time advance of the source S _k for this content D _n is T (EV _y ) T (D _n ), where T (EVy) is the date of the event EV _y and T (D _n ) is the date of production of the content D _n . The source S _k is also selected so that the events EV _X and EV _y are different from each other. All the time advances which are acquired by the source S _k having produced different contents, are then combined in step ST ₅ to calculate a anticipation value VA (S _k ) which is attributed to this source S _k . In other words: VA (S _k ) = f {..., T (EV _X ) -T (D _m ), T (EV _y ) -T (D _n ), ...}, where f is a function of combination of all the time advances of the same content source. The anticipation value VA (S _k ) is then supplied to the user U with an identifier of the source S _k .

Le diagramme de la figure 2b représente les variations des nombres de contenus qui ont été produits par jour pour les deux évènements EV_X (courbe notée x) et EV_y (courbe notée y), et dont les références ont été collectées à l’étape ST₃. L’axe des ordonnées de ce diagramme, noté N/j, repère donc ces nombres de contenus produits par unité de temps, par exemple par jour. La courbe x montre que les contenus relatifs à l’évènement EV_X ont principalement été produits avec retard par rapport à la date T(EV_X) de cet évènement. Tel est le cas, notamment, pour le contenu D_m, puisque la différence de dates T(EV_X) T(D_m), qui constitue le devancement temporel, est négative. A la différence, de nombreux contenus relatifs à l’évènement EV_y, dont le contenu D_n, ont été produits avant cet évènement EV_y, correspondant à des contenus anticipatifs ou prémonitoires. Le devancement temporel T(EV_y) - T(D_n) est alors positif.The diagram in FIG. 2b represents the variations in the numbers of contents which were produced per day for the two events EV _X (curve denoted x) and EV _y (curve denoted y), and the references of which were collected in step ST ₃ . The ordinate axis of this diagram, denoted N / d, therefore identifies these numbers of content produced per unit of time, for example per day. The curve x shows that the content relating to the event EV _X was mainly produced with a delay with respect to the date T (EV _X ) of this event. This is the case, in particular, for the content D _m , since the difference in dates T (EV _X ) T (D _m ), which constitutes the time advance, is negative. In contrast, many contents relating to the event EV _y , including the content D _n , were produced before this event EV _y , corresponding to anticipatory or premonitory contents. The time advance T (EV _y ) - T (D _n ) is then positive.

De retour à la figure 2a, l’étape ST-ι est exécutée en utilisant des moyens de saisie du module de recherche automatique 1, l’étape ST₂ estReturning to FIG. 2a, the step ST-ι is executed using input means of the automatic search module 1, the step ST ₂ is

-18exécutée par des moyens de production de requêtes d’interrogation, l’étape ST₃ est exécutée par des moyens de collecte de contenus en combinaison avec des moyens d’identification de sources et de dates de production des contenus, et les étapes ST₄ et ST₅ sont exécutées par des moyens de sélection des sources de contenus en combinaison avec des moyens de calcul du module de recherche automatique 1.Executed by means of production of interrogation requests, step ST ₃ is executed by means of collecting content in combination with means of identifying sources and dates of production of the contents, and steps ST ₄ and ST ₅ are executed by means for selecting the sources of content in combination with means for calculating the automatic search module 1.

Les figures 3a et 3b illustrent des seconds modes de mise en oeuvre de l’invention, dans lesquels les évènements auxquels se rapportent les contenus collectés ne sont pas connus initialement par l’utilisateur U. L’étape ST-i’ consiste en une saisie, par exemple par l’utilisateur U, d’un domaine d’intérêt DI, par exemple en utilisant une requête métier telle que décrit plus haut. A l’étape ST₂’, le module de recherche automatique 1 construit la requête d’interrogation RQ à partir du domaine d’intérêt DI. L’interrogation de la base de données BD par la requête RQ et l’étape ST₃ de collecte des références de contenus qui correspondent à la requête RQ sont identiques à celles des modes de mise en oeuvre de la figure 2a.FIGS. 3a and 3b illustrate second embodiments of the invention, in which the events to which the collected contents relate are not initially known by the user U. The step ST-i 'consists of an input , for example by the user U, of a domain of interest DI, for example by using a business request as described above. In step ST ₂ ′, the automatic search module 1 constructs the interrogation request RQ from the domain of interest DI. The interrogation of the database BD by the request RQ and the step ST ₃ of collecting content references which correspond to the request RQ are identical to those of the modes of implementation of FIG. 2a.

L’étape additionnelle ST₃’ est illustrée par la figure 3b, et a pour but de déterminer, avec autant de vraisemblance que possible, les dates des évènements qui sont concernés par les contenus dont les références ont été collectées à l’étape ST₃. Cette vraisemblance est supérieure lorsque les dates de production des contenus sont regroupées dans des périodes séparées ou à peu près séparées, si bien que l’existence d’un évènement distinct peut être attribuée à chaque période.The additional step ST ₃ 'is illustrated in FIG. 3b, and aims to determine, with as much likelihood as possible, the dates of the events which are concerned with the contents whose references were collected in step ST ₃ . This likelihood is greater when the dates of content production are grouped into separate or roughly separate periods, so that the existence of a separate event can be attributed to each period.

A l’étape ST₃’, le module de recherche automatique 1 identifie des maxima dans les variations du nombre N/j des contenus qui ont été produits par jour pendant une période d’analyse PA, et dont les références ont été collectées à l’étape ST₃. Il s’agit cette fois du nombre total des contenus collectés par unité de temps, par exemple par jour, quel que soit l’évènement qui est concerné par chaque contenu. Par exemple, la courbe du nombre N/j en fonction du temps t qui est représentée dans le diagramme de la figure 3b peut présenter trois maxima, notés Mi, M₂ et M₃, correspondant aux dates T(M-i), T(M₂) et T(M₃) respectivement. Alors, partant de l’hypothèse que chaqueIn step ST ₃ ′, the automatic search module 1 identifies maxima in the variations in the number N / d of the contents which have been produced per day during an analysis period PA, and whose references have been collected in the ST ₃ . This time it is the total number of contents collected per time unit, for example per day, whatever the event which is concerned by each content. For example, the curve of the number N / j as a function of time t which is represented in the diagram in FIG. 3b can have three maxima, denoted Mi, M ₂ and M ₃ , corresponding to the dates T (Mi), T (M ₂ ) and T (M ₃ ) respectively. So, assuming that each

-19maximum de la courbe de N/j en fonction du temps t a été vraisemblablement provoqué par un évènement couvert par la requête d’interrogation RQ, le maximum Mi est identifié dans la suite du procédé à un premier évènement qui se serait produit à la date T(M-i), et de même le maximum M₂ est identifié à un deuxième évènement qui se serait produit à la date T(M₂), et le maximum M₃est identifié à un troisième évènement qui se serait produit à la date T(M₃). Selon une autre hypothèse de vraisemblance, chaque contenu dont la référence a été collectée à l’étape ST₃ concerne celui des évènements ainsi identifié qui lui est le plus proche chronologiquement. Ainsi, dans l’exemple de la figure 3b, le contenu D₂ est supposé relatif à l’évènement du maximum Mi, en anticipant cet évènement Mi, le contenu D₃ est supposé relatif aussi à l’évènement du maximum M-ι, mais en lui étant postérieur, et le contenu D₄ est supposé relatif à l’évènement du maximum M₂, avec anticipation par rapport à ce dernier.-19maximum of the curve of N / d as a function of time t was probably caused by an event covered by the interrogation request RQ, the maximum Mi is identified in the rest of the process by a first event which would have occurred on the date T (Mi), and similarly the maximum M ₂ is identified with a second event which would have occurred on the date T (M ₂ ), and the maximum M ₃ is identified with a third event which would have occurred on the date T (M ₃ ). According to another likelihood hypothesis, each content whose reference was collected in step ST ₃ concerns that of the events thus identified which is closest to it chronologically. Thus, in the example of FIG. 3b, the content D ₂ is assumed to be relative to the event of the maximum Mi, by anticipating this event Mi, the content D ₃ is assumed to also relate to the event of the maximum M-ι, but by being posterior to it, and the content D ₄ is assumed to relate to the event of the maximum M ₂ , with anticipation with respect to the latter.

Dans la figure 3b, T(RQ) désigne la date à laquelle la requête d’interrogation RQ est utilisée dans la base de données BD. La date T(RQ) peut être la fin de la période d’analyse PA pendant laquelle les variations du nombre N/j en fonction du temps t sont analysées, mais pas nécessairement. La période d’analyse PA peut éventuellement être arrêtée avant la date T(RQ).In Figure 3b, T (RQ) designates the date on which the RQ query query is used in the BD database. The date T (RQ) may be the end of the analysis period PA during which the variations in the number N / d as a function of time t are analyzed, but not necessarily. The PA analysis period can possibly be stopped before the date T (RQ).

L’étape ST₄’ de la figure 3a correspond à l’étape ST₄ de la figure 2a en remplaçant la date réelle de l’évènement concerné par chaque contenu par la date la plus vraisemblable d’un évènement qui serait concerné par ce contenu, obtenue à partir des variations du nombre N/j en fonction du temps t comme cela vient d’être décrit. Ainsi, dans l’exemple de la figure 3b, la valeur d’anticipation VA(S₂) de la source S₂ dépend du devancement temporel positif T(Mi) - T(D₂), la valeur d’anticipation VA(S₃) de la source S₃ dépend du devancement temporel négatif T(Mi) -T(D₃), et la valeur d’anticipation VA(S₄) de la source S₄ dépend du devancement temporel positif T(M₂) - T(D₄).Step ST ₄ 'in FIG. 3a corresponds to step ST ₄ in FIG. 2a by replacing the actual date of the event concerned by each content with the most likely date of an event which would be concerned by this content. , obtained from variations in the number N / j as a function of time t as has just been described. Thus, in the example of FIG. 3b, the anticipation value VA (S ₂ ) of the source S ₂ depends on the positive time advance T (Mi) - T (D ₂ ), the anticipation value VA (S ₃ ) from the source S ₃ depends on the negative time advance T (Mi) -T (D ₃ ), and the anticipation value VA (S ₄ ) of the source S ₄ depends on the positive time advance T (M ₂ ) - T (D ₄ ).

De façon optionnelle aussi pour les seconds modes de mise en oeuvre qui sont en train d’être décrits, une valeur d’anticipation peut n’être calculée que pour celles des sources qui ont produit au moins deux contenus qui ont correspondu à la requête RQ, et qui concernent des maxima différents duOptionally also for the second modes of implementation which are being described, a anticipation value can only be calculated for those of the sources which have produced at least two contents which have corresponded to the request RQ , and which relate to maxima different from

-20nombre N/j. Ainsi, pour la source S_k qui a produit un contenu D_mchronologiquement proche d’un maximum M_x du nombre N/j de contenus produits par jour, et qui a aussi produit un contenu D_n chronologiquement proche d’un maximum M_y du nombre N/j, la valeur d’anticipation VA(S_k) dépend des deux devancements temporels T(M_X) - T(D_m) et T(M_y) - T(D_n), comme indiqué aux étapes ST₄’ et ST₅’ de la figure 3a. La fonction f, ayant pour variables les devancements temporels d’une même source, et qui a été utilisée dans les premiers modes de mise en oeuvre de l’invention (figures 2a et 2b), peut être utilisée identiquement pour les seconds modes de réalisation de l’invention (figures 3a et 3b).-20number N / d. Thus, for the source S _k which produced content D _m chronologically close to a maximum M _x of the number N / j of content produced per day, and which also produced content D _n chronologically close to a maximum M _y of the number N / j, the anticipation value VA (S _k ) depends on the two time advances T (M _X ) - T (D _m ) and T (M _y ) - T (D _n ), as indicated in steps ST ₄ 'and ST ₅ ' of Figure 3a. The function f, having as variables the time advances of the same source, and which was used in the first embodiments of the invention (FIGS. 2a and 2b), can be used identically for the second embodiments of the invention (Figures 3a and 3b).

L’étape ST-i’ est exécutée en utilisant les moyens de saisie du module de recherche automatique 1, l’étape ST₂’ est exécutée par les moyens de production de requêtes d’interrogation, l’étape ST₃ est encore exécutée par des moyens de collecte de contenus en combinaison avec les moyens d’identification de sources et de dates de production des contenus, et les étapes ST₄’ et ST₅’ sont exécutées par les moyens de sélection des sources de contenus en combinaison avec les moyens de calcul du module de recherche automatique 1.The step ST-i 'is executed using the input means of the automatic search module 1, the step ST ₂ ' is executed by the means for producing interrogation requests, the step ST ₃ is further executed by means for collecting content in combination with the means for identifying sources and dates for producing the content, and steps ST ₄ ′ and ST ₅ ′ are executed by the means for selecting the sources of content in combination with the means for calculating the automatic search module 1.

De préférence, la fonction f qui est utilisée pour calculer les valeurs d’anticipation est une fonction croissante de la valeur algébrique de chaque devancement temporel, exprimé comme la date de l’évènement ou d’un maximum de la courbe du nombre N/j en fonction du temps t, réduite de la date de production du contenu, si bien qu’une source qui est plus clairvoyante possède une valeur d’anticipation qui est supérieure. Ainsi, la fonction f peut être telle que la contribution dans la valeur d’anticipation de celui des devancements temporels qui correspond au premier contenu qui a été produit par la source en relation avec un évènement, est plus grande qu’une autre contribution correspondant à un autre contenu qui a aussi été produit par la même source en relation avec le même évènement. Un exemple de telle fonction f peut être donné pour chaque événement EV_X de date T(EV_X), qui est soit détecté par l’analyse du nombre de documents produits par unité de temps, tel que ce nombre est issu de la requête RQ, soit fourni en entrée au module de recherche automatique, et pour chaque source S_k ayant produit unPreferably, the function f which is used to calculate the anticipation values is an increasing function of the algebraic value of each temporal advance, expressed as the date of the event or of a maximum of the curve of the number N / j as a function of time t, reduced by the date of production of the content, so that a source which is more clairvoyant has a value of anticipation which is higher. Thus, the function f can be such that the contribution in the anticipation value of that of the time advances which corresponds to the first content which was produced by the source in relation to an event, is greater than another contribution corresponding to other content that was also produced by the same source in connection with the same event. An example of such a function f can be given for each event EV _X of date T (EV _X ), which is either detected by the analysis of the number of documents produced per unit of time, such that this number comes from the request RQ , or supplied as input to the automatic search module, and for each source S _k having produced a

-21 contenu D_n à la date T(D_n) qui est relatif à EV_X, et donc retourné en réponse à la requête RQ. Ainsi, une contribution VA_x(Sk) à la valeur d’anticipation de la source Sk relative à l’évènement EV_X, peut être par exemple :-21 content D _n at date T (D _n ) which is relative to EV _X , and therefore returned in response to the request RQ. Thus, a contribution VA _x (Sk) to the anticipation value of the source Sk relating to the event EV _X , can be for example:

VA_x(S_k) = T(EV_X) - T(D_n) si T(D_n) < T(EV_X) et T(EV_X) - T(D_n) < MAVA _x (S _k ) = T (EV _X ) - T (D _n ) if T (D _n ) <T (EV _X ) and T (EV _X ) - T (D _n ) <MA

VA_x(S_k) = 0 si T(D_n) < T(EV_X) et T(EV_X) - T(D_n) > MAVA _x (S _k ) = 0 if T (D _n ) <T (EV _X ) and T (EV _X ) - T (D _n )> MA

VA_x(S_k) = max(0, MA - (T(D_n) - T(EV_X))) si T(EV_X) < T(D_n) où MA est une valeur constante prédéterminée qui représente la valeur maximale admise pour une contribution d’anticipation. Si la source S_k a produit plusieurs contenus D_n qui sont relatifs au même évènement EV_X, alors les contributions correspondantes à la valeur d’anticipation peuvent être ajoutées les unes aux autres. Ensuite, la valeur d’anticipation VA(Sk) de la source Sk peut être : VA(S_k)= Σ_Εν_χνΑ_χ(δ_κ).VA _x (S _k ) = max (0, MA - (T (D _n ) - T (EV _X ))) if T (EV _X ) <T (D _n ) where MA is a predetermined constant value which represents the value maximum allowed for an anticipatory contribution. If the source S _k has produced several contents D _n which relate to the same event EV _X , then the contributions corresponding to the anticipation value can be added to one another. Then, the anticipation value VA (Sk) of the source Sk can be: VA (S _k ) = Σ _Ε ν _χ νΑ _χ (δ _κ ).

Dans des perfectionnements de l’invention, la fonction f peut dépendre en outre de l’un des paramètres additionnels suivants :In improvements of the invention, the function f can also depend on one of the following additional parameters:

-le nombre N\ des évènements parmi ceux de l’étape ST-ι, ou parmi ceux qui ont été identifiés à l’étape ST₃’, qui sont concernés ou supposés concernés par les contenus collectés qui ont été produits par la source S_k, dont la valeur d’anticipation est calculée. Il est possible ainsi de rendre compte dans la valeur d’anticipation VA(S_k), que la source Sk a produit des contenus pertinents pour un grand nombre d’évènements. A titre d’exemple, la valeur d’anticipation peut être remplacée par VA’(Sk) = VA(Sk) N⁺k, où VA(Sk) est telle que définie plus haut ;-the number N \ of events among those of step ST-ι, or among those which were identified in step ST ₃ ', which are concerned or supposedly concerned by the collected contents which have been produced by the source S _k , whose anticipation value is calculated. It is thus possible to account in the anticipation value VA (S _k ), that the source Sk has produced relevant content for a large number of events. For example, the anticipation value can be replaced by VA '(Sk) = VA (Sk) N ⁺ k, where VA (Sk) is as defined above;

- le nombre N'_k des évènements parmi ceux de l’étape ST-ι, ou parmi ceux qui ont été identifiés à l’étape ST₃’, qui ne sont concernés ou qui sont supposés n’être concernés par aucun des contenus collectés qui ont été produits par la source S_k. Il est possible ainsi de rendre compte dans la valeur d’anticipation VA(Sk), que la source Sk a été muette, ou défaillante, par rapport à certains évènements. A titre d’exemple, la valeur d’anticipation peut être remplacée par VA”(Sk) = VA(Sk)/N'_k, où VA(Sk) est encore telle que définie plus haut ;- the number N ' _k of events among those of step ST-ι, or among those which have been identified in step ST ₃ ', which are not concerned or which are supposed to be concerned by none of the content collected which were produced by the source S _k . It is thus possible to account in the anticipation value VA (Sk), that the source Sk has been silent, or faulty, with respect to certain events. For example, the anticipation value can be replaced by VA ”(Sk) = VA (Sk) / N ' _k , where VA (Sk) is still as defined above;

-22 - pour chaque évènement EV_X, le nombre NC(EV_X), de contenus collectés qui ont été produits ou qui sont supposés avoir été produits, en relation avec cet évènement, indépendamment du fait que la source S_k a ou n’a pas produit de contenu relatif à cet évènement. Il est possible ainsi de moduler dans la valeur d’anticipation VA(S_k), la contribution de chaque couple formé par l’un des contenus produits par la source S_k avec l’évènement concerné par ce contenu, en fonction de l’importance qu’a eue cet évènement pour toutes les sources identifiées. A titre d’exemple, la contribution à la valeur d’anticipation peut être remplacée par VA_x’(S_k) = VA_x(S_k) NC(EV_x), où VA_x(S_k) est telle que définie plus haut ; et-22 - for each event EV _X , the number NC (EV _X ), of collected content which has been produced or which is supposed to have been produced, in relation to this event, regardless of whether the source S _k has or n ' did not produce content related to this event. It is thus possible to modulate in the anticipation value VA (S _k ), the contribution of each pair formed by one of the contents produced by the source S _k with the event concerned by this contents, as a function of the importance that this event had for all the sources identified. For example, the contribution to the anticipation value can be replaced by VA _x '(S _k ) = VA _x (S _k ) NC (EV _x ), where VA _x (S _k ) is as defined more high ; and

- pour chaque évènement, une valeur d’un rapport HL_X de hauteur de pic sur largeur de pic, qui concerne les variations du nombre N/j de contenus collectés qui ont été produits par unité de temps, en relation avec cet évènement, indépendamment du fait que la source S_k a ou n’a pas produit de contenu relatif à cet évènement. Il est possible ainsi de moduler dans la valeur d’anticipation VA_x(S_k), la contribution de chaque couple formé par l’un des contenus produits par la source S_k avec l’évènement concerné par ce contenu, en fonction de caractéristiques de la réaction qu’a provoquée cet évènement pour toutes les sources identifiées. A titre d’exemple, la contribution à la valeur d’anticipation peut être remplacée par VA_x”(S_k) = VA_x(S_k) HL_x, où VA_x(S_k) est encore telle que définie plus haut.- for each event, a value of a HL _X ratio of peak height over peak width, which relates to the variations in the number N / d of collected content which have been produced per unit of time, in relation to this event, independently of the fact that the source S _k has or has not produced content relating to this event. It is thus possible to modulate in the anticipation value VA _x (S _k ), the contribution of each pair formed by one of the contents produced by the source S _k with the event concerned by this contents, according to characteristics of the reaction this event caused to all the sources identified. As an example, the contribution to the anticipation value can be replaced by VA _x ”(S _k ) = VA _x (S _k ) HL _x , where VA _x (S _k ) is still as defined above.

Possiblement, les étapes ST₄ et ST₅, ou ST₄’ et ST₅’, peuvent être exécutées séparément pour plusieurs sources distinctes. Alors les identifiants de ces sources peuvent être fournis à l’utilisateur U à la fin du procédé dans l’ordre décroissant des valeurs d’anticipation qui ont été calculées. Les sources les plus clairvoyantes peuvent ainsi être présentées en premier à l’utilisateur U.Possibly, steps ST ₄ and ST ₅ , or ST ₄ 'and ST ₅ ', can be performed separately for several distinct sources. Then the identifiers of these sources can be supplied to the user U at the end of the process in descending order of the anticipation values which have been calculated. The most clairvoyant sources can thus be presented first to user U.

Il est encore possible que des sources clairvoyantes qui ont des niveaux d’occurrence faibles dans la réponse qui a été obtenue à la requête d’interrogation RQ, soient reléguées à des valeurs d’anticipation moins bonnes à cause d’autres sources qui ont des niveaux d’occurrence plus forts. LeIt is still possible that clairvoyant sources which have low levels of occurrence in the response which was obtained to the query request RQ, are relegated to lower anticipation values because of other sources which have higher occurrence levels. The

-23niveau d’occurrence d’une source, ou valeur d’occurrence, peut notamment être déterminé comme le nombre de contenus qu’elle a produits et qui ont été collectés à l’étape ST₃. Alors, une source peut être optionnellement exclue de la suite du procédé si sa valeur d’occurrence est supérieure à une valeur-seuil fixe, ou est supérieure à une valeur-limite qui est ajustée en fonction des autres sources de contenus collectés.-23 level of occurrence of a source, or occurrence value, can in particular be determined as the number of contents which it has produced and which have been collected in step ST ₃ . Then, a source can be optionally excluded from the rest of the method if its occurrence value is greater than a fixed threshold value, or is greater than a limit value which is adjusted as a function of the other sources of content collected.

Une fois qu’une source clairvoyante a été identifiée selon l’invention, par sa valeur d’anticipation qui est bonne, il est possible de consulter l’un des contenus qu’elle a produit et qui a été collecté. Le temps de l’utilisateur, consacré à rechercher une information précurseur par rapport à un évènement, a été réduit grâce à l’invention.Once a clairvoyant source has been identified according to the invention, by its anticipation value which is good, it is possible to consult one of the contents which it has produced and which has been collected. The user’s time, spent searching for precursor information in relation to an event, has been reduced thanks to the invention.

Mais il est possible qu’une source clairvoyante produise des contenus précurseurs dans des domaines séparés, si bien que certains de ces contenus précurseurs ne sont pas collectés par la requête d’interrogation. Autrement dit, certains contenus qui sont produits par la source clairvoyante ne concernent pas les évènements qui sont couverts par la requête d’interrogation. Dans ce cas, le procédé de l’invention peut être exécuté une première fois, correspondant à un premier ensemble d’évènements, pour identifier la source clairvoyante, puis exécuté une seconde fois pour correspondre à un second ensemble d’évènements qui est différent du premier, mais qui correspond mieux à l’ensemble des domaines d’activité de la source clairvoyante. Pour cela, pour la seconde exécution, à l’étape STf, le domaine d’intérêt qui est saisi est élaboré avantageusement en tenant compte d’un domaine d’intérêt de la source clairvoyante.But it is possible that a clairvoyant source produces precursory content in separate domains, so that some of this precursor content is not collected by the query. In other words, some content that is produced by the clairvoyant source does not concern the events that are covered by the interrogation request. In this case, the method of the invention can be executed a first time, corresponding to a first set of events, to identify the clairvoyant source, then executed a second time to correspond to a second set of events which is different from the first, but which corresponds better to all the fields of activity of the clairvoyant source. For this, for the second execution, in step STf, the area of interest which is entered is advantageously developed taking into account an area of interest of the clairvoyant source.

De façon générale, l’invention permet d’indiquer à l’utilisateur celles des sources qui ont été actives les premières dans son domaine d’intérêt. Ainsi, en suivant ultérieurement ces sources, dans le même domaine d’intérêt ou dans des domaines proches, notamment des domaines extrapolés par filtrage collaboratif ou par apprentissage, l’utilisateur peut avoir un accès direct à des contenus précurseurs. L’accès à de tels contenus précurseurs peut alors être fourni à l’utilisateur par voie spécifique ou en priorité, par exemple au moyen d’alertes, si bien que l’utilisateur a connaissance de l’existence de cesIn general, the invention makes it possible to indicate to the user which of the sources which have been active first in his area of interest. Thus, by subsequently following these sources, in the same field of interest or in close fields, in particular fields extrapolated by collaborative filtering or by learning, the user can have direct access to precursor content. Access to such precursor content can then be provided to the user by specific means or as a priority, for example by means of alerts, so that the user is aware of the existence of these

-24contenus précurseurs même s’ils présentent un signal qui est encore faible pour des moteurs de recherche usuels. L’invention permet donc de privilégier la rapidité d’accès à une nouvelle information par rapport à des informations qui sont déjà largement vulgarisées. En effet, une information vraiment nouvelle, ou information précurseur, n’a pas encore eu le temps d’être répétée, reprise et/ou réutilisée par des sources secondaires de contenus autres que la source initiale de l’information précurseur.-24 precursor contents even if they present a signal which is still weak for usual search engines. The invention therefore makes it possible to privilege the speed of access to new information over information which is already widely popularized. Indeed, really new information, or precursor information, has not yet had time to be repeated, taken up and / or reused by secondary sources of content other than the initial source of the precursor information.

Il est entendu que l’invention peut être reproduite en adaptant ou en modifiant des aspects secondaires de celle-ci, par rapport aux modes de mise en oeuvre qui viennent d’être décrits en détail. En particulier, d’autres expressions mathématiques peuvent être utilisées pour calculer la valeur d’anticipation d’une source, sous condition de varier de façon monotone en fonction de chaque devancement temporel de la source qui est évaluée. En outre, il est rappelé que les formes des courbes qui sont représentées dans les figures 2b et 3b ne sont que des exemples d’évolution du nombre journalier de contenus qui correspondent à une requête d’interrogation. Notamment, le nombre de valeurs maximales de ce nombre journalier pendant la période d’analyse, ainsi que chaque valeur maximale, et la largeur et/ou la surface de chaque pic peuvent être quelconques, et ce indépendamment d’un pic à l’autre.It is understood that the invention can be reproduced by adapting or modifying secondary aspects thereof, compared with the embodiments which have just been described in detail. In particular, other mathematical expressions can be used to calculate the anticipation value of a source, provided that it varies monotonically as a function of each temporal advance of the source which is evaluated. In addition, it is recalled that the shapes of the curves which are represented in FIGS. 2b and 3b are only examples of changes in the daily number of contents which correspond to a query request. In particular, the number of maximum values of this daily number during the analysis period, as well as each maximum value, and the width and / or the surface of each peak can be any, and this independently of a peak to another .

Claims

REVEN DICATIONS

1. Method for identifying a source of information, comprising the following steps, carried out using an automatic search module (1):

5/1 / produce at least one interrogation request (RQ) which corresponds to several events; and /

2 / collect, from at least one database (BD), content references (D ₂ -D ₄ ) which are obtained in response to the query request (RQ), and whose contents correspond

10 each at at least one of the events, and for each content, identify a source (S ₂ -S ₄ ) and a date (T (D ₂ ) -T (D ₄ )) of production of said content;

characterized in that the method further comprises:

/ 3 / among the identified sources (S ₂ -S ₄ ), select at least one

15 source which produced at least one content (D ₂ -D ₄ ) relating to at least one of the events of step / 1 /;

/ 4 / for each source selected in step / 3 /, and for each content produced by said source which is related to one of the events in step / 1 /, determine a time advance acquired by said source in

20 having produced said content, with respect to a date of the event or with respect to a date when other content relating to said event has been produced, then combine the time advances acquired by the same source selected in step / 3 / in order to calculate a numerical value, called the anticipation value and assigned to said

25 source, which varies monotonically as a function of each temporal advance determined for this source; then / 5 / provide an identifier of at least one of the sources selected in step / 3 /, with the anticipation value which was calculated in step / 4 / for said source.

-262. Method according to claim 1, according to which said at least one interrogation request (RQ) is produced in step / 1 / from an entry of events (EV-ι, EV ₂ , ...) in the automatic search module (1), and each time advance which is acquired by a source is determined in step / 4 / as a difference between the date of one of the events and a date on which said source produced relative content audit event, and the reference of which was collected in step / 2 /.

3. Method according to claim 1, according to which step / 1 / comprises:

enter a characterization of an area of interest (DI) in the automatic search module (1), the query request (RQ) being determined from the area of interest entered;

and according to which step / 2 / comprises, after having collected the content references obtained in response to the query request (RQ):

determining dates on which larger numbers of said content were produced, each date thus determined being associated with one of the events of step / 1 /, and according to which each time advance which is acquired by a source is determined at step / 4 / as a difference between one of the dates on which more content was produced, the references of which were collected in step / 2 /, and a date on which said source produced content, the reference of which was also collected at step / 2 /.

4. Method according to any one of the preceding claims, according to which the anticipation value which is calculated for each source selected in step / 3 / is an increasing function of each time advance acquired by said source having produced content. relating to one of the events.

5. Method according to any one of the preceding claims, according to which steps / 4 / and / 5 / are executed for several sources selected in step / 3 /, and the identifiers of said sources are provided to

-27 step / 5 / by being classified according to the anticipation values which have been calculated for each of said sources.

6. Method according to any one of the preceding claims, according to which an occurrence value is further determined for each of the sources selected in step / 3 /, and one of said sources is rejected if the occurrence value of said source is greater than a predetermined threshold value, or greater than the occurrence value of at least one other of the sources selected in step / 3 /.

7. Method according to any one of the preceding claims, according to which the interrogation request (RQ) produced in step / 1 / is an aggregation of several elementary requests, established according to predetermined aggregation rules, in particular rules proximity or semantic or linguistic equivalence.

8. Method according to any one of the preceding claims, according to which the anticipation value is calculated for each source selected in step / 3 /, also as a function of at least one of the following parameters:

-a number of events among the events of step / 1 /, in relation to each of which at least one content has been produced by said source;

-a number of events among the events of step / 1 /, in relation to each of which no content has been produced by said source;

- a number of contents which were produced in connection with at least one of the events of stage / 1 /, and whose references were collected in stage / 2 /, said source having produced or not a contents in connection with said event; and

at least one value of a ratio of peak height to width of said peak, relating to variations in the number of contents which have been produced per day in relation to one of the events of step / 1 /, and whose

-28references were collected in step / 2 /, said source having or not producing content related to said event.

9. Method according to any one of the preceding claims, further comprising the following step, executed after step / 5 /:

/ 6 / obtain at least one content which has been produced by a source whose identifier and anticipation value were supplied in step / 5 /.

10. Method according to any one of the preceding claims, comprising a first execution of steps / 1 / to / 5 /, then a second execution of steps / 1 / to / 5 / according to claim 3, and according to which the domain of interest (DI), the characterization of which is entered in step / 1 / of the second execution is determined at least partially from another area of interest relating to a source, the identifier and the value of anticipation were provided at step / 5 / of the first execution.

11. Automatic search module (1), comprising:

- means of producing at least one query request (RQ) which corresponds to several events;

- collection means, adapted to collect from at least one database (BD), content references (D ₂ -D ₄ ) which are obtained in response to said at least one query request (RQ ), and the contents of which each correspond to at least one of the events; and

- identification means, adapted to identify a source (S ₂ -S ₄ ) and a production date for each content (D ₂ -D ₄ ) whose reference has been collected by the collection means;

characterized in that the automatic search module (1) further comprises:

- selection means, adapted to select from identified sources (S ₂ -S ₄ ) by the identification means, at least one source which has produced at least one content relating to at least one of the events corresponding to the request d 'interrogation (RQ);

-29- suitable calculation means for determining for each source selected by the selection means, a time advance acquired by said source having produced content relating to one of the events, with respect to a date of said event or with respect to a date when other content relating to said event was produced, then to combine the time advances acquired by the same of the selected sources in order to calculate a numerical value, called anticipation value and attributed to said source, which varies monotonically in function of each time advance determined for this source; and

- output means, adapted to provide an identifier of at least one of the selected sources, with the anticipation value calculated for said source.

12. Automatic search module (1) according to claim 11, in which the means for producing the interrogation request (RQ) are adapted to allow a user (U) to enter several events (EV-i, EV ₂ , ...), and further adapted to produce the interrogation request from the events entered, and the calculation means are adapted to determine each time advance, for a selected source which has produced content relating to several of the events , as a difference between the date of one of the events and a date on which said source produced content relating to said event, and whose reference was collected by the collection means.

13. Automatic search module (1) according to claim 11, in which the means for producing the interrogation request (RQ) are adapted to allow a user (U) to enter a domain of interest, and the module automatic search (1) further comprises counting means adapted to count, for several dates, contents which have been produced on each of said dates, and whose references have been collected by the collection module, and then to determine those of said said dates on which greater numbers of said content were produced, each date thus determined being associated with one of the events,

And the calculation means are adapted to determine each time advance, for a source selected by the selection means, as a difference between one of the dates on which a greater number of contents were produced whose references were collected by the means to

5 collection, and a date on which said source produced content, the reference of which was also collected by the collection means.

14. Automatic search module (1) according to any one of claims 11 to 13, adapted to carry out a method according to any one of claims 4 to 10.

10

15. A computer program product, comprising codes adapted to produce an execution of a method according to any one of claims 1 to 10, when said codes are read and executed by at least one processor, and when said at least a processor has access to said at least one database (BD).

1/3

Z) aa