EP2686782A1 - Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents - Google Patents

Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents

Info

Publication number
EP2686782A1
EP2686782A1 EP12710075.8A EP12710075A EP2686782A1 EP 2686782 A1 EP2686782 A1 EP 2686782A1 EP 12710075 A EP12710075 A EP 12710075A EP 2686782 A1 EP2686782 A1 EP 2686782A1
Authority
EP
European Patent Office
Prior art keywords
documents
flow
digital documents
peaks
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP12710075.8A
Other languages
German (de)
French (fr)
Inventor
Jean-Charles Campagne
Paul Guyot
David JULIEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiocast
Original Assignee
Semiocast
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiocast filed Critical Semiocast
Publication of EP2686782A1 publication Critical patent/EP2686782A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Definitions

  • the field of the invention is telecommunications and, in particular, the analysis of digital document flows.
  • the invention also applies to the analysis of large masses of digital documents.
  • These digital documents may be e-mails, short GSM messages, messages, articles or comments posted on Internet sites, blogs, forums or social networks, instant messages and any other type of message or digital document posted or published. , in the form of text or which has a text or which can be analyzed by a device generating a text such a voice recognition device.
  • These digital documents can be addressed specifically or implicitly to recipients or made public for a community or for everyone.
  • These digital documents are associated with one or more dates5 of publication, sending or modification.
  • the present invention relates to a method and a device for identifying and labeling abnormal or exceptional peaks, increases or variations in the throughput of a digital document stream from one or more social networks or a collection of blogs or websites, to alert an operator or produce a synthetic and explanatory view of the evolution of the flow.
  • the general problem is to produce a synthetic and explanatory view of the evolution of the flow rate of a flow of digital documents, or to alert an operator by indicating the main subject or subjects of abnormalities or abnormal or exceptional variations thereof. debit.
  • SUBSTITUTE SHEET (RULE 26) the flow at a given moment with the average flow over a longer period.
  • More advanced methods rely on transformations, for example on discrete wavelet transforms, as described by A. Haar in the article "Zur Théorie der orthogonalen Funkti onensysteme” published in Mathe- matician Annalen 69 en 1910, no. 3, pages 331-371; there is abundant literature on the detection of peaks from such transformations, such as international patent application WO 2010/007486, or anomalies, such as CT communication Huang et al. entitled “Wavelet-based Real Time Detection of Network Traffic Anomalies" in Securecomm and Workshops published in 2006 by IEEE.
  • This technical equipment generates huge amounts of digital data, ranging from tens of thousands to millions of messages or articles per day.
  • the known means make it possible to construct an evolution curve of the information rate over time for the whole of a selected stream or for a selection corresponding to predetermined specifications (for example the flow of documents which contain such a word or combination of terms).
  • predetermined specifications for example the flow of documents which contain such a word or combination of terms.
  • the technical problem that arises is that of the real-time processing capacity of large volumes of data to carry out analyzes that make it possible to explain changes in volume or flow rate indicative of external events.
  • the method according to the invention overcomes the disadvantages of traditional methods.
  • the invention proposes a technical method, executed by a computer, comprising a succession of processing steps:
  • this step identifies the changes in regime in the flow. This step involves determining one or more time intervals and ordering recording the digital documents corresponding to these intervals for subsequent processing;
  • the second step concerns a technical processing consisting in extracting sequences of characters from the documents thus isolated, by cutting the texts into strings of characters and recording in another memory zone the strings of characters thus identified;
  • the third step is to create an index of strings extracted from the second step, to associate the relevant documents and a quantitative indicator that measures the importance of a string of characters in these documents relative to the flow and then to determine the most important strings in relation to this quantitative indicator;
  • the last step is to provide a label constructed from the documents associated with the strings identified in the third step.
  • the invetion comprises, according to a first characteristic:
  • the first method operates according to a high pass filter based on wavelets.
  • the documents are counted per time unit (hour, day), and the sequence thus determined forms a signal on which a filtering is performed by eliminating the coefficients of the discrete wavelet decomposition which are below a certain threshold in absolute value. .
  • the distinguished periods are defined as periods during which the signal recomposed after filtering has a strictly positive value. Compared to the naive and obvious approach for the skilled person to compare the number of documents per unit time compared to the average, this approach has the double advantage of identifying peaks or exceptional increases even when the average flow is high but the recent flow is lower than average, and limit peak periods more precisely than just exceeding the average;
  • the first method works by comparing the signal with a periodic or quasi-periodic model.
  • a periodic or quasi-periodic model is established a priori, for example as the linear combination of several periodic functions of period of 24 hours or 7 days.
  • the model coefficients are obtained by the least squares method from the historical data.
  • Distinguished periods are defined as the periods during which the difference between the signal and the model is greater than a certain threshold.
  • the second method is a cutting of the digital documents according to the spaces and the punctuation.
  • This approach has the advantage of being very simple and easy to implement.
  • the cutting thus produced does not correspond to a very precise morphological analysis but is sufficient, in the context of the invention, to obtain labels for each of the peaks, increases or abnormal or exceptional variations in the flow rate;
  • the second method is a cutting of digital documents according to a segmentation model based on statistical data, grammatical rules, dictionary or hidden Markov chains.
  • a segmentation model based on statistical data, grammatical rules, dictionary or hidden Markov chains.
  • This approach has the advantage of being able to extract strings of digital documents written in languages where the words are generally not separated by spaces or punctuations, such as Japanese, Chinese or Thai;
  • the second method consists of a first step of identifying the language of the digital document and then a set of methods for separating the specialized words for each of the languages processed.
  • the third method works by eliminating strings of characters determined by the second method those which appear in a list of empty words or tool words. This approach has the advantage of avoiding constructing labels from empty words or tool words;
  • the third method works by calculating the product "TF-IDF" for the occurrences of the character strings extracted by the second method, then selecting the channel or chains for which this product is the highest;
  • the fourth method works by searching the character string composed of a set of morphemes distinguished by the second method and present in the digital documents which maximizes a function defined as the sum of the frequencies of the set of substrings of characters of this chain in all digital documents;
  • the process as a whole is implemented in a device which presents the operator with a graph of the flow rate and highlights the main peaks, increases or abnormal or exceptional variations in the flow rate and displays, statically or interactively, labels associated with these abnormal or exceptional peaks, increases or variations;
  • the method as a whole is implemented in a device coupled with a parameterizable filtering system which presents to the operator a graph of the flow rate of a subset of the analyzed flow, highlights the main peaks, increases or variations; abnormal or exceptional flow and associates them with labels.
  • This device advantageously allows the operator to adjust the filtering to analyze more particularly the flow rate with respect to these peaks, to obtain more information on these peaks or the rest of the curve, and possibly reveal other peaks;
  • FIG. 2 represents a device which presents to the operator a graph of the flow rate by highlighting the main peaks, increases or abnormal or exceptional variations in the flow rate and which is coupled to a noti fication system;
  • FIG. 1 represents the composition of the various processes and the flow (11) of digital documents through a device according to the invention.
  • the digital documents are initially stored in alphanumeric form in a table of a relational database (10).
  • Each digital document is stored on a line comprising a column with the text of the document, and a column with the date of publication of the document if it exists, or the date on which the document was retrieved, otherwise.
  • the relational database is configured to index the column of the date with an ordered index, for example in the form of a tree of type B-Tree.
  • the device (12) When the operator (27) interrogates the idle device (26), the device (12), at first, queries the relational database using the aforementioned index, to count, for each period of time (hour or day), the number of documents stored in the database, on a window chosen by the operator.
  • This information makes it possible to draw the flow rate curve of the documents on the terminal (22) and an example of which is represented in FIG. 3.
  • This curve can synthesize a very large mass of documents. This curve can be refreshed in real time when new documents are stored in the relational database (10).
  • the device (12) implements the method (1) to identify periods of peaks, increases or abnormal or exceptional variations. These peak periods can be highlighted by a marker (31) at the local maximum on the interface of the terminal (22).
  • the device (13) queries the relational database by using the aforementioned index to implement the method (2) in order to associate, with each document, a sequence of character strings representing a morpheme or a group of morphemes.
  • the documents, associated with these string sequences, and the identified periods are then used by a device (14) implementing the method (3) to determine the most frequent character strings in each period identified with respect to the set of documents.
  • This method (3) works by first eliminating words that are part of stop word lists, then for each of the character strings, the device calculates the product called "TF-IDF" and retains the n strings for which this product is the highest, n being a parameter of the process whose value can for example be 5.
  • the documents, associated with string sequences representing a morpheme or group of morphemes, as well as the n most frequent character strings for each identified period, are used by a device (15) implementing the method (4) constructing, for each period, an associated tag (30).
  • This tag (30) is constructed by looking for the character string that includes one or more of the n strings retained by the device (14), which is included in the documents of the period, which is composed of a set of morphemes distinguished by the device (13), and which maximizes the function defined as the sum of the frequencies of all the substrings of characters in all the documents processed by the device (12).
  • FIG. 2 shows the integration of the various methods of the invention into a wider standby device (26).
  • a number of streams are published on the Internet (25) and are captured and stored in a relational database (10). These streams are filtered by a device (21) that determines the messages on a given subject.
  • the documents are then processed by a device (20) implementing a method according to the invention.
  • This device presents to the operator (27) a graph like that shown in FIG. 3 on the terminal (22). This graph shows a number of labels (30) allowing the operator (27) to interpret the abnormal or exceptional peaks and variations of the flow rate.
  • This operator (27) can then modify the parameters of the filtering device (21) via a feedback loop (24).
  • the device (20) then produces a new curve (34) representing the flow rate of the stream defined by the filter parameters. This new curve has new peaks, increases or abnormal or exceptional variations that the device (20) identifies and for which it produces new labels (30).
  • the device (20) is also coupled to a notification system that allows the operator (28) to receive an alert on the terminal (23) when the flow rate of the flow has a peak, an increase or an abnormal variation.
  • This alert is associated with a tag (30) that allows the operator (28) to determine the cause of the peak and to decide whether it is necessary to analyze this variation via the terminal (22) or by searching in the digital documents which constitute the stream and which are stored in the database (10).
  • FIG. 3 represents a graph as generated by a device according to the invention.
  • the signal is represented in the form of a graph with abscissa (32), time, and ordinate, the flow per unit time (33).
  • This signal forms a curve (34) with peaks identified by the method (1) and highlighted by a marker at the local maximum (31). These markers are associated with the labels (30).
  • the morphemes or groups of morphemes are first extracted from the digital documents, which are stored in a relational database with the associated list of morphemes, before the process ( 1) identifies abnormal or exceptional peaks, increases or variations.
  • the device (13) when the volume of documents is too important to obtain a response within a reasonable time for the operator, queries the relational database (10) for recovering only a uniform pseudo-random sample of digital documents.
  • this random sample is skewed to favor periods of peaks and of recesses revealed by the device (12). It was found that sampling is justified when the number of digital documents recorded in the relational database (10) and corresponding to the selection of the operator exceeds 10,000. In this case, the sample is 10,000, independently the actual volume of documents saved in the database.
  • relational database (10) is replaced by a buffer memory which may contain a certain number of digital documents and covering a sufficient period with respect to the interrogations of the operator.
  • the digital documents are multimedia documents
  • the method (2) of morphological analysis is composed of a text extraction method by speech recognition or by optical recognition.
  • the morphological analysis method (2) is coupled to an automatic translation method.
  • the method and the device according to the invention are particularly intended for community monitoring on social networks.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to a method and a device which make it possible to produce an explanatory view of the changes in the throughput of a stream of documents, or to alert an operator by indicating the main subjects of the abnormal variations in said throughput. The device implements a process (1) of recognizing the periods during which the throughput of a stream of documents varies abnormally, a process (2) of morphologically analyzing text, a process (3) of determining, for a given period, the character strings of which the frequencies are the highest for the documents of the period, and a process (4) of building a tag from the strings identified by said process (3). The device can be coupled to an alarm (23) or display (22) system. The method and the device according to the invention are particularly intended for monitoring over social networks.

Description

PROCÉDÉ ET DISPOSITIF PERMETTANT DE REPÉRER ET D'ÉTIQUETER DES METHOD AND APPARATUS FOR TRACKING AND LABELING
PICS, DES AUGMENTATIONS OU DES VARIATIONS ANORMALES OU EXCEPTIONNELLES DU DÉBIT D'UN FLUX DE DOCUMENTS NUMÉRIQUESPICS, INCREASES OR ABNORMAL OR EXCEPTIONAL VARIATIONS IN THE FLOW OF A DIGITAL DOCUMENTS STREAM
Le domaine de l'invention est les télécommunications et, en particulier, l'analyse des flux de documents numériques. L'invention s'applique également à l'analyse de grandes masses de documents numériques. Ces documents numériques peuvent être des 5 courriers électroniques, des messages courts GSM, des messages, articles ou commentaires postés sur des sites Internet, b ogs, forums ou réseaux sociaux, des messages instantanés et tout autre type de message ou document numérique posté ou publié, sous forme de texte ou qui comporte un texte ou qui peut être 0 analysé par un dispositif générant un texte tel un dispositif de reconnaissance vocale. Ces documents numériques peuvent être adressés spécifiquement ou implicitement à des destinataires ou être rendus publics pour une communauté ou pour tout le monde. Ces documents numériques sont associés à une ou plusieurs dates5 de publication, d'envoi ou de modification. The field of the invention is telecommunications and, in particular, the analysis of digital document flows. The invention also applies to the analysis of large masses of digital documents. These digital documents may be e-mails, short GSM messages, messages, articles or comments posted on Internet sites, blogs, forums or social networks, instant messages and any other type of message or digital document posted or published. , in the form of text or which has a text or which can be analyzed by a device generating a text such a voice recognition device. These digital documents can be addressed specifically or implicitly to recipients or made public for a community or for everyone. These digital documents are associated with one or more dates5 of publication, sending or modification.
La présente invention concerne un procédé et un dispositif permettant de repérer et d'étiqueter des pics, des augmentations ou des variations anormales ou exceptionnelles du débit d'un flux de documents numériques issus d'un ou plusieurs réseaux sociaux0 ou d'une collection de blogs ou de sites internet, afin d'alerter un opérateur ou de produire une vue synthétique et explicative de l'évolution du débit.  The present invention relates to a method and a device for identifying and labeling abnormal or exceptional peaks, increases or variations in the throughput of a digital document stream from one or more social networks or a collection of blogs or websites, to alert an operator or produce a synthetic and explanatory view of the evolution of the flow.
Le problème général est de produire une vue synthétique et explicative de l'évolution du débit d'un flux de documents numé-5 riques, ou d'alerter un opérateur en indiquant le ou les sujets principaux des anomalies ou des variations anormales ou exceptionnelles dudit débit.  The general problem is to produce a synthetic and explanatory view of the evolution of the flow rate of a flow of digital documents, or to alert an operator by indicating the main subject or subjects of abnormalities or abnormal or exceptional variations thereof. debit.
Il existe un certain nombre de dispositifs qui produisent ou permettent de produire des graphiques présentant en abscisse le0 temps et en ordonnée le débit (nombre de documents par unité de temps). Ces dispositifs permettent d'explorer les documents qui ont été publiés à un instant donné ou pendant une période donnée. Ces dispositifs permettent parfois de mettre en valeur des pics, des augmentations ou des variations anormales ou exceptionnelles5 du débit ou d'alerter un opérateur lors de telles variations. De tels dispositifs mettent en œuvre différents procédés pour dater et mesurer les variations anormales ou exceptionnelles du débit d'un flux de documents. Un de ces procédés consiste à comparer  There are a number of devices that produce or produce graphs with abscissa time and ordinate rate (number of documents per time unit). These devices make it possible to explore the documents that have been published at a given moment or during a given period. These devices sometimes make it possible to highlight peaks, increases or abnormal or exceptional variations5 of the flow or to alert an operator during such variations. Such devices implement different methods for dating and measuring abnormal or exceptional variations in the flow rate of a document flow. One of these methods is to compare
1  1
FEUILLE DE REMPLACEMENT (RÈGLE 26) le débit à un instant donné avec le débit moyen sur une période plus grande. Des procédés plus avancés s'appuient sur des transformées, par exemple sur les transformées à base d'ondelettes discrètes, telles que décrites par A. Haar dans l'article « Zur Théorie der orthogonalen Funkti onensysteme » paru dans Mathe- matische Annalen 69 en 1910, no. 3, pages 331-371 ; il existe une littérature abondante sur la détection de pics à partir de telles transformées, comme la demande de brevet internationale WO 2010/007486, ou d'anomalies, comme la communication de C. T. Huang et al. intitulée « Wavelet-based Real Time Détection of Network Traffic Anomalies » dans Securecomm and Workshops publié en 2006 par IEEE. SUBSTITUTE SHEET (RULE 26) the flow at a given moment with the average flow over a longer period. More advanced methods rely on transformations, for example on discrete wavelet transforms, as described by A. Haar in the article "Zur Théorie der orthogonalen Funkti onensysteme" published in Mathe- matische Annalen 69 en 1910, no. 3, pages 331-371; there is abundant literature on the detection of peaks from such transformations, such as international patent application WO 2010/007486, or anomalies, such as CT communication Huang et al. entitled "Wavelet-based Real Time Detection of Network Traffic Anomalies" in Securecomm and Workshops published in 2006 by IEEE.
Ces procédés traditionnels de détection de variations anormales ou exceptionnelles du débit d'un flux de documents ne permettent pas d'obtenir des informations qualitatives permettant d'expliquer ces variations. Pour qualifier ces variations, et en particulier pour les associer à un événement extérieur comme une opération de communication ou une crise, l'opérateur doit traditionnellement explorer les documents qui composent les pics observés. Cette tâche peut être particulièrement fastidieuse. En particulier, lorsque le débit habituel des documents est important, par exemple plusieurs milliers de documents par heure, une part et un nombre non négligeables des documents ne portent pas sur le sujet du pic et ne peuvent expliquer les va- riations. L'opérateur peut être facilement débordé par la masse des documents.  These traditional methods of detecting abnormal or exceptional variations in the flow of a document flow do not make it possible to obtain qualitative information to explain these variations. To qualify these variations, and in particular to associate them with an external event such as a communication operation or a crisis, the operator must traditionally explore the documents that make up the peaks observed. This task can be particularly tedious. In particular, when the usual flow of documents is important, for example several thousand documents per hour, a significant part and a number of documents do not relate to the subject of the peak and can not explain the variations. The operator can be easily overwhelmed by the mass of documents.
Il existe par ailleurs des dispositifs visant à déterminer les sujets qui sont les plus présents dans un flux de documents, ou les sujets dont la présence augmente de manière significative. Par exemple, des sites comme SEARCH.TWITTER.COM, TWIRUS.COM ou BING.C0M affichent des listes de sujets « tendances du moment » sur les réseaux sociaux. Ces listes seraient construites à partir de la dérivée de la fréquence de morphèmes ou de groupes de morphèmes dans les documents analysés, tel que décrit dans l'article de blog de C. Penner, intitulé « To Trend or Not to Trend... » et publié en 2010 sur BL0G.TWITTER.COM. D'autres techniques pour construire de telles listes s'appuient sur une mesure de l'entropie ou sur le produit dit « TF-IDF » et sont décrites dans le rapport de J. Benhardus, intitulé « Streaming Trend Détection in Twitter » et publié lors du UCCS REU for Artificial Intelligence, National Language Processing and Information Retrieval de 2010. Le produit « TF-IDF » et des méthodes de pondération des termes sont décrits notamment dans « Term-wei ghti ng approaches in automatic text retrieval » de Salton, G. et al. publié en 1988 dans Information Processing and Management, Vol. 24, N. 5, pages 513 à 523. Cependant si ces techniques permettent de mettre en évidence des mots ou des groupes de mots dans un flux aussi large que le flux des messages publics Twitter à un instant donné, elles ne permettent pas de produire une vue synthétique et explicative des pics ou des variations significatives du débit du flux des documents portant sur un sujet donné. There are also devices to determine the topics that are most present in a document flow, or subjects whose presence increases significantly. For example, sites like SEARCH.TWITTER.COM, TWIRUS.COM or BING.C0M display lists of topics "trends of the moment" on social networks. These lists would be constructed from the derivative of the frequency of morphemes or groups of morphemes in the analyzed documents, as described in the C. Penner blog post, entitled "To Trend or Not to Trend ..." and published in 2010 on BL0G.TWITTER.COM. Other techniques for building such lists rely on a measure of entropy or on the product called "TF-IDF" and are described in J. Benhardus' report, "Streaming Trend Detection in Twitter" and published at the 2010 UCCS REU for Artificial Intelligence, National Language Processing and Information Retrieval. The "TF-IDF" Product and Term Weighting Methods are described in particular in "Term-wei ghg ng approaches in automatic text retrieval" by Salton, G. et al. published in 1988 in Information Processing and Management, Vol. 24, N. 5, pages 513 to 523. However, if these techniques make it possible to highlight words or groups of words in a stream as wide as the flow of Twitter public messages at a given instant, they do not allow to produce a synthetic and explanatory view of the peaks or significant variations in the flow rate of the flow of documents relating to a given subject.
Les solutions connues dans l'art antérieur pour permettre à un analyste, par exemple un sociologue, un chargé d'étude ou un commentateur, d'appréhender de très grands volumes d'information, en temps réel, et sans présupposés sur les modèles explicatifs, sont limitées techniquement par le volume des données prises en compte.  The solutions known in the prior art to enable an analyst, for example a sociologist, a researcher or a commentator, to capture very large volumes of information, in real time, and without presuppositions on explanatory models , are technically limited by the volume of data taken into account.
Dans les solutions connues, il est nécessaire de disposer d'équipements techniques permettant d'accéder à un flux numérique de messages et de documents : il s'agit d'outils installés sur des serveurs, d'une part connectés en permanence sur des flux continus d'informations numériques circulant sur les réseaux sociaux, via une application logicielle (API) , et d'autre part qui interrogent continuellement les serveurs hébergeant les sites internet de type blogs ou forums afin de télécharger localement les documents numériques sélectionnés. L'ensemble de ces documents collectés constituent un flux de documents numériques.  In known solutions, it is necessary to have technical equipment to access a digital flow of messages and documents: these are tools installed on servers, firstly permanently connected to streams a continuous flow of digital information circulating on social networks, via a software application (API), and on the other hand, which continually interrogate the servers hosting blogs or forums-type internet sites in order to locally download the selected digital documents. All of these collected documents constitute a flow of digital documents.
Ces équipements techniques génèrent des volumes considérables de données numériques, de l'ordre de plusieurs dizaines de milliers à plusieurs millions de messages ou d'articles par jour.  This technical equipment generates huge amounts of digital data, ranging from tens of thousands to millions of messages or articles per day.
Une solution possible, pour appréhender ces volumes d'infor- mation, consisterait à lire et à classer chacun des documents numériques afin d'en déduire par une analyse humaine une interprétation. Cette solution n'est pas raisonnable lorsque le débit est très élevé (plusieurs milliers à plusieurs millions de documents par jour) ou que l'explication doit être fournie dans un délai court, de l'ordre de la minute. A possible solution for understanding these volumes of information would be to read and classify each of the digital documents in order to deduce an interpretation from a human analysis. This solution is not reasonable when the throughput is very high (several thousand to several million of documents per day) or that the explanation must be provided within a short time, of the order of a minute.
Les moyens connus permettent de construire une courbe d'évolution du débit d'information dans le temps pour la totalité d'un flux sélectionné ou pour une sélection correspondant à des spécifications prédéterminées (par exemple le flux des documents qui contiennent tel mot ou combinaison de termes) . Ainsi , des ressources informatiques performantes permettent de vérifier des hypothèses fixées préalablement par l'analyste, hypothèses qui doivent être construites sous forme de requêtes prédéfinies et qui déterminent un sous-ensemble du flux.  The known means make it possible to construct an evolution curve of the information rate over time for the whole of a selected stream or for a selection corresponding to predetermined specifications (for example the flow of documents which contain such a word or combination of terms). Thus, powerful computing resources make it possible to verify hypotheses previously fixed by the analyst, assumptions which must be constructed in the form of predefined queries and which determine a subset of the flow.
En d'autres termes, ces ressources informatiques performantes, n'offrent pas à l'analyste des modèles explicatifs. Elles ne permettent que de tester des hypothèses. L'homme du métier, confronté à ce problème technique, aurait une démarche consistant à multiplier à l'infini les hypothèses, pour les tester les unes après les autres, et vérifier celle qui , appliquée au volume de données disponible, génère une courbe cohérente avec un modèle explicatif.  In other words, these powerful computing resources do not offer the analyst explanatory models. They only allow to test hypotheses. The person skilled in the art, confronted with this technical problem, would have an approach of infinitely multiplying the hypotheses, to test them one after the other, and check the one which, applied to the available data volume, generates a coherent curve with an explanatory model.
II est bien évident que le temps de traitement augmente ex- ponenti ellement en fonction :  It is obvious that the treatment time increases exponentially as a function of:
- du nombre de documents numériques à traiter ;  - the number of digital documents to be processed;
- du nombre d'hypothèses soumises par l'analyste.  - the number of hypotheses submitted by the analyst.
Par conséquent, l'analyste ne serait pas en mesure de tirer des enseignements pertinents dans des délais raisonnables.  As a result, the analyst would not be able to learn relevant lessons in a timely manner.
Le problème technique qui se pose est donc celui de la capacité de traitement en temps réel de grands volumes de données pour procéder à des analyses permettant d'expliquer des variations de volume ou de débit, indicatrice d'événements extérieurs.  The technical problem that arises is that of the real-time processing capacity of large volumes of data to carry out analyzes that make it possible to explain changes in volume or flow rate indicative of external events.
Le procédé selon l'invention permet de remédier aux inconvénients des procédés traditionnels. Pour cela, l'invention propose un procédé technique, exécuté par un ordinateur, comportant une succession d'étapes de traitement :  The method according to the invention overcomes the disadvantages of traditional methods. For this, the invention proposes a technical method, executed by a computer, comprising a succession of processing steps:
- une étape de traitement du flux de données pour caractériser des pics quantitatifs (cette étape identifie dans le débit les changements de régime) . Cette étape consiste à déterminer un ou plusieurs intervalles temporels et de commander l'enregistrement des documents numériques correspondant à ces intervalles pour les traitements ultérieurs ; a step of processing the data flow to characterize quantitative peaks (this step identifies the changes in regime in the flow). This step involves determining one or more time intervals and ordering recording the digital documents corresponding to these intervals for subsequent processing;
- la deuxième étape concerne un traitement technique consistant à extraire des séquences de caractères des documents ainsi isolés, par un découpage des textes en chaînes de caractères et l'enregistrement dans une autre zone mémoire des chaînes de caractères ainsi identifiées ;  the second step concerns a technical processing consisting in extracting sequences of characters from the documents thus isolated, by cutting the texts into strings of characters and recording in another memory zone the strings of characters thus identified;
- la troisième étape consiste à créer un index des chaînes de caractères extraites de la deuxième étape, d'y associer les documents concernés ainsi qu'un indicateur quantitatif qui mesure l'importance d'une chaîne de caractères dans ces documents relativement à l'ensemble du flux, puis à déterminer les chaînes de caractères les plus importantes par rapport à cet indicateur quantitatif ;  - the third step is to create an index of strings extracted from the second step, to associate the relevant documents and a quantitative indicator that measures the importance of a string of characters in these documents relative to the flow and then to determine the most important strings in relation to this quantitative indicator;
- la dernière étape consiste à fournir une étiquette construite à partir des documents associés aux chaînes de caractères identifiées dans la troisième étape.  the last step is to provide a label constructed from the documents associated with the strings identified in the third step.
Il ne s'agit aucunement de simples méthodes intellectuelles, car un opérateur humain ne serait en aucune façon en mesure de réaliser l'ensemble de ces différentes étapes et traitements. De surcroît, toutes ces étapes concernent des données numériques, n'ayant pas de réalité cognitive directe. It is not a question of simple intellectual methods, because a human operator would be in no way able to realize all these different stages and treatments. In addition, all these steps involve digital data, having no direct cognitive reality.
L'invetion comporte, selon une première caractéristique :  The invetion comprises, according to a first characteristic:
- un premier procédé permettant de repérer les périodes où le débit du flux de documents numériques varie de manière anormale ou exceptionnelle, ou forme un pic ou augmente de manière significative ; a first method for identifying the periods when the flow rate of the digital document stream varies abnormally or exceptionally, or peaks or increases significantly;
- un second procédé d'analyse morphologique permettant d'extraire des chaînes de caractères d'un document numérique et de distinguer, parmi ces chaînes de caractères, celles qui correspondent aux morphèmes ou aux groupes de morphèmes de celles qui correspondent aux séparateurs entre les morphèmes ou groupes de morphèmes ;  a second method of morphological analysis making it possible to extract strings of characters from a digital document and to distinguish, among these strings of characters, those which correspond to the morphemes or groups of morphemes from those which correspond to the separators between the morphemes or groups of morphemes;
- un troisième procédé permettant de déterminer, pour chacune de ces périodes, des chaînes de caractères extraites par le procédé précédent dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période distinguée par le premier procédé par rapport aux documents numériques en dehors de ces périodes ; - un quatrième procédé permettant de construire, pour toutes ou pour un sous-ensemble des périodes distinguées par le premier procédé, une étiquette à partir de la totalité ou d'un échantillon des documents numériques pour cette période donnée et d'un sous-ensemble ou de la totalité des chaînes de caractères distinguées par le procédé précédent. a third method for determining, for each of these periods, strings of characters extracted by the above method whose frequencies are highest for digital documents during each period distinguished by the first method compared to digital documents outside these periods; a fourth method making it possible to construct, for all or for a subset of the periods distinguished by the first method, a label from the totality or a sample of the digital documents for this given period and a subset or all the strings of characters distinguished by the preceding method.
Selon des modes particuliers de réalisation : According to particular embodiments:
- le premier procédé fonctionne selon un filtre passe haut à base d ' ondelettes . Les documents sont comptés par unité de temps (heure, jour) , et la séquence ainsi déterminée forme un signal sur lequel on effectue un filtrage en éliminant les coefficients de la décomposition en ondelettes discrètes qui sont en dessous d'un certain seuil en valeur absolue. Les périodes distinguées sont définies comme périodes pendant lesquelles le signal recomposé après filtrage a une valeur strictement positive. Par rapport à l'approche naïve et évidente pour l'homme du métier qui consisterait à comparer le nombre de documents par unité de temps par rapport à la moyenne, cette approche a le double avantage de repérer les pics ou les augmentations exceptionnelles même lorsque le débit moyen est élevé mais le débit récent plus faible que la moyenne, et de borner les périodes de pics de manière plus précise qu'un simple dépassement de la moyenne ; the first method operates according to a high pass filter based on wavelets. The documents are counted per time unit (hour, day), and the sequence thus determined forms a signal on which a filtering is performed by eliminating the coefficients of the discrete wavelet decomposition which are below a certain threshold in absolute value. . The distinguished periods are defined as periods during which the signal recomposed after filtering has a strictly positive value. Compared to the naive and obvious approach for the skilled person to compare the number of documents per unit time compared to the average, this approach has the double advantage of identifying peaks or exceptional increases even when the average flow is high but the recent flow is lower than average, and limit peak periods more precisely than just exceeding the average;
- le premier procédé fonctionne en comparant le signal avec un modèle périodique ou quasi -péri odi que . Un tel modèle est établi a priori , par exemple comme la combinaison linéaire de plusieurs fonctions périodiques de période de 24 heures ou de 7 jours. Les coefficients du modèle sont obtenus par la méthode des moindres carrés à partir des données historiques. Les périodes distinguées sont définies comme les périodes pendant lesquelles la différence entre le signal et le modèle est supérieure à un certain seuil. Cette approche a les mêmes avantages que l'approche précédente par rapport à l'approche naïve. Elle permet de surcroît de détecter de manière plus fine des pics moins importants, en particulier lorsque le signal est fortement périodique, comme on peut l'observer sur les réseaux sociaux où l'activité dépend beaucoup du rythme diurne et hebdomadaire. En revanche, par rapport à l'approche précédente, cette approche a l'inconvénient d'être plus lourde en calcul et de nécessiter de mettre au point un modèle pour le flux analysé. Cette approche ne permet pas non plus de détecter des pics qui seraient récurrents et périodiques sur les données historiques ;the first method works by comparing the signal with a periodic or quasi-periodic model. Such a model is established a priori, for example as the linear combination of several periodic functions of period of 24 hours or 7 days. The model coefficients are obtained by the least squares method from the historical data. Distinguished periods are defined as the periods during which the difference between the signal and the model is greater than a certain threshold. This approach has the same advantages than the previous approach compared to the naive approach. It also makes it possible to detect smaller peaks more precisely, especially when the signal is highly periodic, as can be seen on social networks where the activity is highly dependent on the diurnal and weekly rhythm. On the other hand, compared to the previous approach, this approach has the disadvantage of being heavier in calculation and requiring the development of a model for the analyzed flow. This approach also does not detect peaks that would be recurrent and periodic on the historical data;
- le second procédé est un découpage des documents numériques selon les espaces et la ponctuation. Cette approche a l'avantage d'être très simple et facile à mettre en œuvre. Le découpage ainsi réalisé ne correspond pas à une analyse morphologique très précise mais suffit, dans le cadre de l'invention, pour obtenir des étiquettes pour chacun des pics, des augmentations ou des variations anormales ou exceptionnelles du débit ; the second method is a cutting of the digital documents according to the spaces and the punctuation. This approach has the advantage of being very simple and easy to implement. The cutting thus produced does not correspond to a very precise morphological analysis but is sufficient, in the context of the invention, to obtain labels for each of the peaks, increases or abnormal or exceptional variations in the flow rate;
- le second procédé est un découpage des documents numériques selon un modèle de segmentation à base de données statistiques, de règles grammaticales, de dictionnaire ou de chaînes de Markov cachées. Un tel procédé pourrait par exemple être celui décrit dans le brevet JP2897942. Cette approche a l'avantage de pouvoir extraire des chaînes de caractères de documents numériques écrits dans des langues où les mots ne sont généralement pas séparés par des espaces ou par des ponctuations, comme le japonais, le chinois ou le thaï ; the second method is a cutting of digital documents according to a segmentation model based on statistical data, grammatical rules, dictionary or hidden Markov chains. Such a method could for example be that described in patent JP2897942. This approach has the advantage of being able to extract strings of digital documents written in languages where the words are generally not separated by spaces or punctuations, such as Japanese, Chinese or Thai;
- le second procédé consiste en une première étape d'identification de la langue du document numérique puis d'un ensemble de procédés de séparation des mots spécialisés pour chacune des langues traitées. Cette approche permet avantageusement de traiter un flux de documents numériques rédigés dans différentes langues ; the second method consists of a first step of identifying the language of the digital document and then a set of methods for separating the specialized words for each of the languages processed. This approach advantageously makes it possible to process a stream of digital documents written in different languages;
- le troisième procédé fonctionne en éliminant des chaînes de caractères déterminées par le second procédé celles qui figurent dans une liste a priori de mots vides ou mots outils. Cette approche a pour avantage d'éviter de construire les étiquettes à partir des mots vides ou mots outils ; the third method works by eliminating strings of characters determined by the second method those which appear in a list of empty words or tool words. This approach has the advantage of avoiding constructing labels from empty words or tool words;
- le troisième procédé fonctionne en calculant le produit « TF-IDF » pour les occurrences des chaînes de caractères extraites par le second procédé, puis en sélectionnant la ou les chaînes pour lesquelles ce produit est le plus élevé ; the third method works by calculating the product "TF-IDF" for the occurrences of the character strings extracted by the second method, then selecting the channel or chains for which this product is the highest;
- le quatrième procédé fonctionne en cherchant la chaîne de caractères composée d'un ensemble de morphèmes distingués par le second procédé et présente dans les documents numériques qui maximise une fonction définie comme la somme des fréquences de l'ensemble des sous-chaînes de caractères de cette chaîne dans l'ensemble des documents numériques ; the fourth method works by searching the character string composed of a set of morphemes distinguished by the second method and present in the digital documents which maximizes a function defined as the sum of the frequencies of the set of substrings of characters of this chain in all digital documents;
- le procédé dans son ensemble est mis en œuvre dans un dis- positif qui présente à l'opérateur un graphique du débit et met en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et affiche, de manière statique ou interactive, des étiquettes associées à ces pics, augmentations ou variations anormales ou exceptionnelles ;  the process as a whole is implemented in a device which presents the operator with a graph of the flow rate and highlights the main peaks, increases or abnormal or exceptional variations in the flow rate and displays, statically or interactively, labels associated with these abnormal or exceptional peaks, increases or variations;
- le procédé dans son ensemble est mis en œuvre dans un dispositif couplé avec un système de filtrage paramétrable qui présente à l'opérateur un graphique du débit d'un sous- ensemble du flux analysé, met en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et les associe à des étiquettes. Ce dispositif permet avantageusement à l'opérateur d'ajuster le filtrage pour analyser plus particulièrement le débit par rapport à ces pics, pour obtenir plus d'informations sur ces pics ou sur le reste de la courbe, et éventuellement révéler d'autres pics ;  the method as a whole is implemented in a device coupled with a parameterizable filtering system which presents to the operator a graph of the flow rate of a subset of the analyzed flow, highlights the main peaks, increases or variations; abnormal or exceptional flow and associates them with labels. This device advantageously allows the operator to adjust the filtering to analyze more particularly the flow rate with respect to these peaks, to obtain more information on these peaks or the rest of the curve, and possibly reveal other peaks;
- le procédé dans son ensemble est mis en œuvre dans un dispositif couplé à un système d'alerte ou de notification. the process as a whole is implemented in a device coupled to an alert or notification system.
D'autres avantages et particularités de l'invention res- sortent de la description d'un exemple de mise en œuvre préférée qui suit en référence aux dessins annexés dans lesquels : - la figure 1 représente un dispositif mettant en œuvre les différents procédés ; Other advantages and features of the invention will be apparent from the description of a preferred embodiment which follows with reference to the accompanying drawings in which: - Figure 1 shows a device implementing the various methods;
- la figure 2 représente un dispositif qui présente à l'opérateur un graphique du débit en mettant en valeur les prin- cipaux pics, augmentations ou variations anormales ou exceptionnelles du débit et qui est couplé à un système de noti f i cati on ; FIG. 2 represents a device which presents to the operator a graph of the flow rate by highlighting the main peaks, increases or abnormal or exceptional variations in the flow rate and which is coupled to a noti fication system;
- la figure 3 représente un graphique tel que généré par ledit di sposi ti f . La figure 1 représente la composition des différents procédés et le flot (11) des documents numérique à travers un dispositif selon 1 ' i nventi on . - Figure 3 shows a graph as generated by said di sposi ti f. FIG. 1 represents the composition of the various processes and the flow (11) of digital documents through a device according to the invention.
Les documents numériques sont, dans un premier temps, stockés sous forme alphanumérique dans table d'une base de données re- lationnelle (10) . Chaque document numérique est stocké sur une ligne comprenant une colonne avec le texte du document, et une colonne avec la date de publication du document si elle existe, ou la date où le document a été récupéré, dans le cas contraire. Pour des raisons de rapidité, la base de données relationnelle est configurée pour indexer la colonne de la date avec un index ordonné, par exemple sous la forme d'un arbre de type B-Tree.  The digital documents are initially stored in alphanumeric form in a table of a relational database (10). Each digital document is stored on a line comprising a column with the text of the document, and a column with the date of publication of the document if it exists, or the date on which the document was retrieved, otherwise. For reasons of speed, the relational database is configured to index the column of the date with an ordered index, for example in the form of a tree of type B-Tree.
Lorsque l'opérateur (27) interroge le dispositif de veille (26) , le dispositif (12), dans un premier temps, interroge la base de données relationnelle en utilisant l'index pré-cité, pour compter, pour chaque période de temps (heure ou jour) , le nombre de documents stockés dans la base, sur une fenêtre choisie par l'opérateur. Cette information permet de dessiner la courbe de débits des documents sur le terminal (22) et dont un exemple est représenté en figure 3. Cette courbe peut synthétiser une masse très grande de documents. Cette courbe peut être rafraîchie en temps réel lorsque de nouveaux documents sont stockés dans la base de données relationnelle (10) .  When the operator (27) interrogates the idle device (26), the device (12), at first, queries the relational database using the aforementioned index, to count, for each period of time (hour or day), the number of documents stored in the database, on a window chosen by the operator. This information makes it possible to draw the flow rate curve of the documents on the terminal (22) and an example of which is represented in FIG. 3. This curve can synthesize a very large mass of documents. This curve can be refreshed in real time when new documents are stored in the relational database (10).
Le dispositif (12) met en œuvre le procédé (1) pour identifier les périodes des pics, augmentations ou variations anormales ou exceptionnelle. Ces périodes des pics peuvent être mises en valeur par un marqueur (31) au niveau du maximum local sur l'interface du terminal (22) . Parallèlement, le dispositif (13) interroge la base de données relationnelle en utilisant l'index pré-cité pour mettre en œuvre le procédé (2) afin d'associer, à chaque document, une suite de chaînes de caractères représentant un morphème ou un groupe de morphèmes. Les documents, associés à ces suites de chaînes de caractères, et les périodes identifiés sont ensuite utilisés par un dispositif (14) mettant en œuvre le procédé (3) pour déterminer les chaînes de caractères les plus fréquentes dans chaque période identifiée par rapport à l'ensemble des documents. Ce procédé (3) fonctionne en éliminant d'abord des mots qui font partie de listes de mots vides, puis pour chacune des chaînes de caractères, le dispositif calcul le produit dit « TF-IDF » et conserve les n chaînes de caractères pour lesquelles ce produit est le plus élevé, n étant un paramètre du procédé dont la valeur peut par exemple être 5. The device (12) implements the method (1) to identify periods of peaks, increases or abnormal or exceptional variations. These peak periods can be highlighted by a marker (31) at the local maximum on the interface of the terminal (22). At the same time, the device (13) queries the relational database by using the aforementioned index to implement the method (2) in order to associate, with each document, a sequence of character strings representing a morpheme or a group of morphemes. The documents, associated with these string sequences, and the identified periods are then used by a device (14) implementing the method (3) to determine the most frequent character strings in each period identified with respect to the set of documents. This method (3) works by first eliminating words that are part of stop word lists, then for each of the character strings, the device calculates the product called "TF-IDF" and retains the n strings for which this product is the highest, n being a parameter of the process whose value can for example be 5.
Enfin, les documents, associés aux suites de chaînes de caractères représentant un morphème ou groupe de morphèmes, ainsi que les n chaînes de caractères les plus fréquentes pour chaque période identifiée sont utilisés par un dispositif (15) mettant en œuvre le procédé (4) qui construit, pour chacune des périodes, une étiquette associée (30) . Cette étiquette (30) est construite en cherchant la chaîne de caractère qui inclut une ou plusieurs des n chaînes de caractères retenues par le dispositif (14) , qui est incluse dans les documents de la période, qui est composée d'un ensemble de morphèmes distingués par le dispositif (13), et qui maximise la fonction définie comme la somme des fréquences de l'ensemble des sous-chaînes de caractères dans l'ensemble des documents traités par le dispositif (12).  Finally, the documents, associated with string sequences representing a morpheme or group of morphemes, as well as the n most frequent character strings for each identified period, are used by a device (15) implementing the method (4) constructing, for each period, an associated tag (30). This tag (30) is constructed by looking for the character string that includes one or more of the n strings retained by the device (14), which is included in the documents of the period, which is composed of a set of morphemes distinguished by the device (13), and which maximizes the function defined as the sum of the frequencies of all the substrings of characters in all the documents processed by the device (12).
La figure 2 représente l'intégration des différents procédés de l'invention dans un dispositif plus large de veille (26) . Un certain nombre de flux sont publiés sur Internet (25) et sont captés et stockés dans une base de données relationnelle (10) . Ces flux sont filtrés par un dispositif (21) qui détermine les messages sur un sujet donné. Les documents sont ensuite traités par un dispositif (20) mettant en œuvre un procédé selon l'invention. Ce dispositif présente à l'opérateur (27) un graphique comme celui présenté en figure 3 sur le terminal (22). Ce graphique présente un certain nombre d'étiquettes (30) permettant à l'opérateur (27) d'interpréter les pics et les variations anormales ou exceptionnelles du débit du flux. Cet opérateur (27) peut ensuite modifier les paramètres du dispositif de filtrage (21) via une boucle de rétro-action (24) . Le dispositif (20) produit alors une nouvelle courbe (34) représentant le débit du flux défini par les paramètres de filtrage. Cette nouvelle courbe présente de nouveaux pics, augmentations ou variations anormales ou exceptionnelles, que le dispositif (20) repère et pour lequel il produit de nouvelles étiquettes (30) . FIG. 2 shows the integration of the various methods of the invention into a wider standby device (26). A number of streams are published on the Internet (25) and are captured and stored in a relational database (10). These streams are filtered by a device (21) that determines the messages on a given subject. The documents are then processed by a device (20) implementing a method according to the invention. This device presents to the operator (27) a graph like that shown in FIG. 3 on the terminal (22). This graph shows a number of labels (30) allowing the operator (27) to interpret the abnormal or exceptional peaks and variations of the flow rate. This operator (27) can then modify the parameters of the filtering device (21) via a feedback loop (24). The device (20) then produces a new curve (34) representing the flow rate of the stream defined by the filter parameters. This new curve has new peaks, increases or abnormal or exceptional variations that the device (20) identifies and for which it produces new labels (30).
Le dispositif (20) est également couplé à un système de notification qui permet à l'opérateur (28) de recevoir une alerte sur le terminal (23) lorsque le débit du flux présente un pic, une augmentation ou une variation anormale. Cette alerte est associée à une étiquette (30) qui permet à l'opérateur (28) de déterminer la cause du pic et de décider s'il est nécessaire d'analyser cette variation via le terminal (22) ou en effectuant des recherches dans les documents numériques qui constituent le flux et qui sont stockés dans la base de données (10) .  The device (20) is also coupled to a notification system that allows the operator (28) to receive an alert on the terminal (23) when the flow rate of the flow has a peak, an increase or an abnormal variation. This alert is associated with a tag (30) that allows the operator (28) to determine the cause of the peak and to decide whether it is necessary to analyze this variation via the terminal (22) or by searching in the digital documents which constitute the stream and which are stored in the database (10).
La figure 3 représente un graphique tel que généré par un dispositif selon l'invention. Le signal est représenté sous la forme d'un graphique avec en abscisse (32) , le temps, et en ordonnée, le débit par unité de temps (33) . Ce signal forme une courbe (34) avec des pics identifiés par le procédé (1) et mis en valeur par un marqueur au niveau du maximum local (31) . Ces marqueurs sont associés aux étiquettes (30) .  FIG. 3 represents a graph as generated by a device according to the invention. The signal is represented in the form of a graph with abscissa (32), time, and ordinate, the flow per unit time (33). This signal forms a curve (34) with peaks identified by the method (1) and highlighted by a marker at the local maximum (31). These markers are associated with the labels (30).
Dans un autre exemple de mise en œuvre de l'invention, les morphèmes ou groupes de morphèmes sont extraits dans un premier temps des documents numériques, lesquels sont stockés dans une base de donnée relationnelle avec la liste de morphèmes associée, avant que le procédé (1) repère les pics, les augmentations ou les variations anormales ou exceptionnelles.  In another example of implementation of the invention, the morphemes or groups of morphemes are first extracted from the digital documents, which are stored in a relational database with the associated list of morphemes, before the process ( 1) identifies abnormal or exceptional peaks, increases or variations.
Dans un autre exemple de mise en œuvre de l'invention, le dispositif (13) , lorsque le volume de documents est trop important pour obtenir une réponse dans un délai raisonnable pour l'opérateur, interroge la base de données relationnelle (10) en ne récupérant qu'un échantillon pseudo-aléatoire uniforme des documents numériques. Dans un autre exemple, cet échantillon aléatoire est biaisé pour privilégier les périodes de pics et de creux révélées par le dispositif (12) . Il est apparu que 1 ' échanti llonage est justifié lorsque le nombre de documents numériques enregistrés dans la base relationnelle (10) et correspondant à la sélection de l'opérateur excède 10 000. Dans ce cas, l'échantillon est de 10 000, indépendamment du volume effectif de documents enregistrés dans la base. In another exemplary implementation of the invention, the device (13), when the volume of documents is too important to obtain a response within a reasonable time for the operator, queries the relational database (10) for recovering only a uniform pseudo-random sample of digital documents. In another example, this random sample is skewed to favor periods of peaks and of recesses revealed by the device (12). It was found that sampling is justified when the number of digital documents recorded in the relational database (10) and corresponding to the selection of the operator exceeds 10,000. In this case, the sample is 10,000, independently the actual volume of documents saved in the database.
Dans un autre exemple de mise en œuvre de l'invention, la base de données relationnelle (10) est remplacée par une mémoire tampon pouvant contenir un certain nombre de documents numériques et couvrant une période suffisante par rapport aux interrogations de l'opérateur.  In another exemplary implementation of the invention, the relational database (10) is replaced by a buffer memory which may contain a certain number of digital documents and covering a sufficient period with respect to the interrogations of the operator.
Dans un autre exemple de mise en œuvre de l'invention, les documents numériques sont des documents multimédia, et le procédé (2) d'analyse morphologique est composé d'un procédé d'extrac- tion de texte par reconnaissance de la parole ou par reconnaissance optique.  In another exemplary embodiment of the invention, the digital documents are multimedia documents, and the method (2) of morphological analysis is composed of a text extraction method by speech recognition or by optical recognition.
Dans un autre exemple de mise en œuvre de l'invention, le procédé (2) d'analyse morphologique est couplé à un procédé de traduction automatique.  In another exemplary embodiment of the invention, the morphological analysis method (2) is coupled to an automatic translation method.
Le procédé et le dispositif selon l'invention sont particulièrement destinés à la veille communautaire sur les réseaux soci aux .  The method and the device according to the invention are particularly intended for community monitoring on social networks.

Claims

REVENDICATIONS
Procédé pour repérer et étiqueter les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit d'un flux de documents numériques, stockés dans un premier temps dans une base de données (10) , caractérisé en ce qu'il est composé : Method for identifying and labeling the main peaks, increases or abnormal or exceptional variations in the flow of a flow of digital documents, stored initially in a database (10), characterized in that it is composed of:
d'un procédé (1) permettant de repérer les périodes où le débit de ce flux de documents numériques varie de manière anormale ou exceptionnelle, ou forme un pic ou augmente de manière significative ; a method (1) making it possible to identify periods where the flow rate of this flow of digital documents varies in an abnormal or exceptional manner, or forms a peak or increases significantly;
d'un procédé (2) d'analyse morphologique permettant d'extraire des chaînes de caractères d'un document numérique et de distinguer, parmi ces chaînes de caractères, celles qui correspondent aux morphèmes ou aux groupes de morphèmes et celles qui correspondent aux séparateurs entre les morphèmes ou groupes de morphèmes ; of a method (2) of morphological analysis making it possible to extract character strings from a digital document and to distinguish, among these character strings, those which correspond to morphemes or groups of morphemes and those which correspond to separators between morphemes or groups of morphemes;
d'un procédé (3) permettant de déterminer, pour chacune des périodes repérées par le procédé (1) , parmi les chaînes de caractères extraites par le procédé (2) des documents numériques de la période, celles dont les fréquences sont les plus élevées pour les documents numériques de la période par rapport aux documents numériques en dehors de la période ; of a method (3) making it possible to determine, for each of the periods identified by the method (1), among the character strings extracted by the method (2) from the digital documents of the period, those whose frequencies are the highest for digital documents from the period compared to digital documents outside the period;
d'un procédé (4) permettant de construire, pour chaque période repérée par le procédé (1) , une étiquette à partir de la totalité ou d'un échantillon des documents numériques de la période, découpés selon le procédé of a method (4) making it possible to construct, for each period identified by the method (1), a label from all or a sample of the digital documents of the period, cut according to the method
(2) , et d'un sous-ensemble ou de la totalité des chaînes de caractères déterminées par le procédé (2), and a subset or all of the character strings determined by the method
(3) . (3).
Procédé selon la revendication 1 caractérisé en ce que le procédé permettant de distinguer les périodes où le débit varie de manière anormale ou exceptionnelle fonctionne selon un filtre passe haut à base d'ondelettes discrètes. Method according to claim 1 characterized in that the method making it possible to distinguish periods where the flow varies abnormally or exceptionally operates according to a high pass filter based on discrete wavelets.
Procédé selon la revendication 1 caractérisé en ce que le procédé permettant de distinguer les périodes où le débit varie de manière anormale ou exceptionnelle fonctionne par le calcul du résiduel avec un modèle périodique ou quasi- périodique du débit dont les paramètres sont calculés par la méthode des moindres carrés. Method according to claim 1 characterized in that the method making it possible to distinguish periods where the flow varies abnormally or exceptionally operates by the calculation of the residual with a periodic or quasi-periodic flow model whose parameters are calculated by the least squares method.
4. Procédé selon l'une quelconque des revendications précé- dentés caractérisé en ce que le procédé d'analyse morphologique consiste en un premier procédé d'identification de la langue du document numérique puis d'un ensemble de procédés de séparation des mots spécialisés pour chacune des langues trai tées . 4. Method according to any one of the preceding claims, characterized in that the morphological analysis method consists of a first method of identifying the language of the digital document then a set of methods of separating specialized words for each of the languages processed.
5. Procédé selon l'une quelconque des revendications précédentes caractérisé en ce que le procédé permettant de déterminer les chaînes de caractères dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période repérée par le procédé (1) fonctionne en commençant par éliminer des chaînes de caractères celles qui sont présentes dans une liste, dite liste de mots vides ou de mots outi 1s . 5. Method according to any one of the preceding claims characterized in that the method making it possible to determine the character strings whose frequencies are the highest for digital documents during each period identified by the method (1) operates by starting by eliminating character strings those which are present in a list, called a list of stop words or outi 1s words.
6. Procédé selon l'une quelconque des revendications précédentes caractérisé en ce que le procédé permettant de dé- terminer les chaînes de caractères extraites par le procédé6. Method according to any one of the preceding claims characterized in that the method making it possible to determine the character strings extracted by the method
(2) dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période repérée par le procédé (1) fonctionne en calculant le produit « TF-IDF » à partir des occurrences des chaînes de caractères extraites par le procédé (2) pour les documents numériques de la période par rapport aux documents numériques en dehors de cette période, puis en sélectionnant la ou les chaînes pour lesquelles ce produit est le plus élevé. (2) whose frequencies are the highest for digital documents during each period identified by the method (1) works by calculating the product “TF-IDF” from the occurrences of the character strings extracted by the method (2) for digital materials in the period versus digital materials outside that period, then selecting the channel(s) for which that revenue is highest.
7. Procédé selon l'une quelconque des revendications précé- dentés caractérisé en ce que le procédé permettant de construire une étiquette à partir de documents numériques et d'un sous-ensemble des chaînes de caractères issues de ces documents, fonctionne en cherchant la chaîne de caractère, présente dans les documents numériques et composée d'un ensemble de morphèmes distingués par le procédé (2) , qui maximise la fonction définie comme la somme des fré- quences de l'ensemble des sous-chaînes de caractères dans l'ensemble des documents numériques. 7. Method according to any one of the preceding claims, characterized in that the method making it possible to construct a label from digital documents and a subset of the character strings resulting from these documents, operates by searching for the string of character, present in digital documents and composed of a set of morphemes distinguished by the method (2), which maximizes the function defined as the sum of the fre- quences of all character substrings in all digital documents.
8. Dispositif mettant en œuvre un procédé selon l'une quelconque des revendications précédentes caractérisé en ce qu'il pré- sente à l'opérateur un graphique du débit et met en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et affiche, de manière statique ou interactive, des étiquettes associées à ces pics, augmentations ou variations anormales ou exceptionnelles. 8. Device implementing a method according to any one of the preceding claims, characterized in that it presents to the operator a graph of the flow rate and highlights the main peaks, increases or abnormal or exceptional variations in the flow rate and displays, statically or interactively, labels associated with these abnormal or exceptional peaks, increases or variations.
9. Dispositif mettant en œuvre le procédé selon l'une quelconque des revendications 1 à 7 caractérisé en ce qu'il est couplé à un système de filtrage paramétrable qui présente à l'opérateur un graphique du débit du sous-ensemble du flux résultant du filtrage, mettant en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et les associant à des étiquettes, et permettant à l'opérateur d'ajuster le filtrage pour analyser plus particulièrement le débit par rapport à ces pics, afin d'obtenir plus d'informations sur ces pics ou sur le reste de la courbe, et éventuellement révéler d'autres pics. 9. Device implementing the method according to any one of claims 1 to 7 characterized in that it is coupled to a configurable filtering system which presents to the operator a graph of the flow rate of the subset of the flow resulting from the filtering, highlighting the main peaks, increases or abnormal or exceptional variations in flow and associating them with labels, and allowing the operator to adjust the filtering to more particularly analyze the flow in relation to these peaks, in order to get more information about these peaks or the rest of the curve, and possibly reveal other peaks.
10. Dispositif mettant en œuvre un procédé selon l'une quelconque des revendications 1 à 7 caractérisé en ce qu'il est couplé à un système d'alerte ou de notification. 10. Device implementing a method according to any one of claims 1 to 7 characterized in that it is coupled to an alert or notification system.
EP12710075.8A 2011-03-18 2012-03-16 Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents Ceased EP2686782A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1100817A FR2972822A1 (en) 2011-03-18 2011-03-18 METHOD AND APPARATUS FOR REPORTING AND LABELING ABNORMAL OR EXECUTIVE PICS, INCREASES OR VARIATIONS IN THE FLOW OF A DIGITAL DOCUMENT STREAM
PCT/EP2012/054666 WO2012146440A1 (en) 2011-03-18 2012-03-16 Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents

Publications (1)

Publication Number Publication Date
EP2686782A1 true EP2686782A1 (en) 2014-01-22

Family

ID=45875953

Family Applications (1)

Application Number Title Priority Date Filing Date
EP12710075.8A Ceased EP2686782A1 (en) 2011-03-18 2012-03-16 Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents

Country Status (4)

Country Link
US (1) US20150205862A1 (en)
EP (1) EP2686782A1 (en)
FR (1) FR2972822A1 (en)
WO (1) WO2012146440A1 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9703827B2 (en) * 2014-07-17 2017-07-11 Illumina Consulting Group, Inc. Methods and apparatus for performing real-time analytics based on multiple types of streamed data
CN109840471B (en) * 2018-12-14 2023-04-14 天津大学 Feasible road segmentation method based on improved Unet network model
CN110348471B (en) * 2019-05-23 2023-09-01 平安科技(深圳)有限公司 Abnormal object identification method, device, medium and electronic equipment
US11086948B2 (en) 2019-08-22 2021-08-10 Yandex Europe Ag Method and system for determining abnormal crowd-sourced label
US11710137B2 (en) 2019-08-23 2023-07-25 Yandex Europe Ag Method and system for identifying electronic devices of genuine customers of organizations
RU2757007C2 (en) 2019-09-05 2021-10-08 Общество С Ограниченной Ответственностью «Яндекс» Method and system for detecting malicious actions of certain type
US11108802B2 (en) 2019-09-05 2021-08-31 Yandex Europe Ag Method of and system for identifying abnormal site visits
US11334559B2 (en) 2019-09-09 2022-05-17 Yandex Europe Ag Method of and system for identifying abnormal rating activity
US11128645B2 (en) 2019-09-09 2021-09-21 Yandex Europe Ag Method and system for detecting fraudulent access to web resource
RU2752241C2 (en) 2019-12-25 2021-07-23 Общество С Ограниченной Ответственностью «Яндекс» Method and system for identifying malicious activity of predetermined type in local network

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2897942B2 (en) 1992-07-20 1999-05-31 株式会社シーエスケイ Japanese morphological analysis system and morphological analysis method
US7245769B2 (en) * 2002-02-12 2007-07-17 Visioprime Archival of transformed and compressed data
JP4342575B2 (en) * 2007-06-25 2009-10-14 株式会社東芝 Device, method, and program for keyword presentation
JP5078674B2 (en) * 2008-02-29 2012-11-21 インターナショナル・ビジネス・マシーンズ・コーポレーション Analysis system, information processing apparatus, activity analysis method, and program
US8226568B2 (en) * 2008-07-15 2012-07-24 Nellcor Puritan Bennett Llc Signal processing systems and methods using basis functions and wavelet transforms

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2012146440A1 *

Also Published As

Publication number Publication date
US20150205862A1 (en) 2015-07-23
FR2972822A1 (en) 2012-09-21
WO2012146440A1 (en) 2012-11-01

Similar Documents

Publication Publication Date Title
EP2686782A1 (en) Method and device for recognizing and tagging of peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
US7577963B2 (en) Event data translation system
CN107437038B (en) Webpage tampering detection method and device
CN108776671A (en) A kind of network public sentiment monitoring system and method
CN107944032B (en) Method and apparatus for generating information
CN106844638B (en) Information retrieval method and device and electronic equipment
CN111581956B (en) Sensitive information identification method and system based on BERT model and K nearest neighbor
CN114915468B (en) Intelligent analysis and detection method for network crime based on knowledge graph
KR20130037975A (en) Method and apparatus for providing web trend analysis based on issue template extraction
EP2013776A1 (en) Method for fast de-duplicating of a set of documents or a set of data contained in a file
EP2105852A1 (en) Method and system for allocating a score
CN117173608A (en) Video content auditing method and system
Zendah et al. Detecting Significant Events in Arabic Microblogs using Soft Frequent Pattern Mining.
Hubmann-Haidvogel et al. Visualizing contextual and dynamic features of micropost streams
US20190370531A1 (en) Data processing apparatus, data processing method, and non-transitory storage medium
CN116723005A (en) Method and system for tracking malicious code implicit information under polymorphic hiding
Sumathi et al. Fake review detection of e-commerce electronic products using machine learning techniques
Khan et al. Object analysis in image mining
Hurst Temporal Text Mining.
WO2013117872A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
Ngila et al. An Ngram-Based Approach to Determine Trends and Patterns in the Social Networks
dos Santos et al. A correlation-based approach for event detection in Instagram
Singh et al. Research Aids for Social Media Analytics
CN116578763B (en) Multisource information exhibition system based on generated AI cognitive model

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20131017

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20170608

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: SEMIOCAST

RIN1 Information on inventor provided before grant (corrected)

Inventor name: GUYOT, PAUL

Inventor name: JULIEN, DAVID

Inventor name: CAMPAGNE, JEAN-CHARLES

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190530