Le domaine de l'invention est les télécommunications et, en particulier, l'analyse des flux de documents numériques. L'invention s'applique également à l'analyse de grandes masses de documents numériques. Ces documents numériques peuvent être des courriers électroniques, des messages courts GSM, des messages, articles ou commentaires postés sur des sites Internet, blogs, forums ou réseaux sociaux, des messages instantanés et tout autre type de message ou document numérique posté ou publié, sous forme de texte ou qui comporte un texte ou qui peut être analysé par un dispositif générant un texte tel un dispositif de reconnaissance vocale. Ces documents numériques peuvent être adressés spécifiquement ou implicitement à des destinataires ou être rendus publics pour une communauté ou pour tout le monde. Ces documents numériques sont associés à une ou plusieurs dates de publication, d'envoi ou de modification. La présente invention concerne un procédé et un dispositif permettant de repérer et d'étiqueter des pics, des augmentations ou des variations anormales ou exceptionnelles du débit d'un flux de documents numériques issus d'un ou plusieurs réseaux sociaux ou d'une collection de blogs ou de sites internet, afin d'alerter un opérateur ou de produire une vue synthétique et explicative de l'évolution du débit. Le problème général est de produire une vue synthétique et explicative de l'évolution du débit d'un flux de documents numé- riques, ou d'alerter un opérateur en indiquant le ou les sujets principaux des anomalies ou des variations anormales ou exceptionnelles dudit débit. Il existe un certain nombre de dispositifs qui produisent ou permettent de produire des graphiques présentant en abscisse le temps et en ordonnée le débit (nombre de documents par unité de temps). Ces dispositifs permettent d'explorer les documents qui ont été publiés à un instant donné ou pendant une période donnée. Ces dispositifs permettent parfois de mettre en valeur des pics, des augmentations ou des variations anormales ou exceptionnelles du débit ou d'alerter un opérateur lors de telles variations. De tels dispositifs mettent en oeuvre différents procédés pour dater et mesurer les variations anormales ou exceptionnelles du débit d'un flux de documents. Un de ces procédés consiste à comparer le débit à un instant donné avec le débit moyen sur une période plus grande. Des procédés plus avancés s'appuient sur des transformées, par exemple sur les transformées à base d'ondelettes discrètes, telles que décrites par A. Haar dans l'article « Zur Theorie der orthogonalen Funktionensysteme » paru dans Mathemati sche Annalen 69 en 1910, no. 3, pages 331-371; il existe une littérature abondante sur la détection de pics à partir de telles transformées, comme la demande de brevet internationale WO 2010/007486, ou d'anomalies, comme la communication de C. T.
Huang et al. intitulée « Wavelet-based Real Time Detection of Network Traffic Anomalies » dans Securecomm and Workshops publié en 2006 par IEEE. Ces procédés traditionnels de détection de variations anormales ou exceptionnelles du débit d'un flux de documents ne permettent pas d'obtenir des informations qualitatives permet-tant d'expliquer ces variations. Pour qualifier ces variations, et en particulier pour les associer à un événement extérieur comme une opération de communication ou une crise, l'opérateur doit traditionnellement explorer les documents qui composent les pics observés. Cette tâche peut être particulièrement fastidieuse. En particulier, lorsque le débit habituel des documents est important, par exemple plusieurs milliers de documents par heure, une part et un nombre non négligeables des documents ne portent pas sur le sujet du pic et ne peuvent expliquer les va- riations. L'opérateur peut être facilement débordé par la masse des documents. I1 existe par ailleurs des dispositifs visant à déterminer les sujets qui sont les plus présents dans un flux de documents, ou les sujets dont la présence augmente de manière significative.
Par exemple, des sites comme SEARCH.TWITTER.COM, TWIRUS.COM ou BING.COM affichent des listes de sujets « tendances du moment » sur les réseaux sociaux. Ces listes seraient construites à par- tir de la dérivée de la fréquence de morphèmes ou de groupes de morphèmes dans les documents analysés, tel que décrit dans l'article de blog de C. Penner, intitulé « To Trend or Not to Trend... » et publié en 2010 sur BLOG.TWITTER.COM. D'autres techniques pour construire de telles listes s'appuient sur une mesure de l'entropie ou sur le produit dit « TF-IDF » et sont décrites dans le rapport de J. Benhardus, intitulé « Streaming Trend Detection in Twitter » et publié lors du UCCS REU for Artificial Intelligence, National Language Processing and Information Retrieval de 2010. Le produit « TF-IDF » et des méthodes de pondération des termes sont décrits notamment dans « Term-weighting approaches in automatic text retrieval » de Salton, G. et al. publié en 1988 dans Information Processing and Management, Vol. 24, N. 5, pages 513 à 523. Cependant si ces techniques permettent de mettre en évidence des mots ou des groupes de mots dans un flux aussi large que le flux des mes-sages publics Twitter à un instant donné, elles ne permettent pas de produire une vue synthétique et explicative des pics ou des variations significatives du débit du flux des documents portant sur un sujet donné.
Le procédé selon l'invention permet de remédier aux inconvénients des procédés traditionnels. I1 comporte en effet, selon une première caractéristique : - un premier procédé permettant de repérer les périodes où le débit du flux de documents numériques varie de manière anormale ou exceptionnelle, ou forme un pic ou augmente de manière significative; - un second procédé d'analyse morphologique permettant d'ex-traire des chaînes de caractères d'un document numérique et de distinguer, parmi ces chaînes de caractères, celles qui correspondent aux morphèmes ou aux groupes de morphèmes de celles qui correspondent aux séparateurs entre les morphèmes ou groupes de morphèmes; - un troisième procédé permettant de déterminer, pour chacune de ces périodes, des chaînes de caractères extraites par le procédé précédent dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période distinguée par le premier procédé par rapport aux documents numériques en dehors de ces périodes; - un quatrième procédé permettant de construire, pour toutes ou pour un sous-ensemble des périodes distinguées par le premier procédé, une étiquette à partir de la totalité ou d'un échantillon des documents numériques pour cette période donnée et d'un sous-ensemble ou de la totalité des chaînes de caractères distinguées par le procédé précédent. Selon des modes particuliers de réalisation : - le premier procédé fonctionne selon un filtre passe haut à base d'ondelettes. Les documents sont comptés par unité de temps (heure, jour), et la séquence ainsi déterminée forme un signal sur lequel on effectue un filtrage en éliminant les coefficients de la décomposition en ondelettes discrètes qui sont en dessous d'un certain seuil en valeur absolue. Les périodes distinguées sont définies comme périodes pendant lesquelles le signal recomposé après filtrage a une valeur strictement positive. Par rapport à l'approche naïve et évidente pour l'homme du métier qui consisterait à comparer le nombre de documents par unité de temps par rapport à la moyenne, cette approche a le double avantage de repérer les pics ou les augmentations exceptionnelles même lorsque le débit moyen est élevé mais le débit récent plus faible que la moyenne, et de borner les périodes de pics de manière plus précise qu'un simple dépassement de la moyenne; - le premier procédé fonctionne en comparant le signal avec un modèle périodique ou quasi-périodique. Un tel modèle est établi a priori, par exemple comme la combinaison linéaire de plusieurs fonctions périodiques de période de 24 heures ou de 7 jours. Les coefficients du modèle sont obtenus par la méthode des moindres carrés à partir des données historiques. Les périodes distinguées sont définies comme les périodes pendant lesquelles la différence entre le signal et le modèle est supérieure à un certain seuil. Cette approche a les mêmes avantages que l'approche précédente par rapport à l'approche naïve. Elle permet de surcroît de détecter de manière plus fine des pics moins importants, en particulier lorsque le signal est fortement périodique, comme on peut l'observer sur les réseaux sociaux où l'activité dépend beaucoup du rythme diurne et hebdomadaire. En revanche, par rapport à l'approche précédente, cette approche a l'inconvénient d'être plus lourde en calcul et de nécessiter de mettre au point un modèle pour le flux analysé. Cette approche ne permet pas non plus de détecter des pics qui seraient récurrents et périodiques sur les données historiques; - le second procédé est un découpage des documents numériques selon les espaces et la ponctuation. Cette approche a l'a- vantage d'être très simple et facile à mettre en oeuvre. Le découpage ainsi réalisé ne correspond pas à une analyse morphologique très précise mais suffit, dans le cadre de l'invention, pour obtenir des étiquettes pour chacun des pics, des augmentations ou des variations anormales ou ex- ceptionnelles du débit; - le second procédé est un découpage des documents numériques selon un modèle de segmentation à base de données statistiques, de règles grammaticales, de dictionnaire ou de chaînes de Markov cachées. Un tel procédé pourrait par exemple être celui décrit dans le brevet JP2897942. Cette approche a l'avantage de pouvoir extraire des chaînes de caractères de documents numériques écrits dans des langues où les mots ne sont généralement pas séparés par des espaces ou par des ponctuations, comme le japonais, le chinois ou le thaï; - le second procédé consiste en une première étape d'identification de la langue du document numérique puis d'un ensemble de procédés de séparation des mots spécialisés pour chacune des langues traitées. Cette approche permet avantageusement de traiter un flux de documents numériques rédigés dans différentes langues; - le troisième procédé fonctionne en éliminant des chaînes de caractères déterminées par le second procédé celles qui figurent dans une liste a priori de mots vides ou mots outils.
Cette approche a pour avantage d'éviter de construire les étiquettes à partir des mots vides ou mots outils; - le troisième procédé fonctionne en calculant le produit « TF-IDF » pour les occurrences des chaînes de caractères extraites par le second procédé, puis en sélectionnant la ou les chaînes pour lesquelles ce produit est le plus élevé; - le quatrième procédé fonctionne en cherchant la chaîne de caractères composée d'un ensemble de morphèmes distingués par le second procédé et présente dans les documents numériques qui maximise une fonction définie comme la somme des fréquences de l'ensemble des sous-chaînes de caractères de cette chaîne dans l'ensemble des documents numériques; - le procédé dans son ensemble est mis en oeuvre dans un dis-positif qui présente à l'opérateur un graphique du débit et met en valeur les principaux pics, augmentations ou va- riations anormales ou exceptionnelles du débit et affiche, de manière statique ou interactive, des étiquettes associées à ces pics, augmentations ou variations anormales ou exceptionnelles; - le procédé dans son ensemble est mis en oeuvre dans un dis- positif couplé avec un système de filtrage paramétrable qui présente à l'opérateur un graphique du débit d'un sous-ensemble du flux analysé, met en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et les associe à des étiquettes. Ce dispositif permet avantageusement à l'opérateur d'ajuster le filtrage pour analyser plus particulièrement le débit par rapport à ces pics, pour obtenir plus d'informations sur ces pics ou sur le reste de la courbe, et éventuellement révéler d'autres pics; - le procédé dans son ensemble est mis en oeuvre dans un dis- positif couplé à un système d'alerte ou de notification. D'autres avantages et particularités de l'invention ressortent de la description d'un exemple de mise en oeuvre préférée qui suit en référence aux dessins annexés dans lesquels : - la figure 1 représente un dispositif mettant en oeuvre les différents procédés; - la figure 2 représente un dispositif qui présente à l'opérateur un graphique du débit en mettant en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et qui est couplé à un système de notification; - la figure 3 représente un graphique tel que généré par ledit dispositif. La figure 1 représente la composition des différents procédés et le flot (11) des documents numérique à travers un dispositif 5 selon l'invention. Les documents numériques sont dans un premier temps stockés dans une base de données (10), du type relationnelle. Une date est associée à chaque document, par exemple sa date de publication. Ensuite, les documents sont traités par un dispositif (12) qui 10 met en oeuvre le procédé (1) pour identifier les périodes des pics, augmentations ou variations anormales ou exceptionnelle. Ces périodes des pics peuvent être mises en valeur par un marqueur (31) au niveau du maximum local. Parallèlement, les documents sont traités par un dispositif 15 (13) qui met en oeuvre le procédé (2) pour associer, à chaque document, une suite de chaînes de caractères représentant un morphème ou un groupe de morphèmes. Les documents, associés à ces suites de chaînes de caractères, et les périodes identifiés sont ensuite utilisés par un dispositif (14) mettant en oeuvre 20 le procédé (3) pour déterminer les chaînes de caractères les plus fréquentes dans chaque période identifiée par rapport à l'ensemble des documents. Ce procédé (3) fonctionne en éliminant d'abord des mots qui font partie de listes de mots vides, puis pour chacune des chaînes de caractères, le dispositif calcul le 25 produit dit « TF-IDF » et conserve les n chaînes de caractères pour lesquelles ce produit est le plus élevé, n étant un paramètre du procédé dont la valeur peut par exemple être 5. Enfin, les documents, associés aux suites de chaînes de ca- ractères représentant un morphème ou groupe de morphèmes, ainsi 30 que les n chaînes de caractères les plus fréquentes pour chaque période identifiée sont utilisés par un dispositif (15) mettant en oeuvre le procédé (4) qui construit, pour chacune des périodes, une étiquette associée (30). Cette étiquette (30) est construite en cherchant la chaîne de caractère qui inclut une ou plusieurs 35 des n chaînes de caractères retenues par le dispositif (14), qui est incluse dans les documents de la période, qui est composée d'un ensemble de morphèmes distingués par le dispositif (13), et qui maximise la fonction définie comme la somme des fréquences de l'ensemble des sous-chaînes de caractères dans l'ensemble des documents traités par le dispositif (12). La figure 2 représente l'intégration des différents procédés de l'invention dans un dispositif plus large de veille (26). Un certain nombre de flux sont publiés sur Internet (25) et sont captés et stockés dans une base de données relationnelle (10). Ces flux sont filtrés par un dispositif (21) qui détermine les messages sur un sujet donné. Les documents sont ensuite traités par un dispositif (20) mettant en oeuvre un procédé selon l'in- vention. Ce dispositif présente à l'opérateur (27) un graphique comme celui présenté en figure 3 sur le terminal (22). Ce graphique présente un certain nombre d'étiquettes (30) permettant à l'opérateur (27) d'interpréter les pics et les variations anormales ou exceptionnelles du débit du flux. Cet opérateur (27) peut ensuite modifier les paramètres du dispositif de filtrage (21) via une boucle de rétro-action (24). Le dispositif (20) produit alors une nouvelle courbe (34) représentant le débit du flux défini par les paramètres de filtrage. Cette nouvelle courbe présente de nouveaux pics, augmentations ou variations anormales ou exceptionnelles, que le dispositif (20) repère et pour lequel il produit de nouvelles étiquettes (30). Le dispositif (20) est également couplé à un système de notification qui permet à l'opérateur (28) de recevoir une alerte sur le terminal (23) lorsque le débit du flux présente un pic, une augmentation ou une variation anormale. Cette alerte est associée à une étiquette (30) qui permet à l'opérateur (28) de déterminer la cause du pic et de décider s'il est nécessaire d'analyser cette variation via le terminal (22) ou en effectuant des recherches dans les documents numériques qui constituent le flux et qui sont stockés dans la base de données (10). La figure 3 représente un graphique tel que généré par un dispositif selon l'invention. Le signal est représenté sous la forme d'un graphique avec en abscisse (32), le temps, et en ordonnée, le débit par unité de temps (33). Ce signal forme une courbe (34) avec des pics identifiés par le procédé (1) et mis en valeur par un marqueur au niveau du maximum local (31). Ces marqueurs sont associés aux étiquettes (30). Dans un autre exemple de mise en oeuvre de l'invention, les morphèmes ou groupes de morphèmes sont extraits dans un premier temps des documents numériques, lesquels sont stockés dans une base de donnée relationnelle avec la liste de morphèmes associée, avant que le procédé (1) repère les pics, les augmentations ou les variations anormales ou exceptionnelles. Dans un autre exemple de mise en oeuvre de l'invention, la base de données relationnelle est remplacée par une mémoire tampon pouvant contenir un certain nombre de documents numériques. Dans un autre exemple de mise en oeuvre de l'invention, les do- cuments numériques sont des documents multimédia, et le procédé (2) d'analyse morphologique est composé d'un procédé d'extraction de texte par reconnaissance de la parole ou par reconnaissance optique. Dans un autre exemple de mise en oeuvre de l'invention, le 15 procédé (2) d'analyse morphologique est couplé à un procédé de traduction automatique. Le procédé et le dispositif selon l'invention sont particulièrement destinés à la veille communautaire sur les réseaux sociaux.