FR2972822A1 - Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques - Google Patents

Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques Download PDF

Info

Publication number
FR2972822A1
FR2972822A1 FR1100817A FR1100817A FR2972822A1 FR 2972822 A1 FR2972822 A1 FR 2972822A1 FR 1100817 A FR1100817 A FR 1100817A FR 1100817 A FR1100817 A FR 1100817A FR 2972822 A1 FR2972822 A1 FR 2972822A1
Authority
FR
France
Prior art keywords
digital documents
flow
strings
period
peaks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1100817A
Other languages
English (en)
Inventor
Jean Charles Campagne
Paul Guyot
David Julien
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiocast
Original Assignee
Semiocast
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiocast filed Critical Semiocast
Priority to FR1100817A priority Critical patent/FR2972822A1/fr
Priority to PCT/EP2012/054666 priority patent/WO2012146440A1/fr
Priority to US14/005,803 priority patent/US20150205862A1/en
Priority to EP12710075.8A priority patent/EP2686782A1/fr
Publication of FR2972822A1 publication Critical patent/FR2972822A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé et un dispositif qui permettent de produire une vue explicative de l'évolution du débit d'un flux de documents, ou d'alerter un opérateur en indiquant les sujets principaux des variations anormales dudit débit. Le dispositif met en œuvre un procédé (1) repérant les périodes où le débit d'un flux de documents varie anormalement, un procédé (2) d'analyse morphologique de textes, un procédé (3) déterminant, pour une période donnée, les chaînes de caractères dont les fréquences sont les plus élevées pour les documents de la période, et un procédé (4) construisant une étiquette à partir des chaînes distinguées par le procédé (3). Le dispositif peut être couplé à un système d'alerte (23) ou de visualisation (22). Le procédé et le dispositif selon l'invention sont particulièrement destinés à la veille sur les réseaux sociaux.

Description

Le domaine de l'invention est les télécommunications et, en particulier, l'analyse des flux de documents numériques. L'invention s'applique également à l'analyse de grandes masses de documents numériques. Ces documents numériques peuvent être des courriers électroniques, des messages courts GSM, des messages, articles ou commentaires postés sur des sites Internet, blogs, forums ou réseaux sociaux, des messages instantanés et tout autre type de message ou document numérique posté ou publié, sous forme de texte ou qui comporte un texte ou qui peut être analysé par un dispositif générant un texte tel un dispositif de reconnaissance vocale. Ces documents numériques peuvent être adressés spécifiquement ou implicitement à des destinataires ou être rendus publics pour une communauté ou pour tout le monde. Ces documents numériques sont associés à une ou plusieurs dates de publication, d'envoi ou de modification. La présente invention concerne un procédé et un dispositif permettant de repérer et d'étiqueter des pics, des augmentations ou des variations anormales ou exceptionnelles du débit d'un flux de documents numériques issus d'un ou plusieurs réseaux sociaux ou d'une collection de blogs ou de sites internet, afin d'alerter un opérateur ou de produire une vue synthétique et explicative de l'évolution du débit. Le problème général est de produire une vue synthétique et explicative de l'évolution du débit d'un flux de documents numé- riques, ou d'alerter un opérateur en indiquant le ou les sujets principaux des anomalies ou des variations anormales ou exceptionnelles dudit débit. Il existe un certain nombre de dispositifs qui produisent ou permettent de produire des graphiques présentant en abscisse le temps et en ordonnée le débit (nombre de documents par unité de temps). Ces dispositifs permettent d'explorer les documents qui ont été publiés à un instant donné ou pendant une période donnée. Ces dispositifs permettent parfois de mettre en valeur des pics, des augmentations ou des variations anormales ou exceptionnelles du débit ou d'alerter un opérateur lors de telles variations. De tels dispositifs mettent en oeuvre différents procédés pour dater et mesurer les variations anormales ou exceptionnelles du débit d'un flux de documents. Un de ces procédés consiste à comparer le débit à un instant donné avec le débit moyen sur une période plus grande. Des procédés plus avancés s'appuient sur des transformées, par exemple sur les transformées à base d'ondelettes discrètes, telles que décrites par A. Haar dans l'article « Zur Theorie der orthogonalen Funktionensysteme » paru dans Mathemati sche Annalen 69 en 1910, no. 3, pages 331-371; il existe une littérature abondante sur la détection de pics à partir de telles transformées, comme la demande de brevet internationale WO 2010/007486, ou d'anomalies, comme la communication de C. T.
Huang et al. intitulée « Wavelet-based Real Time Detection of Network Traffic Anomalies » dans Securecomm and Workshops publié en 2006 par IEEE. Ces procédés traditionnels de détection de variations anormales ou exceptionnelles du débit d'un flux de documents ne permettent pas d'obtenir des informations qualitatives permet-tant d'expliquer ces variations. Pour qualifier ces variations, et en particulier pour les associer à un événement extérieur comme une opération de communication ou une crise, l'opérateur doit traditionnellement explorer les documents qui composent les pics observés. Cette tâche peut être particulièrement fastidieuse. En particulier, lorsque le débit habituel des documents est important, par exemple plusieurs milliers de documents par heure, une part et un nombre non négligeables des documents ne portent pas sur le sujet du pic et ne peuvent expliquer les va- riations. L'opérateur peut être facilement débordé par la masse des documents. I1 existe par ailleurs des dispositifs visant à déterminer les sujets qui sont les plus présents dans un flux de documents, ou les sujets dont la présence augmente de manière significative.
Par exemple, des sites comme SEARCH.TWITTER.COM, TWIRUS.COM ou BING.COM affichent des listes de sujets « tendances du moment » sur les réseaux sociaux. Ces listes seraient construites à par- tir de la dérivée de la fréquence de morphèmes ou de groupes de morphèmes dans les documents analysés, tel que décrit dans l'article de blog de C. Penner, intitulé « To Trend or Not to Trend... » et publié en 2010 sur BLOG.TWITTER.COM. D'autres techniques pour construire de telles listes s'appuient sur une mesure de l'entropie ou sur le produit dit « TF-IDF » et sont décrites dans le rapport de J. Benhardus, intitulé « Streaming Trend Detection in Twitter » et publié lors du UCCS REU for Artificial Intelligence, National Language Processing and Information Retrieval de 2010. Le produit « TF-IDF » et des méthodes de pondération des termes sont décrits notamment dans « Term-weighting approaches in automatic text retrieval » de Salton, G. et al. publié en 1988 dans Information Processing and Management, Vol. 24, N. 5, pages 513 à 523. Cependant si ces techniques permettent de mettre en évidence des mots ou des groupes de mots dans un flux aussi large que le flux des mes-sages publics Twitter à un instant donné, elles ne permettent pas de produire une vue synthétique et explicative des pics ou des variations significatives du débit du flux des documents portant sur un sujet donné.
Le procédé selon l'invention permet de remédier aux inconvénients des procédés traditionnels. I1 comporte en effet, selon une première caractéristique : - un premier procédé permettant de repérer les périodes où le débit du flux de documents numériques varie de manière anormale ou exceptionnelle, ou forme un pic ou augmente de manière significative; - un second procédé d'analyse morphologique permettant d'ex-traire des chaînes de caractères d'un document numérique et de distinguer, parmi ces chaînes de caractères, celles qui correspondent aux morphèmes ou aux groupes de morphèmes de celles qui correspondent aux séparateurs entre les morphèmes ou groupes de morphèmes; - un troisième procédé permettant de déterminer, pour chacune de ces périodes, des chaînes de caractères extraites par le procédé précédent dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période distinguée par le premier procédé par rapport aux documents numériques en dehors de ces périodes; - un quatrième procédé permettant de construire, pour toutes ou pour un sous-ensemble des périodes distinguées par le premier procédé, une étiquette à partir de la totalité ou d'un échantillon des documents numériques pour cette période donnée et d'un sous-ensemble ou de la totalité des chaînes de caractères distinguées par le procédé précédent. Selon des modes particuliers de réalisation : - le premier procédé fonctionne selon un filtre passe haut à base d'ondelettes. Les documents sont comptés par unité de temps (heure, jour), et la séquence ainsi déterminée forme un signal sur lequel on effectue un filtrage en éliminant les coefficients de la décomposition en ondelettes discrètes qui sont en dessous d'un certain seuil en valeur absolue. Les périodes distinguées sont définies comme périodes pendant lesquelles le signal recomposé après filtrage a une valeur strictement positive. Par rapport à l'approche naïve et évidente pour l'homme du métier qui consisterait à comparer le nombre de documents par unité de temps par rapport à la moyenne, cette approche a le double avantage de repérer les pics ou les augmentations exceptionnelles même lorsque le débit moyen est élevé mais le débit récent plus faible que la moyenne, et de borner les périodes de pics de manière plus précise qu'un simple dépassement de la moyenne; - le premier procédé fonctionne en comparant le signal avec un modèle périodique ou quasi-périodique. Un tel modèle est établi a priori, par exemple comme la combinaison linéaire de plusieurs fonctions périodiques de période de 24 heures ou de 7 jours. Les coefficients du modèle sont obtenus par la méthode des moindres carrés à partir des données historiques. Les périodes distinguées sont définies comme les périodes pendant lesquelles la différence entre le signal et le modèle est supérieure à un certain seuil. Cette approche a les mêmes avantages que l'approche précédente par rapport à l'approche naïve. Elle permet de surcroît de détecter de manière plus fine des pics moins importants, en particulier lorsque le signal est fortement périodique, comme on peut l'observer sur les réseaux sociaux où l'activité dépend beaucoup du rythme diurne et hebdomadaire. En revanche, par rapport à l'approche précédente, cette approche a l'inconvénient d'être plus lourde en calcul et de nécessiter de mettre au point un modèle pour le flux analysé. Cette approche ne permet pas non plus de détecter des pics qui seraient récurrents et périodiques sur les données historiques; - le second procédé est un découpage des documents numériques selon les espaces et la ponctuation. Cette approche a l'a- vantage d'être très simple et facile à mettre en oeuvre. Le découpage ainsi réalisé ne correspond pas à une analyse morphologique très précise mais suffit, dans le cadre de l'invention, pour obtenir des étiquettes pour chacun des pics, des augmentations ou des variations anormales ou ex- ceptionnelles du débit; - le second procédé est un découpage des documents numériques selon un modèle de segmentation à base de données statistiques, de règles grammaticales, de dictionnaire ou de chaînes de Markov cachées. Un tel procédé pourrait par exemple être celui décrit dans le brevet JP2897942. Cette approche a l'avantage de pouvoir extraire des chaînes de caractères de documents numériques écrits dans des langues où les mots ne sont généralement pas séparés par des espaces ou par des ponctuations, comme le japonais, le chinois ou le thaï; - le second procédé consiste en une première étape d'identification de la langue du document numérique puis d'un ensemble de procédés de séparation des mots spécialisés pour chacune des langues traitées. Cette approche permet avantageusement de traiter un flux de documents numériques rédigés dans différentes langues; - le troisième procédé fonctionne en éliminant des chaînes de caractères déterminées par le second procédé celles qui figurent dans une liste a priori de mots vides ou mots outils.
Cette approche a pour avantage d'éviter de construire les étiquettes à partir des mots vides ou mots outils; - le troisième procédé fonctionne en calculant le produit « TF-IDF » pour les occurrences des chaînes de caractères extraites par le second procédé, puis en sélectionnant la ou les chaînes pour lesquelles ce produit est le plus élevé; - le quatrième procédé fonctionne en cherchant la chaîne de caractères composée d'un ensemble de morphèmes distingués par le second procédé et présente dans les documents numériques qui maximise une fonction définie comme la somme des fréquences de l'ensemble des sous-chaînes de caractères de cette chaîne dans l'ensemble des documents numériques; - le procédé dans son ensemble est mis en oeuvre dans un dis-positif qui présente à l'opérateur un graphique du débit et met en valeur les principaux pics, augmentations ou va- riations anormales ou exceptionnelles du débit et affiche, de manière statique ou interactive, des étiquettes associées à ces pics, augmentations ou variations anormales ou exceptionnelles; - le procédé dans son ensemble est mis en oeuvre dans un dis- positif couplé avec un système de filtrage paramétrable qui présente à l'opérateur un graphique du débit d'un sous-ensemble du flux analysé, met en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et les associe à des étiquettes. Ce dispositif permet avantageusement à l'opérateur d'ajuster le filtrage pour analyser plus particulièrement le débit par rapport à ces pics, pour obtenir plus d'informations sur ces pics ou sur le reste de la courbe, et éventuellement révéler d'autres pics; - le procédé dans son ensemble est mis en oeuvre dans un dis- positif couplé à un système d'alerte ou de notification. D'autres avantages et particularités de l'invention ressortent de la description d'un exemple de mise en oeuvre préférée qui suit en référence aux dessins annexés dans lesquels : - la figure 1 représente un dispositif mettant en oeuvre les différents procédés; - la figure 2 représente un dispositif qui présente à l'opérateur un graphique du débit en mettant en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et qui est couplé à un système de notification; - la figure 3 représente un graphique tel que généré par ledit dispositif. La figure 1 représente la composition des différents procédés et le flot (11) des documents numérique à travers un dispositif 5 selon l'invention. Les documents numériques sont dans un premier temps stockés dans une base de données (10), du type relationnelle. Une date est associée à chaque document, par exemple sa date de publication. Ensuite, les documents sont traités par un dispositif (12) qui 10 met en oeuvre le procédé (1) pour identifier les périodes des pics, augmentations ou variations anormales ou exceptionnelle. Ces périodes des pics peuvent être mises en valeur par un marqueur (31) au niveau du maximum local. Parallèlement, les documents sont traités par un dispositif 15 (13) qui met en oeuvre le procédé (2) pour associer, à chaque document, une suite de chaînes de caractères représentant un morphème ou un groupe de morphèmes. Les documents, associés à ces suites de chaînes de caractères, et les périodes identifiés sont ensuite utilisés par un dispositif (14) mettant en oeuvre 20 le procédé (3) pour déterminer les chaînes de caractères les plus fréquentes dans chaque période identifiée par rapport à l'ensemble des documents. Ce procédé (3) fonctionne en éliminant d'abord des mots qui font partie de listes de mots vides, puis pour chacune des chaînes de caractères, le dispositif calcul le 25 produit dit « TF-IDF » et conserve les n chaînes de caractères pour lesquelles ce produit est le plus élevé, n étant un paramètre du procédé dont la valeur peut par exemple être 5. Enfin, les documents, associés aux suites de chaînes de ca- ractères représentant un morphème ou groupe de morphèmes, ainsi 30 que les n chaînes de caractères les plus fréquentes pour chaque période identifiée sont utilisés par un dispositif (15) mettant en oeuvre le procédé (4) qui construit, pour chacune des périodes, une étiquette associée (30). Cette étiquette (30) est construite en cherchant la chaîne de caractère qui inclut une ou plusieurs 35 des n chaînes de caractères retenues par le dispositif (14), qui est incluse dans les documents de la période, qui est composée d'un ensemble de morphèmes distingués par le dispositif (13), et qui maximise la fonction définie comme la somme des fréquences de l'ensemble des sous-chaînes de caractères dans l'ensemble des documents traités par le dispositif (12). La figure 2 représente l'intégration des différents procédés de l'invention dans un dispositif plus large de veille (26). Un certain nombre de flux sont publiés sur Internet (25) et sont captés et stockés dans une base de données relationnelle (10). Ces flux sont filtrés par un dispositif (21) qui détermine les messages sur un sujet donné. Les documents sont ensuite traités par un dispositif (20) mettant en oeuvre un procédé selon l'in- vention. Ce dispositif présente à l'opérateur (27) un graphique comme celui présenté en figure 3 sur le terminal (22). Ce graphique présente un certain nombre d'étiquettes (30) permettant à l'opérateur (27) d'interpréter les pics et les variations anormales ou exceptionnelles du débit du flux. Cet opérateur (27) peut ensuite modifier les paramètres du dispositif de filtrage (21) via une boucle de rétro-action (24). Le dispositif (20) produit alors une nouvelle courbe (34) représentant le débit du flux défini par les paramètres de filtrage. Cette nouvelle courbe présente de nouveaux pics, augmentations ou variations anormales ou exceptionnelles, que le dispositif (20) repère et pour lequel il produit de nouvelles étiquettes (30). Le dispositif (20) est également couplé à un système de notification qui permet à l'opérateur (28) de recevoir une alerte sur le terminal (23) lorsque le débit du flux présente un pic, une augmentation ou une variation anormale. Cette alerte est associée à une étiquette (30) qui permet à l'opérateur (28) de déterminer la cause du pic et de décider s'il est nécessaire d'analyser cette variation via le terminal (22) ou en effectuant des recherches dans les documents numériques qui constituent le flux et qui sont stockés dans la base de données (10). La figure 3 représente un graphique tel que généré par un dispositif selon l'invention. Le signal est représenté sous la forme d'un graphique avec en abscisse (32), le temps, et en ordonnée, le débit par unité de temps (33). Ce signal forme une courbe (34) avec des pics identifiés par le procédé (1) et mis en valeur par un marqueur au niveau du maximum local (31). Ces marqueurs sont associés aux étiquettes (30). Dans un autre exemple de mise en oeuvre de l'invention, les morphèmes ou groupes de morphèmes sont extraits dans un premier temps des documents numériques, lesquels sont stockés dans une base de donnée relationnelle avec la liste de morphèmes associée, avant que le procédé (1) repère les pics, les augmentations ou les variations anormales ou exceptionnelles. Dans un autre exemple de mise en oeuvre de l'invention, la base de données relationnelle est remplacée par une mémoire tampon pouvant contenir un certain nombre de documents numériques. Dans un autre exemple de mise en oeuvre de l'invention, les do- cuments numériques sont des documents multimédia, et le procédé (2) d'analyse morphologique est composé d'un procédé d'extraction de texte par reconnaissance de la parole ou par reconnaissance optique. Dans un autre exemple de mise en oeuvre de l'invention, le 15 procédé (2) d'analyse morphologique est couplé à un procédé de traduction automatique. Le procédé et le dispositif selon l'invention sont particulièrement destinés à la veille communautaire sur les réseaux sociaux.

Claims (10)

  1. REVENDICATIONS1. Procédé pour repérer et étiqueter les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit d'un flux de documents numériques, stockés dans un premier temps dans une base de données (10), caractérisé en ce qu'il est composé : - d'un procédé (1) permettant de repérer les périodes où le débit de ce flux de documents numériques varie de manière anormale ou exceptionnelle, ou forme un pic ou augmente de manière significative; - d'un procédé (2) d'analyse morphologique permettant d'extraire des chaînes de caractères d'un document numérique et de distinguer, parmi ces chaînes de caractères, celles qui correspondent aux morphèmes ou aux groupes de morphèmes et celles qui correspondent aux séparateurs entre les morphèmes ou groupes de morphèmes; - d'un procédé (3) permettant de déterminer, pour chacune des périodes repérées par le procédé (1), parmi les chaînes de caractères extraites par le procédé (2) des documents numériques de la période, celles dont les fréquences sont les plus élevées pour les documents numériques de la période par rapport aux documents numériques en dehors de la période; - d'un procédé (4) permettant de construire, pour chaque période repérée par le procédé (1), une étiquette à partir de la totalité ou d'un échantillon des documents numériques de la période, découpés selon le procédé (2), et d'un sous-ensemble ou de la totalité des chaînes de caractères déterminées par le procédé (3).
  2. 2. Procédé selon la revendication 1 caractérisé en ce que le procédé permettant de distinguer les périodes où le débit varie de manière anormale ou exceptionnelle fonctionne selon un filtre passe haut à base d'ondelettes discrètes.
  3. 3. Procédé selon la revendication 1 caractérisé en ce que le procédé permettant de distinguer les périodes où le débit varie de manière anormale ou exceptionnelle fonctionne parle calcul du résiduel avec un modèle périodique ou quasi-périodique du débit dont les paramètres sont calculés par la méthode des moindres carrés.
  4. 4. Procédé selon l'une quelconque des revendications précé- dentes caractérisé en ce que le procédé d'analyse morphologique consiste en un premier procédé d'identification de la langue du document numérique puis d'un ensemble de procédés de séparation des mots spécialisés pour chacune des langues traitées.
  5. 5. Procédé selon l'une quelconque des revendications précédentes caractérisé en ce que le procédé permettant de déterminer les chaînes de caractères dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période repérée par le procédé (1) fonctionne en commençant par éliminer des chaînes de caractères celles qui sont pré-sentes dans une liste, dite liste de mots vides ou de mots outils.
  6. 6. Procédé selon l'une quelconque des revendications précédentes caractérisé en ce que le procédé permettant de dé- terminer les chaînes de caractères extraites par le procédé (2) dont les fréquences sont les plus élevées pour les documents numériques pendant chaque période repérée par le procédé (1) fonctionne en calculant le produit « TF-IDF » à partir des occurrences des chaînes de caractères extraites par le procédé (2) pour les documents numériques de la période par rapport aux documents numériques en dehors de cette période, puis en sélectionnant la ou les chaînes pour lesquelles ce produit est le plus élevé.
  7. 7. Procédé selon l'une quelconque des revendications précé- dentes caractérisé en ce que le procédé permettant de construire une étiquette à partir de documents numériques et d'un sous-ensemble des chaînes de caractères issues de ces documents, fonctionne en cherchant la chaîne de caractère, présente dans les documents numériques et composée d'un ensemble de morphèmes distingués par le procédé (2), qui maximise la fonction définie comme la somme des fré-quences de l'ensemble des sous-chaînes de caractères dans l'ensemble des documents numériques.
  8. 8. Dispositif mettant en oeuvre un procédé selon l'une quelconque des revendications précédentes caractérisé en ce qu'il pré- s sente à l'opérateur un graphique du débit et met en valeur les principaux pics, augmentations ou variations anormales ou exceptionnelles du débit et affiche, de manière statique ou interactive, des étiquettes associées à ces pics, augmentations ou variations anormales ou exceptionnelles. 10
  9. 9. Dispositif mettant en oeuvre le procédé selon l'une quel-conque des revendications 1 à 7 caractérisé en ce qu'il est couplé à un système de filtrage paramétrable qui présente à l'opérateur un graphique du débit du sous-ensemble du flux résultant du filtrage, mettant en valeur les principaux pics, 15 augmentations ou variations anormales ou exceptionnelles du débit et les associant à des étiquettes, et permettant à l'opérateur d'ajuster le filtrage pour analyser plus particulièrement le débit par rapport à ces pics, afin d'obtenir plus d'informations sur ces pics ou sur le reste de la 20 courbe, et éventuellement révéler d'autres pics.
  10. 10. Dispositif mettant en oeuvre un procédé selon l'une quelconque des revendications 1 à 7 caractérisé en ce qu'il est couplé à un système d'alerte ou de notification.
FR1100817A 2011-03-18 2011-03-18 Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques Withdrawn FR2972822A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1100817A FR2972822A1 (fr) 2011-03-18 2011-03-18 Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques
PCT/EP2012/054666 WO2012146440A1 (fr) 2011-03-18 2012-03-16 Procédé et dispositif permettant de repérer et d'étiqueter des pics, des augmentations ou des variations anormales ou exceptionnelles du débit d'un flux de documents numériques
US14/005,803 US20150205862A1 (en) 2011-03-18 2012-03-16 Method and device for recognizing and labeling peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents
EP12710075.8A EP2686782A1 (fr) 2011-03-18 2012-03-16 Procédé et dispositif permettant de repérer et d'étiqueter des pics, des augmentations ou des variations anormales ou exceptionnelles du débit d'un flux de documents numériques

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1100817A FR2972822A1 (fr) 2011-03-18 2011-03-18 Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques

Publications (1)

Publication Number Publication Date
FR2972822A1 true FR2972822A1 (fr) 2012-09-21

Family

ID=45875953

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1100817A Withdrawn FR2972822A1 (fr) 2011-03-18 2011-03-18 Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques

Country Status (4)

Country Link
US (1) US20150205862A1 (fr)
EP (1) EP2686782A1 (fr)
FR (1) FR2972822A1 (fr)
WO (1) WO2012146440A1 (fr)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9703827B2 (en) * 2014-07-17 2017-07-11 Illumina Consulting Group, Inc. Methods and apparatus for performing real-time analytics based on multiple types of streamed data
CN109840471B (zh) * 2018-12-14 2023-04-14 天津大学 一种基于改进Unet网络模型的可行道路分割方法
CN110348471B (zh) * 2019-05-23 2023-09-01 平安科技(深圳)有限公司 异常对象识别方法、装置、介质及电子设备
US11086948B2 (en) 2019-08-22 2021-08-10 Yandex Europe Ag Method and system for determining abnormal crowd-sourced label
US11710137B2 (en) 2019-08-23 2023-07-25 Yandex Europe Ag Method and system for identifying electronic devices of genuine customers of organizations
US11108802B2 (en) 2019-09-05 2021-08-31 Yandex Europe Ag Method of and system for identifying abnormal site visits
RU2757007C2 (ru) 2019-09-05 2021-10-08 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для определения вредоносных действий определенного вида
US11334559B2 (en) 2019-09-09 2022-05-17 Yandex Europe Ag Method of and system for identifying abnormal rating activity
US11128645B2 (en) 2019-09-09 2021-09-21 Yandex Europe Ag Method and system for detecting fraudulent access to web resource
RU2752241C2 (ru) 2019-12-25 2021-07-23 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для выявления вредоносной активности предопределенного типа в локальной сети

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319746A1 (en) * 2007-06-25 2008-12-25 Kabushiki Kaisha Toshiba Keyword outputting apparatus and method
WO2010007486A1 (fr) * 2008-07-15 2010-01-21 Nellcor Puritan Bennett Ireland Systèmes de traitement de signaux et procédés utilisant des fonctions de base et des transformées en ondelette

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2897942B2 (ja) 1992-07-20 1999-05-31 株式会社シーエスケイ 日本語形態素解析システム及び形態素解析方式
US7245769B2 (en) * 2002-02-12 2007-07-17 Visioprime Archival of transformed and compressed data
JP5078674B2 (ja) * 2008-02-29 2012-11-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319746A1 (en) * 2007-06-25 2008-12-25 Kabushiki Kaisha Toshiba Keyword outputting apparatus and method
WO2010007486A1 (fr) * 2008-07-15 2010-01-21 Nellcor Puritan Bennett Ireland Systèmes de traitement de signaux et procédés utilisant des fonctions de base et des transformées en ondelette

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHIN-TSER HUANG ET AL: "Wavelet-based Real Time Detection of Network Traffic Anomalies", SECURECOMM AND WORKSHOPS, 2006, IEEE, PI, 1 August 2006 (2006-08-01), pages 1 - 7, XP031087516, ISBN: 978-1-4244-0422-3, DOI: 10.1109/SECCOMW.2006.359567 *
DIAKOPOULOS N ET AL: "Diamonds in the rough: Social media visual analytics for journalistic inquiry", VISUAL ANALYTICS SCIENCE AND TECHNOLOGY (VAST), 2010 IEEE SYMPOSIUM ON, IEEE, PISCATAWAY, NJ, USA, 25 October 2010 (2010-10-25), pages 115 - 122, XP031828918, ISBN: 978-1-4244-9488-0 *
HAAR A: "ZUR THEORIE DER ORTHOGONALEN FUNKTIONENSYSTEME", MATHEMATISCHE ANNALEN, SPRINGER, BERLIN, DE, vol. 69, 1 January 1910 (1910-01-01), pages 331 - 371, XP000607098, ISSN: 0025-5831, DOI: 10.1007/BF01456326 *

Also Published As

Publication number Publication date
EP2686782A1 (fr) 2014-01-22
WO2012146440A1 (fr) 2012-11-01
US20150205862A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
FR2972822A1 (fr) Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques
Bhatt et al. Amazon review classification and sentiment analysis
CN111639177B (zh) 文本提取方法和装置
CN104702492B (zh) 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN107437038B (zh) 一种网页篡改的检测方法及装置
US8983926B2 (en) Method and system for tagging original data generated by things in the internet of things
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
WO2007117298A2 (fr) Systeme de traduction de donnees d'evenement
CN105117484A (zh) 一种互联网舆情监测方法和系统
Weiler et al. Event identification and tracking in social media streaming data
US11568167B2 (en) Systems and methods for detecting drift between data used to train a machine learning model and data used to execute the machine learning model
BE1025503A1 (fr) Procede de segmentation de ligne
JP5527845B2 (ja) 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN113535813A (zh) 一种数据挖掘方法、装置、电子设备以及存储介质
FR3016981A1 (fr) Procede d'analyse semantique d'un texte
WO2018161824A1 (fr) Procédé et dispositif de détection de données exceptionnelles
FR2899708A1 (fr) Procede de de-doublonnage rapide d'un ensemble de documents ou d'un ensemble de donnees contenues dans un fichier
CN117173608A (zh) 视频内容审核方法及系统
FR2929426A1 (fr) Procede et systeme d'attribution de score
CN114996707B (zh) 图片木马的静态检测方法、装置、电子设备及存储介质
CN111126373A (zh) 基于跨模态识别技术的互联网短视频判违装置及方法
Zendah et al. Detecting Significant Events in Arabic Microblogs using Soft Frequent Pattern Mining.
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

CA Change of address

Effective date: 20170606

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

ST Notification of lapse

Effective date: 20201110