FR2948791A1 - Systeme de geolocalisation par analyse linguistique - Google Patents

Systeme de geolocalisation par analyse linguistique Download PDF

Info

Publication number
FR2948791A1
FR2948791A1 FR0955355A FR0955355A FR2948791A1 FR 2948791 A1 FR2948791 A1 FR 2948791A1 FR 0955355 A FR0955355 A FR 0955355A FR 0955355 A FR0955355 A FR 0955355A FR 2948791 A1 FR2948791 A1 FR 2948791A1
Authority
FR
France
Prior art keywords
data
geolocation
entity
physical entity
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0955355A
Other languages
English (en)
Other versions
FR2948791B1 (fr
Inventor
Mathieu Guidere
Christian Fluhr
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deveryware Fr
Original Assignee
CADEGE TECHNOLOGIES ET CONSULTING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CADEGE TECHNOLOGIES ET CONSULTING filed Critical CADEGE TECHNOLOGIES ET CONSULTING
Priority to FR0955355A priority Critical patent/FR2948791B1/fr
Priority to PCT/FR2010/051637 priority patent/WO2011012834A2/fr
Priority to EP10762962A priority patent/EP2460093A2/fr
Publication of FR2948791A1 publication Critical patent/FR2948791A1/fr
Application granted granted Critical
Publication of FR2948791B1 publication Critical patent/FR2948791B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/0009Transmission of position information to remote stations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

L'invention concerne la géolocalisation notamment d'une entité physique émettant des données numériques et trouve notamment application dans le domaine civil et militaire pour la localisation d'entités physiques à partir de leur production langagière.

Description

DOMAINE TECHNIQUE GENERAL L'invention concerne la géolocalisation notamment d'une entité physique émettant des données numériques et trouve notamment application dans le domaine civil et militaire pour la localisation d'entités physiques.
ETAT DE LA TECHNIQUE La géolocalisation est la localisation d'une entité ou d'un objet sur une carte à l'aide de positions géographiques. io On connaît différents types de géolocalisation : la géolocalisation par émetteur radio utilise un réseau de téléphonie mobile et le signal émis par un téléphone ; la géolocalisation par géocodage basée sur l'analyse d'une adresse postale ; is la géolocalisation par satellite basée sur l'analyse d'un signal émis par des satellites par un dispositif électronique (par exemple le système GPS (en anglais, Global Positioning System ) la géolocalisation par Internet basée sur la détection de l'émetteur des données. 20 Les positions géographiques déterminées sont alors centralisées sur un serveur et permettent une utilisation de type temps réel ou différé. Dans le cas d'entités physiques, outre la position géographique, il existe un besoin de pouvoir également analyser le contenu des données notamment la production linguistique de l'entité physique afin de prédire des 25 actions entreprises ou à entreprendre par cette entité.
PRESENTATION DE L'INVENTION Il n'existe à ce jour aucun système de géolocalisation à partir de la langue.
L'invention permet de pallier ce besoin et permet de résoudre le problème de l'identification et de la localisation géographique d'une entité inconnue à partir de sa production linguistique. Selon un premier aspect, l'invention concerne un système de géolocalisation d'une entité physique disposant d'un dispositif de communication adapté pour émettre des données numériques sur un réseau de communication auquel le dispositif de communication est connecté, le système comprenant : un moteur d'analyse du réseau de communication pour intercepter les données numériques et pour déterminer au moins une io donnée spatio-temporelle caractéristique de l'émission des données ; un moteur d'extraction pour extraire, des données numériques, des données linguistiques comprenant au moins une information caractéristique de l'entité physique émettrice ; un moteur d'analyse des données linguistiques ; un moteur de représentation pour représenter sur une carte géographique une is localisation de l'entité physique déduite des données analysées et de la donnée spatio-temporelle caractéristique de l'émission des données; et le cas échéant représenter une information caractéristique d'au moins une action entreprise ou à entreprendre par l'entité physique. Le système de l'invention peut comprendre l'une des caractéristiques 20 suivantes : ù le moteur d'analyse du réseau comprend un dispositif de détermination d'une donnée spatio-temporelle caractéristique de l'émission des données, choisi en fonction du dispositif émetteur parmi le groupe suivant : Géolocalisation Par émetteur Radio, Géolocalisation 25 Par Géocodeur, Géolocalisation Par Internet, Géolocalisation Par Satellite, Géolocalisation par GSM ; ù le moteur d'extraction est un moteur de recherche sémantique avec une logique d'extraction multilingue à partir de données disponibles en plusieurs langues ; 30 ù le moteur d'extraction, le moteur d'analyse et le moteur de représentation comprennent des moyens mémoire pour stocker respectivement l'information caractéristique d'au moins une action entreprise ou à entreprendre par l'entité physique, au moins une donnée spatio-temporelle caractéristique de l'émission des données, la carte géographique représentant la localisation de l'entité physique émettrice et la localisation de l'action entreprise ou à entreprendre par l'entité ; û les données numériques sont émises à partir d'un terminal connecté à Internet, via des sites Internet, des blogs, des forums, des flux RSS, une messagerie instantanée, un service de messagerie io électronique. Selon un second aspect, l'invention concerne un procédé de géolocalisation d'une entité physique disposant d'un dispositif de communication émettant des données numériques sur un réseau de communication auquel le dispositif de communication est connecté, le is procédé comprenant les étapes suivantes : analyse (El) du réseau de communication pour intercepter les données numériques et pour déterminer au moins une donnée spatio-temporelle caractéristique de l'émission des données ; extraction des données numériques des données linguistiques comprenant au moins une information caractéristique d'au moins une action 20 entreprise ou à entreprendre par l'entité physique ; analyse des données linguistiques ; positionnement sur une carte géographique de la localisation de l'entité physique émettrice déduite des données analysées et de la donnée spatio-temporelle caractéristique de l'émission des données et le cas échéant positionner la localisation de l'action entreprise ou à 25 entreprendre par l'entité. D'autres aspects du procédé selon l'invention sont les suivants : û le procédé comprend une méthode d'analyse prédictive appliquée aux données linguistiques pour générer un ensemble de prédictions sur une action à entreprendre par l'entité physique ; ù l'analyse des données linguistiques est mise en oeuvre par une méthodologie choisie parmi le groupe suivant : méthodologie top-down, méthodologie bottom-up, méthodologie de triangulation. ù le procédé comprend une étape de recoupement des localisations issues des données linguistiques avec la localisation de l'entité physique émettrice. Selon un troisième aspect, l'invention concerne un programme d'ordinateur comprenant des instructions machine pour la mise en oeuvre d'un procédé selon le second aspect de l'invention. lo PRESENTATION DES FIGURES D'autres caractéristiques et avantages de l'invention ressortiront encore de la description qui suit laquelle est purement illustrative et non limitative et doit être lue en regard des dessins annexés sur lesquels is la figure 1 illustre un mode de mise en oeuvre d'un système de géolocalisation selon l'invention ; la figure 2 illustre un schéma des étapes du procédé de géolocalisation selon l'invention ; la figure 3 est un schéma conceptuel de la méthodologie Top- 20 Down pour une entité connue ; la figure 4 illustre un schéma conceptuel de la méthodologie Bottom-Up pour une entité inconnue ; la figure 5 illustre un schéma conceptuel de la méthodologie triangulation pour une entité floue. 25 DESCRIPTION DETAILLEE DE L'INVENTION
La technologie de géolocalisation linguistique (TGL) : principes et méthodes 30 La géolocalisation par la langue est un système de veille stratégique multilingue et multimédias intégré, qui utilise la Technologie de Géolocalisation Linguistique (TGL) pour répondre prioritairement aux questions QUI ? et OÙ ? à partir d'une analyse linguistique multilingue du QUOI et du QUAND ? La géolocalisation linguistique fait appel aux principes de la veille stratégique, c'est-à-dire qu'elle vise l'anticipation à partir de l'existant, la découverte de l'inconnu à partir du connu. Elle consiste à localiser dans le temps et dans l'espace une entité inconnue ou connue (individu, groupe, organisation, etc.) à partir de sa production linguistique. io II s'agit d'une forme de veille stratégique qui combine les techniques de la géolocalisation physique avec les techniques de l'analyse linguistique avancée. Le principe de base est de remonter à la source physique de l'information recherchée, en suivant le chemin linguistique qui a servi à la 15 propager, à partir d'une définition précise des indicateurs et des relais langagiers de cette information. À chaque étape de l'analyse linguistique est affecté un repère spatio-temporel qui situe l'information voulue à un moment donné et dans un lieu précis. Ce repère permet d'avoir une représentation à la fois spatiale et 20 temporelle des relations et des liens qui existent entre les émetteurs et les relais des informations.
Système de géolocalisation linguistique par la langue Le système de géolocalisation linguistique est un système qui peut 25 être utilisé pour localiser toute entité du moment qu'elle communique ou qu'elle émet des données linguistiques au moyen de tout dispositif de communication connecté à un réseau de communication. Les données linguistiques sont de préférence numériques. Les données, émises sous une forme quelconque (orales, écrites, 30 audio, vidéo), par des sources, qu'elles soient connues ou inconnues (individus, groupes, organisations), contiennent toujours des indices et des indicateurs qui permettent d'en connaître le teneur et de calculer la position de leurs émetteurs, même dans les cas d'acquisition grossière. Ce calcul de position géographique peut se faire de différentes manières connues : ù Géolocalisation Par émetteur Radio (GPR) : utilise un modem radio ; - Géolocalisation Par Géocodeur (GPG) : utilise des logiciels de géocodage, les logiciels de géocodage permettent de calculer et d'attribuer des positions X, Y, à une adresse ou à un objet io référencé dans une carte vecteur, avec une précision de quelques dizaines de mètres en moyenne ; Géolocalisation Par Internet (GPI) : utilise l'adresse IP, la géolocalisation sur Internet se fait à l'aide de bases de données de répartition des adresses IP qui permettent de rattacher toute is activité informatique ou message électronique à une adresse physique de connexion, y compris pour les mails et les messages postés sur des forums anonymes ; - Géolocalisation Par Satellite (GPS) : utilise le système GPS (en anglais, Global Positioning System ) ou Galileo, pour localiser 20 des terminaux mobiles en déplacement ; ù Géolocalisation par GSM : utilise un terminal GSM. La figure 1 illustre un mode de réalisation d'un système de géolocalisation. Un utilisateur 1 émet des données numériques sur un réseau de 25 communication 3 au moyen d'un dispositif de communication 2. Les données peuvent provenir de sources ouvertes accessibles librement par internet ou être issues d'interception légales. On entend par source ouverte, des sites librement accessibles à savoir, des sites d'organismes, des blogs, des vidéo, de la télévision en e- 30 streaming, de réseaux sociaux, des flux RSS, des informations accédées par des moteurs de recherche, des informations obtenues par interrogation d'un site spécialisé (web invisible). Les données peuvent être de type privées et ne sont interceptées que dans le cadre d'interceptions légales. On entend par données privées les données issues de messagerie électronique, de conversations parole selon différent canaux, de SMS. Les données émises (issues de sources ouvertes ou privées) sont interceptées par un moteur 10 d'analyse du réseau de communication. Ce moteur 10 permet en outre d'obtenir au moins une donnée spatio-temporelle io caractéristique de l'émission des données, c'est-à-dire la localisation de l'entité émettrice : d'où est issue l'émission.
Les données ainsi interceptées sont ensuite traitées par le système de géolocalisation 60 en tant que tel. 15 Le système de géolocalisation 60 est composé de trois parties distinctes. 1) Un moteur 20 d'extraction pour extraire des données linguistiques basé sur un moteur de recherche sémantique de préférence multilingue, qui 20 permet d'extraire les données intéressantes dans une ou plusieurs langues en même temps. Les données intéressantes sont notamment des données relatives à l'entité émettrice que ce soit en termes de position de l'émission mais aussi en termes d'identité, nationalité etc. On note qu'en pratique, seule une partie des données sont intéressantes, en fonction des méta- 25 données par exemple la langue ou une liste de numéro de téléphones, on extraira du flux les données à analyser. Pour ce qui concerne les sources ouvertes, les sites accédés sont répertoriés, les interrogations de moteurs portent sur des critères définis. Dans le cas de vidéo ou de parole, une transformation de la parole en texte est réalisée par un système de 30 reconnaissance automatique de la parole.
On précise ici que l'on entend par méta-données une donnée qui renseigne sur la nature de certaines autres données et qui permet leur utilisation pertinente. De manière plus précise, il s'agit d'informations qui concernent la nature des données, langue, type de fichier, lieu d'émission, type d'émetteur, identité de l'émetteur ou du matériel d'émission, date, heure, ... Pour ce qui concerne les interceptions légales, ces informations sont issues de systèmes d'analyse des paquets transmis pour déterminer les protocoles emboités, et en déduire les méta-données.
io 2) Un moteur 30 d'analyse des données linguistiques pour extraire l'information caractéristique d'au moins une action entreprise ou à entreprendre par l'entité physique. Ce moteur 30 permet de situer dans le temps et dans l'espace chaque donnée intéressante, cela à chaque étape du processus de détection et d'extraction. L'analyse des contenus textuels est is réalisée par un logiciel d'analyse morphosyntaxique multilingue. Celui-ci reconnait les entités nommées (noms de personnes, noms de lieux, nom d'organismes, données de type date et heure, tous les montants numériques avec leur unité), les actions (agent de l'action, action, objet de l'action, et les circonstanciels de temps, de lieu, d'instrument, de manière, etc.) Le tout est 20 normalisé (par exemple pour les personnes, on identifie les différentes orthographes de ces noms quelle que soit la langue et le jeu de caractères). On lève les ambiguïtés (par exemple Paris en France et au Texas) en fonction du contexte et des méta-données, par exemple en détectant la langue utilisée. 25 3) Un moteur 40 de représentation qui permet de faire coïncider les repères d'une carte géographique avec les coordonnées géophysiques issues de l'analyse des données linguistiques, en situant les données extraites les unes par rapport aux autres et en visualisant leurs liens, 30 qualitativement (liens sémantiques) et quantitativement (noeuds statistiques). Ainsi, plus la quantité des données relatives à une entité est importante, plus la taille du noeud représentant l'entité est grande. La taille du noeud illustre ainsi le degré de pertinence des données extraites. Les lieux normalisés, qu'ils proviennent du texte ou des méta-données) sont associés à des coordonnées géographiques en longitude et latitude ce qui permet de les représenter sur une carte géographique 50 (par exemple au moyen de GooglemapTM ou tout autre dispositif du même type).
Entre chaque moteur, un module de coordination (non représenté) permet de mettre à jour les données transmises et de contrôler l'adéquation Io des résultats aux requêtes pour assurer la cohérence et la mise à jour du système.
Procédé de géolocalisation Le procédé de géolocalisation est mis en oeuvre au moyen du is système 60 ci-dessus présenté. Tout d'abord le procédé comprend une analyse El du réseau de communication pour intercepter des données numériques susceptibles d'être pertinentes. L'analyse du réseau permet également de déterminer au moins une donnée spatio-temporelle caractéristique de l'émission des données. 20 Ces données caractéristiques sont notamment la localisation de l'entité émettrice au moment où l'émission a lieu, l'identité de l'entité physique. Une fois ces données interceptées, le procédé comprend une étape d'extraction E2 à partir des données numériques, des données linguistiques comprenant au moins une information caractéristique d'au moins une action 25 entreprise ou à entreprendre par l'entité physique. Ces données linguistiques sont plus particulièrement la production linguistique de l'entité physique émettrice. Il peut s'agir d'un SMS émis au moyen d'un terminal mobile, d'un email ou encore d'un message vocal. Bien entendu de manière générale, il peut s'agir de tout support numérique 30 pouvant transporter une production linguistique.
Les données extraites, le procédé comprend une analyse E3 des données linguistiques pour extraire l'information caractéristique d'au moins une action entreprise ou à entreprendre par l'entité physique. Dans ce cas, il s'agit par exemple d'identifier dans la production linguistique ce que l'entité physique s'apprête à effectuer ou a déjà effectuée. Enfin, le procédé comprend un positionnement E4 sur une carte géographie, la localisation de l'entité physique ainsi que la localisation de l'action entreprise ou à entreprendre par l'entité. Grâce à ce positionnement il est possible de prédire les actions que Io l'entité physique s'apprête à effectuer ou a déjà effectuée.
Il existe à cet égard trois types d'entités : connue, inconnue, floue. On entend par : - entité connue est une entité (personne, structure, is organisation...) dont au moins une donnée concernant son identité (nom, adresse, téléphone,...) ou son action (antécédents judiciaires, faits avérés...) est identifiée de façon certaine. û entité inconnue est une entité pour laquelle il n'existe aucune certitude concernant ses données d'identité ou d'action. 20 û entité floue est une entité dont une partie seulement des données qui lui sont relatives est identifiée avec certitude. En fonction de la nature de l'entité recherchée (connue, inconnue, floue) on met en oeuvre trois méthodologies complémentaires de traitement des données. 25 1) Entité Connue : Méthodologie Top-Down La méthodologie, dite Top-Down , part de ce qui est connu en amont (Top) sur l'identité de l'entité (nom, téléphone, mail, SMS...) pour réunir toutes les données qui se trouvent en aval (Down) concernant le 30 positionnement et la localisation de l'entité (données extraites de sa production langagière et du réseau qui les véhicule).
La figure 3 illustre un schéma conceptuel de la méthodologie Top-Down pour une entité connue. Elle comprend trois niveaux d'analyse. Le premier niveau I est celui de la recherche, dans les données disponibles en multilingue, des actions que l'entité physique s'apprête à effectuer ou a déjà effectuée. Le second niveau Il d'analyse est celui du tri des données en vue de l'extraction des données pertinentes pour la prédiction. Enfin, le troisième niveau III d'analyse est celui de la représentation io des données émergentes sur une carte à partir d'un recoupement des données linguistiques et géographiques concernant les actions que l'entité physique s'apprête à effectuer ou a déjà effectuée. Cette méthodologie consiste à partir de ce qui est connu dans ses grandes lignes, puis, itérativement, à s'intéresser à des détails de plus en is plus fins en descendant plus profondément dans les données. Dans cette méthodologie, on part de l'entité donnée et on recherche en aval toutes les données disponibles la concernant, sur tous types de supports, en intégrant pour chaque donnée pertinente l'indication correspondant à sa géolocalisation. 20 Cette méthodologie sert prioritairement à la détection et au criblage des données (propriétés et relations). En pratique, si on considère une entité A connue, à partir du nom connu avec certitude (A), le système recherche toutes les formes sous lesquelles apparaît ce nom dans plusieurs langues, ensuite il recherche tous 25 les documents ou données relatives à ces formes de nom en récupérant, pour chaque donnée trouvée, les indices de positionnement et de localisation, tant internes (lieux indiqués dans les documents) qu'externes (données positionnelles du réseau qui les véhicule). Après cette phase de recherche, le système procède au recoupement des données pour extraire 30 celles relatives aux actions que l'entité (A) s'apprête à effectuer ou a déjà effectuée. 2) Entité inconnue : Méthodologie Bottom-Up La méthodologie, dite Bottom-Up , part de l'ensemble des données disponibles dans plusieurs langues pour extraire, grâce à des règles linguistiques, les seules données relatives aux lieux (repères géographiques, urbains, territoriaux...) et aux entités (personnes, structures, organisations). A partir du recoupement de ces données, le système remonte vers des liens entre lieux et entités jugés pertinents en fonction de leur fréquence et en référence à la base de connaissances relatives au domaine (ex. terrorisme, islamisme, criminalité,...). Pour chaque lien pertinent qui émerge de ce io recoupement, le système extrait au moins une donnée relative au positionnement et à la localisation des entités, tant en interne (dans les documents) qu'en externe (données issues du réseau qui les véhicule). Enfin, pour chaque donnée, le système recherche les actions que les entités s'apprêtent à effectuer ou ont déjà effectuées. is La figure 4 illustre un schéma conceptuel de la méthodologie Bottom- Up pour une entité inconnue. Elle comprend trois niveaux d'analyse. Le premier niveau I est celui de l'exploration générale des données disponibles en multilingue, en se focalisant sur les données de 20 géolocalisation disponibles sur des entités physiques et des actions. Le second niveau Il d'analyse est celui du tri des données en vue de déterminer l'entité physique dont les données sont pertinentes pour la prédiction. Enfin, le troisième niveau III d'analyse est celui de la représentation 25 des données sur une carte à partir d'un recoupement des données linguistiques et géographiques concernant les actions que l'entité physique s'apprête à effectuer ou a déjà effectuée. Cette méthodologie consiste à partir de ce qui est connu pour faire émerger, par remontées successives, ce qui est encore inconnu. 30 Dans cette méthodologie, on part des données disponibles pour remonter vers les données saillantes, puis pour révéler un phénomène ou une entité (pas ou) peu connue, en fournissant le maximum d'indications spatio-temporelles sur sa localisation à partir des données réunies. On note que la saillance des données est définie essentiellement en fonction de critères sémantiques relationnels.
Cette méthodologie sert prioritairement à la découverte de tendances/phénomènes et à l'anticipation/prédiction de nouveaux acteurs/risques (propriétés et données émergentes). En pratique, à partir de l'ensemble des données disponibles dans plusieurs langues (Bottom) sur un thème précis (par un exemple un groupe io de personne), émerge (Up) une entité (par exemple un nom de groupe connu), fréquemment citée en relation avec un lieu (par exemple territoire français). Le système recherche alors tous les documents ou données relatives à cette entité (groupe) en récupérant, pour chaque donnée trouvée, les indices de positionnement et de localisation, tant internes (dans les is documents) qu'externes (données issues du réseau qui les véhicule). Après cette phase de recherche, le système procède au recoupement des données sur les lieux et les entités pour extraire celles relatives aux actions que les entités s'apprêtent à effectuer ou ont déjà effectuées.
20 3) Entité floue : Méthodologie de Triangulation Une entité floue est une entité dont une partie seulement des données qui lui sont relatives est connue, mais pour laquelle il subsiste d'importantes zones d'ombre à préciser/connaître. Par exemple, une entité est floue si les actions qu'elle a déjà effectuées sont connues, mais pas ses 25 liens avec d'autres entités ou actions survenues dans le passé. Autre exemple : une entité est floue si les actions qu'elle s'apprête à effectuer sont annoncés/connus, mais que sa géolocalisation est inconnue. La méthodologie, dite de Triangulation , combine les deux méthodologies précédentes ( Top-Down et Bottom-Up ) pour assurer 30 le maximum de fiabilité des données extraites concernant une entité floue (identité douteuse ou incertaine). La triangulation consiste concrètement à recouper trois types de données qui forment le triangle de la recherche multilingue : d'abord, les données relatives à l'identité de l'entité (nom, téléphone, SMS, mail...) ; ensuite, les données relatives au positionnement / localisation de l'entité (lieu d'émission des données ou lieu indiqué dans les messages émis...) ; enfin, les données relatives aux actions que l'entité ou ses relations s'apprêtent à effectuer ou ont déjà effectuées. La figure 5 illustre un schéma conceptuel de la méthodologie de triangulation pour une entité floue. Dans cette méthodologie, on recoupe les données disponibles sur io l'entité avec les données disponibles dans la base de connaissance, en prenant en compte pour chaque recoupement de données le paramètre de la géolocalisation (qui ? où ?). Cette méthodologie sert prioritairement à la vérification et à l'authentification des données (assurance qualité de la géolocalisation ls linguistique). Le procédé décrit peut en outre comprendre une analyse prédictive visant à anticiper l'action que l'entité physique s'apprête à entreprendre. L'analyse prédictive s'effectue à partir des données linguistiques obtenues. 20 Ci-dessous on présente différents exemples de mise en oeuvre du procédé de géolocalisation au moyen du système de géolocalisation ci-dessus présenté.
Exemple 1 : Géolocalisation à partir d'Internet 25 Problème : Supposons qu'un individu inconnu utilise sur un forum Internet un langage de nature à menacer la sécurité nationale ou à porter atteinte à l'ordre public. Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces 30 indices internes avec les méta-données et les informations externes de géopositionnement de la connexion (IP/DNS), du serveur et des responsables, enfin de visualiser sur une carte les lieux et les liens entre individus ayant proféré ou cautionné le contenu dudit forum.
Exemple 2 : Géolocalisation à partir des SMS Problème : Supposons qu'un individu inconnu envoie un SMS (texto) contenant un langage de nature à menacer la sécurité nationale ou à porter atteinte à l'ordre public. Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces io indices internes avec les méta-données (par exemple l'identité internationale d'équipement mobile en anglais International Mobile Equipment Indentity , (IMEI)) et les informations externes de géopositionnement du SMS en question (information GSM, GPRS), enfin de visualiser sur une carte géographique les lieux et les liens entre individus ayant reçu ou partagé le is contenu dudit SMS.
Exemple 3 : Géolocalisation à partir du Mail (ou autre messagerie) Problème : Supposons qu'un individu inconnu envoie un message électronique (Email) contenant un langage de nature à menacer la sécurité 20 nationale ou à porter atteinte à l'ordre public. Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces indices internes avec les méta-données et les informations externes de géopositionnement du courrier en question (information réseau), enfin de 25 visualiser sur une carte les lieux et les liens entre individus ayant reçu ou partagé le contenu dudit Mail. 30 Exemple 4 : Géolocalisation à partir d'une communication téléphonique (y compris VoIP) Problème : Supposons qu'un individu inconnu utilise un langage de nature à menacer la sécurité nationale ou à porter atteinte à l'ordre public, dans une conversation téléphonique (fixe, mobile, nationale, internationale). Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces indices internes avec les méta-données et les informations externes de géopositionnement (VoIP, GSM, GPRS, GPS), enfin de visualiser sur une io carte les lieux et les liens entre individus ayant reçu ou partagé cette communication.
Dans tous ces cas de figures, le système permet de remonter à la source et de localiser l'émetteur et les récepteurs potentiels dans le temps et 15 dans l'espace, à partir de la production langagière.

Claims (10)

  1. REVENDICATIONS1. Système de géolocalisation d'une entité physique (1) disposant d'un dispositif de communication (2) adapté pour émettre des données numériques sur un réseau de communication auquel le dispositif de communication est connecté, le système comprenant : un moteur (10) d'analyse du réseau de communication pour intercepter les données numériques et pour déterminer au moins une donnée spatio-temporelle caractéristique de l'émission des Io données ; un moteur (20) d'extraction pour extraire, des données numériques, des données linguistiques comprenant au moins une information caractéristique de l'entité physique émettrice ; un moteur (30) d'analyse des données linguistiques ; is un moteur (40) de représentation pour représenter sur une carte (50) géographique une localisation de l'entité physique (1) déduite des données analysées et de la donnée spatio-temporelle caractéristique de l'émission des données; et le cas échéant représenter une information caractéristique d'au moins une action 20 entreprise ou à entreprendre par l'entité physique.
  2. 2. Système selon la revendication 1 dans lequel le moteur d'analyse du réseau comprend un dispositif de détermination d'une donnée spatio-temporelle caractéristique de l'émission des données, choisi en fonction du 25 dispositif émetteur parmi le groupe suivant : Géolocalisation Par émetteur Radio, Géolocalisation Par Géocodeur, Géolocalisation Par Internet, Géolocalisation Par Satellite, Géolocalisation par GSM.
  3. 3. Système selon l'une des revendications 1 à 2 dans lequel le moteur 30 (20) d'extraction est un moteur de recherche sémantique avec une logique d'extraction multilingue à partir de données disponibles en plusieurs langues.
  4. 4. Système selon l'une des revendications 1 à 3 dans lequel le moteur d'extraction, le moteur d'analyse et le moteur de représentation comprennent des moyens mémoire pour stocker respectivement l'information caractéristique d'au moins une action entreprise ou à entreprendre par l'entité physique, au moins une donnée spatio-temporelle caractéristique de l'émission des données, la carte géographique représentant la localisation de l'entité physique émettrice et la localisation de l'action entreprise ou à entreprendre par l'entité. io
  5. 5. Système selon l'une des revendications 1 à 4 dans lequel les données numériques sont émises à partir d'un terminal connecté à Internet, via des sites Internet, des blogs, des forums, des flux RSS, une messagerie instantanée, un service de messagerie électronique. 15
  6. 6. Procédé de géolocalisation d'une entité physique (1) disposant d'un dispositif de communication (2) émettant des données numériques sur un réseau de communication auquel le dispositif de communication est connecté, le procédé comprenant les étapes suivantes analyse (El) du réseau de communication pour intercepter les 20 données numériques et pour déterminer au moins une donnée spatio-temporelle caractéristique de l'émission des données ; extraction (E2) des données numériques des données linguistiques comprenant au moins une information caractéristique d'au moins une action entreprise ou à entreprendre par l'entité 25 physique ; analyse (E3) des données linguistiques ; positionnement (E4) sur une carte géographique de la localisation de l'entité physique émettrice déduite des données analysées et de la donnée spatio-temporelle caractéristique de l'émission des 30 données et le cas échéant positionner la localisation de l'action entreprise ou à entreprendre par l'entité.
  7. 7. Procédé selon la revendication 6 comprenant une méthode d'analyse prédictive appliquée aux données linguistiques pour générer un ensemble de prédictions sur une action à entreprendre par l'entité physique.
  8. 8. Procédé selon l'une des revendications 6 à 7 dans lequel l'analyse des données linguistiques est mise en oeuvre par une méthodologie choisie parmi le groupe suivant : méthodologie top-down, méthodologie bottom-up, méthodologie de triangulation. Io
  9. 9. Procédé selon l'une des revendications 7 à 8 comprenant une étape de recoupement des localisations issues des données linguistiques avec la localisation de l'entité physique émettrice.
  10. 10. Programme d'ordinateur caractérisé en ce qu'il comprend des is instructions machine pour la mise en oeuvre d'un procédé selon l'une des revendications 6 à 9.
FR0955355A 2009-07-30 2009-07-30 Systeme de geolocalisation par analyse linguistique Expired - Fee Related FR2948791B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0955355A FR2948791B1 (fr) 2009-07-30 2009-07-30 Systeme de geolocalisation par analyse linguistique
PCT/FR2010/051637 WO2011012834A2 (fr) 2009-07-30 2010-07-30 Systeme de geolocalisation par analyse linguistique
EP10762962A EP2460093A2 (fr) 2009-07-30 2010-07-30 Systeme de geolocalisation par analyse linguistique

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0955355A FR2948791B1 (fr) 2009-07-30 2009-07-30 Systeme de geolocalisation par analyse linguistique

Publications (2)

Publication Number Publication Date
FR2948791A1 true FR2948791A1 (fr) 2011-02-04
FR2948791B1 FR2948791B1 (fr) 2016-09-30

Family

ID=42126443

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0955355A Expired - Fee Related FR2948791B1 (fr) 2009-07-30 2009-07-30 Systeme de geolocalisation par analyse linguistique

Country Status (3)

Country Link
EP (1) EP2460093A2 (fr)
FR (1) FR2948791B1 (fr)
WO (1) WO2011012834A2 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108213A1 (en) * 2003-11-13 2005-05-19 Whereonearth Limited Geographical location extraction
EP1640876A2 (fr) * 2004-09-24 2006-03-29 Microsoft Corporation Procédé, système et dispositif de traitement d'information à base de la reconnaissance des chaînes de caractères sémantiquement étiquetées
US20070099626A1 (en) * 2005-10-31 2007-05-03 Honeywell International Inc. Tracking system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108213A1 (en) * 2003-11-13 2005-05-19 Whereonearth Limited Geographical location extraction
EP1640876A2 (fr) * 2004-09-24 2006-03-29 Microsoft Corporation Procédé, système et dispositif de traitement d'information à base de la reconnaissance des chaînes de caractères sémantiquement étiquetées
US20070099626A1 (en) * 2005-10-31 2007-05-03 Honeywell International Inc. Tracking system and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C. BRUN, C. HAGEGE: "Semantically-Driven Extraction of Relations between Named Entities", CICLING 2009 (INTERNATIONAL CONFERENCE ON INTELLIGENT TEXT PROCESSING AND COMPUTATIONAL LINGUISTICS),, 1 March 2009 (2009-03-01) - 7 March 2009 (2009-03-07), Mexico, XP002582527, Retrieved from the Internet <URL:http://www.xrce.xerox.com/layout/set/print/Research-Development/Publications/(offset)/30> [retrieved on 20100518] *
POULIQUEN B., STEINBERGER R., KIMLER M. ET AL: "Geocoding multilingual texts: Recognition, Disambiguation and Visualisation", PROCEEDINGS OF THE 5TH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC-2006), 24 May 2006 (2006-05-24) - 26 May 2006 (2006-05-26), Genova, pages 53 - 58, XP002582526, Retrieved from the Internet <URL:http://arxiv.org/abs/cs/0609065> [retrieved on 20100518] *

Also Published As

Publication number Publication date
WO2011012834A2 (fr) 2011-02-03
EP2460093A2 (fr) 2012-06-06
WO2011012834A3 (fr) 2011-04-07
FR2948791B1 (fr) 2016-09-30

Similar Documents

Publication Publication Date Title
US20200258508A1 (en) Interfacing between digital assistant applications and navigation applications
US11750875B2 (en) Providing visual content editing functions
US9536202B2 (en) Identifying geospatial patterns from device data
US10078743B1 (en) Cross identification of users in cyber space and physical world
US20100082427A1 (en) System and Method for Context Enhanced Ad Creation
EP2823255B1 (fr) Procede de communication et d&#39;informations en realite augmentee
WO2017019468A1 (fr) Pavés virtuels pour une recommandation de contenu de service
Croitoru et al. Geoinformatics and social media: New big data challenge
US20220292154A1 (en) Automated sentiment analysis and/or geotagging of social network posts
EP3607274B1 (fr) Interfaçage entre des applications d&#39;assistant numérique et des applications de navigation
Liao et al. Big data‐enabled social sensing in spatial analysis: Potentials and pitfalls
Musaev et al. Landslide detection service based on composition of physical and social information services
JP2017199225A (ja) 災害情報選択装置およびその方法
Girardin et al. Uncovering the presence and movements of tourists from user-generated content
FR2929467A1 (fr) Procede de transmission d&#39;informations presentant une pertinence geographique vis-a-vis de la position d&#39;un utilisateur mobile
WO2019200044A1 (fr) Système et procédé de recherche assistée par ia basée sur des évènements et un emplacement
FR2948791A1 (fr) Systeme de geolocalisation par analyse linguistique
Nica-Avram et al. Fims: Identifying, predicting and visualising food insecurity
Pinedo-Escatel et al. Natural History Collections as Resources for Assessing Biodiversity Hotspots and Insect Declines: Case Studies, Opportunities, and Challenges
US9111282B2 (en) Method and system for identifying business records
FR3055726A1 (fr) Procede et dispositif de recherche d’un lieu
CN108614835A (zh) 一种基于海量数据的位置信息提取方法和装置
KR101006155B1 (ko) 검색 질의와 일치하는 개인정보 제공 시스템 및 이를이용한 서비스 방법
Hannay Geo Forensics: Classes of locational data sources for embedded devices
FR3037427A1 (fr) Procede et dispositif de recherche d’un lieu

Legal Events

Date Code Title Description
TP Transmission of property

Owner name: GEOLSEMANTICS, FR

Effective date: 20111123

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

PLFP Fee payment

Year of fee payment: 11

PLFP Fee payment

Year of fee payment: 12

PLFP Fee payment

Year of fee payment: 13

TP Transmission of property

Owner name: DEVERYWARE, FR

Effective date: 20220519

PLFP Fee payment

Year of fee payment: 14

ST Notification of lapse

Effective date: 20240305