EP2460093A2 - Linguistic-analysis-based geopositioning system - Google Patents

Linguistic-analysis-based geopositioning system

Info

Publication number
EP2460093A2
EP2460093A2 EP10762962A EP10762962A EP2460093A2 EP 2460093 A2 EP2460093 A2 EP 2460093A2 EP 10762962 A EP10762962 A EP 10762962A EP 10762962 A EP10762962 A EP 10762962A EP 2460093 A2 EP2460093 A2 EP 2460093A2
Authority
EP
European Patent Office
Prior art keywords
data
agents
actions
linguistic
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP10762962A
Other languages
German (de)
French (fr)
Inventor
Mathieu Guidere
Christian Fluhr
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geolsemantics
Original Assignee
Geolsemantics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Geolsemantics filed Critical Geolsemantics
Publication of EP2460093A2 publication Critical patent/EP2460093A2/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/0009Transmission of position information to remote stations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the invention relates to the multilingual localization of an agent in time and space from a linguistic analysis of digital data transiting over a communication network.
  • the digital data includes linguistic data and metadata about the agent.
  • the agent may be at the origin of the digital data and / or be the subject of the linguistic data contained in the digital data.
  • Cross-language information retrieval which consists of formulating a query in a source language and searching for relevant documents in target languages, or searching for information in Multi Lingual Information Retrieval (MLIR), which consists of formulating a query in a source language and searching for relevant documents in all languages, allows both to enter queries and to obtain documents in different languages, but they do not make it possible to know exactly where and when specific data is contained in a particular document or associated with specific information in the linguistic data.
  • agent means a person or group of persons by whom an action is performed or will be performed
  • Linguistic data consists of a word or groups of words, categorizable in classes such as names of persons, names of organizations, institutions or enterprises, place names, quantities, distances, etc. ;
  • Metadata are data about the characteristics of a digital data such as the file type, the type of transmitter, the identity of the sender or transmitting equipment, the language of transmission, etc.
  • the invention relates more particularly to the metadata relating to the place of issue and the date and time of transmission of the data concerning the agent.
  • the invention overcomes this need with geolinguistic localization technology that prioritizes the spatiotemporal information present in the linguistic data and the associated metadata contained in the digital data.
  • the invention relates to an analysis system receiving, as input, digital data that comprises linguistic data that can be analyzed by linguistic processing, as well as metadata associated with their transmission, the system comprising: a data processing engine; linguistic analysis to analyze linguistic data from a semantic point of view and to qualify them from the point of view of space, time, agents and actions; an extraction engine for extracting, from the analyzed linguistic data and the spatiotemporal metadata associated with the transmission, data relating to the space and the time of agents'actions; a determination engine, from the extracted data, of the spatio-temporal location of the actions of the agents; a representation engine to represent, on a geographical map, the spatio-temporal location of the agents' actions.
  • the language analysis engine is a multilingual engine
  • the system receives as input data from a communication network
  • - digital data comes from Internet sites, blogs, forums, RSS feeds, instant messengers, e-mail services.
  • the invention relates to a method for analyzing digital data that includes linguistic data that can be analyzed by linguistic processing, as well as metadata associated with the transmission of these linguistic data, in which The following processing steps are carried out: linguistic data are analyzed from a semantic point of view to qualify them from the point of view of space, time, agents and actions; from the linguistic data analyzed and the spatio-temporal metadata associated with the program, data relating to the space and time of the agents' actions are extracted; the spatio-temporal location of the actions of the agents is determined from the extracted data; the spatial and temporal location of the actions of the agents is represented on a geographical map.
  • the data relating to the space and time of the agents' actions are compared with one another to evaluate their authenticity and / or; - we sort the data relating to the space and time of the actions of the agents to highlight, on all of these data, groupings of data according to at least one of their characteristic of time, space, action, agent;
  • the data relating to the space and time of the agents' actions are selected from only one of their characteristic of time, space, action, agent;
  • the determination of the spatio-temporal location being made from the authenticated extracted data and / or from the groupings obtained and / or from the selection thus made.
  • the invention relates to a computer program comprising machine instructions for implementing the method according to the second aspect of the invention.
  • FIG. 1 illustrates an embodiment of an analysis system for geolinguistic localization.
  • FIG. 2 schematically illustrates an analysis method implemented using the analysis system for geolinguistic localization
  • FIGS. 3 to 5 illustrate examples of analysis for the geolinguistic location. DETAILED DESCRIPTION OF THE INVENTION
  • Geolinguistic localization is a form of strategic intelligence that combines the principles of physical geolocation with the techniques of advanced linguistic analysis.
  • the basic principle is to go back to the physical source of the information sought by following the path that was used to propagate it, based on a cross-check of language indices of this information in several languages and metadata relating to its support. diffusion.
  • a spatial-temporal reference is derived from the data and / or metadata, allowing the information to be located at a given moment and in a specific place.
  • This reference makes it possible to have a representation at the same time spatial and temporal of the actions and the relations which exist between the emitters, the receivers and the relays of the information.
  • the linguistic data and the metadata concerning the supports of the actions and the relations can come from open sources freely accessible by internet or coming from legal interception.
  • Open source means freely accessible sites, agency sites, blogs, online videos, streaming television, social networks, RSS feeds, information accessed by engines search, information obtained by querying a specialized site (invisible web).
  • the linguistic data can be of private type and are processed only in the context of legal interceptions.
  • Principal data refers to data coming from electronic mail, oral conversations according to different channels, SMS, VoIP.
  • a user 1 transmits digital data D N on a communication network 3 by means of a communication device 2.
  • the digital data D N comprise linguistic data M L able to be analyzed by linguistic processing as well as spatio-temporal metadata M 0 , the digital data D N are received by the analysis system and are open or private.
  • the analysis system consists of the following elements:
  • the motors 10, 20, 30, 40, 50 can be connected to each other by means of a wired or wireless connection. They may be located at the same place or in different locations and may be under implemented as software stored on a CD-ROM type digital medium, key
  • USB or any other known type of storage medium.
  • a coordination module (not shown) makes it possible to update the transmitted data and to control the adequacy of the results to the requests to ensure the coherence and updating of the system .
  • Motor 10 for acquiring digital data DN The functions of the motors 10, 20, 30, 40, 50 are described below.
  • Motor 10 for acquiring digital data DN The functions of the motors 10, 20, 30, 40, 50 are described below.
  • the digital data acquisition engine D N makes it possible to acquire E 0 of digital data D N via a search by means of a search engine accessible on the Internet or by listening to the communication network 3.
  • the communication network 3 is, for example, a mobile communication cellular network, the Internet network, a corporate network, type Intranet or any other type of known network capable of conveying digital data D N.
  • the digital data D N are, for example, supported by an SMS sent by means of, for example, a mobile terminal 2 (as in the example illustrated in FIG. 1), an email or a voice message.
  • these digital data D N can be supported by any digital medium that can support linguistic data M L.
  • the linguistic analysis engine 20 analyzes Ei the linguistic data D L from a semantic point of view and qualifies them from the point of view of the space S, the time T, the agents A and the actions A c .
  • the analysis E 1 and the analysis engine 20 are based on a multilingual morphosyntactic analysis software which recognizes the agents A (names of persons, place names, name of organizations, data of date type and hour, numerical amounts with their unit), the actions A c (agent of the action, action, object of the action, and the circumstantial of time, place, instrument, manner, etc.).
  • agents A names of persons, place names, name of organizations, data of date type and hour, numerical amounts with their unit
  • the actions A c agents of the action, action, object of the action, and the circumstantial of time, place, instrument, manner, etc.
  • the set is standardized (for example, for people, the different spellings of these names are identified regardless of the language and the character set) and, during the analysis Ei, the ambiguities concerning the places according to the context and M 0 metadata by detecting the language L used, are raised.
  • the system thus makes it possible to analyze, from the linguistic data, the agents concerned ("On") and the nature of the action ("sees itself”), then, from the metadata, to know the identity of the agents (by their phone numbers) and the spatio-temporal coordinates of the appointment ("within an hour”).
  • the engine 30 extracts E 2 , from the linguistic data D L analyzed by the analysis engine 20 and space-time metadata M 0 associated with the transmission, data relating to the space and time of the actions Ac and Agents A.
  • This engine 30 makes it possible to locate in time T and in space S the data relating to the space and time of actions A c and agents A.
  • access sites containing digital data are listed and acquisition of Numeric data via search engines are based on defined criteria.
  • the message in the example above was issued using a mobile terminal "We see each other in an hour at Montparnasse station".
  • the metadata M 0 will identify the caller and called and the date and time of the call.
  • the caller and the called party are the agents and can be identified by their telephone number, and the relationship between the two is the rendezvous set in a given location: relocation of at least one of the two agents at Montparnasse station.
  • the result of the extraction of the digital data D N is as follows.
  • the system thus makes it possible to extract, through the analysis of the linguistic data, the agents concerned ("On") and the nature of the action ("sees itself”), then, thanks to the metadata, to know the identity agents (by their phone numbers) and calculate the time of the appointment ("in an hour"), thanks to an inference from the spatio-temporal metadata of the emission and the reception.
  • the motor 40 determines E 3 , from the extracted data (S, T, A c , A), the location of the Ac actions of the agents A.
  • the determination E 3 implemented in this engine 40 may further consist in implementing an authentication E 3 i, a profiling E 32 , a targeting E 33 of the data relating to the space S and to the time T of the actions A c Agents A.
  • the authentication E 3 i, the profiling E 32 , the targeting E 33 can be seen as a filtering of the data.
  • the authentication E 3 i, the profiling E 32 and the targeting E 33 are optional and are implemented after the extraction E 2 . They can be implemented successively or alternatively.
  • the determination E 3 of the spatio-temporal location is performed from the authenticated extracted data and / or from the groupings obtained by the profiling and / or from the selection made by the targeting.
  • Authentication E ⁇ it is a question of comparing data relating to the space S and time T of the actions A c of the agents A.
  • an agent A is a natural person located in
  • authentication consists of verifying the identity of the agent by exploring its attributes (time, relationships, actions, etc.) in the available linguistic data D L.
  • the authentication consists of searching in the linguistic data D L in several languages M L , actions A c and relationships associated with the agent.
  • the authentication consists of comparing the multilingual linguistic data M L and the metadata M 0 to ensure that there are no contradictions of the type: for an agent to be in two different places at the same time .
  • the system searches for all the forms under which this name appears in several languages M L , then it searches all the documents or data relating to these forms. by recovering, for each piece of data found, the positioning and location indices, both internal (places and dates indicated in the documents) and external (geo-positional data of the network that carries them). After this research phase, the data is cross-checked to extract those relating to the actions that the agent is about to perform or has already performed.
  • Prof i lape Ez? it is a question of sorting the data relating to the space S and the time T of the actions Ac of the agents to highlight, on the set of these data, groupings according to at least one of their characteristic of time T, space S, action A c , agent A.
  • profiling starts from the set of multilingual linguistic data M L in several languages L to extract, thanks to linguistic rules, the only data relating to places (geographic, urban, territorial landmarks %) and agents A.
  • Profiling includes three levels of analysis.
  • the first level is that of the general exploration of multilingual linguistic data M L in several languages L, focusing on the actions A c in the multilingual linguistic data M L and on the geo-positional information in the metadata M D.
  • the second level of analysis is that of sorting the data according to metadata indices M 0 (place and time of transmission) and data indices (relations and actions of the agent).
  • the determination engine 40 starts from the data available to go back to salient data, then to reveal a phenomenon or an agent (not or little known), providing the maximum of spatio-temporal indications on its location from multilingual linguistic data M L and metadata Mp.
  • the input data is a set of documents that one seeks to organize.
  • the data obtained by profiling is a set of semantic relations between actions and agents having links between them.
  • Target E ⁇ _ It is a question of selecting the multilingual linguistic data M L relating to the space S and to the time T of the actions Ac of the agents A from only one of their characteristic of time T, space S, action A c , agent A.
  • the targeting consists of aiming, by linguistic analysis, a particular type of data (action Ac, relation R) and looking for this multilingual linguistic data item M L in several languages and on various types of supports.
  • the input data is a type of action Ac that is searched in priority.
  • the data obtained by targeting is a particular type of semantic relationship between the action sought and agents with links to each other.
  • the motor 50 of representation E 4 makes it possible to display on a geographical map 60 the spatio-temporal location of the actions of the agents.
  • This representation engine 50 makes it possible in particular to align the markers of a geographical map with the spatiotemporal data resulting from the analysis of the multilingual linguistic data M L , by locating the data extracted from each other and by visualizing their links. in time and space.
  • Standardized locations are associated with geographic coordinates in longitude and latitude, which allows them to be represented on a geographic map 60 (for example, using Googlemap TM or any other device of the same type).
  • Example 1 Geolinguistic Location from the Internet
  • the system makes it possible to detect this language and to extract the spatio-temporal indices making it possible to locate the threat, to cross-check these internal indices with the metadata and external information of the connection (IP / DNS), the server and managers, finally to visualize on a map the places and links between individuals who have spoken or endorsed the content of said forum.
  • the system makes it possible to detect this language and to extract the spatio-temporal indices making it possible to locate the transmitting agent, to cross-check these internal indices with the metadata (for example the international mobile equipment identity (in English "International Mobile Equipment Identity ", IMEI) and the external information of the SMS in question (GSM information, GPRS), in order to visualize on a geographical map the places and links between individuals who have received or shared the content of said SMS.
  • the metadata for example the international mobile equipment identity (in English "International Mobile Equipment Identity ", IMEI) and the external information of the SMS in question (GSM information, GPRS), in order to visualize on a geographical map the places and links between individuals who have received or shared the content of said SMS.
  • the system identifies the following message "we see you tomorrow in front of Montparnasse station", this message was sent on 2/07/2010 at 10h52.
  • the system retains an SMS of the two and identifies the associated metadata as well as AC actions, agents A and the space S.
  • the system makes it possible to detect this language and to extract the spatio-temporal indices making it possible to locate the threat, to cross-check these internal indices with the metadata and external information of the mailing in question (network information), finally to visualize on a map the places and the links between individuals having received or shared the content of said Email.
  • two Emails 51, 52 transit over a communication network and a multilingual search of an agent is carried out.
  • the system then keeps one of the two emails and identifies the associated metadata as well as the AC actions, the A agents, and the S space.
  • Time T "last Thursday, tomorrow”.
  • Time T time coordinates (date and time) of transmission and reception of
  • the system thus makes it possible to locate, through the analysis of the linguistic data and the metadata, the agents concerned, to know the identity of the agents (by their telephone numbers) and to calculate the moment ("tomorrow"), thanks to an inference from the spatio-temporal metadata of transmission and reception.
  • Example 4 Geolinguistic Location from a Telephone Communication (Including VoIP)
  • the system makes it possible to detect this language from the transcription that will be made and extract the spatio-temporal indices for locating the threat, to intersect these internal indices with the metadata and external information of geopositioning (VoIP, GSM, GPRS, GPS), finally to visualize on a map the places and the links between individuals having received or shared this communication.
  • the system makes it possible to detect the threat by a linguistic analysis, to go back to the resource supporting the threat and to locate the transmitter and the potential receivers in time and in space, starting from the language production contained in the relays.

Abstract

The invention relates to the multilingual positioning of an agent in time and space based on a linguistic analysis of data and metadata concerning digital data relating to the characteristics of the agent. The invention is suitable for both civil and military use for the analysis, authentication, profiling and targeting of agents producing speech characterised by a specific action.

Description

SYSTEME DE GEOLOCALISATION PAR ANALYSE LINGUISTIQUE  LINGUISTIC ANALYSIS GEOLOCATION SYSTEM
DOMAINE TECHNIQUE GENERAL GENERAL TECHNICAL FIELD
L'invention concerne la localisation multilingue d'un agent dans le temps et dans l'espace à partir d'une analyse linguistique de données numériques transitant sur un réseau de communication. Les données numériques comprennent des données linguistiques et des métadonnées relatives à l'agent. L'agent peut être à l'origine des données numériques et/ou faire l'objet des données linguistiques contenues dans les données numériques.  The invention relates to the multilingual localization of an agent in time and space from a linguistic analysis of digital data transiting over a communication network. The digital data includes linguistic data and metadata about the agent. The agent may be at the origin of the digital data and / or be the subject of the linguistic data contained in the digital data.
ETAT DE LA TECHNIQUE STATE OF THE ART
L'accès à l'information électronique disponible en ligne présente aujourd'hui une limitation importante : l'absence de localisation spatio- temporelle des données en fonction de la langue de recherche et d'accès.  Access to electronic information available online today has an important limitation: the lack of spatiotemporal location of data according to the language of search and access.
La recherche d'information en mode crosslingue (en anglais, « Cross Language Information Retheval » (CLIR), qui consiste à formuler une requête dans une langue source et à rechercher des documents pertinents dans des langues cibles, ou la recherche d'information en mode multilingue (en anglais, « Multi Lingual Information Retrieval » (MLIR), qui consiste à formuler une requête dans une langue source et à rechercher des documents pertinents dans toutes les langues, permettent tous deux d'entrer des requêtes et d'obtenir des documents dans différentes langues mais elles ne permettent pas de connaître avec précision ni le lieu ni la date d'émission d'une donnée spécifique contenue dans un document en particulier ou associée à une information spécifique dans les données linguistiques.  Cross-language information retrieval (CLIR), which consists of formulating a query in a source language and searching for relevant documents in target languages, or searching for information in Multi Lingual Information Retrieval (MLIR), which consists of formulating a query in a source language and searching for relevant documents in all languages, allows both to enter queries and to obtain documents in different languages, but they do not make it possible to know exactly where and when specific data is contained in a particular document or associated with specific information in the linguistic data.
Ainsi, les systèmes existants ne permettent pas de connaître la localisation du contenu documentaire ni les implications de cette localisation des données selon les langues d'accès et les langues de consultation. PRESENTATION DE L'INVENTION Thus, the existing systems do not make it possible to know the location of the documentary content nor the implications of this location of the data according to the languages of access and the languages of consultation. PRESENTATION OF THE INVENTION
II n'existe à ce jour aucun système permettant de localiser dans le temps et dans l'espace une donnée spécifique concernant un agent à partir d'une analyse linguistique de données numériques comprenant des caractéristiques relatives à l'agent.  There is currently no system for locating in time and space specific data about an agent from a linguistic analysis of digital data including characteristics relating to the agent.
On précise ici que :  We specify here that:
- l'on entend par agent une personne ou un groupe de personne par qui une action est accomplie ou sera accomplie ;  - the term "agent" means a person or group of persons by whom an action is performed or will be performed;
- Les données linguistiques consistent en un mot ou groupes de mots, catégorisables dans des classes telles que noms de personnes, noms d'organisations, d'institutions ou d'entreprises, noms de lieux, quantités, distances, etc. ;  - Linguistic data consists of a word or groups of words, categorizable in classes such as names of persons, names of organizations, institutions or enterprises, place names, quantities, distances, etc. ;
- les métadonnées sont des données au sujet des caractéristiques d'une donnée numérique telles que le type de fichier, le type d'émetteur, l'identité de l'émetteur ou du matériel d'émission, la langue d'émission, etc. L'invention concerne plus particulièrement les métadonnées relatives au lieu d'émission et à la date et à l'heure d'émission des données concernant l'agent.  - metadata are data about the characteristics of a digital data such as the file type, the type of transmitter, the identity of the sender or transmitting equipment, the language of transmission, etc. The invention relates more particularly to the metadata relating to the place of issue and the date and time of transmission of the data concerning the agent.
L'invention permet de pallier ce besoin grâce à la technologie de localisation géolinguistique qui traite prioritairement les informations spatiotemporelles présentes dans les données linguistiques et les métadonnées associées contenues dans les données numériques.  The invention overcomes this need with geolinguistic localization technology that prioritizes the spatiotemporal information present in the linguistic data and the associated metadata contained in the digital data.
Selon un premier aspect, l'invention concerne un système d'analyse recevant en entrée des données numériques qui comportent des données linguistiques aptes à être analysées par un traitement linguistique, ainsi que des métadonnées associées à leur émission, le système comprenant : un moteur d'analyse linguistique pour analyser les données linguistiques d'un point de vue sémantique et les qualifier du point de vue de l'espace, du temps, des agents et des actions ; un moteur d'extraction pour extraire, à partir des données linguistiques analysées et des métadonnées spatiotemporelles associées à l'émission, des données relatives à l'espace et au temps des actions des agents ; un moteur de détermination, à partir des données extraites, de la localisation spatio-temporelle des actions des agents ; un moteur de représentation pour, représenter sur une carte géographique, la localisation spatio-temporelle des actions des agents. According to a first aspect, the invention relates to an analysis system receiving, as input, digital data that comprises linguistic data that can be analyzed by linguistic processing, as well as metadata associated with their transmission, the system comprising: a data processing engine; linguistic analysis to analyze linguistic data from a semantic point of view and to qualify them from the point of view of space, time, agents and actions; an extraction engine for extracting, from the analyzed linguistic data and the spatiotemporal metadata associated with the transmission, data relating to the space and the time of agents'actions; a determination engine, from the extracted data, of the spatio-temporal location of the actions of the agents; a representation engine to represent, on a geographical map, the spatio-temporal location of the agents' actions.
D'autres aspects du système selon le premier aspect de l'invention sont les suivants :  Other aspects of the system according to the first aspect of the invention are as follows:
- le moteur d'analyse linguistique est un moteur multilingue ;  - the language analysis engine is a multilingual engine;
- le système reçoit en entrée des données issues d'un réseau de communication ;  the system receives as input data from a communication network;
- les données numériques sont issues de sites Internet, de blogs, de forums, de flux RSS, de messageries instantanées, de services de messagerie électronique.  - digital data comes from Internet sites, blogs, forums, RSS feeds, instant messengers, e-mail services.
Selon un second aspect, l'invention concerne un procédé d'analyse de données numériques qui comportent des données linguistiques aptes à être analysées par un traitement linguistique, ainsi que des métadonnées associées à l'émission de ces données linguistiques, dans lequel on met en œuvre les étapes de traitement suivantes : on analyse les données linguistiques d'un point de vue sémantique pour les qualifier du point de vue de l'espace, du temps, des agents et des actions ; on extrait, à partir des données linguistiques analysées et des métadonnées spatio-temporelles associées à l'émission, des données relatives à l'espace et au temps des actions des agents ; on détermine, à partir des données extraites, la localisation spatio-temporelle des actions des agents ; on représente sur une carte géographique la localisation spatio-temporelle des actions des agents.  According to a second aspect, the invention relates to a method for analyzing digital data that includes linguistic data that can be analyzed by linguistic processing, as well as metadata associated with the transmission of these linguistic data, in which The following processing steps are carried out: linguistic data are analyzed from a semantic point of view to qualify them from the point of view of space, time, agents and actions; from the linguistic data analyzed and the spatio-temporal metadata associated with the program, data relating to the space and time of the agents' actions are extracted; the spatio-temporal location of the actions of the agents is determined from the extracted data; the spatial and temporal location of the actions of the agents is represented on a geographical map.
D'autres aspects du procédé selon le second aspect de l'invention sont les suivants :  Other aspects of the method according to the second aspect of the invention are as follows:
après l'extraction :  after the extraction:
- on compare entre elles les données relatives à l'espace et au temps des actions des agents pour en évaluer l'authenticité et/ou ; - on trie les données relatives à l'espace et au temps des actions des agents pour mettre en évidence, sur l'ensemble de ces données, des regroupements de données en fonction d'au moins une de leur caractéristique de temps, espace, action, agent ; the data relating to the space and time of the agents' actions are compared with one another to evaluate their authenticity and / or; - we sort the data relating to the space and time of the actions of the agents to highlight, on all of these data, groupings of data according to at least one of their characteristic of time, space, action, agent;
- on sélectionne les données relatives à l'espace et au temps des actions des agents à partir d'une seule de leur caractéristique de temps, espace, action, agent ;  the data relating to the space and time of the agents' actions are selected from only one of their characteristic of time, space, action, agent;
la détermination de la localisation spatio-temporelle étant effectuée à partir des données extraites authentifiées et/ou à partir des regroupements obtenus et/ou à partir de la sélection ainsi effectuée.  the determination of the spatio-temporal location being made from the authenticated extracted data and / or from the groupings obtained and / or from the selection thus made.
Selon un troisième aspect, l'invention concerne un programme d'ordinateur comprenant des instructions machine pour la mise en œuvre du procédé selon le second aspect de l'invention.  According to a third aspect, the invention relates to a computer program comprising machine instructions for implementing the method according to the second aspect of the invention.
PRESENTATION DES FIGURES PRESENTATION OF FIGURES
D'autres caractéristiques et avantages de l'invention ressortiront encore de la description qui suit laquelle est purement illustrative et non limitative et doit être lue en regard des dessins annexés sur lesquels :  Other features and advantages of the invention will become apparent from the description which follows, which is purely illustrative and nonlimiting, and should be read with reference to the accompanying drawings in which:
- la figure 1 illustre un mode de réalisation d'un système d'analyse pour la localisation géolinguistique. ;  FIG. 1 illustrates an embodiment of an analysis system for geolinguistic localization. ;
- la figure 2 illustre, de manière schématique, un procédé d'analyse mis en œuvre au moyen du système d'analyse pour la localisation géolinguistique ;  FIG. 2 schematically illustrates an analysis method implemented using the analysis system for geolinguistic localization;
- les figures 3 à 5 illustrent des exemples d'analyse pour la localisation géolinguistique. DESCRIPTION DETAILLEE DE L'INVENTION  FIGS. 3 to 5 illustrate examples of analysis for the geolinguistic location. DETAILED DESCRIPTION OF THE INVENTION
Généralités Overview
Un système d'analyse pour la localisation géolinguistique permet de définir le lieu et le moment d'émission d'une information spécifique dans une langue donnée et à l'intérieur d'un document considéré. La localisation géolinguistique est une forme de veille stratégique qui combine les principes de la géolocalisation physique avec les techniques de l'analyse linguistique avancée. An analysis system for geolinguistic localization makes it possible to define the place and time of transmission of specific information in a given language and within a document considered. Geolinguistic localization is a form of strategic intelligence that combines the principles of physical geolocation with the techniques of advanced linguistic analysis.
Le principe de base est de remonter à la source physique de l'information recherchée en suivant le chemin qui a servi à la propager, à partir d'un recoupement des indices langagiers de cette information dans plusieurs langues et des métadonnées relatives à son support de diffusion.  The basic principle is to go back to the physical source of the information sought by following the path that was used to propagate it, based on a cross-check of language indices of this information in several languages and metadata relating to its support. diffusion.
À chaque étape de l'analyse linguistique est affecté un repère spatiotemporel issu des données et/ou des métadonnées, permettant de situer l'information considérée, à un moment donné et dans un lieu précis.  At each stage of the linguistic analysis, a spatial-temporal reference is derived from the data and / or metadata, allowing the information to be located at a given moment and in a specific place.
Ce repère permet d'avoir une représentation à la fois spatiale et temporelle des actions et des relations qui existent entre les émetteurs, les récepteurs et les relais des informations.  This reference makes it possible to have a representation at the same time spatial and temporal of the actions and the relations which exist between the emitters, the receivers and the relays of the information.
Les données linguistiques et les métadonnées concernant les supports des actions et des relations peuvent provenir de sources ouvertes accessibles librement par internet ou être issues d'interception légales.  The linguistic data and the metadata concerning the supports of the actions and the relations can come from open sources freely accessible by internet or coming from legal interception.
On entend par « source ouverte », des sites librement accessibles à savoir, des sites d'organismes, des blogs, des vidéos en ligne, de la télévision en flux continu, de réseaux sociaux, des flux RSS, des informations accédées par des moteurs de recherche, des informations obtenues par interrogation d'un site spécialisé (web invisible).  Open source means freely accessible sites, agency sites, blogs, online videos, streaming television, social networks, RSS feeds, information accessed by engines search, information obtained by querying a specialized site (invisible web).
Les données linguistiques peuvent être de type privé et ne sont traitées que dans le cadre d'interceptions légales.  The linguistic data can be of private type and are processed only in the context of legal interceptions.
On entend par « données privées » les données issues de messagerie électronique, de conversations orales selon différents canaux, de SMS, de VoIP.  "Private data" refers to data coming from electronic mail, oral conversations according to different channels, SMS, VoIP.
Description du système d'analyse pour la localisation qéolinquistique et du procédé d'analyse Description of the analysis system for the linguistic localization and the analysis method
On décrit ci-dessous un exemple de mise en œuvre de l'invention en relation avec les figures 1 à 5. Un utilisateur 1 émet des données numériques DN sur un réseau de communication 3 au moyen d'un dispositif de communication 2. An example embodiment of the invention is described below with reference to FIGS. 1 to 5. A user 1 transmits digital data D N on a communication network 3 by means of a communication device 2.
Les données numériques DN comprennent des données linguistiques ML aptes à être analysées par un traitement linguistique ainsi que des métadonnées spatio-temporelles M0, les données numériques DN sont reçues par le système d'analyse et sont ouvertes ou privées. The digital data D N comprise linguistic data M L able to be analyzed by linguistic processing as well as spatio-temporal metadata M 0 , the digital data D N are received by the analysis system and are open or private.
Le système d'analyse est composé des éléments suivants :  The analysis system consists of the following elements:
un moteur 10 d'acquisition des données numériques DN ; a digital data acquisition engine D N ;
- un moteur 20 d'analyse linguistique ;  a linguistic analysis engine;
- un moteur 30 d'extraction ;  an extraction motor;
un moteur 40 de détermination de la localisation des actions des agents ;  a motor 40 for determining the location of the agents' actions;
- un moteur 50 de représentation.  a motor 50 of representation.
Les moteurs 10, 20, 30, 40, 50 peuvent être connectés entre eux au moyen d'une connexion filaire ou sans fil. Ils peuvent être situés au même endroit ou à des endroits différents et peuvent être sous implémenté sous la forme d'un logiciel stocké sur un support numérique de type CD-ROM, clé The motors 10, 20, 30, 40, 50 can be connected to each other by means of a wired or wireless connection. They may be located at the same place or in different locations and may be under implemented as software stored on a CD-ROM type digital medium, key
USB ou tout autre support de stockage de type connu. USB or any other known type of storage medium.
Entre chaque moteur 10, 20, 30, 40, 50, un module de coordination (non représenté) permet de mettre à jour les données transmises et de contrôler l'adéquation des résultats aux requêtes pour assurer la cohérence et la mise à jour du système.  Between each engine 10, 20, 30, 40, 50, a coordination module (not shown) makes it possible to update the transmitted data and to control the adequacy of the results to the requests to ensure the coherence and updating of the system .
On décrit ci-dessous les fonctions des moteurs 10, 20, 30, 40, 50. Moteur 10 d'acquisition des données numériques DN  The functions of the motors 10, 20, 30, 40, 50 are described below. Motor 10 for acquiring digital data DN
Le moteur 10 d'acquisition des données numériques DN permet d'acquérir E0 des données numériques DN via une recherche au moyen d'un moteur de recherche accessible sur le réseau Internet ou bien par écoute du réseau de communication 3. The digital data acquisition engine D N makes it possible to acquire E 0 of digital data D N via a search by means of a search engine accessible on the Internet or by listening to the communication network 3.
Le réseau de communication 3 est par exemple, un réseau cellulaire de communication mobile, le réseau Internet, un réseau d'entreprise, type Intranet ou tout autre type de réseau connu pouvant véhiculer des données numériques DN. The communication network 3 is, for example, a mobile communication cellular network, the Internet network, a corporate network, type Intranet or any other type of known network capable of conveying digital data D N.
Les données numériques DN sont par exemple supportées par un SMS émis au moyen, par exemple, d'un terminal mobile 2 (comme dans l'exemple illustré sur la figure 1 ), d'un email ou encore d'un message vocal. The digital data D N are, for example, supported by an SMS sent by means of, for example, a mobile terminal 2 (as in the example illustrated in FIG. 1), an email or a voice message.
De manière générale, ces données numériques DN peuvent être supportées par tout support numérique pouvant supporter des données linguistiques ML. Moteur 20 d'analyse linguistique In general terms, these digital data D N can be supported by any digital medium that can support linguistic data M L. Linguistic Analysis Engine 20
Le moteur 20 d'analyse linguistique analyse Ei les données linguistiques DL d'un point de vue sémantique et les qualifie du point de vue de l'espace S, du temps T, des agents A et des actions Ac. The linguistic analysis engine 20 analyzes Ei the linguistic data D L from a semantic point of view and qualifies them from the point of view of the space S, the time T, the agents A and the actions A c .
De manière avantageuse, l'analyse E1 et le moteur 20 d'analyse sont fondés sur un logiciel d'analyse morphosyntaxique multilingue qui reconnaît les agents A (noms de personnes, noms de lieux, nom d'organismes, données de type date et heure, montants numériques avec leur unité), les actions Ac (agent de l'action, action, objet de l'action, et les circonstanciels de temps, de lieu, d'instrument, de manière, etc.). Advantageously, the analysis E 1 and the analysis engine 20 are based on a multilingual morphosyntactic analysis software which recognizes the agents A (names of persons, place names, name of organizations, data of date type and hour, numerical amounts with their unit), the actions A c (agent of the action, action, object of the action, and the circumstantial of time, place, instrument, manner, etc.).
L'ensemble est normalisé (par exemple, pour les personnes, on identifie les différentes orthographes de ces noms quelle que soit la langue et le jeu de caractères) et, au cours de l'analyse E-i, les ambiguïtés concernant les lieux en fonction du contexte et des métadonnées M0 en détectant la langue L utilisée, sont levées. The set is standardized (for example, for people, the different spellings of these names are identified regardless of the language and the character set) and, during the analysis Ei, the ambiguities concerning the places according to the context and M 0 metadata by detecting the language L used, are raised.
Par exemple, si les données linguistiques DL sont les suivantes :For example, if the linguistic data D L are the following:
SMS : « On se voit dans une heure à la gare Montparnasse. » le résultat de l'analyse des données numériques DN est reporté dans le tableau suivant. SMS: "We see each other in an hour at Montparnasse station. The result of the analysis of the digital data D N is reported in the following table.
Le système permet ainsi d'analyser, à partir des données linguistiques, les agents concernés (« On ») et la nature de l'action (« se voit »), puis, à partir des métadonnées, de connaître l'identité des agents (par leurs numéros de téléphone) et les coordonnées spatio-temporelles du rendez-vous (« dans une heure »).  The system thus makes it possible to analyze, from the linguistic data, the agents concerned ("On") and the nature of the action ("sees itself"), then, from the metadata, to know the identity of the agents (by their phone numbers) and the spatio-temporal coordinates of the appointment ("within an hour").
Moteur 30 d'extraction 30 extraction engine
Le moteur 30 extrait E2, à partir des données linguistiques DL analysées par le moteur 20 d'analyse et des métadonnées spatio- temporelles M0 associées à l'émission, des données relatives à l'espace et au temps des actions Ac et des agents A. The engine 30 extracts E 2 , from the linguistic data D L analyzed by the analysis engine 20 and space-time metadata M 0 associated with the transmission, data relating to the space and time of the actions Ac and Agents A.
Ce moteur 30 permet de situer dans le temps T et dans l'espace S les données relatives à l'espace et au temps des actions Ac et des agents A. This engine 30 makes it possible to locate in time T and in space S the data relating to the space and time of actions A c and agents A.
De cette façon, il est possible d'obtenir des relations entre ces données.  In this way, it is possible to obtain relationships between these data.
Ces données sont les plus intéressantes du point de vue géolinguistique.  These data are the most interesting from a geolinguistic point of view.
Pour ce qui concerne les sources ouvertes, les sites accèdes contenant les données numériques sont répertoriés et l'acquisition des données numériques via des moteurs recherche portent sur des critères définis. For open sources, access sites containing digital data are listed and acquisition of Numeric data via search engines are based on defined criteria.
Dans le cas de données numériques telles que de la parole, une transformation de la parole en texte est réalisée par un système de reconnaissance automatique de la parole de type connu.  In the case of digital data such as speech, a transformation of speech into text is performed by a known automatic speech recognition system.
Par exemple, le message de l'exemple ci-dessus a été émis au moyen d'un terminal mobile « On se voit dans une heure à la gare Montparnasse ».  For example, the message in the example above was issued using a mobile terminal "We see each other in an hour at Montparnasse station".
Les métadonnées M0 vont permettre d'identifier l'appelant et l'appelé ainsi que la date et l'heure de l'appel. The metadata M 0 will identify the caller and called and the date and time of the call.
L'appelant et l'appelé constituent les agents et peuvent être identifiés au moyen de leur numéro de téléphone, et la relation entre les deux est le rendez-vous fixé dans un lieu donné : déplacement d'au moins l'un des deux agents à la gare Montparnasse.  The caller and the called party are the agents and can be identified by their telephone number, and the relationship between the two is the rendezvous set in a given location: relocation of at least one of the two agents at Montparnasse station.
Le résultat de l'extraction des données numériques DN est le suivant. The result of the extraction of the digital data D N is as follows.
Le système permet ainsi d'extraire, grâce à l'analyse des données linguistiques, les agents concernés (« On ») et la nature de l'action (« se voit »), puis, grâce aux métadonnées, de connaître l'identité des agents (par leurs numéros de téléphone) et de calculer le moment du rendez-vous (« dans une heure »), grâce à une inférence à partir des métadonnées spatio-temporelles de l'émission et de la réception. Moteur 40 de détermination de la localisation des actions des agentsThe system thus makes it possible to extract, through the analysis of the linguistic data, the agents concerned ("On") and the nature of the action ("sees itself"), then, thanks to the metadata, to know the identity agents (by their phone numbers) and calculate the time of the appointment ("in an hour"), thanks to an inference from the spatio-temporal metadata of the emission and the reception. Engine 40 for determining the location of agent actions
Le moteur 40 détermine E3, à partir des données extraites (S, T, Ac, A), la localisation des actions Ac des agents A. The motor 40 determines E 3 , from the extracted data (S, T, A c , A), the location of the Ac actions of the agents A.
Avec l'exemple précédent, si le message a été émis le 10 juillet 2010 à 14h, le procédé permet de déterminer que M.X (appelant) et M.Y (appelé) se sont rencontrés à la gare Montparnasse le 10 juillet à 15h environ.  With the previous example, if the message was sent on July 10, 2010 at 14h, the process makes it possible to determine that M.X (calling) and M.Y (called) met at the Montparnasse station on July 10 at about 15h.
La détermination E3 mise en œuvre dans ce moteur 40 peut en outre consister à mettre en œuvre une authentification E3i, un profilage E32, un ciblage E33 des données relatives à l'espace S et au temps T des actions Ac des agents A. The determination E 3 implemented in this engine 40 may further consist in implementing an authentication E 3 i, a profiling E 32 , a targeting E 33 of the data relating to the space S and to the time T of the actions A c Agents A.
L'authentification E3i, le profilage E32, le ciblage E33 peuvent être vue comme étant un filtrage des données. The authentication E 3 i, the profiling E 32 , the targeting E 33 can be seen as a filtering of the data.
L'authentification E3i, le profilage E32 et le ciblage E33 sont facultatifs et sont mis en œuvre après l'extraction E2. Elles peuvent être mises en œuvre successivement ou alternativement. The authentication E 3 i, the profiling E 32 and the targeting E 33 are optional and are implemented after the extraction E 2 . They can be implemented successively or alternatively.
Ainsi, la détermination E3 de la localisation spatio-temporelle est effectuée à partir des données extraites authentifiées et/ou à partir des regroupements obtenus par le profilage et/ou à partir de la sélection effectuée par le ciblage. Thus, the determination E 3 of the spatio-temporal location is performed from the authenticated extracted data and / or from the groupings obtained by the profiling and / or from the selection made by the targeting.
Authentification E^ : il s'agit de comparer des données relatives à l'espace S et au temps T des actions Ac des agents A. Authentication E ^: it is a question of comparing data relating to the space S and time T of the actions A c of the agents A.
Par exemple, si un agent A est une personne physique située en For example, if an agent A is a natural person located in
Australie et que l'action est « dans une heure, rendez-vous gareAustralia and that the action is "in an hour, rendez-vous station
Montparnasse » les données ne seront pas authentifiées et seront exclues. En revanche, si les métadonnées relatives à ce même agent indiquent qu'il est à Paris, l'authentification sera positive et les données seront conservées. Montparnasse »the data will not be authenticated and will be excluded. On the other hand, if the metadata relating to this same agent indicates that it is in Paris, the authentication will be positive and the data will be kept.
De manière plus générale, l'authentification consiste à vérifier l'identité de l'agent en explorant ses attributs (temps, relations, actions...) dans les données linguistiques DL disponibles. Dans un premier temps, l'authentification consiste à rechercher dans les données linguistiques DL en plusieurs langues ML, des actions Ac et des relations associées à l'agent. More generally, authentication consists of verifying the identity of the agent by exploring its attributes (time, relationships, actions, etc.) in the available linguistic data D L. In a first step, the authentication consists of searching in the linguistic data D L in several languages M L , actions A c and relationships associated with the agent.
Dans un second temps, l'authentification consiste à comparer les données linguistiques multilingues ML et les métadonnées M0 pour s'assurer qu'il n'existe pas de contradictions du type : pour un agent se trouver à deux endroits différents au même moment. In a second step, the authentication consists of comparing the multilingual linguistic data M L and the metadata M 0 to ensure that there are no contradictions of the type: for an agent to be in two different places at the same time .
Dans l'authentification, on part de l'agent et on recherche toutes les données disponibles le concernant, sur tous types de supports, en intégrant pour chaque donnée pertinente l'indication spatio-temporelle présente dans les données linguistiques multilingues ML et dans les métadonnées MD. In authentication, we start from the agent and search for all available data concerning it, on all types of media, by integrating for each relevant piece of data the spatio-temporal indication present in the multilingual linguistic data M L and in the metadata M D.
En pratique, si on considère un agent A, à partir du nom connu avec certitude de cet agent, le système recherche toutes les formes sous lesquelles apparaît ce nom dans plusieurs langues ML, ensuite il recherche tous les documents ou données relatives à ces formes de nom en récupérant, pour chaque donnée trouvée, les indices de positionnement et de localisation, tant internes (lieux et dates indiqués dans les documents) qu'externes (données géo-positionnelles du réseau qui les véhicule). Après cette phase de recherche, on procède au recoupement des données pour extraire celles relatives aux actions que l'agent s'apprête à effectuer ou a déjà effectuée. In practice, if we consider an agent A, from the name known with certainty of this agent, the system searches for all the forms under which this name appears in several languages M L , then it searches all the documents or data relating to these forms. by recovering, for each piece of data found, the positioning and location indices, both internal (places and dates indicated in the documents) and external (geo-positional data of the network that carries them). After this research phase, the data is cross-checked to extract those relating to the actions that the agent is about to perform or has already performed.
Prof i lape Ez? : il s'agit de trier les données relatives à l'espace S et au temps T des actions Ac des agents pour mettre en évidence, sur l'ensemble de ces données, des regroupements en fonction d'au moins une de leur caractéristique de temps T, espace S, action Ac, agent A. Prof i lape Ez? : it is a question of sorting the data relating to the space S and the time T of the actions Ac of the agents to highlight, on the set of these data, groupings according to at least one of their characteristic of time T, space S, action A c , agent A.
De manière plus générale, le profilage part de l'ensemble des données linguistiques multilingues ML en plusieurs langues L pour extraire, grâce à des règles linguistiques, les seules données relatives aux lieux (repères géographiques, urbains, territoriaux...) et aux agents A. More generally, profiling starts from the set of multilingual linguistic data M L in several languages L to extract, thanks to linguistic rules, the only data relating to places (geographic, urban, territorial landmarks ...) and agents A.
A partir du recoupement de ces données, le système remonte vers des liens entre lieux et agents jugés pertinents en fonction de leur fréquence et en référence à une base de connaissances relatives au domaine (ex. terrorisme, banditisme, proxénétisme,...). From the cross-checking of these data, the system goes back to links between places and agents considered relevant according to their frequency. and in reference to a knowledge base relating to the field (eg terrorism, banditry, pimping, ...).
Le profilage comprend trois niveaux d'analyse.  Profiling includes three levels of analysis.
Le premier niveau est celui de l'exploration générale des données linguistiques multilingues ML en plusieurs langues L, en se focalisant sur les actions Ac dans les données linguistiques multilingues ML et sur les informations géo-positionnelles dans les métadonnées MD. The first level is that of the general exploration of multilingual linguistic data M L in several languages L, focusing on the actions A c in the multilingual linguistic data M L and on the geo-positional information in the metadata M D.
Le second niveau d'analyse est celui du tri des données en fonction d'indices de métadonnées M0 (lieu et moment de l'émission) et d'indices de données (relations et actions de l'agent). The second level of analysis is that of sorting the data according to metadata indices M 0 (place and time of transmission) and data indices (relations and actions of the agent).
Dans le profilage, le moteur 40 de détermination part des données disponibles pour remonter vers des données saillantes, puis pour révéler un phénomène ou un agent (pas ou) peu connu, en fournissant le maximum d'indications spatio-temporelles sur sa localisation à partir des données linguistiques multilingues ML et des métadonnées Mp. In the profiling, the determination engine 40 starts from the data available to go back to salient data, then to reveal a phenomenon or an agent (not or little known), providing the maximum of spatio-temporal indications on its location from multilingual linguistic data M L and metadata Mp.
On note que la saillance des données est définie essentiellement en fonction de critères sémantiques relationnels.  We note that the saliency of the data is defined essentially according to semantic relational criteria.
En pratique, à partir de l'ensemble des données disponibles dans plusieurs langues sur un thème précis (par un exemple le terrorisme, banditisme, proxénétisme), émerge un agent (par exemple un nom de groupe), fréquemment citée en relation avec un lieu (par exemple, ville du territoire français). On recherche alors tous les documents ou données relatives à cet agent (groupe) en récupérant, pour chaque donnée trouvée, les indices de positionnement et de localisation, tant internes (dans les documents) qu'externes (données issues du réseau qui les véhicule).  In practice, from the set of data available in several languages on a specific theme (for example terrorism, banditism, pimping), emerges an agent (for example a group name), frequently cited in relation to a place. (for example, city of French territory). We then search all the documents or data relating to this agent (group) by retrieving, for each data found, the positioning and location indices, both internal (in the documents) and external (data from the network that carries them) .
Les données en entrée sont un ensemble de documents que l'on cherche à organiser. Les données obtenues par le profilage sont un ensemble de relations sémantiques entre des actions et des agents ayant des liens entre eux.  The input data is a set of documents that one seeks to organize. The data obtained by profiling is a set of semantic relations between actions and agents having links between them.
Ciblape E^_: II s'agit de sélectionner les données linguistiques multilingues ML relatives à l'espace S et au temps T des actions Ac des agents A à partir d'une seule de leur caractéristique de temps T, espace S, action Ac, agent A. Target E ^ _: It is a question of selecting the multilingual linguistic data M L relating to the space S and to the time T of the actions Ac of the agents A from only one of their characteristic of time T, space S, action A c , agent A.
De manière plus générale, le ciblage consiste à viser, par l'analyse linguistique, un type de donnée en particulier (action Ac, relation R) et à rechercher cette donnée linguistique multilingue ML dans plusieurs langues et sur divers types de supports. In a more general way, the targeting consists of aiming, by linguistic analysis, a particular type of data (action Ac, relation R) and looking for this multilingual linguistic data item M L in several languages and on various types of supports.
Les données en entrée sont un type d'action Ac que l'on recherche en priorité. Les données obtenues par le ciblage sont un type particulier de relations sémantiques entre l'action recherchée et des agents ayant des liens entre eux.  The input data is a type of action Ac that is searched in priority. The data obtained by targeting is a particular type of semantic relationship between the action sought and agents with links to each other.
Moteur 50 de représentation Performance Engine 50
Le moteur 50 de représentation E4 permet de visualiser sur une carte géographique 60 la localisation spatio-temporelle des actions des agents. The motor 50 of representation E 4 makes it possible to display on a geographical map 60 the spatio-temporal location of the actions of the agents.
Ce moteur 50 de représentation permet en particulier de faire coïncider les repères d'une carte géographique avec les données spatiotemporelles issues de l'analyse des données linguistiques multilingues ML, en situant les données extraites les unes par rapport aux autres et en visualisant leurs liens dans le temps et dans l'espace. This representation engine 50 makes it possible in particular to align the markers of a geographical map with the spatiotemporal data resulting from the analysis of the multilingual linguistic data M L , by locating the data extracted from each other and by visualizing their links. in time and space.
Les lieux normalisés, qu'ils proviennent des données du texte ou des métadonnées du document sont associés à des coordonnées géographiques en longitude et latitude, ce qui permet de les représenter sur une carte géographique 60 (par exemple au moyen de Googlemap™ ou tout autre dispositif du même type).  Standardized locations, whether from text data or document metadata, are associated with geographic coordinates in longitude and latitude, which allows them to be represented on a geographic map 60 (for example, using Googlemap ™ or any other device of the same type).
Ci-dessous on présente différents exemples de mise en œuvre du procédé de localisation géolinguistique au moyen du système ci-dessus présenté. Exemple 1 : Localisation géolinguistique à partir d'Internet Below are various examples of implementation of the geolinguistic localization method using the system presented above. Example 1: Geolinguistic Location from the Internet
Problème : Supposons qu'un individu utilise sur un forum Internet un langage de nature à menacer la sécurité nationale ou à porter atteinte à l'ordre public.  Problem: Suppose an individual uses a language on an Internet forum to threaten national security or to undermine public order.
Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces indices internes avec les métadonnées et les informations externes de géopositionnement de la connexion (IP/DNS), du serveur et des responsables, enfin de visualiser sur une carte les lieux et les liens entre individus ayant proféré ou cautionné le contenu dudit forum.  Solution: The system makes it possible to detect this language and to extract the spatio-temporal indices making it possible to locate the threat, to cross-check these internal indices with the metadata and external information of the connection (IP / DNS), the server and managers, finally to visualize on a map the places and links between individuals who have spoken or endorsed the content of said forum.
Exemple 2 : Localisation géolinquistique à partir des SMS - voir la figure 4 Example 2: Geolocation Location from SMS - see Figure 4
Problème : Supposons qu'un individu envoie un SMS (texto) contenant un langage de nature à intéresser la sécurité nationale ou les services de police.  Problem: Suppose an individual sends a text message containing a language of interest to national security or police services.
Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser l'agent émetteur, de recouper ces indices internes avec les métadonnées (par exemple l'identité internationale d'équipement mobile (en anglais « International Mobile Equipment Identity », IMEI) et les informations externes de géopositionnement du SMS en question (information GSM, GPRS), afin de visualiser sur une carte géographique les lieux et les liens entre individus ayant reçu ou partagé le contenu dudit SMS.  Solution: The system makes it possible to detect this language and to extract the spatio-temporal indices making it possible to locate the transmitting agent, to cross-check these internal indices with the metadata (for example the international mobile equipment identity (in English "International Mobile Equipment Identity ", IMEI) and the external information of the SMS in question (GSM information, GPRS), in order to visualize on a geographical map the places and links between individuals who have received or shared the content of said SMS.
En relation avec la figure 4, deux SMS 41 , 42 transitent sur un réseau de communication et une recherche multilingue d'un agent est effectuée.  In connection with FIG. 4, two SMS 41, 42 transit over a communication network and a multilingual search of an agent is performed.
Le système analyse alors les SMS pour en extraire les métadonnées MDι et les données linguistiques MLl (i=1 ,..., 4). The system then analyzes the SMS to extract the metadata M D ι and linguistic data M Ll (i = 1, ..., 4).
Ensuite en fonction de l'agent recherché le système identifie le message suivant « on se voit demain devant la gare Montparnasse », ce message a été envoyé le 2/07/2010 à 10h52. Le système conserve alors un SMS parmi les deux et permet d'identifier les métadonnées associées ainsi que les actions AC, les agents A ainsi que l'espace S. Then according to the agent searched the system identifies the following message "we see you tomorrow in front of Montparnasse station", this message was sent on 2/07/2010 at 10h52. The system then retains an SMS of the two and identifies the associated metadata as well as AC actions, agents A and the space S.
Le résultat de l'analyse est reporté dans le tableau suivant.  The result of the analysis is reported in the following table.
Le système permet ainsi de localiser les agents concernés (« On ») et de calculer le moment (« demain ») et le lieu du rendez-vous (« devant la gare Montparnasse »), grâce à une inférence à partir des métadonnées spatio-temporelles de l'émission et de la réception. Exemple 3 : Localisation géolinquistique à partir de l'Email (ou autre messagerie) - voir la figure 5  The system thus makes it possible to locate the agents concerned ("On") and to calculate the moment ("tomorrow") and the place of the rendezvous ("in front of the Montparnasse station"), thanks to an inference from the spatial metadata. time of transmission and reception. Example 3: Geolocation location from the Email (or other messaging) - see Figure 5
Problème : Supposons qu'un individu envoie un message électronique (Email) contenant un langage de nature à menacer la sécurité nationale ou à porter atteinte à l'ordre public.  Problem: Suppose an individual sends an electronic message (Email) containing a language likely to threaten national security or to undermine public order.
Solution : Le système permet de détecter ce langage et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces indices internes avec les métadonnées et les informations externes de géopositionnement du courrier en question (information réseau), enfin de visualiser sur une carte les lieux et les liens entre individus ayant reçu ou partagé le contenu dudit Email. En relation avec la figure 5, deux Emails 51 , 52 transitent sur un réseau de communication et une recherche multilingue d'un agent est effectuée. Solution: The system makes it possible to detect this language and to extract the spatio-temporal indices making it possible to locate the threat, to cross-check these internal indices with the metadata and external information of the mailing in question (network information), finally to visualize on a map the places and the links between individuals having received or shared the content of said Email. In connection with FIG. 5, two Emails 51, 52 transit over a communication network and a multilingual search of an agent is carried out.
Le système analyse alors les Emails pour en extraire les métadonnées MDι et les données linguistiques MLl (i=1 ,..., 4). The system then analyzes the emails to extract the metadata M D ι and linguistic data M Ll (i = 1, ..., 4).
Ensuite en fonction de l'agent recherché le système identifie le message suivant « J'étais à Paris jeudi dernier, viens demain, on va voir avec le type de Marseille pour la fabrication », ce message a été envoyé le 22/12/2009 par email de Paris à 1 h15.  Then according to the agent searched the system identifies the following message "I was in Paris last Thursday, come tomorrow, we will see with the type of Marseille for manufacturing", this message was sent on 22/12/2009 by email from Paris at 1 h15.
Le système conserve alors un Email parmi les deux et permet d'identifier les métadonnées associées ainsi que les actions AC, les agents A ainsi que l'espace S.  The system then keeps one of the two emails and identifies the associated metadata as well as the AC actions, the A agents, and the S space.
Les résultats de l'analyse sont présentés dans le tableau ci-après. The results of the analysis are presented in the table below.
Analyse des Données linguistiques DL Extraction des Métadonnées MD Analysis of Linguistic Data D L Extraction of Metadata M D
Agents = « Je, On, le type » ; Agents A = Emetteur du SMS et Agents = "I, On, the type"; Agents A = SMS Transmitter and
Récepteur du SMS ; Personne évoqué dans le SMS  SMS receiver; Person mentioned in the SMS
Action Ac = « viens, va voir, Action Ac = : rendez-vous physique ; fabrication » ; Action A c = "come, go see, Action A c = : physical appointment; manufacture ';
Temps T = « jeudi dernier, demain ». Temps T = coordonnées temporelles (date et heure) de l'émission et de la réception duTime T = "last Thursday, tomorrow". Time T = time coordinates (date and time) of transmission and reception of
SMS. SMS.
Espace S : = « à Paris, de Marseille » ; Espace S = Position de l'agent émetteur par rapport aux lieux indiqués ; Space S : = "in Paris, from Marseille"; Space S = Position of the issuing agent in relation to the indicated places;
Le système permet ainsi de localiser, grâce à l'analyse des données linguistiques et des métadonnées, les agents concernés, de connaître l'identité des agents (par leurs numéros de téléphone) et de calculer le moment (« demain »), grâce à une inférence à partir des métadonnées spatio-temporelles de l'émission et de la réception. The system thus makes it possible to locate, through the analysis of the linguistic data and the metadata, the agents concerned, to know the identity of the agents (by their telephone numbers) and to calculate the moment ("tomorrow"), thanks to an inference from the spatio-temporal metadata of transmission and reception.
Exemple 4 : Localisation géolinguistique à partir d'une communication téléphonique (y compris VoIP) Example 4: Geolinguistic Location from a Telephone Communication (Including VoIP)
Problème : Supposons qu'un individu utilise un langage de nature à menacer la sécurité nationale ou à porter atteinte à l'ordre public, dans une conversation téléphonique (fixe, mobile, nationale, internationale).  Problem: Suppose an individual uses language that threatens national security or violates public order in a telephone conversation (fixed, mobile, national, international).
Solution : Le système permet de détecter ce langage à partir de la transcription qui en sera faite et d'extraire les indices spatio-temporels permettant de localiser la menace, de recouper ces indices internes avec les métadonnées et les informations externes de géopositionnement (VoIP, GSM, GPRS, GPS), enfin de visualiser sur une carte les lieux et les liens entre individus ayant reçu ou partagé cette communication.  Solution: The system makes it possible to detect this language from the transcription that will be made and extract the spatio-temporal indices for locating the threat, to intersect these internal indices with the metadata and external information of geopositioning (VoIP, GSM, GPRS, GPS), finally to visualize on a map the places and the links between individuals having received or shared this communication.
Dans tous ces cas de figures, le système permet de détecter la menace par une analyse linguistique, de remonter à la ressource support de la menace et de localiser l'émetteur et les récepteurs potentiels dans le temps et dans l'espace, à partir de la production langagière contenue dans les relais.  In all these cases, the system makes it possible to detect the threat by a linguistic analysis, to go back to the resource supporting the threat and to locate the transmitter and the potential receivers in time and in space, starting from the language production contained in the relays.

Claims

REVENDICATIONS
1. Système d'analyse recevant en entrée des données numériques qui comportent des données linguistiques aptes à être analysées par un traitement linguistique, ainsi que des métadonnées associées à leur émission, le système comprenant : An analysis system receiving as input digital data that includes linguistic data that can be analyzed by a language processing, as well as metadata associated with their transmission, the system comprising:
- un moteur (20) d'analyse linguistique pour analyser les données linguistiques d'un point de vue sémantique et les qualifier du point de vue de l'espace, du temps, des agents et des actions ; - un moteur (30) d'extraction pour extraire, à partir des données linguistiques analysées et des métadonnées spatio-temporelles associées à l'émission, des données relatives à l'espace et au temps des actions des agents ;  a linguistic analysis engine (20) for analyzing linguistic data from a semantic point of view and qualifying them from the point of view of space, time, agents and actions; an extraction engine (30) for extracting, from the analyzed linguistic data and the spatio-temporal metadata associated with the transmission, data relating to the space and time of the actions of the agents;
- un moteur (40) de détermination, à partir des données extraites, de la localisation spatio-temporelle des actions des agents ;  a motor (40) for determining, from the extracted data, the spatio-temporal location of the agents' actions;
- un moteur (50) de représentation pour, représenter sur une carte (60) géographique la localisation spatio-temporelle des actions des agents.  a representation engine (50) for representing, on a geographic map (60), the spatio-temporal location of the actions of the agents.
2. Système selon la revendication 1 dans lequel le moteur (20) d'analyse linguistique est un moteur multilingue. The system of claim 1 wherein the language analysis engine (20) is a multilingual engine.
3. Système de traitement des données selon l'une des revendications 1 à 2, caractérisé en ce qu'il reçoit en entrée des données issues d'un réseau (2) de communication. 3. Data processing system according to one of claims 1 to 2, characterized in that it receives input data from a network (2) communication.
4. Système selon la revendication 3, caractérisé en ce que les données numériques sont issues de sites Internet, de blogs, de forums, de flux RSS, de messageries instantanées, de services de messagerie électronique. 4. System according to claim 3, characterized in that the digital data come from Internet sites, blogs, forums, RSS feeds, instant messengers, e-mail services.
5. Procédé d'analyse de données numériques, comportant des données linguistiques aptes à être analysées par un traitement linguistique, ainsi que des métadonnées associées à l'émission de ces données linguistiques, dans lequel on met en œuvre les étapes de traitement suivantes : 5. A method for analyzing digital data, comprising linguistic data capable of being analyzed by a linguistic processing, as well as metadata associated with the transmission of these linguistic data, in which the following processing steps are implemented:
- on analyse (E-i) les données linguistiques d'un point de vue sémantique pour les qualifier du point de vue de l'espace, du temps, des agents et des actions ;  - we analyze (E-i) linguistic data from a semantic point of view to qualify them from the point of view of space, time, agents and actions;
- on extrait (E2), à partir des données linguistiques analysées et des métadonnées spatio-temporelles associées à l'émission, des données relatives à l'espace et au temps des actions des agents ;extracting (E 2 ), from the linguistic data analyzed and the spatio-temporal metadata associated with the transmission, data relating to the space and time of the actions of the agents;
- on détermine (E3), à partir des données extraites, la localisation spatio-temporelle des actions des agents ; - determining (E 3 ), from the extracted data, the spatio-temporal location of the actions of the agents;
- on représente (E4) sur une carte (40) géographique la localisation spatio-temporelle des actions des agents (1 ). - We represent (E 4 ) on a map (40) geographical location spatio-temporal actions of agents (1).
6. Procédé selon la revendication 5, caractérisé en ce que, après l'extraction (E3) : 6. Method according to claim 5, characterized in that, after the extraction (E 3 ):
- on compare entre elles les données relatives à l'espace et au temps des actions des agents pour en évaluer l'authenticité et/ou ; the data relating to the space and time of the agents' actions are compared with one another to evaluate their authenticity and / or;
- on trie (E32) les données relatives à l'espace et au temps des actions des agents pour mettre en évidence, sur l'ensemble de ces données, des regroupements de données en fonction d'au moins une de leur caractéristique de temps, espace, action, agent ; - sorting (E 32 ) the data relating to the space and time of the actions of the agents to highlight, on all of these data, groupings of data as a function of at least one of their time characteristic , space, action, agent;
- on sélectionne (E33) les données relatives à l'espace et au temps des actions des agents à partir d'une seule de leur caractéristique de temps, espace, action, agent ; selecting (E 33 ) the data relating to the space and time of the actions of the agents from only one of their characteristic of time, space, action, agent;
la détermination de la localisation spatio-temporelle étant effectuée à partir des données extraites authentifiées et/ou à partir des regroupements obtenus et/ou à partir de la sélection ainsi effectuée. the determination of the spatio-temporal location being made from the authenticated extracted data and / or from the groupings obtained and / or from the selection thus made.
7. Programme d'ordinateur caractérisé en ce qu'il comprend des instructions machine pour la mise en œuvre du système selon l'une des revendications 5 à 6. 7. Computer program characterized in that it comprises machine instructions for the implementation of the system according to one of claims 5 to 6.
EP10762962A 2009-07-30 2010-07-30 Linguistic-analysis-based geopositioning system Ceased EP2460093A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0955355A FR2948791B1 (en) 2009-07-30 2009-07-30 LINGUISTIC ANALYSIS GEOLOCATION SYSTEM
PCT/FR2010/051637 WO2011012834A2 (en) 2009-07-30 2010-07-30 Linguistic-analysis-based geopositioning system

Publications (1)

Publication Number Publication Date
EP2460093A2 true EP2460093A2 (en) 2012-06-06

Family

ID=42126443

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10762962A Ceased EP2460093A2 (en) 2009-07-30 2010-07-30 Linguistic-analysis-based geopositioning system

Country Status (3)

Country Link
EP (1) EP2460093A2 (en)
FR (1) FR2948791B1 (en)
WO (1) WO2011012834A2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108195A1 (en) * 2002-05-07 2005-05-19 Microsoft Corporation Method, system, and apparatus for processing information based on the discovery of semantically labeled strings
US7257570B2 (en) * 2003-11-13 2007-08-14 Yahoo! Inc. Geographical location extraction
US20070099626A1 (en) * 2005-10-31 2007-05-03 Honeywell International Inc. Tracking system and method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHINATSU AONE ET AL: "REES : a large-scale relation and event extraction system", PROCEEDINGS OF THE SIXTH CONFERENCE ON APPLIED NATURAL LANGUAGE PROCESSING -, 1 January 2000 (2000-01-01), Morristown, NJ, USA, pages 76 - 83, XP055539811, DOI: 10.3115/974147.974158 *
HRISTO TANEV ET AL: "Real-time News Event Extraction for Global Monitoring Systems", 1 December 2008 (2008-12-01), XP055540095, Retrieved from the Internet <URL:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.178.8698&rep=rep1&type=pdf> [retrieved on 20190109] *
JAKUB PISKORSKI ET AL: "Cluster-Centric Approach to News Event Extraction", FRONTIERS IN ARTIFICIAL INTELLIGENCE AND APPLICATIONS, September 2008 (2008-09-01), pages 276 - 290, XP055496177 *

Also Published As

Publication number Publication date
FR2948791B1 (en) 2016-09-30
FR2948791A1 (en) 2011-02-04
WO2011012834A3 (en) 2011-04-07
WO2011012834A2 (en) 2011-02-03

Similar Documents

Publication Publication Date Title
US10270862B1 (en) Identifying non-search actions based on a search query
US9531649B2 (en) Identification of message recipients
US8055675B2 (en) System and method for context based query augmentation
US10133458B2 (en) System and method for context enhanced mapping
US11122009B2 (en) Systems and methods for identifying geographic locations of social media content collected over social networks
US9563649B2 (en) Location stamping and logging of electronic events and habitat generation
US8386506B2 (en) System and method for context enhanced messaging
JP6689515B2 (en) Method and apparatus for identifying the type of user geographic location
US8223932B2 (en) Appending content to a telephone communication
US9749274B1 (en) Associating an event attribute with a user based on a group of one or more electronic messages associated with the user
US20100082427A1 (en) System and Method for Context Enhanced Ad Creation
US20130297581A1 (en) Systems and methods for customized filtering and analysis of social media content collected over social networks
US20130297652A1 (en) System and method for presentation of media related to a context
US20140195234A1 (en) Voice Recognition Grammar Selection Based on Content
US20130297694A1 (en) Systems and methods for interactive presentation and analysis of social media content collection over social networks
CN104700835A (en) Method and system for providing voice interface
CN107231485B (en) Method and device for establishing event reminding
CN103457975A (en) Method and device for acquiring map interest point evaluation data
JP2017199225A (en) Device and method for selecting disaster information
Devkota et al. An exploratory study on the generation and distribution of geotagged tweets in Nepal
US8566425B1 (en) Identifying social profiles of entities
WO2019200044A1 (en) System and method of ai assisted search based on events and location
KR101024165B1 (en) Contents generating and providing method using image recognition based on location
WO2011012834A2 (en) Linguistic-analysis-based geopositioning system
US11728025B2 (en) Automatic tracking of probable consumed food items

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120228

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

RIN1 Information on inventor provided before grant (corrected)

Inventor name: FLUHR, CHRISTIAN

Inventor name: GUIDERE, MATHIEU

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20170216

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190215