ITPI20130070A1 - Metodo per la creazione di banche dati di eventi con eco mediatica in internet. - Google Patents

Metodo per la creazione di banche dati di eventi con eco mediatica in internet.

Info

Publication number
ITPI20130070A1
ITPI20130070A1 IT000070A ITPI20130070A ITPI20130070A1 IT PI20130070 A1 ITPI20130070 A1 IT PI20130070A1 IT 000070 A IT000070 A IT 000070A IT PI20130070 A ITPI20130070 A IT PI20130070A IT PI20130070 A1 ITPI20130070 A1 IT PI20130070A1
Authority
IT
Italy
Prior art keywords
event
feed
toponyms
news
database
Prior art date
Application number
IT000070A
Other languages
English (en)
Inventor
Alessandro Battistini
Nicola Casagli
Sandro Moretti
Original Assignee
Alessandro Battistini
Nicola Casagli
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alessandro Battistini, Nicola Casagli filed Critical Alessandro Battistini
Priority to IT000070A priority Critical patent/ITPI20130070A1/it
Priority to US14/905,111 priority patent/US20160162512A1/en
Priority to PCT/IB2014/001328 priority patent/WO2015008136A1/en
Priority to EP14759265.3A priority patent/EP3022667A1/en
Publication of ITPI20130070A1 publication Critical patent/ITPI20130070A1/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Description

TITOLO
METODO PER LA CREAZIONE DI BANCHE DATI DI EVENTI CON ECO
MEDIATICA IN INTERNET.
SETTORE TECNICO
La presente invenzione concerne un metodo per creare ed aggiornare costantemente in modo automatico banche dati di eventi che hanno un’eco mediatica in internet ed, in particolare, eventi geologici rischiosi quali frane, terremoti, inondazioni, alluvioni.
STATO DELL’ARTE
I rischi geologici, tra cui terremoti, inondazioni e frane, sono una fonte notevole di mortalità e danni economici e vengono quindi compiuti sforzi rilevanti per mitigarne le conseguenze.
Nello studio di rischi geologici, soprattutto su scala regionale o nazionale, è di primaria importanza la disponibilità di archivi e banche dati che possano fornire informazioni su eventi passati e recenti come l’intensità, i tempi e la posizione.
In particolare, la disponibilità di banche dati aggiornate e complete è risultata fondamentale per la valutazione della pericolosità e del rischio e per la messa a punto di modelli di allarme rapido. Purtroppo, uno dei principali limiti degli archivi e delle banche dati esistenti (in particolare per frane e alluvioni) è la loro velocità e metodologia di aggiornamento: di solito esse vengono compilate manualmente sulla base di indagini sul campo e, a volte, tramite telerilevamento. Sistemi provvisti di aggiornamenti automatici e/o in tempo reale sono ancora rari e legati solo ad alcune tipologie di rischi geologici.
I “terremoti” sono la tipologia di calamità naturale che può contare sui metodi di geo-localizzazione e di caratterizzazione più efficaci e veloci. Esiste, infatti, una rete mondiale di sensori e stazioni di elaborazione che è in grado di registrare il verificarsi di eventi di grande e media entità e localizzarli in tempo reale. Inoltre, diverse agenzie nazionali forniscono, in tempo reale, le stesse informazioni su scala nazionale anche per eventi minori.
Le "inondazioni" sono una tipologia di evento geologico rischioso, di solito ben noto e documentato. Nonostante ciò, lo studio delle alluvioni e del rischio idraulico in generale, richiede l'uso di lunghe serie di eventi. La maggior parte dei paesi si basano su un certo numero di stazioni di misura in grado di monitorare i livelli di acqua e gli scarichi fluviali con elevata precisione. Molti servizi idrologici nazionali o regionali hanno tenuto traccia di questi valori per decenni o secoli, permettendo il loro utilizzo a fini scientifici.
La creazione di banche dati complete e aggiornate è un problema più complesso nel caso della tipologia di evento geologico rischioso “frana”. In questo ambito, sono necessari grandi sforzi non solo per lo sviluppo di modelli e nella loro applicazione, ma anche per la raccolta di dati completi. Nonostante ciò, sono attualmente operativi diversi database relativi al georischio “frana”, ma anche se possono essere considerati strumenti molto utili per le stime di pericolosità e di impatto sulla società, essi sono caratterizzati da un rilevante grado di incompletezza poiché comprendono, quasi esclusivamente, i grandi eventi con effetti catastrofici. Su scala nazionale sono presenti diversi archivi, tuttavia questi strumenti, anche se molto utili, presentano alcuni inconvenienti che impediscono un loro ampio utilizzo nello studio delle frane: essi sono aggiornati in modo discontinuo e raramente forniscono informazioni sistematiche circa la localizzazione temporale del fenomeno frana (quindi essi non possono essere utili per la calibrazione / validazione di modelli predittivi). La raccolta di dati relativi ad un evento franoso può essere un compito molto impegnativo, indipendentemente dal fatto che sia compiuta per mezzo di indagini sul campo, tramite tecniche di telerilevamento o tramite il recupero manuale di informazioni da giornali o relazioni tecniche, e richiede quindi una quantità considerevole di tempo e risorse umane.
Sono certamente note tecniche e metodologie di data mining, che consentono, in generale, di estrarre con tecniche analitiche all'avanguardia, l’informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile. Tuttavia, risulta tutt’altro che banale, studiare metodi che applicano tali tecniche di data mining per ottenere informazioni specifiche su eventi geologici rischiosi a partire da dati rintracciabili in internet.
SINTESI DELL’INVENZIONE
Scopo principale della presente invenzione è quello di contribuire a colmare le suddette lacune proponendo un metodo per la creazione e l’aggiornamento automatico di banche dati di una determinata tipologia di evento geologico rischioso comprendenti informazioni dettagliate sulla localizzazione geografica e temporale degli eventi e sulla loro supposta intensità.
Ulteriore scopo della presente invenzione è proporre un metodo che, grazie ad una peculiare applicazione di tecniche di data mining, consenta di creare banche dati di eventi geologici rischiosi a partire da documenti consultabili in internet.
Gli scopi suddetti sono raggiunti tramite un metodo per la creazione e l’aggiornamento automatici di banche dati di eventi geologici rischiosi quali frane, terremoti, inondazioni, ma potenzialmente espandibile a qualsiasi settore, comprendente le fasi di:
- acquisizione da internet di notizie relative ad una determinata tipologia di evento geologico rischioso, detta acquisizione avvenendo grazie all’esecuzione di un programma aggregatore di feeds in base a determinati parametri di ricerca;
- definizione di ogni feed restituito come output da detto programma aggregatore di feeds come un evento di detta tipologia di evento;
- associazione ad ogni feed che non contiene informazioni di posizione di una informazione di posizione mediante confronto di informazioni contenute in detto feed con una banca dati di toponimi;
- catalogazione di ogni evento in una banca dati di detto evento geologico rischioso insieme a parametri caratteristici di detto evento comprendenti almeno la posizione dell’evento, la datazione dell’evento, e l’intensità dell’evento, detti parametri essendo determinati mediante tecniche di data mining eseguite su detto feed che individua detta ricorrenza dell’evento geologico rischioso;
- ripetizione ciclica delle fasi precedenti secondo un determinato intervallo temporale.
Vantaggiosamente la fase di acquisizione di notizie da internet comprende fasi di:
- ricerca sulla rete internet di notizie, all’interno di una determinata lista di indirizzi web, tramite aggregatori di feeds, in cui la suddetta ricerca avviene in funzione di una pluralità di parametri di ricerca;
- raggruppamento dei risultati della ricerca da parte di detto aggregatore di feeds tramite specifici algoritmi di classificazione e raggruppamento;
- restituzione dei risultati raggruppati, ogni raggruppamento essendo espresso sotto forma di un feed;
- interpretazione di ogni feed da parte di un programma lettore di feeds;
- identificazione di ogni feed con un evento di detta tipologia di eventi geologici rischiosi.
Ancora vantaggiosamente la suddetta fase di associazione ad un feed di un’informazione di posizione comprende fasi di:
- confronto testuale di uno o più campi del feed con una banca dati di toponimi;
- individuazione in detti campi del feed di uno o più toponimi presenti in detta banca dati di toponimi;
- applicazione di tecniche di data mining per selezionare, tra detti toponimi individuati, uno o più toponimi di riferimento da associare a detto feed;
- scelta del toponimo di riferimento principale tramite un opportuno algoritmo;
- associazione al feed di un GeoTag corrispondente, nella banca dati di toponimi, al toponimo selezionato, detto GeoTag del feed e / o detto toponimo selezionato corrispondendo ad un’informazione di posizione dell’evento.
Preferibilmente la suddetta banca dati di toponimi prevede un elenco di toponimi di vario tipo tra cui almeno nomi di località, e piccole città, nomi di unità amministrative a vari livelli di aggregazione quali comuni, province e regioni, nomi di strade, nomi di fiumi, laghi, montagne, ed altre zone geografiche, ognuno di detti toponimi essendo localizzato secondo un predefinito sistema di coordinate geografiche ed ad ognuno di essi essendo associata una definizione geometrica che può essere un punto, una linea o un’area, detti toponimi essendo organizzati gerarchicamente secondo una pluralità di categorie gerarchiche.
Vantaggiosamente, il metodo dell’invenzione prevede la localizzazione del feed anche in mancanza di un toponimo di riferimento, utilizzando procedure alternative di ricerca della localizzazione del notiziario emittente, o ricerca di aggettivi, indicazioni o equivalenze geografiche non direttamente esprimibili come toponimo.
La fase di catalogazione comprende vantaggiosamente fasi di:
- esecuzione sul feed associato a detto evento di tecniche di data mining adatte a determinare parametri caratteristici di detto evento ed a escludere da detta banca dati eventi non attendibili, dette tecniche di data mining comprendendo almeno:
- il calcolo di un: “punteggio del luogo” per determinare quanto sia affidabile il GeoTag assegnato al feed; un “punteggio dell’evento” per determinare la probabilità che il feed riguardi effettivamente un evento della tipologia di evento geologico rischioso ricercato; un “punteggio della datazione” per determinare la rilevanza della notizia in funzione della distanza temporale tra l’accadimento dell’evento e la pubblicazione della notizia; un “numero di notizie equivalenti” per determinare la rilevanza mediatica dell’evento, indice indiretto dell’intensità dello stesso;
- il confronto dei suddetti punteggi calcolati con rispettivi valori di soglia;
- inserimento dell’evento in detta banca dati di eventi geologici rischiosi, ad ogni evento essendo associate almeno informazioni di posizione, datazione e intensità ricavate direttamente o tramite le suddette tecniche di data mining da detto feed dell’evento.
L'approccio proposto si basa sul concetto che ogni volta che un evento geologico rischioso produce un effetto notevole, una notizia è riportata su internet. Pertanto, il recupero di notizie da internet consente di avere una banca dati costantemente aggiornata e l’applicazione di appropriate tecniche di data mining consente di separare le informazioni banali da quelle pertinenti. Una volta che gli eventi sono identificati dalle notizie in internet tramite una procedura automatica, ogni singolo evento può essere analizzato e catalogato in una banca dati di quella specifica tipologia di evento geologico rischioso, insieme a caratteristiche dell’evento (compresa una posizione di riferimento e una datazione). La procedura di estrazione dei dati in internet vantaggiosamente recupera notizie in formato RSS (Really Simple Syndication) e le analizza per identificare un evento e la sua datazione. Inoltre, il confronto con la banca dati di toponimi viene utilizzato per localizzare gli eventi nel caso che il feed associato all’evento non contenga già l’informazione sulla posizione. La procedura di estrazione dei dati utilizza algoritmi che sono specificamente tarati per una sola tipologia di eventi geologici rischiosi. BREVE DESCRIZIONE DEI DISEGNI
Queste ed altre caratteristiche dell’invenzione risulteranno più facilmente comprensibili dalla seguente descrizione di una forma realizzativa preferita dell’invenzione, fornita come esempio non limitativo, con riferimento alle figure allegate nelle quali:
- la figura 1 mostra un diagramma di flusso delle fasi principali del metodo dell’invenzione;
- la figura 2 mostra un diagramma di flusso di un processo di acquisizione da internet di notizie di eventi geologici rischiosi secondo la presente invenzione;
- la figura 3 mostra un diagramma di flusso di un processo di associazione ad un feed, e quindi all’evento che rappresenta, di un’informazione di posizione secondo la presente invenzione;
- la figura 4 rappresenta un diagramma di flusso di un processo di catalogazione di eventi geologici rischiosi in una banca dati di eventi geologici rischiosi secondo la presente invenzione;
- la figura 5 rappresenta uno schema costitutivo di una banca dati di toponimi utilizzata in un metodo secondo la presente invenzione.
DESCRIZIONE DELLE FORME REALIZZATIVE PREFERITE
Con riferimento alla figura 1, un metodo per la creazione e l’aggiornamento automatico di banche dati di eventi geologici rischiosi prevede l’acquisizione da internet di notizie, 101, relative ad una determinata tipologia di evento geologico e l’eventuale aggregazione di notizie che riguardano uno stesso evento, l’associazione ad ogni evento di un’informazione di posizione, 102, ed infine la catalogazione in una banca dati dell’evento, 103, insieme a parametri rilevanti dell’evento stesso quali la suddetta informazione di posizione, un’informazione sul momento di accadimento, l’intensità dell’evento. Dopo un periodo di attesa, 104, avviene l’aggiornamento della banca dati tramite ripetizione della suddetta sequenza di operazioni. La ripetizione del ciclo avviene con una frequenza dell’ordine di grandezza dei minuti, cosicché la banca dati può considerarsi aggiornata praticamente in tempo reale.
Nel seguito, viene descritta un forma realizzativa preferita dell’invenzione che riguarda la modalità di creazione e di aggiornamento di banche dati relative alle tipologie di eventi con rischio geologico “frana”, “inondazione” e “terremoto”, avvenuti a livello nazionale.
Con riferimento alla figura 2, l’acquisizione, 200, delle notizie di evento avviene per mezzo dell’esecuzione di un programma lettore di “feed” che raccoglie feeds da un algoritmo aggregatore di notizie provenienti da indirizzi web iscritti in una determinata lista. Ad esempio, secondo una forma realizzativa preferita dell’invenzione, viene utilizzato il servizio “Google News” come aggregatore di notizie, mentre per la lettura dei feeds vengono utilizzate classi definite dal progetto “SimplePie”. Secondo la presente invenzione Google News può essere interrogato tramite un web browser oppure, preferibilmente, come servizio web integrato in un programma lettore di feeds. Le notizie vengono ricercate da risorse web contenute in una determinata lista la quale viene periodicamente aggiornata.
All’aggregatore di feeds viene inviata una richiesta di ricerca, 201, insieme alla quale vengono inviati i parametri della ricerca da effettuare. Ad esempio, in Google News tutti i parametri della ricerca possono essere forniti tramite un’unica stringa di comando trasmessa in forma di indirizzo web. Nel caso specifico i parametri forniti riguardano: la lingua in cui è scritto il documento, il paese di registrazione dei siti web in cui ricercare, il formato di output del feed (RSS o Atom), ed infine, ovviamente, le parole che costituiscono l’argomento della ricerca separate da operatori logici. Ad esempio, nella creazione di una banca dati di “frane” avvenute in Italia viene utilizzata una serie di sinonimi o altri termini relativi alla tipologia di evento, quali: frana, frane, smottamento, smottamenti, franamento, franamenti, scivolamento, scivolamenti. Analogamente, per il fenomeno “inondazione”, “terremoto”, o per altri eventi geologici vengono individuati i termini o le diciture da inserire quali argomento della ricerca.
L’aggregatore di feeds esegue la ricerca all’interno degli indirizzi web della suddetta lista, 202, selezionando i documenti (notizie) che corrispondono ai criteri di ricerca impostati.
L’aggregatore esegue quindi una pre-elaborazione dei documenti selezionati utilizzando algoritmi di classificazione e raggruppamento che tengono in considerazione diversi fattori: ad esempio titolo, testo e momento di pubblicazione della notizia. In questo modo varie notizie che riguardano uno stesso evento vengono memorizzate in uno stesso feed, 203, contando il numero di notizie registrate nel feed. Il feed in formato RSS fornisce una serie di informazioni, 204, ad esempio:
- Id: identificatore univoco della notizia,
- Title: il titolo della notizia;
- Content: contenuto della notizia (in formato HTML);
- Description: riassunto della notizia (in formato HTML);
- Time: data e ora di pubblicazione;
- Permalink: collegamento/i web alla notizia o al gruppo di notizie;
- Lat: latitudine della posizione dell’evento (nel caso che il feed sia in formato GeoRSS);
- Lon: longitudine della posizione dell’evento (nel caso che il feed sia in formato GeoRSS);
Il feed viene quindi interpretato da un lettore di feeds, 205. Description contiene le prime righe della notizia, mentre Content dovrebbe riportare l’intero testo HTML, anche se non viene fornito da alcuni aggregatori, ed in tal caso si duplica il contenuto di Description. Ulteriori informazioni non catalogate nel formato RSS del feed vengono estratte dal campo Description del feed tramite opportuni algoritmi di ricerca, di filtro e di comparazione. In particolare vengono ricavati: un titolo principale, un notiziario web principale (ad esempio Repubblica, Il corriere), un testo principale della notizia, titoli riportati in altri notiziari, altri notiziari che riportano la notizia. Inoltre viene memorizzato il numero di notizie considerate equivalenti dall’aggregatore e raggruppate nel feed.
A questo punto, ogni feed, comprendente la suddetta serie di informazioni classificate, viene considerato un evento della tipologia ricercata, 206, e nel feed stesso sono contenute, in forma più o meno esplicita, le caratteristiche principali dell’evento, ad esempio la localizzazione geografica, il momento in cui è avvenuto, l’intensità dell’evento, ecc.
Nel caso che il feed sia stato distribuito in formato GeoRSS sono presenti valori nei campi Lat e Lon, che indicano rispettivamente latitudine e longitudine del luogo in cui si è verificato l’evento. In questo caso la notizia viene direttamente catalogata. Se invece, come nella grande maggioranza dei casi avviene, il feed non contiene le informazioni Lat e Lon, viene eseguita la localizzazione dell’evento in modo da poter applicare al feed dell’evento un GeoTag.
Con riferimento alla figura 3 la localizzazione dell’evento, 300, avviene attuando un processo di data mining sui campi del feed relativo. La procedura principale prevede un confronto testuale, 301, tra il campo Description del feed e una banca dati di toponimi organizzata secondo una gerarchia multipla ed appositamente creata, in modo da individuare, 302, nel campo Description uno o più toponimi della banca dati. Per ognuno dei toponimi individuati viene quindi calcolato un punteggio in base a diversi fattori. Alcuni di questi fattori concernono il testo della notizia (del campo Description) e sono, ad esempio, la valutazione di parole che nella frase si trovano vicine al toponimo, la presenza di lettere maiuscole, la posizione del toponimo all’interno della frase, la posizione nel testo (ad esempio se il toponimo si trova nel titolo), articoli o preposizioni che lo introducono, numero di volte che il toponimo appare nella frase. Ulteriori fattori influenzano il punteggio assegnato al toponimo. Ad esempio, c’è la possibilità che la parola individuata non sia effettivamente un toponimo. Vengono allora verificati possibili significati alternativi del toponimo (ad esempio se nella lingua di riferimento è una parola di senso compiuto, se si tratta di un nome proprio di persona).
Inoltre, ulteriori fattori che influenzano il punteggio sono ricavati dalla struttura a gerarchia multipla della peculiare banca dati di toponimi utilizzata. Infatti, per esempio, viene tenuta in considerazione la copertura territoriale dei notiziari web che riportano la notizia, i quali notiziari web, come sopra accennato, sono ricavati dal feed, e se il toponimo si trova all’interno della copertura territoriale di uno o più notiziari allora il suo punteggio è aumentato. Inoltre, la presenza di toponimi appartenenti alla stessa catena gerarchica fa aumentare il punteggio del toponimo di minore estensione territoriale. Una volta assegnato un punteggio a tutti i toponimi individuati viene selezionato quello che ha il punteggio più alto e il punteggio di quest’ultimo viene confrontato con il punteggio degli altri eventuali toponimi. Nel caso che siano presenti ulteriori toponimi di punteggio simile appartenenti alla stessa catena gerarchica del primo viene selezionato quello di livello inferiore, vale a dire di minore estensione territoriale.
Una volta che il toponimo di riferimento è stato selezionato, 303, in base all’applicazione delle suddette tecniche di data mining, viene associato al feed il GeoTAG, 304, usando le coordinate geografiche associate al toponimo nella banca dati di toponimi.
In alcuni casi le informazioni contenute nel feed della notizia non consentono di individuare un toponimo di riferimento. In tal caso, il metodo dell’invenzione prevede la localizzazione del feed anche in mancanza di un toponimo di riferimento, utilizzando procedure alternative di ricerca della localizzazione del notiziario emittente, o ricerca di aggettivi, indicazioni o equivalenze geografiche non direttamente esprimibili come toponimo.
Terminato il processo di localizzazione della notizia, e quindi dell’evento, il feed della notizia in formato GeoRSS viene catalogato nella banca dati di georischi insieme ad ulteriori informazioni che comprendono ad esempio longitudine e latitudine del GeoTag, il toponimo selezionato, il tipo di luogo (città, montagna, fiume, ecc.) associato al toponimo nella banca dati dei toponimi.
Nel processo di catalogazione dell’evento, 400, vengono assegnati a quest’ultimo, a seguito dell’esecuzione di ulteriori procedure di data mining, una serie di punteggi che, definendone la rilevanza, l’attendibilità e l’accuratezza di posizionamento, permettono di impostare dei filtri per escludere gli eventi meno attendibili.
Un punteggio, che chiameremo “punteggio del luogo”, viene calcolato, 401, per determinare quanto sia affidabile il GeoTag assegnato al feed. Viene utilizzato come punteggio di base quello del toponimo calcolato durante il processo di localizzazione della notizia. Ad esempio, la presenza di ulteriori toponimi appartenenti ad una diversa catena gerarchica ed aventi un punteggio simile a quello del toponimo selezionato fa diminuire il punteggio, l’assegnazione manuale del GeoTag fa assegnare il massimo del punteggio, la rilevazione di un toponimo estero come toponimo selezionato porta al minimo il punteggio, ecc.
Un altro punteggio, che chiameremo “punteggio dell’evento”, viene calcolato, 402, per determinare la probabilità che il feed riguardi effettivamente un evento della tipologia di evento geologico rischioso ricercato. Per calcolare questo punteggio viene analizzato il testo della notizia per rintracciarvi specifiche parole o diciture la cui presenza fa innalzare o diminuire, in modo pesato, il punteggio dell’evento. Il calcolo del punteggio dell’evento è importante in quanto permette di eliminare i feeds che comprendono le parole relative alla tipologia di evento ricercato ma utilizzate con significati diversi.
Un altro punteggio, che chiameremo “punteggio della datazione”, viene calcolato, 403, per determinare la rilevanza della notizia in funzione della distanza temporale tra l’accadimento dell’evento e la pubblicazione della notizia. Anche in questo caso viene analizzato il testo della notizia per rintracciarvi specifiche parole o diciture che contengano un riferimento temporale (ad esempio, “due giorni fa”, “il 18 maggio 2012”, “la scorsa settimana”, ecc). Il punteggio della datazione viene calcolato come valore intero che rappresenta la distanza in giorni tra l’evento e la pubblicazione della notizia. Un valore positivo rappresenta un evento accaduto nel passato rispetto alla pubblicazione della notizia e più è grande il valore assoluto e meno rilevante è la notizia. Un valore positivo del punteggio della datazione rappresenta un evento futuro (ad esempio programmato o previsto) e viene considerato non rilevante.
Un altro punteggio, che chiameremo “numero di notizie”, viene anch’esso calcolato, 404, per determinare la rilevanza mediatica dell’evento, indice indiretto dell’intensità dello stesso. Come “numero di notizie” può essere semplicemente assunto il numero di notizie equivalenti già calcolato dall’aggregatore di feeds, oppure può essere calcolato in modo diverso.
Per ciascuno dei suddetti punteggi vengono definiti dei valori di soglia e viene quindi eseguito un confronto tra il punteggio calcolato ed il rispettivo valore di soglia, 405. Il confronto tra i punteggi calcolati e i rispettivi valori di soglia è utile per eseguire un filtro e quindi escludere dalla banca dati gli eventi meno attendibili. Ad esempio, per il punteggio di datazione viene impostato un primo valore di soglia per escludere notizie che riportano eventi troppo lontani nel passato ed un secondo valore di soglia per escludere eventi nel futuro (in quanto possono essere solo previsioni e non eventi realmente accaduti). Inoltre, il confronto tra i punteggi calcolati e i rispettivi valori di soglia è utile anche per avere ulteriori informazioni caratteristiche dell’evento in quanto, ad esempio, il “numero di notizie” fornisce una informazione sulla rilevanza mediatica dell’evento che è misura indiretta dell’intensità dell’evento stesso.
La catalogazione dell’evento, 406, avviene quindi insieme ai relativi punteggi, dopo aver eseguito un controllo sulla presenza di eventi duplicati. Per evitare la presenza di duplicati vengono controllati alcuni campi del feed dell’evento ad esempio: Id, Title, Permalink, Content.
Infine, le notizie catalogate possono essere vantaggiosamente visualizzate tramite un sistema WebGIS impostato per tenere in considerazione i punteggi con i quali le notizie di evento sono state catalogate e con il quale è possibile intervenire manualmente sulla catalogazione della singola notizia al fine di migliorare il risultato ottenuto automaticamente.
Il metodo di creazione di banche dati di eventi geologici rischiosi sopra descritto consente la creazione e l’aggiornamento automatico della banca dati senza la necessità di predisporre sul territorio dispositivi di rilevamento degli eventi. Il metodo consente di sfruttare la grande diffusione di notiziari sul web e, mediante l’applicazione di peculiari processi di data mining consente di registrare eventi geologici rischiosi a partire da relative notizie sull’evento. In pratica, il peculiare utilizzo di processi di data mining consente di estrarre da internet notizie di evento e di vagliarle accuratamente in modo che si possa far corrispondere con una ragionevole affidabilità la notizia di evento all’evento stesso. Inoltre, dalle notizie stesse, sempre attraverso opportuni processi di data mining vengono estratti i dati principali dell’evento, comprendenti almeno il tempo ed il luogo in cui è avvenuto e l’intensità dello stesso.
Con riferimento alla figura 5, secondo una forma realizzativa preferita dell’invenzione la banca dati di toponimi utilizzata nel processo di localizzazione dell’evento prevede un elenco di toponimi di vario tipo tra cui almeno nomi di località, e piccole città, 501, nomi di unità amministrative a vari livelli di aggregazione quali comuni, 502, province 503 e regioni, 504, nomi di strade, 505, nomi di fiumi, laghi, montagne, ed altre zone geografiche, 506, codici di avviamento postale. Ognuno dei toponimi presenti nella banca dati è localizzato secondo un predefinito sistema di coordinate geografiche, preferibilmente il sistema WGS84, ed a ogni toponimo è anche associata una definizione geometrica che può essere un punto, una linea o un’area a seconda dell’entità geografica che il toponimo rappresenta. Inoltre, i toponimi presenti nella banca dati sono organizzati gerarchicamente secondo una pluralità di categorie gerarchiche. Una prima categoria gerarchica è costituita da una suddivisione amministrativa, ad esempio in Italia in comuni, province e regioni. Ulteriori categorie gerarchiche sono individuabili nelle zone geografiche 506 quali ad esempio regioni storiche, valli, comunità montane, aree turistiche. Nel caso di queste ulteriori categorie gerarchiche, a differenza di quanto avviene nella categoria gerarchica amministrativa, l’appartenenza di un toponimo ad un toponimo di livello di aggregazione maggiore può non essere esclusiva.
In aggiunta, una banca dati di toponimi utilizzata nel metodo dell’invenzione, prevede vantaggiosamente anche dati sulla localizzazione geografica dei notiziari web, 507, nei quali vengono ricercate le notizie di evento, dati che vengono utilizzati nel processo di data mining tramite il quale avviene la localizzazione della notizia.
Con una banca dati come sopra definita il processo di geo-localizzazione può vantaggiosamente operare nel modo che segue. Viene definito un certo livello di aggregazione, al quale saranno associati gli eventi. Ad esempio, l’obiettivo del processo di localizzazione può essere l’associazione di ogni evento ad un toponimo che si trova al livello di aggregazione “comune” 502, il quale è memorizzato nella banca dati ed esempio come entità poligonale. Tale entità poligonale di riferimento può essere parte di entità poligonali di livello superiore, quali provincia 503, regione 504, zona geografica 506, area di competenza di un notiziario web 507, in diverse categorie gerarchiche. L’entità poligonale di riferimento 502 può a sua volta contenere ulteriori entità geografiche di livello inferiore che possono essere di tipo area, linea o puntuali, quali località e frazioni 501, strade 505 o altre piccole entità geografiche.
Il processo di data mining tramite il quale avviene la localizzazione dell’evento prevede quindi che nella notizia vengano rintracciati toponimi presenti nella banca dati e che l’evento venga associato in ogni caso ad un toponimo del livello di aggregazione predefinito ad esempio (comune) grazie alla struttura a gerarchia multipla della banca dati di toponimi. Grazie a questo tipo di struttura, inoltre, l’attendibilità della localizzazione può essere valutata in quanto può essere assegnato un punteggio e un peso ad alcuni fattori quali la presenza nella notizia di più toponimi appartenenti, in livelli di aggregazione diversi, alla stessa catena gerarchica.
Certamente i vantaggi associati ad un metodo di creazione ed aggiornamento automatici di banche dati di eventi geologici rischiosi secondo invenzione quanto sopra descritto rimangono inalterati anche in conseguenza di modifiche o varianti allo stesso.
Infatti, come risulterà facilmente comprensibile, un metodo secondo la presente invenzione può essere opportunamente modificato ed applicato proficuamente per la creazione di banche dati di eventi di tipologia anche molto diversa, soggetti comunque ad avere un’eco mediatica in internet. Inoltre, anche l’ambito territoriale che la banca dati deve coprire può essere arbitrariamente definito, impostando opportunamente i parametri di ricerca e selezionando in tal senso la relativa banca dati di toponimi.
Infatti, come facilmente comprensibile, alle fasi del metodo ed alle tecniche di data mining sopra descritte possono essere apportate modifiche, integrazioni e affinamenti, sempre rimanendo all’interno dell’ambito di protezione definito dalle rivendicazioni che seguono.

Claims (5)

  1. RIVENDICAZIONI 1. Metodo per la creazione e l’aggiornamento automatici di banche dati di eventi che hanno eco mediatiche in internet quali, ad esempio, frane, terremoti, inondazioni , caratterizzato dal fatto di comprendere fasi di: - acquisizione (200) da internet di notizie relative ad una determinata tipologia di evento, detta acquisizione avvenendo grazie all’esecuzione di un programma aggregatore di feeds in base a determinati parametri di ricerca; - definizione di ogni feed restituito come output da detto programma aggregatore di feeds come un evento di detta determinata tipologia di eventi; - associazione ad ogni feed che non contiene informazioni di posizione di una informazione di posizione (300) mediante confronto di informazioni contenute in detto feed con una banca dati di toponimi; - catalogazione (400) di ogni evento in una banca dati di detto evento insieme a parametri caratteristici di detto evento comprendenti almeno la posizione dell’evento, la datazione dell’evento, e l’intensità dell’evento, detti parametri essendo determinati mediante tecniche di data mining eseguite su detto feed che individua detta ricorrenza dello specifico tipo di evento; - ripetizione ciclica delle fasi precedenti secondo un determinato intervallo temporale.
  2. 2. Metodo secondo la rivendicazione precedente caratterizzato dal fatto che detta fase di acquisizione (200) di notizie da internet comprende fasi di: - ricerca sulla rete internet di notizie relative ad una determinata tipologia di eventi, all’interno di una determinata lista di indirizzi web, tramite aggregatori di feeds, in cui la suddetta ricerca avviene in funzione di una pluralità di parametri di ricerca; - raggruppamento dei risultati della ricerca tramite specifici algoritmi di classificazione e raggruppamento; - restituzione dei risultati raggruppati, ogni raggruppamento essendo espresso sotto forma di un feed; - interpretazione di ogni feed da parte di un programma lettore di feeds; - identificazione di ogni feed con un evento di detta determinata tipologia di eventi.
  3. 3. Metodo secondo la rivendicazione 1 o 2 caratterizzato dal fatto che detta fase di associazione ad un feed di un informazione di posizione (300) comprende fasi di: - confronto testuale di uno o più campi del feed con una banca dati di toponimi; - individuazione in detti campi del feed di uno o più toponimi presenti in detta banca dati di toponimi; - applicazione di tecniche di data mining per selezionare, tra detti toponimi individuati, uno o più toponimi di riferimento da associare a detto feed; - scelta, tra detti uno o più toponimi, del toponimo di riferimento principale tramite un opportuno algoritmo; - associazione al feed di un GeoTag corrispondente, nella banca dati di toponimi, al toponimo selezionato, detto GeoTag del feed e / o detto toponimo selezionato corrispondendo ad un’informazione di posizione dell’evento.
  4. 4. Metodo secondo la rivendicazione precedente caratterizzato dal fatto che detta banca dati di toponimi prevede un elenco di toponimi di vario tipo tra cui almeno nomi di località, e piccole città (501) nomi di unità amministrative a vari livelli di aggregazione quali comuni (502), province (503) e regioni (504), nomi di strade (505), nomi di fiumi, laghi, montagne, ed altre zone geografiche (506), ognuno di detti toponimi essendo localizzato secondo un predefinito sistema di coordinate geografiche ed ad ognuno di essi essendo associata una definizione geometrica che può essere ad esempio un punto, una linea o un’area, detti toponimi essendo organizzati gerarchicamente secondo una pluralità di categorie gerarchiche.
  5. 5. Metodo secondo una delle rivendicazioni precedenti caratterizzato dal fatto che detta fase di catalogazione (400) comprende fasi di: - esecuzione sul feed associato a detto evento di tecniche di data mining adatte a determinare parametri caratteristici di detto evento ed a escludere da detta banca dati eventi non attendibili, dette tecniche di data mining comprendendo almeno: - il calcolo di un: “punteggio del luogo” per determinare quanto sia affidabile il GeoTag assegnato al feed; un “punteggio dell’evento” per determinare la probabilità che il feed riguardi effettivamente un evento della tipologia di evento ricercato; un “punteggio della datazione” per determinare la rilevanza della notizia in funzione della distanza temporale tra l’accadimento dell’evento e la pubblicazione della notizia; un “numero di notizie” per determinare la rilevanza mediatica dell’evento, indice indiretto dell’intensità dello stesso; - Il confronto dei suddetti punteggi calcolati con rispettivi valori di soglia; - inserimento dell’evento in detta banca dati di eventi, ad ogni evento essendo associate almeno informazioni di posizione, datazione e intensità ricavate direttamente o tramite le suddette tecniche di data mining da detto feed dell’evento.
IT000070A 2013-07-15 2013-07-15 Metodo per la creazione di banche dati di eventi con eco mediatica in internet. ITPI20130070A1 (it)

Priority Applications (4)

Application Number Priority Date Filing Date Title
IT000070A ITPI20130070A1 (it) 2013-07-15 2013-07-15 Metodo per la creazione di banche dati di eventi con eco mediatica in internet.
US14/905,111 US20160162512A1 (en) 2013-07-15 2014-07-15 Method for the Creation of Databases of Events Having a Mediatic Echo in the Internet
PCT/IB2014/001328 WO2015008136A1 (en) 2013-07-15 2014-07-15 Method for the creation of databases of events having a mediatic echo in the internet
EP14759265.3A EP3022667A1 (en) 2013-07-15 2014-07-15 Method for the creation of databases of events having a mediatic echo in the internet

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT000070A ITPI20130070A1 (it) 2013-07-15 2013-07-15 Metodo per la creazione di banche dati di eventi con eco mediatica in internet.

Publications (1)

Publication Number Publication Date
ITPI20130070A1 true ITPI20130070A1 (it) 2015-01-16

Family

ID=49182394

Family Applications (1)

Application Number Title Priority Date Filing Date
IT000070A ITPI20130070A1 (it) 2013-07-15 2013-07-15 Metodo per la creazione di banche dati di eventi con eco mediatica in internet.

Country Status (4)

Country Link
US (1) US20160162512A1 (it)
EP (1) EP3022667A1 (it)
IT (1) ITPI20130070A1 (it)
WO (1) WO2015008136A1 (it)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
CN108009171B (zh) * 2016-10-27 2020-06-30 腾讯科技(北京)有限公司 一种提取内容数据的方法和装置
WO2018156641A1 (en) * 2017-02-21 2018-08-30 Sony Interactive Entertainment LLC Method for determining news veracity
CN106934049B (zh) * 2017-03-16 2020-08-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
US10313413B2 (en) 2017-08-28 2019-06-04 Banjo, Inc. Detecting events from ingested communication signals
US10581945B2 (en) 2017-08-28 2020-03-03 Banjo, Inc. Detecting an event from signal data
US20190251138A1 (en) * 2018-02-09 2019-08-15 Banjo, Inc. Detecting events from features derived from multiple ingested signals
US11025693B2 (en) 2017-08-28 2021-06-01 Banjo, Inc. Event detection from signal data removing private information
US10970184B2 (en) 2018-02-09 2021-04-06 Banjo, Inc. Event detection removing private information
US10261846B1 (en) 2018-02-09 2019-04-16 Banjo, Inc. Storing and verifying the integrity of event related data
US10585724B2 (en) 2018-04-13 2020-03-10 Banjo, Inc. Notifying entities of relevant events
WO2019195674A1 (en) * 2018-04-06 2019-10-10 Banjo, Inc. Detecting events from features derived from multiple ingested signals
US11308136B2 (en) * 2018-08-21 2022-04-19 Sap Se Different data sources for regions in geographical hierarchies
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
CN110633858A (zh) * 2019-09-18 2019-12-31 国网湖南省电力有限公司 一种用于输电线路的暴雨地质灾害的聚类预警方法及系统
CN112199585A (zh) * 2020-09-29 2021-01-08 黑龙江省网络空间研究中心 一种基于数据挖掘技术的网络舆情突发热点事件发现方法
CN115965246B (zh) * 2023-03-16 2023-05-19 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种岩溶塌陷灾害的预警分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458174B1 (en) * 2011-09-02 2013-06-04 Google Inc. Semantic image label synthesis
US9032000B2 (en) * 2013-02-19 2015-05-12 Digital Globe Inc. System and method for geolocation of social media posts

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IAN TURTON ET AL: "A Web Based Tool For the Detection and Analysis of Avian Influenza Outbreaks From Internet News Sources", PROCEEDINGS, AUTOCARTO2008. THE 17TH INTERNATIONAL RESEARCH SYMPOSIUM ON COMPUTER-BASED CARTOGRAPHY, 8 September 2008 (2008-09-08), Shepherdstown, West Virginia, USA, pages 1 - 9, XP055106110, Retrieved from the Internet <URL:http://www.cartogis.org/docs/proceedings/2008/turton_murdoch.pdf> [retrieved on 20140307] *
KYOUNG-SOOK KIM ET AL: "Moving Phenomenon: Aggregation and Analysis of Geotime-Tagged Contents on the Web", 7 December 2009, WEB AND WIRELESS GEOGRAPHICAL INFORMATION SYSTEMS, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 7 - 24, ISBN: 978-3-642-10600-2, XP019135210 *
MARTINS B ET AL: "Extracting and Exploring the Geo-Temporal Semantics of Textual Resources", SEMANTIC COMPUTING, 2008 IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 4 August 2008 (2008-08-04), pages 1 - 9, XP031304863, ISBN: 978-0-7695-3279-0 *

Also Published As

Publication number Publication date
WO2015008136A1 (en) 2015-01-22
US20160162512A1 (en) 2016-06-09
EP3022667A1 (en) 2016-05-25

Similar Documents

Publication Publication Date Title
ITPI20130070A1 (it) Metodo per la creazione di banche dati di eventi con eco mediatica in internet.
Liping et al. Monitoring and predicting land use and land cover changes using remote sensing and GIS techniques—A case study of a hilly area, Jiangle, China
Zheng et al. U-air: When urban air quality inference meets big data
Kirschbaum et al. A dynamic landslide hazard assessment system for Central America and Hispaniola
Merz et al. Flood frequency hydrology: 2. Combining data evidence
Leroux et al. Land development in and around protected areas at the wilderness frontier
Viola et al. Applicability of the LASH model for hydrological simulation of the Grande River Basin, Brazil
Macdonald Reassessing flood frequency for the River Trent through the inclusion of historical flood information since AD 1320
Zhang et al. Global Dam Tracker: A database of more than 35,000 dams with location, catchment, and attribute information
Kwon et al. Risk analysis and visualization for detecting signs of flood disaster in Twitter
Wu et al. Seasonal prediction of daily PM2. 5 concentrations with interpretable machine learning: a case study of Beijing, China
Alfio et al. Drought index as indicator of salinization of the Salento aquifer (Southern Italy)
Dullo et al. Simulation of Hurricane Harvey flood event through coupled hydrologic‐hydraulic models: Challenges and next steps
Santos GIS-based hazard and risk maps of the Douro river basin (north-eastern Portugal)
Xingli et al. Susceptibility zoning of karst geological hazards using machine learning and cloud model
de Assis et al. Geographical prioritization of social network messages in near real-time using sensor data streams: an application to floods.
Huber et al. Disaggregation of aggregate GPS-based cycling data–How to enrich commercial cycling data sets for detailed cycling behaviour analysis
Weber et al. Groundwater abstraction impacts on spring flow and base flow in the Hillsborough River Basin, Florida, USA
Xiang et al. Assessment of vulnerability to waterlogging in subway stations using integrated EWM-TOPSIS
Nienhuis et al. A global open-source database of flood-protection levees on river deltas (openDELvE)
Zou et al. Leveraging Data Driven Approaches to Quantify the Impact of Construction Projects on Urban Quality of Life
Leoni et al. Heuristic method for landslide susceptibility assessment in the Messina municipality
Hamdi et al. Improving Ontario pavement management through long term monitoring
Holcombe et al. Co-producing data and decision support tools to reduce landslide risk in the humid tropics
Li et al. Study on road damage assessment based on RS and GIS