ITMI20001952A1 - Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo - Google Patents

Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo Download PDF

Info

Publication number
ITMI20001952A1
ITMI20001952A1 IT2000MI001952A ITMI20001952A ITMI20001952A1 IT MI20001952 A1 ITMI20001952 A1 IT MI20001952A1 IT 2000MI001952 A IT2000MI001952 A IT 2000MI001952A IT MI20001952 A ITMI20001952 A IT MI20001952A IT MI20001952 A1 ITMI20001952 A1 IT MI20001952A1
Authority
IT
Italy
Prior art keywords
users
allows
user
internet
documents
Prior art date
Application number
IT2000MI001952A
Other languages
English (en)
Inventor
Nicola Carena Edgardo Di
Giorgio Baiardelli
Pio Baiardelli
Massimo Strada
Original Assignee
Nicola Carena Edgardo Di
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nicola Carena Edgardo Di filed Critical Nicola Carena Edgardo Di
Priority to IT2000MI001952A priority Critical patent/ITMI20001952A1/it
Publication of ITMI20001952A0 publication Critical patent/ITMI20001952A0/it
Priority to DE60119352T priority patent/DE60119352D1/de
Priority to AU2001295542A priority patent/AU2001295542A1/en
Priority to EP01976192A priority patent/EP1323065B1/en
Priority to CA002421412A priority patent/CA2421412A1/en
Priority to PCT/EP2001/010225 priority patent/WO2002021305A2/en
Priority to AT01976192T priority patent/ATE325388T1/de
Priority to US10/363,949 priority patent/US20040024653A1/en
Publication of ITMI20001952A1 publication Critical patent/ITMI20001952A1/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

Riassunto
Un metodo e un sistema per organizzare i documenti e servizi di Internet nella quale la stessa attività di ricerca e l’accesso a servizi da parte degli utilizzatori sia monitorata e questa attività di ricerca sia utilizzata per classificare gli utilizzatore e organizzarne gli oggetti risultanti dalle loro future ricerche. L’invenzione opera offrendo pubblicamente su Internet un’interfaccia, la quale consente agli utilizzatori di selezionare e riorganizzare l’informazione estratta da Internet. Usando tecniche di elaborazione statistica, come un sistema basato su reti neurali, essa permette di categorizzare un gran numero di utilizzatori e organizzare praticamente tutta l’informazione presente su Internet attraverso un processo evolutivo.
Descrizione deilo stato dell’arte
La presente invenzione è relativa alla ricerca di informazione e all’accesso di servizi attraverso Internet. In particolare si descrive un metodo per organizzare l’attività di un utente monitorando l’attività dello stesso utente, cosi come di altri utenti che dimostrano di avere un comportamento simile.
Internet è una ben nota rete telematica, che consente agli utenti di connettersi con vari computer sparsi in tutto il mondo. Esso permette ai suoi utilizzatori di trasmettere e ricevere dati di ogni genere (testi, audio, video, etc..), normalmente inseriti nei cosiddetti “siti Web” da particolari computer detti “server”, che contengono questi dati.
La maggior parte delle informazioni su Internet al momento sono organizzate secondo il formato HTML. L’HMTL (Hyper Text Macro Language) include, oltre ai tipi di dati sopra menzionati, anche i cosiddetti “riferimenti ipertestuali”, che vengono evidenziati in un formato particolare e, quando vengono selezionati dal visitatore, aprono un nuovo documento, eventualmente a sua volta in formato HTML. Più recentemente nuovi protocolli/formati, come XML, JavaScript e Flash si sono diffusi in alternativa all’HTML per colmarne vari tipi di lacune.
Per tutte queste ragioni, Internet ha avuto un successo mondiale di dimensioni colossali, se pensiamo che il numero complessivo di utenti è cresciuto dai 10 milioni del 1995 ai circa 300 milioni dei primi mesi del 2000 (rappresentante il 5% della popolazione mondiale). L’attrattiva primaria di Internet è la grande quantità di informazione di ogni tipo di classe e interesse presente su di esso e disponibile praticamente a chiunque la cerchi.
Su questa premessa, è evidente che il problema della ricerca di informazioni su Internet è un problema primario e di non facile soluzione. Se è vero che è attualmente disponibile su Internet qualche cosa come 1000 miliardi di caratteri di informazione e una scelta estesissima di servìzi, è anche vero che localizzare e accedere a informazione di qualità è estremamente oneroso in termini di tempo ed energie, in quanto le informazioni utili sono disperse in una miriade di documenti raccolti in molti differenti server. Il problema è parzialmente risolto dai cosiddetti “portali”, che riportano liste di siti o servizi considerati di grande qualità e utilità. I portali però sono per loro natura non esaustivi e la loro selezione è spessa basata su criteri non oggettivi o addirittura dettati da logiche commerciali. Inoltre, essendo redatti manualmente, richiedono un numero cospicuo di redattori per visitare il più possibile di siti Web e decidere o meno la loro importanza per un eventuale utilizzatore che li ricerca. Anche utilizzando una redazione di centinaia di persone, è chiaro come il compito diventi sempre più arduo, a mano a mano che le pagine Web presenti aumentano a ritmo vertiginoso giorno per giorno, approcciando e superando oramai l’incredibile cifra di un miliardo di pagine HTML.
La vera soluzione sembrerebbe fornita dai cosiddetti “motori di ricerca” (attualmente più di 3000), che offrono servizi di ricerca automatizzati su praticamente tutto il complessivo parco di informazione offerto su Internet. I motori di ricerca sono tra i servizi più utilizzati su Internet e intorno a loro si sta creando un notevole movimento di idee e di denaro per cercare di offrire strumenti di ricerca più rapidi ed efficaci.
I motori di ricerca i più popolari ricercano documenti sulla base della ricorrenza di una o più parole chiave segnalate dall’ utilizzatore. Questo sistema produce centinaia o migliaia di risposte e le ordina secondo un criterio di maggiore o minore pertinenza. Purtroppo i criteri utilizzati finora, per quanto evoluti, portano a far comparire documenti interessanti in posizioni molto avanzate e Γ utilizzatore spesso si stanca di procedere nello scorrimento delle risposte e decide che l’informazione da lui ricercata non è disponibile. Per questo motivo, molto studio deve essere compiuto per determinare metodi e modi per riordinare le risposte secondo un criterio che ponga all’ inizio della lista i documenti o servizi che sono immediatamente i più rilevanti per un determinato utilizzatore, da un determinato luogo di connessione a Internet e per una determinata chiave di ricerca.
Recentemente, molti progressi sono stati compiuti nella creazione metodi di riordinamento nelle risposte dei motori di ricerca. Per esempio, Raging e Google riordinano i documenti sulla base del numero di documenti che fanno riferimento a una determinata pagina e hanno avuto un grande successo.
Tuttavia, pensiamo che questi primi tentativi di risolvere il problema della ricerca di informazioni su Internet siano ancora insufficienti e che i problemi sopradescritti richiedano per essere risolti di una più radicale e sistematica metodologia.
Oggetto e riassunto dell’invenzione
In accordo a quanto è stato detto sopra, uno scopo primario della presente invenzione è quello di riordinare e catalogare gli oggetti disponibili su Internet e di classificare l 'utilizzatore in maniera da presentargli prima le risposte più pertinenti per il suo profilo. E’ un altro importante scopo della presente invenzione quello di monitorare l’attività dell 'utilizzatore in maniera da classificarlo sulla base delle proprie azioni precedenti e anticiparne le scelte nella sua futura attività su Internet
Per raggiungere questi scopi, la presente invenzione comprende un metodo per organizzare i documenti e i servizi di Internet nella quale la stessa attività di ricerca e l’accesso a servizi da parte degli utilizzatori sia monitorata e questa attività di ricerca sia utilizzata per classificare gli utilizzatore e organizzarne gli oggetti risultanti dalle loro future ricerche. L’invenzione opera offrendo pubblicamente su Internet un’interfaccia, la quale consente agli utilizzatori di selezionare e riorganizzare l’informazione estratta da Internet. Usando tecniche di elaborazione statistica, come un sistema basato su reti neurali, essa permette di categorizzare un gran numero di utilizzatori e organizzare praticamente tutta
Γ informazione presente su Internet attraverso un processo evolutivo.
Prima di procedere alla descrizione, bisogna chiarire che il sistema così descritto ha dei gradi di libertà che non lo scosterebbero nella sostanza dal contenuto essenziale della presente invenzione. La scelta delle reti neurali (modificate) e di altri dettagli della nostra realizzazione, sono dati soprattutto per chiarire gli scopi dell’invenzione e dimostrarne la realizzabilità con un sistema completo e funzionante. Ci sono molti altri modi di realizzare la presente invenzione e anche diversi altri campi applicativi, molti dei quali li stiamo già sperimentando. Ad esempio uno potrebbe adoperare lo stesso metodo e gli stessi principi di base della presente invenzione per monitorare l’attività interna di un’azienda attraverso una rete Intranet (la versione locale di Internet), organizzare la documentazione, stimolare e automatizzare il cosiddetto processo di knowledge transfer (trasferimento di competenza). Quindi il campo di utilizzo, l’ implementazione e la terminologia utilizzata da qui in avanti non sono intesi come limitanti per l’area di applicazione della presente invenzione.
Descrizione dell’architettura e implementazione prescelte
Come già scrìtto nell’ introduzione, Internet è una rete telematica, che permette a un utente di connettersi a un grandissimo numero di sistemi computerizzati (“server”) sparsi per il mondo. Internet permette di mandare e ricevere dati attraverso questa rete. Questi dati possono essere letti, rivisti o persino ascoltati attraverso il cosiddetto “browser” o altro tipo di software caricato sul computer acceduto dall’ utilizzatore. I dati comprendono documenti testuali, grafica, messaggi audio, video e quant’ altro.
Intendiamo per “iperoggetto” ogni elemento di informazione (sia esso testo, suono, riferimento ipertestuale o “link”, servizio, etc.) incluso in ogni documento o ipertesto condiviso attraverso una rete globale (ad es., Internet) In altre parole, iperoggetto è qualunque oggetto univocamente referenziabile attraverso Internet attraverso una certa serie di informazioni referenziali. Iperoggetto potrebbe essere anche il risultato di una ricerca da un database che può essere acceduto attraverso Internet. Un iperoggetto può essere stato presente per un certo periodo su Internet e poi scomparire. Questo tipo di iperoggetto è memorizzabile e referenziabile come valido, ma deve essere riconosciuto come datato e trattato in una maniera particolare.
Quindi Internet, secondo gli scopi della nostra invenzione, è da vedersi non come sorgente di informazione catalogata e strutturata, ma al contrario come collezione caotica e confusa di iperoggetti, che richiedono un metodo per una valida e corretta strutturazione. Ogni documento HTML è quindi visto solo come una possibile e parziale maniera di strutturare iperoggetti inclusi in esso. L’importanza di un iperoggetto, la sua interrelazione con altri iperogetti e le parole chiave sono calcolate statisticamente sulla base dell’uso che gli utilizzatori ne fanno durante la loro attività.
Lo scopo dei prossimi paragrafi è dunque quello di definire dei criteri per consentire al centro di elaborazione statistica dell’attività degli utilizzatori (detto “motore della conoscenza”) di strutturare la collezione largamente destrutturata degli iperoggetti presenti su Internet.
La presente invenzione prima di tutto definisce una serie di azioni, con cui gli utilizzatori possono ricercare, selezionare, organizzare sia i documenti, che i riferimenti ipertestuali e i servizi direttamente sul loro browser collegato con Internet. Tipiche azioni saranno la ricerca di pagine Web disponibili da un database, così come l’accesso ad altri motori di ricerca e la cancellazione, selezione o categorizzazione degli riferimenti ipertestuali derivanti da questa attività.
Gli utilizzatori sono supposti navigare Γ informazione e accedere a servizi disponibili su Internet attraverso un browser standard di Internet. Un browser di Internet è una applicazione per computer, che permette a un utilizzatore di visualizzare i documenti HTML, ossia i documenti in forma di testo, immagini e riferimenti ipertestuali, che vengono trasmessi da server collegati alla rete. I browser standard di Internet, come Netscape Navigator 3.0 e superiori e Microsoft Internet Explorer 3.0 e superiori incorporano anche una speciale funzionalità, detto interprete di JavaScript™, che permette di eseguire software direttamente inserito all’intemo del documento HTML. Questo software viene eseguito indipendentemente da quale tipo di computer Γ utilizzatore sta usando per la navigazione su Internet e permette di rendere attive una serie di azioni complicate sul computer dell'utilizzatore, come cancellazione, selezione e memorizzazione di iperoggetti e riferimenti ipertestuali riportati su pagine HTML o risultati di ricerca, a patto che dei programmi appropriati siano stati preparati e resi disponibili dalla parte server.
Uno o più server sono quindi connessi a Internet da chi avrà intenzione di beneficiare della presente invenzione. Questi saranno remotamente accessibili via Internet e in essi risiederà un particolare software proprietario, parte del quale verrà poi trasmesso alla parte del computer utente attraverso Internet. Questa parte di software potrebbe essere essere scritta in JavaScript e funzionare su un browser standard di Internet oppure anche essere scritto nel codice nativo del computer utente ed essere eseguito indipendentemente dal browser. Infine, un intero pacchetto integrato di software per navigazione, catalogazione e ricerca potrebbe essere fornito preventivamente all’utilizzatore. Tutte queste opzioni sono possibili nell’ambito dello sfruttamento della presente invenzione.
In questa maniera, il sistema sarà in grado di monitorare l’attività di ogni singolo utilizzatore e di memorizzare tutta Γ informazione relativa nel proprio database sul lato server. Poiché gli utenti possono memorizzare iperoggetti in apposite cartelle riportate sullo schermo e ritrovare queste memorizzazione ad un accesso successivo e da una qualunque postazione Internet, essi saranno indotti a usare maggiormente il sistema relativo alla presente invenzione, piuttosto che semplicemente navigare attraverso Γ informazione di Internet senza provare a strutturarla come succede nella situazione originaria. Allo stesso tempo, il prodotto della loro attività viene monitorato e rappresenta una preziosa informazione addizionale, memorizzata nel database sul lato server, che può successivamente essere utilizzata per rispondere più appropriatamente alle sue ricerche o a quelle di altri utilizzatori che accederanno al servizio successivamente.Un altro beneficio importante è che gli utenti sono classificati sulla base della loro attività e attorno ad essi viene costruito un profilo. Questo profilo può essere usato per creare sottocategorie di utenza verso le quali può essere condotta un azione commerciale o semplicemente suggerito l’accesso a un particolare servizio o pezzo di informazione su Internet.
Una difficoltà nell’ implementazione di questo metodo è che, poiché il sistema dipende pesantemente da un completo trasferimento delle indicazioni sperimentali e conoscitive e dell’utenza verso il sistema, è difficile produrre un sistema esperto che sia in grado di raccogliere e strutturare l' informazione in una situazione di diverse migliaia di miliardi di iperoggetti presenti in formati completamente diversi e appartenenti alle categorie più disparate. Recentemente sono stati sviluppati sistemi basati su reti neurali che hanno offerto capacità addizionali nel saper riconoscere le relazioni tra elementi senza una conoscenza a priori della loro natura, come avviene invece per i sistemi esperti.
Nella presente invenzione, le reti neurali vengono utilizzate in maniera diversa da come vengono utilizzate nel classico ambito del riconoscimento e classificazione di pattern. Invece di applicare il metodo a pattern che esistono già, i pattern per ogni elemento di informazione vengono generati nella forma di un vettore di numeri, corrispondenti alle coordinate di un punto giacente su una ipersfera. I punti relativi a un determinato elemento sono normalmente definiti in più di un iperspazio e ogni iperspazio rappresenta un differente contesto dove i punti verranno poi fatti aggregare per creare sottogruppi e interrelazioni. Ad esempio, un iperspazio è relativo al concetto di significato e serve a studiare la relazione tra iperoggetti e parole chiave, come anche parole chiave e altre parole chiave. Un altro iperspazio è definito come contesto del profilo utente e mette invece in relazione utenti e parole chiave, come anche utenti e iperoggetti. Un altro iperspazio ancora è usato come contesto per la localizzazione geografica degli iperoggetti e delle parole chiave. Ogni iperspazio multidimensionale ha un numero di dimensioni variabile che viene deciso sulla base di criteri sperimentali, per rispondere appropriatamente alla maggiore o minore complessità del relativo contesto concettuale. Un numero troppo basso può essere insufficiente per separare appropriatamente differenti sottospazi corrispondenti a diversi significati/profili/localizzazioni. Un numero troppo alto, per contro, può portare a un eccessiva dispersione dei punti e a non riconoscere delle interrelazioni indirette tra oggetti, ossia a fornire un apporto di informazione inferenziale rispetto a quello dato dalle indicazioni stese degli utilizzatori.
Per applicare con successo questo schema a una situazione di dati così disomogenei come nel caso di Internet, ogni elemento, che sia iperoggetto, parola chiave, utente, localizzazione geografica ecc., viene associato a un numero intero sequenziale. Questo numero è unico per ogni elemento e viene associato dal server stesso la prima volta che viene a conoscenza dell’esistenza dell’elemento stesso.
Ogni volta che un utente esegue ogni tipo di operazione che coinvolge un iperoggetto (evidenziazione, cancellazione, spostamento, categorizzazione, ecc.) riconosce
quell 'iperoggetto come oggetto signi ficativo e perciò un nuovo campo viene creato per esso all' interno del database server degli iperoggetti. La struttura di questo database è la seguente:
Quando un certo iperoggetto viene creato, un vettore di numeri viene creato per esso rappresentante le n coordinate della posizione iniziale del punto relativo nello spazio ridimensionale. Il punto iniziale viene generato casualmente sulla superficie di una ipersfera, utilizzando il seguente meccanismo di generazione descrìtto dal seguente segmento di pseudo-codice.
Il risultato è una distribuzione di punti con coordinate x tale per cui la distanza media tra punti è prossima a 1.
Simile procedura è utilizzata per la creazione di punti relativi a tutti gli altri elementi nei diversi spazi contestuali.
Ogni volta che un nuovo utente si iscrive al servizio per la prima volta, un nuovo campo viene creato aU’intemo del database utenti. La struttura del campo nel database utente è la seguente:
Se non ci sono informazioni a priori disponibili per l’utente, i punti relativi vengono generati con lo stesso criterio che per la creazione di iperoggetti. Tuttavia, quando questa informazione a priori esiste il punto iniziale può essere generato in maniera differente. Il “boosting” è un meccanismo per determinare questo punto iniziale effettuando una media pesata dei punti medi relativi a determinate categorie segnalate come proprie dal nuovo utente mediante una o più domande sondaggio. Lo scopo del boosting è quello di accorciare notevolmente l’approccio dell’utente nell’area profilo alla quale è più correttamente associabile.
Ogni volta che un utente esegue una operazione coinvolgente una lista di parole chiave ancora sconosciuta al sistema (come ricerca o associazione di iperoggetti a parole chiave), viene creato un nuovo campo all'interno del database delle parole chiave. Le parole chiave sono memorizzate esattamente nella stessa maniera con cui vengono digitate dall’utente, eccetto che tutti gli spazi addizionali vengono cancellati. Ad esempio, “LaTeX” e “latex” sono entrambi creati, come anche “Ferrari■turbo” e “TURB OD FERRARI”, mentre “news■from■Japan” e “■news■■from■Japan” sono associati allo stesso numero sequenziale. Un nodo creato nell’albero delle parole chiave
Il punto iniziale per una nuova lista di parole chiave che non è simile a nessun’altra precedentemente inserita è calcolata nella stessa maniera come nel caso della creazione di tutti gli altri oggetti. Quando una lista di parole chiave è simile ad altre inserite in precedenza, viene calcolato per esse un fattore di similarità e questo fattore usato come peso per effettuare una media pesata dei punti relativi e calcolare così il punto iniziale per la nuova lista di parole chiave. Questo meccanismo rappresenta perciò un tipo di “boosting” applicato alle parole chiave.
La seguente tabella sintetizza i vari elementi di informazione presenti negli spazi che sono definiti nella implementazione corrente della presente invenzione:
Il contesto dei 4 differenti spazi è il seguente:
A) Correlazione di significato
B) Correlazione di utente
C) Correlazione di località geografica
D) Correlazione di modalità di utilizzo
Una volta che i punti sono creati nei diversi iperspazi, le azioni degli utilizzatori e ogni altro genere di informazione sono utilizzati per spostare i punti e creare cosi famiglie di punti o altre indicazioni di correlazione fra oggetti.
Ogni volta che un utente comincia una nuova sessione, una lista vuota di azioni viene creata per esso. L’informazione generale connessa a ogni singola sessione è:
Ogni volta che un utente esegue una certa operazione sul lato cliente (ad esempio, selezione, cancellazione, catalogazione di iperoggetti, attivazione di un certo servizio, attivazione o disattivazione di opzioni, ecc.), la interrelazione tra tutti gli elementi coinvolti da quella operazione viene segnalata per mezzo di un campo nel database azioni.
Quando un utente comincia una nuova sessione, viene creata una corrispondente lista vuota di azioni/associazioni. Ogni volta che un utente esegue una un azione, la corrispondente associazione tra parole chiave, iperoggetti, azioni utenti ecc. viene memorizzata nella successiva posizione libera della propria lista. Il record ha la seguente struttura:
Ogni azione connette i differenti elementi per mezzo di un fattore di correlazione (“rank”). Questo fattore dà la quantità di cambiamento tra i punti dovuta all’informazione correlata e può essere positiva o negativa, in dipendenza da se l’associazione tra gli elementi coinvolti è più o meno forte. Per esempio se un utente salva un determinato iperoggetto sotto una certa lista di parole chiave, questa verrà considerata un’associazione di tipo forte e quindi il rank avrà un valore relativamente elevato. Se lo stesso utente decide di cancellare lo stesso iperoggetto, significa che il suo interesse verso un iperoggetto e la sua associazione con la lista di parole chiave è diminuita e questo verrà espresso ripetendo la stessa associazione ma con un rank negativo dello stesso ordine di grandezza del valore positivo precedente. I rank associati ai diversi tipi di azioni dipendono dalla specifica implementazione e sono rifiniti progressivamente attraverso una fase di sperimentazione.
Quando un associazione viene segnalata, i diversi punti coinvolti cambiano la loro mutua posizione seguendo una regola derivata dalla regola di Kohonen usata nelle reti neurali. Anziché applicare uno step arbitrario al cambiamento di posizione, l’ammontare del cambiamento è ottenuto per mezzo di un peso wn che rappresenta un fattore “inerziale” per il punto e che viene aggiunto al vettore di numeri rappresentante la posizione xn nell’iperspazio. Il cambiamento di posizione è in funzione delle informazioni relative al primo punto coinvolto wn e xn, a quelle del secondo punto coinvolto wm e xm e al rank r, utilizzando le seguenti regole:
In aggiunta all’aggiornamento delle coordinate, viene effettuato anche un aggiornamento dei pesi inerziali:
Quando entrambi gli assegnamenti vengono utilizzati, l’aggiornamento dei vettori è detto bidirezionale. In questo caso, i due punti relativi sono attratti l’uno all’altro e tendono a incontrarsi l’un l’altro nel punto medio pesato attraverso i pesi w. In alcuni particolari casi, solo uno dei due assegnamenti viene eseguito. Ciò significa che uno dei due punti (“figlio”) è attratto dall’altro (“genitore”).
Dopo un vasto utilizzo di queste regole di aggiornamento e usando migliaia se non milioni di informazioni associative, i punti convergono lentamente a organizzarsi secondo aree concettuali. Queste aree non sono state create a priori da un intervento umano, come in un sistema esperto, ma sono automaticamente formate dal sistema evolutivo. La maggior parte dei punti tendono a concentrarsi verso il centro dell’ iperspazio, ma mantengono tuttavia una direzione preferenziale verso la relativa area concettuale. Per compensare la tendenza al collassamento verso il centro, di tanto in tanto viene calcolata la distanza media tra i punti e tutte le coordinate di tutti i punti sono divisi per questa distanza, in maniera che la distanza media si mantenga approssimativamente uguale a 1.
Il sistema può così essere interrogato se tra una determinata coppia di punti esista o meno una particolare correlazione e utilizzare queste informazioni per predire su base statistica il comportamento e le scelte di un certo utente. Il criterio è sempre quello della distanza: una distanza tra due punti molto minore di 1 indica una relazione preferenziale tra due punti. Ad esempio, calcolando le distanze tra un utente e tutti gli iperoggetti o tra una lista di parole chiave e gli stessi iperoggetti e calcolandone un relativo punteggio (“score”), riordinando poi gli iperoggetti in base a questo score, è in grado di suggerire poi a quel particolare utente il suo interesse verso una particolare relazione tra parole chiave inserite e iperoggetti.
Il risultato finale può sembrare molto simile a quello di un tradizionale motore di ricerca, ma con la differenza sostanziale di tener conto di tutti i dati statistici relativi all’interesse dell’utente appartenente a un certo profilo verso le parole chiave e verso gli iperoggetti, nonché della localizzazione di provenienza della ricerca e di altri dati relativi al comportamento dell’utente. Per questo, il sistema è in grado di dare risposte molto più inerenti di ogni esistente motore di ricerca e di anticipare i reali bisogni e le esigenze dell’ utilizzatore suggerendogli iperoggetti, nuove parole chiave nonché nuovi servizi che l’utente stesso avrebbe voluto ricercare e selezionare in una sua futura attività.

Claims (7)

  1. Rivendicazioni 1. Un sistema che permette a utenti di accedere e organizzare informazione, essendo la loro attività monitorata e classificata, e un metodo che permette al sistema di predire con un criterio statistico le loro azioni e selezioni, comprendente: a) Un sistema che permette agli utenti di scorrere dei documenti e accedere ad altri servizi disponibili attraverso una rete telematica. b) Un sistema che permette agli utenti di identificarsi attraverso una chiave di identificazione. c) Un sistema che traccia ogni azione compiuta dagli utilizzatori del sistema. d) Un sistema che consenta agli utilizzatori di ritrovare parte o tutti gli effetti delle azioni compiute quando accedono al sistema durante precedenti sessioni in cui abbiano usato la stessa chiave di identificazione. e) Un metodo per suggerire nuove azioni sulla base di analisi statistiche della frequenza della selezione di azioni compiute da utenti precedenti.
  2. 2. Un sistema come in 1 , comprendente f) Un sistema che permette agli utenti di accedere ad altri sistemi di ricerca su differenti database e visualizzare le loro risposte.
  3. 3. Un sistema come in 2, comprendente g) Un sistema che permette all’utente di organizzare le risposte ottenute al punto f.
  4. 4. Un sistema come in 2 e 3 comprendente 1) Un sistema che consente di cancellare alcune risposte ottenute al punto f.
  5. 5. Un sistema come in 1 , 2, 3 e 4 comprendente h) Un sistema che visualizza i riferimenti ipertestuali nei documenti disattivandoli preventivamente . i) Un sistema che permette agli utenti di attivare i riferimenti ipertestuali su documenti selezionati.
  6. 6. Un sistema come in 3, 4 e 5 comprendente l) Un sistema che permette agli utenti di estrarre parte dei documenti e memorizzarli sui nodi di un albero e di creare nuovi nodi quando necessario.
  7. 7. Un sistema come in 1, 2, 3, 4, 5 e 6 comprendente: m) Un metodo per identificare classi di utenti che denotano un comportamento similare e quando usano un sistema come descritto. n) Un metodo per suggerire nuove azioni sulla base di analisi statistiche della frequenza delle azioni precedentemente operate da utilizzatori che hanno avuto un comportamento simile durante l’accesso al sistema.
IT2000MI001952A 2000-09-05 2000-09-05 Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo ITMI20001952A1 (it)

Priority Applications (8)

Application Number Priority Date Filing Date Title
IT2000MI001952A ITMI20001952A1 (it) 2000-09-05 2000-09-05 Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo
DE60119352T DE60119352D1 (de) 2000-09-05 2001-09-05 System und methode zum zugriff und zur organisation von in einem netzwerk verfügbaren information
AU2001295542A AU2001295542A1 (en) 2000-09-05 2001-09-05 A system and a method to access and organise information available from a network
EP01976192A EP1323065B1 (en) 2000-09-05 2001-09-05 A system and a method to access and organise information available from a network
CA002421412A CA2421412A1 (en) 2000-09-05 2001-09-05 A system and a method to access and organise information available from a network
PCT/EP2001/010225 WO2002021305A2 (en) 2000-09-05 2001-09-05 A system and a method to access and organise information available from a network
AT01976192T ATE325388T1 (de) 2000-09-05 2001-09-05 System und methode zum zugriff und zur organisation von in einem netzwerk verfügbaren information
US10/363,949 US20040024653A1 (en) 2000-09-05 2001-09-05 System and method to access and organise information available from a network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT2000MI001952A ITMI20001952A1 (it) 2000-09-05 2000-09-05 Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo

Publications (2)

Publication Number Publication Date
ITMI20001952A0 ITMI20001952A0 (it) 2000-09-05
ITMI20001952A1 true ITMI20001952A1 (it) 2002-03-05

Family

ID=11445755

Family Applications (1)

Application Number Title Priority Date Filing Date
IT2000MI001952A ITMI20001952A1 (it) 2000-09-05 2000-09-05 Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo

Country Status (8)

Country Link
US (1) US20040024653A1 (it)
EP (1) EP1323065B1 (it)
AT (1) ATE325388T1 (it)
AU (1) AU2001295542A1 (it)
CA (1) CA2421412A1 (it)
DE (1) DE60119352D1 (it)
IT (1) ITMI20001952A1 (it)
WO (1) WO2002021305A2 (it)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068301A2 (en) * 2003-01-24 2004-08-12 Jp Morgan Chase Bank Network-based systems for executing financial transactions
US8635216B1 (en) * 2004-09-30 2014-01-21 Avaya Inc. Enhancing network information retrieval according to a user search profile
US7406452B2 (en) * 2005-03-17 2008-07-29 Hewlett-Packard Development Company, L.P. Machine learning
US8005685B1 (en) * 2005-06-13 2011-08-23 Amazon Technologies, Inc. Ranking air travel search results based upon user criteria
US20070088690A1 (en) * 2005-10-13 2007-04-19 Xythos Software, Inc. System and method for performing file searches and ranking results
CN101373456A (zh) * 2007-08-22 2009-02-25 国际商业机器公司 对软件进行支持的方法,软件支持代理以及计算机系统
US8549026B2 (en) * 2010-10-12 2013-10-01 Clinicomp International, Inc. Standardized database access system and method
US8688649B2 (en) 2010-10-12 2014-04-01 Clinicomp International, Inc. Scalable computer arrangement and method
US20160012065A1 (en) * 2013-09-05 2016-01-14 Hitachi, Ltd. Information processing system and data processing method therefor
RU2610280C2 (ru) * 2014-10-31 2017-02-08 Общество С Ограниченной Ответственностью "Яндекс" Способ авторизации пользователя в сети и сервер, используемый в нем
RU2580432C1 (ru) 2014-10-31 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем
US10949479B2 (en) * 2016-04-29 2021-03-16 ModeSens Inc. Retrieval of content using link-based search

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749081A (en) * 1995-04-06 1998-05-05 Firefly Network, Inc. System and method for recommending items to a user
US6112186A (en) * 1995-06-30 2000-08-29 Microsoft Corporation Distributed system for facilitating exchange of user information and opinion using automated collaborative filtering
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US5848396A (en) * 1996-04-26 1998-12-08 Freedom Of Information, Inc. Method and apparatus for determining behavioral profile of a computer user
IL125432A (en) * 1998-01-30 2010-11-30 Easynet Access Inc Personalized internet interaction
US6366923B1 (en) * 1998-03-23 2002-04-02 Webivore Research, Llc Gathering selected information from the world wide web
DE19857336C1 (de) * 1998-12-11 2000-03-09 Siemens Ag Verfahren zur Erfassung des Nutzungsverhaltens eines Teilnehmers im Internet/Intranet
AU4004500A (en) * 1999-02-26 2000-09-14 Webivore Knowledge Systems,LLC. Network information collection tool

Also Published As

Publication number Publication date
US20040024653A1 (en) 2004-02-05
EP1323065A2 (en) 2003-07-02
WO2002021305A3 (en) 2003-02-27
AU2001295542A1 (en) 2002-03-22
ATE325388T1 (de) 2006-06-15
WO2002021305A8 (en) 2002-05-23
ITMI20001952A0 (it) 2000-09-05
DE60119352D1 (de) 2006-06-08
EP1323065B1 (en) 2006-05-03
CA2421412A1 (en) 2002-03-14
WO2002021305A2 (en) 2002-03-14

Similar Documents

Publication Publication Date Title
Kolda et al. Higher-order web link analysis using multilinear algebra
US7996390B2 (en) Method and system for clustering identified forms
RU2387004C2 (ru) Способ и система для вычисления значения важности блока в дисплейной странице
US8965865B2 (en) Method and system for adaptive discovery of content on a network
CN110309393A (zh) 数据处理方法、装置、设备及可读存储介质
US20110314382A1 (en) Systems of computerized agents and user-directed semantic networking
KR20060070487A (ko) 회사 목록 검색에서의 검색 질의의 범주화 방법 및 장치
Roy et al. A comparative study of learning object metadata, learning material repositories, metadata annotation & an automatic metadata annotation tool
JP6719399B2 (ja) 解析装置、解析方法、およびプログラム
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
ITMI20001952A1 (it) Metodo per classisficazione e trasferimento di conoscenza tra utilizzatori che accedono a un sitema informativo
CN113742496A (zh) 一种基于异构资源融合的电力知识学习系统及方法
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
Singh et al. Question answering chatbot using deep learning with NLP
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
US11409814B2 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
Burov et al. The Basic Ontology Development Process Automation Based on Text Resources Analysis
Dennler et al. The rosid tool: empowering users to design multimodal signals for human-robot collaboration
CN113742591B (zh) 学习伙伴推荐方法和装置、电子设备、存储介质
Bhatia et al. Opinion score mining system
Pokhrel et al. Web Data Scraping Technology using TF-IDF to Enhance the Big Data Quality on Sentiment Analysis
US20140279804A1 (en) Jabba-type contextual tagger
Pokhrel et al. Web Data Scraping Technology Using Term Frequency Inverse Document Frequency to Enhance the Big Data Quality on Sentiment Analysis
Chiu et al. Using rough set theory to construct e-learning faq retrieval infrastructure
Dien et al. Deep matrix factorization for learning resources recommendation