ITMI20062436A1 - Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti - Google Patents
Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti Download PDFInfo
- Publication number
- ITMI20062436A1 ITMI20062436A1 IT002436A ITMI20062436A ITMI20062436A1 IT MI20062436 A1 ITMI20062436 A1 IT MI20062436A1 IT 002436 A IT002436 A IT 002436A IT MI20062436 A ITMI20062436 A IT MI20062436A IT MI20062436 A1 ITMI20062436 A1 IT MI20062436A1
- Authority
- IT
- Italy
- Prior art keywords
- classification method
- internet addresses
- web pages
- step comprises
- phase
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 79
- 230000008520 organization Effects 0.000 title description 3
- 238000013515 script Methods 0.000 claims description 35
- 238000010200 validation analysis Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000004913 activation Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Paper (AREA)
Description
"C.C.I.A.A.
RVM001BIT BRÈVEIIl _ Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
Domanda di brevetto per invenzione industriale dal titolo:
"Metodo di classificazione di pagine Web e di organizzazione dei corrispondenti contenuti"
a nome di: REVAMPING S.r.l.
con sede in: Pavia
DESCRIZIONE
Campo di applicazione
La presente invenzione si riferisce ad un metodo di classificazione di pagine Web e di organizzazione dei corrispondenti contenuti del tipo comprendente una fase di registrazione dì una pluralità di indirizzi Internet, comprendente esecuzioni di una pluralità di procedure automatiche di registrazione, ed una fase di selezione per l’impostazione di un corrispondente valore di pertinenza alla pluralità di indirizzi Internet.
Arte nota
Come è ben noto, un personal computer connesso alla rete Internet e dotato di un navigatore, permette di visualizzare pagine Web.
In particolare, con il termine personal computer si intende un dispositivo elettronico dotato di una interfaccia di collegamento alla rete Internet mentre con navigatore ci si riferisce ad un software, di per se noto, installato su tale dispositivo elettronico, per la visualizzazione delle pagine Web. Un esempio di tale navigatore è il programma Internet Explorer della società Microsoft®.
Ancor più in particolare, le pagine Web sono memorizzate su RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
una pluralità di server, a loro volta connessi alla rete Internet. Attraverso il navigatore si specifica un indirizzo Internet di una pagina Web, ad esempio in una porzione superiore o barra del navigatore, e si convalida tale indirizzo Internet per la visualizzazione della pagina Web corrispondente, generalmente in una porzione principale del navigatore.
Sono altresì noti programmi o script di individuazione di una o più pagine Web funzionanti sulla base di un criterio di ricerca, impostato da un utente.
Tali programmi o script di individuazione sono generalmente accessibili tramite una interfaccia grafica, ad esempio richiamabile dal navigatore, che comprende una porzione di inserimento del criterio di ricerca ed un pulsante di attivazione del programma o script di individuazione.
Dato il grande numero di pagine Web disponibili sulla rete Internet, un programma o script di individuazione fornisce, per un predeterminato criterio di ricerca, un elevato numero di pagine Web.
Per guidare l'utente ad una efficace consultazione di tali pagine Web, il programma o script di individuazione è supportato da un metodo di classificazione, che assegna, a ciascuna pagina Web, una corrispondente importanza. In altre parole l’esecuzione di un programma o script di individuazione fornisce all’utente un elenco di pagine Web, ordinate per valore di importanza stabilito dal metodo di classificazione.
Un noto metodo di classificazione, comunemente indicato con il termine PageRank, prevede di associare ad una pagina Web un valore RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
di importanza comunemente indicato come rango [rank]. In particolare, il rango di una pagina Web A è determinato dal numero di ulteriori pagine Web Bl, Bx che fanno riferimento a tale pagina Web A, cioè che contengono un puntatore ad essa.
Più in particolare ancora, secondo il metodo di classificazione noto come PageRank, ogni pagina Web può esprimere un voto in merito ad altre pagine Web, attraverso puntatori, anche noti come collegamenti. In altre parole, attraverso i collegamenti disponibili su una pagina Web di partenza, un utente può collegarsi ad una o più pagine Web destinazione, aumentandone il rango. Generalmente, maggiore è il grado di popolarità di una pagina Web, vale a dire il numero dì collegamenti ad essa, maggiore è il valore dei voti che quella stessa pagina può esprimere.
I metodi di classificazione del tipo sopra indicato soffrono tuttavia di svariate limitazioni che appariranno evidenti dalla descrizione che segue.
Con riferimento alla figura 1, si consideri una interfaccia 10 per l’attivazione di un programma o script di individuazione di pagine Web.
L’interfaccia 10 è ad esempio una pagina Web comprendente una porzione o barra di inserimento 1 di un criterio di ricerca ed un bottone di attivazione 2, per l’attivazione del programma o script di individuazione .
A scopo esemplificativo, in figura 1 è impostato un criterio di ricerca per l’individuazione di pagine Web inerenti l’inventore e artista RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
italiano Leonardo da Vinci. In questo semplice esempio, il criterio di ricerca è dato dalla concatenazione delle tre parole chiave “Leonardo”, “da” e “Vinci”, specificate nella barra di inserimento 1 deirinterfaccia 10.
In tal caso, una porzione principale 4 deirinterfaccia 10 visualizza il risultato del programma o script di individuazione dopo una sua esecuzione, sulla base del criterio di ricerca “Leonardo da Vinci”. Il risultato della ricerca comprende un elenco 3 di indirizzi Internet di pagine Web, di cui solo le prime occorrenze 3a-3h sono visualizzate in tale porzione principale 4.
Infatti, essendo molto elevato il numero di pagine Web individuate, nell’esempio specificato nell’ordine di milioni di pagine Web, il programma o script di individuazione prevede un loro raggruppamento all’intemo dell’interfaccia grafica 10 in successive pagine da visualizzare. Generalmente, una sequenza di numeri da 1 ad n, non rappresentato in figura perché di per sé convenzionale, è disponibile ad esempio in una porzione inferiore deirinterfaccia 10, al fine di visualizzare nella porzione principale 4, su richiesta dell’utente, una specifica pagina e quindi una porzione dell’elenco 3 di indirizzi Internet.
Ad esempio, supponendo che il programma o script di individuazione abbia individuato cento pagine Web, corrispondenti ad un elenco 3 di cento indirizzi Internet, e supponendo che ogni pagina di visualizzazione comprenda dieci indirizzi di tali pagine Web individuate, la porzione inferiore dell’interfaccia 10 potrebbe indicare numeri da uno a dieci. In tal modo, la selezione del numero uno nella porzione inferiore RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
consente di visualizzare, all’interno della porzione principale 4, gli indirizzi Internet da uno a dieci, cioè la prima pagina dell’elenco 3 di pagine Web. In particolare, negli attuali programmi o script di individuazione, gli indirizzi Internet dell’elenco 3 di pagine Web sono messi in una successione corrispondente ad un ordine decrescente di importanza come individuato dal corrispondente metodo di classificazione e quindi la selezione della pagina uno dell’elenco 3 corrisponde alle pagine Web classificate come più importanti da tale metodo di classificazione.
La selezione del numero due consente di visualizzare, nella stessa porzione principale 4 dell’interfaccia 10, gli indirizzi Internet da undici a venti, corrispondenti ad una seconda pagina dell’elenco 3 di pagine Web. La selezione del numero dieci nella porzione inferiore, fa riferimento all’ultima pagina dell’elenco 3, associata quindi alle pagine Web di minor rilievo, sempre secondo il metodo di classificazione utilizzato dal programma o script di individuazione.
In altre parole, l’ordine di visualizzazione dei risultati della ricerca deriva dal metodo di classificazione.
Ancor più in particolare, con riferimento alla figura 1, la pagina Web 3a è quella di maggiore importanza tra tutte le pagine Web individuate dal metodo di classificazione utilizzato dal programma Google®, utilizzato come esempio per tale figura 1 e fa riferimento ad un servizio internet denominato Wikipedia, che fornisce la definizione dell’inventore ed artista Leonardo da Vinci.
La pagina Web 3b fa riferimento ad una pagina Web che RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n” 822 B)
descrive l’eredità lasciata all’umanità dall’inventore ed artista Leonardo da Vinci; la pagina Web 3c si riferisce al museo nazionale della scienza e della tecnologia; la pagina Web 3e si riferisce all’aeroporto di Roma “Leonardo da Vinci”.
Dai risultati sopra elencati del programma Google, che rappresentano le prime cinque occorrenze in ordine di importanza, si evince che il metodo di classificazione basato su PageRank soffre delle seguenti limitazioni.
Il numero di pagine Web fomite dal programma o script di classificazione è ridondante: in questo caso, nei primi otto risultati della prima pagina, ben tre pagine, in particolare le pagine 3d, 3f e 3h sono ridondanti, ripetono cioè indirizzi internet interni ad uno stesso sito precedentemente visualizzato, rispettivamente dagli indirizzi internet 3c, 3e e 3g. Inoltre, un utente non è legge generalmente più di qualche decina di risultati fomiti dal metodo di individuazione , risultato sovente ottenuto anche per criteri di ricerca piuttosto generici.
Sebbene alcune pagine Web fomite dal programma o script di individuazione siano poco o per nulla pertinenti rispetto alle informazioni ricercate dall’utente, godono di un rango eccessivamente elevato. Si consideri ad esempio la pagina Web 3e: è difficile pensare che un utente interessato all’aeroporto “Leonardo da Vinci”, inserisca come criterio di ricerca “Leonardo da Vinci” senza specificare “Aeroporto”. Tuttavia, inaspettatamente, la pagina Web 3e, che fa riferimento all’aeroporto di Roma, si trova come quinta occorrenza dei risultati del programma Google. La pagina Web 3e costituisce un esempio tipico di RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n” 822 B)
risultato affetto da rumore informativo e quindi altamente indesiderabile poiché non solo non pertinente ma anche inutile ai fini della ricerca svolta. E’ possibile verificare che un tale risultato, vale a dire la presenza dell’indirizzo relativo all’Aeroporto di Roma in un posto di rango elevato dell’elenco 3 di pagine Web risultante dall 'impostazione del criterio di ricerca “Leonardo da Vinci” è ottenuto utilizzando molti dei programmi o script di ricerca attualmente disponibili.
11 metodo di classificazione basato su PageRank dunque, sebbene fornisca una organizzazione automatizzata delle pagine Web, non consente all’utente di concentrarsi su un numero di risultati ridotto, limitatamente ai risultati per l’utente più pertinenti.
I metodi di classificazione di pagine Web sopra descritti soffrono inoltre di ulteriori problemi legati sostanzialmente alla affidabilità delle fonti intesa come la notorietà, la riconoscibilità e credibilità della fonte rispetto al criterio di ricerca impostato. In altre parole, una pagina Web effettivamente correlata all’inventore ed artista Leonardo da Vinci, potrebbe godere di un rango elevato ma contenere informazioni errate: ad esempio informazioni erronee sulla sua data di nascita o prive di contenuti significativi, quali alcune delle sue opere più famose od altre indicazioni fondamentali circa la sua vita ed il suo lavoro, che dovrebbero logicamente interessare un utente che ha impostato il criterio di ricerca “Leonardo da Vinci”.
Quindi, una pagina Web di rango elevato potrebbe essere pertinente pur non godendo di sufficiente affidabilità della fonte, come nel caso della pagina 3b relativa ad una pagina realizzata da un utente RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
privato non costituente una fonte autorevole.
Al contrario, una pagina Web correlata all’inventore Leonardo da Vinci potrebbe contenere cioè una pluralità di informazioni non strettamente correlate, sostanzialmente superflue, che rallentano l’individuazione delle informazioni di interesse da parte dell’utente, che è un tipico esempio di informazione a bassa pertinenza. In sostanza, i metodi di classificazione di pagine web attualmente disponibili non consentono ad un programma o script di individuazione di effettuare una ricerca che abbia come risultato un pertinente, atteso e filtrato elenco di pagine Web ma agiscono come collettori di una pluralità di informazioni con seppur limitata attinenza con un criterio di ricerca impostato dall’utente.
In tal modo, i metodi di classificazione noti costringono l’utente ad una laboriosa operazione di filtraggio e selezione, sostanzialmente finalizzata ad individuare, tra tutte le pagine Web fomite dal programma o script di individuazione, le sole di interesse, con il rischio di non venire a conoscenza di pagine Web di considerevole importanza.
Il problema tecnico che sta alla base della presente invenzione è quello di escogitare un metodo di classificazione di pagine Web che consenta ad un programma o script di individuazione di fornire un risultato in primo luogo privo di rumore informativo, pertinente al criterio di ricerca impostato dall’utente, non ridondante in quanto privo di pagine Web ripetute, ed affidabile per loro contenuto, al contempo riducendo il tempo impiegato dall’utente per filtrare i risultati della RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n“ 822 B)
ricerca e risolvendo le limitazioni che ancora affliggono i metodi di classificazione di pagine Web secondo l’arte nota.
Sommario deirinvenzione
L’idea di soluzione che sta alla base della presente invenzione è quella di fornire un metodo di classificazione e di organizzazione dei corrispondenti contenuti in grado di determinare, a partire da una configurazione del Web per aree tematiche e lemmi, un insieme di pagine Web ritenute pertinenti, utilizzando come fonte sia differenti motori di ricerca, sia azioni di spidering diretto.
Le azioni di spidering sono eseguite verso siti ritenuti affidabili nella fase di configurazione del web.
Sulla base di questo insieme di pagine Web viene effettuata una selezione che elimini le pagine Web ridondanti, associate ad esempio a differenti traduzioni della stessa pagina Web o a uno stesso indirizzo internet ripetuto più volte, e che elimini, attraverso un contributo umano, le pagine Web spurie, cioè contenenti rumore informativo e/o derivato da fonti poco affidabili.
In accordo con tale idea di soluzione, il metodo di classificazione di pagine Web e di organizzazione dei corrispondenti contenuti secondo la presente invenzione comprende:
- una fase di registrazione di un prefissato numero di indirizzi Internet, comprendente esecuzioni di una pluralità di procedure automatiche di registrazione della pluralità di indirizzi Internet,
- una fase di selezione e di impostazione di un corrispondente valore di pertinenza alla pluralità di indirizzi Internet,
RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 BJ
caratterizzato dal fatto che
- la fase di selezione imposta il corrispondente valore di pertinenza ad un valore di pertinenza proporzionale ad una sua registrazione nella fase di registrazione e seleziona gli indirizzi internet con valore di pertinenza superiore ad un valore di soglia prefissato,
il metodo comprendendo ulteriormente
- una fase di riduzione che riduce, tra gli indirizzi internet a valore di pertinenza superiore a detto valore di soglia, agli indirizzi Internet rispondenti ad uno o più criteri di essenzialità, ed
- una fase di validazione per validare un sottoinsieme degli indirizzi Internet rispondenti ai criteri di essenzialità, la fase di validazione comprendendo una azione umana.
Vantaggiosamente, secondo il metodo di classificazione di pagine Web della presente invenzione un programma o script di individuazione è in grado di fornire un risultato pertinente ad un criterio di ricerca impostato da un utente, non ridondante in termini di ripetitività di pagine Web ed affidabile per loro contenuto, riducendo notevolmente il tempo impiegato dall’utente per filtrare i risultati della ricerca.
Ulteriori caratteristiche e vantaggi del metodo di classificazione secondo l'invenzione risulteranno dalla descrizione, fatta qui di seguito, di un suo esempio di realizzazione dato a titolo indicativo e non limitativo con riferimento ai disegni allegati.
Breve descrizione dei disegni
In tali disegni:
RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
- la Figura 1 mostra un’interfaccia grafica per un programma o script di individuazione, secondo l’arte nota;
- la Figura 2 mostra un’interfaccia grafica per un programma o script di individuazione, secondo il metodo di classificazione della presente invenzione.
Descrizione dettagliata
Con riferimento alle figure allegate, la presente invenzione descrive un metodo di classificazione di pagine Web comprendente una pluralità di fasi.
In particolare, il metodo comprende una prima fase di configurazione che prevede la definizione di aree tematiche per la classificazione delle pagine Web.
A scopo esemplificativo e senza ridurre l’ambito di protezione dell’invenzione, per area tematica si intende una porzione del sapere, ad esempio la tecnica, l’arte, la letteratura, lo sport, l’attualità ed è definita da un insieme di parole descrittive di tale porzione del sapere.
La fase di configurazione comprende la definizione di una pluralità di lemmi per ciascuna area tematica. Inoltre, a ciascuna area tematica è associata una molteplicità di parole chiave di area, alcune delle quali vengono associate ai singoli lemmi. Un lemma appartenente a più di una area tematica è associato ad una pluralità di parole chiave di area appartenenti alle corrispondenti aree tematiche.
Ad esempio in fase di configurazione il criterio di ricerca “Leonardo da Vinci” è configurato come un lemma, al quale sono associate le parole chiave di area “Pittura”, “Rinascimento”, “Scultura” RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
appartenenti all’area tematica “Arte”. Il lemma “Leonardo da Vinci” è altresì associato alle parole chiave di area “Canali”, “Idraulica”, appartenenti all’area tematica “Ingegneria”.
Più in particolare ancora, in fase di configurazione è altresì definita una lingua principale, ad esempio l’italiano, per la creazione delle aree tematiche, dei lemmi e delle parole chiave di area ad esse correlate.
In fase di configurazione sono altresì impostate una pluralità di lingue ammesse, ad esempio contraddistinte da uno stesso alfabeto, ed utilizzate in una fase di riduzione come verrà spiegato successivamente. La lingua principale e le lingue ammesse permettono di effettuare ricerche semplici e complesse nella propria lingua, ottenendo anche pagine Web in un’altra lingua. In altre parole, impostato il lemma “Leonardo da Vinci”, un risultato secondo il metodo di classificazione permette di individuare non solo le pagine Web in lingua italiana, contenenti il lemma “Leonardo da Vinci” ma anche le pagine Web delle lingue ammesse in fase di configurazione.
Il metodo di classificazione secondo la presente invenzione comprende quindi, una fase di registrazione, per la memorizzazione di un prefissato numero di indirizzi Internet di pagine Web, sulla base delle aree tematiche e dei corrispondenti lemmi definiti in fase di configurazione. Tale prefissato numero di indirizzi Internet di pagine Web è configurabile in fase di configurazione. In particolare, la fase di registrazione determina l’associazione di una pagina Web ad uno o più lemmi, ad esempio tramite l’individuazione del lemma nella pagine Web.
RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
Per ogni pagina Web associata ad un lemma, il suo indirizzo Internet è memorizzato.
Più in particolare ancora, l’esecuzione della fase di registrazione è eseguita tramite una pluralità di procedure automatizzate, ad esempio comprendenti una procedura di spidering.
Tale procedura di spidering, a partire da una pagina Web x, associata ad uno specifico lemma, registra gli indirizzi Internet della pagine Web zi, zn, direttamente collegate a tale pagina Web x. La procedura di spidering è altresì in grado di registrare gli indirizzi Internet delle pagine Web yl, yn, alle quali la pagina Web x è indirettamente collegata, tramite le pagine Web zi, zn.
Vantaggiosamente, la procedura di spidering è configurabile per effettuare solo una registrazione diretta delle pagine Web, cioè delle pagine Web direttamente raggiungibili da una pagina Web x, o per effettuare una registrazione indiretta come sopra descritto.
La fase di registrazione prevede quindi di memorizzare gli indirizzi Internet, con riferimento alla specifico lemma, airintemo di un database, il cui contenuto rappresenta un giacimento informativo per il metodo di classificazione. In particolare, la pertinenza, la ridondanza, l’affidabilità ed il rumore informativo del giacimento informativo sono ottimizzati, secondo il metodo di classificazione deirinvenzione, come apparirà evidente dalla descrizione che segue.
Per chiarezza di esposizione, il giacimento informativo risultante dalla fase di registrazione verrà nel seguito indicato come primo giacimento informativo.
RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
In particolare, la fase di registrazione comprende l’esecuzione di altre procedure automatizzate comprendenti, ad esempio, funzioni da metamotore di ricerca. Come noto, tali funzioni prevedono l’individuazione di una pluralità di pagine Web, appartenenti ad un lemma, tramite la consultazione di differenti motori di ricerca che classificano le pagine Web secondo un proprio metodo di classificazione.
In altre parole, le funzioni da metamotore di ricerca interrogano una pluralità di motori di ricerca per determinare, una pluralità di pagine Web comprendenti ad uno specifico lemma, già memorizzate da tali motori di ricerca, secondo una propria classificazione. Esempi di motori di ricerca noti sono Google, Yahoo, AltaVista e simili.
Gli indirizzi internet delle pagine Web individuate dalle funzioni da metamotore di ricerca sono inserite nel primo giacimento informativo. Inoltre, la fase di registrazione memorizza nel primo giacimento informativo una copia della pagina Web. Tale copia è utilizzata sia per consultazione sia per confronto con una sua versione successiva, individuata da una successiva azione di spidering al fine di rendere disponibile un aggiornamento della pagina Web stessa all’interno del primo giacimento informativo.
In accordo con la presente invenzione, il metodo di classificazione comprende ulteriormente una fase di selezione che esegue il confronto degli indirizzi Internet memorizzati dalle procedure automatizzate in fase di registrazione.
In particolare, gli indirizzi Internet registrati tramite la RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iser. Albo n° 822 B)
procedura di spidering, per un certo lemma, sono confrontati con gli indirizzi Internet registrati tramite le funzioni da metamotore di ricerca. Se un indirizzo Internet è stato individuato sia dalla procedura di spidering o nella fase di configurazione, sia dalle funzioni da metamotore di ricerca, è convalidato in tale fase di selezione. Infatti, la sua presenza in differenti motori di ricerca e la sua individuazione in fase di configurazione è indicativa di una alta probabilità di pertinenza del suo contenuto, in riferimento ad un lemma specifico.
La fase di registrazione comprende vantaggiosamente diverse tipologie di procedure automatizzate, non necessariamente basate su procedure di spidering o o nella fase di configurazione o su funzioni da metamotore di ricerca. Sulla base delle registrazioni effettuate da tutte le procedure automatizzate, la fase di selezione effettua il confronto degli indirizzi Internet individuati, effettuando un matching statistico, cioè assegnando agli indirizzi Internet un valore di probabile pertinenza e affidabilità tanto più alto quanto più è frequente la sua registrazione tramite le procedure automatizzate.
Secondo la fase di selezione della presente invenzione, il primo giacimento informativo è raffinato in un secondo giacimento informativo che comprende gli indirizzi Internet aventi un valore di probabile pertinenza ed affidabilità sopra una soglia prestabilita. Il secondo giacimento informativo è ad esempio contenuto nel database di cui sopra o in un database separato.
Il secondo giacimento informativo, sebbene comprenda indirizzi Internet a probabile alto valore di pertinenza, rappresenta un RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
contenuto potenzialmente ridondante. Proprio in virtù del probabile alto valore di pertinenza assegnato in fase di selezione, diversi indirizzi Internet potrebbero fare riferimento alla stessa pagina Web, ad esempio a più versioni della stessa pagina Web, tradotta in diverse lingue oppure a versioni non aggiornate, ma ancora pubbliche, della stessa pagina Web oppure allo stesso contenuto informativo memorizzato in pagine Web appartenenti a differenti domini.
Al fine di perfezionare il contenuto del secondo giacimento informativo, il metodo di classificazione secondo l’invenzione comprende quindi una fase di riduzione degli indirizzi Internet convalidati in fase di selezione.
Tale fase di riduzione prevede che ogni pagina Web, indirizzata da un indirizzo Internet del secondo giacimento informativo, rispetti un criterio di essenzialità.
Tale criterio di essenzialità prevede ad esempio reliminazione di tutte le pagine Web non corrispondenti ad una lingua ammessa ed impostata in fase di configurazione. Inoltre, il criterio di essenzialità comprende l’eliminazione di pagine Web provenienti per lo stesso lemma da un identico dominio, riportando alla pagina principale tra esse.
La fase di riduzione, verificando il soddisfacimento del criterio di essenzialità, stabilisce la presenza del corrispondente indirizzo Internet in un terzo giacimento informativo, ulteriormente raffinato.
Vantaggiosamente, un programma o script di individuazione eseguito sul terzo giacimento informativo è in grado di individuare indirizzi Internet di pagine Web ad alta probabilità di pertinenza, RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
eliminando sostanzialmente la ridondanza.
A scopo esemplificativo e non limitativo, un programma o script di individuazione basato sul criterio di ricerca “Leonardo da Vinci”, supportato dal metodo di classificazione della presente invenzione, è in grado di determinare già in questa fase poche centinaia di indirizzi Internet, ad alta probabilità di pertinenza e sostanzialmente non ridondanti, mentre un programma o script di individuazione supportato da un metodo di classificazione secondo Parte nota individua un numero di indirizzi Internet nell’ordine dei milioni nella selezione finale.
Secondo la presente invenzione, è prevista una ulteriore fase di validazione sul terzo giacimento informativo, finalizzata a determinare i soli indirizzi Internet che si riferiscono a pagine Web altamente affidabili e sostanzialmente prive di rumore informativo.
Tale fase di validazione comprende l’esecuzione di una interfaccia di validazione che elenca gli indirizzi Internet del terzo giacimento informativo. Più in particolare, l’interfaccia di validazione propone un ordinamento di tali indirizzi Internet secondo una valore di probabile pertinenza già assegnato dalle precedenti fasi di registrazione, di selezione e di riduzione.
Attraverso l’interfaccia di validazione, un operatore analizza le pagine Web associate agli indirizzi Internet e convalida quelli pertinenti, rispetto ad uno specifico lemma. Più specificatamente, l’operatore elimina, attraverso l’interfaccia grafica e con l’ausilio di procedure automatiche di confronto e segnalazione dei risultati, gli indirizzi RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
internet a bassa o nulla affidabilità, non pertinenti ed indesiderati, ad esempio evitando che l’indirizzo internet che fa riferimento all’aeroporto “Leonardo da Vinci” sia inserito nel quarto giacimento informativo.
Vantaggiosamente rapporto umano è sostanziale per la definizione di un quarto giacimento informativo, derivante da una selezione manuale degli indirizzi Internet del terzo giacimento informativo.
Dunque, secondo il metodo di classificazione della presente invenzione, la classificazione delle pagine Web comprende almeno le seguenti fasi.
A) Una fase di registrazione di un prefissato numero di indirizzi Internet, comprendente esecuzioni di una pluralità di procedure automatiche di registrazione di detta pluralità di indirizzi Internet..
B) Una fase di selezione, per l’impostazione di un corrispondente valore di pertinenza alla pluralità di indirizzi Internet; tale fase di selezione imposta il corrispondente valore di probabile pertinenza ad un valore proporzionale ad una sua registrazione in detta fase di registrazione e seleziona gli indirizzi internet con valore di pertinenza superiore ad un valore di soglia prefissato.
C) Una fase di riduzione che elimina, tra indirizzi internet a valore di pertinenza superiore al valore di soglia, gli indirizzi Internet non rispondenti ad uno o più criteri di essenzialità.
D) Una fase di validazione per validare un sottoinsieme degli indirizzi Internet rispondenti ai criteri di essenzialità. Tale fase di RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n" 822 B)
valìdazione comprende una azione manuale, eseguita da un utente.
Ad esempio, sul criterio di ricerca “Leonardo da Vinci”, un programma o script di individuazione secondo la presente invenzione è in grado di determinare una alcune decine di indirizzi Internet, come rappresentato in figura 2.
In particolare, la figura 2 rappresenta un programma o script di individuazione di pagine Web, richiamabile da una interfaccia 101, ad esempio da una pagina Web comprendente una porzione o barra di inserimento 11 di un criterio di ricerca ed un bottone di attivazione 21, per l’attivazione del programma o script di individuazione.
In figura 2 è impostato un criterio di ricerca per l’individuazione di pagine Web inerenti l’inventore e artista italiano Leonardo da Vinci.
Una porzione principale 41 dell’interfaccia 101 visualizza il risultato del programma o script di individuazione dopo una sua esecuzione, sulla base del criterio di ricerca “Leonardo da Vinci”. In particolare, il risultato della ricerca comprende un elenco 31 di indirizzi Internet di pagine Web, di cui solo le prime occorrenze 3al-3cl sono visualizzate.
Vantaggiosamente, il programma o script di individuazione è in grado di fornire all’utente finale alcune decine di indirizzi Internet, che identificano pagine Web molto pertinenti, affidabili e senza rumore e ridondanza. L’indirizzo Internet 3al si riferisce ad una pagina Web della BBC, l’indirizzo Internet 3bl al Metropolitan Museum e l’indirizzo Internet 3cl ad una rubrica dedicata dalla Rai, nota emittente televisiva RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
italiana, all’inventore Leonardo da Vinci.
Il programma o script di individuazione dunque scarta una pluralità di pagine Web che hanno bassa pertinenza con il criterio di ricerca impostato dall’utente, proponendo solo le pagine Web appartenenti al quarto giacimento informativo.
Per una ricerca di tipo classico, Finterfaccia 101 permette di eseguire il programma o lo script di individuazione su un giacimento informativo meno raffinato rispetto al quarto giacimento informativo, ad esempio sul secondo giacimento informativo.
Ad esempio, selezionando il pulsante 61 in figura 2, il programma o script di individuazione fornisce un elenco di indirizzi Internet contenuti nel secondo giacimento informativo, permettendo di consultare cioè anche le pagine Web sulle quali la fase di validazione umana non è stata eseguita.
Vantaggiosamente, rinterfaccia 101 comprende inoltre una porzione laterale 42 che propone informazioni di carattere enciclopedico, in formato ipertestuale, correlate ad un criterio di ricerca impostato. Ad esempio, per il criterio di ricerca “Leonardo da Vinci”, la porzione laterale 42 propone la Biografia, la Cronologia della vita, la Cronologia del tempo, I codici di Leonardo, la Bibliografia di Leonardo.
Vantaggiosamente, secondo il metodo di classificazione di pagine Web della presente invenzione un programma o script di individuazione è in grado di fornire un risultato pertinente, quindi senza rumore, ad un criterio di ricerca impostato da un utente, non ridondante in termini di numerosità e ripetitività di pagine Web ed RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
affidabile per loro contenuto, riducendo notevolmente tempo impiegato dall’utente per filtrare i risultati della ricerca.
Claims (18)
- RVM001BIT Ing. Barbara Ferrar! REVAMPING S.r.l. (Iscr. Albo n° 822 B) RIVENDICAZIONI 1. Metodo di classificazione di pagine Web e di organizzazione dei corrispondenti contenuti del tipo comprendente una fase di registrazione di un prefissato numero di indirizzi Internet, comprendente esecuzioni di una pluralità di procedure automatiche di registrazione di detta pluralità di indirizzi Internet, una fase di selezione e di impostazione di un corrispondente valore di pertinenza a detta pluralità di indirizzi Internet, caratterizzato dal fatto che detta fase di selezione imposta detto corrispondente valore di pertinenza ad un valore di pertinenza proporzionale ad una sua registrazione in detta fase di registrazione e seleziona gli indirizzi internet con valore di pertinenza superiore ad un valore di soglia prefissato, il metodo comprendendo ulteriormente una fase di riduzione che riduce, tra detti indirizzi internet a valore di pertinenza superiore a detto valore di soglia, agli indirizzi Internet rispondenti ad uno o più criteri di essenzialità, ed una fase di validazione per validare un sottoinsieme di detti indirizzi Internet rispondenti ai criteri di essenzialità, detta fase di validazione comprendendo una azione umana.
- 2. Metodo di classificazione secondo la rivendicazione 1 caratterizzato dal fatto di comprendere una fase di configurazione per RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B) una definizione di una pluralità, di aree tematiche ed una definizione di una pluralità di parole chiave di area ad esse associate.
- 3. Metodo di classificazione secondo la rivendicazione 2 caratterizzato dal fatto che detta fase di configurazione comprende una definizione di una pluralità di lemmi, per ciascuna di dette aree tematiche.
- 4. Metodo di classificazione secondo la rivendicazione 3 caratterizzato dal fatto che detta fase di configurazione comprende una associazione di uno di detti lemmi ad una o più di dette aree tematiche.
- 5. Metodo di classificazione secondo la rivendicazione 4 caratterizzato dal fatto che detta fase di configurazione comprende una definizione di una lingua principale, per dette definizioni di dette aree tematiche, di detti lemmi e di dette parole chiave di area.
- 6. Metodo di classificazione secondo la rivendicazione 5 caratterizzato dal fatto che detta fase di configurazione comprende una impostazione di detto prefissato numero di indirizzi internet.
- 7. Metodo di classificazione secondo la rivendicazione 6 caratterizzato dal fatto che detta fase di registrazione comprende una fase di associazione di detti lemmi a dette pagine Web.
- 8. Metodo di classificazione secondo la rivendicazione 7 caratterizzato dal fatto che detta fase di associazione comprende una individuazione di detti lemmi in dette pagine Web.
- 9. Metodo di classificazione secondo la rivendicazione 8 caratterizzato dal fatto che detta fase di registrazione comprende una memorizzazione di detti indirizzi Internet, con riferimento a detti lemmi, RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 Bj in un primo giacimento informativo.
- 10. Metodo di classificazione secondo la rivendicazione 9 caratterizzato dal fatto che detta fase di registrazione comprende una memorizzazione di una copia di dette pagina Web in detto primo giacimento informativo.
- 11. Metodo di classificazione secondo la rivendicazione 10 caratterizzato dal fatto che detto criterio di essenzialità comprende una eliminazione di una pluralità di pagine Web, non comprendenti alfabeti di dette lingue ammesse.
- 12. Metodo di classificazione secondo la rivendicazione 11 caratterizzato dal fatto che detto criterio di essenzialità comprende una eliminazione di una pluralità di pagine Web provenienti da un identico dominio.
- 13. Metodo di classificazione secondo la rivendicazione 12 caratterizzato dal fatto che detta fase di riduzione comprende esecuzioni di una pluralità di query di selezione.
- 14. Metodo di classificazione secondo la rivendicazione 13 caratterizzato dal fatto che detta fase di validazione comprende un’esecuzione di una interfaccia di validazione.
- 15. Metodo di classificazione secondo la rivendicazione 14 caratterizzato dal fatto che detta interfaccia di validazione elenca detti indirizzi internet ridotti da detta fase di riduzione.
- 16. Metodo di classificazione secondo la rivendicazione 15 caratterizzato dal fatto che detta fase di registrazione comprende esecuzioni di almeno una procedura di spidering. RVM001BIT Ing. Barbara Ferrari REVAMPING S.r.l. (Iscr. Albo n° 822 B)
- 17. Metodo di classificazione secondo la rivendicazione 16 caratterizzato dal fatto che detta fase di registrazione comprende esecuzioni di almeno una funzione da metamotore di ricerca.
- 18. Metodo di esecuzione di un programma o script di individuazione per una individuazione di una pluralità di indirizzi Internet rispondenti ad un criterio di ricerca caratterizzato dal fatto che detta pluralità di indirizzi Internet è classificata tramite un metodo di classificazione secondo una delle precedenti rivendicazioni, detti indirizzi Internet avendo un valore di pertinenza sopra ad una prefissata soglia.
Priority Applications (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT002436A ITMI20062436A1 (it) | 2006-12-19 | 2006-12-19 | Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti |
CA2672958A CA2672958C (en) | 2006-12-19 | 2007-12-19 | Method for classifying web pages and organising corresponding contents |
AU2007334863A AU2007334863B2 (en) | 2006-12-19 | 2007-12-19 | Method for classifying web pages and organising corresponding contents |
EP07856906A EP2126750A2 (en) | 2006-12-19 | 2007-12-19 | Method for classifying web pages and organising corresponding contents |
PCT/EP2007/011183 WO2008074486A2 (en) | 2006-12-19 | 2007-12-19 | Method for classifying web pages and organising corresponding contents |
JP2009541874A JP5227333B2 (ja) | 2006-12-19 | 2007-12-19 | ウェブページの分類とそのコンテンツの整理をするための方法 |
US12/519,925 US8255404B2 (en) | 2006-12-19 | 2007-12-19 | Method for classifying web pages and organising corresponding contents |
EP20120150981 EP2466500A1 (en) | 2006-12-19 | 2007-12-19 | Method for classifying Web pages and organising corresponding contents |
KR1020097015036A KR101506354B1 (ko) | 2006-12-19 | 2007-12-19 | 웹 페이지의 분류 및 대응 콘텐트의 조직화 방법 |
RU2009127889/08A RU2487404C2 (ru) | 2006-12-19 | 2007-12-19 | Способ классификации веб-страниц и организации соответствующего информационного наполнения |
BRPI0719477A BRPI0719477B1 (pt) | 2006-12-19 | 2007-12-19 | método para classificar páginas da web e organizar os conteúdos correspondentes. |
CN200780047332A CN101617310A (zh) | 2006-12-19 | 2007-12-19 | 对网页进行分类和组织相应内容的方法 |
IL199470A IL199470A (en) | 2006-12-19 | 2009-06-21 | A method for classifying web pages and organizing the appropriate content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT002436A ITMI20062436A1 (it) | 2006-12-19 | 2006-12-19 | Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti |
Publications (1)
Publication Number | Publication Date |
---|---|
ITMI20062436A1 true ITMI20062436A1 (it) | 2008-06-20 |
Family
ID=39427655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT002436A ITMI20062436A1 (it) | 2006-12-19 | 2006-12-19 | Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti |
Country Status (11)
Country | Link |
---|---|
US (1) | US8255404B2 (it) |
EP (2) | EP2126750A2 (it) |
JP (1) | JP5227333B2 (it) |
KR (1) | KR101506354B1 (it) |
CN (1) | CN101617310A (it) |
BR (1) | BRPI0719477B1 (it) |
CA (1) | CA2672958C (it) |
IL (1) | IL199470A (it) |
IT (1) | ITMI20062436A1 (it) |
RU (1) | RU2487404C2 (it) |
WO (1) | WO2008074486A2 (it) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063469B (zh) * | 2010-12-03 | 2013-04-24 | 百度在线网络技术(北京)有限公司 | 一种用于获取相关关键词信息的方法、装置和计算机设备 |
US9104765B2 (en) * | 2011-06-17 | 2015-08-11 | Robert Osann, Jr. | Automatic webpage characterization and search results annotation |
US9286390B2 (en) * | 2011-12-30 | 2016-03-15 | Microsoft Technology Licensing, Llc | Presentation of rich search results in delineated areas |
US20150046468A1 (en) * | 2013-08-12 | 2015-02-12 | Alcatel Lucent | Ranking linked documents by modeling how links between the documents are used |
CN104750692B (zh) * | 2013-12-25 | 2018-05-15 | 中国移动通信集团公司 | 一种信息处理方法、信息检索方法及其对应的装置 |
US9569522B2 (en) | 2014-06-04 | 2017-02-14 | International Business Machines Corporation | Classifying uniform resource locators |
RU2598789C2 (ru) | 2014-06-30 | 2016-09-27 | Общество С Ограниченной Ответственностью "Яндекс" | Способ представления результатов поиска в соответствии с поисковым запросом в сети интернет |
EP3089049A4 (en) * | 2014-12-26 | 2017-10-04 | Ubic, Inc. | Data analysis system, data analysis method, and data analysis program |
US10242112B2 (en) | 2015-07-15 | 2019-03-26 | Google Llc | Search result filters from resource content |
US10354188B2 (en) | 2016-08-02 | 2019-07-16 | Microsoft Technology Licensing, Llc | Extracting facts from unstructured information |
US10318564B2 (en) | 2015-09-28 | 2019-06-11 | Microsoft Technology Licensing, Llc | Domain-specific unstructured text retrieval |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6334145B1 (en) * | 1998-06-30 | 2001-12-25 | International Business Machines Corporation | Method of storing and classifying selectable web page links and sublinks thereof to a predetermined depth in response to a single user input |
KR20020031913A (ko) * | 2000-10-24 | 2002-05-03 | 전원호 | 인터넷상에서 사용자가 원하는 언어를 사용하는 가상도메인 이름 시스템 |
JP4808357B2 (ja) * | 2002-03-19 | 2011-11-02 | 三菱電機株式会社 | 情報収集装置 |
AU2003297523A1 (en) * | 2002-12-24 | 2004-07-22 | American Type Culture Collection | Systems and methods for enabling a user to find information of interest to the user |
RU2236699C1 (ru) * | 2003-02-25 | 2004-09-20 | Открытое акционерное общество "Телепортал. Ру" | Способ поиска и выборки информации с повышенной релевантностью |
US20050080770A1 (en) * | 2003-10-14 | 2005-04-14 | Microsoft Corporation | System and process for presenting search results in a tree format |
US7707201B2 (en) * | 2004-12-06 | 2010-04-27 | Yahoo! Inc. | Systems and methods for managing and using multiple concept networks for assisted search processing |
US7428533B2 (en) * | 2004-12-06 | 2008-09-23 | Yahoo! Inc. | Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
-
2006
- 2006-12-19 IT IT002436A patent/ITMI20062436A1/it unknown
-
2007
- 2007-12-19 KR KR1020097015036A patent/KR101506354B1/ko active IP Right Grant
- 2007-12-19 CA CA2672958A patent/CA2672958C/en not_active Expired - Fee Related
- 2007-12-19 CN CN200780047332A patent/CN101617310A/zh active Pending
- 2007-12-19 US US12/519,925 patent/US8255404B2/en not_active Expired - Fee Related
- 2007-12-19 EP EP07856906A patent/EP2126750A2/en not_active Ceased
- 2007-12-19 RU RU2009127889/08A patent/RU2487404C2/ru active
- 2007-12-19 JP JP2009541874A patent/JP5227333B2/ja not_active Expired - Fee Related
- 2007-12-19 WO PCT/EP2007/011183 patent/WO2008074486A2/en active Application Filing
- 2007-12-19 BR BRPI0719477A patent/BRPI0719477B1/pt not_active IP Right Cessation
- 2007-12-19 EP EP20120150981 patent/EP2466500A1/en not_active Ceased
-
2009
- 2009-06-21 IL IL199470A patent/IL199470A/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
WO2008074486A2 (en) | 2008-06-26 |
CN101617310A (zh) | 2009-12-30 |
CA2672958C (en) | 2016-04-26 |
RU2487404C2 (ru) | 2013-07-10 |
EP2126750A2 (en) | 2009-12-02 |
AU2007334863A1 (en) | 2008-06-26 |
KR101506354B1 (ko) | 2015-03-30 |
CA2672958A1 (en) | 2008-06-26 |
WO2008074486A3 (en) | 2008-08-21 |
BRPI0719477A2 (pt) | 2014-10-21 |
IL199470A (en) | 2014-04-30 |
JP2010514026A (ja) | 2010-04-30 |
US20100241633A1 (en) | 2010-09-23 |
RU2009127889A (ru) | 2011-01-27 |
JP5227333B2 (ja) | 2013-07-03 |
US8255404B2 (en) | 2012-08-28 |
BRPI0719477B1 (pt) | 2018-11-27 |
WO2008074486A8 (en) | 2009-07-30 |
KR20090100417A (ko) | 2009-09-23 |
EP2466500A1 (en) | 2012-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ITMI20062436A1 (it) | Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti | |
Avgeriou et al. | An overview and comparison of technical debt measurement tools | |
EP2289007B1 (en) | Search results ranking using editing distance and document information | |
US8090724B1 (en) | Document analysis and multi-word term detector | |
Han et al. | Perflearner: Learning from bug reports to understand and generate performance test frames | |
JP5379696B2 (ja) | 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア | |
Wilczynski et al. | An overview of the design and methods for retrieving high-quality studies for clinical care | |
Peng et al. | Empirically revisiting and enhancing IR-based test-case prioritization | |
WO2008046098A2 (en) | Multi-tiered cascading crawling system | |
US7133866B2 (en) | Method and apparatus for matching customer symptoms with a database of content solutions | |
US20130031083A1 (en) | Determining keyword for a form page | |
Kolthoff et al. | Data-driven prototyping via natural-language-based GUI retrieval | |
Magalhães et al. | Automatic selection of test cases for regression testing | |
JP2000242672A (ja) | 形式的論理検証装置および形式的論理検証方法 | |
Soleimani Neysiani et al. | New labeled dataset of interconnected lexical typos for automatic correction in the bug reports | |
Apiletti et al. | Data cleaning and semantic improvement in biological databases | |
US11487768B2 (en) | Generating search results utilizing access control | |
EP3447638A1 (en) | Template generating device, template generating program, and template generating method | |
AT&T | ||
Bahri et al. | Website Information System Design With SEO Techniques (Search Engine Optimization) | |
Martinez-Romo et al. | Recommendation system for automatic recovery of broken web links | |
Minarro-Giménez et al. | Ontology-driven method for integrating biomedical repositories | |
Thompson | Investigating completeness and consistency of links between issues and commits | |
WO2009118010A1 (en) | A search method and a method of providing an electronic database | |
Liu et al. | Address and Participant Entity-Resolution in a Large, Cohort Observational Study Utilizing an Open-source Entity Resolution Tool (OYSTER) |