NO313399B1 - Fremgangsmate til soking og analyse av informasjon i datanettverk - Google Patents

Fremgangsmate til soking og analyse av informasjon i datanettverk Download PDF

Info

Publication number
NO313399B1
NO313399B1 NO20004595A NO20004595A NO313399B1 NO 313399 B1 NO313399 B1 NO 313399B1 NO 20004595 A NO20004595 A NO 20004595A NO 20004595 A NO20004595 A NO 20004595A NO 313399 B1 NO313399 B1 NO 313399B1
Authority
NO
Norway
Prior art keywords
information
document
procedure according
search
documents
Prior art date
Application number
NO20004595A
Other languages
English (en)
Other versions
NO20004595D0 (no
NO20004595L (no
Inventor
Knut Magne Risvik
Bjoern Olstad
Original Assignee
Fast Search & Transfer Asa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fast Search & Transfer Asa filed Critical Fast Search & Transfer Asa
Priority to NO20004595A priority Critical patent/NO313399B1/no
Publication of NO20004595D0 publication Critical patent/NO20004595D0/no
Priority to BRPI0113882A priority patent/BRPI0113882B1/pt
Priority to AU9036301A priority patent/AU9036301A/xx
Priority to HU0301788A priority patent/HUP0301788A2/hu
Priority to CA2420382A priority patent/CA2420382C/en
Priority to CNB018156568A priority patent/CN1279475C/zh
Priority to KR10-2003-7003774A priority patent/KR100514149B1/ko
Priority to IL15449201A priority patent/IL154492A0/xx
Priority to AT01970362T priority patent/ATE354831T1/de
Priority to PCT/NO2001/000371 priority patent/WO2002023398A1/en
Priority to PL36071401A priority patent/PL360714A1/xx
Priority to CZ2003510A priority patent/CZ2003510A3/cs
Priority to AU2001290363A priority patent/AU2001290363B2/en
Priority to EP01970362A priority patent/EP1325434B1/en
Priority to JP2002527976A priority patent/JP2004509415A/ja
Priority to DE60126798T priority patent/DE60126798T2/de
Priority to US09/950,883 priority patent/US7093012B2/en
Publication of NO20004595L publication Critical patent/NO20004595L/no
Publication of NO313399B1 publication Critical patent/NO313399B1/no
Priority to IS6735A priority patent/IS6735A/is

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/09Obsolescence

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Communication Control (AREA)
  • Circuits Of Receivers In General (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

Oppfinnelsen angår en fremgangsmåte til søking og analyse av trafikkinnholdet ved aksesspunkter i datanettverk, hvor datanettverkene er delte nettverkressurser, spesielt det fullstendige Internett eller intranett, hvor aksesspunktene spesielt er Internett-aksesspunkter for brukere betjent av en Internett-tjenesteleverandør eller fordelt i form av en applikasjon til en rekke brukere eller et forbindelsespunkt for trådløse brukere, hvor forbindelsespunktet enten er et naturlig forbindelsespunkt eller en internettport for multiple forbindelsespunkter.
Oppfinnelsen angår spesielt informasjonsgjenfinningsmetoder og -systemer. Mer bestemt angår den foreliggende oppfinnelse
informasjonsgjenfinningsmetoder og -systemer som aksesserer informasjon på Internett og Intranett gjennom trådbundne eller trådløse grensesnitt. Enda mer bestemt angår oppfinnelsen intranett og internettbaserte søkemotorer og alarmtjenester.
Elektronisk informasjonsressurser vokser hurtig både på Internett og intranett. Denne type elektronisk informasjon fortrenger i økende grad mer konvensjonelle informasjonskilder så som aviser, blader og til og med fjernsyn. Størrelsen på disse informasjonsdatabasene vokser for tiden nesten eksponensielt.
Den relevante teknikkens stand kan finnes i de følgende publikasjoner:
S. Brin og L. Page, The anatomy of a large-scale hypertextual web search engine, Proceedings of the 7th International World Wide Web Conference, pp. 107-117, Brisbane, Australia, april 1998 (Elsevier Science);
J.M. Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of ACM- SIAM Symposium on Discrete Algorithms, pp. 668-677, januar 1998; og D. Gibson, J. M. Kleinberg, og P. Raghavan, Inferring Web communities from link topology, Hypertext, pp. 225-234, Pittsburgh,PA, juni 1998.
En protokol så som Hypertext transfer protocol (http), File transfer protocol (ftp) eller Wireless application protocol (wap) blir ofte benyttet til å overføre innholdet mellom innholdslevereandører og klienter. Søkemotorteknologier er blitt utviklet både for Internett- og intranettapplikasjoner. For tiden er disse søkemotorer enten basert på automatisk crawling av websider og ytterligere online-innhold fra tilgjengelige tjenere.
Typisk blir et sett av frøsider (seed pages) benyttet til å initiere crawlingen. I en annen fase henter også crawleren (nedsamleren) dokumenter som det er henvist til i en av de initiale frøsider. Denne prosessen fortsetter så lenge som crawleren oppdager nye, ubesøkte dokumenthenvisninger i en av de hentede dokumenter. Webdokumenter er ofte formatert i Hypertext Markup Language (HTML). En dokumenthenvisning er i dette tilfellet en typisk HTML hyperlenke til en annen webside. Websiden selv er vanligvis spesifisert av en adresse så som Universal Resource Locator (URL).
For tiden arbeider søkemotorer i to faser. Først blir en crawler benyttet til å samle sammen en dokumentdatabase. Straks dokumentene er blitt samlet inn, blir de forhåndsbehandlet og indeksert for å gjøre dem tilgjengelig for søking. Dokumentinnsamlingsprinsippet for en crawler lider av følgende begrensninger og ulemper som påvirker kvaliteten til den etterfølgende søking: • Crawleren vil bare få aksess til dokumenter i den transitive lukning av valgte frøsider basert på dokumenthenvisninger. - En crawler vil f.eks. aldri besøke et dokument som mangler henvisningsdokumenter. Også dokumenter som har henvisende dokumenter kan bli ubesøkt av crawleren, avhengig av lenketopologien og de valgte frøsider. • Crawlere blir begrenset til forholdsvis sjeldent å besøke en gitt tjener. - Typisk må crawleren vente 30 s eller lenger mellom to aksesser til samme tjener. Denne begrensningen skyldes robotregler som er lansert for å beskytte tjenerne fra å overbelastes med automatiske etterspørsler. Kontinuerlig crawling av et gitt sted vil derfor bli begrenset til omtrent 3000 dokumenter pr. dag. Det eksisterer en rekke store steder med så mange dokumenter at det i praksis er umulig å laste ned eller indeksere hele innholdet med crawleprinsippene i henhold til kjent teknikk. Til og med moderate steder utgjør det et stort problem med hensyn til friskhet hva crawleprinsipper i henhold til kjent teknikk angår. Et sted med 90 000 dokumenter vil f.eks. kreve crawling i en måned for en fullstendig oppdatering. • Prinsipper for crawling kjent i teknikken er ikke velegnet for å garantere friskheten til de innsamlede dokumenter. - Crawlerestriksjoner gjør fullstendige stedsoppdateringer i en søkemotor umulig for noen steder og de vil kunne ta uker eller
måneder for andre. Steder med mindre enn 3000 dokumenter kan daglig oppdateres fullstendig. Mangel på friskhet er en alvorlig begrensning av potensialet til søkemotorer. Det eksisterer et stort marked for dagsaviser, men markedet for lesing eller til og med søking av gamle aviser er praktisk talt ikke-eksisterende. Tilsvarende skulle det forventes at det er av generell interesse å ha adgang til søke- og alarmtjenester for webinnhold som nylig er blitt oppdatert. • Kjente prinsipper for crawling er ikke i stand til å gjenfinne dynamiske objekter. - Dynamiske objekter er objekter som typisk krever parametre som er sendt sammen med http-anmodningen. En bruker kan f.eks. gjøre noen få valg i dialogbokser, sjekkbokser etc. og laste ned en side som ikke er lagret permanent som en html-fil, men i stedet generert automatisk basert på brukervalgene. Gjetning av alle mulige parameterinnstillinger er praktisk talt umulig for en crawler og dynamiske objekter kan derfor for tiden ikke aksesseres gjennom internettsøkemotorer. Weben er på den annen side mer og mer dominert av dynamisk innhold både uttrykt ved antall sider og uttrykt ved verdien av informasjonen eller tjenesten. • Dokumentdatabasene for både Internett og mange intranett vokser nesten eksponensielt. Imidlertid er avspørringskompleksiteten forblitt nesten uforandret. Antall dokumenter som svarer til en gitt avspørring vokser derfor nesten ekponensielt. Relevansutfordringen for søkemotorer blir derfor mer og mer viktig. Kjente teknikker for crawling tillater analyse av lenketopologien mellom dokumenter, og forskjellige teknikker for å tilordne dokumentprioritet basert på denne topologien er blitt foreslått. Lenketopologi er på den annen side ikke en tilstrekkelig kilde for relevansen til viktige dokumentklasser så som dynamiske objekter, nye dokumenter, binære filer og trådløse sider så som sider skrevet i Wireless Markup Language (WML). Alle disse eksemplene har ingen eller forholdsvis få lenker som kan benyttes til en lenketopologianalyse.
Alarmtjenester (alert services) er beskrevet i kjent teknikk og virker på samme måte som en søkemotor. En alarmtjeneste vil typisk være i stand til å ta en søkemotoravspørring og sjekke en strøm av ny informasjon mot avspørringen. En bruker kan f.eks. søke historiske data på en søkemotor og benytte avspørringen som trigger i en alarmtjeneste som anvender avspørringen på en strøm av nye dokumenter.
På grunn av svakheter og ulemper i kjent teknikk som omtalt ovenfor, eksisterer det et presserende behov for å forbedre
dokumentinnsamlingsprosessen i søke- og alarmtjenester. En primær hensikt med den foreliggende oppfinnelse er derfor å skaffe en fremgangsmåte som vil tillate en økning i det totale antall dokumenter som kan samles inn og skaffe en økning i andelen av dokumenter som kan samles inn fra store steder, så vel som å forbedre friskheten til dokumenter uttrykt ved forsinkelsen mellom den siste dokumentoppdatering og dokumentets dannelse og tidspunktet når det kan søkes i en søketjeneste, i tillegg til å tillate deteksjon av dokumenter som er blitt ugyldige (døde lenker) og innsamling av dynamiske objekter.
Det er en annen hensikt med oppfinnelsen å utnytte den forbedrede kilde med nylig oppdaterte dokumenter til å skaffe alarmtjenester ved å sjekke hvorvidt et nytt dokument motsvarer triggerne definert av brukerne av alarmtjenesten.
Det er nok en annen hensikt med oppfinnelsen å la relevansen eller rangeringskriteriet i søkemotoren baseres på dokumentets alder. Dette er spesielt viktig da oppfinnelsen beskriver forbedrede dokumentinnsamlingsprinsipper som eksempelvis vil tillate brukeren å søke i nye webdokumenter som er dannet eller oppdatert de siste 10 minutter, den siste time eller den siste dag.
Det er ytterligere en hensikt med oppfinnelsen å benytte anmodningsstatistikken ved aksesspunktene i datanettverkene til å skaffe forbedret relevans i søke- og alarmtjenester.
Det er nok en ytterligere hensikt med oppfinnelsen å frembringe en stedsspesifikk dokumentrangering ved å benytte anmodningsstatistikk fra brukere i et romlig naboskap.
Endelig er det også en hensikt med oppfinnelsen å benytte temporal nærhet i anmodningsstatistikken til å definere grader av likhet mellom dokumenter.
De ovennevnte hensikter og andre trekk og fordeler oppnås i henhold til den foreliggende oppfinnelse med en fremgangsmåte som er kjennetegnet ved at den omfatter trinn for å innsamle informasjon i form av data utledet av informasjonsflyten ved aksesspunktene i datanettverket, å indeksere den innsamlede informasjon med en forhåndsdefinert maksimum tidsforsinkelse, og å søke og gjenfinne informasjon fra den indekserte informasjon, og dessuten valgfrie trinn basert på en analyse av trafikkinnholdet ved aksesspunkter for å stedskode innsamlet informasjon i form av dokumenter, å måle likheten av dokumentene, og å alarmere brukere med hensyn til ny og oppdatert informasjon.
Ytterligere trekk og fordeler ved den foreliggende oppfinnelse er vist i de vedføyde uselvstendige krav 2-36.
Oppfinnelsen selv, så vel som utførelser derav, vil forståes bedre med henvisning til den etterfølgende detaljerte beskrivelse av foretrukkede og eksemplifiserende utførelser når den leses i samband med den ledsagende tegning, hvor
fig. 1 viser klientforbindelsen til Internett gjennom en
Internett-tjenesteleverandør (ISP),
fig. 2 en stedfortredende (proxy) tjener i ISP for bufferlagring av webinnholdet,
fig. 3a en stedfortredende tjener som kommuniserer med et eksternt søkeminne (search cache),
fig. 3b fordelt trafikkcrawling fra klientprogramvare,
fig. 4 en mulig organisasjon av søkeminnet,
fig. 5 hvordan innholdet av søkeminnet kan omformes til en søkeindeks,
fig. 6 konfigurasjoner av en søketjeneste som benytter søkeminneindeksen,
fig. 7 det temporale nærhetsprinsipp for å definere dokumentlikhet, og fig. 8 en mulig definisjon av en vektfunksjon som definerer temporal nærhet.
Før en detaljert omtale av foretrukkede utførelser gis, skal den generelle
. bakgrunn for den foreliggende oppfinnelse kort omtales for å lette forståelsen av den sistnevnte.
Internettbrukere blir ofte forbundet til nettet ved såkalte Internett-tjenesteleverandører (ISP). Fig. 1 viser hvordan klienter forbindes via en ISP 12 til forskjellige webtjenere. ISP 12 leier båndbredde fra en hovedleverandør for Internett og tilbyr sluttbrukere 11 en "andel" i grensesnittets 10 båndbredde basert på en tidsdelingsmodell. Aksessene fra sluttbrukerne 11 blir på denne måten rutet gjennom ISP 12 til weben 13 med de individuelle tjenere 14 som verter for dokumenter 15 og multimediainnhold 16. Den samme modell gjelder også for trådløse brukere, enten gjennom naturlige koblingspunkter eller gjennom internettporter for multiple koblingspunkter. Søkemotorer i kjent teknikk er blitt basert på automatisk crawling med crawleren 17 fra webtj enerne 14 og strukturering av denne informasjon i en søkeindeks 18 som gjøres tilgjengelig for søking. Resultatet fra søkene skaffer referanse tilbake til de originale dokumenter 15,16 på weben 13.
Et felles begrep i datasystemer er bufringssystemer (caching systems). I SPene benytter ofte et webbufferminne ved sine
båndbreddefordelingsenheter. Dette bufferminne reduserer båndbreddebruken på hovednettet, samtidig som sluttbrukerne vil oppleve lavere latensiteter. Webbufferminner blir ofte benyttet gjennom stedfortredende tjenere. Stedfortredende tjenere kan være gjennomsiktige eller ugjennomsiktige. En rekke bufringsmekanismer og stedfortredende tjenere forekommer i kjent teknikk. Et eksempel er Squid ( www. squid- cache. org), som er en fri programvareversjon av en webstedfortreder.
Fig. 2 viser hvordan en stedfortredende tjener 21 kan ha en intern samling av dokumenter eller objekter 22. Brukeranmodninger om disse objektene blir betjent lokalt ved linje 23 for å redusere de ved linje 24 eksterne båndbreddekrav fra ISP 12. Brukerne 11 vil også oppleve redusert latensitet når et bufret dokument eller objekt aksesseres. Utløpsregler defineres for de individuelle objekter for å sikre at en kopi i bufferminnet faktisk gjenspeiler det opprinnelige objekt.
Begrepet til såkalt trafikkcrawling og dets egenskaper skal nå omtales.
Det fullstendige sett av brukere forbundet til Internett gjennom en ISP vil samlet virke som en stor crawler av informasjon fra weben. For den resterende del av beskrivelsen vil denne totale informasjonsinnsamling på en ISP eller et lignende koblingspunkt eller port bli betegnet som trafikkcrawler. Denne "menneskelige" trafikkcrawler har en rekke egenskaper som er meget forskjellige fra en automatisk programvarecrawler:
• Trafikkcrawleren vil ikke ha de samme begrensninger som en programvarecrawler uttrykk ved frøsider og lenketopologi for å få aksess til dokumentene. • Trafikkcrawleren vil ikke bli hemmet av aksessbegrensninger til et gitt sted av den art som en programvarecrawler utsettes for. Trafikkcrawleren kan derfor potensielt crawle store steder meget hurtigere og mer fullstendig. • En programvarecrawler vil tilbringe mye av sin tid med ganske enkelt å laste ned dokumenter som den har besøkt tidligere og å sjekke om disse sidene er blitt oppdatert siden siste nedlasting. Trafikkcrawleren kan sjekke innholdet som gjenfinnes av ISP for brukeranmodninger med tanke på å duplisere testing mot tidligere kopier av det tilsvarende dokument. Det er derfor ikke nødvendig med ytterligere informasjonsnedlasting. • Trafikkcrawleren kan forbedre friskheten i forhold til en programvarecrawler på to måter: o Trafikkcrawleren detekterer manglende eller temporært utilgjengelige dokumenter. Deteksjonen kan typisk utføres ved å registrere når en http-anmodning til en gitt URL resulterer i en feilmelding slik som feil nummer 404. Disse feilslåtte anmodninger kunne benyttes i den tilhørende søketjeneste ved enten å fjerne de forbundne URL eller tilordne en lavere rangeringverdi til URLen for å sortere dokumentene i resultatlistene frembrakt av søkemotoren.
o Trafikkcrawleren kan potensielt analysere et nytt eller oppdatert dokument straks en av de forbundne ISP-klienter har lastet ned dokumentet. F.eks. kunne en ny pressemelding på denne måte gjøres søkbar straks en av ISP-klientene hadde lest artikkelen.
ISP-brukerne vil aksessere dynamiske sider og innholdet av disse sider kan derfor også gjøres søkbart. Det kan ofte være praktisk talt uendelig antall parameterkombinasjoner som kan benyttes til å generere en dynamisk side. De parameterkombinasjoner som virkelig benyttes i anmodningen, er derfor et meget rimelig valg for å definere mengden av dynamiske sider som skal gjøres søkbare. Dette er eksakt den samme mengde av dynamiske sider som trafikkcrawleren potensielt kan indeksere for etterfølgende søking.
Aksessmønsteret for ISP-brukere kan også benyttes til å forbedre relevansen i den tilknyttede søkeindeks. Steder som hyppig besøkes, kan bli rangert foran steder som sjelden besøkes. Slik aksesstelling kunne potensielt også utføres av søkemotoren selv ved å omdirigere brukervalgene i resultatlistene, men det er langt mer verdifullt å basere relevansberegning på det totale aksessmønster og ikke bare på aksessmønteret som følger som et resultat av søkene.
Implementeringen og utførelsen av trafikkcrawling skal nå diskuteres basert på henholdsvis et sentralisert og et desentralisert crawleopplegg.
Sentralisert trafikkcrawling
Det finnes en rekke måter å implementere en trafikkcrawler på basert på trafikken ved et aksesspunkt i datanettverk. Den foreliggende oppfinnelse vil angi en rekke mulig utførelser, og det vil derfor være innlysende for fagfolk hvordan forskjellige utførelsesvalg kan benyttes til å realisere de samme fordeler. Eksemplene som er vist i foreliggende oppfinnelse, vil benytte trafikken ved en ISP og indeksering av webdokumenter som eksempel, men det vil være innlysende for fagfolk at de samme prinsipper kan benyttes i lignende situasjoner så som intranettrafikk eller trådløse forbindelsespunkter.
Den virkelige aksess til dokumenter eller objekter som går gjennom en ISP kan realiseres på forskjellige måter. Et alternativ er å utnytte bufferlagringsmekanismene benyttet av ISP. Innholdet av et bufferminne kan enten periodisk indekseres for søking og alarmering eller søkeindeksen kunne bygges ut trinnvis hver gang et nytt dokument eller objekt lagres i webbufferminnet. Begrensningen ved denne metode er at de nåværende webbufferminner er utført for å redusere de eksterne båndbreddekrav til ISPen. Båndbreddemålsettingen bestemmer i høy grad hva slags objekter som holdes i webbufferminnet. Typisk vil en stor andel av webbufferminnet bestå av hyppig aksesserte multimediaobj ekter. En rekke av de mest interessante tekstsider for indeksering vil også ha definert et utløpsmerke som forteller webbufferminnet at de skal utelukkes fra bufferminnet.
Følgelig vil optimering av kvaliteten til trafikkcrawling enten kreve en modifikasjon av prosedyrene for webbufferlagring eller at et separat bufferminne må benyttes parallelt med webbufferminnet. Webbufferminnet vil i dette tilfelle velge objekter basert på båndbreddeoptimeringskriterier og søkeminnet vil velge objekter basert på dokumentkvalitet uttrykt ved søke-og alarmtjenester.
Fig. 3a viser hvordan en stedfortredende tjener 21 kan modifiseres for å kommunisere med et samarbeidende søkeminne 33. Søkeminnet 33 kan enten befinne seg på den samme datamaskin eller de samme datamaskiner som den stedfortredende tjener 21 eller den kan befinne seg på en annen datamaskin eller andre datamaskiner og kommunisere via et annet datanettverk. Den stedfortredende tjener 21 inneholder et internt webbufferminne 31 som benyttes til å redusere de eksterne båndbreddekrav. Det interne webbufferminne er ikke nødvendig for å implementere trafikkcrawlingen. En kommunikasjonsmodul 32 er innbefattet i den stedfortredende tjener 21. Kommunikasjonsmodulen 32 registrerer ved bussen 35 webanmodningene som via bussen 34 går gjennom den stedfortredende tjener 21 og registrerer og bufrer etter valg resultatmeldinger for anmodningene og det virkelige innhold som leveres til brukeren 11 som et resultat av anmodningene. Kommunikasjonsmodulen 32 overfører en del av denne informasjon til et søkeminne 33. Informasjon som overføres, kan settes opp slik at den omfatter: Bare anmodninger. Dette kan implementeres ved periodisk å overføre oppdateringene i aksessloggen til den stedfortredende tjener 21 fra kommunikasjonsmodulen 32 til søkeminnet 33. Hver aksessregistrering kan opsjonelt merkes med informasjon som:
o Brukerinformasjon, f. eks. IP- adressen
o Kryptert brukerinformasjon. På grunn av personvernforhold i webapplikasjoner vil det normalt være viktig å holde på anonymiteten til de individuelle brukere.
Kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 kan derfor settes opp slik at enten utelates all personlig
informasjon eller kodes slik at individuelle brukere kan skilles ut, men ikke identifiseres basert på data som kommer inn i søkeminnet. Eksempelvis kunne anmodningen merkes med et kryptert nummer basert på brukerens sesjonsidentifikasjon (user session ID). Denne fremgangsmåte gjør også fortrolighetstiltak
kontrollerbare av ISP 12 og internt i stedfortrederprogramvaren på ISP.
o Tilknyttet bruker informasjon slik som land og by. Denne informasjon kan holdes på et tilstrekkelig grovt nivå for å sikre at de individuelle brukere 11 ikke kan identifiseres basert på data som kommer inn i søkeminnet 33. Stedsinformasjonen kan genereres basert på hjelpedata registrert av ISP når de individuelle brukere etablerer en konto. Trådløse applikasjoner kan får stedsinformasjon fra f.eks. GPS-data skaffet av den trådløse innretning eller gjennom lokalisering av telefoner basert på f.eks. basestasjonidentifikasjoner og forsinkelsestider.
o Resultatkoden for web^ anmodningen. Søkeminnet 33 kan f.eks.
bruke denne informasjon til å fjerne døde lenker eller redusere rangen til lenker som ofte er temporært utilgjengelige.
o Hash- verdier for dokumentinnhold. Kommunikasjonsmodulen 32 kan beregne en eller flere hash-verdier som gjenspeiler
innholdet returnert til brukeren som resultat av anmodningen. Slike innholdsnøkler kan beregnes med en minimal CPU-administrasjon og utgjør en meget kompakt måte for å overføre informasjon til et muligvis fjernt søkeminne. Et fjernt søkeminne kan f.eks. benytte denne informasjon for sammenligning med historiske hash-verdier for samme dokument. Forandringer i hash-verdiene angir at dokumentet er blitt oppdatert, og at det bør crawles på nytt for å oppdatere søkeindeksen.
Anmodninger med innhold. Kommunikasjonsmodulen 32 kan også
sende det virkelige dokumentinnhold i tillegg til informasjonen omtalt ovenfor for anmodningen alene. Denne muligheten blir typisk valgt hvis det står en datakanal med høy kapasitet til rådighet mellom kommunikasjonsmodulen 32 og søkeminnet 33. Dokumentet blir gjenfunnet av ISP og kan derfor på denne måte gjøres tilgjengelig for indeksering og alarmering uten ytterligere anmodninger til den opprinnelige webtjener. Datastrømmen må i dette tilfelle splittes slik at en kopi av informasjon som returneres til brukeren 11, overføres fra kommunikasjonsmodulen 32 til søkeminnet 33. Det kan være
fordelaktig å utføre en viss filtrering i kommunikasjonsmodulen 32 for å redusere kommunikasjonen til søkeminnet 33. Typisk kunne bare anmodninger som det er av interesse å indeksere, bli overført. Eksempel på slike filtreringsregler inbefatter:
o Bare overføre http-GET-anmodninger
o Bare overføre anmodninger om MIME-typene text/<*>
o Bare overføre innhold for anmodninger med en resultatkode
som angir vellykket overføring.
o Bare overføre anmodninger for enten positivt identifiserte verter eller vor verter som ikke befinner seg i en database eller identifiserte verter som skal utelukkes.
Fig. 4 viser en mulig organisasjon av søkeminnet 33 som mottar informasjonsstrømmen fra kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 og benytter denne informasjon til å bygge en søkeindeks eller en alarmtjeneste. Søkeminnet 33 innbefatter en kommunikasjonsmodul 41 som håndterer datakommunikasjonen med kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21. Den aktuelle overføringslogikk kan f.eks. implementeres med sokler. Dataene som mottas fra kommunikasjonsmodulen 41, sendes for videre prosessering. Den første prosesseringstrinn er opsjonelt en avvisningslogikkfilter 42 som kan utvide og addere til filtreringsmekanismen beskrevet for kommunikasjonsmodulen inne i den stedfortredende tjener 21. Fordelen av å utføre avvisningsifltrering inne i den stedfortredende tjener 21 er at databåndbredden mellom den stedfortredende tjener 21 og søkeminnet 33 reduseres. Det er på den annen side også fordeler ved å utføre noe av avvisningsifltreringen inne i søkeminnet: • Belastningsøkningene for CPU som driver den stedfortredende tjener bør gjøres minimale. Prosesseringsadministrasjonen inne i kommunikasjonsmodulen 32 bør derfor holdes på et minimum. • Søkeminnet 33 vil typisk ha en hurtig aksess til dokumentinformasjon som er av viktighet for å lage gode avvisningsfiltre. Slik informasjon innbefatter f.eks. historiske hash-verdier for dokumentinnhold,
aksesstatistikk, og databaser med verter eller steder som skal avvises 33.
Det skal bemerkes at avvisningslogikken 42 kunne utføres i sanntid under den virkelige overføring. Overføringen kan derfor stoppes straks strømmen er blitt identifisert som et objekt som skal avvises av søkeminnet.
Desentralisert trafikkcrawling
Fig. 3b viser desentralisert trafikkcrawling fra klientprogramvare. Et sett av brukere 11 gjenfinner dokumenter fra en delt nettverksressurs så som Internett, mobilt Internett og intranett. Dokumentene gjenfinnes inne i klientprogramvaren 304; 306; 308. Klientprogramvaren kan typisk være webleserapplikasjoner. En kommunikasjonsmodul 305; 307; 309 kan plasseres enten internt inne i klientprogramvaren som en pluggbar eller en samvirkende modul. Kommunikasjonsmodulen kan når den aktiveres registrere dokumentidentifikatorene så som URLene til dokumentene gjenfunnet av klientprogramvaren. Kommunikasjonsmodulene kan videre sende den samme type informasjon som tidligere omtalt under sentralisert trafikkcrawling. Meldingene fra det desentraliserte sett av kommunikasjonsmoduler inne i programvaren aggregeres av en tjenerapplikasjon 310. Tjenerapplikasjonen 310 sender den innsamlede informasjon til et søkeminne 33 på eksakt samme måte som kommunikasjonsmodulen 32 i sentralisert trafikkcrawling sender informasjon til søkeminnet 33.
Desentralisert trafikkcrawling gjør det mulig å oppnå de samme fordeler som ved sentralisert trafikkcrawling, men uten behovet for å integrere systemet med ISPer eller lignende tjenester. Et desentralisert aksesspunkt blir i stedet benyttet gjennom klientprogramvaren og den desentraliserte aksessinformasjon aggregeres av kommunikasjon over nettet til en sentralisert tjenerapplikasjon.
Håndtering av privat informasjon kan lett tas hånd om i desentralisert trafikkcrawling, da brukeren gjennom klientprogramvaren eksplisitt aktiverer og deaktiverer kommunikasjonsmodulen.
Bufferlagring av trafikkinnhold skal nå omtales, med henvisning til den allerede omtalte fig. 4. Dokumentene som ikke avvises av avvisningslogikkfilteret 42, blir overført til en objektadministrator 43 som faktisk bufferlagrer informasjon forbundet med de forskjellige dokumenter. Objektadministratoren 43 innbefatter et fortrolighetsfilter 44 som kontrollerer at dokumentene i et temporært lager 47 slik at privat informasjon utelates i utgangsdataene fra objektadministratoren 43. Fortrolighetsfilteret 44 vil bli beskrevet separat nedenfor. Informasjonen lagret sammen med dokumenthenvisningen i objektadministratoren 43 kan innbefatte: • Informasjon festet til dokumentet av kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 som tidligere omtalt.
• Dokumentstatistikk som den sist modifiserte attributt.
• Aksesstatistikk som tidspunktet for først sett og tidspunktet for sist sett, antall aksesser i forskjellige tidsintervaller og antall forskjellige brukere som har aksessert dokumentene.
• Dokumentinnholdet selv.
• En statistisk rangverdi for dokumentet.
Objektadministratoren 43 kan enten fungere som en tjeneste som kontinuerlig eller periodisk gir ut datastrømmer 45, 46 med informasjon om nye, oppdaterte eller slettede dokumenter. Datastrømmene kan innbefatte enten bare dokumentreferanser 45 eller både dokumentreferanser 45 og det virkelige dokumentinnhold 46. Disse datakildene er av verdi for å danne en alarmtjeneste for weboppdateringer og forbedre størrelsen, friskheten og relevansen til generelle og spesialiserte søkemotorer på weben. Dokumentreferansene 45 kan benyttes som et reindekseringssignal for å styre crawleren 17 i en tradisjonell søkemotor, og det aktuelle dokumentinnhold 46 kan benyttes til også å erstatte crawlingen av disse dokumentene i en tradisjonell søkemotor.
Objektadministratoren 43 kan også benyttes som et bufferminne ved å øke den temporære lagring og innbefatte utkasteralgoritmer for fjerning av dokumenter fra bufferminnet. Levetidsattributten som kan tilordnes dokumenter for å instruere om webbufferlagring, er i realiteten ikke relevant for søkebufferlagring. Det aktuelle dokument aksessert av brukeren i den resulterende søketjeneste vil være det opprinnelige dokument. Den eneste risiko her er det i søkemotorer tradisjonelle problem at den indekserte tekst kan være utdatert sammenlignet med det virkelige dokument. Sannsynligheten for dette friskhetsproblemet er på den annen side sterkt redusert ved søketjenester basert på den foreliggende oppfinnelses lære. Bufferutkastingsprosedyren kunne være tett knyttet til dokumentrangverdien om denne verdien virkelig gjenspeiler dokumentenes kvalitet og/eller popularitet. Nye eller oppdaterte dokumenter kunne bli holdt i bufferminnet i et eller annet forhåndsdefinert minimumstidsrom slik at søketjenestene kan bygges for nyere weboppdateringer. Dynamiske objekter kunne ha redusert levetid i søkeminnet for å unngå en overdrevet stor mengde dynamiske objekter som vanligvis blir hyppig oppdatert.
Objektadministratoren 43 kunne også innbefatte en modul 48 for å beregne statiske rangverdier for dokumenter i det temporære lager 47. Rangverdien kan benyttes både for bufferlagringspraksis med tanke på bestemmelse av hvilke dokumenter som skal fjerne fra det temporære lager 47 og som inngang for å rangere søkeresultater i den resulterende søketjeneste. Rangeringskriteriet kan typisk være en kombinasjon av lenketopologi, dokumentinnhold og aksessmønster. Fordelen med trafikkcrawling er at kvaliteten til estimater om aksesstatistikken vil bli forbedret i forhold til kjent teknikk. Et eksempel på en enkel rangeringsformel begrenset til aksesstatistikk er:
r' =r+ wl- f (treffrate)-g(antall brukere som aksesserer dokument)+(i-^)
I denne ligningen betegner r den foregående rang av dokumentet og r' den oppdaterte rang til dokumentet, w er en vektings faktor i den rekursive oppdatering av rangeringsverdien. / betegner den gjennomsnittlige målrangverdi og kunne også benyttes som initialverdi for nye dokumenter. A betegner den gjennomsnittlige rang for den foregående rangering og benyttes til å stabilisere rangverdiene over tid basert på /. Funksjonene/og g er monotone funksjoner som øker vekten for dokumenter som aksesseres ofte og av mange brukere. Indekseringen av trafikkminnet skal nå kort forklares.
Objektadministratoren kan ganske enkelt bli benyttet til kontinuerlig eller periodisk å gi ut datastrømmer med informasjon om nye, oppdaterte eller slettede dokumenter 45, 46. Mottageren av de genererte datastrømmer vil i dette tilfelle ta hånd om indekseringen av denne informasjonen og den resulterende søketjenestegenerering. Et annet alternativ er å la objektadministratoren 43 benytte et bufferminne eller et temporært lager 47 og enten kontinuerlig eller periodisk indeksere innholdet i det temporære minne 47.
Fig. 5 viser hvordan innholdet i et søkeminne 51 kan omdannes til en søkeindeks. Den enkleste fremgangsmåte er periodisk å prosessere ved 54 hele innholdet i søkeminnet 51 for å konstruere en oppdatert søkeindeks 501. Alternativt kan et fullstendig søkeminne 52 indekseres én gang og deretter blir en trinnindeks 58 konstruert kontinuerlig eller periodisk ved 55 for oppdateringer 57 i søkeminnet 52. Trinnindeksen 58 må enten være direkte kombinert med en fullstendig indeks 502 eller periodisk flettet sammen med denne. Flettingen kan også implementeres ved ganske enkelt å omindeksere søkeminnet 52. Et annet alternativ er å la et søkeminne 53 dele dataene i grupper i henhold til de sist registrerte dokumentoppdateringer i søkeminnet. Gruppene kunne f.eks. være "siste uke" 59a, "siste dag" 59b og "siste time" 59c. De samme grupper ville derfor gjenspeiles i en ved 56 generert søkeindeks 503 som gruppene 59d, 59e, 59f. Slike grupper ville redusere indekseringsbehovene og fletteoperasjonene som er nødvendig for indeksene.
Dokumentrangen beregnet av indekseringsoperasjonen kan enten benytte rangverdien gitt av rangberegningen i modulen 48 innenfor objektadministratoren 43 eller den kan kombinere denne verdien med andre informasjonskilder, så som lenketopologi.
I henhold til den foreliggende oppfinnelse kan søkeminnet fordelaktig bli benyttet i en søketjeneste.
Fig. 6a viser en konfigurasjon for en søketjeneste som benytter søkeminneindeksen. Søkeindeksen generert fra søkeminnet er en indeks 62 som kan benyttes på en tradisjonell måte for å bygge søkemotortjenester. Brukeren 11 sender avspørringer 61 til søkeminneindeksen 62 som svarer med resultater 63 som returneres til brukeren. Søkemotoren kan øke de fordeler som skaffes av trafikkcrawleren som beskrevet i den foreliggende oppfinnelse.
Et annet alternativ er å kombinere søkeindeksen generert fra søkeminnet med en ekstern søkeindeks som f.eks. kunne være en generell Internett-søketjeneste i stor skala så som www. alltheweb. com. Brukerens 11 avspørring 64 vil i dette tilfelle bli sendt til en klareringsmodul 65 for avspørringen og det samme søk vil bli utført både i trafikkminneindeksen 66 og en samarbeidende søkeindeks 67. Resultatlistene frembrakt av de to søk blir flettet i en flettemodul 68 som tar hensyn til dokumentrangverdier. Endelig blir en enhetlig resultat konstruert og returnert til brukeren 11 som et svar 69 på den initiale avspørring. Fletteoperasjonen kan derfor velge forskjellige algoritmer for å rangere det lokale innhold returnert fra trafikkminneindeksen 62 mot innholdet fra den samarbeidende søkemotor som kan ha et globalt rangert innhold.
Opplegget med to samarbeidende søkemotorer kan lett utvides til å håndtere multiple søkemotorer med potensielt mer enn ett søkeminne.
Klareringsmodulen 65 og flettemodulen 68 må i dette tilfelle modifiseres for å kommunisere med det valgte sett av søketjenester. Lignende kombinasjoner med færre parallelle søkinger i multiple søkemotorer i kjent teknikk for bruk på Internett er tidligere kjent og blir vanligvis betegnet som metasøkemotorer.
Fremgangsmåten i henhold til den foreliggende oppfinnelse skal fordelaktig tillate bruken av regional eller bostedsspesifikk rangering.
Dokumentdatabasen for både Internett og mange intranett vokser som nevnt nesten eksponensielt. Imidlertid har avspørringskompleksiteten forblitt nesten praktisk talt uendret. Antallet dokumenter som svarer til et gitt spørsmål har derfor også vokst omtrent eksponensielt. Utfordringen med relevans for søkemotorer blir derfor viktigere og viktigere. Stedsinformasjon kan derfor spille en nøkkelrolle ved implementering av den nødvendige relevansforbedringer.
Stedskoding kan oppnås ved å studere innholdet og egenskapene til et gitt dokument. Informasjon så som adresser eller telefonnumre kan benyttes for å tilordning av dokumentet til et spesifikt geografisk sted. Alternativt kan aksessmønstrene til et gitt dokument fra forskjellige områder undersøkes og det kan identifiseres hvilke dokumenter som er statistisk overrepresentert uttrykt ved aksesser fra et gitt område. Søkemotoren kan benytte denne informasjonen til å danne områdespesifikke rangeringsformler. En spansk bruker av søketjenesten kunne f.eks. ha en rangering som benytter informasjon om hvilke steder som er populære blant spanske brukere. Det regionale aksessmønster kan også benyttes til å danne automatiske lister av populære dokumenter som er assosiert med hvilket som helst bestemt område. Disse listene kan ytterligere deles i kategorier og kan derfor benyttes til å danne automatiserte regionale portaltjenester.
Den romlig informasjon skaffet av trafikkcrawleren må holdes på et tilstrekkelig grovt nivå til at de individuelle brukere ikke kan identifiseres på basis av data som kommer inn i søkeminnet. Typisk bør alle annoterte områder ha et forhåndsdefinert minimalt antall brukere. Stedsinformasjon kan genereres basert på hjelpedata registrert av ISP når individuelle brukere oppretter en konto. Trådløse applikasjoner kan få stedsinformasjon fra GPS-data skaffet av den trådløse innretning eller gjennom lokalisering av telefoner basert på f.eks. bakkestasjonidentifikasjoner og forsinkelsestider.
Fremgangsmåten i henhold til oppfinnelsen vil fordelaktig være i stand til å skaffe informasjon som vil tillate beregning av dokumentlikhet basert på statistikk skaffet av trafikkcrawleren.
Kjente teknikker for crawling tillater analyse av lenketopologi mellom dokumenter og forskjellige teknikker for å tilordne dokumentprioritet basert på denne topologi er blitt foreslått. Lenketopologi er på den annen side ikke en tilstrekkelig kilde for relevans av viktige dokumentklasser som dynamiske objekter, nye dokumenter, binære filer og trådløse sider skrevet i Wireless Markup Language (WML). Alle disse eksempler har ingen eller relativt få lenker som kan benyttes for en lenketopologianalyse. Den temporale nærhet i anmodningsstatistikk levert av trafikkcrawleren kan være en nyttig kilde for å definere likhetsmålinger mellom dokumenter i visse situasjoner. Anmodningsstatistikken kan også bidra til likhetsmålinger hvor en rikere lenketopologi kan benyttes for de sistnevnte.
Fig. 7 viser det temporære nærhetsprinsipp for å definere dokumentlikhet. ISP 12 forbinder via grensesnittet 10 et antall sluttbrukere lia, 1 lb, 1 lc til webressurser 13 som består av tjenere 14 og individuelle dokumenter 15a, 15b, 15c, 15d samt multimediainnhold 16. Aksessloggen registrert av trafikkcrawleren kan deles mellom forskjellige brukere A,B,C slik at påfølgende anmodninger a,b,c,d,... fra samme bruker kan identifiseres via et grensesnitt 71. Brukerbeskyttelse kan fortsatt opprettholdes ved å kryptere brukerens identifikasjonsinformasjon. Det er tilstrekkelig for den følgende analyse at aksessloggen er annotert med sesjonsidentifikasjoner i stedet for brukeridentifikasjoner. Annotering med sesjonsidentifikasjon eller krypterte sesjonidentifikasjoner vil ytterligere opprettholde brukernes personvern.
Similaritetsdefinisjonen hviler på den antagelse at et individ vil hovedsakelig gjenfinne vil relatert informasjon innefor et kort tidsvindu eller innenfor et kort intervall av påfølgende anmodninger. Det er innlysende unntagelser til denne antagelse, men slumpmessige forandringer forårsaket av et skifte av fokus hos brukeren kan også forventes å ha en mer statistisk slumpmessig natur.
Fig. 8 viser en mulig definisjon av en vektingsfunksjon som definerer det temporale naboskap. Et eksempel er vist hvor bruker C anmoder om et dokument a på tidspunktet t0. En annen anmodning fra samme bruker eller sesjon rettes mot dokumentet b på tidspunktet ti. Anta også at k andre dokumentanmodninger har kommet fra samme bruker mellom anmodningene om dokumentene "a" og "b". En naboskapsvektingsfunksjon kan i dette tilfelle defineres som en funksjon w( k, t]- t0) hvor w er en funksjon som minker monotont med både k og \ trt0\. I forenklede modeller kan w velges som en signaturfunksjon eksempelvis for et gitt tidsintervall relativt til t0, f.eks. ( tM/ N - tMAx) eUer et gitt antall aksesser kj forut for t0 og et gitt antall aksesser k2 etter t0. Tilsvarende vektingsfunksjonsmodeller blir benyttet i andre applikasjoner så som algoritmer for å administrere sider i et virtuelt minne.
En rangert likhetsliste for et gitt dokument "a" kan nå etableres ved å måle den statistiske overrepresentasjon av andre dokumenter i naboskapet til anmodninger om "a"-dokumentet. Analysen kan enten utføres på et dokumentnivå eller på et stedsnivå hvor alle dokumenter som befinner seg på et gitt sted, ganske enkelt behandles som en anmodning til stedet på toppnivå. Rangeringsverdien kan basere seg på en rekke teknikker og det vil være innlysende for fagfolk hvordan små modifikasjoner av utførelsen i henhold til den foreliggende oppfinnelse kan benyttes. Likhetsrangen kan f.eks. være basert på en av de følgende målinger: • Totalt aksesstall innenfor et forhåndsdefinert naboskapstidsvindu med anmodninger om "a"-dokumentet. • Den totale sum av naboskapsvektingsfunksjon w for alle aksesser innenfor et forhåndsbestemt naboskapsvindu med anmodninger om "a"-dokumentet.
Den statistiske signifikans av det observerte antall av "b"-anmodninger innenfor en forhåndsbestemt naboskapsvindu for anmodninger til "a"-dokumentet. Den statistiske test kan baseres på en nullhypotese som antar at alle anmodninger til "a"- og "b"-dokumenter virkelig er ikke-relatert. Videre kan det tas hensyn til den generelle aksessfrekvens til "a"- og "b"-dokumenter i den statistiske test. En lignende statistisk test kan utføres ved å benytte den totale sum av naboskapsvektingsfunksjon w som den observasjonsvariable i stedet for anmodningstellingen.
En dokumentlikhetsliste kan derfor beregnes for hvilket som helst dokument "a" ved å sortere dokumenter etterspurt innenfor et forhåndsbestemt naboskapsvindu av anmodninger til "a"-dokumentet i henhold til en av de foreslåtte likhetsrangfunksjoner. Kvaliteten til slike likhetslister kan forbedres ved å fjerne trivielle likheter så som dokumenter på samme sted eller dokumenter som det er direkte henvist til med hyperlenker i "a"-dokumentet.
Likhetslistene kan også beregnes for en gruppe av dokumenter i stedet for et enkelt dokument. Dette kan lett implementeres for å behandle en hvilken som helst anmodning om et dokument i dokumentgruppen som en henvisning til "a"-dokumentet i den foregående beskrivelse. Alternativt kan affiniteten forbedres ved å vekte anmodningene med en brukerlikhetsfaktor som f.eks. kunne telle antallet dokumenter felles for dokumentgruppen og hver av aksessloggene for individuelle sesjoner.
Personalisert rangering og dokumentvalg kan oppnås på denne måte ved f.eks. å beregne en dokumentlikhetsliste basert på et sett av brukervalgte dokumenter. Brukeren kan enten velge disse dokumenter eksplisitt eller et automatisk valg kan foretas på basis av favorittvalg innenfor webleseren eller aksesshistorien registrert enten lokalt av klientens webleser eller ved aksessporten.
Søketjenester og alarmtjenester kan benytte denne informasjon for å tillate brukeren å danne en personlig rangeringsformel. Den personlige rangering kunne favorisere de følgende dokumenter i resultatlistene:
• Dokumenter som virkelig er levert av brukeren
• Nye dynamiske sider som er relatert til dokumenter levert av brukeren så som nyhetsartikler på et avissted. • Dokumenter som har høye likhetsfaktorer slik som beskrevet ovenfor, med sett av dokumenter levert av brukeren.
Den foreliggende oppfinnelse kan også benyttes til å etablere relevansalgoritmer på basis av dokumentlikhetstopologi.
Modifikasjon av definisjonen av det forhåndsbestemte naboskapsvindu for likhetsrangering kan utlede interessante egenskaper hos dokumentene. Det er f.eks, mulig å sammenligne rangverdien mellom to dokumenter "a" og "b" med to naboskapsvinduer, ett 10 minutter etter "a"-anmodninger og ett 10 minutter før "a"-anmodninger. Forskjellen i disse to verdier vil både gi informasjon om relasjonen mellom "a" og "b" og arten av innhold i "a". Disse verdier vil faktisk definere den reelle effektive lenketopologi mellom dokumenter basert på virkelig bruk. Verdiene kan sammenlignes med hyperlenketopologien eller erstatte hyperlenketopologien som basis for dokumentrelevansberegninger. Det vil være innlysende for fagfolk hvordan kjente metoder for relevans basert på lenketopologi kan utvides til trafikkavledet brukstopologi som vist i den foreliggende oppfinnelse. To slike alternativer er: • For det første å tilordne en initial dokumentrangering til hvert dokument. Den kan enten være den samme for alle dokumenter eller ta andre informasjonskilder i betraktning for å differensiere dokumentet. For det annet kan dokumentrangverdiene forplantes ved den omtalte brukstopologi ved å vekte de initiale dokumentrangverdier med lenkestyrken. • Algoritmer som forekommer i kjent teknikk, så som siderang- eller HITS-algoritmen kan benyttes som interative modeller for å forplante sideranger gjennom den omtalte brukstopologi.
I de fleste web- og trådløse applikasjoner hvor den foreliggende oppfinnelse skal benyttes, vil det være avgjørende at brukerens personvern opprettholdes. Indeksering av trafikkinnholdet ved aksesspunkter i datanettverk kunne potensielt gjøre privat informasjon søkbar for en stor brukerskare. Følgelig skal fremgangsmåten i henhold til den foreliggende oppfinnelse være i stand til å sikre brukerens personvern.
Separate protokoller er blitt utviklet som sikkert og korrekt transporterer webobjekter, f.eks. https-protokollen. Webtj enere som er verter for private innholdsobjekter skulle bruke slike protokoller dersom de ønsket å garantere diskresjon overfor brukeren. Uheldigvis er imidlertid det motsatte vanlig praksis. En rekke forskjellige metoder blir benyttet til å skjule privat innhold på webtj enere, mens det virkelige innhold fortsatt transporteres som klar tekst. En god del av det private innhold er lagret som dynamiske objekter og har derfor generelt ikke vært tilgjengelig i søketjenester i henhold til kjent teknikk. Den foreliggende oppfinnelse viser hvordan dynamiske objekter også kan effektivt indekseres og gjøres søkbare.
De følgende prinsipper kan benyttes til å unngå indeksering av privat eller følsom informasjon: • Sikre protokoller så som https-protokollen er innlysende ikke indeksert. • Indeksering er begrenset til http-get-anmodninger. Noen personlige objekter gjenfinnes f.eks. ved å bruke en http-post-operasjon på tjeneren. Resultater fra disse operasjoner lagres ikke. • Noen ganger er dynamisk og personlige innhold beskyttet av en eller annen versjon av http-autentiseringsmekanismene. Disse arbeider ved å sette spesifikke felter i http-anmodningstoppteksten. Denne type autentisering kan automatisk detekteres for å ekskludere resulterende informasjon fra indeksering. • Indekseringen kan begrenses til dokumenter som er blitt sett på av et forhåndbestemt minimalt antall brukere. Indeksering av informasjon som bare en enkelt bruker har sett på, kan på denne måten unngås. • Indeksering kan begrenses til anmodninger som ikke inneholder småkaker (cookies) for å unngå at en småkake ikke transporterer personlig informasjon som er nødvendig for å gjenfinne dokumentet. • Indeksering kan begrenses til et forhåndsbestemt sett av steder og verter. • Indekseringen kan utelukke forhåndsbestemte steder og verter som ikke bør indekseres.
Detekterte dokumenthenvisninger kan til slutt crawles på ny for å
sjekke at informasjon faktisk er generelt tilgjengelig for hvem som helst.
Selv om den foreliggende oppfinnelse spesielt er blitt beskrevet med henvisning til foretrukkede utførelsesformer, skal det forstås av fagfolk at det kan gjøres forskjellige forandringer i form og detalj i disse uten å avvike fra oppfinnelsens grunnidé. Bruken av spesifikke protokoller og formater er ikke et nødvendig trekk ved den foreliggende oppfinnelse. F.eks. kan andre trådløse protokoller erstatte WAP/WML uten å påvirke prinsippene som ligger til grunn for den foreliggende oppfinnelse. Modifikasjoner av denne art kan gjøres uten å gå ut over rammen for oppfinnelsen slik den er vist i de vedføyde krav.

Claims (36)

1. Fremgangsmåte til søking og analyse av trafikkinnholdet ved aksesspunkter i datanettverk, hvor datanettverkene er delte nettverkressurser, spesielt det fullstendige Internett eller et intranett, hvor aksesspunktene spesielt er Internett-aksesspunkter for brukere betjent av en Internett-tjenesteleverandør eller fordelt i form av en applikasjon til en rekke brukere eller et forbindelsespunkt for trådløse brukere, hvor forbindelsespunktet enten er et naturlig forbindelsespunkt eller en internettport for multiple forbindelsespunkter, og hvor fremgangsmåten er karakterisert ved å omfatte trinn for å innsamle informasjon i form av data utledet av informasjonsflyten ved aksesspunktene i datanettverket, å indeksere den innsamlede informasjon med en forhåndsdefinert maksimum tidsforsinkelse, og å søke og gjenfinne informasjon fra den indekserte informasjon, og dessuten valgfrie trinn basert på en analyse av trafikkinnholdet ved aksesspunkter for å stedskode innsamlet informasjon i form av dokumenter, å måle likheten av dokumentene, og å alarmere brukere med hensyn til ny og oppdatert informasjon.
2. Fremgangsmåte i henhold til krav 1, karakterisert ved å lagre innsamlet informasjon ved bufferlagring i ett eller flere bufferminner anordnet ved et eller flere aksesspunkter.
3. Fremgangsmåte i henhold til krav 2, karakterisert ved å bufferlagre innsamlet informasjon for en økende mengde av tidsintervaller i to eller flere bufferminner, å indeksere den bufferlagrede informasjon i hvert av bufferminnene gjentatte ganger for å generere forbundne søkeindekser for en økende mengde av tidsintervaller, og å kombinere søkeresultatene fra de genererte søkeindekser.
4. Fremgangsmåte i henhold til krav 2, karakterisert ved å holde den bufferlagrede informasjon i et bufferminne inntil innholdet i dette er blitt indeksert.
5. Fremgangsmåte i henhold til krav 4, karakterisert ved å beregne friskheten til bufferlagret informasjon på basis av medgått tid siden den siste oppdatering av gitt trafikkinnholdsenhet.
6. Fremgangsmåte i henhold til krav 2, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å bufferlagre trafikkinnholdet henholdsvis for å minimere eksterne båndbreddekrav og å holde frisk og relevant informasjon for indeksering.
7. Fremgangsmåte i henhold til krav 6, karakterisert ved å bufferlagre trafikkinnholdet i begge henseender i henholdsvis to dediserte bufferminner.
8. Fremgangsmåte i henhold til krav 2, karakterisert ved å prosessere gjentatt den bufferlagrede informasjon med en forhåndsdefinert maksimum tidsforsinkelse for å indeksere den innsamlede informasjon og generere en søkeindeks for denne.
9. Fremgangsmåte i henhold til krav 8, karakterisert ved å oppdatere søkeindeksen trinnvis ved å detektere ny eller oppdatert informasjon som ikke tidligere er blitt observert ved et aksesspunkt, og å addere den nye eller oppdaterte informasjon til søkeindeksen.
10. Fremgangsmåte i henhold til krav 8, karakterisert ved å benytte trafikkinnholdet observert mellom to indekseringsoperasjoner på den bufferlagrede informasjon for å generere en tidsbestemt søkeindeks med friskt trafikkinnhold siden den siste indekseringsoperasjon ble utført på den bufferlagrede informasjon, og å utføre søking ved å kombinere søking både i den tidsbestemte søkeindeks og en aller nyeste søkeindeks generert ved å indeksere den bufferlagrede informasjon.
11. Fremgangsmåte i henhold til krav 1, karakterisert ved å begrense indekseringen av den innsamlede informasjon til undermengden av trafikkinnholdet som ikke er blitt forkastet av et sensitivitetsfilter, idet sensitivitetsfilteret er innrettet til å detektere en eller flere av de følgende, nemlig pornografisk materiale, privat materiale, spesielt privat materiale som bare er blitt aksessert av et gitt forhåndsdefinert lite antall brukere, og materiale fra http-post-operasjoner.
12. Fremgangsmåte i henhold til krav 1, karakterisert ved at trinnet for å søke og gjenfinne informasjon innbefatter et undertrinn for relevansrangering eller datafiltrering avhengig av en registrert tidsattributt for trafikkinnholdsenheter, idet den registrerte tidsattributt er én eller flere av de følgende, nemlig dannelsestidspunktet for en trafikkinnholdsenhet, den siste gang en trafikkinnholdsenhet ble modifisert, tidspunktet for den første observasjon av en gitt trafikkinnholdsenhet ved et aksesspunkt og tidspunktet for en siste observasjon av en gitt trafikkinnholdsenhet ved aksesspunktet.
13. Fremgangsmåte i henhold til krav 1, karakterisert ved at trinnet for å søke og gjenfinne informasjon innbefatter et undertrinn for relevansrangering avhengig av aksesstelling av individuelle trafikkinnholdsenheter gjennom et aksesspunkt.
14. Fremgangsmåte i henhold til krav 1, hvor trinnet for å søke og gjenfinne informasjon implementeres av minst én samarbeidende søkemotor, karakterisert ved at nevnte trinn innbefatter undertrinn for å sende søkeanmodninger til den minst ene samarbeidende søkemotor, å innsamle søkeresultateter fra den minst ene samarbeidende søkemotor, og å kombinere de innsamlede søkeresultater for å skaffe et enhetlig resultat for en initial søkeanmodning.
15. Fremgangsmåte i henhold til krav 14, hvor den samarbeidende søkemotor er en internettsøkemotor, karakterisert ved å indeksere informasjon som er crawlet fra Internett med søkemotoren,
16. Fremgangsmåte i henhold til krav 14, hvor trinnet for å søke og gjenfinne informasjon implementeres av mer enn én samarbeidende søkemotor, karakterisert ved å anordne en søkemotor i henholdsvis minst ett aksesspunkt i datanettverket.
17. Fremgangsmåte i henhold til krav 1, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å detektere etterspurt informasjon som var utilgjengelig, og å benytte informasjon om den utilgjengelige informasjon for enten å fjerne eller redusere rangeringen av en forbundet innførsel i en søkeindeks, spesielt en samarbeidende søkeindeks.
18. Fremgangsmåte i henhold til krav 1, hvor trinnet for å søke og gjenfinne informasjon implementeres av minst én samarbeidende søkemotor, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å detektere ny eller oppdatert informasjon som ikke tidligere er blitt observert ved et aksesspunkt, og å benytte informasjonen om den nye og oppdaterte informasjon til å utbygge en søkeindeks i den minst ene samarbeidende søkemotor.
19. Fremgangsmåte i henhold til krav 1, karakterisert ved at det valgfrie trinn for å stedskode dokumenter innbefatter undertrinn for å innsamle dokumentidentifikatorer for etterspurte dokumenter, å annotere dokumentidentifikatorene med romlig informasjon om brukere som inngir anmodningene, å beregne aksesstatistikk for minst ett dokument, idet aksesstatistikken innbefatter minst antall dokumentanmodninger fra et romlig område og det totale antall anmodninger fra det romlige område, og å bestemme hvilke dokumenter som er mest spesifikke for et gitt romlig område ved å sammenligne aksesstatistikken for det gitte romlige område med tilsvarende aksesstatistikk for minst ett annet romlig område.
20. Fremgangsmåte i henhold til krav 19, karakterisert ved å utlede den romlige informasjon fra brukerdata registrert av et Internett-tjenesteleverandør.
21. Fremgangsmåte i henhold til krav 19, karakterisert ved å utlede den romlige informasjon fra stedet for mobilinnretning som etterspør om et dokument.
22. Fremgangsmåte i henhold til krav 19, karakterisert ved å velge en romlig granularitet slik at et tilstrekkelige antall brukere fås innenfor hvert romlige område for å sikre at individuelle brukere ikke kan identifiseres i aksesstatistikken.
23. Fremgangsmåte i henhold til krav 19, karakterisert ved å bestemme dokumentspesifisiteten ved å beregne sannsynligheten for at aksesstatistikken for minst to romlige områder tilhører samme statistiske fordeling.
24. Fremgangsmåte i henhold til krav 19, karakterisert ved å bestemme dokumentspesifisiteten ved å bestemme et stort romlig område som statistikk for en nullhypotese, og å beregne en statistisk signifikans av en differansetest på aksesstatistikken for et gitt romlig område.
25. Fremgangsmåte i henhold til krav 23, karakterisert ved å benytte en områdespesifikk skåring for å skaffe stedssensitiv rangering av søkeresultater.
26. Fremgangsmåte i henhold til krav 24, karaktterisert ved å benytte en områdespesifikk skåring for å skaffe trafikkavhengige lister over populære områdespesifikke dokumenter.
27. Fremgangsmåte i henhold til krav 26, karakterisert ved å dele dokumentlistene i kategoriunderlister ved automatisk kategorianalyse av dokumentinnholdet.
28. Fremgangsmåte i henhold til krav 1, karakterisert ved at det valgfrie trinn for å måle likheten til dokumenter innbefatter undertrinn for å innsamle dokumentidentifikatorer for de etterspurte dokumenter, å annotere dokumentanmodningene slik at påfølgende anmodninger fra den samme bruker kan identifiseres, og å beregne en dokumentlikhet mellom et dokument "b" og et referansedokument "a" ved å sammenligne antallet "b"-anmodninger i nærheten av "a"-anmodninger med en midlere frekvens av "b"-anmodninger.
29. Fremgangsmåte i henhold til krav 28, karakterisert ved å benytte likhetsmåling for å skaffe en rangert liste av like dokumenter basert på enhver gitt dokumentinngang.
30. Fremgangsmåte i henhold til krav 29, karakterisert ved å beregne rangeringslisten ved å utelate dokumenter fra det samme sted som inngangsdokumentet.
31. Fremgangsmåte i henhold til krav 28, karakterisert ved å kombinere likhetsmåling enten med en likhetsmåling basert på dokumentinnhold eller med likhetsmålinger basert på telling av antall samsiteringer.
32. Fremgangsmåte i henhold til krav 28, karakterisert ved å beregne likhetsmålingen for en gruppe av dokumentidentifikatorer ved å behandle alle anmodninger om ett av dokumentene i gruppen som en etterspørsel om "a"-dokumentet.
33. Fremgangsmåte i henhold til krav 32, karakterisert ved å benytte en undermengde av en brukers weblogg som gruppen av dokumentidentifikatorer.
34. Fremgangsmåte i henhold til krav 33, karakterisert ved å benytte gruppen av dokumentidentifikatorer som et uttrykk for brukerpreferanser, og å danne en personalisert rangering av søkeresultater basert på likhetsmålingen.
35. Fremgangsmåte i henhold til krav 33, karakterisert ved å beregne dokumentrangeringen på basis av en lenketopologi-analyse, idet likhetsmålingen benyttes til å definere en lenketopologi og forbundne vekter.
36. Fremgangsmåte i henhold til krav 1, karakterisert ved at det valgfrie trinn for å alarmere omfatter undertrinn for å innsamle i sanntid informasjon utledet fra datastrømmen ved et aksesspunkt i datanettverket, å detektere ny og/eller oppdatert informasjon som ikke tidligere er blitt observert ved aksesspunktet, å sammenligne den nye og/eller oppdaterte informasjon med et sett av brukerprofiler, og å sende alarmmeldinger til brukere forbundet med brukerprofiler som er trigget av den nye og/eller oppdaterte informasjon.
NO20004595A 2000-09-14 2000-09-14 Fremgangsmate til soking og analyse av informasjon i datanettverk NO313399B1 (no)

Priority Applications (18)

Application Number Priority Date Filing Date Title
NO20004595A NO313399B1 (no) 2000-09-14 2000-09-14 Fremgangsmate til soking og analyse av informasjon i datanettverk
DE60126798T DE60126798T2 (de) 2000-09-14 2001-09-11 Verfahren zum durchsuchen und analysieren von informationen in datennetzen
AT01970362T ATE354831T1 (de) 2000-09-14 2001-09-11 Verfahren zum durchsuchen und analysieren von informationen in datennetzen
PL36071401A PL360714A1 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
HU0301788A HUP0301788A2 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
CA2420382A CA2420382C (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
CNB018156568A CN1279475C (zh) 2000-09-14 2001-09-11 用于在数据网络中搜索和分析信息的方法
KR10-2003-7003774A KR100514149B1 (ko) 2000-09-14 2001-09-11 데이터 네트워크의 정보 검색 및 분석 방법
IL15449201A IL154492A0 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
BRPI0113882A BRPI0113882B1 (pt) 2000-09-14 2001-09-11 método para buscar e analisar o conteúdo de tráfego em pontos de acesso em redes de dados
PCT/NO2001/000371 WO2002023398A1 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
AU9036301A AU9036301A (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
CZ2003510A CZ2003510A3 (cs) 2000-09-14 2001-09-11 Způsob vyhledávání a analyzování informací v datových sítích
AU2001290363A AU2001290363B2 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
EP01970362A EP1325434B1 (en) 2000-09-14 2001-09-11 A method for searching and analysing information in data networks
JP2002527976A JP2004509415A (ja) 2000-09-14 2001-09-11 データ・ネットワークにおいて情報を検索および分析する方法
US09/950,883 US7093012B2 (en) 2000-09-14 2001-09-13 System and method for enhancing crawling by extracting requests for webpages in an information flow
IS6735A IS6735A (is) 2000-09-14 2003-03-03 Aðferð til að leita að og greina upplýsingar í gagnaflutningsnetum

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20004595A NO313399B1 (no) 2000-09-14 2000-09-14 Fremgangsmate til soking og analyse av informasjon i datanettverk

Publications (3)

Publication Number Publication Date
NO20004595D0 NO20004595D0 (no) 2000-09-14
NO20004595L NO20004595L (no) 2002-03-15
NO313399B1 true NO313399B1 (no) 2002-09-23

Family

ID=19911580

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20004595A NO313399B1 (no) 2000-09-14 2000-09-14 Fremgangsmate til soking og analyse av informasjon i datanettverk

Country Status (17)

Country Link
US (1) US7093012B2 (no)
EP (1) EP1325434B1 (no)
JP (1) JP2004509415A (no)
KR (1) KR100514149B1 (no)
CN (1) CN1279475C (no)
AT (1) ATE354831T1 (no)
AU (2) AU2001290363B2 (no)
BR (1) BRPI0113882B1 (no)
CA (1) CA2420382C (no)
CZ (1) CZ2003510A3 (no)
DE (1) DE60126798T2 (no)
HU (1) HUP0301788A2 (no)
IL (1) IL154492A0 (no)
IS (1) IS6735A (no)
NO (1) NO313399B1 (no)
PL (1) PL360714A1 (no)
WO (1) WO2002023398A1 (no)

Families Citing this family (217)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271316B2 (en) * 1999-12-17 2012-09-18 Buzzmetrics Ltd Consumer to business data capturing system
US8775197B2 (en) * 2000-02-24 2014-07-08 Webmd, Llc Personalized health history system with accommodation for consumer health terminology
US7197470B1 (en) * 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
NO315887B1 (no) * 2001-01-04 2003-11-03 Fast Search & Transfer As Fremgangsmater ved overforing og soking av videoinformasjon
US7398271B1 (en) * 2001-04-16 2008-07-08 Yahoo! Inc. Using network traffic logs for search enhancement
US20030061206A1 (en) * 2001-09-27 2003-03-27 Richard Qian Personalized content delivery and media consumption
JP4283466B2 (ja) * 2001-10-12 2009-06-24 富士通株式会社 リンク関係に基づく文書整理方法
US20080256069A1 (en) * 2002-09-09 2008-10-16 Jeffrey Scott Eder Complete Context(tm) Query System
US7249312B2 (en) * 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
US8090717B1 (en) * 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US7568148B1 (en) 2002-09-20 2009-07-28 Google Inc. Methods and apparatus for clustering news content
US20050076233A1 (en) * 2002-11-15 2005-04-07 Nokia Corporation Method and apparatus for transmitting data subject to privacy restrictions
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
US8095500B2 (en) * 2003-06-13 2012-01-10 Brilliant Digital Entertainment, Inc. Methods and systems for searching content in distributed computing networks
US7346839B2 (en) 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7467131B1 (en) * 2003-09-30 2008-12-16 Google Inc. Method and system for query data caching and optimization in a search engine system
EP1777633A3 (en) * 2003-09-30 2007-12-12 Google, Inc. Document scoring based on query analysis
US7797316B2 (en) 2003-09-30 2010-09-14 Google Inc. Systems and methods for determining document freshness
US7774499B1 (en) * 2003-10-30 2010-08-10 United Online, Inc. Accelerating network communications
US7240064B2 (en) * 2003-11-10 2007-07-03 Overture Services, Inc. Search engine with hierarchically stored indices
FR2862460A1 (fr) * 2003-11-14 2005-05-20 Canon Kk Procede d'acces a un document numerique dans un reseau de communication
US7647378B2 (en) * 2003-11-17 2010-01-12 International Business Machines Corporation Personnel search enhancement for collaborative computing
JP2005165750A (ja) * 2003-12-03 2005-06-23 Ricoh Co Ltd Webサーバ機能を有する組み込み機器
US8548170B2 (en) 2003-12-10 2013-10-01 Mcafee, Inc. Document de-registration
US7774604B2 (en) * 2003-12-10 2010-08-10 Mcafee, Inc. Verifying captured objects before presentation
US7814327B2 (en) * 2003-12-10 2010-10-12 Mcafee, Inc. Document registration
US7984175B2 (en) 2003-12-10 2011-07-19 Mcafee, Inc. Method and apparatus for data capture and analysis system
US8656039B2 (en) 2003-12-10 2014-02-18 Mcafee, Inc. Rule parser
US7899828B2 (en) 2003-12-10 2011-03-01 Mcafee, Inc. Tag data structure for maintaining relational data over captured objects
US7930540B2 (en) * 2004-01-22 2011-04-19 Mcafee, Inc. Cryptographic policy enforcement
US7725414B2 (en) 2004-03-16 2010-05-25 Buzzmetrics, Ltd An Israel Corporation Method for developing a classifier for classifying communications
EP1763755A4 (en) 2004-04-30 2010-04-14 Commvault Systems Inc HIERARCHICAL SYSTEMS AND METHODS FOR PROVIDING A UNIFIED VIEW OF STORAGE INFORMATION
US8266406B2 (en) 2004-04-30 2012-09-11 Commvault Systems, Inc. System and method for allocation of organizational resources
US7565445B2 (en) 2004-06-18 2009-07-21 Fortinet, Inc. Systems and methods for categorizing network traffic content
US7836044B2 (en) * 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7962591B2 (en) * 2004-06-23 2011-06-14 Mcafee, Inc. Object classification in a capture system
US8131674B2 (en) * 2004-06-25 2012-03-06 Apple Inc. Methods and systems for managing data
US7693856B2 (en) * 2004-06-25 2010-04-06 Apple Inc. Methods and systems for managing data
US7730012B2 (en) * 2004-06-25 2010-06-01 Apple Inc. Methods and systems for managing data
US7698626B2 (en) * 2004-06-30 2010-04-13 Google Inc. Enhanced document browsing with automatically generated links to relevant information
US9026534B2 (en) * 2004-07-21 2015-05-05 Cisco Technology, Inc. Method and system to collect and search user-selected content
US20060036579A1 (en) * 2004-08-10 2006-02-16 Byrd Stephen A Apparatus, system, and method for associating resources using a time based algorithm
GB2417342A (en) * 2004-08-19 2006-02-22 Fujitsu Serv Ltd Indexing system for a computer file store
KR100605017B1 (ko) * 2004-08-20 2006-07-28 학교법인 울산공업학원 동적 확장이 가능한 알몬 에이전트 시스템
US8560534B2 (en) 2004-08-23 2013-10-15 Mcafee, Inc. Database for a capture system
US8341135B2 (en) * 2004-09-07 2012-12-25 Interman Corporation Information search provision apparatus and information search provision system
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
WO2006039566A2 (en) 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US8464311B2 (en) * 2004-10-28 2013-06-11 International Business Machines Corporation Method and system for implementing privacy notice, consent, and preference with a privacy proxy
US20060106769A1 (en) 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US7584194B2 (en) * 2004-11-22 2009-09-01 Truveo, Inc. Method and apparatus for an application crawler
JP2008521147A (ja) 2004-11-22 2008-06-19 トゥルベオ インコーポレイテッド アプリケーションクローラの方法及び装置
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
CN100458776C (zh) * 2005-01-13 2009-02-04 龙搜(北京)科技有限公司 网络缓存管理的系统和方法
US10210159B2 (en) * 2005-04-21 2019-02-19 Oath Inc. Media object metadata association and ranking
US8732175B2 (en) * 2005-04-21 2014-05-20 Yahoo! Inc. Interestingness ranking of media objects
JP2008539508A (ja) * 2005-04-25 2008-11-13 マイクロソフト コーポレーション 電子文書を使った情報の関連付け
US7769742B1 (en) 2005-05-31 2010-08-03 Google Inc. Web crawler scheduler that utilizes sitemaps from websites
US7801881B1 (en) 2005-05-31 2010-09-21 Google Inc. Sitemap generating client for web crawler
US9158855B2 (en) 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US8086605B2 (en) * 2005-06-28 2011-12-27 Yahoo! Inc. Search engine with augmented relevance ranking by community participation
CN100452921C (zh) 2005-07-08 2009-01-14 华为技术有限公司 实现网络服务提供商发现的方法及相应装置
US20070033229A1 (en) * 2005-08-03 2007-02-08 Ethan Fassett System and method for indexing structured and unstructured audio content
US20070100779A1 (en) * 2005-08-05 2007-05-03 Ori Levy Method and system for extracting web data
US7907608B2 (en) * 2005-08-12 2011-03-15 Mcafee, Inc. High speed packet capture
US20070198486A1 (en) * 2005-08-29 2007-08-23 Daniel Abrams Internet search engine with browser tools
US7818326B2 (en) * 2005-08-31 2010-10-19 Mcafee, Inc. System and method for word indexing in a capture system and querying thereof
US7499919B2 (en) * 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
US7730011B1 (en) 2005-10-19 2010-06-01 Mcafee, Inc. Attributes of captured objects in a capture system
KR100656953B1 (ko) * 2005-10-20 2006-12-14 엔에이치엔(주) 방문 웹사이트 검색 시스템 및 이를 이용한 방문 웹사이트검색 방법
US8849821B2 (en) * 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7657104B2 (en) 2005-11-21 2010-02-02 Mcafee, Inc. Identifying image type in a capture system
KR100695009B1 (ko) * 2005-12-01 2007-03-14 한국전자통신연구원 소프트웨어 기반 프리필터링을 이용한 스트림 데이터 처리시스템 및 그 방법
US7827191B2 (en) * 2005-12-14 2010-11-02 Microsoft Corporation Discovering web-based multimedia using search toolbar data
US8572330B2 (en) 2005-12-19 2013-10-29 Commvault Systems, Inc. Systems and methods for granular resource management in a storage network
US8661216B2 (en) * 2005-12-19 2014-02-25 Commvault Systems, Inc. Systems and methods for migrating components in a hierarchical storage network
US7651593B2 (en) 2005-12-19 2010-01-26 Commvault Systems, Inc. Systems and methods for performing data replication
WO2007075587A2 (en) 2005-12-19 2007-07-05 Commvault Systems, Inc. Systems and methods for performing data replication
US20110010518A1 (en) 2005-12-19 2011-01-13 Srinivas Kavuri Systems and Methods for Migrating Components in a Hierarchical Storage Network
US7606844B2 (en) 2005-12-19 2009-10-20 Commvault Systems, Inc. System and method for performing replication copy storage operations
US7580930B2 (en) * 2005-12-27 2009-08-25 Baynote, Inc. Method and apparatus for predicting destinations in a navigation context based upon observed usage patterns
US7599931B2 (en) * 2006-03-03 2009-10-06 Microsoft Corporation Web forum crawler
US8504537B2 (en) 2006-03-24 2013-08-06 Mcafee, Inc. Signature distribution in a document registration system
US8214360B2 (en) * 2006-04-06 2012-07-03 International Business Machines Corporation Browser context based search disambiguation using existing category taxonomy
US20070239682A1 (en) * 2006-04-06 2007-10-11 Arellanes Paul T System and method for browser context based search disambiguation using a viewed content history
US7958227B2 (en) 2006-05-22 2011-06-07 Mcafee, Inc. Attributes of captured objects in a capture system
US7689614B2 (en) 2006-05-22 2010-03-30 Mcafee, Inc. Query generation for a capture system
CN100456298C (zh) * 2006-07-12 2009-01-28 百度在线网络技术(北京)有限公司 广告信息检索系统及广告信息检索方法
US8726242B2 (en) 2006-07-27 2014-05-13 Commvault Systems, Inc. Systems and methods for continuous data replication
US7728868B2 (en) 2006-08-02 2010-06-01 Inneroptic Technology, Inc. System and method of providing real-time dynamic imagery of a medical procedure site using multiple modalities
US8533226B1 (en) 2006-08-04 2013-09-10 Google Inc. System and method for verifying and revoking ownership rights with respect to a website in a website indexing system
US7930400B1 (en) 2006-08-04 2011-04-19 Google Inc. System and method for managing multiple domain names for a website in a website indexing system
US8775452B2 (en) 2006-09-17 2014-07-08 Nokia Corporation Method, apparatus and computer program product for providing standard real world to virtual world links
US20080071770A1 (en) * 2006-09-18 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US9037581B1 (en) 2006-09-29 2015-05-19 Google Inc. Personalized search result ranking
US7599920B1 (en) * 2006-10-12 2009-10-06 Google Inc. System and method for enabling website owners to manage crawl rate in a website indexing system
US20080147878A1 (en) * 2006-12-15 2008-06-19 Rajiv Kottomtharayil System and methods for granular resource management in a storage network
CN101226619B (zh) * 2007-01-17 2012-11-21 阿里巴巴集团控股有限公司 实现统计邮件中超链接url点击率的系统及方法
US20080215541A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Techniques for searching web forums
US20080235163A1 (en) * 2007-03-22 2008-09-25 Srinivasan Balasubramanian System and method for online duplicate detection and elimination in a web crawler
US8290986B2 (en) * 2007-06-27 2012-10-16 Yahoo! Inc. Determining quality measures for web objects based on searcher behavior
EP2176730A4 (en) * 2007-08-08 2011-04-20 Baynote Inc METHOD AND APPARATUS FOR CONTENT RECOMMENDATION BASED ON CONTEXT
US20090063448A1 (en) * 2007-08-29 2009-03-05 Microsoft Corporation Aggregated Search Results for Local and Remote Services
JP2009064055A (ja) 2007-09-04 2009-03-26 Hitachi Ltd 計算機システム及びセキュリティ管理方法
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US20090150433A1 (en) * 2007-12-07 2009-06-11 Nokia Corporation Method, Apparatus and Computer Program Product for Using Media Content as Awareness Cues
US8347326B2 (en) 2007-12-18 2013-01-01 The Nielsen Company (US) Identifying key media events and modeling causal relationships between key events and reported feelings
US8024285B2 (en) * 2007-12-27 2011-09-20 Microsoft Corporation Determining quality of tier assignments
WO2009094646A2 (en) 2008-01-24 2009-07-30 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for image guided ablation
US8429176B2 (en) * 2008-03-28 2013-04-23 Yahoo! Inc. Extending media annotations using collective knowledge
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8205242B2 (en) 2008-07-10 2012-06-19 Mcafee, Inc. System and method for data mining and security policy management
US8244608B2 (en) * 2008-07-28 2012-08-14 Autodesk, Inc. Takeoff list palette for guiding semi-automatic quantity takeoff from computer aided design drawings
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
CN101667179B (zh) * 2008-09-03 2012-08-15 华为技术有限公司 移动搜索方法及其系统、搜索服务器同步元索引的方法
US8751559B2 (en) 2008-09-16 2014-06-10 Microsoft Corporation Balanced routing of questions to experts
US20100125484A1 (en) * 2008-11-14 2010-05-20 Microsoft Corporation Review summaries for the most relevant features
US9495382B2 (en) 2008-12-10 2016-11-15 Commvault Systems, Inc. Systems and methods for performing discrete data replication
US8204859B2 (en) 2008-12-10 2012-06-19 Commvault Systems, Inc. Systems and methods for managing replicated database data
US8850591B2 (en) 2009-01-13 2014-09-30 Mcafee, Inc. System and method for concept building
US8706709B2 (en) 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
US8001462B1 (en) 2009-01-30 2011-08-16 Google Inc. Updating search engine document index based on calculated age of changed portions in a document
US8690776B2 (en) 2009-02-17 2014-04-08 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image guided surgery
US8641621B2 (en) 2009-02-17 2014-02-04 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures
US11464578B2 (en) 2009-02-17 2022-10-11 Inneroptic Technology, Inc. Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures
US8554307B2 (en) 2010-04-12 2013-10-08 Inneroptic Technology, Inc. Image annotation in image-guided medical procedures
US9195739B2 (en) 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
JP4600700B2 (ja) 2009-03-17 2010-12-15 日本電気株式会社 プログラムのメモリ空間への配置方法、装置、およびプログラム
US8667121B2 (en) 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
US8447722B1 (en) 2009-03-25 2013-05-21 Mcafee, Inc. System and method for data mining and security policy management
US8527658B2 (en) * 2009-04-07 2013-09-03 Verisign, Inc Domain traffic ranking
US9292612B2 (en) 2009-04-22 2016-03-22 Verisign, Inc. Internet profile service
US8103768B2 (en) * 2009-04-14 2012-01-24 At&T Intellectual Property I, Lp Network aware forward caching
US8370504B2 (en) * 2009-07-15 2013-02-05 Verisign, Inc. Method and system for predicting domain name registration renewal probability
US9009296B1 (en) * 2009-08-07 2015-04-14 Google Inc. System and method of determining latency
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US8489390B2 (en) * 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US8468195B1 (en) 2009-09-30 2013-06-18 Cisco Technology, Inc. System and method for controlling an exchange of information in a network environment
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
US8504517B2 (en) 2010-03-29 2013-08-06 Commvault Systems, Inc. Systems and methods for selective data replication
US8725698B2 (en) 2010-03-30 2014-05-13 Commvault Systems, Inc. Stub file prioritization in a data replication system
US8504515B2 (en) 2010-03-30 2013-08-06 Commvault Systems, Inc. Stubbing systems and methods in a data replication environment
US8935274B1 (en) 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
WO2011150391A1 (en) 2010-05-28 2011-12-01 Commvault Systems, Inc. Systems and methods for performing data replication
US8874727B2 (en) 2010-05-31 2014-10-28 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to rank users in an online social network
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8332408B1 (en) 2010-08-23 2012-12-11 Google Inc. Date-based web page annotation
US8806615B2 (en) 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
CN101964000B (zh) * 2010-11-09 2013-05-15 焦点科技股份有限公司 一种敏感词自动过滤管理系统
US20130212615A1 (en) * 2010-11-10 2013-08-15 Thomson Licensing Gateway remote control system and method of operation
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US8667169B2 (en) 2010-12-17 2014-03-04 Cisco Technology, Inc. System and method for providing argument maps based on activity in a network environment
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US9854055B2 (en) 2011-02-28 2017-12-26 Nokia Technologies Oy Method and apparatus for providing proxy-based content discovery and delivery
US8553065B2 (en) 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US8528018B2 (en) 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8620136B1 (en) 2011-04-30 2013-12-31 Cisco Technology, Inc. System and method for media intelligent recording in a network environment
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US20120324538A1 (en) * 2011-06-15 2012-12-20 Cisco Technology, Inc. System and method for discovering videos
US8560509B2 (en) * 2011-07-08 2013-10-15 Microsoft Corporation Incremental computing for web search
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
CN102904765B (zh) * 2011-07-26 2016-01-27 腾讯科技(深圳)有限公司 数据上报的方法及设备
JP5673520B2 (ja) * 2011-12-20 2015-02-18 株式会社Jvcケンウッド 情報処理装置、情報処理方法、及び情報処理プログラム
US8700561B2 (en) 2011-12-27 2014-04-15 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
WO2013116240A1 (en) 2012-01-30 2013-08-08 Inneroptic Technology, Inc. Multiple medical device guidance
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
CN103312523B (zh) * 2012-03-16 2016-02-17 腾讯科技(深圳)有限公司 一种业务提醒消息的推送方法及装置、系统
CA2779235C (en) 2012-06-06 2019-05-07 Ibm Canada Limited - Ibm Canada Limitee Identifying unvisited portions of visited information
US9600351B2 (en) 2012-12-14 2017-03-21 Microsoft Technology Licensing, Llc Inversion-of-control component service models for virtual environments
US10379988B2 (en) 2012-12-21 2019-08-13 Commvault Systems, Inc. Systems and methods for performance monitoring
CN103902449B (zh) * 2012-12-28 2018-05-25 百度在线网络技术(北京)有限公司 一种用于生成搜索引擎相关性排序测试用例的方法与设备
US9049134B2 (en) * 2013-03-08 2015-06-02 Disney Enterprises, Inc. Network condition predictions for multimedia streaming
US10314559B2 (en) 2013-03-14 2019-06-11 Inneroptic Technology, Inc. Medical device guidance
US9916289B2 (en) * 2013-09-10 2018-03-13 Embarcadero Technologies, Inc. Syndication of associations relating data and metadata
US9836765B2 (en) 2014-05-19 2017-12-05 Kibo Software, Inc. System and method for context-aware recommendation through user activity change detection
US9191374B1 (en) * 2014-09-22 2015-11-17 Belkin International Inc. Routing device data caching
US10284299B2 (en) 2014-06-02 2019-05-07 Belkin International, Inc. Optimizing placement of a wireless range extender
US10769176B2 (en) * 2015-06-19 2020-09-08 Richard Chino Method and apparatus for creating and curating user collections for network search
US9832196B2 (en) * 2014-09-15 2017-11-28 Bank Of America Corporation Network monitoring device
US9901406B2 (en) 2014-10-02 2018-02-27 Inneroptic Technology, Inc. Affected region display associated with a medical device
US9160680B1 (en) 2014-11-18 2015-10-13 Kaspersky Lab Zao System and method for dynamic network resource categorization re-assignment
US10188467B2 (en) 2014-12-12 2019-01-29 Inneroptic Technology, Inc. Surgical guidance intersection display
US10616433B2 (en) * 2015-01-27 2020-04-07 Brother Kogyo Kabushiki Kaisha Image processing device
CN106330988B (zh) * 2015-06-16 2020-01-03 阿里巴巴集团控股有限公司 一种超文本传输请求的补发方法、装置及客户端
US10275320B2 (en) 2015-06-26 2019-04-30 Commvault Systems, Inc. Incrementally accumulating in-process performance data and hierarchical reporting thereof for a data stream in a secondary copy operation
US9949700B2 (en) 2015-07-22 2018-04-24 Inneroptic Technology, Inc. Medical device approaches
CN105243124B (zh) 2015-09-29 2018-11-09 百度在线网络技术(北京)有限公司 资源组合处理方法及装置
KR102226721B1 (ko) * 2015-10-21 2021-03-11 에스케이텔레콤 주식회사 데이터 검색 장치 및 방법
US10248494B2 (en) 2015-10-29 2019-04-02 Commvault Systems, Inc. Monitoring, diagnosing, and repairing a management database in a data storage management system
US9535957B1 (en) * 2015-11-24 2017-01-03 International Business Machines Corporation Electronic file management based on user affinity
US9675319B1 (en) 2016-02-17 2017-06-13 Inneroptic Technology, Inc. Loupe display
CN106649468B (zh) * 2016-09-28 2023-04-07 杭州电子科技大学 一种cdn网络内容查询方法及系统
US10278778B2 (en) 2016-10-27 2019-05-07 Inneroptic Technology, Inc. Medical device navigation using a virtual 3D space
CN108228582B (zh) * 2016-12-09 2022-02-18 阿里巴巴集团控股有限公司 一种搜索方法和装置
US11259879B2 (en) 2017-08-01 2022-03-01 Inneroptic Technology, Inc. Selective transparency to assist medical device navigation
US10897447B2 (en) * 2017-11-07 2021-01-19 Verizon Media Inc. Computerized system and method for automatically performing an implicit message search
US10831591B2 (en) 2018-01-11 2020-11-10 Commvault Systems, Inc. Remedial action based on maintaining process awareness in data storage management
US11484365B2 (en) 2018-01-23 2022-11-01 Inneroptic Technology, Inc. Medical image guidance
US20200192572A1 (en) 2018-12-14 2020-06-18 Commvault Systems, Inc. Disk usage growth prediction system
US11468076B2 (en) * 2019-03-20 2022-10-11 Universal Research Solutions, Llc System and method for dynamic data filtering
US10503792B1 (en) 2019-05-10 2019-12-10 Georgetown University Cache optimization via topics in web search engines
US11151167B2 (en) 2019-05-10 2021-10-19 Georgetown University Cache optimization via topics in web search engines
US11042318B2 (en) 2019-07-29 2021-06-22 Commvault Systems, Inc. Block-level data replication
CN111198804B (zh) * 2019-12-30 2023-09-05 中电工业互联网有限公司 基于网关的工业互联网平台第三方微服务监控预警方法
US11327947B1 (en) 2021-01-04 2022-05-10 Bank Of America Corporation System for identifying, tagging, and monitoring data flow in a system environment
US11809285B2 (en) 2022-02-09 2023-11-07 Commvault Systems, Inc. Protecting a management database of a data storage management system to meet a recovery point objective (RPO)
CN114553541B (zh) * 2022-02-17 2024-02-06 苏州良医汇网络科技有限公司 一种分级校验防爬虫的方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5557748A (en) * 1995-02-03 1996-09-17 Intel Corporation Dynamic network configuration
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5855020A (en) * 1996-02-21 1998-12-29 Infoseek Corporation Web scan process
US6038668A (en) * 1997-09-08 2000-03-14 Science Applications International Corporation System, method, and medium for retrieving, organizing, and utilizing networked data
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6163778A (en) * 1998-02-06 2000-12-19 Sun Microsystems, Inc. Probabilistic web link viability marker and web page ratings
US6292475B1 (en) * 1998-07-08 2001-09-18 Motorola, Inc. Flow initiated burst mode communication for wireless communication network systems and method
US6219676B1 (en) * 1999-03-29 2001-04-17 Novell, Inc. Methodology for cache coherency of web server data
US6253198B1 (en) * 1999-05-11 2001-06-26 Search Mechanics, Inc. Process for maintaining ongoing registration for pages on a given search engine
US6430595B1 (en) * 1999-05-20 2002-08-06 Cisco Technology, Inc. Method and apparatus for establishing a database used for correlating information gathered via SNMP
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model

Also Published As

Publication number Publication date
CZ2003510A3 (cs) 2003-08-13
IL154492A0 (en) 2003-09-17
EP1325434B1 (en) 2007-02-21
AU2001290363B2 (en) 2006-02-02
BRPI0113882B1 (pt) 2016-05-10
IS6735A (is) 2003-03-03
AU9036301A (en) 2002-03-26
DE60126798D1 (de) 2007-04-05
CN1459064A (zh) 2003-11-26
CN1279475C (zh) 2006-10-11
CA2420382C (en) 2011-04-19
EP1325434A1 (en) 2003-07-09
HUP0301788A2 (en) 2003-08-28
US7093012B2 (en) 2006-08-15
NO20004595D0 (no) 2000-09-14
CA2420382A1 (en) 2002-03-21
KR100514149B1 (ko) 2005-09-13
US20020032772A1 (en) 2002-03-14
NO20004595L (no) 2002-03-15
WO2002023398A1 (en) 2002-03-21
PL360714A1 (en) 2004-09-20
BR0113882A (pt) 2003-07-15
JP2004509415A (ja) 2004-03-25
KR20030048045A (ko) 2003-06-18
ATE354831T1 (de) 2007-03-15
DE60126798T2 (de) 2007-10-31

Similar Documents

Publication Publication Date Title
NO313399B1 (no) Fremgangsmate til soking og analyse av informasjon i datanettverk
AU2001290363A1 (en) A method for searching and analysing information in data networks
JP4025379B2 (ja) 検索システム
US7627568B2 (en) Method and system for updating a search engine database based on popularity of links
US8572100B2 (en) Method and system for recording search trails across one or more search engines in a communications network
US7594011B2 (en) Network traffic monitoring for search popularity analysis
US9348918B2 (en) Searching content in distributed computing networks
US8346753B2 (en) System and method for searching for internet-accessible content
JP3990115B2 (ja) サーバ側プロキシ装置及びプログラム
US9380022B2 (en) System and method for managing content variations in a content deliver cache
JP2007526537A (ja) 持続的にイベントデータを記憶および提供するためのサーバアーキテクチャおよび方法
CN101551813A (zh) 网络连接设备、搜索设备及搜集搜索引擎数据源的方法
US7249219B1 (en) Method and apparatus to improve buffer cache hit rate
US20040205049A1 (en) Methods and apparatus for user-centered web crawling
NO20013308L (no) Apparat for söking på Internett
Ferreira et al. Plethora: An efficient wide-area storage system
AU2004313991B2 (en) Method and system for recording search trails across one or more search engines in a communications network
Simon Workload characterization in decentralized networks
Gupta et al. A review on efficient web crawling
Rahman et al. Forming, Validation, Verification and Updation of Web Client Clusters Using Prefetching and Socket Clones Methods

Legal Events

Date Code Title Description
CREP Change of representative

Representative=s name: ZACCO NORWAY AS, POSTBOKS 2003 VIKA, 0125 OSLO, NO