NO313399B1

NO313399B1 - Fremgangsmate til soking og analyse av informasjon i datanettverk

Info

Publication number: NO313399B1
Application number: NO20004595A
Authority: NO
Inventors: Knut Magne Risvik; Bjoern Olstad
Original assignee: Fast Search & Transfer Asa
Priority date: 2000-09-14
Filing date: 2000-09-14
Publication date: 2002-09-23
Also published as: CZ2003510A3; IL154492A0; EP1325434B1; AU2001290363B2; BRPI0113882B1; IS6735A; AU9036301A; DE60126798D1; CN1459064A; CN1279475C; CA2420382C; EP1325434A1; HUP0301788A2; US7093012B2; NO20004595D0; CA2420382A1; KR100514149B1; US20020032772A1; NO20004595L; WO2002023398A1

Description

Oppfinnelsen angår en fremgangsmåte til søking og analyse av trafikkinnholdet ved aksesspunkter i datanettverk, hvor datanettverkene er delte nettverkressurser, spesielt det fullstendige Internett eller intranett, hvor aksesspunktene spesielt er Internett-aksesspunkter for brukere betjent av en Internett-tjenesteleverandør eller fordelt i form av en applikasjon til en rekke brukere eller et forbindelsespunkt for trådløse brukere, hvor forbindelsespunktet enten er et naturlig forbindelsespunkt eller en internettport for multiple forbindelsespunkter.

Oppfinnelsen angår spesielt informasjonsgjenfinningsmetoder og -systemer. Mer bestemt angår den foreliggende oppfinnelse

informasjonsgjenfinningsmetoder og -systemer som aksesserer informasjon på Internett og Intranett gjennom trådbundne eller trådløse grensesnitt. Enda mer bestemt angår oppfinnelsen intranett og internettbaserte søkemotorer og alarmtjenester.

Elektronisk informasjonsressurser vokser hurtig både på Internett og intranett. Denne type elektronisk informasjon fortrenger i økende grad mer konvensjonelle informasjonskilder så som aviser, blader og til og med fjernsyn. Størrelsen på disse informasjonsdatabasene vokser for tiden nesten eksponensielt.

Den relevante teknikkens stand kan finnes i de følgende publikasjoner:

S. Brin og L. Page, The anatomy of a large-scale hypertextual web search engine, Proceedings of the 7th International World Wide Web Conference, pp. 107-117, Brisbane, Australia, april 1998 (Elsevier Science);

J.M. Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of ACM- SIAM Symposium on Discrete Algorithms, pp. 668-677, januar 1998; og D. Gibson, J. M. Kleinberg, og P. Raghavan, Inferring Web communities from link topology, Hypertext, pp. 225-234, Pittsburgh,PA, juni 1998.

En protokol så som Hypertext transfer protocol (http), File transfer protocol (ftp) eller Wireless application protocol (wap) blir ofte benyttet til å overføre innholdet mellom innholdslevereandører og klienter. Søkemotorteknologier er blitt utviklet både for Internett- og intranettapplikasjoner. For tiden er disse søkemotorer enten basert på automatisk crawling av websider og ytterligere online-innhold fra tilgjengelige tjenere.

Typisk blir et sett av frøsider (seed pages) benyttet til å initiere crawlingen. I en annen fase henter også crawleren (nedsamleren) dokumenter som det er henvist til i en av de initiale frøsider. Denne prosessen fortsetter så lenge som crawleren oppdager nye, ubesøkte dokumenthenvisninger i en av de hentede dokumenter. Webdokumenter er ofte formatert i Hypertext Markup Language (HTML). En dokumenthenvisning er i dette tilfellet en typisk HTML hyperlenke til en annen webside. Websiden selv er vanligvis spesifisert av en adresse så som Universal Resource Locator (URL).

For tiden arbeider søkemotorer i to faser. Først blir en crawler benyttet til å samle sammen en dokumentdatabase. Straks dokumentene er blitt samlet inn, blir de forhåndsbehandlet og indeksert for å gjøre dem tilgjengelig for søking. Dokumentinnsamlingsprinsippet for en crawler lider av følgende begrensninger og ulemper som påvirker kvaliteten til den etterfølgende søking: • Crawleren vil bare få aksess til dokumenter i den transitive lukning av valgte frøsider basert på dokumenthenvisninger. - En crawler vil f.eks. aldri besøke et dokument som mangler henvisningsdokumenter. Også dokumenter som har henvisende dokumenter kan bli ubesøkt av crawleren, avhengig av lenketopologien og de valgte frøsider. • Crawlere blir begrenset til forholdsvis sjeldent å besøke en gitt tjener. - Typisk må crawleren vente 30 s eller lenger mellom to aksesser til samme tjener. Denne begrensningen skyldes robotregler som er lansert for å beskytte tjenerne fra å overbelastes med automatiske etterspørsler. Kontinuerlig crawling av et gitt sted vil derfor bli begrenset til omtrent 3000 dokumenter pr. dag. Det eksisterer en rekke store steder med så mange dokumenter at det i praksis er umulig å laste ned eller indeksere hele innholdet med crawleprinsippene i henhold til kjent teknikk. Til og med moderate steder utgjør det et stort problem med hensyn til friskhet hva crawleprinsipper i henhold til kjent teknikk angår. Et sted med 90 000 dokumenter vil f.eks. kreve crawling i en måned for en fullstendig oppdatering. • Prinsipper for crawling kjent i teknikken er ikke velegnet for å garantere friskheten til de innsamlede dokumenter. - Crawlerestriksjoner gjør fullstendige stedsoppdateringer i en søkemotor umulig for noen steder og de vil kunne ta uker eller

måneder for andre. Steder med mindre enn 3000 dokumenter kan daglig oppdateres fullstendig. Mangel på friskhet er en alvorlig begrensning av potensialet til søkemotorer. Det eksisterer et stort marked for dagsaviser, men markedet for lesing eller til og med søking av gamle aviser er praktisk talt ikke-eksisterende. Tilsvarende skulle det forventes at det er av generell interesse å ha adgang til søke- og alarmtjenester for webinnhold som nylig er blitt oppdatert. • Kjente prinsipper for crawling er ikke i stand til å gjenfinne dynamiske objekter. - Dynamiske objekter er objekter som typisk krever parametre som er sendt sammen med http-anmodningen. En bruker kan f.eks. gjøre noen få valg i dialogbokser, sjekkbokser etc. og laste ned en side som ikke er lagret permanent som en html-fil, men i stedet generert automatisk basert på brukervalgene. Gjetning av alle mulige parameterinnstillinger er praktisk talt umulig for en crawler og dynamiske objekter kan derfor for tiden ikke aksesseres gjennom internettsøkemotorer. Weben er på den annen side mer og mer dominert av dynamisk innhold både uttrykt ved antall sider og uttrykt ved verdien av informasjonen eller tjenesten. • Dokumentdatabasene for både Internett og mange intranett vokser nesten eksponensielt. Imidlertid er avspørringskompleksiteten forblitt nesten uforandret. Antall dokumenter som svarer til en gitt avspørring vokser derfor nesten ekponensielt. Relevansutfordringen for søkemotorer blir derfor mer og mer viktig. Kjente teknikker for crawling tillater analyse av lenketopologien mellom dokumenter, og forskjellige teknikker for å tilordne dokumentprioritet basert på denne topologien er blitt foreslått. Lenketopologi er på den annen side ikke en tilstrekkelig kilde for relevansen til viktige dokumentklasser så som dynamiske objekter, nye dokumenter, binære filer og trådløse sider så som sider skrevet i Wireless Markup Language (WML). Alle disse eksemplene har ingen eller forholdsvis få lenker som kan benyttes til en lenketopologianalyse.

Alarmtjenester (alert services) er beskrevet i kjent teknikk og virker på samme måte som en søkemotor. En alarmtjeneste vil typisk være i stand til å ta en søkemotoravspørring og sjekke en strøm av ny informasjon mot avspørringen. En bruker kan f.eks. søke historiske data på en søkemotor og benytte avspørringen som trigger i en alarmtjeneste som anvender avspørringen på en strøm av nye dokumenter.

På grunn av svakheter og ulemper i kjent teknikk som omtalt ovenfor, eksisterer det et presserende behov for å forbedre

dokumentinnsamlingsprosessen i søke- og alarmtjenester. En primær hensikt med den foreliggende oppfinnelse er derfor å skaffe en fremgangsmåte som vil tillate en økning i det totale antall dokumenter som kan samles inn og skaffe en økning i andelen av dokumenter som kan samles inn fra store steder, så vel som å forbedre friskheten til dokumenter uttrykt ved forsinkelsen mellom den siste dokumentoppdatering og dokumentets dannelse og tidspunktet når det kan søkes i en søketjeneste, i tillegg til å tillate deteksjon av dokumenter som er blitt ugyldige (døde lenker) og innsamling av dynamiske objekter.

Det er en annen hensikt med oppfinnelsen å utnytte den forbedrede kilde med nylig oppdaterte dokumenter til å skaffe alarmtjenester ved å sjekke hvorvidt et nytt dokument motsvarer triggerne definert av brukerne av alarmtjenesten.

Det er nok en annen hensikt med oppfinnelsen å la relevansen eller rangeringskriteriet i søkemotoren baseres på dokumentets alder. Dette er spesielt viktig da oppfinnelsen beskriver forbedrede dokumentinnsamlingsprinsipper som eksempelvis vil tillate brukeren å søke i nye webdokumenter som er dannet eller oppdatert de siste 10 minutter, den siste time eller den siste dag.

Det er ytterligere en hensikt med oppfinnelsen å benytte anmodningsstatistikken ved aksesspunktene i datanettverkene til å skaffe forbedret relevans i søke- og alarmtjenester.

Det er nok en ytterligere hensikt med oppfinnelsen å frembringe en stedsspesifikk dokumentrangering ved å benytte anmodningsstatistikk fra brukere i et romlig naboskap.

Endelig er det også en hensikt med oppfinnelsen å benytte temporal nærhet i anmodningsstatistikken til å definere grader av likhet mellom dokumenter.

De ovennevnte hensikter og andre trekk og fordeler oppnås i henhold til den foreliggende oppfinnelse med en fremgangsmåte som er kjennetegnet ved at den omfatter trinn for å innsamle informasjon i form av data utledet av informasjonsflyten ved aksesspunktene i datanettverket, å indeksere den innsamlede informasjon med en forhåndsdefinert maksimum tidsforsinkelse, og å søke og gjenfinne informasjon fra den indekserte informasjon, og dessuten valgfrie trinn basert på en analyse av trafikkinnholdet ved aksesspunkter for å stedskode innsamlet informasjon i form av dokumenter, å måle likheten av dokumentene, og å alarmere brukere med hensyn til ny og oppdatert informasjon.

Ytterligere trekk og fordeler ved den foreliggende oppfinnelse er vist i de vedføyde uselvstendige krav 2-36.

Oppfinnelsen selv, så vel som utførelser derav, vil forståes bedre med henvisning til den etterfølgende detaljerte beskrivelse av foretrukkede og eksemplifiserende utførelser når den leses i samband med den ledsagende tegning, hvor

fig. 1 viser klientforbindelsen til Internett gjennom en

Internett-tjenesteleverandør (ISP),

fig. 2 en stedfortredende (proxy) tjener i ISP for bufferlagring av webinnholdet,

fig. 3a en stedfortredende tjener som kommuniserer med et eksternt søkeminne (search cache),

fig. 3b fordelt trafikkcrawling fra klientprogramvare,

fig. 4 en mulig organisasjon av søkeminnet,

fig. 5 hvordan innholdet av søkeminnet kan omformes til en søkeindeks,

fig. 6 konfigurasjoner av en søketjeneste som benytter søkeminneindeksen,

fig. 7 det temporale nærhetsprinsipp for å definere dokumentlikhet, og fig. 8 en mulig definisjon av en vektfunksjon som definerer temporal nærhet.

Før en detaljert omtale av foretrukkede utførelser gis, skal den generelle

. bakgrunn for den foreliggende oppfinnelse kort omtales for å lette forståelsen av den sistnevnte.

Internettbrukere blir ofte forbundet til nettet ved såkalte Internett-tjenesteleverandører (ISP). Fig. 1 viser hvordan klienter forbindes via en ISP 12 til forskjellige webtjenere. ISP 12 leier båndbredde fra en hovedleverandør for Internett og tilbyr sluttbrukere 11 en "andel" i grensesnittets 10 båndbredde basert på en tidsdelingsmodell. Aksessene fra sluttbrukerne 11 blir på denne måten rutet gjennom ISP 12 til weben 13 med de individuelle tjenere 14 som verter for dokumenter 15 og multimediainnhold 16. Den samme modell gjelder også for trådløse brukere, enten gjennom naturlige koblingspunkter eller gjennom internettporter for multiple koblingspunkter. Søkemotorer i kjent teknikk er blitt basert på automatisk crawling med crawleren 17 fra webtj enerne 14 og strukturering av denne informasjon i en søkeindeks 18 som gjøres tilgjengelig for søking. Resultatet fra søkene skaffer referanse tilbake til de originale dokumenter 15,16 på weben 13.

Et felles begrep i datasystemer er bufringssystemer (caching systems). I SPene benytter ofte et webbufferminne ved sine

båndbreddefordelingsenheter. Dette bufferminne reduserer båndbreddebruken på hovednettet, samtidig som sluttbrukerne vil oppleve lavere latensiteter. Webbufferminner blir ofte benyttet gjennom stedfortredende tjenere. Stedfortredende tjenere kan være gjennomsiktige eller ugjennomsiktige. En rekke bufringsmekanismer og stedfortredende tjenere forekommer i kjent teknikk. Et eksempel er Squid ( www. squid- cache. org), som er en fri programvareversjon av en webstedfortreder.

Fig. 2 viser hvordan en stedfortredende tjener 21 kan ha en intern samling av dokumenter eller objekter 22. Brukeranmodninger om disse objektene blir betjent lokalt ved linje 23 for å redusere de ved linje 24 eksterne båndbreddekrav fra ISP 12. Brukerne 11 vil også oppleve redusert latensitet når et bufret dokument eller objekt aksesseres. Utløpsregler defineres for de individuelle objekter for å sikre at en kopi i bufferminnet faktisk gjenspeiler det opprinnelige objekt.

Begrepet til såkalt trafikkcrawling og dets egenskaper skal nå omtales.

Det fullstendige sett av brukere forbundet til Internett gjennom en ISP vil samlet virke som en stor crawler av informasjon fra weben. For den resterende del av beskrivelsen vil denne totale informasjonsinnsamling på en ISP eller et lignende koblingspunkt eller port bli betegnet som trafikkcrawler. Denne "menneskelige" trafikkcrawler har en rekke egenskaper som er meget forskjellige fra en automatisk programvarecrawler:

• Trafikkcrawleren vil ikke ha de samme begrensninger som en programvarecrawler uttrykk ved frøsider og lenketopologi for å få aksess til dokumentene. • Trafikkcrawleren vil ikke bli hemmet av aksessbegrensninger til et gitt sted av den art som en programvarecrawler utsettes for. Trafikkcrawleren kan derfor potensielt crawle store steder meget hurtigere og mer fullstendig. • En programvarecrawler vil tilbringe mye av sin tid med ganske enkelt å laste ned dokumenter som den har besøkt tidligere og å sjekke om disse sidene er blitt oppdatert siden siste nedlasting. Trafikkcrawleren kan sjekke innholdet som gjenfinnes av ISP for brukeranmodninger med tanke på å duplisere testing mot tidligere kopier av det tilsvarende dokument. Det er derfor ikke nødvendig med ytterligere informasjonsnedlasting. • Trafikkcrawleren kan forbedre friskheten i forhold til en programvarecrawler på to måter: o Trafikkcrawleren detekterer manglende eller temporært utilgjengelige dokumenter. Deteksjonen kan typisk utføres ved å registrere når en http-anmodning til en gitt URL resulterer i en feilmelding slik som feil nummer 404. Disse feilslåtte anmodninger kunne benyttes i den tilhørende søketjeneste ved enten å fjerne de forbundne URL eller tilordne en lavere rangeringverdi til URLen for å sortere dokumentene i resultatlistene frembrakt av søkemotoren.

o Trafikkcrawleren kan potensielt analysere et nytt eller oppdatert dokument straks en av de forbundne ISP-klienter har lastet ned dokumentet. F.eks. kunne en ny pressemelding på denne måte gjøres søkbar straks en av ISP-klientene hadde lest artikkelen.

ISP-brukerne vil aksessere dynamiske sider og innholdet av disse sider kan derfor også gjøres søkbart. Det kan ofte være praktisk talt uendelig antall parameterkombinasjoner som kan benyttes til å generere en dynamisk side. De parameterkombinasjoner som virkelig benyttes i anmodningen, er derfor et meget rimelig valg for å definere mengden av dynamiske sider som skal gjøres søkbare. Dette er eksakt den samme mengde av dynamiske sider som trafikkcrawleren potensielt kan indeksere for etterfølgende søking.

Aksessmønsteret for ISP-brukere kan også benyttes til å forbedre relevansen i den tilknyttede søkeindeks. Steder som hyppig besøkes, kan bli rangert foran steder som sjelden besøkes. Slik aksesstelling kunne potensielt også utføres av søkemotoren selv ved å omdirigere brukervalgene i resultatlistene, men det er langt mer verdifullt å basere relevansberegning på det totale aksessmønster og ikke bare på aksessmønteret som følger som et resultat av søkene.

Implementeringen og utførelsen av trafikkcrawling skal nå diskuteres basert på henholdsvis et sentralisert og et desentralisert crawleopplegg.

Sentralisert trafikkcrawling

Det finnes en rekke måter å implementere en trafikkcrawler på basert på trafikken ved et aksesspunkt i datanettverk. Den foreliggende oppfinnelse vil angi en rekke mulig utførelser, og det vil derfor være innlysende for fagfolk hvordan forskjellige utførelsesvalg kan benyttes til å realisere de samme fordeler. Eksemplene som er vist i foreliggende oppfinnelse, vil benytte trafikken ved en ISP og indeksering av webdokumenter som eksempel, men det vil være innlysende for fagfolk at de samme prinsipper kan benyttes i lignende situasjoner så som intranettrafikk eller trådløse forbindelsespunkter.

Den virkelige aksess til dokumenter eller objekter som går gjennom en ISP kan realiseres på forskjellige måter. Et alternativ er å utnytte bufferlagringsmekanismene benyttet av ISP. Innholdet av et bufferminne kan enten periodisk indekseres for søking og alarmering eller søkeindeksen kunne bygges ut trinnvis hver gang et nytt dokument eller objekt lagres i webbufferminnet. Begrensningen ved denne metode er at de nåværende webbufferminner er utført for å redusere de eksterne båndbreddekrav til ISPen. Båndbreddemålsettingen bestemmer i høy grad hva slags objekter som holdes i webbufferminnet. Typisk vil en stor andel av webbufferminnet bestå av hyppig aksesserte multimediaobj ekter. En rekke av de mest interessante tekstsider for indeksering vil også ha definert et utløpsmerke som forteller webbufferminnet at de skal utelukkes fra bufferminnet.

Følgelig vil optimering av kvaliteten til trafikkcrawling enten kreve en modifikasjon av prosedyrene for webbufferlagring eller at et separat bufferminne må benyttes parallelt med webbufferminnet. Webbufferminnet vil i dette tilfelle velge objekter basert på båndbreddeoptimeringskriterier og søkeminnet vil velge objekter basert på dokumentkvalitet uttrykt ved søke-og alarmtjenester.

Fig. 3a viser hvordan en stedfortredende tjener 21 kan modifiseres for å kommunisere med et samarbeidende søkeminne 33. Søkeminnet 33 kan enten befinne seg på den samme datamaskin eller de samme datamaskiner som den stedfortredende tjener 21 eller den kan befinne seg på en annen datamaskin eller andre datamaskiner og kommunisere via et annet datanettverk. Den stedfortredende tjener 21 inneholder et internt webbufferminne 31 som benyttes til å redusere de eksterne båndbreddekrav. Det interne webbufferminne er ikke nødvendig for å implementere trafikkcrawlingen. En kommunikasjonsmodul 32 er innbefattet i den stedfortredende tjener 21. Kommunikasjonsmodulen 32 registrerer ved bussen 35 webanmodningene som via bussen 34 går gjennom den stedfortredende tjener 21 og registrerer og bufrer etter valg resultatmeldinger for anmodningene og det virkelige innhold som leveres til brukeren 11 som et resultat av anmodningene. Kommunikasjonsmodulen 32 overfører en del av denne informasjon til et søkeminne 33. Informasjon som overføres, kan settes opp slik at den omfatter: Bare anmodninger. Dette kan implementeres ved periodisk å overføre oppdateringene i aksessloggen til den stedfortredende tjener 21 fra kommunikasjonsmodulen 32 til søkeminnet 33. Hver aksessregistrering kan opsjonelt merkes med informasjon som:

o Brukerinformasjon, f. eks. IP- adressen

o Kryptert brukerinformasjon. På grunn av personvernforhold i webapplikasjoner vil det normalt være viktig å holde på anonymiteten til de individuelle brukere.

Kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 kan derfor settes opp slik at enten utelates all personlig

informasjon eller kodes slik at individuelle brukere kan skilles ut, men ikke identifiseres basert på data som kommer inn i søkeminnet. Eksempelvis kunne anmodningen merkes med et kryptert nummer basert på brukerens sesjonsidentifikasjon (user session ID). Denne fremgangsmåte gjør også fortrolighetstiltak

kontrollerbare av ISP 12 og internt i stedfortrederprogramvaren på ISP.

o Tilknyttet bruker informasjon slik som land og by. Denne informasjon kan holdes på et tilstrekkelig grovt nivå for å sikre at de individuelle brukere 11 ikke kan identifiseres basert på data som kommer inn i søkeminnet 33. Stedsinformasjonen kan genereres basert på hjelpedata registrert av ISP når de individuelle brukere etablerer en konto. Trådløse applikasjoner kan får stedsinformasjon fra f.eks. GPS-data skaffet av den trådløse innretning eller gjennom lokalisering av telefoner basert på f.eks. basestasjonidentifikasjoner og forsinkelsestider.

o Resultatkoden for web^ anmodningen. Søkeminnet 33 kan f.eks.

bruke denne informasjon til å fjerne døde lenker eller redusere rangen til lenker som ofte er temporært utilgjengelige.

o Hash- verdier for dokumentinnhold. Kommunikasjonsmodulen 32 kan beregne en eller flere hash-verdier som gjenspeiler

innholdet returnert til brukeren som resultat av anmodningen. Slike innholdsnøkler kan beregnes med en minimal CPU-administrasjon og utgjør en meget kompakt måte for å overføre informasjon til et muligvis fjernt søkeminne. Et fjernt søkeminne kan f.eks. benytte denne informasjon for sammenligning med historiske hash-verdier for samme dokument. Forandringer i hash-verdiene angir at dokumentet er blitt oppdatert, og at det bør crawles på nytt for å oppdatere søkeindeksen.

Anmodninger med innhold. Kommunikasjonsmodulen 32 kan også

sende det virkelige dokumentinnhold i tillegg til informasjonen omtalt ovenfor for anmodningen alene. Denne muligheten blir typisk valgt hvis det står en datakanal med høy kapasitet til rådighet mellom kommunikasjonsmodulen 32 og søkeminnet 33. Dokumentet blir gjenfunnet av ISP og kan derfor på denne måte gjøres tilgjengelig for indeksering og alarmering uten ytterligere anmodninger til den opprinnelige webtjener. Datastrømmen må i dette tilfelle splittes slik at en kopi av informasjon som returneres til brukeren 11, overføres fra kommunikasjonsmodulen 32 til søkeminnet 33. Det kan være

fordelaktig å utføre en viss filtrering i kommunikasjonsmodulen 32 for å redusere kommunikasjonen til søkeminnet 33. Typisk kunne bare anmodninger som det er av interesse å indeksere, bli overført. Eksempel på slike filtreringsregler inbefatter:

o Bare overføre http-GET-anmodninger

o Bare overføre anmodninger om MIME-typene text/<*>

o Bare overføre innhold for anmodninger med en resultatkode

som angir vellykket overføring.

o Bare overføre anmodninger for enten positivt identifiserte verter eller vor verter som ikke befinner seg i en database eller identifiserte verter som skal utelukkes.

Fig. 4 viser en mulig organisasjon av søkeminnet 33 som mottar informasjonsstrømmen fra kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 og benytter denne informasjon til å bygge en søkeindeks eller en alarmtjeneste. Søkeminnet 33 innbefatter en kommunikasjonsmodul 41 som håndterer datakommunikasjonen med kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21. Den aktuelle overføringslogikk kan f.eks. implementeres med sokler. Dataene som mottas fra kommunikasjonsmodulen 41, sendes for videre prosessering. Den første prosesseringstrinn er opsjonelt en avvisningslogikkfilter 42 som kan utvide og addere til filtreringsmekanismen beskrevet for kommunikasjonsmodulen inne i den stedfortredende tjener 21. Fordelen av å utføre avvisningsifltrering inne i den stedfortredende tjener 21 er at databåndbredden mellom den stedfortredende tjener 21 og søkeminnet 33 reduseres. Det er på den annen side også fordeler ved å utføre noe av avvisningsifltreringen inne i søkeminnet: • Belastningsøkningene for CPU som driver den stedfortredende tjener bør gjøres minimale. Prosesseringsadministrasjonen inne i kommunikasjonsmodulen 32 bør derfor holdes på et minimum. • Søkeminnet 33 vil typisk ha en hurtig aksess til dokumentinformasjon som er av viktighet for å lage gode avvisningsfiltre. Slik informasjon innbefatter f.eks. historiske hash-verdier for dokumentinnhold,

aksesstatistikk, og databaser med verter eller steder som skal avvises 33.

Det skal bemerkes at avvisningslogikken 42 kunne utføres i sanntid under den virkelige overføring. Overføringen kan derfor stoppes straks strømmen er blitt identifisert som et objekt som skal avvises av søkeminnet.

Desentralisert trafikkcrawling

Fig. 3b viser desentralisert trafikkcrawling fra klientprogramvare. Et sett av brukere 11 gjenfinner dokumenter fra en delt nettverksressurs så som Internett, mobilt Internett og intranett. Dokumentene gjenfinnes inne i klientprogramvaren 304; 306; 308. Klientprogramvaren kan typisk være webleserapplikasjoner. En kommunikasjonsmodul 305; 307; 309 kan plasseres enten internt inne i klientprogramvaren som en pluggbar eller en samvirkende modul. Kommunikasjonsmodulen kan når den aktiveres registrere dokumentidentifikatorene så som URLene til dokumentene gjenfunnet av klientprogramvaren. Kommunikasjonsmodulene kan videre sende den samme type informasjon som tidligere omtalt under sentralisert trafikkcrawling. Meldingene fra det desentraliserte sett av kommunikasjonsmoduler inne i programvaren aggregeres av en tjenerapplikasjon 310. Tjenerapplikasjonen 310 sender den innsamlede informasjon til et søkeminne 33 på eksakt samme måte som kommunikasjonsmodulen 32 i sentralisert trafikkcrawling sender informasjon til søkeminnet 33.

Desentralisert trafikkcrawling gjør det mulig å oppnå de samme fordeler som ved sentralisert trafikkcrawling, men uten behovet for å integrere systemet med ISPer eller lignende tjenester. Et desentralisert aksesspunkt blir i stedet benyttet gjennom klientprogramvaren og den desentraliserte aksessinformasjon aggregeres av kommunikasjon over nettet til en sentralisert tjenerapplikasjon.

Håndtering av privat informasjon kan lett tas hånd om i desentralisert trafikkcrawling, da brukeren gjennom klientprogramvaren eksplisitt aktiverer og deaktiverer kommunikasjonsmodulen.

Bufferlagring av trafikkinnhold skal nå omtales, med henvisning til den allerede omtalte fig. 4. Dokumentene som ikke avvises av avvisningslogikkfilteret 42, blir overført til en objektadministrator 43 som faktisk bufferlagrer informasjon forbundet med de forskjellige dokumenter. Objektadministratoren 43 innbefatter et fortrolighetsfilter 44 som kontrollerer at dokumentene i et temporært lager 47 slik at privat informasjon utelates i utgangsdataene fra objektadministratoren 43. Fortrolighetsfilteret 44 vil bli beskrevet separat nedenfor. Informasjonen lagret sammen med dokumenthenvisningen i objektadministratoren 43 kan innbefatte: • Informasjon festet til dokumentet av kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 som tidligere omtalt.

• Dokumentstatistikk som den sist modifiserte attributt.

• Aksesstatistikk som tidspunktet for først sett og tidspunktet for sist sett, antall aksesser i forskjellige tidsintervaller og antall forskjellige brukere som har aksessert dokumentene.

• Dokumentinnholdet selv.

• En statistisk rangverdi for dokumentet.

Objektadministratoren 43 kan enten fungere som en tjeneste som kontinuerlig eller periodisk gir ut datastrømmer 45, 46 med informasjon om nye, oppdaterte eller slettede dokumenter. Datastrømmene kan innbefatte enten bare dokumentreferanser 45 eller både dokumentreferanser 45 og det virkelige dokumentinnhold 46. Disse datakildene er av verdi for å danne en alarmtjeneste for weboppdateringer og forbedre størrelsen, friskheten og relevansen til generelle og spesialiserte søkemotorer på weben. Dokumentreferansene 45 kan benyttes som et reindekseringssignal for å styre crawleren 17 i en tradisjonell søkemotor, og det aktuelle dokumentinnhold 46 kan benyttes til også å erstatte crawlingen av disse dokumentene i en tradisjonell søkemotor.

Objektadministratoren 43 kan også benyttes som et bufferminne ved å øke den temporære lagring og innbefatte utkasteralgoritmer for fjerning av dokumenter fra bufferminnet. Levetidsattributten som kan tilordnes dokumenter for å instruere om webbufferlagring, er i realiteten ikke relevant for søkebufferlagring. Det aktuelle dokument aksessert av brukeren i den resulterende søketjeneste vil være det opprinnelige dokument. Den eneste risiko her er det i søkemotorer tradisjonelle problem at den indekserte tekst kan være utdatert sammenlignet med det virkelige dokument. Sannsynligheten for dette friskhetsproblemet er på den annen side sterkt redusert ved søketjenester basert på den foreliggende oppfinnelses lære. Bufferutkastingsprosedyren kunne være tett knyttet til dokumentrangverdien om denne verdien virkelig gjenspeiler dokumentenes kvalitet og/eller popularitet. Nye eller oppdaterte dokumenter kunne bli holdt i bufferminnet i et eller annet forhåndsdefinert minimumstidsrom slik at søketjenestene kan bygges for nyere weboppdateringer. Dynamiske objekter kunne ha redusert levetid i søkeminnet for å unngå en overdrevet stor mengde dynamiske objekter som vanligvis blir hyppig oppdatert.

Objektadministratoren 43 kunne også innbefatte en modul 48 for å beregne statiske rangverdier for dokumenter i det temporære lager 47. Rangverdien kan benyttes både for bufferlagringspraksis med tanke på bestemmelse av hvilke dokumenter som skal fjerne fra det temporære lager 47 og som inngang for å rangere søkeresultater i den resulterende søketjeneste. Rangeringskriteriet kan typisk være en kombinasjon av lenketopologi, dokumentinnhold og aksessmønster. Fordelen med trafikkcrawling er at kvaliteten til estimater om aksesstatistikken vil bli forbedret i forhold til kjent teknikk. Et eksempel på en enkel rangeringsformel begrenset til aksesstatistikk er:

r' =r+ wl- f (treffrate)-g(antall brukere som aksesserer dokument)+(i-^)

I denne ligningen betegner r den foregående rang av dokumentet og r' den oppdaterte rang til dokumentet, w er en vektings faktor i den rekursive oppdatering av rangeringsverdien. / betegner den gjennomsnittlige målrangverdi og kunne også benyttes som initialverdi for nye dokumenter. A betegner den gjennomsnittlige rang for den foregående rangering og benyttes til å stabilisere rangverdiene over tid basert på /. Funksjonene/og g er monotone funksjoner som øker vekten for dokumenter som aksesseres ofte og av mange brukere. Indekseringen av trafikkminnet skal nå kort forklares.

Objektadministratoren kan ganske enkelt bli benyttet til kontinuerlig eller periodisk å gi ut datastrømmer med informasjon om nye, oppdaterte eller slettede dokumenter 45, 46. Mottageren av de genererte datastrømmer vil i dette tilfelle ta hånd om indekseringen av denne informasjonen og den resulterende søketjenestegenerering. Et annet alternativ er å la objektadministratoren 43 benytte et bufferminne eller et temporært lager 47 og enten kontinuerlig eller periodisk indeksere innholdet i det temporære minne 47.

Fig. 5 viser hvordan innholdet i et søkeminne 51 kan omdannes til en søkeindeks. Den enkleste fremgangsmåte er periodisk å prosessere ved 54 hele innholdet i søkeminnet 51 for å konstruere en oppdatert søkeindeks 501. Alternativt kan et fullstendig søkeminne 52 indekseres én gang og deretter blir en trinnindeks 58 konstruert kontinuerlig eller periodisk ved 55 for oppdateringer 57 i søkeminnet 52. Trinnindeksen 58 må enten være direkte kombinert med en fullstendig indeks 502 eller periodisk flettet sammen med denne. Flettingen kan også implementeres ved ganske enkelt å omindeksere søkeminnet 52. Et annet alternativ er å la et søkeminne 53 dele dataene i grupper i henhold til de sist registrerte dokumentoppdateringer i søkeminnet. Gruppene kunne f.eks. være "siste uke" 59a, "siste dag" 59b og "siste time" 59c. De samme grupper ville derfor gjenspeiles i en ved 56 generert søkeindeks 503 som gruppene 59d, 59e, 59f. Slike grupper ville redusere indekseringsbehovene og fletteoperasjonene som er nødvendig for indeksene.

Dokumentrangen beregnet av indekseringsoperasjonen kan enten benytte rangverdien gitt av rangberegningen i modulen 48 innenfor objektadministratoren 43 eller den kan kombinere denne verdien med andre informasjonskilder, så som lenketopologi.

I henhold til den foreliggende oppfinnelse kan søkeminnet fordelaktig bli benyttet i en søketjeneste.

Fig. 6a viser en konfigurasjon for en søketjeneste som benytter søkeminneindeksen. Søkeindeksen generert fra søkeminnet er en indeks 62 som kan benyttes på en tradisjonell måte for å bygge søkemotortjenester. Brukeren 11 sender avspørringer 61 til søkeminneindeksen 62 som svarer med resultater 63 som returneres til brukeren. Søkemotoren kan øke de fordeler som skaffes av trafikkcrawleren som beskrevet i den foreliggende oppfinnelse.

Et annet alternativ er å kombinere søkeindeksen generert fra søkeminnet med en ekstern søkeindeks som f.eks. kunne være en generell Internett-søketjeneste i stor skala så som www. alltheweb. com. Brukerens 11 avspørring 64 vil i dette tilfelle bli sendt til en klareringsmodul 65 for avspørringen og det samme søk vil bli utført både i trafikkminneindeksen 66 og en samarbeidende søkeindeks 67. Resultatlistene frembrakt av de to søk blir flettet i en flettemodul 68 som tar hensyn til dokumentrangverdier. Endelig blir en enhetlig resultat konstruert og returnert til brukeren 11 som et svar 69 på den initiale avspørring. Fletteoperasjonen kan derfor velge forskjellige algoritmer for å rangere det lokale innhold returnert fra trafikkminneindeksen 62 mot innholdet fra den samarbeidende søkemotor som kan ha et globalt rangert innhold.

Opplegget med to samarbeidende søkemotorer kan lett utvides til å håndtere multiple søkemotorer med potensielt mer enn ett søkeminne.

Klareringsmodulen 65 og flettemodulen 68 må i dette tilfelle modifiseres for å kommunisere med det valgte sett av søketjenester. Lignende kombinasjoner med færre parallelle søkinger i multiple søkemotorer i kjent teknikk for bruk på Internett er tidligere kjent og blir vanligvis betegnet som metasøkemotorer.

Fremgangsmåten i henhold til den foreliggende oppfinnelse skal fordelaktig tillate bruken av regional eller bostedsspesifikk rangering.

Dokumentdatabasen for både Internett og mange intranett vokser som nevnt nesten eksponensielt. Imidlertid har avspørringskompleksiteten forblitt nesten praktisk talt uendret. Antallet dokumenter som svarer til et gitt spørsmål har derfor også vokst omtrent eksponensielt. Utfordringen med relevans for søkemotorer blir derfor viktigere og viktigere. Stedsinformasjon kan derfor spille en nøkkelrolle ved implementering av den nødvendige relevansforbedringer.

Stedskoding kan oppnås ved å studere innholdet og egenskapene til et gitt dokument. Informasjon så som adresser eller telefonnumre kan benyttes for å tilordning av dokumentet til et spesifikt geografisk sted. Alternativt kan aksessmønstrene til et gitt dokument fra forskjellige områder undersøkes og det kan identifiseres hvilke dokumenter som er statistisk overrepresentert uttrykt ved aksesser fra et gitt område. Søkemotoren kan benytte denne informasjonen til å danne områdespesifikke rangeringsformler. En spansk bruker av søketjenesten kunne f.eks. ha en rangering som benytter informasjon om hvilke steder som er populære blant spanske brukere. Det regionale aksessmønster kan også benyttes til å danne automatiske lister av populære dokumenter som er assosiert med hvilket som helst bestemt område. Disse listene kan ytterligere deles i kategorier og kan derfor benyttes til å danne automatiserte regionale portaltjenester.

Den romlig informasjon skaffet av trafikkcrawleren må holdes på et tilstrekkelig grovt nivå til at de individuelle brukere ikke kan identifiseres på basis av data som kommer inn i søkeminnet. Typisk bør alle annoterte områder ha et forhåndsdefinert minimalt antall brukere. Stedsinformasjon kan genereres basert på hjelpedata registrert av ISP når individuelle brukere oppretter en konto. Trådløse applikasjoner kan få stedsinformasjon fra GPS-data skaffet av den trådløse innretning eller gjennom lokalisering av telefoner basert på f.eks. bakkestasjonidentifikasjoner og forsinkelsestider.

Fremgangsmåten i henhold til oppfinnelsen vil fordelaktig være i stand til å skaffe informasjon som vil tillate beregning av dokumentlikhet basert på statistikk skaffet av trafikkcrawleren.

Kjente teknikker for crawling tillater analyse av lenketopologi mellom dokumenter og forskjellige teknikker for å tilordne dokumentprioritet basert på denne topologi er blitt foreslått. Lenketopologi er på den annen side ikke en tilstrekkelig kilde for relevans av viktige dokumentklasser som dynamiske objekter, nye dokumenter, binære filer og trådløse sider skrevet i Wireless Markup Language (WML). Alle disse eksempler har ingen eller relativt få lenker som kan benyttes for en lenketopologianalyse. Den temporale nærhet i anmodningsstatistikk levert av trafikkcrawleren kan være en nyttig kilde for å definere likhetsmålinger mellom dokumenter i visse situasjoner. Anmodningsstatistikken kan også bidra til likhetsmålinger hvor en rikere lenketopologi kan benyttes for de sistnevnte.

Fig. 7 viser det temporære nærhetsprinsipp for å definere dokumentlikhet. ISP 12 forbinder via grensesnittet 10 et antall sluttbrukere lia, 1 lb, 1 lc til webressurser 13 som består av tjenere 14 og individuelle dokumenter 15a, 15b, 15c, 15d samt multimediainnhold 16. Aksessloggen registrert av trafikkcrawleren kan deles mellom forskjellige brukere A,B,C slik at påfølgende anmodninger a,b,c,d,... fra samme bruker kan identifiseres via et grensesnitt 71. Brukerbeskyttelse kan fortsatt opprettholdes ved å kryptere brukerens identifikasjonsinformasjon. Det er tilstrekkelig for den følgende analyse at aksessloggen er annotert med sesjonsidentifikasjoner i stedet for brukeridentifikasjoner. Annotering med sesjonsidentifikasjon eller krypterte sesjonidentifikasjoner vil ytterligere opprettholde brukernes personvern.

Similaritetsdefinisjonen hviler på den antagelse at et individ vil hovedsakelig gjenfinne vil relatert informasjon innefor et kort tidsvindu eller innenfor et kort intervall av påfølgende anmodninger. Det er innlysende unntagelser til denne antagelse, men slumpmessige forandringer forårsaket av et skifte av fokus hos brukeren kan også forventes å ha en mer statistisk slumpmessig natur.

Fig. 8 viser en mulig definisjon av en vektingsfunksjon som definerer det temporale naboskap. Et eksempel er vist hvor bruker C anmoder om et dokument a på tidspunktet t0. En annen anmodning fra samme bruker eller sesjon rettes mot dokumentet b på tidspunktet ti. Anta også at k andre dokumentanmodninger har kommet fra samme bruker mellom anmodningene om dokumentene "a" og "b". En naboskapsvektingsfunksjon kan i dette tilfelle defineres som en funksjon w( k, t]- t0) hvor w er en funksjon som minker monotont med både k og \ trt0\. I forenklede modeller kan w velges som en signaturfunksjon eksempelvis for et gitt tidsintervall relativt til t0, f.eks. ( tM/ N - tMAx) eUer et gitt antall aksesser kj forut for t0 og et gitt antall aksesser k2 etter t0. Tilsvarende vektingsfunksjonsmodeller blir benyttet i andre applikasjoner så som algoritmer for å administrere sider i et virtuelt minne.

En rangert likhetsliste for et gitt dokument "a" kan nå etableres ved å måle den statistiske overrepresentasjon av andre dokumenter i naboskapet til anmodninger om "a"-dokumentet. Analysen kan enten utføres på et dokumentnivå eller på et stedsnivå hvor alle dokumenter som befinner seg på et gitt sted, ganske enkelt behandles som en anmodning til stedet på toppnivå. Rangeringsverdien kan basere seg på en rekke teknikker og det vil være innlysende for fagfolk hvordan små modifikasjoner av utførelsen i henhold til den foreliggende oppfinnelse kan benyttes. Likhetsrangen kan f.eks. være basert på en av de følgende målinger: • Totalt aksesstall innenfor et forhåndsdefinert naboskapstidsvindu med anmodninger om "a"-dokumentet. • Den totale sum av naboskapsvektingsfunksjon w for alle aksesser innenfor et forhåndsbestemt naboskapsvindu med anmodninger om "a"-dokumentet.

Den statistiske signifikans av det observerte antall av "b"-anmodninger innenfor en forhåndsbestemt naboskapsvindu for anmodninger til "a"-dokumentet. Den statistiske test kan baseres på en nullhypotese som antar at alle anmodninger til "a"- og "b"-dokumenter virkelig er ikke-relatert. Videre kan det tas hensyn til den generelle aksessfrekvens til "a"- og "b"-dokumenter i den statistiske test. En lignende statistisk test kan utføres ved å benytte den totale sum av naboskapsvektingsfunksjon w som den observasjonsvariable i stedet for anmodningstellingen.

En dokumentlikhetsliste kan derfor beregnes for hvilket som helst dokument "a" ved å sortere dokumenter etterspurt innenfor et forhåndsbestemt naboskapsvindu av anmodninger til "a"-dokumentet i henhold til en av de foreslåtte likhetsrangfunksjoner. Kvaliteten til slike likhetslister kan forbedres ved å fjerne trivielle likheter så som dokumenter på samme sted eller dokumenter som det er direkte henvist til med hyperlenker i "a"-dokumentet.

Likhetslistene kan også beregnes for en gruppe av dokumenter i stedet for et enkelt dokument. Dette kan lett implementeres for å behandle en hvilken som helst anmodning om et dokument i dokumentgruppen som en henvisning til "a"-dokumentet i den foregående beskrivelse. Alternativt kan affiniteten forbedres ved å vekte anmodningene med en brukerlikhetsfaktor som f.eks. kunne telle antallet dokumenter felles for dokumentgruppen og hver av aksessloggene for individuelle sesjoner.

Personalisert rangering og dokumentvalg kan oppnås på denne måte ved f.eks. å beregne en dokumentlikhetsliste basert på et sett av brukervalgte dokumenter. Brukeren kan enten velge disse dokumenter eksplisitt eller et automatisk valg kan foretas på basis av favorittvalg innenfor webleseren eller aksesshistorien registrert enten lokalt av klientens webleser eller ved aksessporten.

Søketjenester og alarmtjenester kan benytte denne informasjon for å tillate brukeren å danne en personlig rangeringsformel. Den personlige rangering kunne favorisere de følgende dokumenter i resultatlistene:

• Dokumenter som virkelig er levert av brukeren

• Nye dynamiske sider som er relatert til dokumenter levert av brukeren så som nyhetsartikler på et avissted. • Dokumenter som har høye likhetsfaktorer slik som beskrevet ovenfor, med sett av dokumenter levert av brukeren.

Den foreliggende oppfinnelse kan også benyttes til å etablere relevansalgoritmer på basis av dokumentlikhetstopologi.

Modifikasjon av definisjonen av det forhåndsbestemte naboskapsvindu for likhetsrangering kan utlede interessante egenskaper hos dokumentene. Det er f.eks, mulig å sammenligne rangverdien mellom to dokumenter "a" og "b" med to naboskapsvinduer, ett 10 minutter etter "a"-anmodninger og ett 10 minutter før "a"-anmodninger. Forskjellen i disse to verdier vil både gi informasjon om relasjonen mellom "a" og "b" og arten av innhold i "a". Disse verdier vil faktisk definere den reelle effektive lenketopologi mellom dokumenter basert på virkelig bruk. Verdiene kan sammenlignes med hyperlenketopologien eller erstatte hyperlenketopologien som basis for dokumentrelevansberegninger. Det vil være innlysende for fagfolk hvordan kjente metoder for relevans basert på lenketopologi kan utvides til trafikkavledet brukstopologi som vist i den foreliggende oppfinnelse. To slike alternativer er: • For det første å tilordne en initial dokumentrangering til hvert dokument. Den kan enten være den samme for alle dokumenter eller ta andre informasjonskilder i betraktning for å differensiere dokumentet. For det annet kan dokumentrangverdiene forplantes ved den omtalte brukstopologi ved å vekte de initiale dokumentrangverdier med lenkestyrken. • Algoritmer som forekommer i kjent teknikk, så som siderang- eller HITS-algoritmen kan benyttes som interative modeller for å forplante sideranger gjennom den omtalte brukstopologi.

I de fleste web- og trådløse applikasjoner hvor den foreliggende oppfinnelse skal benyttes, vil det være avgjørende at brukerens personvern opprettholdes. Indeksering av trafikkinnholdet ved aksesspunkter i datanettverk kunne potensielt gjøre privat informasjon søkbar for en stor brukerskare. Følgelig skal fremgangsmåten i henhold til den foreliggende oppfinnelse være i stand til å sikre brukerens personvern.

Separate protokoller er blitt utviklet som sikkert og korrekt transporterer webobjekter, f.eks. https-protokollen. Webtj enere som er verter for private innholdsobjekter skulle bruke slike protokoller dersom de ønsket å garantere diskresjon overfor brukeren. Uheldigvis er imidlertid det motsatte vanlig praksis. En rekke forskjellige metoder blir benyttet til å skjule privat innhold på webtj enere, mens det virkelige innhold fortsatt transporteres som klar tekst. En god del av det private innhold er lagret som dynamiske objekter og har derfor generelt ikke vært tilgjengelig i søketjenester i henhold til kjent teknikk. Den foreliggende oppfinnelse viser hvordan dynamiske objekter også kan effektivt indekseres og gjøres søkbare.

De følgende prinsipper kan benyttes til å unngå indeksering av privat eller følsom informasjon: • Sikre protokoller så som https-protokollen er innlysende ikke indeksert. • Indeksering er begrenset til http-get-anmodninger. Noen personlige objekter gjenfinnes f.eks. ved å bruke en http-post-operasjon på tjeneren. Resultater fra disse operasjoner lagres ikke. • Noen ganger er dynamisk og personlige innhold beskyttet av en eller annen versjon av http-autentiseringsmekanismene. Disse arbeider ved å sette spesifikke felter i http-anmodningstoppteksten. Denne type autentisering kan automatisk detekteres for å ekskludere resulterende informasjon fra indeksering. • Indekseringen kan begrenses til dokumenter som er blitt sett på av et forhåndbestemt minimalt antall brukere. Indeksering av informasjon som bare en enkelt bruker har sett på, kan på denne måten unngås. • Indeksering kan begrenses til anmodninger som ikke inneholder småkaker (cookies) for å unngå at en småkake ikke transporterer personlig informasjon som er nødvendig for å gjenfinne dokumentet. • Indeksering kan begrenses til et forhåndsbestemt sett av steder og verter. • Indekseringen kan utelukke forhåndsbestemte steder og verter som ikke bør indekseres.

Detekterte dokumenthenvisninger kan til slutt crawles på ny for å

sjekke at informasjon faktisk er generelt tilgjengelig for hvem som helst.

Selv om den foreliggende oppfinnelse spesielt er blitt beskrevet med henvisning til foretrukkede utførelsesformer, skal det forstås av fagfolk at det kan gjøres forskjellige forandringer i form og detalj i disse uten å avvike fra oppfinnelsens grunnidé. Bruken av spesifikke protokoller og formater er ikke et nødvendig trekk ved den foreliggende oppfinnelse. F.eks. kan andre trådløse protokoller erstatte WAP/WML uten å påvirke prinsippene som ligger til grunn for den foreliggende oppfinnelse. Modifikasjoner av denne art kan gjøres uten å gå ut over rammen for oppfinnelsen slik den er vist i de vedføyde krav.

Claims

1. Fremgangsmåte til søking og analyse av trafikkinnholdet ved aksesspunkter i datanettverk, hvor datanettverkene er delte nettverkressurser, spesielt det fullstendige Internett eller et intranett, hvor aksesspunktene spesielt er Internett-aksesspunkter for brukere betjent av en Internett-tjenesteleverandør eller fordelt i form av en applikasjon til en rekke brukere eller et forbindelsespunkt for trådløse brukere, hvor forbindelsespunktet enten er et naturlig forbindelsespunkt eller en internettport for multiple forbindelsespunkter, og hvor fremgangsmåten er karakterisert ved å omfatte trinn for å innsamle informasjon i form av data utledet av informasjonsflyten ved aksesspunktene i datanettverket, å indeksere den innsamlede informasjon med en forhåndsdefinert maksimum tidsforsinkelse, og å søke og gjenfinne informasjon fra den indekserte informasjon, og dessuten valgfrie trinn basert på en analyse av trafikkinnholdet ved aksesspunkter for å stedskode innsamlet informasjon i form av dokumenter, å måle likheten av dokumentene, og å alarmere brukere med hensyn til ny og oppdatert informasjon.

2. Fremgangsmåte i henhold til krav 1, karakterisert ved å lagre innsamlet informasjon ved bufferlagring i ett eller flere bufferminner anordnet ved et eller flere aksesspunkter.

3. Fremgangsmåte i henhold til krav 2, karakterisert ved å bufferlagre innsamlet informasjon for en økende mengde av tidsintervaller i to eller flere bufferminner, å indeksere den bufferlagrede informasjon i hvert av bufferminnene gjentatte ganger for å generere forbundne søkeindekser for en økende mengde av tidsintervaller, og å kombinere søkeresultatene fra de genererte søkeindekser.

4. Fremgangsmåte i henhold til krav 2, karakterisert ved å holde den bufferlagrede informasjon i et bufferminne inntil innholdet i dette er blitt indeksert.

5. Fremgangsmåte i henhold til krav 4, karakterisert ved å beregne friskheten til bufferlagret informasjon på basis av medgått tid siden den siste oppdatering av gitt trafikkinnholdsenhet.

6. Fremgangsmåte i henhold til krav 2, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å bufferlagre trafikkinnholdet henholdsvis for å minimere eksterne båndbreddekrav og å holde frisk og relevant informasjon for indeksering.

7. Fremgangsmåte i henhold til krav 6, karakterisert ved å bufferlagre trafikkinnholdet i begge henseender i henholdsvis to dediserte bufferminner.

8. Fremgangsmåte i henhold til krav 2, karakterisert ved å prosessere gjentatt den bufferlagrede informasjon med en forhåndsdefinert maksimum tidsforsinkelse for å indeksere den innsamlede informasjon og generere en søkeindeks for denne.

9. Fremgangsmåte i henhold til krav 8, karakterisert ved å oppdatere søkeindeksen trinnvis ved å detektere ny eller oppdatert informasjon som ikke tidligere er blitt observert ved et aksesspunkt, og å addere den nye eller oppdaterte informasjon til søkeindeksen.

10. Fremgangsmåte i henhold til krav 8, karakterisert ved å benytte trafikkinnholdet observert mellom to indekseringsoperasjoner på den bufferlagrede informasjon for å generere en tidsbestemt søkeindeks med friskt trafikkinnhold siden den siste indekseringsoperasjon ble utført på den bufferlagrede informasjon, og å utføre søking ved å kombinere søking både i den tidsbestemte søkeindeks og en aller nyeste søkeindeks generert ved å indeksere den bufferlagrede informasjon.

11. Fremgangsmåte i henhold til krav 1, karakterisert ved å begrense indekseringen av den innsamlede informasjon til undermengden av trafikkinnholdet som ikke er blitt forkastet av et sensitivitetsfilter, idet sensitivitetsfilteret er innrettet til å detektere en eller flere av de følgende, nemlig pornografisk materiale, privat materiale, spesielt privat materiale som bare er blitt aksessert av et gitt forhåndsdefinert lite antall brukere, og materiale fra http-post-operasjoner.

12. Fremgangsmåte i henhold til krav 1, karakterisert ved at trinnet for å søke og gjenfinne informasjon innbefatter et undertrinn for relevansrangering eller datafiltrering avhengig av en registrert tidsattributt for trafikkinnholdsenheter, idet den registrerte tidsattributt er én eller flere av de følgende, nemlig dannelsestidspunktet for en trafikkinnholdsenhet, den siste gang en trafikkinnholdsenhet ble modifisert, tidspunktet for den første observasjon av en gitt trafikkinnholdsenhet ved et aksesspunkt og tidspunktet for en siste observasjon av en gitt trafikkinnholdsenhet ved aksesspunktet.

13. Fremgangsmåte i henhold til krav 1, karakterisert ved at trinnet for å søke og gjenfinne informasjon innbefatter et undertrinn for relevansrangering avhengig av aksesstelling av individuelle trafikkinnholdsenheter gjennom et aksesspunkt.

14. Fremgangsmåte i henhold til krav 1, hvor trinnet for å søke og gjenfinne informasjon implementeres av minst én samarbeidende søkemotor, karakterisert ved at nevnte trinn innbefatter undertrinn for å sende søkeanmodninger til den minst ene samarbeidende søkemotor, å innsamle søkeresultateter fra den minst ene samarbeidende søkemotor, og å kombinere de innsamlede søkeresultater for å skaffe et enhetlig resultat for en initial søkeanmodning.

15. Fremgangsmåte i henhold til krav 14, hvor den samarbeidende søkemotor er en internettsøkemotor, karakterisert ved å indeksere informasjon som er crawlet fra Internett med søkemotoren,

16. Fremgangsmåte i henhold til krav 14, hvor trinnet for å søke og gjenfinne informasjon implementeres av mer enn én samarbeidende søkemotor, karakterisert ved å anordne en søkemotor i henholdsvis minst ett aksesspunkt i datanettverket.

17. Fremgangsmåte i henhold til krav 1, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å detektere etterspurt informasjon som var utilgjengelig, og å benytte informasjon om den utilgjengelige informasjon for enten å fjerne eller redusere rangeringen av en forbundet innførsel i en søkeindeks, spesielt en samarbeidende søkeindeks.

18. Fremgangsmåte i henhold til krav 1, hvor trinnet for å søke og gjenfinne informasjon implementeres av minst én samarbeidende søkemotor, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å detektere ny eller oppdatert informasjon som ikke tidligere er blitt observert ved et aksesspunkt, og å benytte informasjonen om den nye og oppdaterte informasjon til å utbygge en søkeindeks i den minst ene samarbeidende søkemotor.

19. Fremgangsmåte i henhold til krav 1, karakterisert ved at det valgfrie trinn for å stedskode dokumenter innbefatter undertrinn for å innsamle dokumentidentifikatorer for etterspurte dokumenter, å annotere dokumentidentifikatorene med romlig informasjon om brukere som inngir anmodningene, å beregne aksesstatistikk for minst ett dokument, idet aksesstatistikken innbefatter minst antall dokumentanmodninger fra et romlig område og det totale antall anmodninger fra det romlige område, og å bestemme hvilke dokumenter som er mest spesifikke for et gitt romlig område ved å sammenligne aksesstatistikken for det gitte romlige område med tilsvarende aksesstatistikk for minst ett annet romlig område.

20. Fremgangsmåte i henhold til krav 19, karakterisert ved å utlede den romlige informasjon fra brukerdata registrert av et Internett-tjenesteleverandør.

21. Fremgangsmåte i henhold til krav 19, karakterisert ved å utlede den romlige informasjon fra stedet for mobilinnretning som etterspør om et dokument.

22. Fremgangsmåte i henhold til krav 19, karakterisert ved å velge en romlig granularitet slik at et tilstrekkelige antall brukere fås innenfor hvert romlige område for å sikre at individuelle brukere ikke kan identifiseres i aksesstatistikken.

23. Fremgangsmåte i henhold til krav 19, karakterisert ved å bestemme dokumentspesifisiteten ved å beregne sannsynligheten for at aksesstatistikken for minst to romlige områder tilhører samme statistiske fordeling.

24. Fremgangsmåte i henhold til krav 19, karakterisert ved å bestemme dokumentspesifisiteten ved å bestemme et stort romlig område som statistikk for en nullhypotese, og å beregne en statistisk signifikans av en differansetest på aksesstatistikken for et gitt romlig område.

25. Fremgangsmåte i henhold til krav 23, karakterisert ved å benytte en områdespesifikk skåring for å skaffe stedssensitiv rangering av søkeresultater.

26. Fremgangsmåte i henhold til krav 24, karaktterisert ved å benytte en områdespesifikk skåring for å skaffe trafikkavhengige lister over populære områdespesifikke dokumenter.

27. Fremgangsmåte i henhold til krav 26, karakterisert ved å dele dokumentlistene i kategoriunderlister ved automatisk kategorianalyse av dokumentinnholdet.

28. Fremgangsmåte i henhold til krav 1, karakterisert ved at det valgfrie trinn for å måle likheten til dokumenter innbefatter undertrinn for å innsamle dokumentidentifikatorer for de etterspurte dokumenter, å annotere dokumentanmodningene slik at påfølgende anmodninger fra den samme bruker kan identifiseres, og å beregne en dokumentlikhet mellom et dokument "b" og et referansedokument "a" ved å sammenligne antallet "b"-anmodninger i nærheten av "a"-anmodninger med en midlere frekvens av "b"-anmodninger.

29. Fremgangsmåte i henhold til krav 28, karakterisert ved å benytte likhetsmåling for å skaffe en rangert liste av like dokumenter basert på enhver gitt dokumentinngang.

30. Fremgangsmåte i henhold til krav 29, karakterisert ved å beregne rangeringslisten ved å utelate dokumenter fra det samme sted som inngangsdokumentet.

31. Fremgangsmåte i henhold til krav 28, karakterisert ved å kombinere likhetsmåling enten med en likhetsmåling basert på dokumentinnhold eller med likhetsmålinger basert på telling av antall samsiteringer.

32. Fremgangsmåte i henhold til krav 28, karakterisert ved å beregne likhetsmålingen for en gruppe av dokumentidentifikatorer ved å behandle alle anmodninger om ett av dokumentene i gruppen som en etterspørsel om "a"-dokumentet.

33. Fremgangsmåte i henhold til krav 32, karakterisert ved å benytte en undermengde av en brukers weblogg som gruppen av dokumentidentifikatorer.

34. Fremgangsmåte i henhold til krav 33, karakterisert ved å benytte gruppen av dokumentidentifikatorer som et uttrykk for brukerpreferanser, og å danne en personalisert rangering av søkeresultater basert på likhetsmålingen.

35. Fremgangsmåte i henhold til krav 33, karakterisert ved å beregne dokumentrangeringen på basis av en lenketopologi-analyse, idet likhetsmålingen benyttes til å definere en lenketopologi og forbundne vekter.

36. Fremgangsmåte i henhold til krav 1, karakterisert ved at det valgfrie trinn for å alarmere omfatter undertrinn for å innsamle i sanntid informasjon utledet fra datastrømmen ved et aksesspunkt i datanettverket, å detektere ny og/eller oppdatert informasjon som ikke tidligere er blitt observert ved aksesspunktet, å sammenligne den nye og/eller oppdaterte informasjon med et sett av brukerprofiler, og å sende alarmmeldinger til brukere forbundet med brukerprofiler som er trigget av den nye og/eller oppdaterte informasjon.