NO313399B1 - Fremgangsmate til soking og analyse av informasjon i datanettverk - Google Patents
Fremgangsmate til soking og analyse av informasjon i datanettverk Download PDFInfo
- Publication number
- NO313399B1 NO313399B1 NO20004595A NO20004595A NO313399B1 NO 313399 B1 NO313399 B1 NO 313399B1 NO 20004595 A NO20004595 A NO 20004595A NO 20004595 A NO20004595 A NO 20004595A NO 313399 B1 NO313399 B1 NO 313399B1
- Authority
- NO
- Norway
- Prior art keywords
- information
- document
- procedure according
- search
- documents
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000015654 memory Effects 0.000 claims description 65
- 239000000872 buffer Substances 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 230000003139 buffering effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 claims 4
- 230000035945 sensitivity Effects 0.000 claims 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000001960 triggered effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 26
- 230000009193 crawling Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000000528 statistical test Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241000238366 Cephalopoda Species 0.000 description 1
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 description 1
- 102100026983 Protein FAM107B Human genes 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000010899 old newspaper Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/09—Obsolescence
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Radar Systems Or Details Thereof (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Communication Control (AREA)
- Circuits Of Receivers In General (AREA)
- Mobile Radio Communication Systems (AREA)
Description
Oppfinnelsen angår en fremgangsmåte til søking og analyse av trafikkinnholdet ved aksesspunkter i datanettverk, hvor datanettverkene er delte nettverkressurser, spesielt det fullstendige Internett eller intranett, hvor aksesspunktene spesielt er Internett-aksesspunkter for brukere betjent av en Internett-tjenesteleverandør eller fordelt i form av en applikasjon til en rekke brukere eller et forbindelsespunkt for trådløse brukere, hvor forbindelsespunktet enten er et naturlig forbindelsespunkt eller en internettport for multiple forbindelsespunkter.
Oppfinnelsen angår spesielt informasjonsgjenfinningsmetoder og -systemer. Mer bestemt angår den foreliggende oppfinnelse
informasjonsgjenfinningsmetoder og -systemer som aksesserer informasjon på Internett og Intranett gjennom trådbundne eller trådløse grensesnitt. Enda mer bestemt angår oppfinnelsen intranett og internettbaserte søkemotorer og alarmtjenester.
Elektronisk informasjonsressurser vokser hurtig både på Internett og intranett. Denne type elektronisk informasjon fortrenger i økende grad mer konvensjonelle informasjonskilder så som aviser, blader og til og med fjernsyn. Størrelsen på disse informasjonsdatabasene vokser for tiden nesten eksponensielt.
Den relevante teknikkens stand kan finnes i de følgende publikasjoner:
S. Brin og L. Page, The anatomy of a large-scale hypertextual web search engine, Proceedings of the 7th International World Wide Web Conference, pp. 107-117, Brisbane, Australia, april 1998 (Elsevier Science);
J.M. Kleinberg, Authoritative sources in a hyperlinked environment, Proceedings of ACM- SIAM Symposium on Discrete Algorithms, pp. 668-677, januar 1998; og D. Gibson, J. M. Kleinberg, og P. Raghavan, Inferring Web communities from link topology, Hypertext, pp. 225-234, Pittsburgh,PA, juni 1998.
En protokol så som Hypertext transfer protocol (http), File transfer protocol (ftp) eller Wireless application protocol (wap) blir ofte benyttet til å overføre innholdet mellom innholdslevereandører og klienter. Søkemotorteknologier er blitt utviklet både for Internett- og intranettapplikasjoner. For tiden er disse søkemotorer enten basert på automatisk crawling av websider og ytterligere online-innhold fra tilgjengelige tjenere.
Typisk blir et sett av frøsider (seed pages) benyttet til å initiere crawlingen. I en annen fase henter også crawleren (nedsamleren) dokumenter som det er henvist til i en av de initiale frøsider. Denne prosessen fortsetter så lenge som crawleren oppdager nye, ubesøkte dokumenthenvisninger i en av de hentede dokumenter. Webdokumenter er ofte formatert i Hypertext Markup Language (HTML). En dokumenthenvisning er i dette tilfellet en typisk HTML hyperlenke til en annen webside. Websiden selv er vanligvis spesifisert av en adresse så som Universal Resource Locator (URL).
For tiden arbeider søkemotorer i to faser. Først blir en crawler benyttet til å samle sammen en dokumentdatabase. Straks dokumentene er blitt samlet inn, blir de forhåndsbehandlet og indeksert for å gjøre dem tilgjengelig for søking. Dokumentinnsamlingsprinsippet for en crawler lider av følgende begrensninger og ulemper som påvirker kvaliteten til den etterfølgende søking: • Crawleren vil bare få aksess til dokumenter i den transitive lukning av valgte frøsider basert på dokumenthenvisninger. - En crawler vil f.eks. aldri besøke et dokument som mangler henvisningsdokumenter. Også dokumenter som har henvisende dokumenter kan bli ubesøkt av crawleren, avhengig av lenketopologien og de valgte frøsider. • Crawlere blir begrenset til forholdsvis sjeldent å besøke en gitt tjener. - Typisk må crawleren vente 30 s eller lenger mellom to aksesser til samme tjener. Denne begrensningen skyldes robotregler som er lansert for å beskytte tjenerne fra å overbelastes med automatiske etterspørsler. Kontinuerlig crawling av et gitt sted vil derfor bli begrenset til omtrent 3000 dokumenter pr. dag. Det eksisterer en rekke store steder med så mange dokumenter at det i praksis er umulig å laste ned eller indeksere hele innholdet med crawleprinsippene i henhold til kjent teknikk. Til og med moderate steder utgjør det et stort problem med hensyn til friskhet hva crawleprinsipper i henhold til kjent teknikk angår. Et sted med 90 000 dokumenter vil f.eks. kreve crawling i en måned for en fullstendig oppdatering. • Prinsipper for crawling kjent i teknikken er ikke velegnet for å garantere friskheten til de innsamlede dokumenter. - Crawlerestriksjoner gjør fullstendige stedsoppdateringer i en søkemotor umulig for noen steder og de vil kunne ta uker eller
måneder for andre. Steder med mindre enn 3000 dokumenter kan daglig oppdateres fullstendig. Mangel på friskhet er en alvorlig begrensning av potensialet til søkemotorer. Det eksisterer et stort marked for dagsaviser, men markedet for lesing eller til og med søking av gamle aviser er praktisk talt ikke-eksisterende. Tilsvarende skulle det forventes at det er av generell interesse å ha adgang til søke- og alarmtjenester for webinnhold som nylig er blitt oppdatert. • Kjente prinsipper for crawling er ikke i stand til å gjenfinne dynamiske objekter. - Dynamiske objekter er objekter som typisk krever parametre som er sendt sammen med http-anmodningen. En bruker kan f.eks. gjøre noen få valg i dialogbokser, sjekkbokser etc. og laste ned en side som ikke er lagret permanent som en html-fil, men i stedet generert automatisk basert på brukervalgene. Gjetning av alle mulige parameterinnstillinger er praktisk talt umulig for en crawler og dynamiske objekter kan derfor for tiden ikke aksesseres gjennom internettsøkemotorer. Weben er på den annen side mer og mer dominert av dynamisk innhold både uttrykt ved antall sider og uttrykt ved verdien av informasjonen eller tjenesten. • Dokumentdatabasene for både Internett og mange intranett vokser nesten eksponensielt. Imidlertid er avspørringskompleksiteten forblitt nesten uforandret. Antall dokumenter som svarer til en gitt avspørring vokser derfor nesten ekponensielt. Relevansutfordringen for søkemotorer blir derfor mer og mer viktig. Kjente teknikker for crawling tillater analyse av lenketopologien mellom dokumenter, og forskjellige teknikker for å tilordne dokumentprioritet basert på denne topologien er blitt foreslått. Lenketopologi er på den annen side ikke en tilstrekkelig kilde for relevansen til viktige dokumentklasser så som dynamiske objekter, nye dokumenter, binære filer og trådløse sider så som sider skrevet i Wireless Markup Language (WML). Alle disse eksemplene har ingen eller forholdsvis få lenker som kan benyttes til en lenketopologianalyse.
Alarmtjenester (alert services) er beskrevet i kjent teknikk og virker på samme måte som en søkemotor. En alarmtjeneste vil typisk være i stand til å ta en søkemotoravspørring og sjekke en strøm av ny informasjon mot avspørringen. En bruker kan f.eks. søke historiske data på en søkemotor og benytte avspørringen som trigger i en alarmtjeneste som anvender avspørringen på en strøm av nye dokumenter.
På grunn av svakheter og ulemper i kjent teknikk som omtalt ovenfor, eksisterer det et presserende behov for å forbedre
dokumentinnsamlingsprosessen i søke- og alarmtjenester. En primær hensikt med den foreliggende oppfinnelse er derfor å skaffe en fremgangsmåte som vil tillate en økning i det totale antall dokumenter som kan samles inn og skaffe en økning i andelen av dokumenter som kan samles inn fra store steder, så vel som å forbedre friskheten til dokumenter uttrykt ved forsinkelsen mellom den siste dokumentoppdatering og dokumentets dannelse og tidspunktet når det kan søkes i en søketjeneste, i tillegg til å tillate deteksjon av dokumenter som er blitt ugyldige (døde lenker) og innsamling av dynamiske objekter.
Det er en annen hensikt med oppfinnelsen å utnytte den forbedrede kilde med nylig oppdaterte dokumenter til å skaffe alarmtjenester ved å sjekke hvorvidt et nytt dokument motsvarer triggerne definert av brukerne av alarmtjenesten.
Det er nok en annen hensikt med oppfinnelsen å la relevansen eller rangeringskriteriet i søkemotoren baseres på dokumentets alder. Dette er spesielt viktig da oppfinnelsen beskriver forbedrede dokumentinnsamlingsprinsipper som eksempelvis vil tillate brukeren å søke i nye webdokumenter som er dannet eller oppdatert de siste 10 minutter, den siste time eller den siste dag.
Det er ytterligere en hensikt med oppfinnelsen å benytte anmodningsstatistikken ved aksesspunktene i datanettverkene til å skaffe forbedret relevans i søke- og alarmtjenester.
Det er nok en ytterligere hensikt med oppfinnelsen å frembringe en stedsspesifikk dokumentrangering ved å benytte anmodningsstatistikk fra brukere i et romlig naboskap.
Endelig er det også en hensikt med oppfinnelsen å benytte temporal nærhet i anmodningsstatistikken til å definere grader av likhet mellom dokumenter.
De ovennevnte hensikter og andre trekk og fordeler oppnås i henhold til den foreliggende oppfinnelse med en fremgangsmåte som er kjennetegnet ved at den omfatter trinn for å innsamle informasjon i form av data utledet av informasjonsflyten ved aksesspunktene i datanettverket, å indeksere den innsamlede informasjon med en forhåndsdefinert maksimum tidsforsinkelse, og å søke og gjenfinne informasjon fra den indekserte informasjon, og dessuten valgfrie trinn basert på en analyse av trafikkinnholdet ved aksesspunkter for å stedskode innsamlet informasjon i form av dokumenter, å måle likheten av dokumentene, og å alarmere brukere med hensyn til ny og oppdatert informasjon.
Ytterligere trekk og fordeler ved den foreliggende oppfinnelse er vist i de vedføyde uselvstendige krav 2-36.
Oppfinnelsen selv, så vel som utførelser derav, vil forståes bedre med henvisning til den etterfølgende detaljerte beskrivelse av foretrukkede og eksemplifiserende utførelser når den leses i samband med den ledsagende tegning, hvor
fig. 1 viser klientforbindelsen til Internett gjennom en
Internett-tjenesteleverandør (ISP),
fig. 2 en stedfortredende (proxy) tjener i ISP for bufferlagring av webinnholdet,
fig. 3a en stedfortredende tjener som kommuniserer med et eksternt søkeminne (search cache),
fig. 3b fordelt trafikkcrawling fra klientprogramvare,
fig. 4 en mulig organisasjon av søkeminnet,
fig. 5 hvordan innholdet av søkeminnet kan omformes til en søkeindeks,
fig. 6 konfigurasjoner av en søketjeneste som benytter søkeminneindeksen,
fig. 7 det temporale nærhetsprinsipp for å definere dokumentlikhet, og fig. 8 en mulig definisjon av en vektfunksjon som definerer temporal nærhet.
Før en detaljert omtale av foretrukkede utførelser gis, skal den generelle
. bakgrunn for den foreliggende oppfinnelse kort omtales for å lette forståelsen av den sistnevnte.
Internettbrukere blir ofte forbundet til nettet ved såkalte Internett-tjenesteleverandører (ISP). Fig. 1 viser hvordan klienter forbindes via en ISP 12 til forskjellige webtjenere. ISP 12 leier båndbredde fra en hovedleverandør for Internett og tilbyr sluttbrukere 11 en "andel" i grensesnittets 10 båndbredde basert på en tidsdelingsmodell. Aksessene fra sluttbrukerne 11 blir på denne måten rutet gjennom ISP 12 til weben 13 med de individuelle tjenere 14 som verter for dokumenter 15 og multimediainnhold 16. Den samme modell gjelder også for trådløse brukere, enten gjennom naturlige koblingspunkter eller gjennom internettporter for multiple koblingspunkter. Søkemotorer i kjent teknikk er blitt basert på automatisk crawling med crawleren 17 fra webtj enerne 14 og strukturering av denne informasjon i en søkeindeks 18 som gjøres tilgjengelig for søking. Resultatet fra søkene skaffer referanse tilbake til de originale dokumenter 15,16 på weben 13.
Et felles begrep i datasystemer er bufringssystemer (caching systems). I SPene benytter ofte et webbufferminne ved sine
båndbreddefordelingsenheter. Dette bufferminne reduserer båndbreddebruken på hovednettet, samtidig som sluttbrukerne vil oppleve lavere latensiteter. Webbufferminner blir ofte benyttet gjennom stedfortredende tjenere. Stedfortredende tjenere kan være gjennomsiktige eller ugjennomsiktige. En rekke bufringsmekanismer og stedfortredende tjenere forekommer i kjent teknikk. Et eksempel er Squid ( www. squid- cache. org), som er en fri programvareversjon av en webstedfortreder.
Fig. 2 viser hvordan en stedfortredende tjener 21 kan ha en intern samling av dokumenter eller objekter 22. Brukeranmodninger om disse objektene blir betjent lokalt ved linje 23 for å redusere de ved linje 24 eksterne båndbreddekrav fra ISP 12. Brukerne 11 vil også oppleve redusert latensitet når et bufret dokument eller objekt aksesseres. Utløpsregler defineres for de individuelle objekter for å sikre at en kopi i bufferminnet faktisk gjenspeiler det opprinnelige objekt.
Begrepet til såkalt trafikkcrawling og dets egenskaper skal nå omtales.
Det fullstendige sett av brukere forbundet til Internett gjennom en ISP vil samlet virke som en stor crawler av informasjon fra weben. For den resterende del av beskrivelsen vil denne totale informasjonsinnsamling på en ISP eller et lignende koblingspunkt eller port bli betegnet som trafikkcrawler. Denne "menneskelige" trafikkcrawler har en rekke egenskaper som er meget forskjellige fra en automatisk programvarecrawler:
• Trafikkcrawleren vil ikke ha de samme begrensninger som en programvarecrawler uttrykk ved frøsider og lenketopologi for å få aksess til dokumentene. • Trafikkcrawleren vil ikke bli hemmet av aksessbegrensninger til et gitt sted av den art som en programvarecrawler utsettes for. Trafikkcrawleren kan derfor potensielt crawle store steder meget hurtigere og mer fullstendig. • En programvarecrawler vil tilbringe mye av sin tid med ganske enkelt å laste ned dokumenter som den har besøkt tidligere og å sjekke om disse sidene er blitt oppdatert siden siste nedlasting. Trafikkcrawleren kan sjekke innholdet som gjenfinnes av ISP for brukeranmodninger med tanke på å duplisere testing mot tidligere kopier av det tilsvarende dokument. Det er derfor ikke nødvendig med ytterligere informasjonsnedlasting. • Trafikkcrawleren kan forbedre friskheten i forhold til en programvarecrawler på to måter: o Trafikkcrawleren detekterer manglende eller temporært utilgjengelige dokumenter. Deteksjonen kan typisk utføres ved å registrere når en http-anmodning til en gitt URL resulterer i en feilmelding slik som feil nummer 404. Disse feilslåtte anmodninger kunne benyttes i den tilhørende søketjeneste ved enten å fjerne de forbundne URL eller tilordne en lavere rangeringverdi til URLen for å sortere dokumentene i resultatlistene frembrakt av søkemotoren.
o Trafikkcrawleren kan potensielt analysere et nytt eller oppdatert dokument straks en av de forbundne ISP-klienter har lastet ned dokumentet. F.eks. kunne en ny pressemelding på denne måte gjøres søkbar straks en av ISP-klientene hadde lest artikkelen.
ISP-brukerne vil aksessere dynamiske sider og innholdet av disse sider kan derfor også gjøres søkbart. Det kan ofte være praktisk talt uendelig antall parameterkombinasjoner som kan benyttes til å generere en dynamisk side. De parameterkombinasjoner som virkelig benyttes i anmodningen, er derfor et meget rimelig valg for å definere mengden av dynamiske sider som skal gjøres søkbare. Dette er eksakt den samme mengde av dynamiske sider som trafikkcrawleren potensielt kan indeksere for etterfølgende søking.
Aksessmønsteret for ISP-brukere kan også benyttes til å forbedre relevansen i den tilknyttede søkeindeks. Steder som hyppig besøkes, kan bli rangert foran steder som sjelden besøkes. Slik aksesstelling kunne potensielt også utføres av søkemotoren selv ved å omdirigere brukervalgene i resultatlistene, men det er langt mer verdifullt å basere relevansberegning på det totale aksessmønster og ikke bare på aksessmønteret som følger som et resultat av søkene.
Implementeringen og utførelsen av trafikkcrawling skal nå diskuteres basert på henholdsvis et sentralisert og et desentralisert crawleopplegg.
Sentralisert trafikkcrawling
Det finnes en rekke måter å implementere en trafikkcrawler på basert på trafikken ved et aksesspunkt i datanettverk. Den foreliggende oppfinnelse vil angi en rekke mulig utførelser, og det vil derfor være innlysende for fagfolk hvordan forskjellige utførelsesvalg kan benyttes til å realisere de samme fordeler. Eksemplene som er vist i foreliggende oppfinnelse, vil benytte trafikken ved en ISP og indeksering av webdokumenter som eksempel, men det vil være innlysende for fagfolk at de samme prinsipper kan benyttes i lignende situasjoner så som intranettrafikk eller trådløse forbindelsespunkter.
Den virkelige aksess til dokumenter eller objekter som går gjennom en ISP kan realiseres på forskjellige måter. Et alternativ er å utnytte bufferlagringsmekanismene benyttet av ISP. Innholdet av et bufferminne kan enten periodisk indekseres for søking og alarmering eller søkeindeksen kunne bygges ut trinnvis hver gang et nytt dokument eller objekt lagres i webbufferminnet. Begrensningen ved denne metode er at de nåværende webbufferminner er utført for å redusere de eksterne båndbreddekrav til ISPen. Båndbreddemålsettingen bestemmer i høy grad hva slags objekter som holdes i webbufferminnet. Typisk vil en stor andel av webbufferminnet bestå av hyppig aksesserte multimediaobj ekter. En rekke av de mest interessante tekstsider for indeksering vil også ha definert et utløpsmerke som forteller webbufferminnet at de skal utelukkes fra bufferminnet.
Følgelig vil optimering av kvaliteten til trafikkcrawling enten kreve en modifikasjon av prosedyrene for webbufferlagring eller at et separat bufferminne må benyttes parallelt med webbufferminnet. Webbufferminnet vil i dette tilfelle velge objekter basert på båndbreddeoptimeringskriterier og søkeminnet vil velge objekter basert på dokumentkvalitet uttrykt ved søke-og alarmtjenester.
Fig. 3a viser hvordan en stedfortredende tjener 21 kan modifiseres for å kommunisere med et samarbeidende søkeminne 33. Søkeminnet 33 kan enten befinne seg på den samme datamaskin eller de samme datamaskiner som den stedfortredende tjener 21 eller den kan befinne seg på en annen datamaskin eller andre datamaskiner og kommunisere via et annet datanettverk. Den stedfortredende tjener 21 inneholder et internt webbufferminne 31 som benyttes til å redusere de eksterne båndbreddekrav. Det interne webbufferminne er ikke nødvendig for å implementere trafikkcrawlingen. En kommunikasjonsmodul 32 er innbefattet i den stedfortredende tjener 21. Kommunikasjonsmodulen 32 registrerer ved bussen 35 webanmodningene som via bussen 34 går gjennom den stedfortredende tjener 21 og registrerer og bufrer etter valg resultatmeldinger for anmodningene og det virkelige innhold som leveres til brukeren 11 som et resultat av anmodningene. Kommunikasjonsmodulen 32 overfører en del av denne informasjon til et søkeminne 33. Informasjon som overføres, kan settes opp slik at den omfatter: Bare anmodninger. Dette kan implementeres ved periodisk å overføre oppdateringene i aksessloggen til den stedfortredende tjener 21 fra kommunikasjonsmodulen 32 til søkeminnet 33. Hver aksessregistrering kan opsjonelt merkes med informasjon som:
o Brukerinformasjon, f. eks. IP- adressen
o Kryptert brukerinformasjon. På grunn av personvernforhold i webapplikasjoner vil det normalt være viktig å holde på anonymiteten til de individuelle brukere.
Kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 kan derfor settes opp slik at enten utelates all personlig
informasjon eller kodes slik at individuelle brukere kan skilles ut, men ikke identifiseres basert på data som kommer inn i søkeminnet. Eksempelvis kunne anmodningen merkes med et kryptert nummer basert på brukerens sesjonsidentifikasjon (user session ID). Denne fremgangsmåte gjør også fortrolighetstiltak
kontrollerbare av ISP 12 og internt i stedfortrederprogramvaren på ISP.
o Tilknyttet bruker informasjon slik som land og by. Denne informasjon kan holdes på et tilstrekkelig grovt nivå for å sikre at de individuelle brukere 11 ikke kan identifiseres basert på data som kommer inn i søkeminnet 33. Stedsinformasjonen kan genereres basert på hjelpedata registrert av ISP når de individuelle brukere etablerer en konto. Trådløse applikasjoner kan får stedsinformasjon fra f.eks. GPS-data skaffet av den trådløse innretning eller gjennom lokalisering av telefoner basert på f.eks. basestasjonidentifikasjoner og forsinkelsestider.
o Resultatkoden for web^ anmodningen. Søkeminnet 33 kan f.eks.
bruke denne informasjon til å fjerne døde lenker eller redusere rangen til lenker som ofte er temporært utilgjengelige.
o Hash- verdier for dokumentinnhold. Kommunikasjonsmodulen 32 kan beregne en eller flere hash-verdier som gjenspeiler
innholdet returnert til brukeren som resultat av anmodningen. Slike innholdsnøkler kan beregnes med en minimal CPU-administrasjon og utgjør en meget kompakt måte for å overføre informasjon til et muligvis fjernt søkeminne. Et fjernt søkeminne kan f.eks. benytte denne informasjon for sammenligning med historiske hash-verdier for samme dokument. Forandringer i hash-verdiene angir at dokumentet er blitt oppdatert, og at det bør crawles på nytt for å oppdatere søkeindeksen.
Anmodninger med innhold. Kommunikasjonsmodulen 32 kan også
sende det virkelige dokumentinnhold i tillegg til informasjonen omtalt ovenfor for anmodningen alene. Denne muligheten blir typisk valgt hvis det står en datakanal med høy kapasitet til rådighet mellom kommunikasjonsmodulen 32 og søkeminnet 33. Dokumentet blir gjenfunnet av ISP og kan derfor på denne måte gjøres tilgjengelig for indeksering og alarmering uten ytterligere anmodninger til den opprinnelige webtjener. Datastrømmen må i dette tilfelle splittes slik at en kopi av informasjon som returneres til brukeren 11, overføres fra kommunikasjonsmodulen 32 til søkeminnet 33. Det kan være
fordelaktig å utføre en viss filtrering i kommunikasjonsmodulen 32 for å redusere kommunikasjonen til søkeminnet 33. Typisk kunne bare anmodninger som det er av interesse å indeksere, bli overført. Eksempel på slike filtreringsregler inbefatter:
o Bare overføre http-GET-anmodninger
o Bare overføre anmodninger om MIME-typene text/<*>
o Bare overføre innhold for anmodninger med en resultatkode
som angir vellykket overføring.
o Bare overføre anmodninger for enten positivt identifiserte verter eller vor verter som ikke befinner seg i en database eller identifiserte verter som skal utelukkes.
Fig. 4 viser en mulig organisasjon av søkeminnet 33 som mottar informasjonsstrømmen fra kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 og benytter denne informasjon til å bygge en søkeindeks eller en alarmtjeneste. Søkeminnet 33 innbefatter en kommunikasjonsmodul 41 som håndterer datakommunikasjonen med kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21. Den aktuelle overføringslogikk kan f.eks. implementeres med sokler. Dataene som mottas fra kommunikasjonsmodulen 41, sendes for videre prosessering. Den første prosesseringstrinn er opsjonelt en avvisningslogikkfilter 42 som kan utvide og addere til filtreringsmekanismen beskrevet for kommunikasjonsmodulen inne i den stedfortredende tjener 21. Fordelen av å utføre avvisningsifltrering inne i den stedfortredende tjener 21 er at databåndbredden mellom den stedfortredende tjener 21 og søkeminnet 33 reduseres. Det er på den annen side også fordeler ved å utføre noe av avvisningsifltreringen inne i søkeminnet: • Belastningsøkningene for CPU som driver den stedfortredende tjener bør gjøres minimale. Prosesseringsadministrasjonen inne i kommunikasjonsmodulen 32 bør derfor holdes på et minimum. • Søkeminnet 33 vil typisk ha en hurtig aksess til dokumentinformasjon som er av viktighet for å lage gode avvisningsfiltre. Slik informasjon innbefatter f.eks. historiske hash-verdier for dokumentinnhold,
aksesstatistikk, og databaser med verter eller steder som skal avvises 33.
Det skal bemerkes at avvisningslogikken 42 kunne utføres i sanntid under den virkelige overføring. Overføringen kan derfor stoppes straks strømmen er blitt identifisert som et objekt som skal avvises av søkeminnet.
Desentralisert trafikkcrawling
Fig. 3b viser desentralisert trafikkcrawling fra klientprogramvare. Et sett av brukere 11 gjenfinner dokumenter fra en delt nettverksressurs så som Internett, mobilt Internett og intranett. Dokumentene gjenfinnes inne i klientprogramvaren 304; 306; 308. Klientprogramvaren kan typisk være webleserapplikasjoner. En kommunikasjonsmodul 305; 307; 309 kan plasseres enten internt inne i klientprogramvaren som en pluggbar eller en samvirkende modul. Kommunikasjonsmodulen kan når den aktiveres registrere dokumentidentifikatorene så som URLene til dokumentene gjenfunnet av klientprogramvaren. Kommunikasjonsmodulene kan videre sende den samme type informasjon som tidligere omtalt under sentralisert trafikkcrawling. Meldingene fra det desentraliserte sett av kommunikasjonsmoduler inne i programvaren aggregeres av en tjenerapplikasjon 310. Tjenerapplikasjonen 310 sender den innsamlede informasjon til et søkeminne 33 på eksakt samme måte som kommunikasjonsmodulen 32 i sentralisert trafikkcrawling sender informasjon til søkeminnet 33.
Desentralisert trafikkcrawling gjør det mulig å oppnå de samme fordeler som ved sentralisert trafikkcrawling, men uten behovet for å integrere systemet med ISPer eller lignende tjenester. Et desentralisert aksesspunkt blir i stedet benyttet gjennom klientprogramvaren og den desentraliserte aksessinformasjon aggregeres av kommunikasjon over nettet til en sentralisert tjenerapplikasjon.
Håndtering av privat informasjon kan lett tas hånd om i desentralisert trafikkcrawling, da brukeren gjennom klientprogramvaren eksplisitt aktiverer og deaktiverer kommunikasjonsmodulen.
Bufferlagring av trafikkinnhold skal nå omtales, med henvisning til den allerede omtalte fig. 4. Dokumentene som ikke avvises av avvisningslogikkfilteret 42, blir overført til en objektadministrator 43 som faktisk bufferlagrer informasjon forbundet med de forskjellige dokumenter. Objektadministratoren 43 innbefatter et fortrolighetsfilter 44 som kontrollerer at dokumentene i et temporært lager 47 slik at privat informasjon utelates i utgangsdataene fra objektadministratoren 43. Fortrolighetsfilteret 44 vil bli beskrevet separat nedenfor. Informasjonen lagret sammen med dokumenthenvisningen i objektadministratoren 43 kan innbefatte: • Informasjon festet til dokumentet av kommunikasjonsmodulen 32 inne i den stedfortredende tjener 21 som tidligere omtalt.
• Dokumentstatistikk som den sist modifiserte attributt.
• Aksesstatistikk som tidspunktet for først sett og tidspunktet for sist sett, antall aksesser i forskjellige tidsintervaller og antall forskjellige brukere som har aksessert dokumentene.
• Dokumentinnholdet selv.
• En statistisk rangverdi for dokumentet.
Objektadministratoren 43 kan enten fungere som en tjeneste som kontinuerlig eller periodisk gir ut datastrømmer 45, 46 med informasjon om nye, oppdaterte eller slettede dokumenter. Datastrømmene kan innbefatte enten bare dokumentreferanser 45 eller både dokumentreferanser 45 og det virkelige dokumentinnhold 46. Disse datakildene er av verdi for å danne en alarmtjeneste for weboppdateringer og forbedre størrelsen, friskheten og relevansen til generelle og spesialiserte søkemotorer på weben. Dokumentreferansene 45 kan benyttes som et reindekseringssignal for å styre crawleren 17 i en tradisjonell søkemotor, og det aktuelle dokumentinnhold 46 kan benyttes til også å erstatte crawlingen av disse dokumentene i en tradisjonell søkemotor.
Objektadministratoren 43 kan også benyttes som et bufferminne ved å øke den temporære lagring og innbefatte utkasteralgoritmer for fjerning av dokumenter fra bufferminnet. Levetidsattributten som kan tilordnes dokumenter for å instruere om webbufferlagring, er i realiteten ikke relevant for søkebufferlagring. Det aktuelle dokument aksessert av brukeren i den resulterende søketjeneste vil være det opprinnelige dokument. Den eneste risiko her er det i søkemotorer tradisjonelle problem at den indekserte tekst kan være utdatert sammenlignet med det virkelige dokument. Sannsynligheten for dette friskhetsproblemet er på den annen side sterkt redusert ved søketjenester basert på den foreliggende oppfinnelses lære. Bufferutkastingsprosedyren kunne være tett knyttet til dokumentrangverdien om denne verdien virkelig gjenspeiler dokumentenes kvalitet og/eller popularitet. Nye eller oppdaterte dokumenter kunne bli holdt i bufferminnet i et eller annet forhåndsdefinert minimumstidsrom slik at søketjenestene kan bygges for nyere weboppdateringer. Dynamiske objekter kunne ha redusert levetid i søkeminnet for å unngå en overdrevet stor mengde dynamiske objekter som vanligvis blir hyppig oppdatert.
Objektadministratoren 43 kunne også innbefatte en modul 48 for å beregne statiske rangverdier for dokumenter i det temporære lager 47. Rangverdien kan benyttes både for bufferlagringspraksis med tanke på bestemmelse av hvilke dokumenter som skal fjerne fra det temporære lager 47 og som inngang for å rangere søkeresultater i den resulterende søketjeneste. Rangeringskriteriet kan typisk være en kombinasjon av lenketopologi, dokumentinnhold og aksessmønster. Fordelen med trafikkcrawling er at kvaliteten til estimater om aksesstatistikken vil bli forbedret i forhold til kjent teknikk. Et eksempel på en enkel rangeringsformel begrenset til aksesstatistikk er:
r' =r+ wl- f (treffrate)-g(antall brukere som aksesserer dokument)+(i-^)
I denne ligningen betegner r den foregående rang av dokumentet og r' den oppdaterte rang til dokumentet, w er en vektings faktor i den rekursive oppdatering av rangeringsverdien. / betegner den gjennomsnittlige målrangverdi og kunne også benyttes som initialverdi for nye dokumenter. A betegner den gjennomsnittlige rang for den foregående rangering og benyttes til å stabilisere rangverdiene over tid basert på /. Funksjonene/og g er monotone funksjoner som øker vekten for dokumenter som aksesseres ofte og av mange brukere. Indekseringen av trafikkminnet skal nå kort forklares.
Objektadministratoren kan ganske enkelt bli benyttet til kontinuerlig eller periodisk å gi ut datastrømmer med informasjon om nye, oppdaterte eller slettede dokumenter 45, 46. Mottageren av de genererte datastrømmer vil i dette tilfelle ta hånd om indekseringen av denne informasjonen og den resulterende søketjenestegenerering. Et annet alternativ er å la objektadministratoren 43 benytte et bufferminne eller et temporært lager 47 og enten kontinuerlig eller periodisk indeksere innholdet i det temporære minne 47.
Fig. 5 viser hvordan innholdet i et søkeminne 51 kan omdannes til en søkeindeks. Den enkleste fremgangsmåte er periodisk å prosessere ved 54 hele innholdet i søkeminnet 51 for å konstruere en oppdatert søkeindeks 501. Alternativt kan et fullstendig søkeminne 52 indekseres én gang og deretter blir en trinnindeks 58 konstruert kontinuerlig eller periodisk ved 55 for oppdateringer 57 i søkeminnet 52. Trinnindeksen 58 må enten være direkte kombinert med en fullstendig indeks 502 eller periodisk flettet sammen med denne. Flettingen kan også implementeres ved ganske enkelt å omindeksere søkeminnet 52. Et annet alternativ er å la et søkeminne 53 dele dataene i grupper i henhold til de sist registrerte dokumentoppdateringer i søkeminnet. Gruppene kunne f.eks. være "siste uke" 59a, "siste dag" 59b og "siste time" 59c. De samme grupper ville derfor gjenspeiles i en ved 56 generert søkeindeks 503 som gruppene 59d, 59e, 59f. Slike grupper ville redusere indekseringsbehovene og fletteoperasjonene som er nødvendig for indeksene.
Dokumentrangen beregnet av indekseringsoperasjonen kan enten benytte rangverdien gitt av rangberegningen i modulen 48 innenfor objektadministratoren 43 eller den kan kombinere denne verdien med andre informasjonskilder, så som lenketopologi.
I henhold til den foreliggende oppfinnelse kan søkeminnet fordelaktig bli benyttet i en søketjeneste.
Fig. 6a viser en konfigurasjon for en søketjeneste som benytter søkeminneindeksen. Søkeindeksen generert fra søkeminnet er en indeks 62 som kan benyttes på en tradisjonell måte for å bygge søkemotortjenester. Brukeren 11 sender avspørringer 61 til søkeminneindeksen 62 som svarer med resultater 63 som returneres til brukeren. Søkemotoren kan øke de fordeler som skaffes av trafikkcrawleren som beskrevet i den foreliggende oppfinnelse.
Et annet alternativ er å kombinere søkeindeksen generert fra søkeminnet med en ekstern søkeindeks som f.eks. kunne være en generell Internett-søketjeneste i stor skala så som www. alltheweb. com. Brukerens 11 avspørring 64 vil i dette tilfelle bli sendt til en klareringsmodul 65 for avspørringen og det samme søk vil bli utført både i trafikkminneindeksen 66 og en samarbeidende søkeindeks 67. Resultatlistene frembrakt av de to søk blir flettet i en flettemodul 68 som tar hensyn til dokumentrangverdier. Endelig blir en enhetlig resultat konstruert og returnert til brukeren 11 som et svar 69 på den initiale avspørring. Fletteoperasjonen kan derfor velge forskjellige algoritmer for å rangere det lokale innhold returnert fra trafikkminneindeksen 62 mot innholdet fra den samarbeidende søkemotor som kan ha et globalt rangert innhold.
Opplegget med to samarbeidende søkemotorer kan lett utvides til å håndtere multiple søkemotorer med potensielt mer enn ett søkeminne.
Klareringsmodulen 65 og flettemodulen 68 må i dette tilfelle modifiseres for å kommunisere med det valgte sett av søketjenester. Lignende kombinasjoner med færre parallelle søkinger i multiple søkemotorer i kjent teknikk for bruk på Internett er tidligere kjent og blir vanligvis betegnet som metasøkemotorer.
Fremgangsmåten i henhold til den foreliggende oppfinnelse skal fordelaktig tillate bruken av regional eller bostedsspesifikk rangering.
Dokumentdatabasen for både Internett og mange intranett vokser som nevnt nesten eksponensielt. Imidlertid har avspørringskompleksiteten forblitt nesten praktisk talt uendret. Antallet dokumenter som svarer til et gitt spørsmål har derfor også vokst omtrent eksponensielt. Utfordringen med relevans for søkemotorer blir derfor viktigere og viktigere. Stedsinformasjon kan derfor spille en nøkkelrolle ved implementering av den nødvendige relevansforbedringer.
Stedskoding kan oppnås ved å studere innholdet og egenskapene til et gitt dokument. Informasjon så som adresser eller telefonnumre kan benyttes for å tilordning av dokumentet til et spesifikt geografisk sted. Alternativt kan aksessmønstrene til et gitt dokument fra forskjellige områder undersøkes og det kan identifiseres hvilke dokumenter som er statistisk overrepresentert uttrykt ved aksesser fra et gitt område. Søkemotoren kan benytte denne informasjonen til å danne områdespesifikke rangeringsformler. En spansk bruker av søketjenesten kunne f.eks. ha en rangering som benytter informasjon om hvilke steder som er populære blant spanske brukere. Det regionale aksessmønster kan også benyttes til å danne automatiske lister av populære dokumenter som er assosiert med hvilket som helst bestemt område. Disse listene kan ytterligere deles i kategorier og kan derfor benyttes til å danne automatiserte regionale portaltjenester.
Den romlig informasjon skaffet av trafikkcrawleren må holdes på et tilstrekkelig grovt nivå til at de individuelle brukere ikke kan identifiseres på basis av data som kommer inn i søkeminnet. Typisk bør alle annoterte områder ha et forhåndsdefinert minimalt antall brukere. Stedsinformasjon kan genereres basert på hjelpedata registrert av ISP når individuelle brukere oppretter en konto. Trådløse applikasjoner kan få stedsinformasjon fra GPS-data skaffet av den trådløse innretning eller gjennom lokalisering av telefoner basert på f.eks. bakkestasjonidentifikasjoner og forsinkelsestider.
Fremgangsmåten i henhold til oppfinnelsen vil fordelaktig være i stand til å skaffe informasjon som vil tillate beregning av dokumentlikhet basert på statistikk skaffet av trafikkcrawleren.
Kjente teknikker for crawling tillater analyse av lenketopologi mellom dokumenter og forskjellige teknikker for å tilordne dokumentprioritet basert på denne topologi er blitt foreslått. Lenketopologi er på den annen side ikke en tilstrekkelig kilde for relevans av viktige dokumentklasser som dynamiske objekter, nye dokumenter, binære filer og trådløse sider skrevet i Wireless Markup Language (WML). Alle disse eksempler har ingen eller relativt få lenker som kan benyttes for en lenketopologianalyse. Den temporale nærhet i anmodningsstatistikk levert av trafikkcrawleren kan være en nyttig kilde for å definere likhetsmålinger mellom dokumenter i visse situasjoner. Anmodningsstatistikken kan også bidra til likhetsmålinger hvor en rikere lenketopologi kan benyttes for de sistnevnte.
Fig. 7 viser det temporære nærhetsprinsipp for å definere dokumentlikhet. ISP 12 forbinder via grensesnittet 10 et antall sluttbrukere lia, 1 lb, 1 lc til webressurser 13 som består av tjenere 14 og individuelle dokumenter 15a, 15b, 15c, 15d samt multimediainnhold 16. Aksessloggen registrert av trafikkcrawleren kan deles mellom forskjellige brukere A,B,C slik at påfølgende anmodninger a,b,c,d,... fra samme bruker kan identifiseres via et grensesnitt 71. Brukerbeskyttelse kan fortsatt opprettholdes ved å kryptere brukerens identifikasjonsinformasjon. Det er tilstrekkelig for den følgende analyse at aksessloggen er annotert med sesjonsidentifikasjoner i stedet for brukeridentifikasjoner. Annotering med sesjonsidentifikasjon eller krypterte sesjonidentifikasjoner vil ytterligere opprettholde brukernes personvern.
Similaritetsdefinisjonen hviler på den antagelse at et individ vil hovedsakelig gjenfinne vil relatert informasjon innefor et kort tidsvindu eller innenfor et kort intervall av påfølgende anmodninger. Det er innlysende unntagelser til denne antagelse, men slumpmessige forandringer forårsaket av et skifte av fokus hos brukeren kan også forventes å ha en mer statistisk slumpmessig natur.
Fig. 8 viser en mulig definisjon av en vektingsfunksjon som definerer det temporale naboskap. Et eksempel er vist hvor bruker C anmoder om et dokument a på tidspunktet t0. En annen anmodning fra samme bruker eller sesjon rettes mot dokumentet b på tidspunktet ti. Anta også at k andre dokumentanmodninger har kommet fra samme bruker mellom anmodningene om dokumentene "a" og "b". En naboskapsvektingsfunksjon kan i dette tilfelle defineres som en funksjon w( k, t]- t0) hvor w er en funksjon som minker monotont med både k og \ trt0\. I forenklede modeller kan w velges som en signaturfunksjon eksempelvis for et gitt tidsintervall relativt til t0, f.eks. ( tM/ N - tMAx) eUer et gitt antall aksesser kj forut for t0 og et gitt antall aksesser k2 etter t0. Tilsvarende vektingsfunksjonsmodeller blir benyttet i andre applikasjoner så som algoritmer for å administrere sider i et virtuelt minne.
En rangert likhetsliste for et gitt dokument "a" kan nå etableres ved å måle den statistiske overrepresentasjon av andre dokumenter i naboskapet til anmodninger om "a"-dokumentet. Analysen kan enten utføres på et dokumentnivå eller på et stedsnivå hvor alle dokumenter som befinner seg på et gitt sted, ganske enkelt behandles som en anmodning til stedet på toppnivå. Rangeringsverdien kan basere seg på en rekke teknikker og det vil være innlysende for fagfolk hvordan små modifikasjoner av utførelsen i henhold til den foreliggende oppfinnelse kan benyttes. Likhetsrangen kan f.eks. være basert på en av de følgende målinger: • Totalt aksesstall innenfor et forhåndsdefinert naboskapstidsvindu med anmodninger om "a"-dokumentet. • Den totale sum av naboskapsvektingsfunksjon w for alle aksesser innenfor et forhåndsbestemt naboskapsvindu med anmodninger om "a"-dokumentet.
Den statistiske signifikans av det observerte antall av "b"-anmodninger innenfor en forhåndsbestemt naboskapsvindu for anmodninger til "a"-dokumentet. Den statistiske test kan baseres på en nullhypotese som antar at alle anmodninger til "a"- og "b"-dokumenter virkelig er ikke-relatert. Videre kan det tas hensyn til den generelle aksessfrekvens til "a"- og "b"-dokumenter i den statistiske test. En lignende statistisk test kan utføres ved å benytte den totale sum av naboskapsvektingsfunksjon w som den observasjonsvariable i stedet for anmodningstellingen.
En dokumentlikhetsliste kan derfor beregnes for hvilket som helst dokument "a" ved å sortere dokumenter etterspurt innenfor et forhåndsbestemt naboskapsvindu av anmodninger til "a"-dokumentet i henhold til en av de foreslåtte likhetsrangfunksjoner. Kvaliteten til slike likhetslister kan forbedres ved å fjerne trivielle likheter så som dokumenter på samme sted eller dokumenter som det er direkte henvist til med hyperlenker i "a"-dokumentet.
Likhetslistene kan også beregnes for en gruppe av dokumenter i stedet for et enkelt dokument. Dette kan lett implementeres for å behandle en hvilken som helst anmodning om et dokument i dokumentgruppen som en henvisning til "a"-dokumentet i den foregående beskrivelse. Alternativt kan affiniteten forbedres ved å vekte anmodningene med en brukerlikhetsfaktor som f.eks. kunne telle antallet dokumenter felles for dokumentgruppen og hver av aksessloggene for individuelle sesjoner.
Personalisert rangering og dokumentvalg kan oppnås på denne måte ved f.eks. å beregne en dokumentlikhetsliste basert på et sett av brukervalgte dokumenter. Brukeren kan enten velge disse dokumenter eksplisitt eller et automatisk valg kan foretas på basis av favorittvalg innenfor webleseren eller aksesshistorien registrert enten lokalt av klientens webleser eller ved aksessporten.
Søketjenester og alarmtjenester kan benytte denne informasjon for å tillate brukeren å danne en personlig rangeringsformel. Den personlige rangering kunne favorisere de følgende dokumenter i resultatlistene:
• Dokumenter som virkelig er levert av brukeren
• Nye dynamiske sider som er relatert til dokumenter levert av brukeren så som nyhetsartikler på et avissted. • Dokumenter som har høye likhetsfaktorer slik som beskrevet ovenfor, med sett av dokumenter levert av brukeren.
Den foreliggende oppfinnelse kan også benyttes til å etablere relevansalgoritmer på basis av dokumentlikhetstopologi.
Modifikasjon av definisjonen av det forhåndsbestemte naboskapsvindu for likhetsrangering kan utlede interessante egenskaper hos dokumentene. Det er f.eks, mulig å sammenligne rangverdien mellom to dokumenter "a" og "b" med to naboskapsvinduer, ett 10 minutter etter "a"-anmodninger og ett 10 minutter før "a"-anmodninger. Forskjellen i disse to verdier vil både gi informasjon om relasjonen mellom "a" og "b" og arten av innhold i "a". Disse verdier vil faktisk definere den reelle effektive lenketopologi mellom dokumenter basert på virkelig bruk. Verdiene kan sammenlignes med hyperlenketopologien eller erstatte hyperlenketopologien som basis for dokumentrelevansberegninger. Det vil være innlysende for fagfolk hvordan kjente metoder for relevans basert på lenketopologi kan utvides til trafikkavledet brukstopologi som vist i den foreliggende oppfinnelse. To slike alternativer er: • For det første å tilordne en initial dokumentrangering til hvert dokument. Den kan enten være den samme for alle dokumenter eller ta andre informasjonskilder i betraktning for å differensiere dokumentet. For det annet kan dokumentrangverdiene forplantes ved den omtalte brukstopologi ved å vekte de initiale dokumentrangverdier med lenkestyrken. • Algoritmer som forekommer i kjent teknikk, så som siderang- eller HITS-algoritmen kan benyttes som interative modeller for å forplante sideranger gjennom den omtalte brukstopologi.
I de fleste web- og trådløse applikasjoner hvor den foreliggende oppfinnelse skal benyttes, vil det være avgjørende at brukerens personvern opprettholdes. Indeksering av trafikkinnholdet ved aksesspunkter i datanettverk kunne potensielt gjøre privat informasjon søkbar for en stor brukerskare. Følgelig skal fremgangsmåten i henhold til den foreliggende oppfinnelse være i stand til å sikre brukerens personvern.
Separate protokoller er blitt utviklet som sikkert og korrekt transporterer webobjekter, f.eks. https-protokollen. Webtj enere som er verter for private innholdsobjekter skulle bruke slike protokoller dersom de ønsket å garantere diskresjon overfor brukeren. Uheldigvis er imidlertid det motsatte vanlig praksis. En rekke forskjellige metoder blir benyttet til å skjule privat innhold på webtj enere, mens det virkelige innhold fortsatt transporteres som klar tekst. En god del av det private innhold er lagret som dynamiske objekter og har derfor generelt ikke vært tilgjengelig i søketjenester i henhold til kjent teknikk. Den foreliggende oppfinnelse viser hvordan dynamiske objekter også kan effektivt indekseres og gjøres søkbare.
De følgende prinsipper kan benyttes til å unngå indeksering av privat eller følsom informasjon: • Sikre protokoller så som https-protokollen er innlysende ikke indeksert. • Indeksering er begrenset til http-get-anmodninger. Noen personlige objekter gjenfinnes f.eks. ved å bruke en http-post-operasjon på tjeneren. Resultater fra disse operasjoner lagres ikke. • Noen ganger er dynamisk og personlige innhold beskyttet av en eller annen versjon av http-autentiseringsmekanismene. Disse arbeider ved å sette spesifikke felter i http-anmodningstoppteksten. Denne type autentisering kan automatisk detekteres for å ekskludere resulterende informasjon fra indeksering. • Indekseringen kan begrenses til dokumenter som er blitt sett på av et forhåndbestemt minimalt antall brukere. Indeksering av informasjon som bare en enkelt bruker har sett på, kan på denne måten unngås. • Indeksering kan begrenses til anmodninger som ikke inneholder småkaker (cookies) for å unngå at en småkake ikke transporterer personlig informasjon som er nødvendig for å gjenfinne dokumentet. • Indeksering kan begrenses til et forhåndsbestemt sett av steder og verter. • Indekseringen kan utelukke forhåndsbestemte steder og verter som ikke bør indekseres.
Detekterte dokumenthenvisninger kan til slutt crawles på ny for å
sjekke at informasjon faktisk er generelt tilgjengelig for hvem som helst.
Selv om den foreliggende oppfinnelse spesielt er blitt beskrevet med henvisning til foretrukkede utførelsesformer, skal det forstås av fagfolk at det kan gjøres forskjellige forandringer i form og detalj i disse uten å avvike fra oppfinnelsens grunnidé. Bruken av spesifikke protokoller og formater er ikke et nødvendig trekk ved den foreliggende oppfinnelse. F.eks. kan andre trådløse protokoller erstatte WAP/WML uten å påvirke prinsippene som ligger til grunn for den foreliggende oppfinnelse. Modifikasjoner av denne art kan gjøres uten å gå ut over rammen for oppfinnelsen slik den er vist i de vedføyde krav.
Claims (36)
1. Fremgangsmåte til søking og analyse av trafikkinnholdet ved aksesspunkter i datanettverk, hvor datanettverkene er delte nettverkressurser, spesielt det fullstendige Internett eller et intranett, hvor aksesspunktene spesielt er Internett-aksesspunkter for brukere betjent av en Internett-tjenesteleverandør eller fordelt i form av en applikasjon til en rekke brukere eller et forbindelsespunkt for trådløse brukere, hvor forbindelsespunktet enten er et naturlig forbindelsespunkt eller en internettport for multiple forbindelsespunkter, og hvor fremgangsmåten er karakterisert ved å omfatte trinn for å innsamle informasjon i form av data utledet av informasjonsflyten ved aksesspunktene i datanettverket,
å indeksere den innsamlede informasjon med en forhåndsdefinert maksimum tidsforsinkelse, og å søke og gjenfinne informasjon fra den indekserte informasjon, og dessuten valgfrie trinn basert på en analyse av trafikkinnholdet ved aksesspunkter for å stedskode innsamlet informasjon i form av dokumenter, å måle likheten av dokumentene, og å alarmere brukere med hensyn til ny og oppdatert informasjon.
2. Fremgangsmåte i henhold til krav 1,
karakterisert ved å lagre innsamlet informasjon ved bufferlagring i ett eller flere bufferminner anordnet ved et eller flere aksesspunkter.
3. Fremgangsmåte i henhold til krav 2,
karakterisert ved å bufferlagre innsamlet informasjon for en økende mengde av tidsintervaller i to eller flere bufferminner, å indeksere den bufferlagrede informasjon i hvert av bufferminnene gjentatte ganger for å generere forbundne søkeindekser for en økende mengde av tidsintervaller, og å kombinere søkeresultatene fra de genererte søkeindekser.
4. Fremgangsmåte i henhold til krav 2,
karakterisert ved å holde den bufferlagrede informasjon i et bufferminne inntil innholdet i dette er blitt indeksert.
5. Fremgangsmåte i henhold til krav 4,
karakterisert ved å beregne friskheten til bufferlagret informasjon på basis av medgått tid siden den siste oppdatering av gitt trafikkinnholdsenhet.
6. Fremgangsmåte i henhold til krav 2,
karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å bufferlagre trafikkinnholdet henholdsvis for å minimere eksterne båndbreddekrav og å holde frisk og relevant informasjon for indeksering.
7. Fremgangsmåte i henhold til krav 6,
karakterisert ved å bufferlagre trafikkinnholdet i begge henseender i henholdsvis to dediserte bufferminner.
8. Fremgangsmåte i henhold til krav 2,
karakterisert ved å prosessere gjentatt den bufferlagrede informasjon med en forhåndsdefinert maksimum tidsforsinkelse for å indeksere den innsamlede informasjon og generere en søkeindeks for denne.
9. Fremgangsmåte i henhold til krav 8,
karakterisert ved å oppdatere søkeindeksen trinnvis ved å detektere ny eller oppdatert informasjon som ikke tidligere er blitt observert ved et aksesspunkt, og å addere den nye eller oppdaterte informasjon til søkeindeksen.
10. Fremgangsmåte i henhold til krav 8,
karakterisert ved å benytte trafikkinnholdet observert mellom to indekseringsoperasjoner på den bufferlagrede informasjon for å generere en tidsbestemt søkeindeks med friskt trafikkinnhold siden den siste indekseringsoperasjon ble utført på den bufferlagrede informasjon, og å utføre søking ved å kombinere søking både i den tidsbestemte søkeindeks og en aller nyeste søkeindeks generert ved å indeksere den bufferlagrede informasjon.
11. Fremgangsmåte i henhold til krav 1,
karakterisert ved å begrense indekseringen av den innsamlede informasjon til undermengden av trafikkinnholdet som ikke er blitt forkastet av et sensitivitetsfilter, idet sensitivitetsfilteret er innrettet til å detektere en eller flere av de følgende, nemlig pornografisk materiale, privat materiale, spesielt privat materiale som bare er blitt aksessert av et gitt forhåndsdefinert lite antall brukere, og materiale fra http-post-operasjoner.
12. Fremgangsmåte i henhold til krav 1,
karakterisert ved at trinnet for å søke og gjenfinne informasjon
innbefatter et undertrinn for relevansrangering eller datafiltrering avhengig av en registrert tidsattributt for trafikkinnholdsenheter, idet den registrerte tidsattributt er én eller flere av de følgende, nemlig dannelsestidspunktet for en trafikkinnholdsenhet, den siste gang en trafikkinnholdsenhet ble modifisert, tidspunktet for den første observasjon av en gitt trafikkinnholdsenhet ved et aksesspunkt og tidspunktet for en siste observasjon av en gitt trafikkinnholdsenhet ved aksesspunktet.
13. Fremgangsmåte i henhold til krav 1,
karakterisert ved at trinnet for å søke og gjenfinne informasjon innbefatter et undertrinn for relevansrangering avhengig av aksesstelling av individuelle trafikkinnholdsenheter gjennom et aksesspunkt.
14. Fremgangsmåte i henhold til krav 1, hvor trinnet for å søke og gjenfinne informasjon implementeres av minst én samarbeidende søkemotor, karakterisert ved at nevnte trinn innbefatter undertrinn for å sende søkeanmodninger til den minst ene samarbeidende søkemotor, å innsamle søkeresultateter fra den minst ene samarbeidende søkemotor, og å kombinere de innsamlede søkeresultater for å skaffe et enhetlig resultat for en initial søkeanmodning.
15. Fremgangsmåte i henhold til krav 14, hvor den samarbeidende søkemotor er en internettsøkemotor,
karakterisert ved å indeksere informasjon som er crawlet fra Internett med søkemotoren,
16. Fremgangsmåte i henhold til krav 14, hvor trinnet for å søke og gjenfinne informasjon implementeres av mer enn én samarbeidende søkemotor,
karakterisert ved å anordne en søkemotor i henholdsvis minst ett aksesspunkt i datanettverket.
17. Fremgangsmåte i henhold til krav 1,
karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å detektere etterspurt informasjon som var utilgjengelig, og å benytte informasjon om den utilgjengelige informasjon for enten å fjerne eller redusere rangeringen av en forbundet innførsel i en søkeindeks, spesielt en samarbeidende søkeindeks.
18. Fremgangsmåte i henhold til krav 1, hvor trinnet for å søke og gjenfinne informasjon implementeres av minst én samarbeidende søkemotor, karakterisert ved at trinnet for å innsamle informasjon innbefatter undertrinn for å detektere ny eller oppdatert informasjon som ikke tidligere er blitt observert ved et aksesspunkt, og å benytte informasjonen om den nye og oppdaterte informasjon til å utbygge en søkeindeks i den minst ene samarbeidende søkemotor.
19. Fremgangsmåte i henhold til krav 1,
karakterisert ved at det valgfrie trinn for å stedskode dokumenter innbefatter undertrinn for å innsamle dokumentidentifikatorer for etterspurte dokumenter, å annotere dokumentidentifikatorene med romlig informasjon om brukere som inngir anmodningene, å beregne aksesstatistikk for minst ett dokument, idet aksesstatistikken innbefatter minst antall dokumentanmodninger fra et romlig område og det totale antall anmodninger fra det romlige område, og å bestemme hvilke dokumenter som er mest spesifikke for et gitt romlig område ved å sammenligne aksesstatistikken for det gitte romlige område med tilsvarende aksesstatistikk for minst ett annet romlig område.
20. Fremgangsmåte i henhold til krav 19,
karakterisert ved å utlede den romlige informasjon fra brukerdata registrert av et Internett-tjenesteleverandør.
21. Fremgangsmåte i henhold til krav 19,
karakterisert ved å utlede den romlige informasjon fra stedet for mobilinnretning som etterspør om et dokument.
22. Fremgangsmåte i henhold til krav 19,
karakterisert ved å velge en romlig granularitet slik at et tilstrekkelige antall brukere fås innenfor hvert romlige område for å sikre at individuelle brukere ikke kan identifiseres i aksesstatistikken.
23. Fremgangsmåte i henhold til krav 19,
karakterisert ved å bestemme dokumentspesifisiteten ved å beregne sannsynligheten for at aksesstatistikken for minst to romlige områder tilhører samme statistiske fordeling.
24. Fremgangsmåte i henhold til krav 19,
karakterisert ved å bestemme dokumentspesifisiteten ved å
bestemme et stort romlig område som statistikk for en nullhypotese, og å beregne en statistisk signifikans av en differansetest på aksesstatistikken for et gitt romlig område.
25. Fremgangsmåte i henhold til krav 23,
karakterisert ved å benytte en områdespesifikk skåring for å skaffe stedssensitiv rangering av søkeresultater.
26. Fremgangsmåte i henhold til krav 24,
karaktterisert ved å benytte en områdespesifikk skåring for å skaffe trafikkavhengige lister over populære områdespesifikke dokumenter.
27. Fremgangsmåte i henhold til krav 26,
karakterisert ved å dele dokumentlistene i kategoriunderlister ved automatisk kategorianalyse av dokumentinnholdet.
28. Fremgangsmåte i henhold til krav 1,
karakterisert ved at det valgfrie trinn for å måle likheten til dokumenter innbefatter undertrinn for å innsamle dokumentidentifikatorer for de etterspurte dokumenter, å annotere dokumentanmodningene slik at påfølgende anmodninger fra den samme bruker kan identifiseres, og å beregne en dokumentlikhet mellom et dokument "b" og et referansedokument "a" ved å sammenligne antallet "b"-anmodninger i nærheten av "a"-anmodninger med en midlere frekvens av "b"-anmodninger.
29. Fremgangsmåte i henhold til krav 28,
karakterisert ved å benytte likhetsmåling for å skaffe en rangert liste av like dokumenter basert på enhver gitt dokumentinngang.
30. Fremgangsmåte i henhold til krav 29,
karakterisert ved å beregne rangeringslisten ved å utelate dokumenter fra det samme sted som inngangsdokumentet.
31. Fremgangsmåte i henhold til krav 28,
karakterisert ved å kombinere likhetsmåling enten med en likhetsmåling basert på dokumentinnhold eller med likhetsmålinger basert på telling av antall samsiteringer.
32. Fremgangsmåte i henhold til krav 28,
karakterisert ved å beregne likhetsmålingen for en gruppe av dokumentidentifikatorer ved å behandle alle anmodninger om ett av dokumentene i gruppen som en etterspørsel om "a"-dokumentet.
33. Fremgangsmåte i henhold til krav 32,
karakterisert ved å benytte en undermengde av en brukers weblogg som gruppen av dokumentidentifikatorer.
34. Fremgangsmåte i henhold til krav 33,
karakterisert ved å benytte gruppen av dokumentidentifikatorer som et uttrykk for brukerpreferanser, og å danne en personalisert rangering av søkeresultater basert på likhetsmålingen.
35. Fremgangsmåte i henhold til krav 33,
karakterisert ved å beregne dokumentrangeringen på basis av en lenketopologi-analyse, idet likhetsmålingen benyttes til å definere en lenketopologi og forbundne vekter.
36. Fremgangsmåte i henhold til krav 1,
karakterisert ved at det valgfrie trinn for å alarmere omfatter undertrinn for å innsamle i sanntid informasjon utledet fra datastrømmen ved et aksesspunkt i datanettverket, å detektere ny og/eller oppdatert informasjon som ikke tidligere er blitt observert ved aksesspunktet, å sammenligne den nye og/eller oppdaterte informasjon med et sett av brukerprofiler, og å sende alarmmeldinger til brukere forbundet med brukerprofiler som er trigget av den nye og/eller oppdaterte informasjon.
Priority Applications (18)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20004595A NO313399B1 (no) | 2000-09-14 | 2000-09-14 | Fremgangsmate til soking og analyse av informasjon i datanettverk |
DE60126798T DE60126798T2 (de) | 2000-09-14 | 2001-09-11 | Verfahren zum durchsuchen und analysieren von informationen in datennetzen |
AT01970362T ATE354831T1 (de) | 2000-09-14 | 2001-09-11 | Verfahren zum durchsuchen und analysieren von informationen in datennetzen |
PL36071401A PL360714A1 (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
HU0301788A HUP0301788A2 (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
CA2420382A CA2420382C (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
CNB018156568A CN1279475C (zh) | 2000-09-14 | 2001-09-11 | 用于在数据网络中搜索和分析信息的方法 |
KR10-2003-7003774A KR100514149B1 (ko) | 2000-09-14 | 2001-09-11 | 데이터 네트워크의 정보 검색 및 분석 방법 |
IL15449201A IL154492A0 (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
BRPI0113882A BRPI0113882B1 (pt) | 2000-09-14 | 2001-09-11 | método para buscar e analisar o conteúdo de tráfego em pontos de acesso em redes de dados |
PCT/NO2001/000371 WO2002023398A1 (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
AU9036301A AU9036301A (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
CZ2003510A CZ2003510A3 (cs) | 2000-09-14 | 2001-09-11 | Způsob vyhledávání a analyzování informací v datových sítích |
AU2001290363A AU2001290363B2 (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
EP01970362A EP1325434B1 (en) | 2000-09-14 | 2001-09-11 | A method for searching and analysing information in data networks |
JP2002527976A JP2004509415A (ja) | 2000-09-14 | 2001-09-11 | データ・ネットワークにおいて情報を検索および分析する方法 |
US09/950,883 US7093012B2 (en) | 2000-09-14 | 2001-09-13 | System and method for enhancing crawling by extracting requests for webpages in an information flow |
IS6735A IS6735A (is) | 2000-09-14 | 2003-03-03 | Aðferð til að leita að og greina upplýsingar í gagnaflutningsnetum |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20004595A NO313399B1 (no) | 2000-09-14 | 2000-09-14 | Fremgangsmate til soking og analyse av informasjon i datanettverk |
Publications (3)
Publication Number | Publication Date |
---|---|
NO20004595D0 NO20004595D0 (no) | 2000-09-14 |
NO20004595L NO20004595L (no) | 2002-03-15 |
NO313399B1 true NO313399B1 (no) | 2002-09-23 |
Family
ID=19911580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20004595A NO313399B1 (no) | 2000-09-14 | 2000-09-14 | Fremgangsmate til soking og analyse av informasjon i datanettverk |
Country Status (17)
Country | Link |
---|---|
US (1) | US7093012B2 (no) |
EP (1) | EP1325434B1 (no) |
JP (1) | JP2004509415A (no) |
KR (1) | KR100514149B1 (no) |
CN (1) | CN1279475C (no) |
AT (1) | ATE354831T1 (no) |
AU (2) | AU2001290363B2 (no) |
BR (1) | BRPI0113882B1 (no) |
CA (1) | CA2420382C (no) |
CZ (1) | CZ2003510A3 (no) |
DE (1) | DE60126798T2 (no) |
HU (1) | HUP0301788A2 (no) |
IL (1) | IL154492A0 (no) |
IS (1) | IS6735A (no) |
NO (1) | NO313399B1 (no) |
PL (1) | PL360714A1 (no) |
WO (1) | WO2002023398A1 (no) |
Families Citing this family (217)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8271316B2 (en) * | 1999-12-17 | 2012-09-18 | Buzzmetrics Ltd | Consumer to business data capturing system |
US8775197B2 (en) * | 2000-02-24 | 2014-07-08 | Webmd, Llc | Personalized health history system with accommodation for consumer health terminology |
US7197470B1 (en) * | 2000-10-11 | 2007-03-27 | Buzzmetrics, Ltd. | System and method for collection analysis of electronic discussion methods |
NO315887B1 (no) * | 2001-01-04 | 2003-11-03 | Fast Search & Transfer As | Fremgangsmater ved overforing og soking av videoinformasjon |
US7398271B1 (en) * | 2001-04-16 | 2008-07-08 | Yahoo! Inc. | Using network traffic logs for search enhancement |
US20030061206A1 (en) * | 2001-09-27 | 2003-03-27 | Richard Qian | Personalized content delivery and media consumption |
JP4283466B2 (ja) * | 2001-10-12 | 2009-06-24 | 富士通株式会社 | リンク関係に基づく文書整理方法 |
US20080256069A1 (en) * | 2002-09-09 | 2008-10-16 | Jeffrey Scott Eder | Complete Context(tm) Query System |
US7249312B2 (en) * | 2002-09-11 | 2007-07-24 | Intelligent Results | Attribute scoring for unstructured content |
US8090717B1 (en) * | 2002-09-20 | 2012-01-03 | Google Inc. | Methods and apparatus for ranking documents |
US7568148B1 (en) | 2002-09-20 | 2009-07-28 | Google Inc. | Methods and apparatus for clustering news content |
US20050076233A1 (en) * | 2002-11-15 | 2005-04-07 | Nokia Corporation | Method and apparatus for transmitting data subject to privacy restrictions |
US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
US8095500B2 (en) * | 2003-06-13 | 2012-01-10 | Brilliant Digital Entertainment, Inc. | Methods and systems for searching content in distributed computing networks |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7467131B1 (en) * | 2003-09-30 | 2008-12-16 | Google Inc. | Method and system for query data caching and optimization in a search engine system |
EP1777633A3 (en) * | 2003-09-30 | 2007-12-12 | Google, Inc. | Document scoring based on query analysis |
US7797316B2 (en) | 2003-09-30 | 2010-09-14 | Google Inc. | Systems and methods for determining document freshness |
US7774499B1 (en) * | 2003-10-30 | 2010-08-10 | United Online, Inc. | Accelerating network communications |
US7240064B2 (en) * | 2003-11-10 | 2007-07-03 | Overture Services, Inc. | Search engine with hierarchically stored indices |
FR2862460A1 (fr) * | 2003-11-14 | 2005-05-20 | Canon Kk | Procede d'acces a un document numerique dans un reseau de communication |
US7647378B2 (en) * | 2003-11-17 | 2010-01-12 | International Business Machines Corporation | Personnel search enhancement for collaborative computing |
JP2005165750A (ja) * | 2003-12-03 | 2005-06-23 | Ricoh Co Ltd | Webサーバ機能を有する組み込み機器 |
US8548170B2 (en) | 2003-12-10 | 2013-10-01 | Mcafee, Inc. | Document de-registration |
US7774604B2 (en) * | 2003-12-10 | 2010-08-10 | Mcafee, Inc. | Verifying captured objects before presentation |
US7814327B2 (en) * | 2003-12-10 | 2010-10-12 | Mcafee, Inc. | Document registration |
US7984175B2 (en) | 2003-12-10 | 2011-07-19 | Mcafee, Inc. | Method and apparatus for data capture and analysis system |
US8656039B2 (en) | 2003-12-10 | 2014-02-18 | Mcafee, Inc. | Rule parser |
US7899828B2 (en) | 2003-12-10 | 2011-03-01 | Mcafee, Inc. | Tag data structure for maintaining relational data over captured objects |
US7930540B2 (en) * | 2004-01-22 | 2011-04-19 | Mcafee, Inc. | Cryptographic policy enforcement |
US7725414B2 (en) | 2004-03-16 | 2010-05-25 | Buzzmetrics, Ltd An Israel Corporation | Method for developing a classifier for classifying communications |
EP1763755A4 (en) | 2004-04-30 | 2010-04-14 | Commvault Systems Inc | HIERARCHICAL SYSTEMS AND METHODS FOR PROVIDING A UNIFIED VIEW OF STORAGE INFORMATION |
US8266406B2 (en) | 2004-04-30 | 2012-09-11 | Commvault Systems, Inc. | System and method for allocation of organizational resources |
US7565445B2 (en) | 2004-06-18 | 2009-07-21 | Fortinet, Inc. | Systems and methods for categorizing network traffic content |
US7836044B2 (en) * | 2004-06-22 | 2010-11-16 | Google Inc. | Anticipated query generation and processing in a search engine |
US7962591B2 (en) * | 2004-06-23 | 2011-06-14 | Mcafee, Inc. | Object classification in a capture system |
US8131674B2 (en) * | 2004-06-25 | 2012-03-06 | Apple Inc. | Methods and systems for managing data |
US7693856B2 (en) * | 2004-06-25 | 2010-04-06 | Apple Inc. | Methods and systems for managing data |
US7730012B2 (en) * | 2004-06-25 | 2010-06-01 | Apple Inc. | Methods and systems for managing data |
US7698626B2 (en) * | 2004-06-30 | 2010-04-13 | Google Inc. | Enhanced document browsing with automatically generated links to relevant information |
US9026534B2 (en) * | 2004-07-21 | 2015-05-05 | Cisco Technology, Inc. | Method and system to collect and search user-selected content |
US20060036579A1 (en) * | 2004-08-10 | 2006-02-16 | Byrd Stephen A | Apparatus, system, and method for associating resources using a time based algorithm |
GB2417342A (en) * | 2004-08-19 | 2006-02-22 | Fujitsu Serv Ltd | Indexing system for a computer file store |
KR100605017B1 (ko) * | 2004-08-20 | 2006-07-28 | 학교법인 울산공업학원 | 동적 확장이 가능한 알몬 에이전트 시스템 |
US8560534B2 (en) | 2004-08-23 | 2013-10-15 | Mcafee, Inc. | Database for a capture system |
US8341135B2 (en) * | 2004-09-07 | 2012-12-25 | Interman Corporation | Information search provision apparatus and information search provision system |
US7606793B2 (en) * | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
WO2006039566A2 (en) | 2004-09-30 | 2006-04-13 | Intelliseek, Inc. | Topical sentiments in electronically stored communications |
US8464311B2 (en) * | 2004-10-28 | 2013-06-11 | International Business Machines Corporation | Method and system for implementing privacy notice, consent, and preference with a privacy proxy |
US20060106769A1 (en) | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
US7584194B2 (en) * | 2004-11-22 | 2009-09-01 | Truveo, Inc. | Method and apparatus for an application crawler |
JP2008521147A (ja) | 2004-11-22 | 2008-06-19 | トゥルベオ インコーポレイテッド | アプリケーションクローラの方法及び装置 |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
CN100458776C (zh) * | 2005-01-13 | 2009-02-04 | 龙搜(北京)科技有限公司 | 网络缓存管理的系统和方法 |
US10210159B2 (en) * | 2005-04-21 | 2019-02-19 | Oath Inc. | Media object metadata association and ranking |
US8732175B2 (en) * | 2005-04-21 | 2014-05-20 | Yahoo! Inc. | Interestingness ranking of media objects |
JP2008539508A (ja) * | 2005-04-25 | 2008-11-13 | マイクロソフト コーポレーション | 電子文書を使った情報の関連付け |
US7769742B1 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Web crawler scheduler that utilizes sitemaps from websites |
US7801881B1 (en) | 2005-05-31 | 2010-09-21 | Google Inc. | Sitemap generating client for web crawler |
US9158855B2 (en) | 2005-06-16 | 2015-10-13 | Buzzmetrics, Ltd | Extracting structured data from weblogs |
US8086605B2 (en) * | 2005-06-28 | 2011-12-27 | Yahoo! Inc. | Search engine with augmented relevance ranking by community participation |
CN100452921C (zh) | 2005-07-08 | 2009-01-14 | 华为技术有限公司 | 实现网络服务提供商发现的方法及相应装置 |
US20070033229A1 (en) * | 2005-08-03 | 2007-02-08 | Ethan Fassett | System and method for indexing structured and unstructured audio content |
US20070100779A1 (en) * | 2005-08-05 | 2007-05-03 | Ori Levy | Method and system for extracting web data |
US7907608B2 (en) * | 2005-08-12 | 2011-03-15 | Mcafee, Inc. | High speed packet capture |
US20070198486A1 (en) * | 2005-08-29 | 2007-08-23 | Daniel Abrams | Internet search engine with browser tools |
US7818326B2 (en) * | 2005-08-31 | 2010-10-19 | Mcafee, Inc. | System and method for word indexing in a capture system and querying thereof |
US7499919B2 (en) * | 2005-09-21 | 2009-03-03 | Microsoft Corporation | Ranking functions using document usage statistics |
US7730011B1 (en) | 2005-10-19 | 2010-06-01 | Mcafee, Inc. | Attributes of captured objects in a capture system |
KR100656953B1 (ko) * | 2005-10-20 | 2006-12-14 | 엔에이치엔(주) | 방문 웹사이트 검색 시스템 및 이를 이용한 방문 웹사이트검색 방법 |
US8849821B2 (en) * | 2005-11-04 | 2014-09-30 | Nokia Corporation | Scalable visual search system simplifying access to network and device functionality |
US7657104B2 (en) | 2005-11-21 | 2010-02-02 | Mcafee, Inc. | Identifying image type in a capture system |
KR100695009B1 (ko) * | 2005-12-01 | 2007-03-14 | 한국전자통신연구원 | 소프트웨어 기반 프리필터링을 이용한 스트림 데이터 처리시스템 및 그 방법 |
US7827191B2 (en) * | 2005-12-14 | 2010-11-02 | Microsoft Corporation | Discovering web-based multimedia using search toolbar data |
US8572330B2 (en) | 2005-12-19 | 2013-10-29 | Commvault Systems, Inc. | Systems and methods for granular resource management in a storage network |
US8661216B2 (en) * | 2005-12-19 | 2014-02-25 | Commvault Systems, Inc. | Systems and methods for migrating components in a hierarchical storage network |
US7651593B2 (en) | 2005-12-19 | 2010-01-26 | Commvault Systems, Inc. | Systems and methods for performing data replication |
WO2007075587A2 (en) | 2005-12-19 | 2007-07-05 | Commvault Systems, Inc. | Systems and methods for performing data replication |
US20110010518A1 (en) | 2005-12-19 | 2011-01-13 | Srinivas Kavuri | Systems and Methods for Migrating Components in a Hierarchical Storage Network |
US7606844B2 (en) | 2005-12-19 | 2009-10-20 | Commvault Systems, Inc. | System and method for performing replication copy storage operations |
US7580930B2 (en) * | 2005-12-27 | 2009-08-25 | Baynote, Inc. | Method and apparatus for predicting destinations in a navigation context based upon observed usage patterns |
US7599931B2 (en) * | 2006-03-03 | 2009-10-06 | Microsoft Corporation | Web forum crawler |
US8504537B2 (en) | 2006-03-24 | 2013-08-06 | Mcafee, Inc. | Signature distribution in a document registration system |
US8214360B2 (en) * | 2006-04-06 | 2012-07-03 | International Business Machines Corporation | Browser context based search disambiguation using existing category taxonomy |
US20070239682A1 (en) * | 2006-04-06 | 2007-10-11 | Arellanes Paul T | System and method for browser context based search disambiguation using a viewed content history |
US7958227B2 (en) | 2006-05-22 | 2011-06-07 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US7689614B2 (en) | 2006-05-22 | 2010-03-30 | Mcafee, Inc. | Query generation for a capture system |
CN100456298C (zh) * | 2006-07-12 | 2009-01-28 | 百度在线网络技术(北京)有限公司 | 广告信息检索系统及广告信息检索方法 |
US8726242B2 (en) | 2006-07-27 | 2014-05-13 | Commvault Systems, Inc. | Systems and methods for continuous data replication |
US7728868B2 (en) | 2006-08-02 | 2010-06-01 | Inneroptic Technology, Inc. | System and method of providing real-time dynamic imagery of a medical procedure site using multiple modalities |
US8533226B1 (en) | 2006-08-04 | 2013-09-10 | Google Inc. | System and method for verifying and revoking ownership rights with respect to a website in a website indexing system |
US7930400B1 (en) | 2006-08-04 | 2011-04-19 | Google Inc. | System and method for managing multiple domain names for a website in a website indexing system |
US8775452B2 (en) | 2006-09-17 | 2014-07-08 | Nokia Corporation | Method, apparatus and computer program product for providing standard real world to virtual world links |
US20080071770A1 (en) * | 2006-09-18 | 2008-03-20 | Nokia Corporation | Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices |
US7660783B2 (en) * | 2006-09-27 | 2010-02-09 | Buzzmetrics, Inc. | System and method of ad-hoc analysis of data |
US9037581B1 (en) | 2006-09-29 | 2015-05-19 | Google Inc. | Personalized search result ranking |
US7599920B1 (en) * | 2006-10-12 | 2009-10-06 | Google Inc. | System and method for enabling website owners to manage crawl rate in a website indexing system |
US20080147878A1 (en) * | 2006-12-15 | 2008-06-19 | Rajiv Kottomtharayil | System and methods for granular resource management in a storage network |
CN101226619B (zh) * | 2007-01-17 | 2012-11-21 | 阿里巴巴集团控股有限公司 | 实现统计邮件中超链接url点击率的系统及方法 |
US20080215541A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Techniques for searching web forums |
US20080235163A1 (en) * | 2007-03-22 | 2008-09-25 | Srinivasan Balasubramanian | System and method for online duplicate detection and elimination in a web crawler |
US8290986B2 (en) * | 2007-06-27 | 2012-10-16 | Yahoo! Inc. | Determining quality measures for web objects based on searcher behavior |
EP2176730A4 (en) * | 2007-08-08 | 2011-04-20 | Baynote Inc | METHOD AND APPARATUS FOR CONTENT RECOMMENDATION BASED ON CONTEXT |
US20090063448A1 (en) * | 2007-08-29 | 2009-03-05 | Microsoft Corporation | Aggregated Search Results for Local and Remote Services |
JP2009064055A (ja) | 2007-09-04 | 2009-03-26 | Hitachi Ltd | 計算機システム及びセキュリティ管理方法 |
US9348912B2 (en) * | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US20090106221A1 (en) * | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US20090150433A1 (en) * | 2007-12-07 | 2009-06-11 | Nokia Corporation | Method, Apparatus and Computer Program Product for Using Media Content as Awareness Cues |
US8347326B2 (en) | 2007-12-18 | 2013-01-01 | The Nielsen Company (US) | Identifying key media events and modeling causal relationships between key events and reported feelings |
US8024285B2 (en) * | 2007-12-27 | 2011-09-20 | Microsoft Corporation | Determining quality of tier assignments |
WO2009094646A2 (en) | 2008-01-24 | 2009-07-30 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for image guided ablation |
US8429176B2 (en) * | 2008-03-28 | 2013-04-23 | Yahoo! Inc. | Extending media annotations using collective knowledge |
US8812493B2 (en) * | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US8205242B2 (en) | 2008-07-10 | 2012-06-19 | Mcafee, Inc. | System and method for data mining and security policy management |
US8244608B2 (en) * | 2008-07-28 | 2012-08-14 | Autodesk, Inc. | Takeoff list palette for guiding semi-automatic quantity takeoff from computer aided design drawings |
US9253154B2 (en) | 2008-08-12 | 2016-02-02 | Mcafee, Inc. | Configuration management for a capture/registration system |
CN101667179B (zh) * | 2008-09-03 | 2012-08-15 | 华为技术有限公司 | 移动搜索方法及其系统、搜索服务器同步元索引的方法 |
US8751559B2 (en) | 2008-09-16 | 2014-06-10 | Microsoft Corporation | Balanced routing of questions to experts |
US20100125484A1 (en) * | 2008-11-14 | 2010-05-20 | Microsoft Corporation | Review summaries for the most relevant features |
US9495382B2 (en) | 2008-12-10 | 2016-11-15 | Commvault Systems, Inc. | Systems and methods for performing discrete data replication |
US8204859B2 (en) | 2008-12-10 | 2012-06-19 | Commvault Systems, Inc. | Systems and methods for managing replicated database data |
US8850591B2 (en) | 2009-01-13 | 2014-09-30 | Mcafee, Inc. | System and method for concept building |
US8706709B2 (en) | 2009-01-15 | 2014-04-22 | Mcafee, Inc. | System and method for intelligent term grouping |
US8001462B1 (en) | 2009-01-30 | 2011-08-16 | Google Inc. | Updating search engine document index based on calculated age of changed portions in a document |
US8690776B2 (en) | 2009-02-17 | 2014-04-08 | Inneroptic Technology, Inc. | Systems, methods, apparatuses, and computer-readable media for image guided surgery |
US8641621B2 (en) | 2009-02-17 | 2014-02-04 | Inneroptic Technology, Inc. | Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures |
US11464578B2 (en) | 2009-02-17 | 2022-10-11 | Inneroptic Technology, Inc. | Systems, methods, apparatuses, and computer-readable media for image management in image-guided medical procedures |
US8554307B2 (en) | 2010-04-12 | 2013-10-08 | Inneroptic Technology, Inc. | Image annotation in image-guided medical procedures |
US9195739B2 (en) | 2009-02-20 | 2015-11-24 | Microsoft Technology Licensing, Llc | Identifying a discussion topic based on user interest information |
US8473442B1 (en) | 2009-02-25 | 2013-06-25 | Mcafee, Inc. | System and method for intelligent state management |
JP4600700B2 (ja) | 2009-03-17 | 2010-12-15 | 日本電気株式会社 | プログラムのメモリ空間への配置方法、装置、およびプログラム |
US8667121B2 (en) | 2009-03-25 | 2014-03-04 | Mcafee, Inc. | System and method for managing data and policies |
US8447722B1 (en) | 2009-03-25 | 2013-05-21 | Mcafee, Inc. | System and method for data mining and security policy management |
US8527658B2 (en) * | 2009-04-07 | 2013-09-03 | Verisign, Inc | Domain traffic ranking |
US9292612B2 (en) | 2009-04-22 | 2016-03-22 | Verisign, Inc. | Internet profile service |
US8103768B2 (en) * | 2009-04-14 | 2012-01-24 | At&T Intellectual Property I, Lp | Network aware forward caching |
US8370504B2 (en) * | 2009-07-15 | 2013-02-05 | Verisign, Inc. | Method and system for predicting domain name registration renewal probability |
US9009296B1 (en) * | 2009-08-07 | 2015-04-14 | Google Inc. | System and method of determining latency |
US9201965B1 (en) | 2009-09-30 | 2015-12-01 | Cisco Technology, Inc. | System and method for providing speech recognition using personal vocabulary in a network environment |
US8489390B2 (en) * | 2009-09-30 | 2013-07-16 | Cisco Technology, Inc. | System and method for generating vocabulary from network data |
US8468195B1 (en) | 2009-09-30 | 2013-06-18 | Cisco Technology, Inc. | System and method for controlling an exchange of information in a network environment |
US8990083B1 (en) | 2009-09-30 | 2015-03-24 | Cisco Technology, Inc. | System and method for generating personal vocabulary from network data |
US8504517B2 (en) | 2010-03-29 | 2013-08-06 | Commvault Systems, Inc. | Systems and methods for selective data replication |
US8725698B2 (en) | 2010-03-30 | 2014-05-13 | Commvault Systems, Inc. | Stub file prioritization in a data replication system |
US8504515B2 (en) | 2010-03-30 | 2013-08-06 | Commvault Systems, Inc. | Stubbing systems and methods in a data replication environment |
US8935274B1 (en) | 2010-05-12 | 2015-01-13 | Cisco Technology, Inc | System and method for deriving user expertise based on data propagating in a network environment |
WO2011150391A1 (en) | 2010-05-28 | 2011-12-01 | Commvault Systems, Inc. | Systems and methods for performing data replication |
US8874727B2 (en) | 2010-05-31 | 2014-10-28 | The Nielsen Company (Us), Llc | Methods, apparatus, and articles of manufacture to rank users in an online social network |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8332408B1 (en) | 2010-08-23 | 2012-12-11 | Google Inc. | Date-based web page annotation |
US8806615B2 (en) | 2010-11-04 | 2014-08-12 | Mcafee, Inc. | System and method for protecting specified data combinations |
CN101964000B (zh) * | 2010-11-09 | 2013-05-15 | 焦点科技股份有限公司 | 一种敏感词自动过滤管理系统 |
US20130212615A1 (en) * | 2010-11-10 | 2013-08-15 | Thomson Licensing | Gateway remote control system and method of operation |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
US9424351B2 (en) | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
US9195745B2 (en) | 2010-11-22 | 2015-11-24 | Microsoft Technology Licensing, Llc | Dynamic query master agent for query execution |
US9342582B2 (en) | 2010-11-22 | 2016-05-17 | Microsoft Technology Licensing, Llc | Selection of atoms for search engine retrieval |
US8478704B2 (en) | 2010-11-22 | 2013-07-02 | Microsoft Corporation | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components |
US8713024B2 (en) | 2010-11-22 | 2014-04-29 | Microsoft Corporation | Efficient forward ranking in a search engine |
US8620907B2 (en) | 2010-11-22 | 2013-12-31 | Microsoft Corporation | Matching funnel for large document index |
US8667169B2 (en) | 2010-12-17 | 2014-03-04 | Cisco Technology, Inc. | System and method for providing argument maps based on activity in a network environment |
US9465795B2 (en) | 2010-12-17 | 2016-10-11 | Cisco Technology, Inc. | System and method for providing feeds based on activity in a network environment |
US9854055B2 (en) | 2011-02-28 | 2017-12-26 | Nokia Technologies Oy | Method and apparatus for providing proxy-based content discovery and delivery |
US8553065B2 (en) | 2011-04-18 | 2013-10-08 | Cisco Technology, Inc. | System and method for providing augmented data in a network environment |
US8528018B2 (en) | 2011-04-29 | 2013-09-03 | Cisco Technology, Inc. | System and method for evaluating visual worthiness of video data in a network environment |
US8620136B1 (en) | 2011-04-30 | 2013-12-31 | Cisco Technology, Inc. | System and method for media intelligent recording in a network environment |
US8909624B2 (en) | 2011-05-31 | 2014-12-09 | Cisco Technology, Inc. | System and method for evaluating results of a search query in a network environment |
US20120324538A1 (en) * | 2011-06-15 | 2012-12-20 | Cisco Technology, Inc. | System and method for discovering videos |
US8560509B2 (en) * | 2011-07-08 | 2013-10-15 | Microsoft Corporation | Incremental computing for web search |
US8886797B2 (en) | 2011-07-14 | 2014-11-11 | Cisco Technology, Inc. | System and method for deriving user expertise based on data propagating in a network environment |
CN102904765B (zh) * | 2011-07-26 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 数据上报的方法及设备 |
JP5673520B2 (ja) * | 2011-12-20 | 2015-02-18 | 株式会社Jvcケンウッド | 情報処理装置、情報処理方法、及び情報処理プログラム |
US8700561B2 (en) | 2011-12-27 | 2014-04-15 | Mcafee, Inc. | System and method for providing data protection workflows in a network environment |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
WO2013116240A1 (en) | 2012-01-30 | 2013-08-08 | Inneroptic Technology, Inc. | Multiple medical device guidance |
US8831403B2 (en) | 2012-02-01 | 2014-09-09 | Cisco Technology, Inc. | System and method for creating customized on-demand video reports in a network environment |
CN103312523B (zh) * | 2012-03-16 | 2016-02-17 | 腾讯科技(深圳)有限公司 | 一种业务提醒消息的推送方法及装置、系统 |
CA2779235C (en) | 2012-06-06 | 2019-05-07 | Ibm Canada Limited - Ibm Canada Limitee | Identifying unvisited portions of visited information |
US9600351B2 (en) | 2012-12-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Inversion-of-control component service models for virtual environments |
US10379988B2 (en) | 2012-12-21 | 2019-08-13 | Commvault Systems, Inc. | Systems and methods for performance monitoring |
CN103902449B (zh) * | 2012-12-28 | 2018-05-25 | 百度在线网络技术(北京)有限公司 | 一种用于生成搜索引擎相关性排序测试用例的方法与设备 |
US9049134B2 (en) * | 2013-03-08 | 2015-06-02 | Disney Enterprises, Inc. | Network condition predictions for multimedia streaming |
US10314559B2 (en) | 2013-03-14 | 2019-06-11 | Inneroptic Technology, Inc. | Medical device guidance |
US9916289B2 (en) * | 2013-09-10 | 2018-03-13 | Embarcadero Technologies, Inc. | Syndication of associations relating data and metadata |
US9836765B2 (en) | 2014-05-19 | 2017-12-05 | Kibo Software, Inc. | System and method for context-aware recommendation through user activity change detection |
US9191374B1 (en) * | 2014-09-22 | 2015-11-17 | Belkin International Inc. | Routing device data caching |
US10284299B2 (en) | 2014-06-02 | 2019-05-07 | Belkin International, Inc. | Optimizing placement of a wireless range extender |
US10769176B2 (en) * | 2015-06-19 | 2020-09-08 | Richard Chino | Method and apparatus for creating and curating user collections for network search |
US9832196B2 (en) * | 2014-09-15 | 2017-11-28 | Bank Of America Corporation | Network monitoring device |
US9901406B2 (en) | 2014-10-02 | 2018-02-27 | Inneroptic Technology, Inc. | Affected region display associated with a medical device |
US9160680B1 (en) | 2014-11-18 | 2015-10-13 | Kaspersky Lab Zao | System and method for dynamic network resource categorization re-assignment |
US10188467B2 (en) | 2014-12-12 | 2019-01-29 | Inneroptic Technology, Inc. | Surgical guidance intersection display |
US10616433B2 (en) * | 2015-01-27 | 2020-04-07 | Brother Kogyo Kabushiki Kaisha | Image processing device |
CN106330988B (zh) * | 2015-06-16 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 一种超文本传输请求的补发方法、装置及客户端 |
US10275320B2 (en) | 2015-06-26 | 2019-04-30 | Commvault Systems, Inc. | Incrementally accumulating in-process performance data and hierarchical reporting thereof for a data stream in a secondary copy operation |
US9949700B2 (en) | 2015-07-22 | 2018-04-24 | Inneroptic Technology, Inc. | Medical device approaches |
CN105243124B (zh) | 2015-09-29 | 2018-11-09 | 百度在线网络技术(北京)有限公司 | 资源组合处理方法及装置 |
KR102226721B1 (ko) * | 2015-10-21 | 2021-03-11 | 에스케이텔레콤 주식회사 | 데이터 검색 장치 및 방법 |
US10248494B2 (en) | 2015-10-29 | 2019-04-02 | Commvault Systems, Inc. | Monitoring, diagnosing, and repairing a management database in a data storage management system |
US9535957B1 (en) * | 2015-11-24 | 2017-01-03 | International Business Machines Corporation | Electronic file management based on user affinity |
US9675319B1 (en) | 2016-02-17 | 2017-06-13 | Inneroptic Technology, Inc. | Loupe display |
CN106649468B (zh) * | 2016-09-28 | 2023-04-07 | 杭州电子科技大学 | 一种cdn网络内容查询方法及系统 |
US10278778B2 (en) | 2016-10-27 | 2019-05-07 | Inneroptic Technology, Inc. | Medical device navigation using a virtual 3D space |
CN108228582B (zh) * | 2016-12-09 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 一种搜索方法和装置 |
US11259879B2 (en) | 2017-08-01 | 2022-03-01 | Inneroptic Technology, Inc. | Selective transparency to assist medical device navigation |
US10897447B2 (en) * | 2017-11-07 | 2021-01-19 | Verizon Media Inc. | Computerized system and method for automatically performing an implicit message search |
US10831591B2 (en) | 2018-01-11 | 2020-11-10 | Commvault Systems, Inc. | Remedial action based on maintaining process awareness in data storage management |
US11484365B2 (en) | 2018-01-23 | 2022-11-01 | Inneroptic Technology, Inc. | Medical image guidance |
US20200192572A1 (en) | 2018-12-14 | 2020-06-18 | Commvault Systems, Inc. | Disk usage growth prediction system |
US11468076B2 (en) * | 2019-03-20 | 2022-10-11 | Universal Research Solutions, Llc | System and method for dynamic data filtering |
US10503792B1 (en) | 2019-05-10 | 2019-12-10 | Georgetown University | Cache optimization via topics in web search engines |
US11151167B2 (en) | 2019-05-10 | 2021-10-19 | Georgetown University | Cache optimization via topics in web search engines |
US11042318B2 (en) | 2019-07-29 | 2021-06-22 | Commvault Systems, Inc. | Block-level data replication |
CN111198804B (zh) * | 2019-12-30 | 2023-09-05 | 中电工业互联网有限公司 | 基于网关的工业互联网平台第三方微服务监控预警方法 |
US11327947B1 (en) | 2021-01-04 | 2022-05-10 | Bank Of America Corporation | System for identifying, tagging, and monitoring data flow in a system environment |
US11809285B2 (en) | 2022-02-09 | 2023-11-07 | Commvault Systems, Inc. | Protecting a management database of a data storage management system to meet a recovery point objective (RPO) |
CN114553541B (zh) * | 2022-02-17 | 2024-02-06 | 苏州良医汇网络科技有限公司 | 一种分级校验防爬虫的方法、装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5557748A (en) * | 1995-02-03 | 1996-09-17 | Intel Corporation | Dynamic network configuration |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US5855020A (en) * | 1996-02-21 | 1998-12-29 | Infoseek Corporation | Web scan process |
US6038668A (en) * | 1997-09-08 | 2000-03-14 | Science Applications International Corporation | System, method, and medium for retrieving, organizing, and utilizing networked data |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
US6163778A (en) * | 1998-02-06 | 2000-12-19 | Sun Microsystems, Inc. | Probabilistic web link viability marker and web page ratings |
US6292475B1 (en) * | 1998-07-08 | 2001-09-18 | Motorola, Inc. | Flow initiated burst mode communication for wireless communication network systems and method |
US6219676B1 (en) * | 1999-03-29 | 2001-04-17 | Novell, Inc. | Methodology for cache coherency of web server data |
US6253198B1 (en) * | 1999-05-11 | 2001-06-26 | Search Mechanics, Inc. | Process for maintaining ongoing registration for pages on a given search engine |
US6430595B1 (en) * | 1999-05-20 | 2002-08-06 | Cisco Technology, Inc. | Method and apparatus for establishing a database used for correlating information gathered via SNMP |
US6883135B1 (en) * | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
-
2000
- 2000-09-14 NO NO20004595A patent/NO313399B1/no unknown
-
2001
- 2001-09-11 CA CA2420382A patent/CA2420382C/en not_active Expired - Fee Related
- 2001-09-11 BR BRPI0113882A patent/BRPI0113882B1/pt not_active IP Right Cessation
- 2001-09-11 AU AU2001290363A patent/AU2001290363B2/en not_active Ceased
- 2001-09-11 WO PCT/NO2001/000371 patent/WO2002023398A1/en active IP Right Grant
- 2001-09-11 DE DE60126798T patent/DE60126798T2/de not_active Expired - Lifetime
- 2001-09-11 HU HU0301788A patent/HUP0301788A2/hu unknown
- 2001-09-11 IL IL15449201A patent/IL154492A0/xx unknown
- 2001-09-11 PL PL36071401A patent/PL360714A1/xx unknown
- 2001-09-11 JP JP2002527976A patent/JP2004509415A/ja active Pending
- 2001-09-11 KR KR10-2003-7003774A patent/KR100514149B1/ko active IP Right Grant
- 2001-09-11 CN CNB018156568A patent/CN1279475C/zh not_active Expired - Lifetime
- 2001-09-11 EP EP01970362A patent/EP1325434B1/en not_active Expired - Lifetime
- 2001-09-11 AT AT01970362T patent/ATE354831T1/de not_active IP Right Cessation
- 2001-09-11 AU AU9036301A patent/AU9036301A/xx active Pending
- 2001-09-11 CZ CZ2003510A patent/CZ2003510A3/cs unknown
- 2001-09-13 US US09/950,883 patent/US7093012B2/en not_active Expired - Lifetime
-
2003
- 2003-03-03 IS IS6735A patent/IS6735A/is unknown
Also Published As
Publication number | Publication date |
---|---|
CZ2003510A3 (cs) | 2003-08-13 |
IL154492A0 (en) | 2003-09-17 |
EP1325434B1 (en) | 2007-02-21 |
AU2001290363B2 (en) | 2006-02-02 |
BRPI0113882B1 (pt) | 2016-05-10 |
IS6735A (is) | 2003-03-03 |
AU9036301A (en) | 2002-03-26 |
DE60126798D1 (de) | 2007-04-05 |
CN1459064A (zh) | 2003-11-26 |
CN1279475C (zh) | 2006-10-11 |
CA2420382C (en) | 2011-04-19 |
EP1325434A1 (en) | 2003-07-09 |
HUP0301788A2 (en) | 2003-08-28 |
US7093012B2 (en) | 2006-08-15 |
NO20004595D0 (no) | 2000-09-14 |
CA2420382A1 (en) | 2002-03-21 |
KR100514149B1 (ko) | 2005-09-13 |
US20020032772A1 (en) | 2002-03-14 |
NO20004595L (no) | 2002-03-15 |
WO2002023398A1 (en) | 2002-03-21 |
PL360714A1 (en) | 2004-09-20 |
BR0113882A (pt) | 2003-07-15 |
JP2004509415A (ja) | 2004-03-25 |
KR20030048045A (ko) | 2003-06-18 |
ATE354831T1 (de) | 2007-03-15 |
DE60126798T2 (de) | 2007-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO313399B1 (no) | Fremgangsmate til soking og analyse av informasjon i datanettverk | |
AU2001290363A1 (en) | A method for searching and analysing information in data networks | |
JP4025379B2 (ja) | 検索システム | |
US7627568B2 (en) | Method and system for updating a search engine database based on popularity of links | |
US8572100B2 (en) | Method and system for recording search trails across one or more search engines in a communications network | |
US7594011B2 (en) | Network traffic monitoring for search popularity analysis | |
US9348918B2 (en) | Searching content in distributed computing networks | |
US8346753B2 (en) | System and method for searching for internet-accessible content | |
JP3990115B2 (ja) | サーバ側プロキシ装置及びプログラム | |
US9380022B2 (en) | System and method for managing content variations in a content deliver cache | |
JP2007526537A (ja) | 持続的にイベントデータを記憶および提供するためのサーバアーキテクチャおよび方法 | |
CN101551813A (zh) | 网络连接设备、搜索设备及搜集搜索引擎数据源的方法 | |
US7249219B1 (en) | Method and apparatus to improve buffer cache hit rate | |
US20040205049A1 (en) | Methods and apparatus for user-centered web crawling | |
NO20013308L (no) | Apparat for söking på Internett | |
Ferreira et al. | Plethora: An efficient wide-area storage system | |
AU2004313991B2 (en) | Method and system for recording search trails across one or more search engines in a communications network | |
Simon | Workload characterization in decentralized networks | |
Gupta et al. | A review on efficient web crawling | |
Rahman et al. | Forming, Validation, Verification and Updation of Web Client Clusters Using Prefetching and Socket Clones Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CREP | Change of representative |
Representative=s name: ZACCO NORWAY AS, POSTBOKS 2003 VIKA, 0125 OSLO, NO |