CN111428105A - 一种基于爬虫缓存的网页书签管理方法及其系统 - Google Patents
一种基于爬虫缓存的网页书签管理方法及其系统 Download PDFInfo
- Publication number
- CN111428105A CN111428105A CN202010148931.1A CN202010148931A CN111428105A CN 111428105 A CN111428105 A CN 111428105A CN 202010148931 A CN202010148931 A CN 202010148931A CN 111428105 A CN111428105 A CN 111428105A
- Authority
- CN
- China
- Prior art keywords
- webpage
- bookmark
- user terminal
- cache
- proxy server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 62
- 230000003068 static effect Effects 0.000 claims abstract description 21
- 230000003139 buffering effect Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于爬虫缓存的网页书签管理方法及其系统,网页书签管理方法步骤包括:用户终端对需要访问的网页保存在书签管理工具中;用户终端向缓存代理服务器发起书签管理请求;缓存代理服务器对书签管理工具中的网页执行爬虫和网络请求:将网页标题和相关信息保存在对应的网页书签;当爬到该网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更;用户终端进行网页访问;缓存代理服务器对用户终端的网页访问内容进行缓冲;若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。本发明能够对网页书签的进行自动管理,并且可以对无效网页进行缓存数据的访问。
Description
技术领域
本发明涉及网页书签技术领域,特别涉及一种基于爬虫缓存的网页书签管理方法及其系统。
背景技术
网页书签管理,目前大多数用户都是依靠浏览器中的书签管理器,每一次都需要手动添加、修改和删除等操作,管理起来极其繁琐。
随着互联网的不断提高和发展,很多网站和分享页面也不断增多,用户对网页书签管理同时增加管理困难,对书签有管理要求的用户可能会通过多层目录来对网页链接进行保存或整理,但这种方法并不能达到较好的效果。同时,用户也无法每时每刻去查看网页是否已经无效,是否已经变更等状态,导致书签会越来越多,越来越乱,所以一个好的书签管理方法装置,是能很好的节省用户操作和改善用户体验。
关于网页书签管理,有两个核心的要求,第一是能及时发现异常的情况(即可能出现攻击),第二是在大流量的攻击中把真正的攻击者找出来。
目前的网页书签管理装置一般是采用浏览器的书签管理器,手动去对网络链接进行保存,在需要打开的时候去查找相关链接,同时还可能需要靠人的记忆相关字段,然后才完成打开网页的操作,这种装置的缺陷在于需要对大量的手动操作,极大浪费用户的时间,还有当网址已经变更或者无效时,用户也无法立即知道,导致用户通常已经不会去查找书签,甚至直接重新通过网络搜索器重新查找对应内容。
发明内容
本发明要解决的技术问题在于,提供一种基于爬虫缓存的网页书签管理方法及其系统,能够对网页书签的进行自动管理,不仅大大地减轻用户的操作量,还可以让用户更清晰地管理自己的书签,并且本发明对网页数据进行缓存,使得访问网页无效情况下,用户也可以通过缓存数据进行网页访问。
为解决上述技术问题,本发明提供如下技术方案:一种基于爬虫缓存的网页书签管理方法,包括以下步骤:
S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求:
当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;
当爬到网页的标题、页面文字或json数据等一系列网页内容的相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;
当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
S4、用户终端通过书签管理工具进行网页访问;若访问的网页为有效情况下,则跳转到网页进行访问,缓存代理服务器对用户终端的网页访问内容进行缓冲,当对网页的访问进行结束后,缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容;若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。
进一步地,所述步骤S3前还包括步骤S2、用户终端向缓存代理服务器发起书签管理请求。
进一步地,所述步骤S2前还包括步骤S1、用户终端对需要访问的网页以书签方式保存在书签管理工具中。
进一步地,所述步骤S1中的相关信息包括网页的页面文字和json数据。
本发明另一目的是提供一种基于爬虫缓存的网页书签管理系统,包括用户终端、缓存代理服务器和网页服务器,所述用户终端包括书签管理工具;
所述书签管理工具用于存储网页的网址、标题以及相关信息;
所述用户终端用于对所述书签管理工具中的网页进行访问,所述网页服务器存储有网页的访问信息,用户终端连接网页服务器进行网页访问;
所述缓存代理服务器连接所述用户终端和网页服务器,其用于对书签管理工具中的网页执行爬虫和网络请求:当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;当爬到网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容;
所述用户终端还用于:当访问网页服务器的网页为无效时,对所述缓存代理服务器进行访问,缓存代理服务器将静态内容反馈给用户终端。
采用上述技术方案后,本发明至少具有如下有益效果:本发明通过爬虫网页,这样可以准确地自动变更网页标题以及相关内容,并且能够及时通知用户,让用户可以清晰的知道网页的主题内容;本发明对网页进行缓存静态内容,当检测网页已经无效时,可以返回用户最后一次访问的静态内容,这样使得用户即便未查看完网页内容,也能保证能查看静态内容。
附图说明
图1为本发明一种基于爬虫缓存的网页书签管理方法步骤流程图;
图2为本发明一种基于爬虫缓存的网页书签管理系统框架图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
本发明主要用于解决目前的网页书签管理低下的管理方法和解决网页访问等问题,本发明通过采用旁路部署检测缓存代理设备,并且部署爬虫式的书签管理工具的方法,缓存代理服务器对网页进行爬虫和缓存,爬虫主要是爬书签的标题,这样可以准确的自动变更网页标题并且通知用户,让用户可以清晰的知道网页的主题内容;同时会对网页进行缓存静态内容,当检测网页已经无效时,可以返回用户最后一次访问的静态内容,这样使得用户即便未查看完网页内容,也能保证能查看静态内容。
实施例1
如图1所示,本发明提供一种基于爬虫缓存的网页书签管理方法,其具体步骤如下:
S1、用户终端对需要访问的网页(网址)以书签方式保存在书签管理工具中;
S2、用户终端向缓存代理服务器发起书签管理请求;
S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求:
如果某一网页书签只有网址信息,而没有对应的网页标题和相关信息的,此时,当爬到该网页书签的网页标题或相关信息,需要将网页标题和相关信息保存在书签管理工具中对应的网页书签,生成网页书签信息;将书签管理工具中的所有网页书签都爬虫一遍,并保存每一个网页书签的网页标题和相关信息;上述的相关信息包括网页的页面文字和json数据;
如果某一网页书签已经保存了对应的网页标题和相关信息的,此时,当爬到该网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;
当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
S4、用户终端通过书签管理工具进行网页访问;
若访问的网页为有效情况下,则跳转到网页进行访问,缓存代理服务器对用户终端的网页访问内容进行缓冲,当对网页的访问进行结束后,缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容;另外,如果该网页已经多次进行了访问,那么缓存代理服务器只会对最新一次网页访问的内容进行保存并形成静态内容,将旧的静态内容删除;
若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。
实施例2
本实施例是在实施例1的网页书签管理方法基础上公开一种基于爬虫缓存的网页书签管理系统,如图2所示,包括用户终端、缓存代理服务器和网页服务器,所述用户终端包括书签管理工具;
所述书签管理工具用于存储网页的网址、标题以及相关信息;
所述用户终端用于对所述书签管理工具中的网页进行访问,所述网页服务器存储有网页的访问信息,用户终端连接网页服务器进行网页访问;
所述缓存代理服务器连接所述用户终端和网页服务器,其用于对书签管理工具中的网页执行爬虫和网络请求:当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;当爬到网页的标题、页面文字或json数据等一系列网页内容的相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容;
所述用户终端还用于:当访问网页服务器的网页为无效时,对所述缓存代理服务器进行访问,缓存代理服务器将静态内容反馈给用户终端。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (5)
1.一种基于爬虫缓存的网页书签管理方法,其特征在于,包括以下步骤:
S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求:
当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;
当爬到网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;
当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
S4、用户终端通过书签管理工具进行网页访问;若访问的网页为有效情况下,则跳转到网页进行访问,缓存代理服务器对用户终端的网页访问内容进行缓冲,当对网页的访问进行结束后,缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容;若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。
2.根据权利要求1所述的一种基于爬虫缓存的网页书签管理方法,其特征在于,所述步骤S3前还包括步骤S2、用户终端向缓存代理服务器发起书签管理请求。
3.根据权利要求2所述的一种基于爬虫缓存的网页书签管理方法,其特征在于,所述步骤S2前还包括步骤S1、用户终端对需要访问的网页以书签方式保存在书签管理工具中。
4.根据权利要求1所述的一种基于爬虫缓存的网页书签管理方法,其特征在于,所述步骤S1中的相关信息包括网页的页面文字和json数据。
5.一种基于爬虫缓存的网页书签管理系统,其特征在于,包括用户终端、缓存代理服务器和网页服务器,所述用户终端包括书签管理工具;
所述书签管理工具用于存储网页的网址、标题以及相关信息;
所述用户终端用于对所述书签管理工具中的网页进行访问,所述网页服务器存储有网页的访问信息,用户终端连接网页服务器进行网页访问;
所述缓存代理服务器连接所述用户终端和网页服务器,其用于对书签管理工具中的网页执行爬虫和网络请求:当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;当爬到网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容;
所述用户终端还用于:当访问网页服务器的网页为无效时,对所述缓存代理服务器进行访问,缓存代理服务器将静态内容反馈给用户终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148931.1A CN111428105A (zh) | 2020-03-05 | 2020-03-05 | 一种基于爬虫缓存的网页书签管理方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148931.1A CN111428105A (zh) | 2020-03-05 | 2020-03-05 | 一种基于爬虫缓存的网页书签管理方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111428105A true CN111428105A (zh) | 2020-07-17 |
Family
ID=71547710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010148931.1A Pending CN111428105A (zh) | 2020-03-05 | 2020-03-05 | 一种基于爬虫缓存的网页书签管理方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428105A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831144A (zh) * | 2012-06-12 | 2012-12-19 | 优视科技有限公司 | 基于移动终端的书签交互处理方法、装置和系统 |
CN102915363A (zh) * | 2012-10-18 | 2013-02-06 | 北京奇虎科技有限公司 | 网址收藏方法和系统 |
CN102929985A (zh) * | 2012-10-18 | 2013-02-13 | 北京奇虎科技有限公司 | 一种收藏网页展示的方法和系统 |
CN104572753A (zh) * | 2013-10-24 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 一种书签存储方法及书签存储装置 |
CN109582888A (zh) * | 2018-11-30 | 2019-04-05 | 上海爱优威软件开发有限公司 | 网页书签整理方法及系统 |
-
2020
- 2020-03-05 CN CN202010148931.1A patent/CN111428105A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831144A (zh) * | 2012-06-12 | 2012-12-19 | 优视科技有限公司 | 基于移动终端的书签交互处理方法、装置和系统 |
CN102915363A (zh) * | 2012-10-18 | 2013-02-06 | 北京奇虎科技有限公司 | 网址收藏方法和系统 |
CN102929985A (zh) * | 2012-10-18 | 2013-02-13 | 北京奇虎科技有限公司 | 一种收藏网页展示的方法和系统 |
CN104572753A (zh) * | 2013-10-24 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 一种书签存储方法及书签存储装置 |
CN109582888A (zh) * | 2018-11-30 | 2019-04-05 | 上海爱优威软件开发有限公司 | 网页书签整理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6785769B1 (en) | Multi-version data caching | |
US9509748B2 (en) | Efficient storage and retrieval of resources for rendering structured documents | |
US7996397B2 (en) | Using network traffic logs for search enhancement | |
US9858273B2 (en) | Speculative rendering during cache revalidation | |
US9614869B2 (en) | System and server for detecting web page changes | |
US7778987B2 (en) | Locally storing web-based database data | |
US7552224B2 (en) | Ubiquitous visited links | |
CA2530565C (en) | Server architecture and methods for persistently storing and serving event data | |
CN100530186C (zh) | 缓存处理方法以及缓存处理系统 | |
US20080028334A1 (en) | Searchable personal browsing history | |
EP2593882B1 (en) | Method and apparatus of processing nested fragment caching of a web page | |
US20060048046A1 (en) | Marking and annotating electronic documents | |
CN103546498B (zh) | 一种为移动终端提供访问网页的方法与设备 | |
US8225192B2 (en) | Extensible cache-safe links to files in a web page | |
JP2004078783A (ja) | Wwwブラウザのキャッシュ管理装置、そのキャッシュ管理方法及びプログラム | |
CN106649313B (zh) | 用于处理缓存数据的方法和设备 | |
US8150943B2 (en) | Methods and apparatus for dynamically generating web pages | |
JP3445912B2 (ja) | ハイパーテキスト自動取得装置 | |
CN103455492B (zh) | 一种搜索网页的方法和装置 | |
US20190370350A1 (en) | Dynamic Configurability of Web Pages | |
CN111428105A (zh) | 一种基于爬虫缓存的网页书签管理方法及其系统 | |
CN111984868A (zh) | 一种浏览器中浏览网页的控制方法及装置 | |
CN103294695B (zh) | 网页浏览方法和装置以及网址提取方法和装置 | |
KR20090122763A (ko) | 북마크 관리 서버 및 이를 포함하는 북마크 관리 시스템 및그 제어방법 | |
CN113868501A (zh) | 一种深层网页爬取方法、装置和脆弱性扫描系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200717 |