CN111428105A

CN111428105A - 一种基于爬虫缓存的网页书签管理方法及其系统

Info

Publication number: CN111428105A
Application number: CN202010148931.1A
Authority: CN
Inventors: 梁永堂; 史伟; 闵宇
Original assignee: Guangdong Eflycloud Computing Co Ltd
Current assignee: Guangdong Eflycloud Computing Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-17

Abstract

本发明公开了一种基于爬虫缓存的网页书签管理方法及其系统，网页书签管理方法步骤包括：用户终端对需要访问的网页保存在书签管理工具中；用户终端向缓存代理服务器发起书签管理请求；缓存代理服务器对书签管理工具中的网页执行爬虫和网络请求：将网页标题和相关信息保存在对应的网页书签；当爬到该网页的标题或相关信息有变更，则自动将对应的网页书签信息进行变更；用户终端进行网页访问；缓存代理服务器对用户终端的网页访问内容进行缓冲；若访问的网页已标记为无效情况下，缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。本发明能够对网页书签的进行自动管理，并且可以对无效网页进行缓存数据的访问。

Description

一种基于爬虫缓存的网页书签管理方法及其系统

技术领域

本发明涉及网页书签技术领域，特别涉及一种基于爬虫缓存的网页书签管理方法及其系统。

背景技术

网页书签管理，目前大多数用户都是依靠浏览器中的书签管理器，每一次都需要手动添加、修改和删除等操作，管理起来极其繁琐。

随着互联网的不断提高和发展，很多网站和分享页面也不断增多，用户对网页书签管理同时增加管理困难，对书签有管理要求的用户可能会通过多层目录来对网页链接进行保存或整理，但这种方法并不能达到较好的效果。同时，用户也无法每时每刻去查看网页是否已经无效，是否已经变更等状态，导致书签会越来越多，越来越乱，所以一个好的书签管理方法装置，是能很好的节省用户操作和改善用户体验。

关于网页书签管理，有两个核心的要求，第一是能及时发现异常的情况(即可能出现攻击)，第二是在大流量的攻击中把真正的攻击者找出来。

目前的网页书签管理装置一般是采用浏览器的书签管理器，手动去对网络链接进行保存，在需要打开的时候去查找相关链接，同时还可能需要靠人的记忆相关字段，然后才完成打开网页的操作，这种装置的缺陷在于需要对大量的手动操作，极大浪费用户的时间，还有当网址已经变更或者无效时，用户也无法立即知道，导致用户通常已经不会去查找书签，甚至直接重新通过网络搜索器重新查找对应内容。

发明内容

本发明要解决的技术问题在于，提供一种基于爬虫缓存的网页书签管理方法及其系统，能够对网页书签的进行自动管理，不仅大大地减轻用户的操作量，还可以让用户更清晰地管理自己的书签，并且本发明对网页数据进行缓存，使得访问网页无效情况下，用户也可以通过缓存数据进行网页访问。

为解决上述技术问题，本发明提供如下技术方案：一种基于爬虫缓存的网页书签管理方法，包括以下步骤：

S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求：

当爬到网页标题和相关信息，将其保存在书签管理工具中对应的网页书签，生成网页书签信息；

当爬到网页的标题、页面文字或json数据等一系列网页内容的相关信息有变更，则自动将对应的网页书签信息进行变更，并通知用户；

当检测到网页访问已经无效后，则自动将对应的网页书签信息标记为无效，并通知用户；

S4、用户终端通过书签管理工具进行网页访问；若访问的网页为有效情况下，则跳转到网页进行访问，缓存代理服务器对用户终端的网页访问内容进行缓冲，当对网页的访问进行结束后，缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容；若访问的网页已标记为无效情况下，缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。

进一步地，所述步骤S3前还包括步骤S2、用户终端向缓存代理服务器发起书签管理请求。

进一步地，所述步骤S2前还包括步骤S1、用户终端对需要访问的网页以书签方式保存在书签管理工具中。

进一步地，所述步骤S1中的相关信息包括网页的页面文字和json数据。

本发明另一目的是提供一种基于爬虫缓存的网页书签管理系统，包括用户终端、缓存代理服务器和网页服务器，所述用户终端包括书签管理工具；

所述书签管理工具用于存储网页的网址、标题以及相关信息；

所述用户终端用于对所述书签管理工具中的网页进行访问，所述网页服务器存储有网页的访问信息，用户终端连接网页服务器进行网页访问；

所述缓存代理服务器连接所述用户终端和网页服务器，其用于对书签管理工具中的网页执行爬虫和网络请求：当爬到网页标题和相关信息，将其保存在书签管理工具中对应的网页书签，生成网页书签信息；当爬到网页的标题或相关信息有变更，则自动将对应的网页书签信息进行变更，并通知用户；当检测到网页访问已经无效后，则自动将对应的网页书签信息标记为无效，并通知用户；

所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容；

所述用户终端还用于：当访问网页服务器的网页为无效时，对所述缓存代理服务器进行访问，缓存代理服务器将静态内容反馈给用户终端。

采用上述技术方案后，本发明至少具有如下有益效果：本发明通过爬虫网页，这样可以准确地自动变更网页标题以及相关内容，并且能够及时通知用户，让用户可以清晰的知道网页的主题内容；本发明对网页进行缓存静态内容，当检测网页已经无效时，可以返回用户最后一次访问的静态内容，这样使得用户即便未查看完网页内容，也能保证能查看静态内容。

附图说明

图1为本发明一种基于爬虫缓存的网页书签管理方法步骤流程图；

图2为本发明一种基于爬虫缓存的网页书签管理系统框架图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本申请作进一步详细说明。

本发明主要用于解决目前的网页书签管理低下的管理方法和解决网页访问等问题，本发明通过采用旁路部署检测缓存代理设备，并且部署爬虫式的书签管理工具的方法，缓存代理服务器对网页进行爬虫和缓存，爬虫主要是爬书签的标题，这样可以准确的自动变更网页标题并且通知用户，让用户可以清晰的知道网页的主题内容；同时会对网页进行缓存静态内容，当检测网页已经无效时，可以返回用户最后一次访问的静态内容，这样使得用户即便未查看完网页内容，也能保证能查看静态内容。

实施例1

如图1所示，本发明提供一种基于爬虫缓存的网页书签管理方法，其具体步骤如下：

S1、用户终端对需要访问的网页(网址)以书签方式保存在书签管理工具中；

S2、用户终端向缓存代理服务器发起书签管理请求；

如果某一网页书签只有网址信息，而没有对应的网页标题和相关信息的，此时，当爬到该网页书签的网页标题或相关信息，需要将网页标题和相关信息保存在书签管理工具中对应的网页书签，生成网页书签信息；将书签管理工具中的所有网页书签都爬虫一遍，并保存每一个网页书签的网页标题和相关信息；上述的相关信息包括网页的页面文字和json数据；

如果某一网页书签已经保存了对应的网页标题和相关信息的，此时，当爬到该网页的标题或相关信息有变更，则自动将对应的网页书签信息进行变更，并通知用户；

S4、用户终端通过书签管理工具进行网页访问；

若访问的网页为有效情况下，则跳转到网页进行访问，缓存代理服务器对用户终端的网页访问内容进行缓冲，当对网页的访问进行结束后，缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容；另外，如果该网页已经多次进行了访问，那么缓存代理服务器只会对最新一次网页访问的内容进行保存并形成静态内容，将旧的静态内容删除；

若访问的网页已标记为无效情况下，缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。

实施例2

本实施例是在实施例1的网页书签管理方法基础上公开一种基于爬虫缓存的网页书签管理系统，如图2所示，包括用户终端、缓存代理服务器和网页服务器，所述用户终端包括书签管理工具；

所述缓存代理服务器连接所述用户终端和网页服务器，其用于对书签管理工具中的网页执行爬虫和网络请求：当爬到网页标题和相关信息，将其保存在书签管理工具中对应的网页书签，生成网页书签信息；当爬到网页的标题、页面文字或json数据等一系列网页内容的相关信息有变更，则自动将对应的网页书签信息进行变更，并通知用户；当检测到网页访问已经无效后，则自动将对应的网页书签信息标记为无效，并通知用户；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解的是，在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种基于爬虫缓存的网页书签管理方法，其特征在于，包括以下步骤：

当爬到网页的标题或相关信息有变更，则自动将对应的网页书签信息进行变更，并通知用户；

2.根据权利要求1所述的一种基于爬虫缓存的网页书签管理方法，其特征在于，所述步骤S3前还包括步骤S2、用户终端向缓存代理服务器发起书签管理请求。

3.根据权利要求2所述的一种基于爬虫缓存的网页书签管理方法，其特征在于，所述步骤S2前还包括步骤S1、用户终端对需要访问的网页以书签方式保存在书签管理工具中。

4.根据权利要求1所述的一种基于爬虫缓存的网页书签管理方法，其特征在于，所述步骤S1中的相关信息包括网页的页面文字和json数据。

5.一种基于爬虫缓存的网页书签管理系统，其特征在于，包括用户终端、缓存代理服务器和网页服务器，所述用户终端包括书签管理工具；