CN109145214A - 一种网站页面的链接过滤方法、装置、设备及介质 - Google Patents

一种网站页面的链接过滤方法、装置、设备及介质 Download PDF

Info

Publication number
CN109145214A
CN109145214A CN201810994917.6A CN201810994917A CN109145214A CN 109145214 A CN109145214 A CN 109145214A CN 201810994917 A CN201810994917 A CN 201810994917A CN 109145214 A CN109145214 A CN 109145214A
Authority
CN
China
Prior art keywords
link
hypertext tags
website page
source code
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810994917.6A
Other languages
English (en)
Inventor
张志良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201810994917.6A priority Critical patent/CN109145214A/zh
Publication of CN109145214A publication Critical patent/CN109145214A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站页面的链接过滤方法、装置、设备及介质,该方法的步骤包括:依照预设的网站地址,获取与网站地址对应的网站页面的源代码;在源代码中提取包含有链接的超文本标签,并对满足预设标准的超文本标签进行过滤,以得到目标超文本标签;获取并记录各目标超文本标签中的目标链接,以当浏览器加载网站页面时,仅允许获取或禁止获取目标链接的内容。本方法仅需要人为的预先设置网站地址以及用于进行过滤判定的标准即可,降低了通过人工方式逐一设置需要过滤的链接的操作复杂性,并且降低了人力成本开销。此外,本发明还提供一种网站页面的链接过滤装置、设备及介质,有益效果同上所述。

Description

一种网站页面的链接过滤方法、装置、设备及介质
技术领域
本发明涉及网络安全领域,特别是涉及一种网站页面的链接过滤方法、装置、设备及介质。
背景技术
伴随着网络技术的进步以及网络普及率的提升,越来越多的用户能够以互联网的方式高效的获取到所需的内容信息,并且网站(即网络站点)页面所能够呈现的内容信息往往较为丰富。
为了对网站页面的内容实现高效的维护或更新,企业在对网站进行开发时,往往会依照预设排版,将各动态内容的链接以超文本标签的形式集成在网站页面的源代码中,当浏览器加载网站页面的内容时,会根据页面源代码中各个链接获取相应的实时内容信息并依照预设排版组合为完整的网站页面。
但是当前的网站页面中通常会存在有与该网站的内容主旨或用户需求无关的链接,如第三方网站的跳转链接或广告链接等,因此网络管理员往往需要对网站页面中的无关链接进行过滤,以确保浏览器所加载的网站页面中仅显示网站内部链接对应的内容。
当前已有一种基于HTTP协议对于网站页面中的第三方链接进行过滤的方法,是预先在网关设备中设置网站地址,即对该网站地址所对应页面中的链接进行过滤,进而通过捕获并分析PC端与HTTP服务器之间通信的HTTP请求头,当判定HTTP请求头中HOST字段的内容为预先设置的网站地址或referer字段中的内容为预先设置的网站地址时,均放通该HTTP请求进行相应链接内容的访问。但是随着网络安全的不断提高,对传输数据进行加密的HTTPS协议逐渐取代了通过明文方式传输数据的HTTP协议,因此上述方法不再适用于HTTPS协议的场景,只能依靠网络管理员以人工的方式逐一设置网站页面中需要过滤的链接,操作复杂,并且需要较高的人力成本。
由此可见,提供一种网站页面的链接过滤方法,以降低通过人工操作实现链接过滤的复杂性,并且降低人力成本开销,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种网站页面的链接过滤方法、装置、设备及介质,以降低通过人工操作实现链接过滤的复杂性,并且降低人力成本开销。
为解决上述技术问题,本发明提供一种网站页面的链接过滤方法,包括:
依照预设的网站地址,获取与网站地址对应的网站页面的源代码;
在源代码中提取包含有链接的超文本标签,并对满足预设标准的超文本标签进行过滤,以得到目标超文本标签;
获取并记录各目标超文本标签中的目标链接,以当浏览器加载网站页面时,仅允许获取或禁止获取目标链接的内容。
优选的,对满足预设标准的超文本标签进行过滤,以得到目标超文本标签具体为:
对满足包含有预设标签属性的超文本标签进行过滤,以得到目标超文本标签。
优选的,在对满足包含有预设标签属性的超文本标签进行过滤,以得到目标超文本标签后,该方法进一步包括:
获取未包含有预设标签属性的无关超文本标签;
提取无关超文本标签中的无关链接,并将无关链接记录至预设日志中。
优选的,获取并记录各目标超文本标签中的目标链接具体为:
通过网关设备获取目标超文本标签中的目标链接,并将目标链接与网站地址对应记录至白名单;
相应的,仅允许获取或禁止获取目标链接的内容具体为:
网关设备仅允许浏览器获取目标链接的内容。
优选的,获取与网站地址对应的网站页面的源代码具体为:
通过wget命令发起对网站地址的访问以获取与网站地址对应的源代码。
优选的,在获取与网站地址对应的网站页面的源代码后,该方法进一步包括:
将源代码保存至预设的html文件;
相应的,在源代码中提取包含有链接的超文本标签具体为:
在html文件的源代码中提取超文本标签。
优选的,预设标签属性的总数量大于1。
此外,本发明还提供一种网站页面的链接过滤装置,包括:
代码获取模块,用于依照预设的网站地址,获取与网站地址对应的网站页面的源代码;
标签过滤模块,用于在源代码中提取包含有链接的超文本标签,并对满足预设标准的超文本标签进行过滤,以得到目标超文本标签;
链接获取模块,用于获取并记录各目标超文本标签中的目标链接,以当浏览器加载网站页面时,仅允许获取或禁止获取目标链接的内容。
此外,本发明还提供一种网站页面的链接过滤设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的网站页面的链接过滤方法的步骤。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的网站页面的链接过滤方法的步骤。
本发明所提供的网站页面的链接过滤方法,首先通过根据预设网站地址获取其对应网站页面的源代码,进而在源代码中提取包含有链接的超文本标签,并在各超文本标签中选取出满足预设标准的目标超文本标签,最终过滤得到目标超文本标签中的目标链接,并在加载网站页面时仅允许获取目标链接的内容,或禁止获取目标链接的内容。因此本方法是根据预设的过滤标准对网站源代码所包含有链接的超文本标签进行选择性的过滤,进而得到满足预设标准的目标链接,在加载网站页面时,通过仅加载目标链接的内容或禁止加载目标链接的内容的方式,即可达到避免网站中的无关链接被加载至网络页面的目的,本方法仅需要人为的预先设置网站地址以及用于进行过滤判定的标准即可,降低了通过人工方式逐一设置需要过滤的链接的操作复杂性,并且降低了人力成本开销。此外,本发明还提供一种网站页面的链接过滤装置、设备及介质,有益效果同上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网站页面的链接过滤方法的流程图;
图2为本发明实施例提供的一种网站页面的链接过滤装置的结构图;
图3为本发明实施例提供的一种网站页面的链接过滤设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种网站页面的链接过滤方法,以降低通过人工操作实现链接过滤的复杂性,并且降低人力成本开销。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
实施例一
图1为本发明实施例提供的一种网站页面的链接过滤方法的流程图。请参考图1,网站页面的链接过滤方法的具体步骤包括:
步骤S10:依照预设的网站地址,获取与网站地址对应的网站页面的源代码。
需要说明的是,在本步骤中,预设的网站地址是由用户进行预先设置的,即后续步骤中进行链接过滤的网站地址,由于网站地址均对应有网站页面,并且网站页面中的元素(文字、图片、超链接等)普遍是浏览器根据链接获取并加载产生于网络页面中的,而链接本身存在于网站页面的源代码中,被承载于源代码的超文本标签中,因此在本步骤中通过获取与网站地址对应的网站页面的源代码,因此在后续步骤中是基于源代码实现的对链接的筛选操作。另外,本步骤中,可以通过wget或curl等网络命令进行网站页面的源代码的获取。
步骤S11:在源代码中提取包含有链接的超文本标签,并对满足预设标准的超文本标签进行过滤,以得到目标超文本标签。
由于链接是通过超文本标签的形式存在于网站页面的源代码中的,而承载网站内部链接的超文本标签与承载第三方外部链接的超文本标签之间存在一定的差异,本步骤中所指的预设标准表示的则是基于上述差异而预先设定的判定依据。例如在超文本标签中,<iframe>标签通常用于引入第三方链接的内容至其所在的网页中,因此在设置预设标准时,可以将标准定为“承载链接的超文本标签为<iframe>标签”,并根据标准过滤得到相应的目标超文本标签。需要说明的是,上述过滤得到的目标超文本标签可以是因符合预设标准而得到的,也可以是因不符合预设标准而得到的,应根据实际情况而定,在此不做具体的限定,另外,在不同的链接过滤场景或需求下,预设标准的具体内容不唯一。
步骤S12:获取并记录各目标超文本标签中的目标链接,以当浏览器加载网站页面时,仅允许获取或禁止获取目标链接的内容。
由于目标超文本标签是根据预设标准而筛选得到的,并且目标超文本标签中承载有目标链接,因此在本步骤中获取并记录目标超文本标签中的目标链接,目标链接即为在加载网站页面时需要被屏蔽或仅需要加载的内容链接,进而当浏览器加载网站页面时,仅允许加载目标链接对应的内容或禁止加载目标链接对应的内容,具体是“仅允许获取”或“禁止获取”应根据对链接所进行过滤而预设的具体标准而定,如根据预设标准过滤得到的是第三方外部链接则“禁止获取”,反之,如根据预设标准过滤得到的是网站内部链接则“仅允许获取”,在此均不做具体限定。但是在实际的使用中,本领域技术人员通常习惯于得到需要加载的内部链接,并在加载网站页面时仅允许获取内部链接对应的内容。
本发明所提供的网站页面的链接过滤方法,首先通过根据预设网站地址获取其对应网站页面的源代码,进而在源代码中提取包含有链接的超文本标签,并在各超文本标签中选取出满足预设标准的目标超文本标签,最终过滤得到目标超文本标签中的目标链接,并在加载网站页面时仅允许获取目标链接的内容,或禁止获取目标链接的内容。因此本方法是根据预设的过滤标准对网站源代码所包含有链接的超文本标签进行选择性的过滤,进而得到满足预设标准的目标链接,在加载网站页面时,通过仅加载目标链接的内容或禁止加载目标链接的内容的方式,即可达到避免网站中的无关链接被加载至网络页面的目的,本方法仅需要人为的预先设置网站地址以及用于进行过滤判定的标准即可,降低了通过人工方式逐一设置需要过滤的链接的操作复杂性,并且降低了人力成本开销。
实施例二
为了便于对上述实施例一的理解,下面提供两种本方案在实际场景下的实施例:
一种场景实施例为,网络管理员在安全网关设备的https网站白名单中配置了www.abc.com.cn,进而当网络管理员提交配置更改之后,安全网关设备将使用wget或curl的命令发起对本次新增的https网站白名单主站www.abc.com.cn的https访问请求,并且保存该站点返回的网站页面的源代码,假定为result1.html。通过分析result1.html的内容,根据预设的标准筛选result1.html页面正常显示所必需的内部资源链接,例如筛选超文本标签中包含有“src”属性或“data-img”属性的内部资源链接时,获取包含有上述属性的内部资源链接所处的目标超文本标签,以此获取并记录目标超文本标签中的内部资源链接,即目标链接,进而当浏览器加载www.abc.com.cn网站页面时,安全网关设备放通浏览器对www.abc.com.cn站点以及www.abc.com.cn站点所依赖的子站域名集合(目标链接的集合)。
仅允许浏览器获取目标链接对应的内容。
另一种场景实施例为,网站网络管理员在安全网关设备的https网站黑名单中配置了www.bcd.com.cn,进而当网络管理员提交配置更改之后,安全网关设备将使用wget或curl的命令发起对本次新增的https网站黑名单主站www.bcd.com.cn的https访问请求,并且保存该站点返回的网站页面的源代码,假定为result2.html。通过分析result2.html的内容,根据预设的标准筛选result2.html页面正常显示所必需的内部资源链接,例如筛选超文本标签中包含有“href”属性的内部资源链接时,获取包含有上述属性的第三方外部资源链接所处的目标超文本标签,以此获取并记录目标超文本标签中的内部资源链接,即目标链接,进而当浏览器加载网站页面时,安全网关设备禁止浏览器获取目标链接对应的内容。
实施例三
在上述实施例的基础上,本发明还提供以下一系列优选的实施方式。
作为一种优选的实施方式,对满足预设标准的超文本标签进行过滤,以得到目标超文本标签具体为:
对满足包含有预设标签属性的超文本标签进行过滤,以得到目标超文本标签。
由于编写超文本标签时需要遵从一定的语法规则,在编写具有链接的超文本标签时,往往会根据链接的性质在超文本标签中设置相应的标签属性,因此在包含有链接的超文本标签中,标签属性能够表征链接具体为网站的内部资源链接还是网站外部的第三方链接。
下面以举例的方式进行具体说明:
在网站页面的源代码中,可能包含有以下几种常见的内部资源的链接在超文本标签中的具体存在形式。
1、<script type="text/javascript"
src="scriptsrc="https//www.abc1.com.cn/js/a.js"></script>;
2、<a data-img="https://www.abc2.com.cn/b.TIF"></a>;
3、<img src="https://www.abc3.com.cn/c.png">;
4、<a target="_blank"class="adTopImg"
style="background-image:url(https://www.abc4.com.cn/d.jpg);"></a>;
5、background:url(https://www.abc5.com.cn/e.png)。
其中,在第1、3项中的src标签属性,是页面必不可少的一部分,是网站内部资源的引入,src指向的内容会嵌入到文档中当前标签所在的位置,因此可知https//www.abc1.com.cn/js/a.js以及https://www.abc3.com.cn/c.png为网站内部链接;
在第2项中的data-img标签属性,是用于储存图像数据的标签属性,起到对网站内部资源的临时储存的作用,因此可知https://www.abc2.com.cn/b.jpg为网站内部链接;
在第4项中的background-image标签属性,是用于设置网站页面中元素的背景图像的标签属性,因此可知https://www.abc4.com.cn/d.jpg为网站内部链接;
在第5项中的background标签属性,是用于在超文本标签的声明中设置所有的背景属性,因此可知https://www.abc5.com.cn/e.png为网站内部链接。
上述提及的标签属性仅为在使用网站的内部链接时的一部分具体标签属性,还存在有其它一些应用于内部链接的标签属性不在此赘述,因此上述举例说明的标签属性并不作为对网站内部链所使用标签属性的具体限定。
另外,在网站页面的源代码中,第三方外部资源的链接也可能是以下列方式存在于超文本标签中。
<a href="https://www.def.com.cn">TEST</a>。
由于href用于在涉及的文档和外部资源之间建立关系,因此https://www.def.com.cn为网站第三方外部链接。
在本实施方式中,用户可以根据过滤需求预先对进行过滤的标签属性进行设置,进而在过滤过程中,筛选获得具有预设标签属性的目标超文本标签,以此进一步提取出目标链接。
在上述实施方式的基础上,作为一种优选的实施方式,在对满足包含有预设标签属性的超文本标签进行过滤,以得到目标超文本标签后,该方法进一步包括:
获取未包含有预设标签属性的无关超文本标签;
提取无关超文本标签中的无关链接,并将无关链接记录至预设日志中。
考虑到对于预设的网站地址而言,可能存在有内部链接以第三方外部链接的方式承载于超文本标签中,以此可能导致本应属于目标超文本标签的超文本标签被过滤掉,因此在本实施方式中,通过提取无关超文本标签中的无关链接,进而将无关链接记录至预设日志中,用户仍可以在预设日志中再次找到过滤错误的链接,并加载至页面中,进而保证了链接过滤的整体可靠性。
此外,作为一种优选的实施方式,获取并记录各目标超文本标签中的目标链接具体为:
通过网关设备获取目标超文本标签中的目标链接,并将目标链接与网站地址对应记录至白名单;
相应的,仅允许获取或禁止获取目标链接的内容具体为:
网关设备仅允许浏览器获取目标链接的内容。
需要说明的是,网关设备能够根据其白名单中所记载的地址,对用户设备向服务器发起的网址访问进行相应的约束,网关设备仅“放通”用户设备向白名单中记载的地址发起的访问,因此在本实施方式中,是通过网关设备获取目标超文本标签中的目标链接,并将目标链接与网站地址对应记录至白名单,需要强调的是,由于预设的网站地址也属于用户设备能够访问的地址,因此目标链接与预设的网站地址应对应记录至白名单中,进而网关设备应仅允许浏览器获取目标链接的内容,以此实现对第三方外部链接的屏蔽。
此外,作为一种优选的实施方式,获取与网站地址对应的网站页面的源代码具体为:
通过wget命令发起对网站地址的访问以获取与网站地址对应的源代码。
需要说明的是,wget是一个从网络上自动下载文件的自由工具,而wget命令是wget工具所提供的命令,支持HTTP或HTTPS的TCP/IP协议,因此能够适用于当前不同超文本传送协议下对网络地址进行访问的场景,具有较高的可用性,并且能够相对便捷的获取到网站地址所提供的源代码。
此外,作为一种优选的实施方式,在获取与网站地址对应的网站页面的源代码后,该方法进一步包括:
将源代码保存至预设的html文件;
相应的,在源代码中提取包含有链接的超文本标签具体为:
在html文件的源代码中提取超文本标签。
可以理解的是,由于源代码属于html文件中的内容,因此在获取与网站地址对应的网站页面的源代码后,为了保证源代码的内容不发生损坏或丢失,可以将源代码保存至预设的html文件中,这就相当于完整的获取到网站页面对应html文件,进而在html文件的源代码中提取超文本标签,确保了所提取的超文本标签的完整性以及可靠性。
在具体的应用中,网络管理员可以通过预先在网关设备中配置网站地址至白名单,如www.abc.com.cn,当网络管理员提交该配置之后,网关设备将使用wget的命令发起对本次新增网站白名单主站www.abc.com.cn的访问请求,并且以预设的result.html文件保存该站点返回的网页内容,进而通过分析result.html的内容,从result.html中分析出页面显示所必需的内部链接。
在上述实施方式的基础上,作为一种优选的实施方式,预设标签属性的总数量大于1。
由于标签属性能够表征链接具体为内部链接还是第三方外部链接,并且在网页页面中,链接的数量往往较为庞大,单一的预设标签属性往往难以对链接进行准确的过滤,因此本实施方式中的预设标签属性的总数量大于1,能够相对提高对网站页面的链接进行过滤时的准确性。
实施例四
在上文中对于网站页面的链接过滤方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的网站页面的链接过滤装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图2为本发明实施例提供的一种网站页面的链接过滤装置的结构图。本发明实施例提供的网站页面的链接过滤装置,包括:
代码获取模块10,用于依照预设的网站地址,获取与网站地址对应的网站页面的源代码。
标签过滤模块11,用于在源代码中提取包含有链接的超文本标签,并对满足预设标准的超文本标签进行过滤,以得到目标超文本标签。
链接获取模块12,用于获取并记录各目标超文本标签中的目标链接,以当浏览器加载网站页面时,仅允许获取或禁止获取目标链接的内容。
本发明所提供的网站页面的链接过滤装置,首先通过根据预设网站地址获取其对应网站页面的源代码,进而在源代码中提取包含有链接的超文本标签,并在各超文本标签中选取出满足预设标准的目标超文本标签,最终过滤得到目标超文本标签中的目标链接,并在加载网站页面时仅允许获取目标链接的内容,或禁止获取目标链接的内容。因此本装置是根据预设的过滤标准对网站源代码所包含有链接的超文本标签进行选择性的过滤,进而得到满足预设标准的目标链接,在加载网站页面时,通过仅加载目标链接的内容或禁止加载目标链接的内容的方式,即可达到避免网站中的无关链接被加载至网络页面的目的,本装置仅需要人为的预先设置网站地址以及用于进行过滤判定的标准即可,降低了通过人工方式逐一设置需要过滤的链接的操作复杂性,并且降低了人力成本开销。
实施例四
本发明还提供一种网站页面的链接过滤设备。图3为本发明实施例提供的一种网站页面的链接过滤设备的结构图。
如图3所示,本发明所提供的网站页面的链接过滤设备,包括:
存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述的网站页面的链接过滤方法的步骤。
本发明所提供的网站页面的链接过滤设备,首先通过根据预设网站地址获取其对应网站页面的源代码,进而在源代码中提取包含有链接的超文本标签,并在各超文本标签中选取出满足预设标准的目标超文本标签,最终过滤得到目标超文本标签中的目标链接,并在加载网站页面时仅允许获取目标链接的内容,或禁止获取目标链接的内容。因此本设备是根据预设的过滤标准对网站源代码所包含有链接的超文本标签进行选择性的过滤,进而得到满足预设标准的目标链接,在加载网站页面时,通过仅加载目标链接的内容或禁止加载目标链接的内容的方式,即可达到避免网站中的无关链接被加载至网络页面的目的,本设备仅需要人为的预先设置网站地址以及用于进行过滤判定的标准即可,降低了通过人工方式逐一设置需要过滤的链接的操作复杂性,并且降低了人力成本开销。
下面是网站页面的链接过滤设备的工作原理实施例:
网络管理员在接通电源后,通过指令运行网站页面的链接过滤设备工作,设备的存储器中存储有计算机程序,计算机程序的主要执行逻辑是:接收由网络管理员设置的网站地址,获取与网站地址对应的网站页面的源代码,进而在源代码中提取包含有链接的超文本标签,并对满足预设标准的超文本标签进行过滤,以得到目标超文本标签,在此基础上提取各目标超文本标签中的目标链接并记录,进而当收到浏览器加载网站页面的访问申请时,仅允许获取或禁止获取目标链接的内容。设备的处理器通用调用并执行上述计算机程度,实现了对网站页面的链接过滤。
实施例五
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的网站页面的链接过滤方法的步骤。
本发明所提供的计算机可读存储介质,首先通过根据预设网站地址获取其对应网站页面的源代码,进而在源代码中提取包含有链接的超文本标签,并在各超文本标签中选取出满足预设标准的目标超文本标签,最终过滤得到目标超文本标签中的目标链接,并在加载网站页面时仅允许获取目标链接的内容,或禁止获取目标链接的内容。因此本计算机可读存储介质是根据预设的过滤标准对网站源代码所包含有链接的超文本标签进行选择性的过滤,进而得到满足预设标准的目标链接,在加载网站页面时,通过仅加载目标链接的内容或禁止加载目标链接的内容的方式,即可达到避免网站中的无关链接被加载至网络页面的目的,本计算机可读存储介质仅需要人为的预先设置网站地址以及用于进行过滤判定的标准即可,降低了通过人工方式逐一设置需要过滤的链接的操作复杂性,并且降低了人力成本开销。
以上对本发明所提供的一种网站页面的链接过滤方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种网站页面的链接过滤方法,其特征在于,包括:
依照预设的网站地址,获取与所述网站地址对应的网站页面的源代码;
在所述源代码中提取包含有链接的超文本标签,并对满足预设标准的所述超文本标签进行过滤,以得到目标超文本标签;
获取并记录各所述目标超文本标签中的目标链接,以当浏览器加载所述网站页面时,仅允许获取或禁止获取所述目标链接的内容。
2.根据权利要求1所述的方法,其特征在于,所述对满足预设标准的所述超文本标签进行过滤,以得到目标超文本标签具体为:
对满足包含有预设标签属性的所述超文本标签进行过滤,以得到所述目标超文本标签。
3.根据权利要求2所述的方法,其特征在于,在所述对满足包含有预设标签属性的所述超文本标签进行过滤,以得到所述目标超文本标签后,该方法进一步包括:
获取未包含有所述预设标签属性的无关超文本标签;
提取所述无关超文本标签中的无关链接,并将所述无关链接记录至预设日志中。
4.根据权利要求1所述的方法,其特征在于,所述获取并记录各所述目标超文本标签中的目标链接具体为:
通过网关设备获取所述目标超文本标签中的目标链接,并将所述目标链接与所述网站地址对应记录至白名单;
相应的,所述仅允许获取或禁止获取所述目标链接的内容具体为:
所述网关设备仅允许所述浏览器获取所述目标链接的内容。
5.根据权利要求1所述的方法,其特征在于,所述获取与所述网站地址对应的网站页面的源代码具体为:
通过wget命令发起对所述网站地址的访问以获取与所述网站地址对应的所述源代码。
6.根据权利要求1所述的方法,其特征在于,在所述获取与所述网站地址对应的网站页面的源代码后,该方法进一步包括:
将所述源代码保存至预设的html文件;
相应的,所述在所述源代码中提取包含有链接的超文本标签具体为:
在所述html文件的所述源代码中提取所述超文本标签。
7.根据权利要求2至3任意一项所述的方法,其特征在于,所述预设标签属性的总数量大于1。
8.一种网站页面的链接过滤装置,其特征在于,包括:
代码获取模块,用于依照预设的网站地址,获取与所述网站地址对应的网站页面的源代码;
标签过滤模块,用于在所述源代码中提取包含有链接的超文本标签,并对满足预设标准的所述超文本标签进行过滤,以得到目标超文本标签;
链接获取模块,用于获取并记录各所述目标超文本标签中的目标链接,以当浏览器加载所述网站页面时,仅允许获取或禁止获取所述目标链接的内容。
9.一种网站页面的链接过滤设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的网站页面的链接过滤方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的网站页面的链接过滤方法的步骤。
CN201810994917.6A 2018-08-29 2018-08-29 一种网站页面的链接过滤方法、装置、设备及介质 Pending CN109145214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810994917.6A CN109145214A (zh) 2018-08-29 2018-08-29 一种网站页面的链接过滤方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810994917.6A CN109145214A (zh) 2018-08-29 2018-08-29 一种网站页面的链接过滤方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN109145214A true CN109145214A (zh) 2019-01-04

Family

ID=64828960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810994917.6A Pending CN109145214A (zh) 2018-08-29 2018-08-29 一种网站页面的链接过滤方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN109145214A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245308A (zh) * 2019-05-21 2019-09-17 平安银行股份有限公司 图像提取方法、装置及终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729367A (zh) * 2012-10-15 2014-04-16 苏州精易会信息技术有限公司 一种分享网站网页至社交网站的装置
CN104102697A (zh) * 2014-06-27 2014-10-15 深信服网络科技(深圳)有限公司 管理web应用中外链的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729367A (zh) * 2012-10-15 2014-04-16 苏州精易会信息技术有限公司 一种分享网站网页至社交网站的装置
CN104102697A (zh) * 2014-06-27 2014-10-15 深信服网络科技(深圳)有限公司 管理web应用中外链的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江林升: "利用网络爬虫自动检测网站链接状况", 《计算机安全技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245308A (zh) * 2019-05-21 2019-09-17 平安银行股份有限公司 图像提取方法、装置及终端设备
CN110245308B (zh) * 2019-05-21 2024-06-21 平安银行股份有限公司 图像提取方法、装置及终端设备

Similar Documents

Publication Publication Date Title
USRE49486E1 (en) System and method for tracking web interactions with real time analytics
US10331758B2 (en) Digital communications platform for webpage overlay
CN105608134B (zh) 一种基于多线程的网络爬虫系统及其网页爬取方法
CN104021172B (zh) 广告过滤方法及广告过滤装置
Li et al. Here's what I did: Sharing and reusing web activity with ActionShot
CN108052334A (zh) 页面跳转方法、装置、计算机设备和存储介质
CN104331369B (zh) 基于浏览器的网页检测方法及装置、服务器
CN103678487B (zh) 一种网页快照的生成方法和装置
CN106682028A (zh) 获取网页应用的方法、装置及系统
CN108366058A (zh) 防止广告运营商流量劫持的方法、装置、设备及存储介质
CN107766532A (zh) 一种前端Node.js自动化正静态方法
CN108574669B (zh) 用户行为树构建方法及装置
CN105095449A (zh) 一种将html网页转换为移动终端页面的方法
US10943063B1 (en) Apparatus and method to automate website user interface navigation
CN104580093A (zh) 网站通知消息的处理方法、装置及系统
CN109033403A (zh) 用于搜索区块链数据的方法、装置及存储介质
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN110780868A (zh) 基于组件化模板的网站开发方法、装置、设备和存储介质
AU2014400621A1 (en) System and method for providing contextual analytics data
CN107368484A (zh) 网页的静态资源文件的压缩方法及装置、获取方法及装置
CN109145214A (zh) 一种网站页面的链接过滤方法、装置、设备及介质
CN109558183B (zh) 一种自动实现api应用的方法及装置
JP2008009892A (ja) データ管理システム及び管理方法
CN109992737A (zh) 第三方网页内容审核方法、装置及电子设备
CN108121820A (zh) 一种基于移动终端的搜索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104