CN111782914A - 一种Web服务器防护方法、装置和网络设备 - Google Patents

一种Web服务器防护方法、装置和网络设备 Download PDF

Info

Publication number
CN111782914A
CN111782914A CN202010576213.4A CN202010576213A CN111782914A CN 111782914 A CN111782914 A CN 111782914A CN 202010576213 A CN202010576213 A CN 202010576213A CN 111782914 A CN111782914 A CN 111782914A
Authority
CN
China
Prior art keywords
url
access request
target
directory tree
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010576213.4A
Other languages
English (en)
Other versions
CN111782914B (zh
Inventor
谢波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN202010576213.4A priority Critical patent/CN111782914B/zh
Publication of CN111782914A publication Critical patent/CN111782914A/zh
Application granted granted Critical
Publication of CN111782914B publication Critical patent/CN111782914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种Web服务器防护方法、装置和网络设备。本申请提供的Web服务器防护方法,包括:在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的统一资源定位符URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器;从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树;若查找到,则判断所述访问请求是否来自搜索引擎;若是,则将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。本申请提供的Web服务器防护方法、装置和网络设备,可提高Web服务器的性能。

Description

一种Web服务器防护方法、装置和网络设备
技术领域
本申请涉及通信技术领域,尤其涉及一种Web服务器防护方法、装置和网络设备。
背景技术
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。其为了实现自动信息搜集功能,常通过“爬虫技术”自动爬取Web服务器(网站服务器)的资源,并将爬取的资源加入自身的数据库,进而通过该数据库向用户提供服务。
当众多搜索引擎通过“爬虫技术”爬取Web服务器的资源时,会对Web服务器的性能造成巨大的影响。因此,如何对Web服务器进行防护,以减轻Web服务器在面临搜索引擎的资源爬取时消耗的性能成为当前关注的重点。
发明内容
有鉴于此,本申请提供一种Web服务器防护方法、装置和网络设备,以减轻Web服务器在面临搜索引擎的资源爬取时消耗的性能,提高Web服务器的性能。
本申请第一方面提供一种Web服务器防护方法,所述方法应用于网络设备,所述方法包括:
在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的统一资源定位符URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器;
从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树;
若查找到,则判断所述访问请求是否来自搜索引擎;
若是,则将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。
本申请第二方面提供一种Web服务器防护装置,所述方法应用于网络设备,所述方法包括:
在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的统一资源定位符URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器;
从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树;
若查找到,则判断所述访问请求是否来自搜索引擎;
若是,则将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。
本申请第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本申请提供的任一Web服务器防护方法的步骤。
本申请第四方面提供一种网络设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请任一Web服务器防护方法的步骤。
本申请提供的Web服务器防护方法、装置和网络设备,在接收到来自客户端的HTTP访问请求时,通过确定所述访问请求携带的URL地址,并依据所述URL地址确定所述HTTP访问请求请求访问的目标服务器,进而从预先获取到的URL目录树中查找与所述目标服务器匹配的目标URL目录树,并在查找到时,在所述访问请求来自搜索引擎时,将所述目标URL目录树发送给所述客户端。这样,客户端便可基于接收到的URL目录树获取资源,避免了客户端通过爬虫技术来爬取网站服务器的资源时,对网站服务器造成的性能影响,可提高网站服务器的性能。
附图说明
图1为本申请提供的Web服务器防护方法实施例一的流程图;
图2为本申请提供的Web网站防护方法实施例二的流程图;
图3为本申请提供的Web服务器防护方法实施例三的流程图;
图4为本申请提供的Web服务器防护方法实施例四的流程图;
图5为本申请一示例性实施例提供的Web服务器防护方法的流程图;
图6为本申请一示例性实施例示出的Web服务器防护装置所在网络设备的硬件结构图;
图7为本申请提供的Web服务器防护装置实施例一的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供一种Web服务器防护方法、装置和网络设备,以减轻Web服务器在面临搜索引擎的资源爬取时消耗的性能,提高Web服务器的性能。
本申请提供的Web服务器防护方法、装置和网络设备,在接收到来自客户端的HTTP访问请求时,通过确定所述访问请求携带的URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器,进而从预先获取到的URL目录树中查找与所述目标服务器匹配的目标URL目录树,并在查找到时,在所述访问请求来自搜索引擎时,将所述目标URL目录树发送给所述客户端。这样,客户端便可基于接收到的URL目录树获取资源,避免了客户端通过爬虫技术来爬取Web服务器的资源时,对Web服务器造成的性能影响,可提高Web服务器的性能。
本申请提供的Web服务器防护方法和装置,可应用于网络设备,该网络设备为报文转发设备,用于实现客户端与Web服务器之间的报文转发。例如,其可以是安全管理设备。
下面给出几个具体的实施例,用以详细介绍本申请的技术方案,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请提供的Web服务器防护方法实施例一的流程图。请参照图1,本实施例提供的方法,可以包括以下步骤:
S101、在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器。
具体的,HTTP访问请求由请求行、请求头部、空行和请求数据组成。其中,请求行中记录有统一资源定位符URL(Uuiform Resource Locator,简称URL)。
此外,URL地址一般包括主机域名(host)和路径。其中,路径为由零个或多个“/”符号分割的字符串组成,表示服务器上的一个目录或文件的地址。例如,URL地址为http://www.ceocio.com.cn/net/,其中,www.ceocio.com.cn为主机域名,即服务器域名,net为该服务器的一个目录。
本步骤中,可对访问请求进行解析,获取其携带的URL,进而从URL中提取主机域名,并将该主机域名标识的服务器确定为目标服务器。
S102、从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树。
具体的,预先创建好的URL目录树为多个服务器的URL目录树,其可以存储在本地,也可以存储在其他设备中,本实施例中,不对其进行限定。相应的,当URL存储在其他设备中时,可从其他设备获取其创建好的URL目录树。
在一可能的实现方式中,一个服务器的URL目录树可以以该服务器的域名为标识进行存储。本步骤中,可将目标服务器的域名与URL目录树的标识进行匹配,以查找与该目标服务器匹配的URL目录树。
下面将给出具体的实施例,用以详细说明如何创建URL目录树,此处不再赘述。
S103、若查找到,则判断所述访问请求是否来自搜索引擎。
具体的,来自搜索引擎的访问请求包含“spider”、“search”等字段,用于标识该访问请求由搜索引擎的“蜘蛛爬虫”发起,本步骤中,可基于访问请求是否携带上述字段来判断该访问请求是否来自搜索引擎。
S104、若是,则将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。
需要说明的是,本申请一实施例中,在将目标URL目录树发送给客户端之后,还可以将所述访问请求转发给目标服务器。
具体的,在将目标URL目录树发送给客户端之后,客户端即可基于该URL目录树来获取该URL目录树中各个URL对应的网页中的资源,即客户端可通过该URL目录树获取目标服务器中的资源,不再需要通过“爬虫技术”来获取资源,可避免通过爬虫技术来爬取资源时,对服务器造成的性能影响,可提高服务器的性能。
本实施例提供的方法,在接收到来自客户端的HTTP访问请求时,通过确定所述访问请求携带的URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器,进而从预先获取到的URL目录树中查找与所述目标服务器匹配的目标URL目录树,并在查找到时,在所述访问请求来自搜索引擎时,将所述目标URL目录树发送给所述客户端。这样,客户端便可基于接收到的URL目录树获取资源,避免了客户端通过爬虫技术来爬取网站服务器的资源时,对网站服务器造成的性能影响,可提高网站服务器的性能。
可选的,若从预先创建好的URL目录树中未查找到与所述目标服务器匹配的目标URL目录树,所述方法还包括:
创建与所述目标服务器匹配的所述目标URL目录树。
下面将给出具体的例子,用以详细说明创建URL目录树的具体实现过程和实现原理,此处不再赘述。
本实施例提供的方法,若从预先创建好的URL目录树中未查找到与所述目标服务器匹配的目标URL目录树,通过创建与所述目标服务器匹配的URL目录树,这样,后续可利用该URL目录树对该服务器进行防护。
图2为本申请提供的Web网站防护方法实施例二的流程图。在上述实施例的基础上,本实施例提供的方法,所述目标URL目录树的创建过程,可以包括:
S201、确定所述目标服务器的顶级URL和各级子URL。
参见前面的介绍,URL包括路径,路径为由零个或多个“/”符号分割的字符串组成。需要说明的是,URL可以仅主路径,或者是同时包括主路径和各级子路径。
本步骤中,可先确定访问请求携带的URL的主路径,进而将仅包含该主路径的URL确定为目标服务器的顶级URL。
例如,一实施例中,访问请求携带的URL为http://www.abc.com/d1/d2/,此时,确定该URL的主路径为www.abc.com。本步骤中,将仅包含上述主路径的URL0(http://www.abc.com)确定为目标服务器的顶级URL。
进一步地,可基于顶级URL,通过爬虫技术来获取各级子URL。具体的,各级子URL的获取过程,可以包括:
(1)将顶级URL作为种子URL。
(2)获取所述种子URL对应的网页,从所述网页中提取子URL,并将提取到的子URL确定为i级子URL,其中,所述i为循环次数。
(3)将提取到的子URL作为种子URL,再次执行步骤(2),直至从网页中提取不到子URL。
结合上面的例子,下面详细介绍各级子URL的获取过程:
具体的,本例中,先以URL0作为种子URL,获取该URL对应的网页,并从所述网页中提取一级子URL。例如,获取到该URL对应的网页为网页0,从网页0中提取到两个一级子URL,分别记为URL11和URL12(对应网页11和网页12),其中,URL11为http://www.abc.com/d11,URL12为http://www.abc.com/d11。
进一步的,分别以URL11和URL12作为种子URL,来获取二级子URL。例如,以URL11作为种子URL时,获取该URL对应的网页11,从该网页11中提取到两个二级子URL,分别记为URL111 http://www.abc.com/d11/d21(对应网页111)、URL112:http://www.abc.com/d11/d22(对应网页112)。
以URL12作为种子URL时,获取该URL对应的网页12,从该网页中提取到一个二级子URL,记为URL121,其中,URL121为http://www.abc.com/d12/d21。
进一步地,获取URL111、URL112、URL121对应的网页,从所有网页中均未提取到下一级子URL,此时,认为已经获取到目标服务器的所有URL,结束循环过程。
此时,本例中,获取到的顶级URL为URL0,一级子URL包括URL11和URL12,二级子URL包括URL111、URL112和URLl21。
S202、将所述顶级URL作为目录树的根目录,并将所述各级子URL依次作为所述根目录下的各级目录节点。
需要说明的是,在创建好目录树之后,可将所述URL目录树与目标服务器关联存储。例如,可用目标服务器的域名来标识该URL目录树,以将两者关联存储。
结合上面的例子,本步骤中,创建的URL目录树如下:
根目录:URL0 http://www.abc.com
一级子目录:URL11 http://www.abc.com/d11
URL12 http://www.abc.com/d12
二级子目录:URL111 http://www.abc.com/d11/d21
URL112 http://www.abc.com/d11/d22
URL121 http://www.abc.com/d12/d21
本实施例提供了一种创建服务器的URL目录树的方法,通过该方法,可创建服务器的URL目标树,进而基于该URL目录树对服务器进行防护,可提高服务器的性能。
可选地,在本申请一可能的实现方式中,创建好URL目录树之后,所述方法还包括:
(1)将所述URL目录树展示给用户;
(2)响应于用户针对所述URL目录树中指定目录节点的访问控制操作,在所述指定目录节点中添加禁止访问标记。
具体的,可通过人机交互界面将URL目录树展示给用户。此外,访问控制操作可以是选中操作或标记操作,本实施例中,不对此进行限定。下面以访问控制操作为选中操作为例进行说明。
禁止访问标记用于表征该URL为禁止访问的URL。需要说明的时,指定目录节点中记录的URL可以是可能存在漏洞的URL,通过选中指定目录节点,这样,便可在指定目录节点中添加禁止访问标记,后续可基于该禁止访问标记拦截相关的访问请求,以增加不法分子发现漏洞的难度和成本。
图3为本申请提供的Web服务器防护方法实施例三的流程图。请参照图3,在上述实施例的基础上,本实施例提供的方法,预先获取到的URL目录树的任一级目录节点中携带禁止访问标记,在判断所述访问请求不是来自搜索引擎,所述方法还可以包括:
S301、针对所述URL中的每一级路径,将该级路径与所述目标URL目录树进行匹配。
具体的,URL中的每一级路径包括主路径和各级子路经。本步骤中,可从URL的主路径开始,按照从高到低的顺序,将URL的各级路径与目标URL目录树进行匹配。
例如,访问请求携带的URL为:http://www.abc.com/d11,此时,该URL包含主路径www.abc.com和一级子路径d11。此时,就将www.abc.com与目标URL目录树中的根目录匹配,进而将一级子路径d11与一级子目录进行匹配。
S302、若每一级路径均匹配成功、且与每一级路径匹配的目录节点中均没有携带禁止访问标记,则利用与所述目标服务器匹配的防护规则对所述访问请求进行防护,否则拦截所述访问请求。
例如,结合上面的例子,若URL目录树的根目录中存在禁止访问标记,当该URL的主路径与根目录匹配时,经判断,与主路径匹配的根目录中携带禁止访问标记,此时,拦截该访问请求(将该访问请求丢弃)。
进一步的,结合上面的例子,若URL目录树的根目录和一级子目录中均不存在禁止访问标记,此时,当URL的各级路径均匹配成功时,利用与所述目标服务器匹配的防护规则对所述访问请求进行防护。
进一步地,结合前面的例子,例如,一实施例中,访问请求携带的URL为:http://www.abc.com/d13,此时,一级子路径匹配失败,拦截该访问请求。
需要说明的是,有关利用防护规则对访问请求进行防护的具体实现原理可以参见相关技术中的描述,此处不再赘述。
本实施例提供的方法,通过将所述URL中的每一级路径与所述目标URL目录树进行匹配,并在每一级路径均匹配成功、且与每一级路径匹配的目录中均没有携带禁止访问标记,利用与所述目标服务器匹配的防护规则对所述访问请求进行防护,否则拦截所述访问请求。这样,可通过禁止访问标记拦截某些访问请求,以将携带禁止访问标记的URL对应的网页保护起来,从而可避免黑客发现该网页中的漏洞,增加黑客发现漏洞的难度和成本。
图4为本申请提供的Web服务器防护方法实施例四的流程图。在上述实施例的基础上,本实施例提供的方法,所述判断所述访问请求是否来自搜索引擎,包括:
S401、从所述访问请求中获取用于指示跳转来源的标识字段。
具体的,该标识字段可以为user-agent字段。需要说明的是,user-agent字段表征客户端是通过何种工具来请求的。例如,当客户端通过搜索引擎来请求时,即来自客户端的访问请求的跳转来源为搜索引擎时,此时,user-agent字段会携带该搜索引擎的域名信息。
S402、判断所述标识字段是否与预设的搜索引擎库匹配。
具体的,搜索引擎库中记录各个搜索引擎的域名信息。例如,表1为一示例性实施例示出的搜索引擎域名库。参照表1,搜索引擎的域名信息可以是该搜索引起特有的网络爬虫程序名称。
表1搜索引擎库
搜索引擎 域名信息
谷歌 GoogleBot
百度 BaiDuSpider
雅虎 Inktomi SIurp
…… ……
可预先获取各个搜索引擎的域名信息,并基于获取到的域名信息构建搜索引起域名库。这样,后续即可基于该搜索引起域名库来识别访问请求是否来自搜索引擎。
本步骤中,就在搜索引擎库中查找所述标识字段携带的域名信息,若查找到,确定标识字段与搜索引擎库匹配,否则不匹配。
S403、若是,确定所述访问请求来自搜索引擎,否则确定所述访问请求不是来自搜索引擎。
例如,一访问请求的user-agent字段中携带GoogleBot,此时,确定该访问请求来自搜索引擎。
本实施例提供了一种确定访问请求是否来自搜索引擎的方法,通过该方法,可确定访问请求是否来自搜索引擎,进而在确定访问请求来自搜索引擎时,将与该访问请求请求访问的目标服务器匹配的目标URL目录树返回给客户端,客户端便可基于接收到的URL目录树获取资源,避免了客户端通过爬虫技术来爬取网站服务器的资源时,对网站服务器造成的性能影响,可提高网站服务器的性能。
下面给出一个具体的实施例,用以详细介绍本申请提供的Web服务器防护方法。图5为本申请一示例性实施例提供的Web服务器防护方法的流程图。参照图5,本实施例提供的Web服务器防护方法,可以包括:
S501、在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器。
S502、从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树,若未查找到,执行步骤S503,若查找到,执行步骤S505。
S503、创建与所述目标服务器匹配的URL目录树。
S504、将创建好的URL目录树展示给用户,并响应于用户针对所述URL目录树中指定目录节点的访问控制操作,在所述指定目录节点中添加禁止访问标记。
S505、判断所述访问请求是否来自搜索引擎,若是,执行步骤S506,若否,执行步骤S507
S506、将所述目标URL目录树发送给所述客户端,并将所述访问请求转发给所述目标服务器。
S507、针对所述URL中的每一级路径,将该级路径与所述目标URL目录树进行匹配。
S508、若每一级路径均匹配成功、且与每一级路径匹配的目录节点中均没有携带禁止访问标记,则利用与所述目标服务器匹配的防护规则对所述访问请求进行防护,否则拦截所述访问请求。
有关各步骤的具体实现原理和实现过程可以参见前面实施例中的描述,此处不再赘述。
本实施例提供的方法,在接收到来自客户端的HTTP访问请求时,通过确定所述访问请求携带的URL地址,并依据所述URL地址确定所述HTTP访问请求请求访问的目标服务器,进而从预先获取到的URL目录树中查找与所述目标服务器匹配的目标URL目录树,并在查找到时,在所述访问请求来自搜索引擎时,将所述目标URL目录树发送给所述客户端。这样,客户端便可基于接收到的URL目录树获取资源,避免了客户端通过爬虫技术来爬取网站服务器的资源时,对网站服务器造成的性能影响。此外,在所述访问请求不是来自搜索引擎时,通过将所述URL中的每一级路径与所述目标URL目录树进行匹配,并在每一级路径均匹配成功、且与每一级路径匹配的目录中均没有携带禁止访问标记,利用与所述目标服务器匹配的防护规则对所述访问请求进行防护,否则拦截所述访问请求。这样,可通过禁止访问标记拦截某些访问请求,以将携带禁止访问标记的URL对应的网页保护起来,从而可避免黑客发现该网页中的漏洞,增加黑客发现漏洞的难度和成本。
与前述Web服务器防护方法的实施例相对应,本申请还提供了Web服务器防护装置的实施例。
本申请Web服务器防护装置的实施例可以应用在网络设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在网络设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本申请一示例性实施例示出的Web服务器防护装置所在网络设备的硬件结构图,除了图6所示的存储器610、处理器620、内存630和网络接口640之外,实施例中装置所在的网络设备通常根据该Web服务器防护装置的实际功能,还可以包括其他硬件,对此不再赘述。
图7为本申请提供的Web服务器防护装置实施例一的结构示意图。请参照图7,本实施例提供的装置,应用于网络设备,所述装置包括处理模块710、查找模块720和判断模块730,其中:
所述处理模块710,用于在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的统一资源定位符URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器;
所述查找模块720,用于从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树;
所述判断模块730,用于在所述查找模块720从预先创建好的URL目录树中查找到与所述目标服务器匹配的目标URL目录树时,判断所述访问请求是否来自搜索引擎;
所述处理模块710,用于在所述判断模块730判断所述访问请求来自搜索引擎时,将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。
本实施例的装置,可用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,所述处理模块710,还用于在所述判断模块730判断所述访问请求不是来自搜索引擎时,针对所述URL中的每一级路径,将该级路径与所述目标URL目录树进行匹配,并在每一级路径均匹配成功、且与每一级路径匹配的目录节点中均没有携带禁止访问标记时,利用与所述目标服务器匹配的防护规则对所述访问请求进行防护,以及在任一级路径匹配失败或与任一级路径匹配的目录节点中携带禁止访问标记时,拦截所述访问请求。
进一步地,所述处理模块710,还用于在所述查找模块720在预先获取到的URL目录树中未查找与所述目标服务器匹配的目标URL目录树时,创建与所述目标服务器匹配的所述目标URL目录树。
进一步地,所述目标URL目录树的创建过程,包括:
确定所述目标服务器的顶级URL和各级子URL;
将所述顶级URL作为目录树的根目录,并将所述各级子URL依次作为所述根目录下的各级目录节点。
进一步地,所述判断模块720,具体用于:
从所述访问请求中获取用于指示跳转来源的标识字段;
判断所述标识字段是否与预设的搜索引擎域名库匹配;
若是,确定所述访问请求来自搜索引擎,否则确定所述访问请求不是来自搜索引擎。
进一步地,创建好所述目标URL目录树之后,所述处理模块710,还具体用于:
将所述目标URL目录树展示给用户;
响应于用户针对所述URL目录树中指定目录节点的访问控制操作,在所述指定目录节点中添加禁止访问标记。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本申请提供的任一Web服务器防护方法的步骤。
具体的,适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。
请继续参照图7,本申请还提供一种网络设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请提供的任一Web服务器防护方法的步骤。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种Web服务器防护方法,其特征在于,所述方法应用于网络设备,所述方法包括:
在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的统一资源定位符URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器;
从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树;
若查找到,则判断所述访问请求是否来自搜索引擎;
若是,则将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。
2.根据权利要求1所述的方法,其特征在于,若判断所述访问请求不是来自搜索引擎,所述方法还包括:
针对所述URL中的每一级路径,将该级路径与所述目标URL目录树进行匹配;
若每一级路径均匹配成功、且与每一级路径匹配的目录节点中均没有携带禁止访问标记,则利用与所述目标服务器匹配的防护规则对所述访问请求进行防护。
3.根据权利要求2所述的方法,其特征在于,若任一级路径匹配失败或与任一级路径匹配的目录节点中携带禁止访问标记,则拦截所述访问请求。
4.根据权利要求1所述的方法,其特征在于,若从预先创建好的URL目录树中未查找到与所述目标服务器匹配的目标URL目录树,所述方法还包括:
创建与所述目标服务器匹配的所述目标URL目录树。
5.根据权利要求1或4所述的方法,其特征在于,所述目标URL目录树的创建过程,包括:
确定所述目标服务器的顶级URL和各级子URL;
将所述顶级URL作为目录树的根目录,并将所述各级子URL依次作为所述根目录下的各级目录节点。
6.根据权利要求3所述的方法,其特征在于,创建好所述目标URL目录树之后,所述方法还包括:
将所述目标URL目录树展示给用户;
响应于用户针对所述URL目录树中指定目录节点的访问控制操作,在所述指定目录节点中添加禁止访问标记。
7.根据权利要求1所述的方法,其特征在于,所述判断所述访问请求是否来自搜索引擎,包括:
从所述访问请求中获取用于指示跳转来源的标识字段;
判断所述标识字段是否与预设的搜索引擎域名库匹配;
若是,确定所述访问请求来自搜索引擎,否则确定所述访问请求不是来自搜索引擎。
8.一种Web服务器防护装置,其特征在于,所述装置应用于网络设备,所述装置包括处理模块、查找模块和判断模块,其中:
所述处理模块,用于在接收到来自客户端的HTTP访问请求时,获取所述访问请求携带的统一资源定位符URL,并依据所述URL确定所述HTTP访问请求请求访问的目标服务器;
所述查找模块,用于从预先创建好的URL目录树中查找与所述目标服务器匹配的目标URL目录树;
所述判断模块,用于在所述查找模块从预先创建好的URL目录树中查找到与所述目标服务器匹配的目标URL目录树时,判断所述访问请求是否来自搜索引擎;
所述处理模块,用于在所述判断模块判断所述访问请求来自搜索引擎时,将所述目标URL目录树发送给所述客户端,以使所述客户端通过所述目标URL目录树获取所述目标服务器的资源。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现本申请提供的任一Web服务器防护方法的步骤。
10.一种网络设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请任一Web服务器防护方法的步骤。
CN202010576213.4A 2020-06-22 2020-06-22 一种Web服务器防护方法、装置和网络设备 Active CN111782914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010576213.4A CN111782914B (zh) 2020-06-22 2020-06-22 一种Web服务器防护方法、装置和网络设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010576213.4A CN111782914B (zh) 2020-06-22 2020-06-22 一种Web服务器防护方法、装置和网络设备

Publications (2)

Publication Number Publication Date
CN111782914A true CN111782914A (zh) 2020-10-16
CN111782914B CN111782914B (zh) 2023-05-26

Family

ID=72756943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010576213.4A Active CN111782914B (zh) 2020-06-22 2020-06-22 一种Web服务器防护方法、装置和网络设备

Country Status (1)

Country Link
CN (1) CN111782914B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860969A (zh) * 2021-02-25 2021-05-28 武汉思普崚技术有限公司 域名分类匹配方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム
CN101355587A (zh) * 2008-09-17 2009-01-28 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN104506529A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 网站防护方法和装置
CN105868251A (zh) * 2015-12-22 2016-08-17 乐视云计算有限公司 一种缓存数据更新方法及装置
CN106341377A (zh) * 2015-07-15 2017-01-18 威海捷讯通信技术有限公司 一种Web服务器免受攻击的方法及装置
CN106844475A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 确定隐藏的url的方法及装置
CN110110194A (zh) * 2019-04-29 2019-08-09 百度在线网络技术(北京)有限公司 一种资源获取方法、服务器、客户端及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271670A (ja) * 2002-03-19 2003-09-26 Mitsubishi Electric Corp 情報収集装置、情報収集方法及びプログラム
CN101355587A (zh) * 2008-09-17 2009-01-28 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN104506529A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 网站防护方法和装置
CN106341377A (zh) * 2015-07-15 2017-01-18 威海捷讯通信技术有限公司 一种Web服务器免受攻击的方法及装置
CN105868251A (zh) * 2015-12-22 2016-08-17 乐视云计算有限公司 一种缓存数据更新方法及装置
CN106844475A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 确定隐藏的url的方法及装置
CN110110194A (zh) * 2019-04-29 2019-08-09 百度在线网络技术(北京)有限公司 一种资源获取方法、服务器、客户端及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱方闻: "网站建设过程中搜索引擎的优化与应用" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860969A (zh) * 2021-02-25 2021-05-28 武汉思普崚技术有限公司 域名分类匹配方法及装置

Also Published As

Publication number Publication date
CN111782914B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US8800043B2 (en) Pre-emptive pre-indexing of sensitive and vulnerable assets
Ramesh et al. An efficacious method for detecting phishing webpages through target domain identification
US8020206B2 (en) System and method of analyzing web content
US7290131B2 (en) Guaranteeing hypertext link integrity
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US9075885B2 (en) System for handling a broken uniform resource locator
JP5439360B2 (ja) 検索検証システム及び方法
US8442716B2 (en) Identifying physical locations of entities
US8560519B2 (en) Indexing and searching employing virtual documents
KR20040082633A (ko) 인터넷 검색 엔진에 있어서의 무효 클릭 검출 방법 및 장치
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
US20190317968A1 (en) Method, system and computer program products for recognising, validating and correlating entities in a communications darknet
US20190334936A1 (en) Malicious website discovery using web analytics identifiers
CN111782914B (zh) 一种Web服务器防护方法、装置和网络设备
JP2007520788A (ja) ウェブページに対する地理的位置識別子の割当て
CN110674427A (zh) 响应网页访问请求的方法、装置、设备及存储介质
US20210176233A1 (en) Malicious website discovery using legitimate third party identifiers
US20150269268A1 (en) Search server and search method
Liu et al. Knowledge Expansion and Counterfactual Interaction for {Reference-Based} Phishing Detection
KR20090019573A (ko) 웹서버 취약점 점검 장치 및 방법
KR100619179B1 (ko) 인터넷 검색 엔진에 있어서의 무효 클릭 검출 방법 및 장치
US20110208717A1 (en) Chaffing search engines to obscure user activity and interests
US20100017414A1 (en) Search activity eraser
KR102338252B1 (ko) 웹 악성코드 탐지를 위한 악성코드 분석 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant