CN110929185A

CN110929185A - 网站目录检测方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN110929185A
Application number: CN201910977126.7A
Authority: CN
Inventors: 张益宁
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-03-27
Anticipated expiration: 2039-10-15
Also published as: CN110929185B

Abstract

本发明提供一种网站目录检测方法，包括：通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；从所述第一URL开始进行网页爬取，得到第二URL；对所述第二URL进行数据清洗，得到第三URL；对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；通过混合多重匿名代理池对所述第四URL进行扫描；根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。本发明还提供一种网站目录检测装置、计算机设备及计算机存储介质。本发明能够实现宽检测面高检出率的网站目录检测。

Description

网站目录检测方法、装置、计算机设备及计算机存储介质

技术领域

本发明涉及计算机网络领域，具体涉及一种网站目录检测方法、装置、计算机设备及计算机存储介质。

背景技术

随着互联网的高速发展，网站成为学校、公司、企业、政府等进行形象展示、信息发布、业务拓展、客户服务、内部沟通的重要阵地，网站信息安全也日益受到重视。如果网站中存在敏感目录或文件，攻击者容易收集到相关敏感信息并为下一步攻击做准备。网站敏感目录检测工具用来检测预定网站的网站目录下是否存在敏感目录与敏感文件。然而，现有的网站敏感目录检测工具检测面较狭窄，并且检测的准确率不高。

发明内容

鉴于以上内容，有必要提出一种网站目录检测方法、装置、计算机设备及计算机存储介质，其可以对目标网站进行宽检测面高检出率的敏感目录检测，以避免网站敏感信息泄露。

本申请的第一方面提供一种网站目录检测方法，所述方法包括：

通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；

从所述第一URL开始进行网页爬取，得到第二URL；

对所述第二URL进行数据清洗，得到第三URL；

对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；

根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；

通过混合多重匿名代理池对所述第四URL进行扫描；

根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。

另一种可能的实现方式中，所述通过搜索引擎对目标网站的给定关键词进行搜索包括：

通过所述搜索引擎的高级搜索功能限定搜索条件和/或搜索范围，对所述给定关键词进行搜索。

另一种可能的实现方式中，所述对所述第二URL进行数据清洗包括：

将所述第二URL中的重复URL删除；和/或

将所述第二URL中的友情URL过滤。

另一种可能的实现方式中，所述根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典包括：

根据所述URL参数和资源路径生成第一键值对；

根据所述预定文件类型生成第二键值对；

根据所述第一键值对、第二键值对生成所述网站目录检测字典。

另一种可能的实现方式中，所述混合多重匿名代理池包括普通http代理池和高匿代理池。

另一种可能的实现方式中，所述根据所述第四URL的扫描结果确定第四URL是否为敏感目录或敏感文件包括：

判断所述第四URL的返回值是否为预设值；

若所述返回值为预设值，确定第四URL为敏感目录或敏感文件。

另一种可能的实现方式中，所述方法还包括：

输出所述目标网站的检测结果。

本申请的第二方面提供一种网站目录检测装置，所述装置包括：

搜索模块，用于通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；

爬取模块，用于从所述第一URL开始进行网页爬取，得到第二URL；

清洗模块，用于对所述第二URL进行数据清洗，得到第三URL；

生成模块，用于对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；

扩展模块，用于根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；

扫描模块，用于通过混合多重匿名代理池对所述第四URL进行扫描；

确定模块，用于根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。

将所述第二URL中的重复URL删除；和/或

将所述第二URL中的友情URL过滤。

根据所述URL参数和资源路径生成第一键值对；

根据所述预定文件类型生成第二键值对；

判断所述第四URL的返回值是否为预设值；

另一种可能的实现方式中，所述装置还包括：

输出模块，用于输出所述目标网站的检测结果。

本申请的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述网站目录检测方法。

本申请的第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述网站目录检测方法。

本发明通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；从所述第一URL开始进行网页爬取，得到第二URL；对所述第二URL进行数据清洗，得到第三URL；对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；通过混合多重匿名代理池对所述第四URL进行扫描；根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。本发明实现了宽检测面高检出率的网站敏感目录检测，以避免网站敏感信息泄露。

附图说明

图1是本发明实施例提供的网站目录检测方法的流程图。

图2是本发明实施例提供的网站目录检测装置的结构图。

图3是本发明实施例提供的计算机设备的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的网站目录检测方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的网站目录检测方法的流程图。所述网站目录检测方法应用于计算机设备。

本发明网站目录检测方法检测目标网站的网站目录下是否存在敏感目录和文件，以避免敏感信息泄露。

如图1所示，所述网站目录检测方法包括：

101，通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL。

通过搜索引擎对目标网站的给定关键词进行搜索，可以得到所述目标网站的多个第一URL。例如，需要检测平安网站是否包含敏感目录或文件，则以“pingan”为给定关键词进行搜索，得到平安网站的多个第一URL。

URL是Uniform Resoure Locator的缩写，即统一资源定位符。URL也被称为网页的地址，简称网址。每个网页有对应的网址。

URL可以包括传输协议、主机名和资源名三个部分。主机名可以包括服务器名、域名(可包括子域名和顶级域名)和端口号。资源名可以包括资源路径及URL参数。

例如，URL为“http：//video.google.co.uk：80/videoplay？docid＝-7246927612831078230&hl＝en#00h02m30s”，该URL中，“http：//”表示传输协议，“video.google.co.uk：80”表示主机名，“videoplay？docid＝-7246927612831078230&hl＝en#00h02m30s”表示资源名。主机名“video.google.co.uk：80”中，“google.co.uk”是域名(子域名是“video”，顶级域名是“uk”)，“80”是端口号。资源名“videoplay？docid＝-7246927612831078230&hl＝en#00h02m30s”中，“/videoplay”是资源路径。“？docid＝-7246927612831078230&hl＝en#00h02m30s”是URL参数。

可以使用谷歌搜索引擎、搜狗搜索引擎、360搜索引擎、百度搜索引擎等对给定关键词进行搜索。

本实施例中，可以通过搜索引擎的高级搜索功能限定搜索条件和/或搜索范围，对所述目标网站的给定关键词进行搜索，获取所述第一URL。例如，可以通过搜索引擎的高级搜索功能限定与检索词精确匹配、限定不含给定词、限定搜索特定网站、限定检索词出现在网页的标题中限定检索词出现在网页的anchor说明文字中等。

例如，使用百度搜索引擎的高级搜索功能限定精确匹配给定关键词“pingan”、搜索时间范围为“最近一周”，文档格式为“所有网页和文件”，关键词位置为“仅网页标题”，搜索得到多个第一URL。

102，从所述第一URL开始进行网页爬取，得到第二URL。

具体地，从所述第一URL对应的网页文件中爬取得到二级目录下的多个URL；从所述二级目录下的多个URL对应的网页文件中爬取得到三级目录下的多个URL；从所述三级目录下的多个URL对应的网页文件中爬取得到四级目录下的多个URL；依此类推。所述第一URL、二级目录下的URL、三级目录下的URL以及其他级目录下的URL组成所述第二URL。

所述第一URL称为一级目录下的URL或者根目录下的URL。所述第一URL可以是网站的主页。

103，对所述第二URL进行数据清洗，得到第三URL。

本实施例中，对所述第二URL进行数据清洗可以包括对所述第二URL进行去重和过滤。去重是将所述第二URL中的重复URL删除。过滤是将所述第二URL中的友情URL过滤。

在本实施例中，可以使用布隆过滤器对所述第二URL进行去重。布隆过滤器是一种占用空间很小、效率很高的随机数据结构，由一个bit数组和一组hash算法构成。布隆过滤器检索一个URL是否在一个URL集合中。初始状态下，布隆过滤器是一个m位长度的位数组，位数组的每一位为0。有k个不同的hash函数，每一个hash函数随机将每个输入的URL映射到位数组中的一个位上。因此对于一个确定的输入，会有k个索引。将位数组中的k个位置全部置1，输入的URL经过k个hash函数的映射会得到k个索引。判断位数组中的k个索引是0还是1，如果位数组中k个索引中的任意一个是0，则说明输入的URL不在集合之中；如果输入URL之后k个索引都是1，所述输入的URL已经存在，需要将所述输入的URL舍弃掉，避免重复。

重复URL是指两个或者多个URL指向同一个页面，去重就是保留所述两个或者多个URL中的一个URL，删除所述两个或者多个URL中其他的URL。在一具体实施例中，可以通过robots.txt协议文件屏蔽掉重复的URL，得到去重后的第二URL。robots.txt协议文件是一个文本文件，使用任何一个常见的文本编辑器，就可以创建和编辑。robots.txt是一个协议而不是一个命令，robots.txt在搜索引擎中访问网站时查看第一个文件，屏蔽掉后续重复URL。

友情URL即友情链接，是具有一定资源互补优势的网站之间的简单合作形式，即分别在自己的网站上放置对方网站的logo图片或文字的网站名称，并设置对方网站的超链接，达到互相推广的目的。

对所述第二URL进行数据清洗可以提高检测的效率，避免重复和无效的URL占用检测工具的线程，提高检测精确度。

104，对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典。

字典是一种可变容器类模型，可以存储任意类型的对象。字典的每个键值对(key＝>value)用冒号“：”分割，每个键值对之间用逗号“，”，整个字典包括在“{}”中，例如dict＝{key1：value1，key2：value2}。

本实施例中，从所述第三URL的资源名中解析出URL参数和资源路径，根据所述URL参数和资源路径生成第一键值对，根据所述预定文件类型生成第二键值对，根据所述第一键值对、第二键值对生成所述网站目录检测字典。例如，第二URL为“http：//www.XXX.com/pub/item.aspx？&wd＝python&ie＝utf-8/”，所述第二URL的资源名为“/pub/item.aspx？&wd＝python&ie＝utf-8/”，解析出所述第二URL的URL参数为“wd＝python&ie＝utf-8”，解析出所述第二URL的资源路径为“/pub/item.aspx”。根据所述URL参数和资源路径生成第一键值对{‘key1’：‘value1’，‘key2’：‘value2’}＝{‘wd’：‘python’，‘ie’：‘utf-8’}，预定文件类型包括rar文件类型、bak文件类型，根据所述预定文件类型生成第二键值对{‘key3’：‘value3’，‘key4’：‘value4’}＝{‘file1’：‘rar’，‘file2’：‘bak’}，根据第一键值对、第二键值对生成网站目录检测字典dict＝{‘key1’：‘value1’，‘key2’：‘value2’，‘key3’：‘value3’，‘key4’：‘value4’}＝{‘wd’：‘python’，‘ie’：‘utf-8’，‘file1’：‘rar’，‘file2’：‘bak’}。

所述预定文件类型表示敏感文件的文件类型，可以接收用户设置的敏感文件类型，将所述敏感文件类型作为所述预定文件类型。

105，根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL。

根据所述网站目录扫描字典对所述第三URL进行扩展的目的是对所述预定文件类型的目录或文件进行扫描，增大扫描到敏感目录或文件的几率。

例如，第三URL为“http：//www.XXX.com/pub/item.aspx？&wd＝python&ie＝utf-8”，网站目录扫描字典为dict＝{‘key1’：‘value1’，‘key2’：‘value2’，‘key3’：‘value3’，‘key4’：‘value4’＝{‘wd’：‘python’，‘ie’：‘utf-8’，‘file1’：‘rar’，‘file2’：‘bak’}。根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL：“http://www.XXX.com/pub/item.aspx？&wd＝python&ie＝utf-8&file＝rar”、“http://www.XXX.com/pub/item.aspx？&wd＝python&ie＝utf-8&file＝bak”。又如，第三URL为http://www.XXX.com/a/b/c/d/e，根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL：“http://www.XXX.com/a/b/c/d.rar”、http://www.XXX.com/a/b/c.rar、“http://www.XXX.com/a/b.rar”、“http://www.XXX.com/a.rar”、“http://www.XXX.com/a/b/c/d.bak”、“http://www.XXX.com/a/b/c.bak”、“http://www.XXX.com/a/b.bak”、“http://www.XXX.com/a.bak”。

106，通过混合多重匿名代理池对所述第四URL进行扫描。

在本实施例中，所述混合多重匿名代理池包括普通http代理池和高匿代理池。所述普通http代理池和高匿代理池可以是一个或多个。

普通http代理池和高匿代理池都是通过代理服务器访问外部网站。代理服务器是介于浏览器和web服务器之间的一台服务器，是建立在超文本传输协议上的网络浏览方式。普通http代理池可以隐藏IP地址，外部网站的安全设备(防火墙)检测到的不是真实的IP地址，避免受到网络攻击，突破自身IP访问限制。

高匿代理池指的是网络用户通过代理服务器访问外部网站时，外部网站的安全设备(防火墙)无法发现网络用户在使用代理池。

许多网站都有安全设备，具备防护能力，可以识别扫描特征，然后直接拒绝访问，为了绕过防御，本实施例中采用了混合多重匿名代理池。

在一具体实施例中，所述普通http代理池可以是不同商家的普通http代理池。某些商家可能为了追求利益最大化将一些普通http代理池重复出售，导致这些普通http代理池失效。采用不同商家的普通http代理池能够降低反爬虫的概率，防止检测被拒。

例如，使用一个普通http代理池多次访问网站，当访问次数达到预设次数时，所述网站的安全设备(防火墙)会发现所述普通http代理池访问的次数已达到预设值(100次)，当所述普通http代理池再次访问网站时，所述网站的安全设备(防火墙)会将普通http代理池封禁。采用多个不同的普通http代理池就可以避免这种情况。

107，根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。

在本实施例中，对所述第四URL进行扫描可以获得所述第四URL的返回值，根据所述返回值可以确定所述第四URL是否为敏感目录或敏感文件。在一具体实施例中，所述返回值包括200、204、400、403、404。200表示网页服务器已成功处理了请求并提供了请求网页；204表示网页服务器已成功处理了请求，但没有返回任何内容；400表示网页服务器不理解请求的语法；403表示网页服务器拒绝请求，URL为敏感目录或敏感文件；404表示网页服务器找不到请求的网页(网页服务器上不存在的网页经常会返回404)。

优选地，所述根据所述第四URL的扫描结果确定第四URL是否为敏感目录或敏感文件包括：

判断所述第四URL的返回值是否为预设值；

例如，所述预设值为403，若所述第四URL的返回值为403，确定所述第四URL是敏感目录或敏感文件。

实施例一的网站目录检测方法通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；从所述第一URL开始进行网页爬取，得到第二URL；对所述第二URL进行数据清洗，得到第三URL；对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；通过混合多重匿名代理池对所述第四URL进行扫描；根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。实施例一通过搜索引擎获取多个第一URL，扩大了检测的范围。实施例一根据URL参数、资源路径和预定文件类型生成网站目录检测字典，根据所述网站目录扫描字典对所述第三URL进行扩展，提高了敏感目录和文件的检出率。实施例一的网站目录检测方法实现了宽检测面高检出率的网站目录检测，以避免网站敏感信息泄露。

在另一实施例中，所述网站目录检测方法还包括：输出所述目标网站的检测结果。所述检测结果显示所述第四URL是否为敏感目录或敏感文件。可以生成网站目录检测报告，在所述网站目录检测报告中显示检测出的所有敏感目录和敏感文件。

实施例二

图2是本发明实施例二提供的网站目录检测装置的结构图。所述网站目录检测装置20应用于计算机设备。所述网站目录检测装置20检测目标网站的网站目录下是否存在敏感目录和文件，以避免敏感信息泄露。如图2所示，所述网站目录检测装置20可以包括搜索模块201、爬取模块202、清洗模块203、生成模块204、扩展模块205、扫描模块206、确定模块207。

搜索模块201，用于通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL。

爬取模块202，用于从所述第一URL开始进行网页爬取，得到第二URL。

清洗模块203，用于对所述第二URL进行数据清洗，得到第三URL。

生成模块204，用于对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典。

扩展模块205，用于根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL。

扫描模块206，用于通过混合多重匿名代理池对所述第四URL进行扫描。

确定模块207，用于根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。

判断所述第四URL的返回值是否为预设值；

实施例二的网站目录检测装置20通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；从所述第一URL开始进行网页爬取，得到第二URL；对所述第二URL进行数据清洗，得到第三URL；对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；通过混合多重匿名代理池对所述第四URL进行扫描；根据所述第四URL的扫描结果确定所述第四URL是否为敏感目录或敏感文件。实施例二通过搜索引擎获取多个第一URL，扩大了检测的范围。实施例二根据URL参数、资源路径和预定文件类型生成网站目录检测字典，根据所述网站目录扫描字典对所述第三URL进行扩展，提高了敏感目录和文件的检出率。实施例二的网站目录检测装置20实现了宽检测面高检出率的网站目录检测，以避免网站敏感信息泄露。

在另一实施例中，所述网站目录检测装置20还包括：输出模块，用于输出所述目标网站的检测结果。所述检测结果显示所述第四URL是否为敏感目录或敏感文件。可以生成网站目录检测报告，在所述网站目录检测报告中显示检测出的所有敏感目录和敏感文件。

实施例三

本实施例提供一种计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述网站目录检测方法实施例中的步骤，例如图1所示的101-107：

101，通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；

102，从所述第一URL开始进行网页爬取，得到第二URL；

103，对所述第二URL进行数据清洗，得到第三URL；

104，对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；

105，根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；

106，通过混合多重匿名代理池对所述第四URL进行扫描；

或者，该计算机程序被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-207：

搜索模块201，用于通过搜索引擎对目标网站的给定关键词进行搜索，得到多个第一URL；

爬取模块202，用于从所述第一URL开始进行网页爬取，得到第二URL；

清洗模块203，用于对所述第二URL进行数据清洗，得到第三URL；

生成模块204，用于对所述第三URL中的资源名进行解析，得到所述第三URL的URL参数和资源路径，根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典；

扩展模块205，用于根据所述网站目录扫描字典对所述第三URL进行扩展，得到第四URL；

扫描模块206，用于通过混合多重匿名代理池对所述第四URL进行扫描；

实施例四

图3为本发明实施例四提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303，例如网站目录检测程序。所述处理器302执行所述计算机程序303时实现上述网站目录检测方法实施例中的步骤，例如图1所示的101-107：

102，从所述第一URL开始进行网页爬取，得到第二URL；

103，对所述第二URL进行数据清洗，得到第三URL；

106，通过混合多重匿名代理池对所述第四URL进行扫描；

示例性的，所述计算机程序303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序303在所述计算机设备30中的执行过程。例如，所述计算机程序303可以被分割成图2中的搜索模块201、爬取模块202、清洗模块203、生成模块204、扩展模块205、扫描模块206、确定模块207，各模块具体功能参见实施例二。

所述计算机设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机设备30的示例，并不构成对计算机设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机设备30的控制中心，利用各种接口和线路连接整个计算机设备30的各个部分。

所述存储器301可用于存储所述计算机程序303，所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块，以及调用存储在存储器301内的数据，实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备30的使用所创建的数据等。此外，存储器301可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置、计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种网站目录检测方法，其特征在于，所述方法包括：

从所述第一URL开始进行网页爬取，得到第二URL；

对所述第二URL进行数据清洗，得到第三URL；

通过混合多重匿名代理池对所述第四URL进行扫描；

2.如权利要求1所述的方法，其特征在于，所述通过搜索引擎对目标网站的给定关键词进行搜索包括：

3.如权利要求1所述的方法，其特征在于，所述对所述第二URL进行数据清洗包括：

将所述第二URL中的重复URL删除；和/或

将所述第二URL中的友情URL过滤。

4.如权利要求1所述的方法，其特征在于，所述根据所述URL参数、资源路径和预定文件类型生成网站目录检测字典包括：

根据所述URL参数和资源路径生成第一键值对；

根据所述预定文件类型生成第二键值对；

5.如权利要求1所述的方法，其特征在于，所述混合多重匿名代理池包括普通http代理池和高匿代理池。

6.如权利要求1所述的方法，其特征在于，所述根据所述第四URL的扫描结果确定第四URL是否为敏感目录或敏感文件包括：

判断所述第四URL的返回值是否为预设值；

7.如权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

输出所述目标网站的检测结果。

8.一种网站目录检测装置，其特征在于，所述装置包括：

清洗模块，用于对所述第二URL进行数据清洗，得到第三URL；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述网站目录检测方法。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述网站目录检测方法。