CN105022824A

CN105022824A - 无效链接的识别方法和装置

Info

Publication number: CN105022824A
Application number: CN201510430940.9A
Authority: CN
Inventors: 李菲; 张龙; 毛冲
Original assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2015-11-04
Anticipated expiration: 2035-07-21
Also published as: CN105022824B

Abstract

本发明提供一种无效链接的识别方法和装置，通过获取待识别链接对应的URL，根据待识别链接对应的URL构造多个无效链接，进而获取多个无效链接对应的响应页面和待识别链接对应的响应页面，确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度，若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定待识别链接为无效链接。所述方法中，通过主动构造无效链接的样本，根据待识别链接和无效链接对应的响应页面的相似度确定无效链接，提高了无效链接识别的准确性。

Description

无效链接的识别方法和装置

技术领域

本发明涉及互联网技术，尤其涉及一种无效链接的识别方法和装置。

背景技术

随着互联网技术的发展，出现了大量的网站，网站中不可避免的存在一些缺陷和漏洞。目前技术中主要通过爬虫技术主动进行web扫描获取网站链接，从而根据获取的链接获得网站结构，发现网站的缺陷和漏洞。爬虫获取的链接大都来自于网站的响应页面，这些响应页面中包括的链接有一些无效链接，无效链接即不存在的链接。用户通过浏览器访问无效链接后最直接的反应就是返回页面不存在。

现有技术中对无效链接的判断，通常是根据网站返回的状态码进行判断，例如，如果链接对应的响应页面不存在，那么网站返回状态码404，爬虫装置确定该链接为无效链接。由于网站行为是可以自行配置的，对于无效链接网站可以返回正常状态码，因此只根据状态码判断无效链接会造成大量的误判，导致无效链接的识别准确性差。将无效链接误判为有效链接会导致网站规模急剧膨胀，不利于网站的维护。

发明内容

本发明实施例提供一种无效链接的识别方法和装置，能够提高无效链接识别的准确性。

本发明第一方面提供一种无效链接的识别方法，包括：

获取待识别链接对应的统一资源符URL，所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名；

根据所述待识别链接对应的URL构造多个无效链接，所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名，所述多个无效链接对应的URL包括的目录、文件名和扩展名，与所述第一目录、第一文件名和第一扩展名中的至少一个不同；

获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面；

确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度；

若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定所述待识别链接为无效链接。

可选的，所述确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度，包括：

对所述多个无效链接对应的响应页面分别进行去噪处理；

对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算，得到所述每个无效链接对应的响应页面聚合后的类别；

对所述多个无效链接对应的响应页面的类别进行聚类运算，得到所述多个无效链接对应的响应页面聚合后的类别；

对所述待识别链接对应的响应页面进行聚类运算，得到所述待识别链接对应的响应页面聚合后的类别；

确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度；

所述若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定所述待识别链接为无效链接，包括：

若所述待识别链接对应的响应页面聚合后的任意一个类别，与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值，则确定所述待识别链接为无效链接。

可选的，所述根据所述待识别链接对应的URL构造多个无效链接，包括：

获取N个第二文件名，以及获取M个第二扩展名，将所述N个第二文件名和所述M个第二扩展名进行任意组合后，替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名，得到N*M个无效链接，M和N均为大于或等于1的正整数；

将所述第一文件名与所述M个第二扩展名进行任意组合后，替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名，得到M个无效链接；

构造I个第二目录，用所述I个第二目录替换所述待识别链接对应的URL中包括的所述第一目录，得到I个无效链接，I为大于或等于1的正整数。

可选的，所述根据所述待识别链接对应的URL构造多个无效链接对应的URL之前，所述方法还包括：

确定所述待识别链接是否已经被识别过；

若所述待识别链接已经被识别过，则从数据库中查找所述待识别链接的信息，根据所述待识别链接的信息确定所述待识别链接为无效链接或有效链接；

若所述待识别链接没有被识别过，则确定所述待识别链接对应的页面是否是重定向页面；

若所述待识别对应的页面不是重定向页面，则根据所述待识别链接对应的URL构造所述多个无效链接对应的URL。

可选的，所述方法还包括：

若所述待识别链接对应的页面为重定向页面，则获取所述重定向页面的响应页面；

若所述重定向页面的响应页面中包括的状态码指示所述重定向页面不存在，则确定所述重定向页面对应的链接为无效链接；

若所述重定向页面的响应页面中包括的状态码指示所述重定向页面存在，则确定所述重定向页面对应的链接是否被识别过；

若所述重定向页面对应的链接被识别过，则从所述数据库中查找所述重定向页面对应的链接的信息，根据所述重定向页面对应的链接的信息确定所述重定向页面对应的链接为无效链接或有效链接；

若所述重定向页面对应的链接没有被识别过，则根据所述重定向页面对应的链接构造多个无效链接。

可选的，所述方法还包括：若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值，则确定所述待识别链接为有效链接。

可选的，在确定所述待识别链接为无效链接之后，所述方法还包括：

将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中，并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。

本发明第二方面提供一种无效链接的识别装置，包括：

第一获取模块，用于获取待识别链接对应的统一资源符URL，所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名，；

构造模块，用于根据所述待识别链接对应的URL构造多个无效链接，所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名，所述多个无效链接对应的URL包括的目录、文件名和扩展名，与所述第一目录、第一文件名和第一扩展名中的至少一个不同；

第二获取模块，用于获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面；

确定模块，用于确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度；

识别模块，用于若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定所述待识别链接为无效链接。

可选的，所述确定模块包括：

去噪单元，用于对所述多个无效链接对应的响应页面分别进行去噪处理；

聚类单元，用于对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算，得到所述每个无效链接对应的响应页面聚合后的类别；

所述聚类单元，还用于对所述多个无效链接对应的响应页面的类别进行聚类运算，得到所述多个无效链接对应的响应页面聚合后的类别；

所述聚类单元，还用于对所述待识别链接对应的响应页面进行聚类运算，得到所述待识别链接对应的响应页面聚合后的类别；

确定单元，用于确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度；

所述识别模块具体用于：若所述待识别链接对应的响应页面聚合后的任意一个类别，与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值，则确定所述待识别链接为无效链接。

可选的，所述构造模块具体用于：

可选的，所述无效链接的识别装置还包括预处理模块，所述预处理模块用于：

确定所述待识别链接是否已经被识别过；

若所述待识别对应的页面不是重定向页面，则指示所述构造模块根据所述待识别链接对应的URL构造所述多个无效链接。

可选的，所述预处理模块还用于：

若所述重定向页面的应页面中包括的状态码指示所述重定向页面不存在，则确定所述重定向页面对应的链接为无效链接；

若所述重定向页面对应的链接没有被识别过，则指示所述构造模块根据所述重定向页面对应的链接构造多个无效链接。

可选的，所述识别模块还用于：

若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值，则确定所述待识别链接为有效链接。

可选的，所述无效链接的识别装置还包括：

更新模块，用于将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中，并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。

本发明提供的无效链接的识别方法和装置，通过获取待识别链接对应的URL，根据待识别链接对应的URL构造多个无效链接，进而获取多个无效链接对应的响应页面和待识别链接对应的响应页面，确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度，若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定待识别链接为无效链接。所述方法中，通过主动构造无效链接的样本，根据待识别链接和无效链接对应的响应页面的相似度确定无效链接，提高了无效链接识别的准确性。

附图说明

图1为本发明实施例一提供的识别无效链接的方法的流程图；

图2为本发明实施例二提供的无效链接的识别方法的流程图；

图3为本发明实施例三提供的无效链接的识别方法的流程图；

图4为本发明实施例四提供的一种无效链接的识别装置的结构示意图；

图5为本发明实施例五提供的一种无效链接的识别装置的结构示意图；

图6为本发明实施例六提供的一种无效链接的识别装置的结构示意图。

具体实施方式

图1为本发明实施例一提供的识别无效链接的方法的流程图，本实施例的方法可以由无效链接的识别装置执行，如图1所示，本实施例的方法可以包括：

步骤101、获取待识别链接对应的统一资源符(Uniform Resource Locator，简称URL)，该待识别链接对应的URL包括第一目录、第一文件名和第一扩展名。

待识别链接通常由用户输入，例如，用户通过浏览器点击网页上的一个链接之后，浏览器会向服务器发送该链接，无效链接的识别装置就能够获取到该链接对应的URL，在互联网中，每个页面都唯一对应一个URL，URL即通常所说的网址。

URL通常由三部分组成：协议、服务器域名或IP地址、资源文件名。其中，协议部分用于指示通信所使用的协议，常用的协议有超文本传输协议(Hypertext Transfer Protocol，简称HTTP)、文件传输协议(File TransferProtocol，简称FTP)、网际Gopher协议(The Internet Gopher Protocol，简称GOPHER)、基于安全套接层的超文本传输协议(Hyper Text Transfer Protocolover Secure Socket Layer，简称HTTPS)以及电子邮件协议(Mailto Protocol)等。服务器域名或IP地址部分不仅仅包括服务器的IP地址或服务器的域名，还可以包括端口号或链接服务器必须的用户名称和密码。资源文件名部分通常以等级结构包含资源的路径，不同等级之间通过斜线(/)隔开，例如，常见的资源文件名部分包括目录和文件名，一个目录下包含多个文件名，文件名从属于目录，文件名之后还会有文件名的扩展名，资源文件名部分还可以包括其他参数。例如，URL:http://www.baidu/test/admin.php,其中，http://为协议的格式，www.baidu为服务器的域名，test为目录，admin.php为文件名。

步骤102、根据待识别链接对应的URL构造多个无效链接，多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名，多个无效链接对应的URL包括的目录、文件名和扩展名，与第一目录、第一文件名和第一扩展名中的至少一个不同。

其中，多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名，多个无效链接对应的URL包括的目录、文件名和扩展名，与第一目录、第一文件名和第一扩展名中的至少一个不同，具体为：多个无效链接对应的URL包括的文件名与第一文件名不同，第一目录和多个无效链接对应的URL包括的目录相同，第一扩展名和多个无效链接对应的URL包括的扩展名相同。或者，第一目录和多个无效链接对应的URL包括的目录不同，多个无效链接对应的URL包括的文件名与第一文件名相同，第一扩展名和多个无效链接对应的URL包括的扩展名相同。或者，第一扩展名和多个无效链接对应的URL包括的扩展名不同，第一目录和多个无效链接对应的URL包括的目录相同，多个无效链接对应的URL包括的文件名与第一文件名相同。或者，多个无效链接对应的URL包括的文件名与第一文件名不同，第一目录和多个无效链接对应的URL包括的目录不同，第一扩展名和多个无效链接对应的URL包括的扩展名相同。或者，多个无效链接对应的URL包括的文件名与第一文件名不同，第一扩展名和多个无效链接对应的URL包括的扩展名不同，第一目录和多个无效链接对应的URL包括的目录相同。或者，第一扩展名和多个无效链接对应的URL包括的扩展名不同，第一目录和多个无效链接对应的URL包括的目录不同，多个无效链接对应的URL包括的文件名与第一文件名相同。或者，第一扩展名和多个无效链接对应的URL包括的扩展名、第一目录和多个无效链接对应的URL包括的目录、多个无效链接对应的URL包括的文件名与第一文件名均不同。

具体可以通过以下方式构造多个无效链接：

(1)获取N个第二文件名，以及获取M个第二扩展名，将N个第二文件名和M个第二扩展名进行任意组合后，替换待识别链接对应的URL中包括的第一文件名和第一扩展名，得到N*M个无效链接，M和N均为大于或等于1的正整数。其中，第二文件名可以随机生成，或者，按照预先设定的构造规则生成，生成的第二文件名的个数可以预先规定好，第二扩展名与服务器上存储的文件的类型有关。

(2)将第一文件名与M个第二扩展名进行任意组合后，替换待识别链接对应的URL中包括的第一文件名和第一扩展名，得到M个无效链接。

由于有些web服务器对文件名敏感，如果全部采用随机文件名，采集到的无效链接的样本不够全面，因此，本实施例中用待识别链接的第一文件名与M个第二扩展名进行组合后获得无效链接。

(3)构造I个第二目录，用I个第二目录替换待识别链接对应的URL中包括的第一目录，得到I个无效链接，I为大于或等于1的正整数。

本实施例中，构造的无效链接的样本越多，则对于后续无效链接的识别更加准确，因此，可以通过用第二目录替换待识别链接对应的URL中包括的第一目录，扩大无效链接的样本。

步骤103、获取多个无效链接对应的响应页面和待识别链接对应的响应页面。

具体的，无效链接的识别装置向服务器发送多个无效链接，服务器会向无效链接的识别装置返回每个无效链接对应的响应页面。同样，无效链接的识别装置也向服务器发送待识别链接，服务器向无效链接的识别装置返回待识别链接对应的响应页面。

步骤104、确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度。

可以采用现有的任意一种方式确定两个响应页面的相似度。

步骤105、若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定待识别链接为无效链接。

本实施例中，相似度阈值预先设定好，若待识别链接对应的响应页面和某个无效链接中的对应响应页面的相似度大于相似度阈值，说明待识别链接对应的响应页面和无效链接中的对应响应页面很相似，则将待识别链接确定为无效链接。若待识别链接对应的响应页面和多个无效链接中的所有无效链接的响应页面的相似度均小于或等于相似度阈值，则确定待识别链接为有效链接。

本实施例中，通过获取待识别链接对应的URL，根据待识别链接对应的URL构造多个无效链接，进而获取多个无效链接对应的响应页面和待识别链接对应的响应页面，确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度，若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定待识别链接为无效链接。所述方法中，通过主动构造无效链接的样本，根据待识别链接和无效链接对应的响应页面的相似度确定无效链接，提高了无效链接识别的准确性。

进一步，若构造的无效链接的样本数足够多，那么就能够全面的识别出所有的无效链接，进而能够准确的获知网站结构。

实施例一中若构造的无效链接数量多，在确定待识别链接对应的响应页面和无效链接对应的响应页面的相似度时，计算量会很大且很耗时，本发明实施例二在实施例一的基础上进行了进一步的优化。图2为本发明实施例二提供的无效链接的识别方法的流程图，如图2所示，本实施例提供的方法可以包括以下步骤。

步骤201、获取待识别链接对应的URL，该待识别链接对应的URL包括第一目录、第一文件名和第一扩展名。

步骤202、根据待识别链接对应的URL构造多个无效链接，多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名，多个无效链接对应的URL包括的目录、文件名和扩展名，与第一目录、第一文件名和第一扩展名中的至少一个不同。

步骤203、获取多个无效链接对应的响应页面和待识别链接对应的响应页面。

步骤201-203的具体实现方式请参照实施例一中步骤101-103的具体实现方式，这里不再赘述。

步骤204、对多个无效链接对应的响应页面分别进行去噪处理。

无效链接对应的响应页面中会包含一些与无效链接的构造相关的特征，这些与无效链接的构造相关的特征会影响无效链接对应的响应页面的聚类，因此在去噪处理时需要剔除掉与无效链接的构造相关的特征。与无效链接的构造相关的特征通常是一些随机构造的字符串，例如，待识别链接对应的URl为http://www.test.com/a/index.php,构造的无效链接对应的URL为http://www.test.com/a/rfcmjiwe.php，其中，无效链接对应的URL中的字符串‘rfcmjiwe’为随机构造的，若该无效链接对应的响应页面中有与随机字符串‘rfcmjiwe’相关的内容，那么需要剔除掉这些随构造不同而变化的部分，留下的是页面不变的元素，最大程度的提升准确性。如果不剔除掉这部分，就会影响后续与待识别链接对应的响应页面之间相似度的对比。

另外，无效链接对应的响应页面的DOM可能不是一个规范的DOM结构，主要由以下两方面的因素引起：一方面在网站开发者并不是完全遵守规范来编写网页，另一方面在去噪时剔除掉了可变因子，导致DOM结构不是一个完整的规范的DOM结构。因此，在去噪处理后还需要对无效链接对应的响应页面进行统一编码，对无效链接对应的响应页面进行修正、删除、配对等，使无效链接对应的响应页面的DOM结果为规范的DOM结构。另外，各页面的编码是多种多样，有utf8、gbk等多种格式，为了方便我们统一处理和维护，需要对各种编码进行统一处理。

步骤205、对多个无效链接中的每个无效链接对应的响应页面进行聚类运算，得到每个无效链接对应的响应页面聚合后的类别。

每个无效链接对应的响应页面中都包括文档对象模型(Document ObjectModel，简称DOM)，DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系，可以把DOM认为是页面上数据和结构的一个树形表示。

对于某个无效链接，首先提取该无效链接对应的响应页面的DOM树的所有叶子节点的路径，一棵DOM树包括：根节点、非叶子节点和叶子节点，每个节点都有标识、属性、内容等。叶子节点的路径即从根节点到叶子节点所经过的路径。假设DOM树D共有n个叶子节点，那么DOM树D的所有叶子节点的路径表示为D＝{D1,D2……Di……Dj……Dn}。Dn是根节点到第n个叶子节点的路径,Dn具体可以表示为：Dn＝[Pn1,Pn2……Pnx]，Pnx表示路径上的节点。

在提取该无效链接对应的响应页面的DOM树的所有叶子节点的路径之后，根据各叶子节点的路径之间的相似度进行聚类运算，将各叶子节点的路径进行合并。例如，若第i个叶子节点的路径Di与第j个叶子节点路径Dj的相似度小于α|时，即Di-Dj|<α，则认为Di和Dj可以聚合为一类，α为预先设置的参数，聚合后的类别可以用路径Di或Dj表示。通过聚合运算将DOM树D的所有叶子节点的路径聚合为集合T，T＝{T1,T2……Tm}，集合T中的任意两个类别的相似度大于β,β为预先设置的参数，任意两个类别的相似度大于β说明集合T已经收敛。

步骤206、对多个无效链接对应的响应页面的类别进行聚类运算，得到多个无效链接对应的响应页面聚合后的类别。

在步骤205中是对每个无效链接内部的多个叶子节点的路径进行聚合，本步骤是进行无效链接之间的聚合，假设多个无效链接在步骤205聚合后共有K个类别，共同组成集合C＝{C1,C2……Ck},Ck表示第k个类别，那么对K个类别进行聚合，当|Ci-Cj|>γ,认为Ci和Cj相似，可归并为一类，Ci和Cj表示K个类别中的任意两个类别，通过对K个类别进行聚合，最终得到多个无效链接聚合后的类别集合R＝{R1,R2……Rs}。

步骤207、对待识别链接对应的响应页面进行聚类运算，得到待识别链接对应的响应页面聚合后的类别。

对待识别链接对应的响应页面进行聚合时，可以采用与步骤205中相同的方法，这里不再赘述。

步骤205-207通过聚合将相似的路径进行合并，减少了本实施例中提到的路径都是指叶子节点的路径，例如，待识别链接对应的响应页面的DOM树中原来有10条路径，进行聚合后只有三条路径。

步骤208、确定待识别链接对应的响应页面聚合后的类别与多个无效链接对应的响应页面聚合后的类别的相似度。

待识别链接对应的响应页面聚合后的类别可能有多个，多个无效链接对应的响应页面聚合后的类别也可能有多个，每个类别表示一的路径，类别中具体包括该条路径上每个节点的标识、节点的属性和节点的内容等信息。

步骤209、若待识别链接对应的响应页面聚合后的任意一个类别，与多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于相似度阈值，则确定待识别链接为无效链接。

例如，待识别链接对应的响应页面聚合后的类别为两个T1和T2，多个无效链接对应的响应页面聚合后的类别为三个R1、R2和R3，那么，需要分别计算T1与R1、R2、R3的相似度，以及T2与R1、R2、R3的相似度，只要T1或T2与R1、R2、R3中的任意一个类别的相似度大于相似度阈值，就确定待识别链接为无效链接。

若待识别链接对应的响应页面聚合后的所有类别与多个无效链接对应的响应页面聚合后的所有类别的相似度均小于或等于相似度阈值，则确定但判断链接为有效链接。

步骤210、将待识别链接和多个无效链接对应的响应页面聚合后的类别保存在数据库信息中，并建立多个无效链接对应的响应页面聚合后的类别与第一目录的对应关系。

本实施例中，以目录为单位存储无效链接对应的响应页面聚合后的类别，如果再有该目录下的链接要进行判断时，可以不再进行无效链接的构造，直接对待识别链接对应的响应页面进行聚类运算，得到待识别链接对应的响应页面聚合后的类别，确定待识别链接对应的响应页面聚合后的类别与该目录下的多个无效链接对应的响应页面聚合后的类别的相似度。

本实施例中，通过对每个无效链接对应的响应页面和待识别链接对应的响应页面进行聚类运算，进一步对多个无效链接对应的响应页面的类别进行聚类运算，将多个无效链接中相似的响应页面进行合并，以减少无效链接对应的响应页面的内容，后续在进行相似度计算时，只需要计算待识别链接对应的响应页面聚合后的类别与多个无效链接对应的响应页面聚合后的类别的相似度，从而减小了相似度的计算量，节省了相似度计算所需的时间，提高了无效链接的识别效率。

图3为本发明实施例三提供的无效链接的识别方法的流程图，如图3所示，本实施例提供的方法包括以下步骤：

步骤301、获取待识别链接对应的URL。

该待识别链接对应的URL包括第一目录、第一文件名和第一扩展名，第一扩展名为第一文件名的扩展名。

步骤302、确定待识别链接是否已经被识别过。

若待识别链接已经被识别过，则执行步骤303。若待识别链接没有被识别过，则执行步骤304。

步骤303、从数据库中查找待识别链接的信息，根据待识别链接的信息确定待识别链接为无效链接或有效链接。

数据库用于保存已经被识别过的所有链接、已经被识别过的所有链接的信息，以及以目录为单位保存目录下的多个无效链接对应的响应页面聚合后的类别。其中，已经被识别过的所有链接的信息中包括该被识别过的链接为有效链接或者无效链接。

步骤303之后执行步骤312。

步骤304、确定待识别链接对应的页面是否是重定向页面。

若待识别链接对应的页面不为重定向页面，则执行步骤305，若待识别链接对应的页面是重定向页面，则执行步骤310。

步骤305、根据待识别链接对应的URL构造多个无效链接。

步骤305的具体实现方式可参照实施例一中步骤102的具体实现方式，这里不再赘述。

步骤306、获取多个无效链接对应的响应页面和待识别链接对应的响应页面。

步骤307、确定待识别链接对应的响应页面和多个无效链接对应的响应页面的相似度。

步骤308、若待识别链接对应的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定待识别链接为无效链接。

步骤307-309的具体实现方式可参照实施例二中步骤204-209，这里不再赘述。

步骤309、输出判断结果。

步骤310、将重定向页面对应的链接作为待判定链接，确定重定向页面对应的链接为有效链接或无效链接。

其中，步骤310具体可以包括以下子步骤401-409(图3中未示出)，步骤310执行之后执行步骤309。

步骤401、获取重定向页面的响应页面。

步骤402、确定重定向页面的状态码是否指示重定向页面不存在。

若重定向页面的状态码指示所述重定向页面不存在，则执行步骤403。若重定向页面的状态码指示重定向页面存在，则执行步骤404。

步骤403、确定重定向页面对应的链接为无效链接。

步骤404、确定重定向页面对应的链接是否被识别过。

若重定向页面对应的链接被识别过，则执行步骤405，若重定向页面对应的链接没有被识别过，则执行步骤406。

步骤405、从数据库中查找重定向页面对应的链接的信息，根据重定向页面对应的链接的信息确定重定向页面对应的链接为无效链接或有效链接。

步骤406、根据重定向页面对应的链接构造多个无效链接。

步骤407、获取多个无效链接对应的响应页面和重定向页面的响应页面。

步骤408、确定重定向页面的响应页面和多个无效链接对应的响应页面的相似度。

步骤409、若重定向页面的响应页面和多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定重定向页面为无效链接。

本实施例中，在获取到待识别链接对应的URL之后，通过确定待识别链接是否已经被识别过，若待识别链接被识别过，则执行从数据库中查找待识别链接的信息，根据待识别链接的信息确定待识别链接是无效链接还是有效链接，进一步提高了无效链接的识别效率。

图4为本发明实施例四提供的一种无效链接的识别装置的结构示意图，如图4所示，本实施例提供的无效链接的识别装置包括：

第一获取模块11，用于获取待识别链接对应的统一资源符URL，所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名，；

构造模块12，用于根据所述待识别链接对应的URL构造多个无效链接，所述多个无效链接中的每个无效链接对应的URL包括目录、文件名和扩展名，所述多个无效链接对应的URL包括的目录、文件名和扩展名，与所述第一目录、第一文件名和第一扩展名中的至少一个不同；

第二获取模块13，用于获取所述多个无效链接对应的响应页面和所述待识别链接对应的响应页面；

确定模块14，用于确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度；

识别模块15，用于若所述待识别链接对应的响应页面和所述多个无效链接中的任意一个无效链接对应的响应页面的相似度大于设定的相似度阈值，则确定所述待识别链接为无效链接。

可选的，所述构造模块12具体用于：获取N个第二文件名，以及获取M个第二扩展名，将所述N个第二文件名和所述M个第二扩展名进行任意组合后，替换所述待识别链接对应的URL中包括的所述第一文件名和所述第一扩展名，得到N*M个无效链接，M和N均为大于或等于1的正整数；

可选的，所述识别模块15还用于：若所述待识别链接对应的响应页面和所述多个无效链接中的所有无效链接的响应页面的相似度均小于或等于所述相似度阈值，则确定所述待识别链接为有效链接。

本实施例提供的无效链接的识别装置，可用于执行实施例一的方法，具体实现方式和技术效果类似，这里不再赘述。

图5为本发明实施例五提供的一种无效链接的识别装置的结构示意图，如图5所示，本实施例在实施例4的基础上，所述确定模块14包括：

去噪单元141，用于对所述多个无效链接对应的响应页面分别进行去噪处理；

聚类单元142，用于对所述多个无效链接中的每个无效链接对应的响应页面进行聚类运算，得到所述每个无效链接对应的响应页面聚合后的类别；

所述聚类单元142，还用于对所述多个无效链接对应的响应页面的类别进行聚类运算，得到所述多个无效链接对应的响应页面聚合后的类别；

所述聚类单元142，还用于对所述待识别链接对应的响应页面进行聚类运算，得到所述待识别链接对应的响应页面聚合后的类别；

确定单元143，用于确定所述待识别链接对应的响应页面聚合后的类别与所述多个无效链接对应的响应页面聚合后的类别的相似度；

所述识别模块15具体用于：若所述待识别链接对应的响应页面聚合后的任意一个类别，与所述多个无效链接对应的响应页面聚合后的任意一个类别的相似度大于所述相似度阈值，则确定所述待识别链接为无效链接。

进一步的，本实施例的无效链接的识别装置还包括：更新模块16，用于将所述待识别链接和所述多个无效链接对应的响应页面聚合后的类别保存在数据库信息中，并建立所述多个无效链接对应的响应页面聚合后的类别与所述第一目录的对应关系。

本实施例提供的无效链接的识别装置，可用于执行实施例二的方法，具体实现方式和技术效果类似，这里不再赘述。

图6为本发明实施例六提供的一种无效链接的识别装置的结构示意图，如图6所示，本实施例在实施例四的基础上，无效链接的识别装置还包括预处理模块17，所述预处理模块17用于：

确定所述待识别链接是否已经被识别过；

若所述待识别对应的页面不是重定向页面，则指示所述构造模块12根据所述待识别链接对应的URL构造所述多个无效链接。

若所述重定向页面对应的链接没有被识别过，则指示所述构造模块12根据所述重定向页面对应的链接构造多个无效链接。

本实施例提供的无效链接的识别装置，可用于执行实施例三的方法，具体实现方式和技术效果类似，这里不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种无效链接的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定所述待识别链接对应的响应页面和所述多个无效链接对应的响应页面的相似度，包括：

对所述多个无效链接对应的响应页面分别进行去噪处理；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述待识别链接对应的URL构造多个无效链接，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述待识别链接对应的URL构造多个无效链接对应的URL之前，所述方法还包括：

确定所述待识别链接是否已经被识别过；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，在确定所述待识别链接为无效链接之后，所述方法还包括：

8.一种无效链接的识别装置，其特征在于，包括：

第一获取模块，用于获取待识别链接对应的统一资源符URL，所述待识别链接对应的URL包括第一目录、第一文件名和第一扩展名；

9.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

10.根据权利要求8或9所述的装置，其特征在于，所述构造模块具体用于：

11.根据权利要求8所述的装置，其特征在于，还包括预处理模块，所述预处理模块用于：

确定所述待识别链接是否已经被识别过；

12.根据权利要求11所述的装置，其特征在于，所述预处理模块还用于：

13.根据权利要求8所述的装置，其特征在于，所述识别模块还用于：

14.根据权利要求9所述的装置，其特征在于，还包括：