CN107526833B

CN107526833B - 一种url管理方法、系统

Info

Publication number: CN107526833B
Application number: CN201710791016.2A
Authority: CN
Inventors: 曾伟英; 霍智杰; 徐国坤
Original assignee: Guangdong Kejie Tong Mdt Infotech Ltd
Current assignee: Guangdong Kejie Tong Mdt Infotech Ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2020-03-24
Anticipated expiration: 2037-09-05
Also published as: CN107526833A

Abstract

本发明公开了一种URL管理方法、系统，包括了待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库，包括URL管理的过程：步骤A：爬虫程序先从待爬URL库里拿取种子URL；步骤B：爬虫程序爬取种子URL来访问对应网页，判断该网页是否可以访问；步骤C：判断该网页是否需要进行登录处理和判断该网页是否属于跳转链接；步骤D：若在不属于跳转链接的网页中发现新的网页链接，则对新链接所对应的网页进行相似度的判断。以解决爬虫程序重复爬取错误的URL链接的问题并且方便进行技术人员优化URL的大数据分析。

Description

一种URL管理方法、系统

技术领域

本发明涉及URL管理领域，尤其涉及一种URL管理方法、系统。

背景技术

目前一般的网页爬虫程序都需要到一个URL库定期取出待爬取的网页资源。而这个URL库一般都只有简单的添加和删除URL的功能。很大程度上没有精细化URL的管理操作。当URL是一个错误链接的时候，爬虫程序可能就会反复不断的请求这个错误的URL从而消耗硬件资源。因此需要一个统一的URL管理逻辑来管理优化这些URL资源。

发明内容

本发明的目的在于提出一种解决爬虫程序重复爬取错误的URL链接的问题并且方便进行技术人员优化URL的大数据分析的URL管理方法、系统。

为达此目的，本发明采用以下技术方案：

一种URL管理方法，包括待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库，包括了URL管理过程：

步骤A：爬虫程序先从所述待爬URL库里拿取所述种子URL；

步骤B：爬虫程序爬取所述种子URL来访问对应网页；

若发现该网页无法访问则对所述种子URL的属性标签进行判断，判断所述种子URL的属性标签是否被访问了3次；

若是所述种子URL的属性标签被访问不足次则将所述种子URL保存回所述待爬URL库并标识所述种子URL的属性标签被访问的次数；

若是所述种子URL的属性标签被访问的次数超过3次则将所述种子URL保存到所述错链库里；

步骤C：若是能访问该网页，则判断该网页是否需要进行登录处理；

若是该网页需要进行登录处理则将所述种子URL保存到所述需要登录URL库；

若是该网页不需要进行登录处理则对该网页进行下一步判断，判断该网页的链接是否属于跳转链接，若该网页的链接属于跳转链接则将所述种子URL保存到所述跳链库；

若是该网页的链接不属于跳转链接则将所述种子URL保存到所述已爬URL库中；

步骤D：若在不属于跳转链接的网页中发现新的网页链接，则对新链接所对应的网页进行相似度的判断，判断该新链接所对应的网页是否与已爬取的网页相似，若是相似则将新链接保存到所述相似链库；若是不相似则将新链接保存到所述待爬URL库中。

优选的，还包括了网页是否需要登录的判断过程：

步骤A1：爬虫程序爬取所述种子URL来访问对应的网页；

步骤A2：若该网页可以被访问，则检测该网页是否出现FORM表单和PASSWORD的HTML标签，若不是则判断该网页是不需要进行登录处理的页面；

若是则判断该网页的其他链接的前后访问页返回的是否是同一页；

若该网页的其他链接的前后访问页返回的是同一页，则判断该网页是需要进行登录处理的页面；

若不是则判断该网页是不需要进行登录处理的页面。

优选的，还包括了网页链接是否属于跳转链接的判断过程：

步骤B1：对于不需要进行登录处理的网页，检查该网页HTTP文件头里的跳转请求状态码302是否存在，若不存在，则该网页链接不是属于跳转链接；若存在则检查该网页的前后HOST地址是否一致；

步骤B2：若该网页的前后HOST地址不一致，则判断该网页链接属于跳转链接；若该网页的前后HOST地址一致，则判断该网页链接不属于跳转链接。

优选的，包括相似网页的判断过程：

步骤C1：爬虫程序先从所述待爬URL库里拿取所述种子URL进行网页爬取；

步骤C2：对已爬取的每一个网页里的高频关键字都进行摘取，并标明摘取的高频关键字属于哪个网页，然后将所摘取的高频关键字保存到所述已爬URL库里；

步骤C3：将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较，若是两个网页的关键字相似度高达90％则认为是这两个网页链接为相似链接。

使用一种URL管理方法的系统，包括待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库，其特征在于：所述种子URL包括了URL管理模块，通过对所述种子URL进行判断来进行所述种子URL保存的归属库；

爬虫程序先从所述待爬URL库里拿取所述种子URL；

爬虫程序爬取所述种子URL来访问对应网页；

若是所述种子URL的属性标签被访问不足3次则将所述种子URL保存回所述待爬URL库并标识所述种子URL的属性标签被访问的次数；

若是能访问该网页，则判断该网页是否需要进行登录处理；

若在不属于跳转链接的网页中发现新的网页链接，则对新链接所对应的网页进行相似度的判断，判断该新链接所对应的网页是否与已爬取的网页相似，若是相似则将新链接保存到所述相似链库；若是不相似则将新链接保存到所述待爬URL库中。

优选的，还包括了网页登录处理的判断模块，用于判断所爬取的网页是否需要进行登录处理，方便所述种子URL的归类；

爬虫程序爬取所述种子URL来访问对应的网页；

检测该网页是否出现FORM表单和PASSWORD的HTML标签，若不是则判断该网页是不需要进行登录处理的页面；

若不是则判断该网页是不需要进行登录处理的页面。

优选的，还包括了跳转链接的判断模块，用于判断被爬取的网页链接是否属于跳转链接；

对于不需要进行登录处理的网页，检查该网页HTTP文件头里的跳转请求状态码302是否存在，若不存在，则该网页链接不是属于跳转链接；若存在则检查该网页的前后HOST地址是否一致；

若该网页的前后HOST地址不一致，则判断该网页链接属于跳转链接；若该网页的前后HOST地址一致，则判断该网页链接不属于跳转链接。

优选的，还包括了相似链接的判断模块，用于判断爬取的网页链接是否与所述已爬URL库里保存的网页链接相似；

爬虫程序先从所述待爬URL库里拿取所述种子URL进行网页爬取；

对已爬取的每一个网页里的高频关键字都进行摘取，并标明摘取的高频关键字属于哪个网页，然后将所摘取的高频关键字保存到所述已爬URL库里；

将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较，若是两个网页的关键字相似度高达90％则认为是这两个网页链接为相似链接。

附图说明

图1是本发明的URL管理的过程流程图；

图2是本发明的网页需要登录判断流程图；

图3是本发明的跳转链接判断流程图；

图4是本发明的相似链接判断流程图。

其中：待爬URL库1、种子URL 2、错链库3、需要登录URL库4、跳链库5、已爬URL库6和相似链库7。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本实施例的一种URL管理方法，如图1所示，包括待爬URL库1、种子URL2、错链库3、需要登录URL库4、跳链库5、已爬URL库6和相似链库7，包括了URL管理过程：

步骤A：爬虫程序先从所述待爬URL库1里拿取所述种子URL2；

步骤B：爬虫程序爬取所述种子URL2来访问对应网页；

若发现该网页无法访问则对所述种子URL2的属性标签进行判断，判断所述种子URL2的属性标签是否被访问了3次；

若是所述种子URL2的属性标签被访问不足3次则将所述种子URL2保存回所述待爬URL库1并标识所述种子URL2的属性标签被访问的次数；

若是所述种子URL2的属性标签被访问的次数超过3次则将所述种子URL2保存到所述错链库3里；

若是该网页需要进行登录处理则将所述种子URL2保存到所述需要登录URL库4；

若是该网页不需要进行登录处理则对该网页进行下一步判断，判断该网页的链接是否属于跳转链接，若该网页的链接属于跳转链接则将所述种子URL2保存到所述跳链库5；

若是该网页的链接不属于跳转链接则将所述种子URL2保存到所述已爬URL库6中；

步骤D：若在不属于跳转链接的网页中发现新的网页链接，则对新链接所对应的网页进行相似度的判断，判断该新链接所对应的网页是否与已爬取的网页相似，若是相似则将新链接保存到所述相似链库7；若是不相似则将新链接保存到所述待爬URL库1中。

当所述种子URL2是一个错误链接，爬虫程序无法访问这个网页，只能反复不断的请求这个错误的所述种子URL2，从而不断的消耗资源；但是经过优化后的管理，一旦发现无法访问这个链接，则会对所述种子URL2的属性标签进行判断，判断访问次数超过3次则会把所述种子URL2放入所述错链库1中收集起来，等待运维人员的检查；接着又设置页面登录处理判断，将登录网页归类，保存到所述需要登录URL库4，等待其他爬虫通过用户库进行登录在爬取；然后又设置了跳转链接判断，将属于跳转链接所述种子URL2归类到所述跳链库5，最后设置了相似页面的判断，避免重复爬取，提高效率。而这里存放不同种类的URL库将帮助运维人员统计分析错误的原因和方便进行URL的优化的大数据分析，为日后的统计分析提供有力的依据，方便分析整个站点的情况，便于维护人员进行日常的网站维护。提高站点的安全和稳定。

优选的，如图2所示，包括了网页是否需要登录的判断过程：

步骤A1：爬虫程序爬取所述种子URL2来访问对应的网页；

若不是则判断该网页是不需要进行登录处理的页面。

通过双重检测来判断所爬取的页面是否属于登录页面，第一重为检查网页的FORM表单和PASSWORD的HTML标签是否出现，若出现则继续检查第二重，即判断该网页的其他链接的前后访问页返回的是否是同一页，保证登录网页的正确性，方便归类入库，等待其他爬虫通过用户库进行爬取，也为日后的统计分析提供了有力的依据，方便技术人员分析站点情况。

优选的，如图3所示，包括了网页链接是否属于跳转链接的判断过程：

对于不需要进行登录处理的页面，将进行是否属于跳转链接的判断，通过状态码302和HOST地址来判断；状态码302表示链接跳转的请求码，通过检查网页里的HTTP文件是否存在状态码302来判断该网页是否属于跳转链接，为了进一步检查，设置了网页前后HOST地址是否一致的检测，确保网页归类所述跳链库5的准确性，也便于维护人员进行日常网站维护。

优选的，如图4所示，包括相似网页的判断过程：

步骤C1：爬虫程序先从所述待爬URL库1里拿取所述种子URL2进行网页爬取；

步骤C2：对已爬取的每一个网页里的高频关键字都进行摘取，并标明摘取的高频关键字属于哪个网页，然后将所摘取的高频关键字保存到所述已爬URL库6里；

步骤C3：将每一个爬取的网页上的高频关键字与所述已爬URL库6里保存的已爬网页上的高频关键字进行比较，若是两个网页的关键字相似度高达90％则认为是这两个网页链接为相似链接。

每一个网页里有一个高频关键字，在爬取网页的时候，摘取每一个高频关键字，并标明高频关键字的网页所属，并保存到所述已爬URL库6里，形成一个数据库，以后再爬取网页的时候，将爬取的网页的高频关键字摘取出来，与所述已爬URL库6里的高频关键字进行比较，相似度高的将被视为相似链接。避免了相似网页的重复爬取，减少重复率和提高爬取效率。

优选的，如图1所示，使用一种URL管理方法的系统，包括待爬URL库1、种子URL 2、错链库3、需要登录URL库4、跳链库5、已爬URL库6和相似链库7，其特征在于：所述种子URL2包括了URL管理模块，通过对所述种子URL2进行判断来进行所述种子URL2保存的归属库；

爬虫程序先从所述待爬URL库1里拿取所述种子URL2；

爬虫程序爬取所述种子URL2来访问对应网页；

若是能访问该网页，则判断该网页是否需要进行登录处理；

若在不属于跳转链接的网页中发现新的网页链接，则对新链接所对应的网页进行相似度的判断，判断该新链接所对应的网页是否与已爬取的网页相似，若是相似则将新链接保存到所述相似链库7；若是不相似则将新链接保存到所述待爬URL库1中。

优选的，如图2所示，包括了网页登录处理的判断模块，用于判断所爬取的网页是否需要进行登录处理，方便所述种子URL2的归类；

爬虫程序爬取所述种子URL2来访问对应的网页；

若不是则判断该网页是不需要进行登录处理的页面。

优选的，如图3所示，包括了跳转链接的判断模块，用于判断被爬取的网页链接是否属于跳转链接；

优选的，如图4所示，包括了相似链接的判断模块，用于判断爬取的网页链接是否与所述已爬URL库6里保存的网页链接相似；

爬虫程序先从所述待爬URL库1里拿取所述种子URL2进行网页爬取；

对已爬取的每一个网页里的高频关键字都进行摘取，并标明摘取的高频关键字属于哪个网页，然后将所摘取的高频关键字保存到所述已爬URL库6里；

将每一个爬取的网页上的高频关键字与所述已爬URL库6里保存的已爬网页上的高频关键字进行比较，若是两个网页的关键字相似度高达90％则认为是这两个网页链接为相似链接。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种URL管理方法，包括待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库，其特征在于：包括了URL管理过程：

步骤A：爬虫程序先从所述待爬URL库里拿取所述种子URL；

步骤B：爬虫程序爬取所述种子URL来访问对应网页；

步骤D：若在不属于跳转链接的网页中发现新的网页链接，则对新链接所对应的网页进行相似度的判断，判断该新链接所对应的网页是否与已爬取的网页相似，若是相似则将新链接保存到所述相似链库；若是不相似则将新链接保存到所述待爬URL库中；

包括了网页是否需要登录的判断过程：

步骤A1：爬虫程序爬取所述种子URL来访问对应的网页；

若不是则判断该网页是不需要进行登录处理的页面；

包括了网页链接是否属于跳转链接的判断过程：

2.根据权利要求1所述一种URL管理方法，其特征在于：包括相似网页的判断过程：

步骤C3：将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较，若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。

3.使用一种URL管理方法的系统，包括待爬URL库、种子URL 、错链库、需要登录URL库、跳链库、已爬URL库和相似链库，其特征在于：所述种子URL包括了URL管理模块，通过对所述种子URL进行判断来进行所述种子URL保存的归属库；

爬虫程序先从所述待爬URL库里拿取所述种子URL；

爬虫程序爬取所述种子URL来访问对应网页；

若是能访问该网页，则判断该网页是否需要进行登录处理；

4.根据权利要求3所述一种URL管理方法的系统，其特征在于：包括了网页登录处理的判断模块，用于判断所爬取的网页是否需要进行登录处理，方便所述种子URL的归类；

爬虫程序爬取所述种子URL来访问对应的网页；

若该网页可以被访问，则检测该网页是否出现FORM表单和PASSWORD的HTML标签，若不是则判断该网页是不需要进行登录处理的页面；

若不是则判断该网页是不需要进行登录处理的页面。

5.根据权利要求3所述一种URL管理方法的系统，其特征在于：包括了跳转链接的判断模块，用于判断被爬取的网页链接是否属于跳转链接；

6.根据权利要求3所述一种URL管理方法的系统，其特征在于：包括了相似链接的判断模块，用于判断爬取的网页链接是否与所述已爬URL库里保存的网页链接相似；

将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较，若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。