CN107526833B - 一种url管理方法、系统 - Google Patents

一种url管理方法、系统 Download PDF

Info

Publication number
CN107526833B
CN107526833B CN201710791016.2A CN201710791016A CN107526833B CN 107526833 B CN107526833 B CN 107526833B CN 201710791016 A CN201710791016 A CN 201710791016A CN 107526833 B CN107526833 B CN 107526833B
Authority
CN
China
Prior art keywords
webpage
url
link
library
crawled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710791016.2A
Other languages
English (en)
Other versions
CN107526833A (zh
Inventor
曾伟英
霍智杰
徐国坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kejie Tong Mdt Infotech Ltd
Original Assignee
Guangdong Kejie Tong Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kejie Tong Mdt Infotech Ltd filed Critical Guangdong Kejie Tong Mdt Infotech Ltd
Priority to CN201710791016.2A priority Critical patent/CN107526833B/zh
Publication of CN107526833A publication Critical patent/CN107526833A/zh
Application granted granted Critical
Publication of CN107526833B publication Critical patent/CN107526833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种URL管理方法、系统,包括了待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库,包括URL管理的过程:步骤A:爬虫程序先从待爬URL库里拿取种子URL;步骤B:爬虫程序爬取种子URL来访问对应网页,判断该网页是否可以访问;步骤C:判断该网页是否需要进行登录处理和判断该网页是否属于跳转链接;步骤D:若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断。以解决爬虫程序重复爬取错误的URL链接的问题并且方便进行技术人员优化URL的大数据分析。

Description

一种URL管理方法、系统
技术领域
本发明涉及URL管理领域,尤其涉及一种URL管理方法、系统。
背景技术
目前一般的网页爬虫程序都需要到一个URL库定期取出待爬取的网页资源。而这个URL库一般都只有简单的添加和删除URL的功能。很大程度上没有精细化URL的管理操作。当URL是一个错误链接的时候,爬虫程序可能就会反复不断的请求这个错误的URL从而消耗硬件资源。因此需要一个统一的URL管理逻辑来管理优化这些URL资源。
发明内容
本发明的目的在于提出一种解决爬虫程序重复爬取错误的URL链接的问题并且方便进行技术人员优化URL的大数据分析的URL管理方法、系统。
为达此目的,本发明采用以下技术方案:
一种URL管理方法,包括待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库,包括了URL管理过程:
步骤A:爬虫程序先从所述待爬URL库里拿取所述种子URL;
步骤B:爬虫程序爬取所述种子URL来访问对应网页;
若发现该网页无法访问则对所述种子URL的属性标签进行判断,判断所述种子URL的属性标签是否被访问了3次;
若是所述种子URL的属性标签被访问不足次则将所述种子URL保存回所述待爬URL库并标识所述种子URL的属性标签被访问的次数;
若是所述种子URL的属性标签被访问的次数超过3次则将所述种子URL保存到所述错链库里;
步骤C:若是能访问该网页,则判断该网页是否需要进行登录处理;
若是该网页需要进行登录处理则将所述种子URL保存到所述需要登录URL库;
若是该网页不需要进行登录处理则对该网页进行下一步判断,判断该网页的链接是否属于跳转链接,若该网页的链接属于跳转链接则将所述种子URL保存到所述跳链库;
若是该网页的链接不属于跳转链接则将所述种子URL保存到所述已爬URL库中;
步骤D:若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断,判断该新链接所对应的网页是否与已爬取的网页相似,若是相似则将新链接保存到所述相似链库;若是不相似则将新链接保存到所述待爬URL库中。
优选的,还包括了网页是否需要登录的判断过程:
步骤A1:爬虫程序爬取所述种子URL来访问对应的网页;
步骤A2:若该网页可以被访问,则检测该网页是否出现FORM表单和PASSWORD的HTML标签,若不是则判断该网页是不需要进行登录处理的页面;
若是则判断该网页的其他链接的前后访问页返回的是否是同一页;
若该网页的其他链接的前后访问页返回的是同一页,则判断该网页是需要进行登录处理的页面;
若不是则判断该网页是不需要进行登录处理的页面。
优选的,还包括了网页链接是否属于跳转链接的判断过程:
步骤B1:对于不需要进行登录处理的网页,检查该网页HTTP文件头里的跳转请求状态码302是否存在,若不存在,则该网页链接不是属于跳转链接;若存在则检查该网页的前后HOST地址是否一致;
步骤B2:若该网页的前后HOST地址不一致,则判断该网页链接属于跳转链接;若该网页的前后HOST地址一致,则判断该网页链接不属于跳转链接。
优选的,包括相似网页的判断过程:
步骤C1:爬虫程序先从所述待爬URL库里拿取所述种子URL进行网页爬取;
步骤C2:对已爬取的每一个网页里的高频关键字都进行摘取,并标明摘取的高频关键字属于哪个网页,然后将所摘取的高频关键字保存到所述已爬URL库里;
步骤C3:将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较,若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。
使用一种URL管理方法的系统,包括待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库,其特征在于:所述种子URL包括了URL管理模块,通过对所述种子URL进行判断来进行所述种子URL保存的归属库;
爬虫程序先从所述待爬URL库里拿取所述种子URL;
爬虫程序爬取所述种子URL来访问对应网页;
若发现该网页无法访问则对所述种子URL的属性标签进行判断,判断所述种子URL的属性标签是否被访问了3次;
若是所述种子URL的属性标签被访问不足3次则将所述种子URL保存回所述待爬URL库并标识所述种子URL的属性标签被访问的次数;
若是所述种子URL的属性标签被访问的次数超过3次则将所述种子URL保存到所述错链库里;
若是能访问该网页,则判断该网页是否需要进行登录处理;
若是该网页需要进行登录处理则将所述种子URL保存到所述需要登录URL库;
若是该网页不需要进行登录处理则对该网页进行下一步判断,判断该网页的链接是否属于跳转链接,若该网页的链接属于跳转链接则将所述种子URL保存到所述跳链库;
若是该网页的链接不属于跳转链接则将所述种子URL保存到所述已爬URL库中;
若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断,判断该新链接所对应的网页是否与已爬取的网页相似,若是相似则将新链接保存到所述相似链库;若是不相似则将新链接保存到所述待爬URL库中。
优选的,还包括了网页登录处理的判断模块,用于判断所爬取的网页是否需要进行登录处理,方便所述种子URL的归类;
爬虫程序爬取所述种子URL来访问对应的网页;
检测该网页是否出现FORM表单和PASSWORD的HTML标签,若不是则判断该网页是不需要进行登录处理的页面;
若是则判断该网页的其他链接的前后访问页返回的是否是同一页;
若该网页的其他链接的前后访问页返回的是同一页,则判断该网页是需要进行登录处理的页面;
若不是则判断该网页是不需要进行登录处理的页面。
优选的,还包括了跳转链接的判断模块,用于判断被爬取的网页链接是否属于跳转链接;
对于不需要进行登录处理的网页,检查该网页HTTP文件头里的跳转请求状态码302是否存在,若不存在,则该网页链接不是属于跳转链接;若存在则检查该网页的前后HOST地址是否一致;
若该网页的前后HOST地址不一致,则判断该网页链接属于跳转链接;若该网页的前后HOST地址一致,则判断该网页链接不属于跳转链接。
优选的,还包括了相似链接的判断模块,用于判断爬取的网页链接是否与所述已爬URL库里保存的网页链接相似;
爬虫程序先从所述待爬URL库里拿取所述种子URL进行网页爬取;
对已爬取的每一个网页里的高频关键字都进行摘取,并标明摘取的高频关键字属于哪个网页,然后将所摘取的高频关键字保存到所述已爬URL库里;
将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较,若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。
附图说明
图1是本发明的URL管理的过程流程图;
图2是本发明的网页需要登录判断流程图;
图3是本发明的跳转链接判断流程图;
图4是本发明的相似链接判断流程图。
其中:待爬URL库1、种子URL 2、错链库3、需要登录URL库4、跳链库5、已爬URL库6和相似链库7。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本实施例的一种URL管理方法,如图1所示,包括待爬URL库1、种子URL2、错链库3、需要登录URL库4、跳链库5、已爬URL库6和相似链库7,包括了URL管理过程:
步骤A:爬虫程序先从所述待爬URL库1里拿取所述种子URL2;
步骤B:爬虫程序爬取所述种子URL2来访问对应网页;
若发现该网页无法访问则对所述种子URL2的属性标签进行判断,判断所述种子URL2的属性标签是否被访问了3次;
若是所述种子URL2的属性标签被访问不足3次则将所述种子URL2保存回所述待爬URL库1并标识所述种子URL2的属性标签被访问的次数;
若是所述种子URL2的属性标签被访问的次数超过3次则将所述种子URL2保存到所述错链库3里;
步骤C:若是能访问该网页,则判断该网页是否需要进行登录处理;
若是该网页需要进行登录处理则将所述种子URL2保存到所述需要登录URL库4;
若是该网页不需要进行登录处理则对该网页进行下一步判断,判断该网页的链接是否属于跳转链接,若该网页的链接属于跳转链接则将所述种子URL2保存到所述跳链库5;
若是该网页的链接不属于跳转链接则将所述种子URL2保存到所述已爬URL库6中;
步骤D:若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断,判断该新链接所对应的网页是否与已爬取的网页相似,若是相似则将新链接保存到所述相似链库7;若是不相似则将新链接保存到所述待爬URL库1中。
当所述种子URL2是一个错误链接,爬虫程序无法访问这个网页,只能反复不断的请求这个错误的所述种子URL2,从而不断的消耗资源;但是经过优化后的管理,一旦发现无法访问这个链接,则会对所述种子URL2的属性标签进行判断,判断访问次数超过3次则会把所述种子URL2放入所述错链库1中收集起来,等待运维人员的检查;接着又设置页面登录处理判断,将登录网页归类,保存到所述需要登录URL库4,等待其他爬虫通过用户库进行登录在爬取;然后又设置了跳转链接判断,将属于跳转链接所述种子URL2归类到所述跳链库5,最后设置了相似页面的判断,避免重复爬取,提高效率。而这里存放不同种类的URL库将帮助运维人员统计分析错误的原因和方便进行URL的优化的大数据分析,为日后的统计分析提供有力的依据,方便分析整个站点的情况,便于维护人员进行日常的网站维护。提高站点的安全和稳定。
优选的,如图2所示,包括了网页是否需要登录的判断过程:
步骤A1:爬虫程序爬取所述种子URL2来访问对应的网页;
步骤A2:若该网页可以被访问,则检测该网页是否出现FORM表单和PASSWORD的HTML标签,若不是则判断该网页是不需要进行登录处理的页面;
若是则判断该网页的其他链接的前后访问页返回的是否是同一页;
若该网页的其他链接的前后访问页返回的是同一页,则判断该网页是需要进行登录处理的页面;
若不是则判断该网页是不需要进行登录处理的页面。
通过双重检测来判断所爬取的页面是否属于登录页面,第一重为检查网页的FORM表单和PASSWORD的HTML标签是否出现,若出现则继续检查第二重,即判断该网页的其他链接的前后访问页返回的是否是同一页,保证登录网页的正确性,方便归类入库,等待其他爬虫通过用户库进行爬取,也为日后的统计分析提供了有力的依据,方便技术人员分析站点情况。
优选的,如图3所示,包括了网页链接是否属于跳转链接的判断过程:
步骤B1:对于不需要进行登录处理的网页,检查该网页HTTP文件头里的跳转请求状态码302是否存在,若不存在,则该网页链接不是属于跳转链接;若存在则检查该网页的前后HOST地址是否一致;
步骤B2:若该网页的前后HOST地址不一致,则判断该网页链接属于跳转链接;若该网页的前后HOST地址一致,则判断该网页链接不属于跳转链接。
对于不需要进行登录处理的页面,将进行是否属于跳转链接的判断,通过状态码302和HOST地址来判断;状态码302表示链接跳转的请求码,通过检查网页里的HTTP文件是否存在状态码302来判断该网页是否属于跳转链接,为了进一步检查,设置了网页前后HOST地址是否一致的检测,确保网页归类所述跳链库5的准确性,也便于维护人员进行日常网站维护。
优选的,如图4所示,包括相似网页的判断过程:
步骤C1:爬虫程序先从所述待爬URL库1里拿取所述种子URL2进行网页爬取;
步骤C2:对已爬取的每一个网页里的高频关键字都进行摘取,并标明摘取的高频关键字属于哪个网页,然后将所摘取的高频关键字保存到所述已爬URL库6里;
步骤C3:将每一个爬取的网页上的高频关键字与所述已爬URL库6里保存的已爬网页上的高频关键字进行比较,若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。
每一个网页里有一个高频关键字,在爬取网页的时候,摘取每一个高频关键字,并标明高频关键字的网页所属,并保存到所述已爬URL库6里,形成一个数据库,以后再爬取网页的时候,将爬取的网页的高频关键字摘取出来,与所述已爬URL库6里的高频关键字进行比较,相似度高的将被视为相似链接。避免了相似网页的重复爬取,减少重复率和提高爬取效率。
优选的,如图1所示,使用一种URL管理方法的系统,包括待爬URL库1、种子URL 2、错链库3、需要登录URL库4、跳链库5、已爬URL库6和相似链库7,其特征在于:所述种子URL2包括了URL管理模块,通过对所述种子URL2进行判断来进行所述种子URL2保存的归属库;
爬虫程序先从所述待爬URL库1里拿取所述种子URL2;
爬虫程序爬取所述种子URL2来访问对应网页;
若发现该网页无法访问则对所述种子URL2的属性标签进行判断,判断所述种子URL2的属性标签是否被访问了3次;
若是所述种子URL2的属性标签被访问不足3次则将所述种子URL2保存回所述待爬URL库1并标识所述种子URL2的属性标签被访问的次数;
若是所述种子URL2的属性标签被访问的次数超过3次则将所述种子URL2保存到所述错链库3里;
若是能访问该网页,则判断该网页是否需要进行登录处理;
若是该网页需要进行登录处理则将所述种子URL2保存到所述需要登录URL库4;
若是该网页不需要进行登录处理则对该网页进行下一步判断,判断该网页的链接是否属于跳转链接,若该网页的链接属于跳转链接则将所述种子URL2保存到所述跳链库5;
若是该网页的链接不属于跳转链接则将所述种子URL2保存到所述已爬URL库6中;
若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断,判断该新链接所对应的网页是否与已爬取的网页相似,若是相似则将新链接保存到所述相似链库7;若是不相似则将新链接保存到所述待爬URL库1中。
优选的,如图2所示,包括了网页登录处理的判断模块,用于判断所爬取的网页是否需要进行登录处理,方便所述种子URL2的归类;
爬虫程序爬取所述种子URL2来访问对应的网页;
检测该网页是否出现FORM表单和PASSWORD的HTML标签,若不是则判断该网页是不需要进行登录处理的页面;
若是则判断该网页的其他链接的前后访问页返回的是否是同一页;
若该网页的其他链接的前后访问页返回的是同一页,则判断该网页是需要进行登录处理的页面;
若不是则判断该网页是不需要进行登录处理的页面。
优选的,如图3所示,包括了跳转链接的判断模块,用于判断被爬取的网页链接是否属于跳转链接;
对于不需要进行登录处理的网页,检查该网页HTTP文件头里的跳转请求状态码302是否存在,若不存在,则该网页链接不是属于跳转链接;若存在则检查该网页的前后HOST地址是否一致;
若该网页的前后HOST地址不一致,则判断该网页链接属于跳转链接;若该网页的前后HOST地址一致,则判断该网页链接不属于跳转链接。
优选的,如图4所示,包括了相似链接的判断模块,用于判断爬取的网页链接是否与所述已爬URL库6里保存的网页链接相似;
爬虫程序先从所述待爬URL库1里拿取所述种子URL2进行网页爬取;
对已爬取的每一个网页里的高频关键字都进行摘取,并标明摘取的高频关键字属于哪个网页,然后将所摘取的高频关键字保存到所述已爬URL库6里;
将每一个爬取的网页上的高频关键字与所述已爬URL库6里保存的已爬网页上的高频关键字进行比较,若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (6)

1.一种URL管理方法,包括待爬URL库、种子URL、错链库、需要登录URL库、跳链库、已爬URL库和相似链库,其特征在于:包括了URL管理过程:
步骤A:爬虫程序先从所述待爬URL库里拿取所述种子URL;
步骤B:爬虫程序爬取所述种子URL来访问对应网页;
若发现该网页无法访问则对所述种子URL的属性标签进行判断,判断所述种子URL的属性标签是否被访问了3次;
若是所述种子URL的属性标签被访问不足次则将所述种子URL保存回所述待爬URL库并标识所述种子URL的属性标签被访问的次数;
若是所述种子URL的属性标签被访问的次数超过3次则将所述种子URL保存到所述错链库里;
步骤C:若是能访问该网页,则判断该网页是否需要进行登录处理;
若是该网页需要进行登录处理则将所述种子URL保存到所述需要登录URL库;
若是该网页不需要进行登录处理则对该网页进行下一步判断,判断该网页的链接是否属于跳转链接,若该网页的链接属于跳转链接则将所述种子URL保存到所述跳链库;
若是该网页的链接不属于跳转链接则将所述种子URL保存到所述已爬URL库中;
步骤D:若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断,判断该新链接所对应的网页是否与已爬取的网页相似,若是相似则将新链接保存到所述相似链库;若是不相似则将新链接保存到所述待爬URL库中;
包括了网页是否需要登录的判断过程:
步骤A1:爬虫程序爬取所述种子URL来访问对应的网页;
步骤A2:若该网页可以被访问,则检测该网页是否出现FORM表单和PASSWORD的HTML标签,若不是则判断该网页是不需要进行登录处理的页面;
若是则判断该网页的其他链接的前后访问页返回的是否是同一页;
若该网页的其他链接的前后访问页返回的是同一页 ,则判断该网页是需要进行登录处理的页面;
若不是则判断该网页是不需要进行登录处理的页面;
包括了网页链接是否属于跳转链接的判断过程:
步骤B1:对于不需要进行登录处理的网页,检查该网页HTTP文件头里的跳转请求状态码302是否存在,若不存在,则该网页链接不是属于跳转链接;若存在则检查该网页的前后HOST地址是否一致;
步骤B2:若该网页的前后HOST地址不一致,则判断该网页链接属于跳转链接;若该网页的前后HOST地址一致,则判断该网页链接不属于跳转链接。
2.根据权利要求1所述一种URL管理方法,其特征在于:包括相似网页的判断过程:
步骤C1:爬虫程序先从所述待爬URL库里拿取所述种子URL进行网页爬取;
步骤C2:对已爬取的每一个网页里的高频关键字都进行摘取,并标明摘取的高频关键字属于哪个网页,然后将所摘取的高频关键字保存到所述已爬URL库里;
步骤C3:将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较,若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。
3.使用一种URL管理方法的系统,包括待爬URL库、种子URL 、错链库、需要登录URL库、跳链库、已爬URL库和相似链库,其特征在于:所述种子URL包括了URL管理模块,通过对所述种子URL进行判断来进行所述种子URL保存的归属库;
爬虫程序先从所述待爬URL库里拿取所述种子URL;
爬虫程序爬取所述种子URL来访问对应网页;
若发现该网页无法访问则对所述种子URL的属性标签进行判断,判断所述种子URL的属性标签是否被访问了3次;
若是所述种子URL的属性标签被访问不足3次则将所述种子URL保存回所述待爬URL库并标识所述种子URL的属性标签被访问的次数;
若是所述种子URL的属性标签被访问的次数超过3次则将所述种子URL保存到所述错链库里;
若是能访问该网页,则判断该网页是否需要进行登录处理;
若是该网页需要进行登录处理则将所述种子URL保存到所述需要登录URL库;
若是该网页不需要进行登录处理则对该网页进行下一步判断,判断该网页的链接是否属于跳转链接,若该网页的链接属于跳转链接则将所述种子URL保存到所述跳链库;
若是该网页的链接不属于跳转链接则将所述种子URL保存到所述已爬URL库中;
若在不属于跳转链接的网页中发现新的网页链接,则对新链接所对应的网页进行相似度的判断,判断该新链接所对应的网页是否与已爬取的网页相似,若是相似则将新链接保存到所述相似链库;若是不相似则将新链接保存到所述待爬URL库中。
4.根据权利要求3所述一种URL管理方法的系统,其特征在于:包括了网页登录处理的判断模块,用于判断所爬取的网页是否需要进行登录处理,方便所述种子URL的归类;
爬虫程序爬取所述种子URL来访问对应的网页;
若该网页可以被访问,则检测该网页是否出现FORM表单和PASSWORD的HTML标签,若不是则判断该网页是不需要进行登录处理的页面;
若是则判断该网页的其他链接的前后访问页返回的是否是同一页;
若该网页的其他链接的前后访问页返回的是同一页 ,则判断该网页是需要进行登录处理的页面;
若不是则判断该网页是不需要进行登录处理的页面。
5.根据权利要求3所述一种URL管理方法的系统,其特征在于:包括了跳转链接的判断模块,用于判断被爬取的网页链接是否属于跳转链接;
对于不需要进行登录处理的网页,检查该网页HTTP文件头里的跳转请求状态码302是否存在,若不存在,则该网页链接不是属于跳转链接;若存在则检查该网页的前后HOST地址是否一致;
若该网页的前后HOST地址不一致,则判断该网页链接属于跳转链接;若该网页的前后HOST地址一致,则判断该网页链接不属于跳转链接。
6.根据权利要求3所述一种URL管理方法的系统,其特征在于:包括了相似链接的判断模块,用于判断爬取的网页链接是否与所述已爬URL库里保存的网页链接相似;
爬虫程序先从所述待爬URL库里拿取所述种子URL进行网页爬取;
对已爬取的每一个网页里的高频关键字都进行摘取,并标明摘取的高频关键字属于哪个网页,然后将所摘取的高频关键字保存到所述已爬URL库里;
将每一个爬取的网页上的高频关键字与所述已爬URL库里保存的已爬网页上的高频关键字进行比较,若是两个网页的关键字相似度高达90%则认为是这两个网页链接为相似链接。
CN201710791016.2A 2017-09-05 2017-09-05 一种url管理方法、系统 Active CN107526833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710791016.2A CN107526833B (zh) 2017-09-05 2017-09-05 一种url管理方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710791016.2A CN107526833B (zh) 2017-09-05 2017-09-05 一种url管理方法、系统

Publications (2)

Publication Number Publication Date
CN107526833A CN107526833A (zh) 2017-12-29
CN107526833B true CN107526833B (zh) 2020-03-24

Family

ID=60683590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710791016.2A Active CN107526833B (zh) 2017-09-05 2017-09-05 一种url管理方法、系统

Country Status (1)

Country Link
CN (1) CN107526833B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119468A (zh) * 2019-05-15 2019-08-13 重庆八戒传媒有限公司 一种提高抓取公开数据种子精度的方法和装置
CN110266562B (zh) * 2019-07-01 2021-01-01 四川新网银行股份有限公司 网络应用系统身份认证功能的自动检测的方法
CN110489627B (zh) * 2019-08-12 2023-01-24 南京烽火天地通信科技有限公司 一种互联网爬虫路由方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826110A (zh) * 2010-04-13 2010-09-08 北京大学 一种BitTorrent种子文件爬取方法
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN106445966A (zh) * 2015-08-11 2017-02-22 北京国双科技有限公司 一种数据获取方法和装置
CN106790105A (zh) * 2016-12-26 2017-05-31 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN106909694A (zh) * 2017-03-13 2017-06-30 杭州普玄科技有限公司 分类标签数据获取方法以及装置
CN107016102A (zh) * 2017-04-12 2017-08-04 成都四方伟业软件股份有限公司 一种大数据网络爬虫分页配置方法
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826110A (zh) * 2010-04-13 2010-09-08 北京大学 一种BitTorrent种子文件爬取方法
CN106445966A (zh) * 2015-08-11 2017-02-22 北京国双科技有限公司 一种数据获取方法和装置
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN106790105A (zh) * 2016-12-26 2017-05-31 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN106897357A (zh) * 2017-01-04 2017-06-27 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN106909694A (zh) * 2017-03-13 2017-06-30 杭州普玄科技有限公司 分类标签数据获取方法以及装置
CN107071009A (zh) * 2017-03-28 2017-08-18 江苏飞搏软件股份有限公司 一种负载均衡的分布式大数据爬虫系统
CN107016102A (zh) * 2017-04-12 2017-08-04 成都四方伟业软件股份有限公司 一种大数据网络爬虫分页配置方法

Also Published As

Publication number Publication date
CN107526833A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
CN109033115B (zh) 一种动态网页爬虫系统
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
US9614862B2 (en) System and method for webpage analysis
US8185530B2 (en) Method and system for web document clustering
US8321396B2 (en) Automatically extracting by-line information
CN111585955B (zh) 一种http请求异常检测方法及系统
CN107526833B (zh) 一种url管理方法、系统
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN104572977A (zh) 一种农产品质量安全事件在线检测方法
US11443006B2 (en) Intelligent browser bookmark management
CN105205144A (zh) 用于数据诊断优化的方法和系统
CN114528457A (zh) Web指纹检测方法及相关设备
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
US20150205769A1 (en) System and method for recognizing non-body text in webpage
CN113971398A (zh) 一种面向网络安全领域实体快速识别的词典构造方法
CN106446123A (zh) 一种网页中验证码元素识别方法
CN103838865A (zh) 用于挖掘时效性种子页的方法及装置
Varlamis et al. An automatic wrapper generation process for large scale crawling of news websites
CN116186716A (zh) 一种面向持续集成部署的安全分析方法及装置
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法
CN106097403A (zh) 一种基于图像曲线推算的网络受保护指数数据的获取方法
Cui et al. The generation of XSS attacks developing in the detect detection
CN116821548B (zh) 一种网页分页方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant