CN105630983A - 一种资源获取优化装置和方法 - Google Patents
一种资源获取优化装置和方法 Download PDFInfo
- Publication number
- CN105630983A CN105630983A CN201510995449.0A CN201510995449A CN105630983A CN 105630983 A CN105630983 A CN 105630983A CN 201510995449 A CN201510995449 A CN 201510995449A CN 105630983 A CN105630983 A CN 105630983A
- Authority
- CN
- China
- Prior art keywords
- url
- list
- undetermined
- simplification
- captured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种资源获取优化装置和方法,该资源获取优化方法包括:确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种资源获取优化装置和方法。
背景技术
随着互联网技术的不断发展与网络信息量的不断剧增,用户能够从海量的信息中快速高效的搜索有价值的信息对于互联网的发展至关重要。URL(UniformResourceLocator,统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。因此URL数据在信息检索中即为重要。对于搜索信息来说,网络信息采集是其重要组成部分,但常常出现URL被重复抓取的情况,影响网络信息采集的效率。。
发明内容
本发明的主要目的在于提出一种资源获取优化装置和方法,旨在解决通过单机内存或远程关系型数据库进行资源获取优化时存在的处理能力的限制和处理速度的限制。
为实现上述目的,本发明提供的一种资源获取优化装置,包括:
地址确认单元,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;
抓取预判单元,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;
数据写入单元,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
其中,所述装置,还包括:
列表判断单元,用于判断是否存在URL简化列表;
所述地址确认单元,具体用于:
当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;
所述装置还包括:
第一预判单元,用于当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;
判断记录单元,用于若所述待定URL不在已抓取列表中,将待定URL记录到待抓取列表。
其中,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;
所述地址确认单元,包括:
子串判断模块,用于获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;
摘要生成模块,用于将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;
所述抓取预判单元,具体用于:
当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。
其中,所述数据写入单元,包括:
摘要判断模块,用于判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
数据写入模块,用于待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表;
所述第一部分包括新添加的URL的查询参数部分之外的部分。
其中,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;
所述装置还包括:
列表添加单元,用于若资源获取优化时内存不足,动态添加redis集群规模。
此外,为实现上述目的,本发明还提出一种资源获取优化方法,包括:
确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;
当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;
当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
其中,所述确认待定URL是初始URL的域名内的URL之前,还包括:
判断是否存在URL简化列表;
所述确认待定URL是初始URL的域名内的URL,具体为:
当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;
所述方法还包括:
当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;
若所述待定URL不在已抓取列表中,将简化URL记录到待抓取列表。
其中,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;
所述确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL,包括:
获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;
将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;
所述当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表,具体为:
当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。
其中,所述当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表,包括:
判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
若已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表;
所述第一部分包括新添加的URL的查询参数部分之外的部分。
其中,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;
所述方法还包括:
若资源获取优化时内存不足,动态添加redis集群规模。
本发明提出的资源获取优化装置和方法,通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。
附图说明
图1是本发明具体实施方式中提供的一种资源获取优化方法的第一实施例的方法流程图。
图2是本发明具体实施方式中提供的一种资源获取优化方法的第二实施例的方法流程图。
图3是本发明具体实施方式中提供的一种资源获取优化装置的第一实施例的结构方框图。
图4是本发明具体实施方式中提供的一种资源获取优化装置的第二实施例的结构方框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
图1是本发明具体实施方式中提供的一种资源获取优化方法的第一实施例的方法流程图,如图1所示,该方法,包括:
步骤S11:确认待定URL是初始URL的域名内的URL;将待定URL根据参数模板进行简化得到简化URL。
从互联网得到的资源的位置和访问方法通过URL进行简洁的标识。待定URL是最新获取的需要判断是否重复的URL,本方案中所实施的资源定位主要是指在预设的范围内的资源处理,也就是初始URL的域名内的URL,如果待定URL本身就不是规定的域名范围内的URL,直接放弃处理,只有在确认待定URL是初始URL的域名内的URL后才会有后续步骤。
具体体现在初始URL和待定URL中,是否在同一个域名内根据URL的命名标准进行判断。根据W3C(WorldWideWebConsortium,万维网联盟)标准从一个URL的结构可以分解出三个主要的部分:域名参数部分、路径参数部分和查询参数部分。例如URL形式为http://shouji.XXX.com/soft/item?docid=7979773&from=&f=all%40indexrecommend%401,其域名参数部分为“http://shouji.XXX.com”,路径参数部分为“/soft/item”,查询参数部分为“docid=7979773&from=&f=all%40indexrecommend%401”,其中,查询参数部分的参数名词的组合为“docid&from&f”。简而言之,如果URL形式中有“/”,那么第一个“/”之间的部分为域名参数部分;如果URL形式中没有“/”,那么整体是域名参数部分,域名也就是域名参数部分的内容。初始URL和待定URL域名确认之后,直接比较即可。
参数模板是指查询参数的模板,将待定URL根据参数模板进行简化主要是将URL的查询参数部分的内容进行简化,得到简化URL。当然,如果没有查询参数部分,那么待定URL整体作为简化URL。URL的查询参数中包括多个参数名词,其中涉及到页面内容的关键内容的参数名词可能只有一部分,这一部分参数名词记录在参数模板中,简化待定URL时根据参数模板将无关紧要的参数名词过滤掉。在简化URL的基础上能够进行更具针对性和更高效的比对。
为了给后续判断提供参考,每一个不重复的简化URL都会保存起来,每一次对待定URL的判断过程都是之前判断结果的基础上完成,从而避免URL的重复记录。
步骤S12:当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表。
URL简化列表示数据库中为记录经查询后确定不重复的简化URL,除了首次抓取,之后的每一次新抓取的资源对应的URL都要经过与URL简化列表中的各项记录进行比对,如果简化URL在URL简化列表中已经存在,则视为该待定URL已经处理过,是重复URL,可以结束对这一待定URL的处理流程;如果简化URL在URL简化列表中不存在,则说明该待定URL很可能尚未保存,此时这一简化URL记录到待抓取列表等待后续判断。待抓取列表中记录的是完整的URL,用于进行URL抓取前的最后一次判断,其中记录有已通过简化列表判断的URL。
步骤S13:当待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
待抓取列表中新添加的URL是经过域名和简化URL两次筛选后剩下的待定URL,待定的URL如果与已有的URL对应的页面内容不同,则说明该待定URL是不重复的,可以写入已抓取列表。具体判断页面内容是否重复的方法在现有技术中多有实现,例如全文比对、MD5信息摘要比对等,在此不做深入阐述。
在本方案中,不是直接将待定URL与已抓取列表中记录的URL对应页面内容进行全盘比对,而是经过多次筛选,直接将明显重复或不属于目标网络资源的待定URL过滤掉,只保留有不重复的可能性较大的待定URL,最后对筛选后的待定URL进行精确比对。相关的筛选过程基于对应的记录列表实现,相比于在内存中处理或远程关系数据库的处理,分级在列表中的处理对内存的处理上限没有要求,同时也避免受制于远程关系型数据库处理是的速度显示。
综上所述,通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时能力提升和效率提升。
图2是本发明具体实施方式中提供的一种资源获取优化方法的第二实施例的方法流程图,如图2所示,该方法,包括:
步骤S20:判断是否存在URL简化列表。
是否存在URL简化列表除了包括URL简化列表是否建立,还包括URL简化列表中是否记录有简化URL,例如初始对某一域名内的资源进行抓取或将URL简化列表清空。
在本方案中,URL简化列表、待抓取列表和已抓取列表设置于分布式数据库,例如redis集群。redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。这使得redis可执行单层树复制。存盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。
步骤S21:若不存在URL简化列表,判断待定URL是否在已抓取列表中。
如果抓取URL时URL简化列表还不存在,则直接基于已抓取列表中的记录进行后续判断,如果待定URL在已抓取列表中,直接终止该待定URL的抓取流程即可;如果待定URL不在已抓取列表中,则需要继续对待定URL的页面内容进行判断。
步骤S22:若待定URL不在已抓取列表中,将待定URL记录到待抓取列表。
待定URL不在已抓取列表中,则记录到待抓取列表,继续进行待抓取列表的下一步判断。
步骤S23:若不存在URL简化列表,获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同。
域名子串即前文所述的域名参数部分,具体根据URL的标准结构进行判断即可。初始URL根据检索的初始结果确定,后续的判断过程都在初始URL的基础上完成,当待定URL与初始URL来源于同一域名范围内,也就是域名子串相同时,才需要进行后续处理。
步骤S24:将待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要。
MD5(MessageDigestAlgorithm5,消息摘要算法第五版)可以为任何文件(不管其大小、格式、数量)产生一个同样独一无二的“数字指纹”,文件有了任何不同,其MD5值也就是对应的“数字指纹”都会发生变化。在本方案中,优选采用等长的MD5信息摘要,也就是简化URL对应的MD5的值进行比对。
步骤S25:当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。
如果新生成的简化URL的MD5消息摘要在URL简化列表中不存在,则间待定URL即待定URL对应的MD5消息摘要记录到待抓取列表。
前一步骤中简化URL的MD5消息摘要的判断是粗略的过滤过程,把明显重复的内容先行过滤掉,减少后续细致判断时的运算量,基于待抓取列表中对待定URL进行细致判断。
步骤S26:判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在。
步骤S27:若已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表。
所述第一部分包括新添加的URL的查询参数部分之外的部分,也就是域名参数部分和路径参数部分,如果新添加的URL的第一部分的MD5消息摘要在待抓取列表中不存在,说明域名正确,但是该路径内的资源尚未抓取,直接可以视为其还未被抓取过,资源有效,将其写入已抓取列表;如果存在,则进一步判断两者的页面内容是否相同,如果相同则说明重复,将其丢弃;否则写入已抓取列表。
步骤S28:若资源获取优化时内存不足,动态添加redis集群规模。
在本方案中充分利用redis的可扩展性,当资源获取优化时,也就是URL的去重判断过程中内存不足时,动态添加redis集群规模,降低内存的处理压力,提高去重处理的上限,提高处理效率。
以下结合实际场景对上述过程进行描述。
比如:对于http://shouji.XXX.com/,为某手机应用的域名,现需要获取该域名范围内的所有软件资源,分析获得的页面内容,获得的URL有:
http://m.XXX.com/static/as/favicon.icoURL1
http://appsearchcdn.XXX.com/statics/mobres/modules/components/quick-nav_db5afae.cssURL2
http://shouji.XXX.com/soft/item?docid=7979773&from=&f=all%40indexrecommend%401URL3。
其中URL1、URL2和URL3的域名子串分别为:“http://m.XXX.com”、“http://appsearchcdn.XXX.com”和“http://shouji.XXX.com”,初始URL的域名子串为“http://shouji.XXX.com”,因此,仅有URL3在初始域名范围内,可以保留,URL1和URL2都丢弃。
URL3的域名参数部分与路径参数部分保留,将查询参数部分根据参数模板进行过滤。参数模板以参数数组的形式记录,假设该参数数组为{docid},则过滤后保留docid参数,即简化URL为:http://shouji.XXX.com/soft/item?docid=7979773,对简化URL进行MD5计算。记录到待抓取列表之后,该待定URL生成的第1部分为:http://shouji.XXX.com/soft/item对其进行MD5计算,得到“731C2F7AEA8BA4CCDEB83728D251DD89”,如果该MD5信息摘要不存在或者存在但是内容不同,可以直接揭露到已抓取列表,并且对应记录到URL简化列表以供后续判断参考。
如果该MD5信息摘要存在,与已抓取列表中记录的页面内容进行比较后结果也相同,还可以将页面内容相同的两个URL进行查询参数比较,将查询参数较少的URL的参数作为参数模板。例如对URL3以{docid}作为参数模板和以{docid,f}作为参数模板,得到的简化URL不同,但是两个简化URL对应的页面内容是相同的,实质上两个简化URL也是重复的,需要进行去重处理,也就是说只需记录一个,此时可以以{docid}作为最优的参数模板。
有一种特殊情况,如果URL简化列表不存在,则直接对URL3进行MD5计算,将计算出来的字符串在已抓取列表中进行判断,如果已存在,则丢弃,否则记录到待抓取列表。抓取到待抓取列表后的操作与前一情况的操作相同。
综上所述,通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。
本发明进一步提供了一种资源获取优化装置,装置的实施例基于前述的方法的实施例实现,在装置的实施例中未尽的描述,请参考前述的方法的实施例。
图3是本发明具体实施方式中提供的一种资源获取优化装置的第一实施例的结构方框图,如图3所示,该装置,包括:
地址确认单元10,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;
抓取预判单元20,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;
数据写入单元30,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
综上所述,上述各单元的协同工作,通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。
图4是本发明具体实施方式中提供的一种资源获取优化装置的第二实施例的结构方框图,如图4所示,该装置,包括:
地址确认单元10,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;
抓取预判单元20,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;
数据写入单元30,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
其中,所述装置,还包括:
列表判断单元,用于判断是否存在URL简化列表;
所述地址确认单元00,具体用于:
当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;
所述装置还包括:
第一预判单元40,用于当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;
判断记录单元50,用于若所述待定URL不在已抓取列表中,将待定URL记录到待抓取列表。
其中,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;
所述地址确认单元10,包括:
子串判断模块11,用于获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;
摘要生成模块12,用于将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;
所述抓取预判单元20,具体用于:
当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。
其中,所述数据写入单元30,包括:
摘要判断模块31,用于判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
数据写入模块32,用于待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表。
其中,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;
所述装置还包括:
列表添加单元50,用于若资源获取优化时内存不足,动态添加redis集群规模。
综上所述,上述各单元的协同工作,通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。
上述实施例提供的资源获取优化装置与资源获取优化方法实施例属于同一构思,其具体实现过程详见方法实施例,且方法实施例中的技术特征在装置实施例中均对应适用,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种资源获取优化装置,其特征在于,包括:
地址确认单元,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;
抓取预判单元,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;
数据写入单元,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
2.根据权利要求1所述的装置,其特征在于,所述装置,还包括:
列表判断单元,用于判断是否存在URL简化列表;
所述地址确认单元,具体用于:
当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;
所述装置还包括:
第一预判单元,用于当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;
判断记录单元,用于若所述待定URL不在已抓取列表中,将待定URL记录到待抓取列表。
3.根据权利要求1所述的装置,其特征在于,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;
所述地址确认单元,包括:
子串判断模块,用于获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;
摘要生成模块,用于将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;
所述抓取预判单元,具体用于:
当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。
4.根据权利要求3所述的装置,其特征在于,所述数据写入单元,包括:
摘要判断模块,用于判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
数据写入模块,用于待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表;
所述第一部分包括新添加的URL的查询参数部分之外的部分。
5.根据权利要求1所述的装置,其特征在于,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;
所述装置还包括:
列表添加单元,用于若URL去重时内存不足,动态添加redis集群规模。
6.一种资源获取优化方法,其特征在于,包括:
确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;
当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;
当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
7.根据权利要求6所述的方法,其特征在于,所述确认待定URL是初始URL的域名内的URL之前,还包括:
判断是否存在URL简化列表;
所述确认待定URL是初始URL的域名内的URL,具体为:
当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;
所述方法还包括:
当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;
若所述待定URL不在已抓取列表中,将待定URL记录到待抓取列表。
8.根据权利要求6所述的方法,其特征在于,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;
所述确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL,包括:
获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;
将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;
所述当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表,具体为:
当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。
9.根据权利要求8所述的方法,其特征在于,所述当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表,包括:
判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
若已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表;
所述第一部分包括新添加的URL的查询参数部分之外的部分。
10.根据权利要求6所述的方法,其特征在于,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;
所述方法还包括:
若资源获取优化时内存不足,动态添加redis集群规模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510995449.0A CN105630983A (zh) | 2015-12-28 | 2015-12-28 | 一种资源获取优化装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510995449.0A CN105630983A (zh) | 2015-12-28 | 2015-12-28 | 一种资源获取优化装置和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105630983A true CN105630983A (zh) | 2016-06-01 |
Family
ID=56045916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510995449.0A Pending CN105630983A (zh) | 2015-12-28 | 2015-12-28 | 一种资源获取优化装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105630983A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202300A (zh) * | 2016-06-30 | 2016-12-07 | 浪潮软件集团有限公司 | 一种网络信息采集方法及装置 |
CN108470054A (zh) * | 2018-03-14 | 2018-08-31 | 北京思特奇信息技术股份有限公司 | 一种数据访问方法及系统 |
CN112308599A (zh) * | 2020-08-31 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 兑换码发放方法、系统和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402537A (zh) * | 2010-09-15 | 2012-04-04 | 盛乐信息技术(上海)有限公司 | 中文网页文本除重系统及方法 |
CN103399874A (zh) * | 2013-07-10 | 2013-11-20 | 北京奇虎科技有限公司 | 对同一域名下网页抓取进行优化的方法和装置 |
CN103530336A (zh) * | 2013-09-30 | 2014-01-22 | 北京奇虎科技有限公司 | 统一资源定位符url中无效参数的识别设备及方法 |
CN103984753A (zh) * | 2014-05-28 | 2014-08-13 | 北京京东尚科信息技术有限公司 | 一种网络爬虫去重特征值的提取方法和装置 |
CN104899219A (zh) * | 2014-03-06 | 2015-09-09 | 携程计算机技术(上海)有限公司 | 伪静态url的筛除方法、系统及网页爬取方法、系统 |
CN104933056A (zh) * | 2014-03-18 | 2015-09-23 | 腾讯科技(深圳)有限公司 | 统一资源定位符去重方法及装置 |
CN105117436A (zh) * | 2015-08-10 | 2015-12-02 | 上海晶赞科技发展有限公司 | 网站频道自动挖掘方法 |
-
2015
- 2015-12-28 CN CN201510995449.0A patent/CN105630983A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402537A (zh) * | 2010-09-15 | 2012-04-04 | 盛乐信息技术(上海)有限公司 | 中文网页文本除重系统及方法 |
CN103399874A (zh) * | 2013-07-10 | 2013-11-20 | 北京奇虎科技有限公司 | 对同一域名下网页抓取进行优化的方法和装置 |
CN103530336A (zh) * | 2013-09-30 | 2014-01-22 | 北京奇虎科技有限公司 | 统一资源定位符url中无效参数的识别设备及方法 |
CN104899219A (zh) * | 2014-03-06 | 2015-09-09 | 携程计算机技术(上海)有限公司 | 伪静态url的筛除方法、系统及网页爬取方法、系统 |
CN104933056A (zh) * | 2014-03-18 | 2015-09-23 | 腾讯科技(深圳)有限公司 | 统一资源定位符去重方法及装置 |
CN103984753A (zh) * | 2014-05-28 | 2014-08-13 | 北京京东尚科信息技术有限公司 | 一种网络爬虫去重特征值的提取方法和装置 |
CN105117436A (zh) * | 2015-08-10 | 2015-12-02 | 上海晶赞科技发展有限公司 | 网站频道自动挖掘方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202300A (zh) * | 2016-06-30 | 2016-12-07 | 浪潮软件集团有限公司 | 一种网络信息采集方法及装置 |
CN108470054A (zh) * | 2018-03-14 | 2018-08-31 | 北京思特奇信息技术股份有限公司 | 一种数据访问方法及系统 |
CN112308599A (zh) * | 2020-08-31 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 兑换码发放方法、系统和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102710795B (zh) | 热点聚合方法及装置 | |
CN101192227B (zh) | 一种基于分布式计算网络的日志文件分析方法和系统 | |
CN102761627B (zh) | 基于终端访问统计的云网址推荐方法及系统及相关设备 | |
CN102110132B (zh) | 统一资源定位符匹配查找方法、装置和网络侧设备 | |
CN1468403A (zh) | 用户容易使用的因特网搜索系统及其方法 | |
CN104951512A (zh) | 一种基于互联网的舆情数据采集方法及系统 | |
CN102521251A (zh) | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 | |
CN102164186A (zh) | 一种实现云搜索服务的方法及系统 | |
CN1808426A (zh) | 一种通用的文件搜索系统及方法 | |
CN105389352A (zh) | 日志处理方法和装置 | |
CN102833233B (zh) | 一种识别网站页面的方法和装置 | |
CN102117331B (zh) | 视频搜索方法及系统 | |
CN101562664A (zh) | 一种话单处理方法和系统 | |
CN104636502A (zh) | 一种查询系统的数据加速查询方法 | |
CN106202108A (zh) | 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN101046806A (zh) | 搜索引擎系统和方法 | |
CN105630983A (zh) | 一种资源获取优化装置和方法 | |
CN1859505A (zh) | 话单查询系统及查询方法 | |
CN107798106A (zh) | 一种分布式爬虫系统中的url去重方法 | |
CN102622402B (zh) | 使用页面集而提供信息搜索服务的服务器、方法和系统 | |
CN1783850A (zh) | 一种基于即时通讯平台的搜索方法和系统 | |
CN102508884A (zh) | 热点事件与实时评论的获取方法及装置 | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
CN101008946A (zh) | 中文移动通信信息搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160601 |
|
RJ01 | Rejection of invention patent application after publication |