CN106874282A - 候选页面集合的生成方法及装置 - Google Patents
候选页面集合的生成方法及装置 Download PDFInfo
- Publication number
- CN106874282A CN106874282A CN201510919692.4A CN201510919692A CN106874282A CN 106874282 A CN106874282 A CN 106874282A CN 201510919692 A CN201510919692 A CN 201510919692A CN 106874282 A CN106874282 A CN 106874282A
- Authority
- CN
- China
- Prior art keywords
- webpage
- condition
- candidate page
- page set
- new url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种候选页面集合的生成方法及装置,该生成方法包括:抓取并分析多个网页,分别获取各网页的属性信息及正文信息;根据正文信息将各网页划分为多个类别;根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。通过本发明生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。
Description
技术领域
本发明是关于信息搜索技术,具体地,是关于一种候选页面集合的生成方法及装置。
背景技术
搜索引擎对于互联网上出现的实时热点需要第一时间发现和收录。搜索引擎蜘蛛有一个庞大的URL(Uniform Resource Locator,统一资源定位符)库,规模达到数千亿甚至上万亿量级。网络蜘蛛所有的抓取都从这个URL库出发,即从URL库中挑选出一批URL,对这批URL实施抓取,从中发现新链接再添加到URL库中。热点链接就是从中被发现并通过下次选取抓取和收录的。
但是,因为网络蜘蛛所处理的数据量过于庞大,需要消耗大量的时间,把全部链接挑一遍再抓一遍很难保证所有的热点都能在第一时间被发现和收录。因此,如何能使网络蜘蛛找出一个精简但又覆盖完整的候选页面集合,是目前亟待解决的问题。
发明内容
本发明实施例的主要目的在于提供一种候选页面集合的生成方法及装置,以克服上述问题,从而提高网页抓取的效率。
为了实现上述目的,本发明实施例提供一种候选页面集合的生成方法,该生成方法包括:抓取并分析多个网页,分别获取各网页的属性信息及正文信息;根据正文信息将各网页划分为多个类别;根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。
在一实施例中,在将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合之后,该生成方法还包括:判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页面集合。
进一步地,该生成方法还包括:当候选页面集合中的网页不满足停止条件时,返回抓取并分析多个网页,分别获取各网页的属性信息及正文信息。
在一实施例中,上述的根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件,具体包括:将每个网页的链接与已存储网页的链接进行比对,以确定网页中新链接的数量;判断新链接的数量是否满足候选页面集合中新链接数量的条件。
进一步地,判断新链接的数量是否满足候选页面集合中新链接数量的条件,具体包括:判断新链接的数量是否大于或等于一第一预设数值;如果是,则新链接的数量满足候选页面集合中新链接数量的条件。
在一实施例中,上述的根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件,进一步包括:根据一索引筛选条件确定新链接中符合索引条件的链接的数量;判断新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。
进一步地,判断新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条,具体包括:判断新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;如果是,则新链接中符合索引条件的链接的数量满足候选页面集合中符合索引条件链接数量的条件。
在一实施例中,上述的根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件,进一步包括:将新链接中符合索引条件的链接按照URL进行归类;判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。
进一步地,判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件,具体包括:判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各初步筛选网页满足预设的候选页面集合条件。
本发明实施例还提供一种候选页面集合的生成装置,该生成装置包括:网页抓取单元,用于抓取并分析多个网页,分别获取各网页的属性信息及正文信息;类别划分单元,用于根据正文信息将各网页划分为多个类别;候选页面集合条件判断单元,用于根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;候选页面集合生成单元,用于将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。
在一实施例中,上述的生成装置还包括:停止条件判断单元,用于判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页面集合。
在一实施例中,上述的停止条件判断单元还用于:当候选页面集合中的网页不满足停止条件时,触发网页抓取单元,抓取并分析多个网页,分别获取各网页的属性信息及正文信息。
在一实施例中,上述的候选页面集合条件判断单元具体包括:新链接确定模块,用于将每个网页的链接与已存储网页的链接进行比对,以确定网页中新链接的数量;新链接条件判断模块,用于判断新链接的数量是否满足候选页面集合中新链接数量的条件。
在一实施例中,上述的新链接条件判断模块具体用于:判断新链接的数量是否大于或等于一第一预设数值;如果是,则新链接的数量满足候选页面集合中新链接数量的条件。
在一实施例中,上述的候选页面集合条件判断单元进一步包括:符合索引条件链接确定模块,用于根据一索引筛选条件确定新链接中符合索引条件的链接的数量;索引条件判断模块,用于判断新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。
在一实施例中,上述的索引条件判断模块具体用于:判断新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;如果是,则新链接中符合索引条件的链接的数量满足候选页面集合中符合索引条件链接数量的条件。
在一实施例中,上述的候选页面集合条件判断单元进一步包括:链接归类模块,用于将新链接中符合索引条件的链接按照URL进行归类;持续产生链接条件判断模块,用于判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。
在一实施例中,上述的持续产生链接条件判断模块具体用于:判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各初步筛选网页满足预设的候选页面集合条件。
本发明实施例的有益效果在于,通过本发明生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的候选页面集合的生成方法的流程图;
图2为根据本发明另一实施例的候选页面集合的生成方法的流程图;
图3为根据本发明实施例的候选页面集合的生成装置的结构示意图;
图4为根据本发明实施例的候选页面集合条件判断单元300的结构示意图;
图5为根据本发明另一实施例的候选页面集合条件判断单元300的结构示意图;
图6为根据本发明另一实施例的候选页面集合条件判断单元300的结构示意图;
图7为根据本发明另一实施例的候选页面集合的生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种候选页面集合的生成方法及装置。以下结合附图对本发明进行详细说明。
本发明实施例提供一种候选页面集合的生成方法,如图1所示,该候选页面集合的生成方法主要包括以下各步骤:
步骤S101:抓取并分析多个网页,分别获取各网页的属性信息及正文信息;
步骤S102:根据正文信息将各网页划分为多个类别;
步骤S103:根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;
步骤S104:将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。
通过上述步骤S101至步骤S104,本发明实施例的候选页面集合的生成方法能够抓取并分析多个页面的属性信息及正文信息,并根据该属性信息及正文信息对页面进行初步分类,进而筛选出多个页面中满足候选页面集合条件的页面,覆盖面广,能够生成较为全面、完整的候选页面集合。并且,通过本发明生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。
以下对本发明实施例的候选页面集合的生成方法中的各步骤进行详细说明。
上述步骤S101,抓取并分析多个网页,分别获取各网页的属性信息及正文信息。在具体实施时,抓取网页的过程可以按照一定的时间周期进行,该时间周期可以天或小时或其他时间长度作为单位长度,且时间周期的具体长度也可根据实际需要设定,本发明并不以此为限。
在通过上述步骤S101抓取并分析获取各网页的属性信息及正文信息后,执行上述步骤S102,根据各网页的正文信息将各网页划分为多个类别。在一实施例中,在此步骤中是从抓取到的网页的正文信息中,通过分词技术对网页中提取到的文字内容进行分词,并根据分词结果对抓取的网页进行分类。例如,可根据提取到的文字内容将各网页分别按照“新闻”、“社会”、“体育”、“娱乐”、“科技”、“天气”、“汽车”及“视频”等多个不同的类别进行划分。
上述步骤S103,根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件。在本发明实施例中,旨在使所要生成的候选页面集合中的网页具有时效性,而网页具有时效性的前提是,该网页其需要满足预设的候选页面集合条件。在本发明实施例中,该候选页面集合条件为:该网页能产生新链接;网页所产生的新链接符合索引条件(即候选页面产生的新链接不能是重复、垃圾、作弊等类页面);该网页能持续产生新链接——因为一次性产生的新链接没有重复调度价值,因而需要多次或持续产生新链接,这里所述的调度,是指网络蜘蛛决定哪些页面需要发起抓取,并选取出这类页面的过程。以下将针对上述的各个候选页面集合条件对步骤S103做详细说明。
对于该页面能产生新链接的条件的判断,在本发明实施例中,是将每个网页的链接与已存储网页列表中的链接进行比对,以判断该网页的新链接是否为已存储网页,并且,对于已存储网页列表中并没有存储的链接,即可认为其为新链接,并可进一步确定该网页中新链接的数量。然后,判断该新链接的数量是否满足候选页面集合中新链接数量的条件。具体地,该候选页面集合中新链接数量的条件可为一第一预设数值(例如:10条新链接),当该网页的新链接的数量大于或等于该第一预设数值时,则判定该网页的新链接的数量满足候选页面集合中新链接数量的条件,即,该网页符合能产生新链接的条件。反之,则判定该网页不符合能产生新链接的条件。
例如,对于抓取的网页A,其具有链接A1~A20,将链接A1~A20与已存储网页列表进行比对,判定链接A1~A5为已存储网页,链接A6~A20为新链接,则网页A的新链接的数量为15,此时,若预设的数值为10条新链接,则网页A的新链接的数量15大于10,因此,网页A符合能产生新链接的条件。需要说明的是,上文中所列举的网页及其连接的数量仅是用以实例说明之用,并非用以限制本发明。
在实际应用中,可能会出现某个新链接在多个网页中被发现的情况,为避免网页链接泛滥,在本发明的优选方案中,只将该新链接作为其中一个页面的新链接。
进一步地,对于网页所产生的新链接符合索引条件的条件的判断,首先是对于抓取到的页面,根据索引筛选条件进行筛选。在本发明实施例中,该索引筛选条件即是指该网页的新链接不能是重复、垃圾、作弊、广告等类的页面,且该索引筛选条件的具体内容还可根据实际需要进行调整,本发明并不以此为限。然后,判断筛选出的符合索引条件的新链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。具体地,该候选页面集合中符合索引条件链接数量的条件可为一第二预设数值(例如:10条符合索引条件的新链接),当该网页的符合索引条件的新链接的数量大于或等于该第二预设数值时,则判定该网页的符合索引条件的新链接的数量满足候选页面集合中符合索引条件链接数量的条件,即,该网页符合所产生的新链接符合索引条件的条件。反之,则判定该网页不符合所产生的新链接符合索引条件的条件。
例如,对于上文所述的网页A,其新链接为A6~A20,经过索引筛选条件的筛选,发现其中新链接A18~A20为广告页面,因此,新链接A6~A17为符合索引条件的新链接,且其数量为11,大于预设的数值10,因此,网页A符合所产生的新链接符合索引条件的条件。
进一步地,对于网页能持续产生新链接的条件的判断,在本发明实施例中,首先是将符合索引条件的链接按照URL进行归类。然后,判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。具体地,该候选页面集合中持续产生新链接的条件可为:每一类URL对应的网页中的新链接的数量应大于或等于一第三预设数值(例如:5条新链接),且每一类URL对应的网页中符合索引条件的新链接的数量应大于或等于一第四预设数值(例如:4条符合索引条件的新链接)。当每一类URL对应的网页中的新链接的数量大于或等于该第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量大于或等于该第四预设数值时,则判定该网页中的新链接满足候选页面集合中持续产生新链接的条件,即,该网页符合能持续产生新链接的条件。反之,则判定该网页不符合能持续产生新链接的条件。
当经过上述各步骤按照不同类别确定了符合候选页面集合条件的网页后,执行步骤S104,将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。由此,即生成了具有时效性的候选页面的集合,从而可为后续进行搜索和网页抓取时提供了更加精简且又覆盖完整的候选页面集合。
在一实施例中,如图2所示,该候选页面集合的生成方法还可包括一停止条件判断步骤(步骤S105):判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页面集合;当候选页面集合中的网页不满足停止条件时,则需返回上述步骤S101,继续抓取并分析多个网页,分别获取各网页的属性信息及正文信息。
其中该停止条件可为对个类别的候选页面集合中的网页的数量的限定,例如,限定每个类别中的候选页面集合中的网页的数量需大于或等于40。则在步骤S105中,是判断各类别的候选页面集合中的网页的数量是否大于或等于40,如果是,则可停止抓取网页,并生成最终的候选页面集合。需要说明的是,此处所描述的限定网页数量的停止条件仅为举例说明,实际应用中,还可根据需要设定不同的停止条件,本发明并不以此为限。
以下结合一具体实例对本发明实施例的候选页面集合的生成方法进行详细描述。
以天为单位作为指定周期进行网页抓取,第一天抓取的网页分别为A01、B01、C01、D01及E01,其中,页面A01中包含链接a1~a20,页面B01中包含链接b1~b30,页面C01中包含链接c1~c15,页面D01包含链接d1~d10,页面E01中包含链接e1~e40。
针对上述各页面,分析获取其属性信息及正文信息,并根据各页面的正文信息进行分类。例如,根据正文信息可将页面A01及页面C01划分为“新闻”类,将页面B01及E01划分为“体育”类,将页面D01划分为“娱乐”类。然后对于每一类中的页面,判断页面是否满足预设的候选页面集合条件。首先,对于该页面能产生新链接的条件的判断。分别将页面A01、B01、C01、D01及E01中的链接与已存储网页列表中的链接进行比对,确认页面A01中的新链接为a01~a15,页面B01中的新链接为b01~b25,页面C01中的新链接为c01~c12,页面D01中的新链接为d01~d08,页面E01中的新链接为e01~e30。可见,页面D01中的新链接的数量小于第一预设数值,因此,页面D01不符合能产生新链接的条件,页面A01、B01、C01及E01符合能产生新链接的条件。
然后,对于网页所产生的新链接符合索引条件的条件的判断。根据索引筛选条件对页面A01、B01、C01及E01中的链接进行筛选,筛选过后页面A01中符合索引条件的新链接为a01~a09,页面B01中符合索引条件的新链接为b01~b20,页面C01中符合索引条件的新链接为c01~c10,页面E01中符合索引条件的新链接为e01~e25。可见,页面A01中符合索引条件的新链接的数量小于第二预设数值,因此,页面A01不符合所产生的新链接符合索引条件的条件,页面B01、C01及E01符合所产生的新链接符合索引条件的条件。
接下来,对于网页能持续产生新链接的条件的判断。首先是将页面B01、C01及E01按照其URL进行归类,假设归类后页面B01、C01及E01各自属于一类URL,统计各类URL对应的网页中的新链接的数量。可见,页面B01中的新链接的数量为25,大于第三预设数值,符合索引条件的新链接的数量为20,大于第四预设数值;页面C01中的新链接的数量为12,大于第三预设数值,符合索引条件的新链接的数量为10,大于第四预设数值;页面E01中的新链接的数量为30,大于第三预设数值,符合索引条件的新链接的数量为25,大于第四预设数值。因此,页面B01、C01及E01符合能持续产生新链接的条件。
然后,将页面B01中的链接b01~b20、页面E01中的链接e01~e25按照“体育”类别进行存储;将页面C01中的链接c01~c10按照“新闻”类别进行存储。
下一步,判断各类别的候选页面集合中的网页是否满足停止条件,可见,“体育”类的候选页面集合中的网页中的链接数为45,满足停止条件,可停止抓取“体育”类的候选页面;而“新闻”类的候选页面集合中的网页中的链接数为10,“娱乐”类的候选页面集合中的网页中的链接数为0,还需返回步骤S101,继续抓取新的网页来生成相应类别的候选页面集合。
本发明实施例还提供一种候选页面集合的生成装置,如图3所示,该候选页面集合的生成装置主要包括:网页抓取单元100、类别划分单元200、候选页面集合条件判断单元300及候选页面集合生成单元400等。
其中,网页抓取单元100用于抓取并分析多个网页,分别获取各网页的属性信息及正文信息;类别划分单元200用于根据正文信息将各网页划分为多个类别;候选页面集合条件判断单元300用于根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;候选页面集合生成单元400用于将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。
通过上述各单元,本发明实施例的候选页面集合的生成装置能够抓取并分析多个页面的属性信息及正文信息,并根据该属性信息及正文信息对页面进行初步分类,进而筛选出多个页面中满足候选页面集合条件的页面,覆盖面广,能够生成较为全面、完整的候选页面集合。并且,通过本发明生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。
以下对本发明实施例的候选页面集合的生成装置中的各个组成部分进行详细说明。
上述网页抓取单元100,用于抓取并分析多个网页,分别获取各网页的属性信息及正文信息。在具体实施时,网页抓取单元100抓取网页的过程可以按照一定的时间周期进行,该时间周期可以天或小时或其他时间长度作为单位长度,且时间周期的具体长度也可根据实际需要设定,本发明并不以此为限。
在通过上述网页抓取单元100抓取并分析获取各网页的属性信息及正文信息后,触发上述类别划分单元200,根据各网页的正文信息将各网页划分为多个类别。在一实施例中,在类别划分单元200中是从抓取到的网页的正文信息中,通过分词技术对网页中提取到的文字内容进行分词,并根据分词结果对抓取的网页进行分类。例如,可根据提取到的文字内容将各网页分别按照“新闻”、“社会”、“体育”、“娱乐”、“科技”、“天气”、“汽车”及“视频”等多个不同的类别进行划分。
上述候选页面集合条件判断单元300用于根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件。在本发明实施例中,旨在使所要生成的候选页面集合中的网页具有时效性,而网页具有时效性的前提是,该网页其需要满足预设的候选页面集合条件。在本发明实施例中,该候选页面集合条件为:该网页能产生新链接;网页所产生的新链接符合索引条件(即候选页面产生的新链接不能是重复、垃圾、作弊等类页面);该网页能持续产生新链接——因为一次性产生的新链接没有重复调度价值,因而需要多次或持续产生新链接,这里所述的调度,是指网络蜘蛛决定哪些页面需要发起抓取,并选取出这类页面的过程。以下将针对上述的各个候选页面集合条件对候选页面集合条件判断单元300实现的功能做详细说明。
如图4所示,候选页面集合条件判断单元300包括:新链接确定模块301及新链接条件判断模块302。
对于该页面能产生新链接的条件的判断,在本发明实施例中,候选页面集合条件判断单元300是通过新链接确定模块301将每个网页的链接与已存储网页列表中的链接进行比对,以判断该网页的新链接是否为已存储网页,并且,对于已存储网页列表中并没有存储的链接,即可认为其为新链接,并可进一步确定该网页中新链接的数量。然后,通过新链接条件判断模块302判断该新链接的数量是否满足候选页面集合中新链接数量的条件。具体地,该候选页面集合中新链接数量的条件可为一第一预设数值(例如:10条新链接),当该网页的新链接的数量大于或等于该第一预设数值时,则判定该网页的新链接的数量满足候选页面集合中新链接数量的条件,即,该网页符合能产生新链接的条件。反之,则判定该网页不符合能产生新链接的条件。
例如,对于抓取的网页A,其具有链接A1~A20,将链接A1~A20与已存储网页列表进行比对,判定链接A1~A5为已存储网页,链接A6~A20为新链接,则网页A的新链接的数量为15,此时,若预设的数值为10条新链接,则网页A的新链接的数量15大于10,因此,网页A符合能产生新链接的条件。需要说明的是,上文中所列举的网页及其连接的数量仅是用以实例说明之用,并非用以限制本发明。
在实际应用中,可能会出现某个新链接在多个网页中被发现的情况,为避免网页链接泛滥,在本发明的优选方案中,只将该新链接作为其中一个页面的新链接。
进一步地,如图5所示,候选页面集合条件判断单元300还包括:符合索引条件链接确定模块303及索引条件判断模块304。
对于网页所产生的新链接符合索引条件的条件的判断,首先是通过符合索引条件链接确定模块303对于抓取到的页面,根据索引筛选条件进行筛选。在本发明实施例中,该索引筛选条件即是指该网页的新链接不能是重复、垃圾、作弊、广告等类的页面,且该索引筛选条件的具体内容还可根据实际需要进行调整,本发明并不以此为限。然后,通过索引条件判断模块304判断筛选出的符合索引条件的新链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。具体地,该候选页面集合中符合索引条件链接数量的条件可为一第二预设数值(例如:10条符合索引条件的新链接),当该网页的符合索引条件的新链接的数量大于或等于该第二预设数值时,则判定该网页的符合索引条件的新链接的数量满足候选页面集合中符合索引条件链接数量的条件,即,该网页符合所产生的新链接符合索引条件的条件。反之,则判定该网页不符合所产生的新链接符合索引条件的条件。
例如,对于上文所述的网页A,其新链接为A6~A20,经过索引筛选条件的筛选,发现其中新链接A18~A20为广告页面,因此,新链接A6~A17为符合索引条件的新链接,且其数量为11,大于预设的数值10,因此,网页A符合所产生的新链接符合索引条件的条件。
进一步地,如图6所示,候选页面集合条件判断单元300还包括:链接归类模块305及持续产生链接条件判断模块306。
对于网页能持续产生新链接的条件的判断,在本发明实施例中,首先通过链接归类模块305是将符合索引条件的链接按照URL进行归类。然后,通过持续产生链接条件判断模块306判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。具体地,该候选页面集合中持续产生新链接的条件可为:每一类URL对应的网页中的新链接的数量应大于或等于一第三预设数值(例如:5条新链接),且每一类URL对应的网页中符合索引条件的新链接的数量应大于或等于一第四预设数值(例如:4条符合索引条件的新链接)。当每一类URL对应的网页中的新链接的数量大于或等于该第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量大于或等于该第四预设数值时,则判定该网页中的新链接满足候选页面集合中持续产生新链接的条件,即,该网页符合能持续产生新链接的条件。反之,则判定该网页不符合能持续产生新链接的条件。
当经过上述各单元按照不同类别确定了符合候选页面集合条件的网页后,触发候选页面集合生成单元400,将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。由此,即生成了具有时效性的候选页面的集合,从而可为后续进行搜索和网页抓取时提供了更加精简且又覆盖完整的候选页面集合。
在一实施例中,如图7所示,该候选页面集合的生成装置还可包括一停止条件判断单元500,用于判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页面集合;当候选页面集合中的网页不满足停止条件时,则需返回触发上述的网页抓取单元100,继续抓取并分析多个网页,分别获取各网页的属性信息及正文信息。
其中该停止条件可为对个类别的候选页面集合中的网页的数量的限定,例如,限定每个类别中的候选页面集合中的网页的数量需大于或等于40。则在步骤S105中,是判断各类别的候选页面集合中的网页的数量是否大于或等于40,如果是,则可停止抓取网页,并生成最终的候选页面集合。需要说明的是,此处所描述的限定网页数量的停止条件仅为举例说明,实际应用中,还可根据需要设定不同的停止条件,本发明并不以此为限。
本发明的实施例公开了:
A1、一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:
步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;
步骤b:根据所述正文信息将各所述网页划分为多个类别;
步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;
步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。
A2、根据权利要求A1所述的候选页面集合的生成方法,其特征在于,在所述步骤d之后,所述的生成方法还包括:
步骤e:判断各所述类别的候选页面集合中的网页是否满足停止条件;
当所述候选页面集合中的网页满足所述停止条件时,停止抓取网页,并生成最终的候选页面集合。
A3、根据权利要求A2所述的候选页面集合的生成方法,其特征在于,所述的生成方法还包括:
当所述候选页面集合中的网页不满足所述停止条件时,返回所述步骤a,抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息。
A4、根据权利要求A1至A3中任一项所述的候选页面集合的生成方法,其特征在于,所述步骤c具体包括:
将每个所述网页的链接与已存储网页的链接进行比对,以确定所述网页中新链接的数量;
判断所述新链接的数量是否满足候选页面集合中新链接数量的条件。
A5、根据权利要求A4所述的候选页面集合的生成方法,其特征在于,判断所述新链接的数量是否满足候选页面集合中新链接数量的条件,具体包括:
判断所述新链接的数量是否大于或等于一第一预设数值;
如果是,则所述新链接的数量满足所述候选页面集合中新链接数量的条件。
A6、根据权利要求A4所述的候选页面集合的生成方法,其特征在于,所述步骤c进一步包括:
根据一索引筛选条件确定所述新链接中符合索引条件的链接的数量;
判断所述新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。
A7、根据权利要求A6所述的候选页面集合的生成方法,其特征在于,判断所述新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件,具体包括:
判断所述新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;
如果是,则所述新链接中符合索引条件的链接的数量满足所述候选页面集合中符合索引条件链接数量的条件。
A8、根据权利要求A6所述的候选页面集合的生成方法,其特征在于,所述步骤c进一步包括:
将所述新链接中符合索引条件的链接按照URL进行归类;
判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。
A9、根据权利要求A8所述的候选页面集合的生成方法,其特征在于,判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件,具体包括:
判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;
如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各所述初步筛选网页满足预设的候选页面集合条件。
B10、一种候选页面集合的生成装置,其特征在于,所述的生成装置包括:
网页抓取单元,用于抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;
类别划分单元,用于根据所述正文信息将各所述网页划分为多个类别;
候选页面集合条件判断单元,用于根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;
候选页面集合生成单元,用于将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。
B11、根据权利要求B10所述的候选页面集合的生成装置,其特征在于,所述的生成装置还包括:
停止条件判断单元,用于判断各所述类别的候选页面集合中的网页是否满足停止条件;当所述候选页面集合中的网页满足所述停止条件时,停止抓取网页,并生成最终的候选页面集合。
B12、根据权利要求B11所述的候选页面集合的生成装置,其特征在于,所述停止条件判断单元还用于:
当所述候选页面集合中的网页不满足所述停止条件时,触发所述网页抓取单元,抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息。
B13、根据权利要求B10至B12中任一项所述的候选页面集合的生成装置,其特征在于,所述候选页面集合条件判断单元具体包括:
新链接确定模块,用于将每个所述网页的链接与已存储网页的链接进行比对,以确定所述网页中新链接的数量;
新链接条件判断模块,用于判断所述新链接的数量是否满足候选页面集合中新链接数量的条件。
B14、根据权利要求B13所述的候选页面集合的生成装置,其特征在于,所述新链接条件判断模块具体用于:
判断所述新链接的数量是否大于或等于一第一预设数值;
如果是,则所述新链接的数量满足所述候选页面集合中新链接数量的条件。
B15、根据权利要求B13所述的候选页面集合的生成装置,其特征在于,所述候选页面集合条件判断单元进一步包括:
符合索引条件链接确定模块,用于根据一索引筛选条件确定所述新链接中符合索引条件的链接的数量;
索引条件判断模块,用于判断所述新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。
B16、根据权利要求B15所述的候选页面集合的生成装置,其特征在于,所述索引条件判断模块具体用于:
判断所述新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;
如果是,则所述新链接中符合索引条件的链接的数量满足所述候选页面集合中符合索引条件链接数量的条件。
B17、根据权利要求B15所述的候选页面集合的生成装置,其特征在于,所述候选页面集合条件判断单元进一步包括:
链接归类模块,用于将所述新链接中符合索引条件的链接按照URL进行归类;
持续产生链接条件判断模块,用于判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。
B18、根据权利要求B17所述的候选页面集合的生成装置,其特征在于,所述持续产生链接条件判断模块具体用于:
判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;
如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各所述初步筛选网页满足预设的候选页面集合条件。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,比如ROM/RAM、磁碟、光盘等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:
步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;
步骤b:根据所述正文信息将各所述网页划分为多个类别;
步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;
步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。
2.根据权利要求1所述的候选页面集合的生成方法,其特征在于,在所述步骤d之后,所述的生成方法还包括:
步骤e:判断各所述类别的候选页面集合中的网页是否满足停止条件;
当所述候选页面集合中的网页满足所述停止条件时,停止抓取网页,并生成最终的候选页面集合。
3.根据权利要求2所述的候选页面集合的生成方法,其特征在于,所述的生成方法还包括:
当所述候选页面集合中的网页不满足所述停止条件时,返回所述步骤a,抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息。
4.根据权利要求1至3中任一项所述的候选页面集合的生成方法,其特征在于,所述步骤c具体包括:
将每个所述网页的链接与已存储网页的链接进行比对,以确定所述网页中新链接的数量;
判断所述新链接的数量是否满足候选页面集合中新链接数量的条件。
5.根据权利要求4所述的候选页面集合的生成方法,其特征在于,判断所述新链接的数量是否满足候选页面集合中新链接数量的条件,具体包括:
判断所述新链接的数量是否大于或等于一第一预设数值;
如果是,则所述新链接的数量满足所述候选页面集合中新链接数量的条件。
6.根据权利要求4所述的候选页面集合的生成方法,其特征在于,所述步骤c进一步包括:
根据一索引筛选条件确定所述新链接中符合索引条件的链接的数量;
判断所述新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。
7.根据权利要求6所述的候选页面集合的生成方法,其特征在于,判断所述新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件,具体包括:
判断所述新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;
如果是,则所述新链接中符合索引条件的链接的数量满足所述候选页面集合中符合索引条件链接数量的条件。
8.根据权利要求6所述的候选页面集合的生成方法,其特征在于,所述步骤c进一步包括:
将所述新链接中符合索引条件的链接按照URL进行归类;
判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。
9.根据权利要求8所述的候选页面集合的生成方法,其特征在于,判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件,具体包括:
判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;
如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各所述初步筛选网页满足预设的候选页面集合条件。
10.一种候选页面集合的生成装置,其特征在于,所述的生成装置包括:
网页抓取单元,用于抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;
类别划分单元,用于根据所述正文信息将各所述网页划分为多个类别;
候选页面集合条件判断单元,用于根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;
候选页面集合生成单元,用于将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919692.4A CN106874282A (zh) | 2015-12-11 | 2015-12-11 | 候选页面集合的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510919692.4A CN106874282A (zh) | 2015-12-11 | 2015-12-11 | 候选页面集合的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106874282A true CN106874282A (zh) | 2017-06-20 |
Family
ID=59178270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510919692.4A Pending CN106874282A (zh) | 2015-12-11 | 2015-12-11 | 候选页面集合的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106874282A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN102591992A (zh) * | 2012-02-15 | 2012-07-18 | 苏州亚新丰信息技术有限公司 | 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法 |
CN102609412A (zh) * | 2011-01-07 | 2012-07-25 | 华东师范大学 | 基于rss的多线程图文信息同步爬取的控制方法及系统 |
CN102629265A (zh) * | 2012-03-06 | 2012-08-08 | 奇智软件(北京)有限公司 | 一种建立网页数据库的方法及系统 |
CN102902784A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类存储系统及方法 |
CN103186675A (zh) * | 2013-04-03 | 2013-07-03 | 南京安讯科技有限责任公司 | 一种基于网络热词识别的网页自动分类方法 |
US20150046255A1 (en) * | 2008-03-28 | 2015-02-12 | Google Inc. | Asset maps |
CN104484382A (zh) * | 2014-12-10 | 2015-04-01 | 北京奇虎科技有限公司 | 生成时效性种子页集合的方法和装置 |
CN105117436A (zh) * | 2015-08-10 | 2015-12-02 | 上海晶赞科技发展有限公司 | 网站频道自动挖掘方法 |
-
2015
- 2015-12-11 CN CN201510919692.4A patent/CN106874282A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
US20150046255A1 (en) * | 2008-03-28 | 2015-02-12 | Google Inc. | Asset maps |
CN102609412A (zh) * | 2011-01-07 | 2012-07-25 | 华东师范大学 | 基于rss的多线程图文信息同步爬取的控制方法及系统 |
CN102591992A (zh) * | 2012-02-15 | 2012-07-18 | 苏州亚新丰信息技术有限公司 | 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法 |
CN102629265A (zh) * | 2012-03-06 | 2012-08-08 | 奇智软件(北京)有限公司 | 一种建立网页数据库的方法及系统 |
CN102902784A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类存储系统及方法 |
CN103186675A (zh) * | 2013-04-03 | 2013-07-03 | 南京安讯科技有限责任公司 | 一种基于网络热词识别的网页自动分类方法 |
CN104484382A (zh) * | 2014-12-10 | 2015-04-01 | 北京奇虎科技有限公司 | 生成时效性种子页集合的方法和装置 |
CN105117436A (zh) * | 2015-08-10 | 2015-12-02 | 上海晶赞科技发展有限公司 | 网站频道自动挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951925A (zh) | 数据处理方法、装置、服务器及系统 | |
CN106815263B (zh) | 法律条文的搜索方法及装置 | |
CN103116638B (zh) | 网页筛选方法及装置 | |
CN104951512A (zh) | 一种基于互联网的舆情数据采集方法及系统 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN107437038A (zh) | 一种网页篡改的检测方法及装置 | |
CN101340308B (zh) | 网络垃圾信息过滤架构、网络垃圾信息清除系统及其方法 | |
CN103488635A (zh) | 一种获取产品信息的方法及装置 | |
CN104504027B (zh) | 网页内容的自动筛选方法及装置 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN104331335B (zh) | 门户网站的死链检查方法和装置 | |
CN108153781A (zh) | 提取业务领域的关键词的方法和装置 | |
CN108536841A (zh) | 基于业务用户习惯的智能学习查询模型 | |
CN109819128A (zh) | 一种电话录音的质检方法和装置 | |
CN107086925B (zh) | 一种基于深度学习的互联网流量大数据分析方法 | |
CN106547803A (zh) | 爬取网站增量资源的方法和装置 | |
CN110175280A (zh) | 一种基于政务大数据的爬虫分析平台 | |
CN103605670B (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
CN107784024B (zh) | 构建当事人画像的方法及装置 | |
CN103177110B (zh) | 搜索成套图像的方法和设备 | |
CN105989019B (zh) | 一种清洗数据的方法及装置 | |
CN109299132B (zh) | Sql数据处理方法、系统以及电子设备 | |
CN106874282A (zh) | 候选页面集合的生成方法及装置 | |
CN110941836A (zh) | 一种分布式垂直爬虫方法及终端设备 | |
CN106066875A (zh) | 一种基于深网爬虫的高效数据采集方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170620 |