CN103927400A

CN103927400A - Web网站产品详细信息的分类抓取及产品信息库建立方法

Info

Publication number: CN103927400A
Application number: CN201410190477.0A
Authority: CN
Inventors: 雒江涛; 申健; 杨军超; 刘勇; 高伟; 邓生雄; 王小平
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2014-05-07
Filing date: 2014-05-07
Publication date: 2014-07-16
Anticipated expiration: 2034-05-07
Also published as: CN103927400B

Abstract

本发明针对Web网站产品信息的获取设计了一种网页抓取方法，首先抓取网站产品一级分类的首页，通过分析抓取的分类首页源文件，获取下一级产品分类首页链接；然后逐级抓取，直到网站所有分类首页抓取完毕；通过分析所有分类子页面的源文件，获取翻页元素和各分类页面数，然后生成各分类的子页面链接，最后根据各分类的子页面链接，完成各分类子页面的抓取。同时通过分析爬虫抓取的产品分类子页面源文件，提取产品详细信息和产品所属分类信息，建立网站产品id、分类id以及其他详细信息的映射关系，构建产品信息库。

Description

Web网站产品详细信息的分类抓取及产品信息库建立方法

技术领域

本发明涉及互联网网络爬虫领域。针对有产品编号的网站，利用网络爬虫建立产品id、分类id与其他详细信息的映射关系。

背景技术

随着Internet技术的迅速发展，Web网站产品的不断丰富，人们对信息价值认识的不断提高，从而激发了人们从Web网站海量产品信息中挖掘有用信息的需求。将海量的产品信息精准分类，建立产品信息库，是挖掘有用信息的一个重要依据。在整个数据挖掘过程中，网络爬虫扮演着一个重要的角色，网络爬虫抓取的网页是大数据分析的数据来源，这些数据将直接响着数据挖掘的准确性，但是传统的网络爬虫是尽可能全面的抓取页面信息，这样缺乏目的性抓取将导致传统爬虫抓取效率的降低，这种方法对于包含海量产品信息的网站是不适用的。

通常有产品编码的Web网站主要由产品页面和产品分类页面组成。产品页面主要由产品详细信息组成；产品分类页面包含一个或多个子页面，子页面主要由产品列表信息块和产品所属分类信息块组成。这样通过分析子页面的源文件，可以将产品归类。

发明内容

基于现有技术存在的不足和以上发现，本发明提出一种对Web网站产品详细信息分类抓取的方法，针对性抓取Web网站的产品分类子页面；同时通过分析爬虫抓取的产品分类子页面源文件，提取产品详细信息和产品所属分类信息，建立网站产品id、分类id以及其他详细信息的映射关系，构建产品信息库。

本发明针对Web网站产品信息的获取设计了一种网页抓取方法，首先抓取网站产品一级分类的首页，通过分析抓取的分类首页源文件，获取下一级产品分类首页链接；然后逐级抓取，直到网站所有分类首页抓取完毕；通过分析所有分类子页面的源文件，获取翻页元素和各分类页面数，然后生成各分类的子页面链接，最后根据各分类的子页面链接，完成各分类子页面的抓取。

各分类页面的抓取具体步骤如下：

步骤1：一级分类首页的url导入url任务队列；

步骤2：判断url任务队列否为空，若不为空则网站的分类首页还未抓取完毕；若为空则表示网站的所有分类首页已抓取完，跳至步骤8，开始抓取各分类子页面；

步骤3：若url任务队列不为空，则根据url队列中的网站分类首页url开始抓取网页；

步骤4：记录url的抓取状态；保存抓取成功的分类首页源文件和url；未抓取成功的分类首页的url再次加入url任务队列；三次抓取失败的url则认为此url无效；

步骤5：解析分类首页源文件，获取下一级产品分类的首页url；

步骤6：根据抓取成功的页面url，对解析出的url去重，然后加入url任务队列；

步骤7：循环步骤2，直到网站所有分类首页源文件抓取完；

步骤8：解析所有分类首页源文件，获取各分类页面数、翻页元素和分类首页url；

步骤9：根据获取的各分类页面数、翻页元素和分类首页url，生成各分类的子页面链接；

步骤10：根据各分类的子页面链接，抓取全部分类子页面；

步骤11：保存各分类子页面源文件。

进一步，本发明提出一种基于以上分类抓取方法的Web网站产品详细信息的产品信息库构建方法。本发明通过分析各分类子页面源文件，根据产品列表信息块和产品所属分类信息块，提取产品信息和产品所属分类信息字段，获取字段中的id及文本描述信息，建立产品id与所属各级分类id的映射关系，并对id描述说明，构建产品信息库。

信息库分别由id映射、产品id描述、分类id描述3个表格组成。id映射表由产品id编号、产品所属各级分类id和其他详细信息组成；产品id描述表由产品id和产品的文本描述组成；分类id描述表由各级分类id和其文本描述组成。

建立产品信息库的方法如下：

步骤1：解析分类子页面源文件，获取产品列表信息块和产品所属分类信息块；

步骤2：提取产品所属分类信息块（如网页面包屑导航条）中的分类信息字段；

步骤3：提取产品列表信息块中的每个产品的产品信息字段；

步骤4：提取分类信息字段和产品信息字段中的id和文本描述信息；

步骤5：按照表格格式输入id字段和文本描述信息，最后存入数据库。

本发明的优点如下：

1、通过抓取网站各分类首页，分析网页源文件，获取各个分类下包含的子页面数，结合抓取的分类首页url，最后生成目标网站各个分类子页面的url，其目的实现了对目标网站仅进行一次的抓取分析（前提是在目标网站结构不做很大变化的前提下），便可在以后更新产品分类子页面时多次利用这次分析所生成的url，这个方法减去了传统爬虫再次爬取目标网站各分类子页面时所花费在解析网页上的时间；

2、通过分析分类子页面，提取关键字段，建立的产品信息库，为基于Web产品的数据挖掘提供了有力的数据支持。同时信息库使用者通过读取url中的id值，可快速获取url对应的摘要信息，这无疑也为深度数据包挖掘工作的开展提供了便利。

附图说明

图1为抓取各分类子页面流程图；

图2为建立产品信息库流程图；

图3为id映射表；

图4为产品id描述表；

图5为分类id描述表。

具体实施方法

随着21世纪互联网技术的普遍运用，信息量的爆炸式增长，人们步入了大数据的时代。面对Web网站琳琅满目的产品，实现对Web网站的产品分类子页面抓取分析，建立产品信息库，是数据挖掘的重要一步。对于有产品编码的Web网站，如何建立产品信息库，将直接影响后续web网站产品数据挖掘的精准。基于以上问题，本发明提出一种对Web网站产品详细信息分类抓取的方法，获取产品分类子页面源文件；同时通过分析爬虫抓取的产品分类子页面源文件，提取产品详细信息和产品所属分类信息，建立产品信息库。

本发明内容包含各分类子页面抓取和建立产品信息库两个部分。

以下结合附图说明和具体实施对本发明做进一步说明：

本发明针对Web网站产品信息的获取设计了一种网页抓取方法，首先抓取网站产品一级分类的首页，通过分析抓取的分类首页源文件，获取下一级产品分类首页链接，然后逐级抓取，直到网站所有分类首页抓取完毕；通过分析所有分类子页面的源文件，获取翻页元素和各分类页面数，然后生成各分类的子页面链接，最后根据各分类的子页面链接，完成各分类子页面的抓取。

参见图1，各分类子页面的抓取具体步骤如下：

步骤1：一级分类首页的url导入url任务队列；

步骤2：判断url任务队列否为空，若不为空则网站的分类首页还未抓取完毕，若为空则表示网站的所有分类首页已抓取完，跳至步骤8，开始抓取各分类子页面；

步骤4：记录url的抓取状态，保存抓取成功的分类首页源文件和url，未抓取成功的分类首页的url再次加入url任务队列，三次抓取失败的url则认为此url无效；

步骤7：循环步骤2，直到网站所有分类首页源文件抓取完；

步骤10：根据各分类的子页面链接，抓取全部分类子页面；

步骤11：保存各分类子页面源文件。

进一步，本发明基于以上分类抓取方法获得的网页，构建产品信息库。构建方法的总构思是：通过分析各分类子页面源文件，根据产品列表信息块和产品所属分类信息块，提取产品信息和产品所属分类信息字段，获取字段中的id及文本描述信息，建立产品id与所属各级分类id的映射关系，并对id描述说明。

参见图2，建立产品信息库的具体方法步骤如下：

步骤3：提取产品列表信息块中的每个产品的产品信息字段；

步骤5：按照表格格式输入id字段和文本描述信息，最后入库。

以上所述仅为本发明的优选并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.Web网站产品详细信息的分类抓取方法，其特征在于：首先抓取网站产品一级分类的首页，通过分析抓取的分类首页源文件，获取下一级产品分类首页链接；然后逐级抓取，直到网站所有分类首页抓取完毕；通过分析各级分类子页面的源文件，获取翻页元素和各分类页面数，然后生成各分类的子页面链接，最后根据各分类的子页面链接，完成各分类子页面的抓取。

2.根据权利要求1所述的Web网站产品详细信息的分类抓取方法，其特征在于：各分类页面抓取的具体步骤如下：

步骤1：一级分类首页的url导入url任务队列；

步骤2：判断url任务队列否为空，若不为空则网站的分类首页还未抓取完毕；若为空则表示网站的所有分类首页已抓取完，跳至步骤8，开始抓取各分类子页面;

步骤3：若url任务队列不为空，则根据url队列中的网站分类首页url开始抓取网页;

步骤4：记录url的抓取状态；保存抓取成功的分类首页源文件和url；未抓取成功的分类首页的url再次加入url任务队列；三次抓取失败的url则认为此url无效;

步骤7：循环步骤2，直到网站所有分类首页源文件抓取完；

步骤10：根据各分类的子页面链接，抓取全部分类子页面；

步骤11：保存各分类子页面源文件。

3.Web网站产品详细信息的产品信息库构建方法，其特征在于：所述方法是针对采用权利要求1或2的分类抓取方法抓取的网页，通过分析各分类子页面源文件，根据产品列表信息块和产品所属分类信息块，提取产品信息和产品所属分类信息字段，获取字段中的id及文本描述信息，最后建立网站产品id、所属各级分类id以及其他详细信息的映射关系，并对id描述说明，构建成产品信息库。

4.根据权利要求3所述的Web网站产品详细信息的产品信息库构建方法，其特征在于：所述产品信息库分别由id映射、产品id描述、分类id描述3个表格组成；id映射表由产品id编号、产品所属各级分类id和其他详细信息组成；产品id描述表由产品id和产品的文本描述组成；分类id描述表由各级分类id和其文本描述组成。

5.根据权利要求3或4所述的Web网站产品详细信息的产品信息库构建方法，其特征在于：所述建立产品信息库的方法如下：

步骤2：提取产品所属分类信息块中的分类信息字段；

步骤3：提取产品列表信息块中的每个产品的产品信息字段；