CN103927400A - Web网站产品详细信息的分类抓取及产品信息库建立方法 - Google Patents

Web网站产品详细信息的分类抓取及产品信息库建立方法 Download PDF

Info

Publication number
CN103927400A
CN103927400A CN201410190477.0A CN201410190477A CN103927400A CN 103927400 A CN103927400 A CN 103927400A CN 201410190477 A CN201410190477 A CN 201410190477A CN 103927400 A CN103927400 A CN 103927400A
Authority
CN
China
Prior art keywords
classification
product
url
information
homepage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410190477.0A
Other languages
English (en)
Other versions
CN103927400B (zh
Inventor
雒江涛
申健
杨军超
刘勇
高伟
邓生雄
王小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201410190477.0A priority Critical patent/CN103927400B/zh
Publication of CN103927400A publication Critical patent/CN103927400A/zh
Application granted granted Critical
Publication of CN103927400B publication Critical patent/CN103927400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。同时通过分析爬虫抓取的产品分类子页面源文件,提取产品详细信息和产品所属分类信息,建立网站产品id、分类id以及其他详细信息的映射关系,构建产品信息库。

Description

Web网站产品详细信息的分类抓取及产品信息库建立方法
技术领域
    本发明涉及互联网网络爬虫领域。针对有产品编号的网站,利用网络爬虫建立产品id、分类id与其他详细信息的映射关系。
背景技术
随着Internet技术的迅速发展,Web网站产品的不断丰富,人们对信息价值认识的不断提高,从而激发了人们从Web网站海量产品信息中挖掘有用信息的需求。将海量的产品信息精准分类,建立产品信息库,是挖掘有用信息的一个重要依据。在整个数据挖掘过程中,网络爬虫扮演着一个重要的角色,网络爬虫抓取的网页是大数据分析的数据来源,这些数据将直接响着数据挖掘的准确性,但是传统的网络爬虫是尽可能全面的抓取页面信息,这样缺乏目的性抓取将导致传统爬虫抓取效率的降低,这种方法对于包含海量产品信息的网站是不适用的。
通常有产品编码的Web网站主要由产品页面和产品分类页面组成。产品页面主要由产品详细信息组成;产品分类页面包含一个或多个子页面,子页面主要由产品列表信息块和产品所属分类信息块组成。这样通过分析子页面的源文件,可以将产品归类。
发明内容
基于现有技术存在的不足和以上发现,本发明提出一种对Web网站产品详细信息分类抓取的方法,针对性抓取Web网站的产品分类子页面;同时通过分析爬虫抓取的产品分类子页面源文件,提取产品详细信息和产品所属分类信息,建立网站产品id、分类id以及其他详细信息的映射关系,构建产品信息库。
本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。
各分类页面的抓取具体步骤如下:
步骤1:一级分类首页的url导入url任务队列;
步骤2:判断url任务队列否为空,若不为空则网站的分类首页还未抓取完毕;若为空则表示网站的所有分类首页已抓取完,跳至步骤8,开始抓取各分类子页面;
步骤3:若url任务队列不为空,则根据url队列中的网站分类首页url开始抓取网页;
步骤4:记录url的抓取状态;保存抓取成功的分类首页源文件和url;未抓取成功的分类首页的url再次加入url任务队列;三次抓取失败的url则认为此url无效;
步骤5:解析分类首页源文件,获取下一级产品分类的首页url;
步骤6:根据抓取成功的页面url,对解析出的url去重,然后加入url任务队列;
步骤7:循环步骤2,直到网站所有分类首页源文件抓取完;
步骤8:解析所有分类首页源文件,获取各分类页面数、翻页元素和分类首页url;
步骤9:根据获取的各分类页面数、翻页元素和分类首页url,生成各分类的子页面链接;
步骤10:根据各分类的子页面链接,抓取全部分类子页面;
步骤11:保存各分类子页面源文件。
进一步,本发明提出一种基于以上分类抓取方法的Web网站产品详细信息的产品信息库构建方法。本发明通过分析各分类子页面源文件,根据产品列表信息块和产品所属分类信息块,提取产品信息和产品所属分类信息字段,获取字段中的id及文本描述信息,建立产品id与所属各级分类id的映射关系,并对id描述说明,构建产品信息库。
信息库分别由id映射、产品id描述、分类id描述3个表格组成。id映射表由产品id编号、产品所属各级分类id和其他详细信息组成;产品id描述表由产品id和产品的文本描述组成;分类id描述表由各级分类id和其文本描述组成。
建立产品信息库的方法如下:
步骤1:解析分类子页面源文件,获取产品列表信息块和产品所属分类信息块;
步骤2:提取产品所属分类信息块(如网页面包屑导航条)中的分类信息字段;
步骤3:提取产品列表信息块中的每个产品的产品信息字段;
步骤4:提取分类信息字段和产品信息字段中的id和文本描述信息;
步骤5:按照表格格式输入id字段和文本描述信息,最后存入数据库。
本发明的优点如下:
1、通过抓取网站各分类首页,分析网页源文件,获取各个分类下包含的子页面数,结合抓取的分类首页url,最后生成目标网站各个分类子页面的url,其目的实现了对目标网站仅进行一次的抓取分析(前提是在目标网站结构不做很大变化的前提下),便可在以后更新产品分类子页面时多次利用这次分析所生成的url,这个方法减去了传统爬虫再次爬取目标网站各分类子页面时所花费在解析网页上的时间;
2、通过分析分类子页面,提取关键字段,建立的产品信息库,为基于Web产品的数据挖掘提供了有力的数据支持。同时信息库使用者通过读取url中的id值,可快速获取url对应的摘要信息,这无疑也为深度数据包挖掘工作的开展提供了便利。
附图说明
    图1为抓取各分类子页面流程图;
          图2为建立产品信息库流程图;
          图3为id映射表;
          图4为产品id描述表;
          图5为分类id描述表。
具体实施方法
随着21世纪互联网技术的普遍运用,信息量的爆炸式增长,人们步入了大数据的时代。面对Web网站琳琅满目的产品,实现对Web网站的产品分类子页面抓取分析,建立产品信息库,是数据挖掘的重要一步。对于有产品编码的Web网站,如何建立产品信息库,将直接影响后续web网站产品数据挖掘的精准。基于以上问题,本发明提出一种对Web网站产品详细信息分类抓取的方法,获取产品分类子页面源文件;同时通过分析爬虫抓取的产品分类子页面源文件,提取产品详细信息和产品所属分类信息,建立产品信息库。
本发明内容包含各分类子页面抓取和建立产品信息库两个部分。
以下结合附图说明和具体实施对本发明做进一步说明:
本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接,然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。
参见图1,各分类子页面的抓取具体步骤如下:
步骤1:一级分类首页的url导入url任务队列;
步骤2:判断url任务队列否为空,若不为空则网站的分类首页还未抓取完毕,若为空则表示网站的所有分类首页已抓取完,跳至步骤8,开始抓取各分类子页面;
步骤3:若url任务队列不为空,则根据url队列中的网站分类首页url开始抓取网页;
步骤4:记录url的抓取状态,保存抓取成功的分类首页源文件和url,未抓取成功的分类首页的url再次加入url任务队列,三次抓取失败的url则认为此url无效;
步骤5:解析分类首页源文件,获取下一级产品分类的首页url;
步骤6:根据抓取成功的页面url,对解析出的url去重,然后加入url任务队列;
步骤7:循环步骤2,直到网站所有分类首页源文件抓取完;
步骤8:解析所有分类首页源文件,获取各分类页面数、翻页元素和分类首页url;
步骤9:根据获取的各分类页面数、翻页元素和分类首页url,生成各分类的子页面链接;
步骤10:根据各分类的子页面链接,抓取全部分类子页面;
步骤11:保存各分类子页面源文件。
进一步,本发明基于以上分类抓取方法获得的网页,构建产品信息库。构建方法的总构思是:通过分析各分类子页面源文件,根据产品列表信息块和产品所属分类信息块,提取产品信息和产品所属分类信息字段,获取字段中的id及文本描述信息,建立产品id与所属各级分类id的映射关系,并对id描述说明。
信息库分别由id映射、产品id描述、分类id描述3个表格组成。id映射表由产品id编号、产品所属各级分类id和其他详细信息组成;产品id描述表由产品id和产品的文本描述组成;分类id描述表由各级分类id和其文本描述组成。
参见图2,建立产品信息库的具体方法步骤如下:
步骤1:解析分类子页面源文件,获取产品列表信息块和产品所属分类信息块;
步骤2:提取产品所属分类信息块(如网页面包屑导航条)中的分类信息字段;
步骤3:提取产品列表信息块中的每个产品的产品信息字段;
步骤4:提取分类信息字段和产品信息字段中的id和文本描述信息;
步骤5:按照表格格式输入id字段和文本描述信息,最后入库。
   以上所述仅为本发明的优选并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.Web网站产品详细信息的分类抓取方法,其特征在于:首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析各级分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。
2.根据权利要求1所述的Web网站产品详细信息的分类抓取方法,其特征在于:各分类页面抓取的具体步骤如下:
步骤1:一级分类首页的url导入url任务队列;
步骤2:判断url任务队列否为空,若不为空则网站的分类首页还未抓取完毕;若为空则表示网站的所有分类首页已抓取完,跳至步骤8,开始抓取各分类子页面;
步骤3:若url任务队列不为空,则根据url队列中的网站分类首页url开始抓取网页;
步骤4:记录url的抓取状态;保存抓取成功的分类首页源文件和url;未抓取成功的分类首页的url再次加入url任务队列;三次抓取失败的url则认为此url无效;
步骤5:解析分类首页源文件,获取下一级产品分类的首页url;
步骤6:根据抓取成功的页面url,对解析出的url去重,然后加入url任务队列;
步骤7:循环步骤2,直到网站所有分类首页源文件抓取完;
步骤8:解析所有分类首页源文件,获取各分类页面数、翻页元素和分类首页url;
步骤9:根据获取的各分类页面数、翻页元素和分类首页url,生成各分类的子页面链接;
步骤10:根据各分类的子页面链接,抓取全部分类子页面;
步骤11:保存各分类子页面源文件。
3.Web网站产品详细信息的产品信息库构建方法,其特征在于:所述方法是针对采用权利要求1或2的分类抓取方法抓取的网页,通过分析各分类子页面源文件,根据产品列表信息块和产品所属分类信息块,提取产品信息和产品所属分类信息字段,获取字段中的id及文本描述信息,最后建立网站产品id、所属各级分类id以及其他详细信息的映射关系,并对id描述说明,构建成产品信息库。
4.根据权利要求3所述的Web网站产品详细信息的产品信息库构建方法,其特征在于:所述产品信息库分别由id映射、产品id描述、分类id描述3个表格组成;id映射表由产品id编号、产品所属各级分类id和其他详细信息组成;产品id描述表由产品id和产品的文本描述组成;分类id描述表由各级分类id和其文本描述组成。
5.根据权利要求3或4所述的Web网站产品详细信息的产品信息库构建方法,其特征在于:所述建立产品信息库的方法如下:
步骤1:解析分类子页面源文件,获取产品列表信息块和产品所属分类信息块;
步骤2:提取产品所属分类信息块中的分类信息字段;
步骤3:提取产品列表信息块中的每个产品的产品信息字段;
步骤4:提取分类信息字段和产品信息字段中的id和文本描述信息;
步骤5:按照表格格式输入id字段和文本描述信息,最后存入数据库。
CN201410190477.0A 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法 Active CN103927400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410190477.0A CN103927400B (zh) 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410190477.0A CN103927400B (zh) 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法

Publications (2)

Publication Number Publication Date
CN103927400A true CN103927400A (zh) 2014-07-16
CN103927400B CN103927400B (zh) 2017-04-19

Family

ID=51145619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410190477.0A Active CN103927400B (zh) 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法

Country Status (1)

Country Link
CN (1) CN103927400B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765823A (zh) * 2015-04-08 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种网站数据采集的方法及装置
CN106557334A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 爬虫任务完成的判断方法和装置
CN106649322A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 爬取电商网站关键词品类信息的方法及装置
CN106682048A (zh) * 2015-11-11 2017-05-17 财团法人资讯工业策进会 网页内容萃取系统及方法
CN106815273A (zh) * 2015-12-02 2017-06-09 北京国双科技有限公司 数据存储方法和装置
CN108257031A (zh) * 2017-11-09 2018-07-06 中国平安人寿保险股份有限公司 医疗保险产品发布方法、装置及存储介质
CN109063110A (zh) * 2018-07-28 2018-12-21 安徽捷兴信息安全技术有限公司 一种应用商城中应用信息的抓取方法及装置
CN109308633A (zh) * 2018-08-20 2019-02-05 国政通科技有限公司 精准命中潜在用户的方法
CN107819781B (zh) * 2017-11-22 2020-07-31 北京市博汇科技股份有限公司 一种视听网站库构建方法、视听网站巡检方法和系统
CN113965371A (zh) * 2021-10-19 2022-01-21 北京天融信网络安全技术有限公司 网站监测过程中的任务处理方法、装置、终端及存储介质
CN116956353A (zh) * 2023-09-19 2023-10-27 深圳市伊登软件有限公司 一种依据数字经济的多渠道数据采集方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546370B1 (en) * 2004-08-18 2009-06-09 Google Inc. Search engine with multiple crawlers sharing cookies
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546370B1 (en) * 2004-08-18 2009-06-09 Google Inc. Search engine with multiple crawlers sharing cookies
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周亮: ""分类-产品"结构的网页数据精确抽取方法探寻", 《数字技术与应用》 *
顾潇华等: "网页超链抓取及自动分类技术实现", 《河北大学学报(自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765823A (zh) * 2015-04-08 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种网站数据采集的方法及装置
CN106557334B (zh) * 2015-09-25 2020-02-07 北京国双科技有限公司 爬虫任务完成的判断方法和装置
CN106557334A (zh) * 2015-09-25 2017-04-05 北京国双科技有限公司 爬虫任务完成的判断方法和装置
CN106649322A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 爬取电商网站关键词品类信息的方法及装置
CN106682048A (zh) * 2015-11-11 2017-05-17 财团法人资讯工业策进会 网页内容萃取系统及方法
CN106815273A (zh) * 2015-12-02 2017-06-09 北京国双科技有限公司 数据存储方法和装置
CN108257031A (zh) * 2017-11-09 2018-07-06 中国平安人寿保险股份有限公司 医疗保险产品发布方法、装置及存储介质
CN107819781B (zh) * 2017-11-22 2020-07-31 北京市博汇科技股份有限公司 一种视听网站库构建方法、视听网站巡检方法和系统
CN109063110A (zh) * 2018-07-28 2018-12-21 安徽捷兴信息安全技术有限公司 一种应用商城中应用信息的抓取方法及装置
CN109308633A (zh) * 2018-08-20 2019-02-05 国政通科技有限公司 精准命中潜在用户的方法
CN113965371A (zh) * 2021-10-19 2022-01-21 北京天融信网络安全技术有限公司 网站监测过程中的任务处理方法、装置、终端及存储介质
CN113965371B (zh) * 2021-10-19 2023-08-29 北京天融信网络安全技术有限公司 网站监测过程中的任务处理方法、装置、终端及存储介质
CN116956353A (zh) * 2023-09-19 2023-10-27 深圳市伊登软件有限公司 一种依据数字经济的多渠道数据采集方法及装置
CN116956353B (zh) * 2023-09-19 2024-01-12 深圳市伊登软件有限公司 一种依据数字经济的多渠道数据采集方法及装置

Also Published As

Publication number Publication date
CN103927400B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN103927400A (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN102222187B (zh) 基于域名构造特征的挂马网页检测方法
CN102542061B (zh) 一种产品的智能分类方法
CN109522011B (zh) 一种基于编程现场上下文深度感知的代码行推荐方法
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN103279476B (zh) 一种web应用系统敏感文字的检测方法及系统
CN101650715A (zh) 一种筛选网页上链接的方法和装置
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN103838796A (zh) 一种网页结构化信息抽取方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN104899219A (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN104991904A (zh) 一种动态网页的页面数据采集方法
CN102902790B (zh) 网页分类系统及方法
CN106227770A (zh) 一种智能化的新闻网页信息抽取方法
CN102902794B (zh) 网页分类系统及方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN106547803A (zh) 爬取网站增量资源的方法和装置
CN102073678A (zh) 一种网站信息分析系统及其方法
CN103744944A (zh) 网络爬虫在抓取网页或数据时再过滤的方法
CN110609936A (zh) 一种模糊地址数据智能分类的方法
CN105653567A (zh) 一种文本序列数据中快速查找特征字符串的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant