CN103927400B - Web网站产品详细信息的分类抓取及产品信息库建立方法 - Google Patents

Web网站产品详细信息的分类抓取及产品信息库建立方法 Download PDF

Info

Publication number
CN103927400B
CN103927400B CN201410190477.0A CN201410190477A CN103927400B CN 103927400 B CN103927400 B CN 103927400B CN 201410190477 A CN201410190477 A CN 201410190477A CN 103927400 B CN103927400 B CN 103927400B
Authority
CN
China
Prior art keywords
classification
product
url
information
homepage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410190477.0A
Other languages
English (en)
Other versions
CN103927400A (zh
Inventor
雒江涛
申健
杨军超
刘勇
高伟
邓生雄
王小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201410190477.0A priority Critical patent/CN103927400B/zh
Publication of CN103927400A publication Critical patent/CN103927400A/zh
Application granted granted Critical
Publication of CN103927400B publication Critical patent/CN103927400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。同时通过分析爬虫抓取的产品分类子页面源文件,提取产品详细信息和产品所属分类信息,建立网站产品id、分类id以及其他详细信息的映射关系,构建产品信息库。

Description

Web网站产品详细信息的分类抓取及产品信息库建立方法
技术领域
本发明涉及互联网网络爬虫领域。针对有产品编号的网站,利用网络爬虫建立产品id、分类id与其他详细信息的映射关系。
背景技术
随着Internet技术的迅速发展,Web网站产品的不断丰富,人们对信息价值认识的不断提高,从而激发了人们从Web网站海量产品信息中挖掘有用信息的需求。将海量的产品信息精准分类,建立产品信息库,是挖掘有用信息的一个重要依据。在整个数据挖掘过程中,网络爬虫扮演着一个重要的角色,网络爬虫抓取的网页是大数据分析的数据来源,这些数据将直接响着数据挖掘的准确性,但是传统的网络爬虫是尽可能全面的抓取页面信息,这样缺乏目的性抓取将导致传统爬虫抓取效率的降低,这种方法对于包含海量产品信息的网站是不适用的。
通常有产品编码的Web网站主要由产品页面和产品分类页面组成。产品页面主要由产品详细信息组成;产品分类页面包含一个或多个子页面,子页面主要由产品列表信息块和产品所属分类信息块组成。这样通过分析子页面的源文件,可以将产品归类。
发明内容
基于现有技术存在的不足和以上发现,本发明提出一种对Web网站产品详细信息分类抓取的方法,针对性抓取Web网站的产品分类子页面;同时通过分析爬虫抓取的产品分类子页面源文件,提取产品详细信息和产品所属分类信息,建立网站产品id、分类id以及其他详细信息的映射关系,构建产品信息库。
本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。
各分类页面的抓取具体步骤如下:
步骤1:一级分类首页的url导入url任务队列;
步骤2:判断url任务队列否为空,若不为空则网站的分类首页还未抓取完毕;若为空则表示网站的所有分类首页已抓取完,跳至步骤8,开始抓取各分类子页面;
步骤3:若url任务队列不为空,则根据url队列中的网站分类首页url开始抓取网页;
步骤4:记录url的抓取状态;保存抓取成功的分类首页源文件和url;未抓取成功的分类首页的url再次加入url任务队列;三次抓取失败的url则认为此url无效;
步骤5:解析分类首页源文件,获取下一级产品分类的首页url;
步骤6:根据抓取成功的页面url,对解析出的url去重,然后加入url任务队列;
步骤7:循环步骤2,直到网站所有分类首页源文件抓取完;
步骤8:解析所有分类首页源文件,获取各分类页面数、翻页元素和分类首页url;
步骤9:根据获取的各分类页面数、翻页元素和分类首页url,生成各分类的子页面链接;
步骤10:根据各分类的子页面链接,抓取全部分类子页面;
步骤11:保存各分类子页面源文件。
进一步,本发明提出一种基于以上分类抓取方法的Web网站产品详细信息的产品信息库构建方法。本发明通过分析各分类子页面源文件,根据产品列表信息块和产品所属分类信息块,提取产品信息和产品所属分类信息字段,获取字段中的id及文本描述信息,建立产品id与所属各级分类id的映射关系,并对id描述说明,构建产品信息库。
信息库分别由id映射、产品id描述、分类id描述3个表格组成。id映射表由产品id编号、产品所属各级分类id和其他详细信息组成;产品id描述表由产品id和产品的文本描述组成;分类id描述表由各级分类id和其文本描述组成。
建立产品信息库的方法如下:
步骤1:解析分类子页面源文件,获取产品列表信息块和产品所属分类信息块;
步骤2:提取产品所属分类信息块(如网页面包屑导航条)中的分类信息字段;
步骤3:提取产品列表信息块中的每个产品的产品信息字段;
步骤4:提取分类信息字段和产品信息字段中的id和文本描述信息;
步骤5:按照表格格式输入id字段和文本描述信息,最后存入数据库。
本发明的优点如下:
1、通过抓取网站各分类首页,分析网页源文件,获取各个分类下包含的子页面数,结合抓取的分类首页url,最后生成目标网站各个分类子页面的url,其目的实现了对目标网站仅进行一次的抓取分析(前提是在目标网站结构不做很大变化的前提下),便可在以后更新产品分类子页面时多次利用这次分析所生成的url,这个方法减去了传统爬虫再次爬取目标网站各分类子页面时所花费在解析网页上的时间;
2、通过分析分类子页面,提取关键字段,建立的产品信息库,为基于Web产品的数据挖掘提供了有力的数据支持。同时信息库使用者通过读取url中的id值,可快速获取url对应的摘要信息,这无疑也为深度数据包挖掘工作的开展提供了便利。
附图说明
图1为抓取各分类子页面流程图;
图2为建立产品信息库流程图;
图3为id映射表;
图4为产品id描述表;
图5为分类id描述表。
具体实施方法
随着21世纪互联网技术的普遍运用,信息量的爆炸式增长,人们步入了大数据的时代。面对Web网站琳琅满目的产品,实现对Web网站的产品分类子页面抓取分析,建立产品信息库,是数据挖掘的重要一步。对于有产品编码的Web网站,如何建立产品信息库,将直接影响后续web网站产品数据挖掘的精准。基于以上问题,本发明提出一种对Web网站产品详细信息分类抓取的方法,获取产品分类子页面源文件;同时通过分析爬虫抓取的产品分类子页面源文件,提取产品详细信息和产品所属分类信息,建立产品信息库。
本发明内容包含各分类子页面抓取和建立产品信息库两个部分。
以下结合附图说明和具体实施对本发明做进一步说明:
本发明针对Web网站产品信息的获取设计了一种网页抓取方法,首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接,然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析所有分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取。
参见图1,各分类子页面的抓取具体步骤如下:
步骤1:一级分类首页的url导入url任务队列;
步骤2:判断url任务队列否为空,若不为空则网站的分类首页还未抓取完毕,若为空则表示网站的所有分类首页已抓取完,跳至步骤8,开始抓取各分类子页面;
步骤3:若url任务队列不为空,则根据url队列中的网站分类首页url开始抓取网页;
步骤4:记录url的抓取状态,保存抓取成功的分类首页源文件和url,未抓取成功的分类首页的url再次加入url任务队列,三次抓取失败的url则认为此url无效;
步骤5:解析分类首页源文件,获取下一级产品分类的首页url;
步骤6:根据抓取成功的页面url,对解析出的url去重,然后加入url任务队列;
步骤7:循环步骤2,直到网站所有分类首页源文件抓取完;
步骤8:解析所有分类首页源文件,获取各分类页面数、翻页元素和分类首页url;
步骤9:根据获取的各分类页面数、翻页元素和分类首页url,生成各分类的子页面链接;
步骤10:根据各分类的子页面链接,抓取全部分类子页面;
步骤11:保存各分类子页面源文件。
进一步,本发明基于以上分类抓取方法获得的网页,构建产品信息库。构建方法的总构思是:通过分析各分类子页面源文件,根据产品列表信息块和产品所属分类信息块,提取产品信息和产品所属分类信息字段,获取字段中的id及文本描述信息,建立产品id与所属各级分类id的映射关系,并对id描述说明。
信息库分别由id映射、产品id描述、分类id描述3个表格组成。id映射表由产品id编号、产品所属各级分类id和其他详细信息组成;产品id描述表由产品id和产品的文本描述组成;分类id描述表由各级分类id和其文本描述组成。
参见图2,建立产品信息库的具体方法步骤如下:
步骤1:解析分类子页面源文件,获取产品列表信息块和产品所属分类信息块;
步骤2:提取产品所属分类信息块(如网页面包屑导航条)中的分类信息字段;
步骤3:提取产品列表信息块中的每个产品的产品信息字段;
步骤4:提取分类信息字段和产品信息字段中的id和文本描述信息;
步骤5:按照表格格式输入id字段和文本描述信息,最后入库。
以上所述仅为本发明的优选并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.Web网站产品详细信息的分类抓取方法,其特征在于:首先抓取网站产品一级分类的首页,通过分析抓取的分类首页源文件,获取下一级产品分类首页链接;然后逐级抓取,直到网站所有分类首页抓取完毕;通过分析各级分类子页面的源文件,获取翻页元素和各分类页面数,然后生成各分类的子页面链接,最后根据各分类的子页面链接,完成各分类子页面的抓取;
各分类页面抓取的具体步骤如下:
步骤1:一级分类首页的url导入url任务队列;
步骤2:判断url任务队列否为空,若不为空则网站的分类首页还未抓取完毕;若为空则表示网站的所有分类首页已抓取完,跳至步骤8,开始抓取各分类子页面;
步骤3:若url任务队列不为空,则根据url队列中的网站分类首页url开始抓取网页;
步骤4:记录url的抓取状态;保存抓取成功的分类首页源文件和url;未抓取成功的分类首页的url再次加入url任务队列;三次抓取失败的url则认为此url无效;
步骤5:解析分类首页源文件,获取下一级产品分类的首页url;
步骤6:根据抓取成功的页面url,对解析出的url去重,然后加入url任务队列;
步骤7:循环步骤2,直到网站所有分类首页源文件抓取完;
步骤8:解析所有分类首页源文件,获取各分类页面数、翻页元素和分类首页url;
步骤9:根据获取的各分类页面数、翻页元素和分类首页url,生成各分类的子页面链接;
步骤10:根据各分类的子页面链接,抓取全部分类子页面;
步骤11:保存各分类子页面源文件。
2.Web网站产品详细信息的产品信息库构建方法,其特征在于:所述方法是针对采用权利要求1的分类抓取方法抓取的网页,通过分析各分类子页面源文件,根据产品列表信息块和产品所属分类信息块,提取产品信息和产品所属分类信息字段,获取字段中的id及文本描述信息,最后建立网站产品id、所属各级分类id的映射关系,并对id描述说明,构建成产品信息库。
3.根据权利要求2所述的Web网站产品详细信息的产品信息库构建方法,其特征在于:所述产品信息库分别由id映射、产品id描述、分类id描述3个表格组成;id映射表由产品id编号、产品所属各级分类id组成;产品id描述表由产品id和产品的文本描述组成;分类id描述表由各级分类id和其文本描述组成。
4.根据权利要求2或3所述的Web网站产品详细信息的产品信息库构建方法,其特征在于:所述建立产品信息库的方法如下:
步骤1:解析分类子页面源文件,获取产品列表信息块和产品所属分类信息块;
步骤2:提取产品所属分类信息块中的分类信息字段;
步骤3:提取产品列表信息块中的每个产品的产品信息字段;
步骤4:提取分类信息字段和产品信息字段中的id和文本描述信息;
步骤5:按照表格格式输入id字段和文本描述信息,最后存入数据库。
CN201410190477.0A 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法 Active CN103927400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410190477.0A CN103927400B (zh) 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410190477.0A CN103927400B (zh) 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法

Publications (2)

Publication Number Publication Date
CN103927400A CN103927400A (zh) 2014-07-16
CN103927400B true CN103927400B (zh) 2017-04-19

Family

ID=51145619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410190477.0A Active CN103927400B (zh) 2014-05-07 2014-05-07 Web网站产品详细信息的分类抓取及产品信息库建立方法

Country Status (1)

Country Link
CN (1) CN103927400B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765823A (zh) * 2015-04-08 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种网站数据采集的方法及装置
CN106557334B (zh) * 2015-09-25 2020-02-07 北京国双科技有限公司 爬虫任务完成的判断方法和装置
CN106649322A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 爬取电商网站关键词品类信息的方法及装置
TW201717068A (zh) * 2015-11-11 2017-05-16 財團法人資訊工業策進會 網頁內容萃取系統、網頁內容萃取方法及非暫態電腦可讀取記錄媒體
CN106815273B (zh) * 2015-12-02 2020-07-31 北京国双科技有限公司 数据存储方法和装置
CN108257031B (zh) * 2017-11-09 2022-04-12 中国平安人寿保险股份有限公司 医疗保险产品发布方法、装置及存储介质
CN107819781B (zh) * 2017-11-22 2020-07-31 北京市博汇科技股份有限公司 一种视听网站库构建方法、视听网站巡检方法和系统
CN109063110A (zh) * 2018-07-28 2018-12-21 安徽捷兴信息安全技术有限公司 一种应用商城中应用信息的抓取方法及装置
CN109308633A (zh) * 2018-08-20 2019-02-05 国政通科技有限公司 精准命中潜在用户的方法
CN113965371B (zh) * 2021-10-19 2023-08-29 北京天融信网络安全技术有限公司 网站监测过程中的任务处理方法、装置、终端及存储介质
CN116956353B (zh) * 2023-09-19 2024-01-12 深圳市伊登软件有限公司 一种依据数字经济的多渠道数据采集方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546370B1 (en) * 2004-08-18 2009-06-09 Google Inc. Search engine with multiple crawlers sharing cookies
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546370B1 (en) * 2004-08-18 2009-06-09 Google Inc. Search engine with multiple crawlers sharing cookies
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"分类-产品"结构的网页数据精确抽取方法探寻;周亮;《数字技术与应用》;20111231(第12期);第168、170页 *
网页超链抓取及自动分类技术实现;顾潇华等;《河北大学学报(自然科学版)》;20070131;第27卷(第1期);第99-102页 *

Also Published As

Publication number Publication date
CN103927400A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN103927400B (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN102222187B (zh) 基于域名构造特征的挂马网页检测方法
Rull Origins of biodiversity
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN106156335A (zh) 一种教材知识点的挖掘整理方法和系统
CN104504086B (zh) 网页页面的聚类方法和装置
CN109408701B (zh) 一种网络爬虫爬取路径的展示方法和装置
CN102722558A (zh) 一种为用户推荐提问的方法和装置
CN104216895A (zh) 一种生成poi数据的方法及装置
CN103886023B (zh) Excel数据表的存储、提取方法及系统
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN1845098A (zh) 仿人工细粒度网页信息采集方法
CN106980651A (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN105302876A (zh) 基于正则表达式的url过滤方法
CN107066548A (zh) 一种双维度分类提取网页链接的方法
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN103714093B (zh) 一种网站重点页面的挖掘方法及装置
CN106547803A (zh) 爬取网站增量资源的方法和装置
CN104915438A (zh) 一种获取特定话题微博中pcu关联数据的方法
CN102073678A (zh) 一种网站信息分析系统及其方法
CN104156458B (zh) 一种信息的提取方法及装置
CN106775611A (zh) 基于机器学习的自适应动态网页爬虫系统的实现方法
CN108446230A (zh) 一种面向WebDriver的Java测试代码质量评判方法
CN110609936A (zh) 一种模糊地址数据智能分类的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant