CN107577788A

CN107577788A - 一种自动结构化数据的电商网站主题爬虫方法

Info

Publication number: CN107577788A
Application number: CN201710833641.9A
Authority: CN
Inventors: 张倩; 林安成; 廖秀秀; 詹瑾; 唐四云; 刘博良; 曾繁星
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-01-12
Anticipated expiration: 2037-09-15
Also published as: CN107577788B

Abstract

本发明涉及一种自动结构化数据的电商网站主题爬虫方法，其特征在于包括以下步骤：传入入口地址以触发工作系统，所述工作系统中设有模块分析系统；模块分析系统进入工作状态，抓取工作也同期开启，以等待主线程的任务；模块分析系统对网站的新旧进行判断，如是旧网站则使用先前分析产生的规则进行分析解析；如是新网站则交由模块分析系统内的结构分析器，结构分析器根据预设的匹配模板，逐步分析出列表数据、目标字段的位置信息，并将产生的XPath存储在分析器实例中；最后进行爬虫的运作流程以完成结构化。该方法不但能够快速的获得多个站点的大量数据，而且能将焦点更多地放在结构化数据的处理和信息挖掘上。

Description

一种自动结构化数据的电商网站主题爬虫方法

技术领域

本发明涉及一种自动结构化数据的电商网站主题爬虫方法。

背景技术

当前对于拥有海量数据的互联网，经常需要采集多个源站的结构化数据以用于数据分析、挖掘，而为不同网站定制数据采集程序的人工成本很高，特别是以电商类网站为例，其具有统一层次结构、垂直领域拥有行业语料和规范的特点。为了快速获得多个站点的大量数据，将焦点更多地放在结构化数据的处理和信息挖掘，一种自动结构化网站数据的主题爬虫方法的开发设计十分有必要。

发明内容

本发明针对上述问题，提出了一种自动结构化数据的电商网站主题爬虫方法。该方法不但能够快速的获得多个站点的大量数据，而且能将焦点更多地放在结构化数据的处理和信息挖掘上；其适用于主题爬虫和数据采集领域，特别是电商主题的自动化采集和数据处理方案。

为了达到上述目的，本发明一种自动结构化数据的电商网站主题爬虫方法，主要包括以下步骤：

首先，传入入口地址以触发工作系统，即传入分类页以进行引擎启动，所述工作系统中设有模块分析系统；

第二，引擎启动之后，模块分析系统进入工作状态，抓取工作也同期开启，以等待主线程的任务；

第三，模块分析系统对网站的新旧进行判断，如果是旧网站则直接进入到分析器实例中以使用先前分析产生的规则进行分析解析；如果是新网站则交由模块分析系统内的结构分析器，结构分析器根据预设的匹配模板，逐步分析出列表数据、目标字段的位置信息，并将产生的XPath存储在分析器实例中；

第四，进行爬虫的运作流程，根据层级提交给分析器解析出所需字段，进而完成结构化。

优选地，所述抓取工作的对象分为静态页面和动态页面。

进一步地，所述静态页面的抓取方式为：浏览器直接解析请求url后响应的html。

进一步地，电商网站中静态页面和动态页面这两种页面经常是共存的，为了提高普适度，所述动态页面的抓取方式应用静态抓取和前端渲染支持库相比较的方法来标记层级页面类型。

作为上述方案的进一步改进，所述比较过程的方法为一种基于网页正文结构和特征串的相似网页去重算法。

进一步的，所述比较方法主要包括以下步骤：

首先，进行网页正文的抽取，过滤掉网页中的噪声；

第二，利用网页正文生成树算法得到一棵结构树；

第三，用Bloom Filter算法计算每一层次特征串的指纹；

第四，网页相似度的判断，当相似度达到预定的阈值，就认为静态抓取和前端渲染得到的页面数据是等价的，此时断定该层级页面是静态的，否则认为是存在异步获取过程的动态页面。

需要说明的是，电商网站层级严谨，基于此相同层级的页面自然采取了同样的页面类型。所以比较方法的最后一步中标记的是某一层级而不是某个URL，后面的抓取都沿用本层级已经确定下来的策略即可。

本发明不但能够快速的获得多个站点的大量数据，而且能将焦点更多地放在结构化数据的处理和信息挖掘上；该方法适用于主题爬虫和数据采集领域，特别是电商主题的自动化采集和数据处理方案。

附图说明

图1为本发明方法的流程方框图；

图2为页面类型判断流程图；

图3为页面类型判断过程中的比较方法流程图；

图4为列表的匹配重根据网页列表的特征制定的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明进行详细描述，但不做为对本发明的限定。

参照图1～3，本发明实施例一种自动结构化数据的电商网站主题爬虫方法，主要包括以下步骤：

所述抓取工作的对象分为静态页面和动态页面。所述静态页面的抓取方式为：浏览器直接解析请求url后响应的html。电商网站中静态页面和动态页面这两种页面经常是共存的，为了提高普适度，所述动态页面的抓取方式应用静态抓取和前端渲染支持库相比较的方法来标记层级页面类型。

参照图2和图3，所述比较过程的方法为一种基于网页正文结构和特征串的相似网页去重算法。

参照图2和图3，所述比较方法主要包括以下步骤：

首先，进行网页正文的抽取，过滤掉网页中的噪声；

第二，利用网页正文生成树算法得到一棵结构树；

第三，用Bloom Filter算法计算每一层次特征串的指纹；

本发明梭讨论的自动结构化的关键点在于如何实现较为精准的标签匹配，这里可以通过“列表的匹配”和“匹配目标字段的标签”两种方式实现。

对于“列表的匹配”此项用来分辨类别、商品列表的数据是在页面的哪一部分。本实施例分析了多个站点的结构，如下是比较典型的一种：

图4为列表的匹配重根据网页列表的特征制定的流程示意图。参照图4，依据上述网页中列表的特征：结构一致、覆盖此页大部分、多用div/ul/li标签，制定了如图4所示的流程。

先去除不关网页结构但占据很多篇幅的代码和文字，仅仅留下body标签的内容并生成结构树，其中还要把标签文本去除来减少文档体积以提高后期分析效率。在标识重复相似节点时将一种基于节点加权的XML检测算法和加权频繁子树相似度的算法作出一定结合和改进，其算法描述如下：

1、将HTMLL文档用SAX(Simple API for XML)转化为一棵带权树，其中class、name、type等属性应该设置较高的权值，注意应将相同根节点的同一层次节点的权值之和等于1。

2、任意两棵树进行相似性的粗略匹配，将属性值相等的节点计算相似度：带权树Ta、Tb，N代表两棵树的节点数，a1-an和b1-bn代表节点权值，相似度计算公式：计算得到的相似度如果大于预设的α，认为相似。

3、将“2”得到的相似节点对使用树编辑距离算法，计算后的距离值小于给定的阈值β，便最终确认其节点对是相似重复节点。

“判断标签名”这一步是为了解决在网页中发现多片区域出现相似重复节点的情况，这时应当给ul/li较高优先，依次类推。最后确定了列表的位置，转化为XPath(XML路径语言)并存储，供后续页面解析进行快速匹配。

下面陈述对于“匹配目标字段的标签”的问题。“列表的匹配”中介绍的是如何锁定目标数据的范围，还有一个问题就是如何抓取最终的有价值字段。本文基于主题爬虫的特点提出一种属性语义匹配的方案，首先给每个字段建立一个用于预测的词库，然后进行全部/局部匹配，计算得到权值之后进行比较以实现预测。

假如要匹配商品名称，本文设定了词库和权值见表：

因为代码命名常是使用缩写，当标签的id属性局部匹配(本文推荐50％)时即加上该权值，一些用词经常是把缩写也纳入词库，并且权值应该更高。匹配计算过程如下：

匹配标签1：<p id＝"prodName"class＝"..."/>

对于product，局部匹配

对于name，全部匹配

计算权值：S＝5+5＝10

匹配标签2：<div id＝”product-item”/>

对于product，全部匹配

对于name，不匹配

计算权值：S＝5

因此可以得出结论：描述商品名称字段的是标签1。

还有一点需要注意的是，标签描述属性不只是id也可能是name，还有的情况是自定义的属性，这就需要在原来的算法上加以延伸，变成决策树的模型，这里不再展开讨论。

本发明实施例不但能够快速的获得多个站点的大量数据，而且能将焦点更多地放在结构化数据的处理和信息挖掘上；该方法适用于主题爬虫和数据采集领域，特别是电商主题的自动化采集和数据处理方案。

以上已将本发明做一详细说明，但显而易见，本领域的技术人员可以进行各种改变和改进，而不背离所附权利要求书所限定的本发明的范围。

Claims

1.一种自动结构化数据的电商网站主题爬虫方法，其特征在于，主要包括以下步骤：

2.根据权利要求1所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在于，所述抓取工作的对象分为静态页面和动态页面。

3.根据权利要求2所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在于，所述静态页面的抓取方式为：浏览器直接解析请求url后响应的html。

4.根据权利要求2所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在于，所述动态页面的抓取方式应用静态抓取和前端渲染支持库相比较的方法来标记层级页面类型。

5.根据权利要求4所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在于，所述比较过程的方法为一种基于网页正文结构和特征串的相似网页去重算法。

6.根据权利要求4所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在于，所述比较方法主要包括以下步骤：

首先，进行网页正文的抽取，过滤掉网页中的噪声；

第二，利用网页正文生成树算法得到一棵结构树；

第三，用Bloom Filter算法计算每一层次特征串的指纹；