CN108153817A

CN108153817A - 一种智能网页数据采集方法

Info

Publication number: CN108153817A
Application number: CN201711229595.8A
Authority: CN
Inventors: 马萧萧; 周熙; 温大川; 刘科材; 冯良怀; 杨树海; 姚晴麟
Original assignee: CHENGDU DONGFANGSHENGXING ELECTRONICS Co Ltd
Current assignee: CHENGDU DONGFANGSHENGXING ELECTRONICS Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-06-12
Anticipated expiration: 2037-11-29
Also published as: CN108153817B

Abstract

本发明公开了一种智能网页数据采集方法，包括以下步骤：初始化爬虫数据库，遍历网页数据库中网页记录，如没有被爬取且符合爬取条件，则添加至爬取队列，爬取爬取队列中的网页记录并存储至爬虫数据库，读取一条网页记录，直至读取成功，根据设置过滤网页记录，将网页记录与网页模板匹配，若匹配成功，发送当前网页内容并将该网页记录标记为已发送并清空网页模板内容，完成发送，否则，从网页记录中提取内容特征码并更新网页模板；本发明有效的提高了网页数据采集的效率和准确度。

Description

一种智能网页数据采集方法

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种智能网页数据采集方法。

背景技术

随着网络信息技术的发展、网站、论坛、博客等网页信息越来越大，搜索引擎、内容分析、舆情分析等技术都是对这些信息进行某种分析处理的，他们都用到了网页数据采集这一技术，网络数据采集方法也称作网络爬虫，是一种对网页连接进行自动分析，并自动获取信息存储到本地的数据采集方法，目前面临的问题主要在于如何有效提高网络数据采集的效率和准确度。

发明内容

为了解决上述问题，本发明提出一种智能网页数据采集方法。

具体的，一种智能网页数据采集方法，包括以下步骤：

S1.初始化爬虫数据库；

S2.遍历网页数据库中网页记录，如没有被爬取且符合爬取条件，则添加至爬取队列；

S3.爬取所述爬取队列中的网页记录提取网页模板并存储至爬虫数据库；

S4.读取一条网页记录，直至读取成功；

S5.根据设置过滤网页记录，如被过滤，执行S8，否则执行S6；

S6.将网页记录与所述爬虫数据库中的网页模板匹配，若匹配成功，则执行S7，否则，从网页记录中提取内容特征码并更新网页模板，执行S8；

S7.发送并判断当前网页内容是否发送成功，若发送成功，则将该网页记录标记为已发送并清空网页模板内容，否则，执行S8；

S8.完成发送。

进一步的，所述网页记录为URL记录。

进一步的，所述步骤S3具体实施过程为：爬取所述爬取队列中网页记录的子域名内容，识别以该子域名开头的链接，保存到所述爬虫数据库中；

遍历所述爬虫数据库，判断网页记录是否已经被爬取，是则判断下一条网页记录，否则抓取该网页记录的HTML内容，并保存到所述爬虫数据库。

进一步的，所述步骤S5的过滤具体实施过程为：判断该网页记录是否被爬取，若没有被爬取则过滤掉，若已被爬取则判断该网页记录内容是否被提取，如已经被提取则过滤掉，否则使用正则表达式获得该网页记录所属的子域名。

进一步的，所述步骤S6的匹配具体过程为：遍历网页记录子域名的内容模板，如果有模板与该网页记录匹配，则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储；如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点，对每个父节点进行文字计数，返回文字数最大的节点的CSS选择器，识别出该网页记录的正则模板，该网页记录正则模板的CSS选择器计数值加1，若所述计数值大于设定阈值，则认定二者匹配，存储该网页模板和CSS选择器。

本发明的有益效果在于：提高了网络数据采集的效率和准确度。

附图说明

图1是本发明的一种智能网页数据采集方法流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

具体的，一种智能网页数据采集方法，包括以下步骤：

S1.初始化爬虫数据库；

S4.读取一条网页记录，直至读取成功；

S5.根据设置过滤网页记录，如被过滤，执行S8，否则执行S6；

S8.完成发送。

进一步的，所述网页记录为URL记录。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种智能网页数据采集方法，其特征在于，包括以下步骤：

S1.初始化爬虫数据库；

S4.读取一条网页记录，直至读取成功；

S5.根据设置过滤网页记录，如被过滤，执行S8，否则执行S6；

S8.完成发送。

2.根据权利要求1所述的一种智能网页数据采集方法，其特征在于：所述网页记录为

URL记录。

3.根据权利要求2所述的一种智能网页数据采集方法，其特征在于，所述步骤S3具体实施过程为：爬取所述爬取队列中网页记录的子域名内容，识别以该子域名开头的链接，保存到所述爬虫数据库中；

4.根据权利要求3所述的一种智能网页数据采集方法，其特征在于，所述步骤S5的过滤具体实施过程为：判断该网页记录是否被爬取，若没有被爬取则过滤掉，若已被爬取则判断该网页记录内容是否被提取，如已经被提取则过滤掉，否则使用正则表达式获得该网页记录所属的子域名。

5.根据权利要求4所述的一种智能网页数据采集方法，其特征在于，所述步骤S6的匹配具体过程为：遍历网页记录子域名的内容模板，如果有模板与该网页记录匹配，则使用该模板的CSS选择器抽取出该网页记录的正文内容并存储；如果没有找到匹配的模板则遍历该网页记录的HTML内容中的段落节点的父节点，对每个父节点进行文字计数，返回文字数最大的节点的CSS选择器，识别出该网页记录的正则模板，该网页记录正则模板的CSS选择器计数值加1，若所述计数值大于设定阈值，则认定二者匹配，存储该网页模板和CSS选择器。