CN104361061A

CN104361061A - 一种web页面信息感知采集方法

Info

Publication number: CN104361061A
Application number: CN201410610479.0A
Authority: CN
Inventors: 瞿伟; 史波良
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Nanjing Fiberhome Information Development Co., Ltd.
Priority date: 2014-11-03
Filing date: 2014-11-03
Publication date: 2015-02-18
Anticipated expiration: 2034-11-03
Also published as: CN104361061B

Abstract

本发明涉及一种WEB页面信息感知采集方法，通过页面中URL比例分析和自动感知学习机制进行信息采集，能够有效避免由人工定制站点URL规则带来信息丢失风险，大大减少了大量站点脚本定制工作量和维护成本，克服了网站改版后无法采集信息的困扰，并且通过智能增量合并，智能生成URL规则，有效保证了页面感知获得采集URL的准确性。

Description

一种WEB页面信息感知采集方法

技术领域

本发明涉及一种WEB页面信息感知采集方法。

背景技术

随着科技的进步，互联网信息进入一个爆炸式、多元式的时代，互联网成为一个巨大的信息库，面对互联网上兼具多样性和复杂性的海量信息，仅仅靠人工收集、整理、跟踪最新信息动态，显然是不科学的、低效的，也不能满足实际需要。而互联网信息自动采集可以使用户在信息采集、资源整合、资金利用、人力投入等方面节约大量资源，广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。

常规网页抓取步骤包括：

1、从网站入口开始加载页面所有链接URL；

2、加载此网站定制的脚本；

3、翻转出所有符合该站点翻转规则的帖子URL；

4、加入采集队列，采集输出结构化数据；

5、分析，处理，存储。

现有的互联网信息因为格式多样化，数据量爆炸式膨胀，监控严格，动态加载，爬虫策略限制等，导致收集难度加大，主要表现在：

1、主流网站页面刷新率快，信息丢失严重，如果当前网页中存在多种URL贴文格式，容易遗漏部分重要帖子信息；

2、不同网站需要定制不同的规则去识别需要采集的帖子URL，需要大量的脚本定制，工作量大，维护困难；

3、广告、推广外链URL等不需要的部分抓取时很难界定；

4、网站改版后，无法自动识别改版后的帖子URL。

发明内容

针对上述技术问题，本发明所要解决的技术问题是提供一种通过页面中URL比例分析和自动感知学习机制进行信息采集，能够有效避免由人工定制站点URL规则带来信息丢失风险以及大量维护成本的WEB页面信息感知采集方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种WEB页面信息感知采集方法，包括如下步骤：

步骤001.从待采集网站入口，逐页加载获得各页面上所有链接URL，过滤掉非帖子信息，获得该待采集网站的全量URL，进入步骤002；

步骤002.同时判断该待采集网站是否存在URL规则和该待采集网站是否存在历史全量URL记录，并根据判断结果，分别同时进入步骤003和步骤005进行并行处理，或者分别同时进入步骤004和步骤006进行并行处理，其中，

若该待采集网站存在URL规则，进入步骤003，同时该待采集网站存在历史全量URL记录，进入步骤005，即分别同时进入步骤003和步骤005进行并行处理；

否则若该待采集网站不存在URL规则，进入步骤004，同时该待采集网站不存在历史全量URL记录，进入步骤006，即分别同时进入步骤004和步骤006进行并行处理；

步骤003.针对步骤001中获得的该待采集网站的全量URL，根据该待采集网站的URL规则输出需要采集的URL，并判断所输出的URL是否小于预设页面比例阈值，是则进入步骤004，否则记录该需要采集的URL为记录A，并进入步骤007；

步骤004.根据正则表达式的规则，将步骤001中获得的该待采集网站的全量URL抽象为URL正则表达式，并对URL正则表达式进行学习获得该待采集网站的新URL规则，作为或者更新为该待采集网站的URL规则；按照该待采集网站的URL规则，输出大于等于预设页面比例阈值的URL，作为需要采集的URL，记录该需要采集的URL为记录B，并进入步骤007；

步骤005.加载该待采集网站的历史全量URL记录，与步骤001中获得的该待采集网站的全量URL进行合并操作，获得新出现的URL，记录该新出现的URL为记录C，进入步骤007；

步骤006.记录步骤001中获得的该待采集网站的全量URL为记录D，进入步骤007；

步骤007.若该待采集网站存在历史全量URL记录，则记录合并步骤001中获得的该待采集网站的全量URL，更新该待采集网站的历史全量URL记录；若该待采集网站不存在历史全量URL记录，则记录步骤001中获得的该待采集网站的全量URL，建立该待采集网站的历史全量URL记录；针对记录C或者记录D，根据该待采集网站的URL规则，输出需要采集的URL，记录该需要采集的URL为记录E，进入步骤008；

步骤008.将记录A对应的URL和记录E对应的URL进行合并操作，或者将记录B对应的URL和记录E对应的URL进行合并操作；然后将合并操作结果所对应的URL加入到该待采集网站的待采集URL队列，获得该待采集网站的待采集URL队列，进入步骤009；

步骤009.根据该待采集网站的待采集URL队列，采集获得该待采集网站的信息数据，并进行结构化输出。

作为本发明的一种优选技术方案：所述步骤001中的所述非帖子信息包括CSS、JS、图片、音频或视频信息。

作为本发明的一种优选技术方案：所述步骤004中，将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式：

用\w代表字母[A-Za-z0-9],\d代表[0-9]；

后面跟着用前面字符的次数，来确定适配规则；

用+表示前面的\w或者\d出现了1次或者多次；

用*表示前面的\w或者\d出现了0次或者多次；

用？表示前面的\w或者\d出现了0次或者1次；

不加，表示前面的\w或者\d出现了1次。

作为本发明的一种优选技术方案：所述预设页面比例阈值为页面比例15％—25％。

作为本发明的一种优选技术方案：所述预设页面比例阈值为页面比例20％。

本发明所述一种WEB页面信息感知采集方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计的WEB页面信息感知采集方法，通过页面中URL比例分析和自动感知学习机制进行信息采集，能够有效避免由人工定制站点URL规则带来信息丢失风险，大大减少了大量站点脚本定制工作量和维护成本，克服了网站改版后无法采集信息的困扰，并且通过智能增量合并，智能生成URL规则，有效保证了页面感知获得采集URL的准确性。

附图说明

图1是本发明设计的WEB页面信息感知采集方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明设计一种WEB页面信息感知采集方法在实际应用过程当中，具体包括如下步骤：

步骤001.从待采集网站入口，逐页加载获得各页面上所有链接URL，过滤掉CSS、JS、图片、音频或视频等非帖子信息，获得该待采集网站的全量URL，进入步骤002；

步骤003.针对步骤001中获得的该待采集网站的全量URL，根据该待采集网站的URL规则输出需要采集的URL，并判断所输出的URL是否小于页面比例20％，是则进入步骤004，否则记录该需要采集的URL为记录A，并进入步骤007；

步骤004.根据正则表达式的规则，将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式：

用\w代表字母[A-Za-z0-9],\d代表[0-9]；

后面跟着用前面字符的次数，来确定适配规则；

用+表示前面的\w或者\d出现了1次或者多次；

用*表示前面的\w或者\d出现了0次或者多次；

用？表示前面的\w或者\d出现了0次或者1次；

不加，表示前面的\w或者\d出现了1次。

例如：news用\w+表示；

将http://news.sina.com.cn/c/2014-01-01/185330964877.shtml，

抽象为:http://\w+.sina.com.cn/\w+/\d+-\d+-\d+/\d+.shtml；

然后对URL正则表达式进行学习获得该待采集网站的新URL规则，作为或者更新为该待采集网站的URL规则；按照该待采集网站的URL规则，输出大于等于页面比例20％的URL，作为需要采集的URL，记录该需要采集的URL为记录B，并进入步骤007；

步骤007.若该待采集网站存在历史全量URL记录，则记录合并步骤001中获得的该待采集网站的全量URL，更新该待采集网站的历史全量URL记录；若该待采集网站不存在历史全量URL记录，则记录步骤001中获得的该待采集网站的全量URL，建立该待采集网站的历史全量URL记录；

操作执行本步骤007时，此时由上述操作执行过程会获得三种不同组合记录中其中一种，这三种不同组合记录分别是：记录B和记录D为一组；记录A和记录C为一组；记录B和记录C为一种；

因此得到上述三种不同组合记录中的其中一种时，若包括记录C，则针对记录C，根据该待采集网站的URL规则，输出需要采集的URL，记录该需要采集的URL为记录E，进入步骤008；若包括记录D，则针对记录D，根据该待采集网站的URL规则，输出需要采集的URL，记录该需要采集的URL为记录E，进入步骤008；

本发明设计的WEB页面信息感知采集方法，通过页面中URL比例分析和自动感知学习机制进行信息采集，能够有效避免由人工定制站点URL规则带来信息丢失风险，大大减少了大量站点脚本定制工作量和维护成本，克服了网站改版后无法采集信息的困扰，并且通过智能增量合并，智能生成URL规则，有效保证了页面感知获得采集URL的准确性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种WEB页面信息感知采集方法，其特征在于，包括如下步骤：

步骤004.根据正则表达式的规则，将步骤001中获得的该待采集网站的全量URL抽象为URL正则表达式，并对URL正则表达式进行学习获得该待采集网站的新URL规则，作为或者更新为该待采集网站的URL规则；按照该待采集网站的URL规则，输出大于等于预设页面比例阈值，作为需要采集的URL，记录该需要采集的URL为记录B，并进入步骤007；

2.根据权利要求1所述一种WEB页面信息感知采集方法，其特征在于：所述步骤001中的所述非帖子信息包括CSS、JS、图片、音频或视频信息。

3.根据权利要求1所述一种WEB页面信息感知采集方法，其特征在于：所述步骤004中，将步骤001中获得的该待采集网站的全量URL通过如下规则抽象为URL正则表达式：

用\w代表字母[A-Za-z0-9],\d代表[0-9]；

后面跟着用前面字符的次数，来确定适配规则；

用+表示前面的\w或者\d出现了1次或者多次；

用*表示前面的\w或者\d出现了0次或者多次；

用？表示前面的\w或者\d出现了0次或者1次；

不加，表示前面的\w或者\d出现了1次。

4.根据权利要求1所述一种WEB页面信息感知采集方法，其特征在于：所述预设页面比例阈值为页面比例15％—25％。

5.根据权利要求4所述一种WEB页面信息感知采集方法，其特征在于：所述预设页面比例阈值为页面比例20％。