CN103902667A

CN103902667A - 一种基于元搜索的网络信息采集器简单实现方法

Info

Publication number: CN103902667A
Application number: CN201410092387.8A
Authority: CN
Inventors: 刘粉粉
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2014-07-02

Abstract

本发明提供一种基于元搜索的网络信息采集器简单实现方法，集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块。能及时发现最新信息，提供给用户用作分析的基础数据源。

Description

一种基于元搜索的网络信息采集器简单实现方法

技术领域

本发明是一种基于元搜索的网络信息采集器简单实现方法，通常适于用企业或者政府单位在网络上搜索相关的新闻信息，通过对数据的分析得到决策性的结果。

背景技术

现在的网络信息采集系统大多采用直接对网站进行采集的方式，实现不仅复杂，而且由于网站模块的不同，ulr的频繁变化，需要不断的对采集的采集网站的url进行监控维护；而且采集的范围也有限，对采集系统的负载要求也较高，降低了采集效率。

元搜索引擎就是对多个搜索引擎的整合、调用、控制和优化利用，简单的说，就是通过一站式的搜索，将输入的关键词在多个搜索引擎的查询结果统一返回，用户只需要通过一次搜索就可以看到多个搜索引擎的搜索结果，较好的解决了单个搜索引擎覆盖范围窄的问题。

目前，基于元搜索的采集实现都非常的复杂，实际使用时实现非常的复杂，没有一个简单的统一的方法。

发明内容

本发明就是实现一种基于元搜索的网络信息采集器简单实现方法，能够根据此方法快速高效的实现一个元搜索采集器。

集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块。

生成采集起始URL模块对每个搜索引擎的搜索采集任务都设置为是一个爬虫任务，每个爬虫任务对应一个配置文件，配置文件中配置：搜索URL的中文字符编码格式，搜索页的其实页码，每页返回的搜索结果的数据，翻页时页码的增长的步长，该搜索引擎返回结果的总数，结果列表页的编码格式，URL语法格式，抽取结果列表页抽取规则。根据每个搜索引擎的不同的URL语法格式，将中文关键词进行对应的编码，在填充入其中的参数值，就构造出了每个搜索引擎对应的采集起始URL。

模拟浏览器行为模块实现网页采集反屏蔽，通过如下方法：对采集任务间隔进行控制，固定间隔加上随机间隔；构造代理头池和IP池，每次爬取网页时，随机切换一个userAgent和IP。

网页去重采用 REDIS 内存数据库来存储已下载的 URL，通过REDIS的set数据结构构造一个URL非重复队列，排除URL重复，如URL重复则不对网页再次进行下载。

网页正文抽模块，可设置不同的规则对不同的网站的网页进行正文抽取，并且过滤掉垃圾信息。该模块还可以将抽取到的网页中的链接继续进行采集，实现多层的采集。

本发明可实现一种简单的基于元搜索的通用采集器，集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据。

附图说明

附图1为本发明中的实现流程示意图。

具体实施方式

参照附图1，一种基于元搜索的网络信息采集器实现方法流程如下：

（1）首先，通过生成采集起始URL模块（1）读取配置文件中的关键词、搜索属性，生成URL。

关键词配置文件可采用txt、excel、xml格式，举例如下：

Figure 2014100923878100002DEST_PATH_IMAGE001

搜索属性配置文件可采用txt、xml格式，举例如下

Figure 2014100923878100002DEST_PATH_IMAGE003

（2）模拟浏览器行为模块（2）对采集任务间隔进行控制，构造代理头池和IP池实现网页访问的反屏蔽。

（3）如果要进行采集下载的URL是初始URL，则下面的操作是向各搜索引擎发出搜索请求并下载搜索结果列表页，则执行搜索结果列表页下载并结构化信息提取模块（3）；否则的话，则是对从正文中提取的链接进行采集，无需再经过向搜索引擎发出搜索请求的操作，直接进入网页去重模块（4）。

（4）然后搜索结果列表页下载并结构化信息提取模块（3）将采用模拟浏览器行为的方式通过不同搜索引擎进行搜索，并下载搜索到的结果列表页，然后进行结构化信息（标题、来源、发布时间、摘要、URL）提取。

（5）网页去重模块（4）将对所有搜索引擎返回的搜索结果中提取的URL进行是否重复检查，如果URL无重复，则对网页进行下载；否则，只计算每个URL的重复次数。

（6） URL去重后，网页正文抽模块（5）将每个搜索结果根据URL进行下载并且提取其正文。

（7）将搜索结果列表页下载并结构化信息提取模块（3）结构化的信息和网页正文抽模块（5）提取的正文保存到数据中。

（8）网页正文抽模块（5）若对提取的正文中的超链接继续进行采集，需返回到（2）步骤继续进行。

Claims

1.一种基于元搜索的网络信息采集器简单实现方法，其特征在于集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块；

生成采集起始URL模块生成搜索引擎搜索URL；

模拟浏览器行为模块将访问网站行为伪装成浏览器的行为，实现采集的反屏蔽；

搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息（标题、来源、发布时间、摘要、URL）提取；

网页去重将提取到的搜索结果的URL进行去重，避免相同网站进行重复下载；

网页正文抽模块下载并提取搜索结果的正文，将正文以及模块结构化的信息存储到数据库中。

2.根据权利要求1所述的方法，其特征在于所述生成采集起始URL模块，可支持若干的主流搜索引擎，对同样的关键词进行并行搜索。

3.根据权利要求1所述的方法，其特征在于所述的模拟浏览器行为模块，可通过不同的手段实现模拟浏览器行为，包括：对采集任务间隔进行控制，固定间隔加上随机间隔；够着代池和IP池，随机切换userAgent和IP。

4.根据权利要求1所述的方法，其特征在于所述的网页去重，可通过内存数据库实现url的去重，并可计算某个网页的重复次数，为计算网页重要程度提供数据。

5.根据权利要求1所述的方法，其特征在于所述的网页正文抽模块，可设置不同的规则对不同的网站的网页进行正文抽取，并且过滤掉垃圾信息；该模块还可以将抽取到的网页中的链接继续进行采集，实现多层的采集。

6.根据权利要求1所述的方法，其特征在于所述的网页正文抽模块，可设置不同的规则对不同的网站的网页进行正文抽取，并且过滤掉垃圾信息；该模块还可以将抽取到的网页中的链接继续进行采集，实现多层的采集。