CN106776787A

CN106776787A - 一种对互联网数据进行采集的方法

Info

Publication number: CN106776787A
Application number: CN201611044724.1A
Authority: CN
Inventors: 王利鑫; 王洪添
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-05-31

Abstract

本发明公开了一种对互联网数据进行采集的方法，其实现过程为：首先爬取url队列，为web爬虫提供需要抽取数据的网站url地址，即将需要抽取数据的网站url存入爬取url队列中；web爬虫从爬取url队列中获取需要抽取数据的网站的url信息；web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息；web爬虫把抽取到的数据写入数据库中；设计数据处理模块，通过该数据处理模块对数据库中的数据进行处理。该对互联网数据进行采集的方法与现有技术相比，通过链接过滤、数据排重和整合的数据处理方式，将数据进行处理，剔除重复的数据，避免重复抓取，数据相互之间整合匹配度高，从而更好的满足用户需求，实用性强，适用范围广泛，易于推广。

Description

一种对互联网数据进行采集的方法

技术领域

本发明涉及计算机应用技术领域，具体地说是一种实用性强、对互联网数据进行采集的方法。

背景技术

大数据指通过一般的软件工具无法获取管理和分析的大批量数据。当前时代已进入大数据时代，与互联网的发明一样，引发了一场新的信息技术领域的浪潮。通过大数据能够帮助行业分析，为企业带来新的商业价值与机会，同时也为企业的IT系统提出了挑战。而要获取来自互联网的数据，就必须开发一种数据采集服务方法并提供相应的技术支持。

互联网网页数据具有分布广、格式多样、非结构化等大数据的特点，因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程，一般通过网络爬虫抓取，但是现有的抓取过程中经常会出现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况，基于此，现提供一种对互联网数据进行采集的方法，通过分析从网页中抽取出用户需要的数据内容，并对抽取出来的数据内容通过内容和格式的转换和加工处理，存储用以满足用户的需求。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、对互联网数据进行采集的方法。

一种对互联网数据进行采集的方法，其实现过程为：

首先爬取url队列，为web爬虫提供需要抽取数据的网站url地址，即将需要抽取数据的网站url存入爬取url队列中；

web爬虫从爬取url队列中获取需要抽取数据的网站的url信息；

web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息；

web爬虫把抽取到的数据写入数据库中；

设计数据处理模块，通过该数据处理模块对数据库中的数据进行处理。

Web爬虫依据用户事前配置好的规则进行数据采集工作，该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

数据处理模块对数据进行处理的过程包括：

链接过滤，判断当前链接是否在已经抓取过的链接集合里；

数据排重，排重即排除掉重复项，网页排重通过比较两个页面之间的相似度来排除重复项；

数据整合，将采集到的数据通过关键字建立对应关系，即关键字之间的匹配。

链接过滤的具体实现过程为：对于每一个抓取过的url，通过i个hash函数计算，得到i个值，然后与一个bit数组的i个位置的元素相互对应，在判断某个url是否被抓取过时，首先用i个hash函数对该url计算得到i个值，再查询大型的bit数组内的i个位置的值，若全为1说明已经被抓取过，否则为未抓取过。

数据排重通过以下算法实现：输入一个N维向量V，输出一个C位的二进制签名S；初始化一个C维向量Q为零，C位的二进制签名S为零；对向量V中的每一个特征用Hash算法得到一个C位的散列值H；若H第i位是1，则Q的第i个元素加该元素的权重，否则，减去该元素的权重；若Q的第i个元素大于0，则S的第i位为l否则为0；返回签名S；通过计算并判断两个签名的海明距离，小于3则可认为相似度比较高。

数据整合就是将处理后的网页内容用一组关键字进行描述，这些关键字可以使用该网页使用频率最高的若干个词汇，经过关键字处理后进行匹配达到数据整合的目的。

本发明的一种对互联网数据进行采集的方法，具有以下优点：

本发明提供的一种对互联网数据进行采集的方法，在正常爬取网络数据时，通过链接过滤、数据排重和整合的数据处理方式，将数据进行处理，剔除重复的数据，避免重复抓取，数据相互之间整合匹配度高，从而更好的满足用户需求，实用性强，适用范围广泛，易于推广。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明的一种对互联网数据进行采集的方法，首先依据用户事前配置好的规则进行数据采集工作，包括网页下载规则和网页解析规则以及内容抽取规则等。

在本发明中，互联网网页大数据采集和处理的过程主要包括4个方面内容：

1）web爬虫。从网络中抓取页面内容，从中抽取需要的数据内容。

2）数据处理。对web爬虫抽取的内容进行处理。

3）爬取url队列。为web爬虫提供需要抽取数据的网站url地址。

4）数据。数据包含三个方面：①需要抓取的数据网站的url信息、②web从网页中抽取出来的数据、③经过数据处理的数据。

整个互联网页面数据采集和处理的流程如下：

将需要抽取数据的网站url存入爬取url队列中。

web爬虫从爬取url队列中获取需要抽取数据的网站的url信息。

web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息。

web爬虫把抽取到的数据写入数据库中。

数据处理模块对数据库中的数据进行清理处理。

上述数据处理过程中，需要进行以下操作：

链接过滤。实质是判断当前链接是否在已经抓取过的链接集合里。在对网页的大数据采集过程中，可通过布隆过滤器实现对链接的过滤操作。

数据排重。排重即排除掉重复项的过程，网页排重可以通过比较两个页面之间的相似度来排除重复项。

数据整合。就是将采集到的数据通过某组关键字建立对应关系。实质是关键字之间的匹配。

更加具体的，上述三种处理操作为：

链接过滤。其实质是判断当前链接是否在已经抓取过的链接集合里。在对网页的大数据采集过程中，通过过滤器实现对链接的过滤操作。

具体方法是，对于每一个抓取过的url，通过i个hash函数计算，得到i个值，然后与一个大型bit数组的这i个位置的元素相互对应，在判断某个url是否被抓取过时，首先用i个hash函数对这个url计算得到i个值，再查询大型的bit数组内的这i个位置的值，若全为1说明已经被抓取过，否则为未抓取过。

数据排重。排重是排除掉重复项的过程，网页排重通过比较两个页面之间的相似度来排除重复项。采用以下算法，提高排重效率，系统可以容纳更多的数据量。

思路如下：输入为一个N维向量V，输出是一个C位的二进制签名S。初始化一个C维向量Q为零，C位的位二进制签名S为零。对向量V中的每一个特征用Hash算法得到一个C位的散列值H。若H第i位是1，则Q的第i个元素加该元素的权重，否则，减去该元素的权重。若Q的第i个元素大于0，则S的第i位为l否则为0。返回签名S。通过计算并判断两个签名的海明距离，小于3则可认为相似度比较高。

数据整合。就是将采集到的数据通过某组关键字建立对应关系。其实质是关键字之间的匹配。将处理后的网页内容用一组关键字进行描述，这些关键字可以使用该网页使用频率最高的若干个词汇。经过关键字处理后进行匹配达到数据整合的目的。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种对互联网数据进行采集的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种对互联网数据进行采集的方法，其特征在于，其实现过程为：

web爬虫从爬取url队列中获取需要抽取数据的网站的url信息；

web爬虫把抽取到的数据写入数据库中；

2.根据权利要求1所述的一种对互联网数据进行采集的方法，其特征在于，Web爬虫依据用户事前配置好的规则进行数据采集工作，该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

3.根据权利要求1所述的一种对互联网数据进行采集的方法，其特征在于，数据处理模块对数据进行处理的过程包括：

链接过滤，判断当前链接是否在已经抓取过的链接集合里；

4.根据权利要求3所述的一种对互联网数据进行采集的方法，其特征在于，链接过滤的具体实现过程为：对于每一个抓取过的url，通过i个hash函数计算，得到i个值，然后与一个bit数组的i个位置的元素相互对应，在判断某个url是否被抓取过时，首先用i个hash函数对该url计算得到i个值，再查询大型的bit数组内的i个位置的值，若全为1说明已经被抓取过，否则为未抓取过。

5.根据权利要求3所述的一种对互联网数据进行采集的方法，其特征在于，数据排重通过以下算法实现：输入一个N维向量V，输出一个C位的二进制签名S；初始化一个C维向量Q为零，C位的二进制签名S为零；对向量V中的每一个特征用Hash算法得到一个C位的散列值H；若H第i位是1，则Q的第i个元素加该元素的权重，否则，减去该元素的权重；若Q的第i个元素大于0，则S的第i位为l否则为0；返回签名S；通过计算并判断两个签名的海明距离，小于3则可认为相似度比较高。

6.根据权利要求3所述的一种对互联网数据进行采集的方法，其特征在于，数据整合就是将处理后的网页内容用一组关键字进行描述，这些关键字可以使用该网页使用频率最高的若干个词汇，经过关键字处理后进行匹配达到数据整合的目的。