CN106776787A - 一种对互联网数据进行采集的方法 - Google Patents
一种对互联网数据进行采集的方法 Download PDFInfo
- Publication number
- CN106776787A CN106776787A CN201611044724.1A CN201611044724A CN106776787A CN 106776787 A CN106776787 A CN 106776787A CN 201611044724 A CN201611044724 A CN 201611044724A CN 106776787 A CN106776787 A CN 106776787A
- Authority
- CN
- China
- Prior art keywords
- data
- url
- acquired
- web crawler
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种对互联网数据进行采集的方法,其实现过程为:首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;web爬虫把抽取到的数据写入数据库中;设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。该对互联网数据进行采集的方法与现有技术相比,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。
Description
技术领域
本发明涉及计算机应用技术领域,具体地说是一种实用性强、对互联网数据进行采集的方法。
背景技术
大数据指通过一般的软件工具无法获取管理和分析的大批量数据。当前时代已进入大数据时代,与互联网的发明一样,引发了一场新的信息技术领域的浪潮。通过大数据能够帮助行业分析,为企业带来新的商业价值与机会,同时也为企业的IT系统提出了挑战。而要获取来自互联网的数据,就必须开发一种数据采集服务方法并提供相应的技术支持。
互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经常会出现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供一种对互联网数据进行采集的方法,通过分析从网页中抽取出用户需要的数据内容,并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、对互联网数据进行采集的方法。
一种对互联网数据进行采集的方法,其实现过程为:
首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;
web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;
web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;
web爬虫把抽取到的数据写入数据库中;
设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。
Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。
数据处理模块对数据进行处理的过程包括:
链接过滤,判断当前链接是否在已经抓取过的链接集合里;
数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;
数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。
链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。
数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。
数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。
本发明的一种对互联网数据进行采集的方法,具有以下优点:
本发明提供的一种对互联网数据进行采集的方法,在正常爬取网络数据时,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明的一种对互联网数据进行采集的方法,首先依据用户事前配置好的规则进行数据采集工作,包括网页下载规则和网页解析规则以及内容抽取规则等。
在本发明中,互联网网页大数据采集和处理的过程主要包括4个方面内容:
1)web爬虫。从网络中抓取页面内容,从中抽取需要的数据内容。
2)数据处理。对web爬虫抽取的内容进行处理。
3)爬取url队列。为web爬虫提供需要抽取数据的网站url地址。
4)数据。数据包含三个方面:①需要抓取的数据网站的url信息、②web从网页中抽取出来的数据、③经过数据处理的数据。
整个互联网页面数据采集和处理的流程如下:
将需要抽取数据的网站url存入爬取url队列中。
web爬虫从爬取url队列中获取需要抽取数据的网站的url信息。
web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息。
web爬虫把抽取到的数据写入数据库中。
数据处理模块对数据库中的数据进行清理处理。
上述数据处理过程中,需要进行以下操作:
链接过滤。实质是判断当前链接是否在已经抓取过的链接集合里。在对网页的大数据采集过程中,可通过布隆过滤器实现对链接的过滤操作。
数据排重。排重即排除掉重复项的过程,网页排重可以通过比较两个页面之间的相似度来排除重复项。
数据整合。就是将采集到的数据通过某组关键字建立对应关系。实质是关键字之间的匹配。
更加具体的,上述三种处理操作为:
链接过滤。其实质是判断当前链接是否在已经抓取过的链接集合里。在对网页的大数据采集过程中,通过过滤器实现对链接的过滤操作。
具体方法是,对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个大型bit数组的这i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对这个url计算得到i个值,再查询大型的bit数组内的这i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。
数据排重。排重是排除掉重复项的过程,网页排重通过比较两个页面之间的相似度来排除重复项。采用以下算法,提高排重效率,系统可以容纳更多的数据量。
思路如下:输入为一个N维向量V,输出是一个C位的二进制签名S。初始化一个C维向量Q为零,C位的位二进制签名S为零。对向量V中的每一个特征用Hash算法得到一个C位的散列值H。若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重。若Q的第i个元素大于0,则S的第i位为l否则为0。返回签名S。通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。
数据整合。就是将采集到的数据通过某组关键字建立对应关系。其实质是关键字之间的匹配。将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇。经过关键字处理后进行匹配达到数据整合的目的。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种对互联网数据进行采集的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (6)
1.一种对互联网数据进行采集的方法,其特征在于,其实现过程为:
首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;
web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;
web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;
web爬虫把抽取到的数据写入数据库中;
设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。
2.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。
3.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,数据处理模块对数据进行处理的过程包括:
链接过滤,判断当前链接是否在已经抓取过的链接集合里;
数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;
数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。
4.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。
5.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。
6.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611044724.1A CN106776787A (zh) | 2016-11-24 | 2016-11-24 | 一种对互联网数据进行采集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611044724.1A CN106776787A (zh) | 2016-11-24 | 2016-11-24 | 一种对互联网数据进行采集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106776787A true CN106776787A (zh) | 2017-05-31 |
Family
ID=58975228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611044724.1A Pending CN106776787A (zh) | 2016-11-24 | 2016-11-24 | 一种对互联网数据进行采集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776787A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597952A (zh) * | 2018-12-10 | 2019-04-09 | 江苏满运软件科技有限公司 | 网页信息处理方法、系统、电子设备和存储介质 |
CN109657462A (zh) * | 2018-12-06 | 2019-04-19 | 江苏满运软件科技有限公司 | 数据检测方法、系统、电子设备和存储介质 |
CN109918428A (zh) * | 2019-01-17 | 2019-06-21 | 重庆金融资产交易所有限责任公司 | 网页数据解析方法、装置及计算机可读存储介质 |
CN110096666A (zh) * | 2019-05-08 | 2019-08-06 | 上海泰豪迈能能源科技有限公司 | 数据处理的方法及装置 |
CN110674427A (zh) * | 2019-09-20 | 2020-01-10 | 北京达佳互联信息技术有限公司 | 响应网页访问请求的方法、装置、设备及存储介质 |
CN111881404A (zh) * | 2020-08-05 | 2020-11-03 | 广州裕睿信息科技有限公司 | 配置化数据采集方法、装置和系统 |
CN112256802A (zh) * | 2020-10-20 | 2021-01-22 | 威海上和软件科技有限公司 | 一种海洋微生物信息的自动采集方法和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258261A1 (en) * | 2013-03-11 | 2014-09-11 | Xerox Corporation | Language-oriented focused crawling using transliteration based meta-features |
CN104978408A (zh) * | 2015-08-05 | 2015-10-14 | 许昌学院 | 基于Berkeley DB数据库的主题爬虫系统 |
CN105608134A (zh) * | 2015-12-18 | 2016-05-25 | 盐城工学院 | 一种基于多线程的网络爬虫系统及其网页爬取方法 |
-
2016
- 2016-11-24 CN CN201611044724.1A patent/CN106776787A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258261A1 (en) * | 2013-03-11 | 2014-09-11 | Xerox Corporation | Language-oriented focused crawling using transliteration based meta-features |
CN104978408A (zh) * | 2015-08-05 | 2015-10-14 | 许昌学院 | 基于Berkeley DB数据库的主题爬虫系统 |
CN105608134A (zh) * | 2015-12-18 | 2016-05-25 | 盐城工学院 | 一种基于多线程的网络爬虫系统及其网页爬取方法 |
Non-Patent Citations (2)
Title |
---|
成功等: "一种网络爬虫系统中URL 去重方法的研究", 《中国新技术新产品》 * |
赵晓永: "《面向云计算的数据存储关键技术研究》", 31 December 2014 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657462A (zh) * | 2018-12-06 | 2019-04-19 | 江苏满运软件科技有限公司 | 数据检测方法、系统、电子设备和存储介质 |
CN109597952A (zh) * | 2018-12-10 | 2019-04-09 | 江苏满运软件科技有限公司 | 网页信息处理方法、系统、电子设备和存储介质 |
CN109918428A (zh) * | 2019-01-17 | 2019-06-21 | 重庆金融资产交易所有限责任公司 | 网页数据解析方法、装置及计算机可读存储介质 |
CN110096666A (zh) * | 2019-05-08 | 2019-08-06 | 上海泰豪迈能能源科技有限公司 | 数据处理的方法及装置 |
CN110674427A (zh) * | 2019-09-20 | 2020-01-10 | 北京达佳互联信息技术有限公司 | 响应网页访问请求的方法、装置、设备及存储介质 |
CN110674427B (zh) * | 2019-09-20 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 响应网页访问请求的方法、装置、设备及存储介质 |
CN111881404A (zh) * | 2020-08-05 | 2020-11-03 | 广州裕睿信息科技有限公司 | 配置化数据采集方法、装置和系统 |
CN112256802A (zh) * | 2020-10-20 | 2021-01-22 | 威海上和软件科技有限公司 | 一种海洋微生物信息的自动采集方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776787A (zh) | 一种对互联网数据进行采集的方法 | |
CN102710795B (zh) | 热点聚合方法及装置 | |
CN105677710A (zh) | 大数据的处理方法和系统 | |
CN105447081A (zh) | 面向云平台的一种政务舆情监控方法 | |
CN101848248B (zh) | 一种规则查找方法和装置 | |
CN102779249A (zh) | 恶意程序检测方法及扫描引擎 | |
CN104112026A (zh) | 一种短信文本分类方法及系统 | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN101763405A (zh) | 基于同义词规则的近似字符串搜索技术 | |
CN108846117A (zh) | 商业快讯的去重筛选方法及装置 | |
CN110874429A (zh) | 面向海量数据采集的分布式网络爬虫性能优化方法 | |
CN106980651A (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN107798106A (zh) | 一种分布式爬虫系统中的url去重方法 | |
CN103605607A (zh) | 一种软件复杂度分析系统及方法 | |
CN112883704B (zh) | 一种大数据相似文本去重预处理方法、装置及终端设备 | |
CN105426407A (zh) | 一种基于内容分析的web数据采集方法 | |
CN103488741A (zh) | 一种基于url的中文多语义名词的在线语义挖掘系统 | |
Hardik et al. | Link analysis of Wikipedia documents using mapreduce | |
CN104408188B (zh) | 数据处理方法和装置 | |
US20150066947A1 (en) | Indexing apparatus and method for search of security monitoring data | |
CN101977251A (zh) | 服务器端网址资源优化装置及其优化方法 | |
CN109657120A (zh) | 一种匹配度高的互联网数据采集方法 | |
CN104462613A (zh) | 热点聚合方法及装置 | |
CN106446039A (zh) | 聚合式大数据查询方法及装置 | |
Wang | Research on the collection method of financial blockchain risk prompt information from sandbox perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |