CN109543103A - 一种基于分布式数据收集的方法 - Google Patents
一种基于分布式数据收集的方法 Download PDFInfo
- Publication number
- CN109543103A CN109543103A CN201811354401.1A CN201811354401A CN109543103A CN 109543103 A CN109543103 A CN 109543103A CN 201811354401 A CN201811354401 A CN 201811354401A CN 109543103 A CN109543103 A CN 109543103A
- Authority
- CN
- China
- Prior art keywords
- data
- internet site
- internet
- website
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013480 data collection Methods 0.000 title claims abstract description 14
- 238000007405 data analysis Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims description 4
- 230000006855 networking Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013481 data capture Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于分布式数据收集的方法,包括:收集数据来源的互联网网站信息,并对互联网网站信息进行整理,得到各个互联网网站的特性;调研各个互联网网站的特性并对互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;根据配置界面以及数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。本发明分别对不同类型的互联网网站进行处理,便于后期的同类型网站进行扩展,能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取,为之后的舆论大数据分析提供最基础的数据依据。
Description
技术领域
本发明涉及互联网大数据采集技术领域,更具体的说是涉及一种基于分布式数据收集的方法。
背景技术
当前是一个互联网的时代,互联网深入到了人们的日常生活中,日常消费、生活习惯、个人爱好都在互联网中留下了各种痕迹和数据,这样就造成互联网上留下了海量的待发掘的消费数据。对这些数据的分析和挖掘,获取其中的关键业务信息,是至关重要的。
因此,如何提供一种高效、全面的数据收集方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于分布式数据收集的方法,能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取,为之后的舆论大数据分析提供最基础的数据依据。
为了实现上述目的,本发明采用如下技术方案:
一种基于分布式数据收集的方法,包括以下步骤:
S1:收集数据来源的互联网网站信息,并对所述互联网网站信息进行整理,得到各个互联网网站的特性;
S2:调研各个所述互联网网站的特性并对所述互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;
S3:根据所述配置界面以及所述数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。
进一步的,步骤S1具体包括以下步骤:
S11:根据业务需求,获得所述互联网网站信息;
S12:整理所述互联网网站信息,包括网站格式、数据展示形式和搜索方式;
S13:根据整理后的所述互联网网站信息,配置网站基础信息配置,得到各个所述互联网网站的特性。
进一步的,步骤S2具体包括以下步骤:
S21:调研所述互联网网站的特性,包括各个互联网网站信息的特性、对业务数据的重要性以及业务对互联网网站中被抓取数据所需要的及时性;
S22:根据不同的互联网网站特性对互联网网站进行分类,得到不同类型的互联网网站;
S23:对所述不同类型的互联网网站,设定不同的配置界面以及抓取渠道,其中,所述配置界面的服务信息为种子URL、抓取频率、抓取关键字、网站用户名、网站密码、网站类型、网站的解析格式、网站的抓取层级数和网站抓取的页面数。
进一步的,在步骤S23之后还包括S24:对所述配置界面的配置权限进行管理。
进一步的,步骤S3具体包括以下步骤:
对所述互联网数据进行数据抓取、数据分析和数据治理;
其中,通过分布式架构、多进程、多线程调用和服务器集群的方式进行所述数据抓取;
所述数据分析采用分布式数据计算、分布式实时流式处理框架;
所述数据治理包括数据解析、数据过滤以及数据去重。
进一步的,在所述数据抓取过程中,将所述服务信息设置为通过网页配置的动态调整。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于分布式数据收集的方法,分别对不同类型的互联网网站进行处理,便于后期的同类型网站进行扩展,能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取,为之后的舆论大数据分析提供最基础的数据依据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种基于分布式数据收集方法的流程示意图。
图2附图为本发明提供的具体实施例方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于分布式数据收集的方法,如图1所示,包括以下步骤:
S1:收集数据来源的互联网网站信息,并对互联网网站信息进行整理,得到各个互联网网站的特性;具体为:
S11:根据业务需求,获得互联网网站信息;
S12:整理互联网网站信息,包括网站格式、数据展示形式和搜索方式;
S13:根据整理后的互联网网站信息,配置网站基础信息配置,得到各个互联网网站的特性。
S2:调研各个互联网网站的特性,获得各个互联网网站的配置界面以及数据抓取渠道;具体为:
S21:调研互联网网站的特性,包括各个互联网网站信息的特性、对业务数据的重要性以及数据所需的及时性,便于后期对网站的特性设定相关的依据;
S22:根据不同的互联网网站特性对互联网网站进行分类,得到不同类型的互联网网站,比如新闻类型、论坛类型、社交类型、电商类型等,如图2所示;
S23:对于不同类的互联网网站,设定不同的配置界面以及抓取渠道,对于同一类的互联网网站设定相同的配置界面,便于后期的同类型网站进行扩展。其中,配置界面的服务信息为种子URL、抓取频率、抓取关键字、网站用户名、网站密码、网站类型、网站的解析格式、网站的抓取层级数和网站抓取的页面数,对于数据的爬取时间范围、爬取的种子URL、爬取的网页层次等能够做到合理管控。
根据不同的网站类型设定不同的抓取渠道,便于后期由于项目的需求对相同特性的网站的抓取特性进行扩展。具体优点为:
对网站的类型和特性进行管理,设定不同的抓取渠道,进行数据分类;
保障同一类型的网站数据抓取的全面性和及时性;
通过网站、数据分类,提高业务网站管理效率,兼容同一类型的网站,减少工程的复杂度;
为了保障抓取的性能,对不同的网站类型部署不同的服务,一是便于相同类型的参数进行调整,一是避免不同渠道的数据采集互相影响。
S24:对配置界面的配置权限进行管理,对每个互联网网站的配置和修改进行权限控制,保证业务隐私以及网站爬取的稳定性。
S3:根据配置界面以及数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储。需要说明的是,此处的互联网数据是指各个互联网网站页面展示的数据,具体为:
S31:对互联网数据进行数据抓取、数据分析和数据治理;
其中,通过分布式架构、多进程、多线程调用和服务器集群的方式进行数据抓取,提高数据抓取的效率和保障数据的完整性;在数据抓取过程中,将配置界面中的服务信息设置为可通过网页配置的动态调整。动态调整是指在不停服务的前提条件之下,不需要重新部署,可以达到修改数据采集规则,调整采集频率等诉求,因为互联网网站的内容排版变更较频繁,需要时刻根据变化后的网站,实时调整对应的数据抓取服务,满足各类客户的所有诉求,客户可以根据对每个网站的关注度、数据的重要性等都可以做适当的调整和配置,将数据采集的功能最大化体现出来。
数据分析采用分布式数据计算、分布式实时流式处理框架,可以快速处理分析大量的数据,及时提供业务价值,并且通过大数据框架,保障各个环节数据的完整性和实时性;
数据治理包括数据解析、数据过滤以及数据去重,其中,不同来源网站的类型,设定不同的数据解析格式,便于后期实时调整;根据业务提供的规则,进行简单的数据采集去重;根据业务提供的规则,进行数据过滤。
S32:对数据做数据量、抓取时间、数据唯一标示等处理,方便日后能够直接定位到相应的数据,快速的提高了业务数据校验、问题定位和发掘商业价值。
S33:将各个网站处理的互联网数据推送给分布式消息存储,为后期的数据分析提供基础数据分析,互联网数据经过数据采集,数据处理和数据分类后形成统一格式的标准数据,为客户提供分析使用的数据源。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于分布式数据收集的方法,其特征在于,包括以下步骤:
S1:收集数据来源的互联网网站信息,并对所述互联网网站信息进行整理,得到各个互联网网站的特性;
S2:调研各个所述互联网网站的特性并对所述互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;
S3:根据所述配置界面以及所述数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。
2.根据权利要求1所述的一种基于分布式数据收集的方法,其特征在于,步骤S1具体包括以下步骤:
S11:根据业务需求,获得所述互联网网站信息;
S12:整理所述互联网网站信息,包括网站格式、数据展示形式和搜索方式;
S13:根据整理后的互联网网站信息,配置网站基础信息配置,得到各个所述互联网网站的特性。
3.根据权利要求2所述的一种基于分布式数据收集的方法,其特征在于,步骤S2具体包括以下步骤:
S21:调研所述互联网网站的特性,包括各个互联网网站信息的特性、对业务数据的重要性以及业务对互联网网站中被抓取数据所需要的及时性;
S22:根据不同的所述互联网网站的特性对所述互联网网站进行分类,得到不同类型的互联网网站;
S23:对所述不同类型的互联网网站,设定不同的配置界面以及抓取渠道,其中,所述配置界面的服务信息为种子URL、抓取频率、抓取关键字、网站用户名、网站密码、网站类型、网站的解析格式、网站的抓取层级数和网站抓取的页面数。
4.根据权利要求3所述的一种基于分布式数据收集的方法,其特征在于,在步骤S23之后还包括S24:对所述配置界面的配置权限进行管理。
5.根据权利要求4所述的一种基于分布式数据收集的方法,其特征在于,步骤S3具体包括以下步骤:
对所述互联网数据进行数据抓取、数据分析和数据治理;
其中,通过分布式架构、多进程、多线程调用和服务器集群的方式进行所述数据抓取;
所述数据分析采用分布式数据计算、分布式实时流式处理框架;
所述数据治理包括数据解析、数据过滤以及数据去重。
6.根据权利要求5所述的一种基于分布式数据收集的方法,其特征在于,在所述数据抓取过程中,将所述服务信息设置为通过网页配置的动态调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811354401.1A CN109543103A (zh) | 2018-11-14 | 2018-11-14 | 一种基于分布式数据收集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811354401.1A CN109543103A (zh) | 2018-11-14 | 2018-11-14 | 一种基于分布式数据收集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543103A true CN109543103A (zh) | 2019-03-29 |
Family
ID=65847429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811354401.1A Pending CN109543103A (zh) | 2018-11-14 | 2018-11-14 | 一种基于分布式数据收集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543103A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581301A (zh) * | 2020-05-11 | 2020-08-25 | 创智汇(苏州)电子商务有限公司 | 基于分布式数据流的大数据分类系统及其算法 |
CN112559480A (zh) * | 2020-07-08 | 2021-03-26 | 北京德风新征程科技有限公司 | 一种并行计算场景下分布式数据集合计算方法和系统 |
CN113934913A (zh) * | 2021-11-12 | 2022-01-14 | 盐城金堤科技有限公司 | 数据抓取方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070405A (ja) * | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
CN102945270A (zh) * | 2012-10-30 | 2013-02-27 | 北京腾逸科技发展有限公司 | 并行化分布式网络舆情数据管理方法及系统 |
CN104951512A (zh) * | 2015-05-27 | 2015-09-30 | 中国科学院信息工程研究所 | 一种基于互联网的舆情数据采集方法及系统 |
-
2018
- 2018-11-14 CN CN201811354401.1A patent/CN109543103A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070405A (ja) * | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
CN102945270A (zh) * | 2012-10-30 | 2013-02-27 | 北京腾逸科技发展有限公司 | 并行化分布式网络舆情数据管理方法及系统 |
CN104951512A (zh) * | 2015-05-27 | 2015-09-30 | 中国科学院信息工程研究所 | 一种基于互联网的舆情数据采集方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581301A (zh) * | 2020-05-11 | 2020-08-25 | 创智汇(苏州)电子商务有限公司 | 基于分布式数据流的大数据分类系统及其算法 |
CN112559480A (zh) * | 2020-07-08 | 2021-03-26 | 北京德风新征程科技有限公司 | 一种并行计算场景下分布式数据集合计算方法和系统 |
CN113934913A (zh) * | 2021-11-12 | 2022-01-14 | 盐城金堤科技有限公司 | 数据抓取方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101834846B (zh) | 一种未成年人健康网站认证系统及其认证方法 | |
CN109543103A (zh) | 一种基于分布式数据收集的方法 | |
US10455013B2 (en) | Peer-to-peer upload scheduling | |
DE112012001557B4 (de) | Voraussagende Platzierung von Inhalt durch Netzwerkanalyse | |
Scellato et al. | Distance matters: geo-social metrics for online social networks | |
EP2698967A1 (en) | Social network data mining method for terminal user, and relevant method, device and system | |
CN101561825A (zh) | 媒体技术平台系统、数据采集系统和网络内容提供方法 | |
CN103744856B (zh) | 联动性扩展搜索方法及装置、系统 | |
US20090106228A1 (en) | Method and apparatus for providing a user traffic weighted search | |
CN102970348B (zh) | 网络应用推送方法、系统和网络应用服务器 | |
EP2830283A1 (en) | User behavior analysis method, and related equipment and system | |
US20130311283A1 (en) | Data mining method for social network of terminal user and related methods, apparatuses and systems | |
Wang et al. | Understanding the development and diffusion of mobile commerce technologies in China: A biographical study with an actor-network theory perspective | |
US20230418847A1 (en) | Methods and Systems for Querying Data Within a Geographical Boundary Using a Query Tool | |
CN105122280A (zh) | 用于提供联系人相关信息项的装置和方法 | |
Li et al. | Cellular smartphone traffic and user behavior analysis | |
US20120158796A1 (en) | Method, apparatus and system for generating bookmarks | |
CN107370628A (zh) | 基于埋点的日志处理方法及系统 | |
CN201414134Y (zh) | 媒体技术平台系统和数据采集系统 | |
CN105989167A (zh) | 基于新闻客户端的数据采集方法及装置 | |
CN105049456B (zh) | 一种基于网页链接请求的隐秘通信方法 | |
Butts et al. | Change and external events in computer-mediated citation networks: English language weblogs and the 2004 US electoral cycle | |
CN106656655A (zh) | 一种手机号码提取方法和装置 | |
CN104008190B (zh) | 一种爬虫系统及其方法 | |
CN105162780A (zh) | 一种url过滤地址设置方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |