CN108449375A - 网络互联数据抓取分发的系统和方法 - Google Patents

网络互联数据抓取分发的系统和方法 Download PDF

Info

Publication number
CN108449375A
CN108449375A CN201810092209.3A CN201810092209A CN108449375A CN 108449375 A CN108449375 A CN 108449375A CN 201810092209 A CN201810092209 A CN 201810092209A CN 108449375 A CN108449375 A CN 108449375A
Authority
CN
China
Prior art keywords
data
module
aggregate
network interconnection
grabber
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810092209.3A
Other languages
English (en)
Inventor
朱晓峰
蔡晓华
杨光辉
贺晓麟
王涛
周育樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI NETIS TECHNOLOGIES Co Ltd
Original Assignee
SHANGHAI NETIS TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI NETIS TECHNOLOGIES Co Ltd filed Critical SHANGHAI NETIS TECHNOLOGIES Co Ltd
Priority to CN201810092209.3A priority Critical patent/CN108449375A/zh
Publication of CN108449375A publication Critical patent/CN108449375A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网络互联数据抓取分发的系统和方法,数据接收:从不同的数据来源接收数据;数据处理:包括数据解码阶段以及数据聚合阶段,所述解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;数据存储/分发:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。本发明能够从多种数据来源获取网络互联数据,可以和现有系统更好的结合;按不同解码阶段的数据有不同的索引和存储设置;将数据结构化后的数据按自定义方式发送到后端数据分析应用;可以对数据进行任意维度的聚合;可以查询和处理历史数据。

Description

网络互联数据抓取分发的系统和方法
技术领域
本发明涉及数据处理技术领域,具体地,涉及网络互联数据抓取分发的系统和方法。
背景技术
信息科技高速发展的今天,人们通过互联网不仅仅只是简单的获取信息,移动支付、共享单车使我们的生活发生了翻天覆地的变化,我们生活中的一切都已离不开互联网。网络互联数据已经成为企业和机构重要的数据资源,怎样有效利用这些资源成为企业需要掌握的基本技术。
随着互联网络尤其是移动端的爆发式增长,如何从海量互联数据中获取有价值的数据成为企业的一个难题。
传统网络探针或数据分析技术有如下问题:
1、数据获取方式单一,只能或接收特定格式数据,只能从特定输入获取;
2、对于历史数据访问不友好;
3、不能根据特定场景或需求自定义存储数据类型和时间;
4、实现复杂需要使用专用设备;
5、不能解码后按不同的统计维度和颗粒度分发到后端数据分析引擎。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种网络互联数据抓取分发的系统和方法。
根据本发明提供的一种网络互联数据抓取分发的方法,包括:
数据接收步骤:从不同的数据来源接收数据;
数据处理步骤:包括数据解码阶段以及数据聚合阶段,所述数据解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;
数据存储/分发步骤:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。
较佳的,还包括:
数据清理步骤:根据不同的数据设置不同的清理方式,减少磁盘使用。
较佳的,还包括:
任务调度步骤:对所述数据处理步骤进行调度、启停和管理。
较佳的,还包括:
采用API模块提供对外接口,后端通过所述API模块控制所述数据处理步骤以及所述任务调度步骤。
根据本发明提供的一种网络互联数据抓取分发的系统,包括:
数据接收模块:从不同的数据来源接收数据;
数据处理模块:包括数据解码子模块以及数据聚合子模块,所述数据解码子模块包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合子模块包括根据后端的需求把结构化指标的数据聚合到设定的维度;
数据存储/分发模块:对于数据解码子模块以及数据聚合子模块的数据分别设置存储和索引,按自定义方式将数据发送至后端。
较佳的,还包括:
数据清理模块:根据不同的数据设置不同的清理方式,减少磁盘使用。
较佳的,还包括:
任务调度模块:对所述数据处理模块进行调度、启停和管理。
较佳的,还包括:
API模块:提供对外接口,后端通过所述API模块控制所述数据处理模块以及所述任务调度模块。与现有技术相比,本发明具有如下的有益效果:
1、能够从多种数据来源获取网络互联数据,可以和现有系统更好的结合;
2、按不同处理阶段的数据有不同的索引和存储设置;
3、将数据结构化后的数据按自定义方式发送到后端数据分析应用;
4、可以对数据进行任意维度的聚合;
5、可以查询和处理历史数据。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的系统模块图;
图2为本发明数据抓取和处理流程图;
图3为本发明历史数据抓取和处理流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供的网络互联数据抓取分发的系统包括:
API模块:提供对外接口,通过所述API模块控制数据处理模块以及任务调度模块;
任务调度模块:对数据处理模块进行调度、启停和管理;
数据接收模块:现有系统一般只支持从网卡抓包获取数据,本发明分离出独立的数据接收模块,支持从网络、ipfix、及第三方系统获取数据;
数据处理模块:包括数据解码子模块以及数据聚合子模块,数据解码子模块包括据根据网络协议对原始数据进行解码、计算和整合变为结构化指标的数据,不但可以以更合理的结构进行存储优化,也可以灵活的提供给聚合程序按不同需求的进一步处理。数据聚合子模块包括根据后端的需求把结构化指标的数据按照需要的维度和指标进行聚合,灵活的维度和指标定义使后端程序不需要关心技术细节,只需定义需要的数据类型,就可以满足各种自定义需求;
数据存储/分发模块:对于数据解码子模块以及数据聚合子模块的数据分别设置存储和索引,按自定义方式将数据发送至后端数据分析应用;
数据清理模块:支持过期时间清理和磁盘容量清理等多种方式,更可以对不同数据类型实行差异化的清理逻辑。比如可以设定原始数据优先清理,一周内的低颗粒度数据晚于一周外的高颗粒度数据清理等等。也可以自定义清理任务,达到减少磁盘使用和最优化数据存储的目的。
本发明的工作原理如下:
后端数据分析应用通过API模块接入本系统,通过任务调度模块控制本系统开启或关闭不同数据源的抓取、存储,后端数据分析应用可以定义需要的数据维度和颗粒度以及获取历史数据。
根据不同的场景设置数据来源,可同时设置不同类型数据来源,如图2和图3所示,数据来源包括socket、文件和网卡,通过数据接收模块进行数据抓取,数据抓取后会存储为原始数据在系统磁盘上,并另外通过数据总线发送到数据处理模块进行处理。数据处理模块通过数据解码子模块,据根据网络协议把数据解码变为结构化指标的数据,同样存储便于后续查询,并发送到数据聚合子模块,数据聚合子模块会根据后端数据分析应用的需求聚合到一定的时间颗粒度或ip等的维度存储并发送到后端数据分析应用,有利于减少数据量。
后端数据分析应用通过任务调度模块可以直接控制数据处理模块内的数据获取、数据解码、数据聚合和数据存储,也可以通过任务调度启动新的数据查询、定义所需数据的维度和颗粒度。数据存储/分发模块对数据进行存储和索引,例如根据不同场景设置不同存储方案,原始数据、解码数据和聚合数据可分别设置,根据数据来源的ip或者ipport设置索引,便于后端数据分析应用查询。数据清理模块根据不同的数据设置不同的清理方式,以减少磁盘使用。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种网络互联数据抓取分发的方法,其特征在于,包括:
数据接收步骤:从不同的数据来源接收数据;
数据处理步骤:包括数据解码阶段以及数据聚合阶段,所述数据解码阶段包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合阶段包括根据后端的需求把结构化指标的数据聚合到设定的维度;
数据存储/分发步骤:对于数据解码阶段以及数据聚合阶段的数据分别设置存储和索引,按自定义方式将数据发送至后端。
2.根据权利要求1所述的网络互联数据抓取分发的方法,其特征在于,还包括:
数据清理步骤:根据不同的数据设置不同的清理方式,减少磁盘使用。
3.根据权利要求1所述的网络互联数据抓取分发的方法,其特征在于,还包括:
任务调度步骤:对所述数据处理步骤进行调度、启停和管理。
4.根据权利要求3所述的网络互联数据抓取分发的方法,其特征在于,还包括:
采用API模块提供对外接口,后端通过所述API模块控制所述数据处理步骤以及所述任务调度步骤。
5.一种网络互联数据抓取分发的系统,其特征在于,包括:
数据接收模块:从不同的数据来源接收数据;
数据处理模块:包括数据解码子模块以及数据聚合子模块,所述数据解码子模块包括据根据网络协议把数据变为结构化指标的数据,所述数据聚合子模块包括根据后端的需求把结构化指标的数据聚合到设定的维度;
数据存储/分发模块:对于数据解码子模块以及数据聚合子模块的数据分别设置存储和索引,按自定义方式将数据发送至后端。
6.根据权利要求5所述的网络互联数据抓取分发的系统,其特征在于,还包括:
数据清理模块:根据不同的数据设置不同的清理方式,减少磁盘使用。
7.根据权利要求6所述的网络互联数据抓取分发的系统,其特征在于,还包括:
任务调度模块:对所述数据处理模块进行调度、启停和管理。
8.根据权利要求7所述的网络互联数据抓取分发的系统,其特征在于,还包括:
API模块:提供对外接口,后端通过所述API模块控制所述数据处理模块以及所述任务调度模块。
CN201810092209.3A 2018-01-30 2018-01-30 网络互联数据抓取分发的系统和方法 Pending CN108449375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810092209.3A CN108449375A (zh) 2018-01-30 2018-01-30 网络互联数据抓取分发的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810092209.3A CN108449375A (zh) 2018-01-30 2018-01-30 网络互联数据抓取分发的系统和方法

Publications (1)

Publication Number Publication Date
CN108449375A true CN108449375A (zh) 2018-08-24

Family

ID=63191410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810092209.3A Pending CN108449375A (zh) 2018-01-30 2018-01-30 网络互联数据抓取分发的系统和方法

Country Status (1)

Country Link
CN (1) CN108449375A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602067A (zh) * 2019-08-29 2019-12-20 北京孚耐尔科技有限公司 基于流量分析的数据报文快速提取和调用的方法和装置
CN111782688A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于大数据分析的请求处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107247799A (zh) * 2017-06-27 2017-10-13 北京天机数测数据科技有限公司 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN107330705A (zh) * 2017-06-05 2017-11-07 国政通科技股份有限公司 一种根据多数据源防欺诈的方法和系统
US20170357708A1 (en) * 2016-06-13 2017-12-14 Joviandata, Inc. Apparatus and method for processing multi-dimensional queries in a shared nothing system through tree reduction
CN107634848A (zh) * 2017-08-07 2018-01-26 上海天旦网络科技发展有限公司 一种采集分析网络设备信息的系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357708A1 (en) * 2016-06-13 2017-12-14 Joviandata, Inc. Apparatus and method for processing multi-dimensional queries in a shared nothing system through tree reduction
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107330705A (zh) * 2017-06-05 2017-11-07 国政通科技股份有限公司 一种根据多数据源防欺诈的方法和系统
CN107247799A (zh) * 2017-06-27 2017-10-13 北京天机数测数据科技有限公司 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN107634848A (zh) * 2017-08-07 2018-01-26 上海天旦网络科技发展有限公司 一种采集分析网络设备信息的系统和方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602067A (zh) * 2019-08-29 2019-12-20 北京孚耐尔科技有限公司 基于流量分析的数据报文快速提取和调用的方法和装置
CN111782688A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于大数据分析的请求处理方法、装置、设备及存储介质
CN111782688B (zh) * 2020-06-29 2024-02-06 中国平安财产保险股份有限公司 基于大数据分析的请求处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107729139B (zh) 一种并发获取资源的方法和装置
CN109284334A (zh) 实时数据库同步方法、装置、电子设备及存储介质
CN105511954A (zh) 一种报文处理方法及装置
CN104572277A (zh) 一种线程流控方法和装置
CN109039817B (zh) 一种用于流量监控的信息处理方法、装置、设备及介质
CN113613287B (zh) 一种基于边缘计算的自动化数据采集系统
CN112671697B (zh) 综合监控系统的数据处理方法、装置和系统
CN110620699B (zh) 消息到达率确定方法、装置、设备和计算机可读存储介质
CN115033646B (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN108449375A (zh) 网络互联数据抓取分发的系统和方法
CN115168066A (zh) 一种消息队列的处理方法、装置、设备及存储介质
CN113342826A (zh) 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统
CN113485282A (zh) 分散控制系统消息跟踪展示方法、系统、设备及存储介质
CN115904369B (zh) 一种网络安全源数据高效聚合及关联分析的方法与系统
CN108965095B (zh) 邮件解析方法、邮件解析系统、电子设备和可读存储介质
CN116032614A (zh) 容器网络微隔离方法、装置、设备和介质
CN116149761A (zh) 一种车端规则引擎实现方法及装置、电子设备、存储介质
CN115756877A (zh) 资源同步方法、装置、设备及存储介质
CN109389363A (zh) 一种基于作业调度的电话查岗方法及装置
CN109842498A (zh) 一种客户端配置方法、服务器、客户端及电子设备
CN115237989A (zh) 一种矿山数据采集系统
CN114490718A (zh) 数据输出方法、装置、电子设备和计算机可读介质
CN114217867A (zh) 自动化运维代理装置、设备和存储介质
CN114237914A (zh) 一种基于混合云管理调度系统
CN109495469B (zh) 流量分析安全管控系统、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824