CN110417712A - 一种基于网络数据传输设备实时数据采集与解析方法 - Google Patents

一种基于网络数据传输设备实时数据采集与解析方法 Download PDF

Info

Publication number
CN110417712A
CN110417712A CN201810397060.XA CN201810397060A CN110417712A CN 110417712 A CN110417712 A CN 110417712A CN 201810397060 A CN201810397060 A CN 201810397060A CN 110417712 A CN110417712 A CN 110417712A
Authority
CN
China
Prior art keywords
data
network
acquisition
module
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810397060.XA
Other languages
English (en)
Inventor
刘青山
郑菀俪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mining Information Technology Co Ltd
Original Assignee
Beijing Mining Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mining Information Technology Co Ltd filed Critical Beijing Mining Information Technology Co Ltd
Priority to CN201810397060.XA priority Critical patent/CN110417712A/zh
Publication of CN110417712A publication Critical patent/CN110417712A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/161Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
    • H04L69/162Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields involving adaptations of sockets based mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于网络数据传输设备实时数据采集与解析方法,包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。有益效果在于:数据丢包率得到了控制,提升了采集源水平扩展能力,提升了数据处理效率。

Description

一种基于网络数据传输设备实时数据采集与解析方法
技术领域
本发明涉及数据传输设备领域,本发明涉及一种基于网络数据传输设备实时数据采集与解析方法。
背景技术
随着“互联网+”的普及,社会从“IT”时代跨越到了“DT”时代,大数据平台应运而生,而数据的量级是平台发展的前提,如果大数据平台没有足够的数据需要处理,无法发挥其真正的作用,因此数据获取则是大数据平台关键的和不可获取的组成部分。当今大数据平台的数据采集模块多倾向于离线采集和实时采集相结合,以定时采集文件和实时从消息队列获取数据为主要方式;这种数据采集方式有比较多的局限性:数据获取受限于消息队列的提供方的效率;另外,随着网络带宽不断提升,直接从网络设备上获取数据将成为必然的趋势,并且海量宝贵的数据资源如果不能实时获取,长远来看,本身也是一种损失。因此我们发明了直接从网络传输设备上直接获取数据,从而提高数据采集的速率,快速把大量数据采集到系统中来,并进行相应的网络协议、数据协议解析,输出为可以使用的结构化数据,所谓从网络传输设备上实时进行数据采集,是指直接从网络接口卡、光纤分光器等网络数据传输设备上按照既定的数据协议读取网络中传输的数据,这样可以进最大速率把数据采集到大数据平台中,进行数据增值处理和加工。
现有技术存在丢包率高,采集源水平扩展能力较差,数据处理效率较低的问题。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于网络数据传输设备实时数据采集与解析方法。
本发明通过以下技术方案来实现上述目的:
一种基于网络数据传输设备实时数据采集与解析方法,包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。
本实施例中,所述数据采集模块DCP是大数据解决方案中的一个子系统,位于总体架构的前端,负责信令报文和数据报文的采集、解析和清洗。所述数据采集模块DCP在完成数据加工处理以后,按照约定格式保存到数据交换系统中,流处理平台和批处理平台分别各自从数据交换系统中读取,结合各自业务需求开展数据分析和数据挖掘作业,用户通过多种设备经过身份认证后接入城域网,数据采集设备部署在城域网骨干出口,采用分光方式把用户数据和认证数据通过镜像方式汇聚到SplitFlow设备,由SplitFlow设备对上述数据进行采集和预处理,按照数据报文网络层源IP地址信息进行数据分流处理,将报文原文转发至下游数据分析计算处理设备集群。
本实施例中,所述数据解析模块包括信令协议解析、数据业务协议解析、移动网络核心网3G协议解析、移动网络核心网3G、4G协议解析。其中所述信令协议的解析包括固网radius信令、移动网络Radius信令、移动网络核心网网GTP-C信令和自定义信令协议;所述移动网络核心网3G、4G协议解析负责3G、4G业务数据的采集,包括HTTP协议、DNS协议解析。
本实施例中,所述数据过滤模块主要负责过滤一些特质数据,如文件扩展名、UserAgent、时间戳、Referer、Host、门户网站定制化过滤等。其中对HTTP报文过滤时,使用了UserAgent来识别和过滤浏览器发出的HTTP报文。
本实施例中,所述SplitFlow设备的数据丢包率小于万分之一,对网络层协议进行预分析,以源地址作为数据分流依据。
本实施例中,所述采集系统与数据交换系统设计有异常处理机制。
本实施例中,所述数据分析处理设备满足集群化平滑扩展需要,分析处理功能在设计实现上满足模块化要求,允许单独或批量调用。
本发明的有益效果在于:
1:数据丢包率得到了控制:在此发明中我们引入了SplitFlow采集技术,此技术的应用使得数据丢包率小于万分之一,提升了系统的服务质量。
2:提升了采集源水平扩展能力:平台设计了程序包即插即用能力,并且封装目前主流的几种数据协议处理器,因此在面向不同的数据源时,可以灵活地处理不同的数据源。
3:多种实时技术的应用,提升了数据处理效率:平台中引入了C/C++/Kafka/Socket/Avro等技术,数据在系统内容以流的方式流转,以及分析系统内部维护了用户关联关系,用户实时状态做到了快速更新,从而满足了大并发操作,大大提升了数据处理的效率,数据处理响应降低到了微秒级。
附图说明
图1是本发明所述一种基于网络数据传输设备实时数据采集与解析方法的采集解析应用部署图;
图2是本发明所述一种基于网络数据传输设备实时数据采集与解析方法的采集解析技术框架图;
图3是本发明所述一种基于网络数据传输设备实时数据采集与解析方法的数据采集系统网络部署方案图;
图4是本发明所述一种基于网络数据传输设备实时数据采集与解析方法的实时采集功能框架图。
具体实施方式
下面结合附图对本发明作进一步说明:
如图1-图4所示,一种基于网络数据传输设备实时数据采集与解析方法,包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。
本实施例中,所述数据采集模块DCP是大数据解决方案中的一个子系统,位于总体架构的前端,负责信令报文和数据报文的采集、解析和清洗。所述数据采集模块DCP在完成数据加工处理以后,按照约定格式保存到数据交换系统中,流处理平台和批处理平台分别各自从数据交换系统中读取,结合各自业务需求开展数据分析和数据挖掘作业,用户通过多种设备经过身份认证后接入城域网,数据采集设备部署在城域网骨干出口,采用分光方式把用户数据和认证数据通过镜像方式汇聚到SplitFlow设备,由SplitFlow设备对上述数据进行采集和预处理,按照数据报文网络层源IP地址信息进行数据分流处理,将报文原文转发至下游数据分析计算处理设备集群。
本实施例中,所述数据解析模块包括信令协议解析、数据业务协议解析、移动网络核心网3G协议解析、移动网络核心网3G、4G协议解析。其中所述信令协议的解析包括固网radius信令、移动网络Radius信令、移动网络核心网网GTP-C信令和自定义信令协议;所述移动网络核心网3G、4G协议解析负责3G、4G业务数据的采集,包括HTTP协议、DNS协议解析。
本实施例中,所述数据过滤模块主要负责过滤一些特质数据,如文件扩展名、UserAgent、时间戳、Referer、Host、门户网站定制化过滤等。其中对HTTP报文过滤时,使用了UserAgent来识别和过滤浏览器发出的HTTP报文。
本实施例中,所述SplitFlow设备的数据丢包率小于万分之一,对网络层协议进行预分析,以源地址作为数据分流依据。
本实施例中,所述采集系统与数据交换系统设计有异常处理机制。
本实施例中,所述数据分析处理设备满足集群化平滑扩展需要,分析处理功能在设计实现上满足模块化要求,允许单独或批量调用。
具体工作原理为:所述数据采集模块负责从网络设备接口获取数据,获取数据协议采用的是原始套接字,采集到数据以后,按照数据协议,进行网络协议解析,去除网络协议后,写入Kafka消息队列由数据解析模块来进行后续的处理,所述数据解析模块负责对数据包进行解析,按照数据规则进行数据包解析,支持信令数据包解析、业务数据包解析、asn.1话单数据包解析,数据解析后还是写入Kafka队列,交由后面所述数据过滤模块进行数据处理,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,再通过消息队列传输给业务模块进行业务分析处理,通过WEB界面配置采集的数据协议和数据格式,平台可以自动适配响应的协议采集和解析处理逻辑,把数据解析成可识别的数据格式,写入Kafka消息队列,后续数据转换平台再把数据输入到HBase和Hdfs系统中,采用了处理效率较高的C/C++语言,数据交互采用了Socket、Kafka消息队列,以便于提高交互效率;为了支持多语言交互、便于C/C++和Kafka对接,引入了Avro技术,Iwash应用主要负责0域实时数据采集;Stream应用主要负责实时数据各种不同协议的解析Kafka集群主要负责接收解析后的标准化的数据,为下游数据处理提供通道,进程管理部分主要实现进程的调度管理,实现灵活配置进程和线程,扩展方便灵活;具体应用:此部分嵌套在进程管理中,通过so的形式动态加载各种应用,包括采集、解析等,以及后续不断能扩展不同应用;Kafka输出通过kafka输出到下游数据加工平台,完成数据的深入加工处理。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (7)

1.一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:包括数据采集模块DCP、数据解析模块、数据过滤模块,所述数据采集模块负责从网络设备接口获取数据,所述数据解析模块负责对数据包进行解析,所述数据过滤模块从队列中获取数据,按照配置提取需要保留的数据信息,数据过滤后,交由后面所述数据过滤模块进行数据处理。
2.根据权利要求1所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述数据采集模块DCP是大数据解决方案中的一个子系统,位于总体架构的前端,负责信令报文和数据报文的采集、解析和清洗。所述数据采集模块DCP在完成数据加工处理以后,按照约定格式保存到数据交换系统中,流处理平台和批处理平台分别各自从数据交换系统中读取,结合各自业务需求开展数据分析和数据挖掘作业,用户通过多种设备经过身份认证后接入城域网,数据采集设备部署在城域网骨干出口,采用分光方式把用户数据和认证数据通过镜像方式汇聚到SplitFlow设备,由SplitFlow设备对上述数据进行采集和预处理,按照数据报文网络层源IP地址信息进行数据分流处理,将报文原文转发至下游数据分析计算处理设备集群。
3.根据权利要求1所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述数据解析模块包括信令协议解析、数据业务协议解析、移动网络核心网3G协议解析、移动网络核心网3G、4G协议解析。其中所述信令协议的解析包括固网radius信令、移动网络Radius信令、移动网络核心网网GTP-C信令和自定义信令协议;所述移动网络核心网3G、4G协议解析负责3G、4G业务数据的采集,包括HTTP协议、DNS协议解析。
4.根据权利要求1所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述数据过滤模块主要负责过滤一些特质数据,如文件扩展名、UserAgent、时间戳、Referer、Host、门户网站定制化过滤等。其中对HTTP报文过滤时,使用了UserAgent来识别和过滤浏览器发出的HTTP报文。
5.根据权利要求2所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述SplitFlow设备的数据丢包率小于万分之一,对网络层协议进行预分析,以源地址作为数据分流依据。
6.根据权利要求2所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述采集系统与数据交换系统设计有异常处理机制。
7.根据权利要求2所述的一种基于网络数据传输设备实时数据采集与解析方法,其特征在于:所述数据分析处理设备满足集群化平滑扩展需要,分析处理功能在设计实现上满足模块化要求,允许单独或批量调用。
CN201810397060.XA 2018-04-28 2018-04-28 一种基于网络数据传输设备实时数据采集与解析方法 Pending CN110417712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810397060.XA CN110417712A (zh) 2018-04-28 2018-04-28 一种基于网络数据传输设备实时数据采集与解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810397060.XA CN110417712A (zh) 2018-04-28 2018-04-28 一种基于网络数据传输设备实时数据采集与解析方法

Publications (1)

Publication Number Publication Date
CN110417712A true CN110417712A (zh) 2019-11-05

Family

ID=68346943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810397060.XA Pending CN110417712A (zh) 2018-04-28 2018-04-28 一种基于网络数据传输设备实时数据采集与解析方法

Country Status (1)

Country Link
CN (1) CN110417712A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930069A (zh) * 2019-12-10 2020-03-27 航天新长征大道科技有限公司 数据采集打包方法和系统,可读存储介质和计算机

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040239487A1 (en) * 2003-05-29 2004-12-02 Russell Hershbarger Method and apparatus for full duplex signaling across a transformer
CN105450473A (zh) * 2015-12-07 2016-03-30 湖南戎腾网络科技有限公司 一种面向lte网络的用户溯源关联方法及前端采集器
US20160323185A1 (en) * 2012-05-01 2016-11-03 F5 Networks, Inc. Data flow segment optimized for hot flows
CN205901769U (zh) * 2016-08-10 2017-01-18 国网山东省电力公司信息通信公司 一种ims网络信令监测系统
CN106651633A (zh) * 2016-10-09 2017-05-10 国网浙江省电力公司信息通信分公司 一种基于大数据技术的用电信息采集系统及其采集方法
CN107241305A (zh) * 2016-12-28 2017-10-10 神州灵云(北京)科技有限公司 一种基于多核处理器的网络协议分析系统及其分析方法
CN107517143A (zh) * 2017-10-23 2017-12-26 合肥时代智慧高新投资管理有限公司 一种基于bgp协议的网络流量采集和监控方法
CN107766530A (zh) * 2017-10-27 2018-03-06 北京再塑宝科技有限公司 一种采集数据分发的方法以及其装置
CN107800566A (zh) * 2017-09-14 2018-03-13 中国铁道科学研究院通信信号研究所 一种lte‑r铁路专用宽带移动通信网络接口监测系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040239487A1 (en) * 2003-05-29 2004-12-02 Russell Hershbarger Method and apparatus for full duplex signaling across a transformer
US20160323185A1 (en) * 2012-05-01 2016-11-03 F5 Networks, Inc. Data flow segment optimized for hot flows
CN105450473A (zh) * 2015-12-07 2016-03-30 湖南戎腾网络科技有限公司 一种面向lte网络的用户溯源关联方法及前端采集器
CN205901769U (zh) * 2016-08-10 2017-01-18 国网山东省电力公司信息通信公司 一种ims网络信令监测系统
CN106651633A (zh) * 2016-10-09 2017-05-10 国网浙江省电力公司信息通信分公司 一种基于大数据技术的用电信息采集系统及其采集方法
CN107241305A (zh) * 2016-12-28 2017-10-10 神州灵云(北京)科技有限公司 一种基于多核处理器的网络协议分析系统及其分析方法
CN107800566A (zh) * 2017-09-14 2018-03-13 中国铁道科学研究院通信信号研究所 一种lte‑r铁路专用宽带移动通信网络接口监测系统
CN107517143A (zh) * 2017-10-23 2017-12-26 合肥时代智慧高新投资管理有限公司 一种基于bgp协议的网络流量采集和监控方法
CN107766530A (zh) * 2017-10-27 2018-03-06 北京再塑宝科技有限公司 一种采集数据分发的方法以及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
罗巍等: "移动互联网时代DPI解析系统的研究", 《广东通信技术》 *
赵跃东、王隽峰、曾王平: ""电信运营商大数据应用系统建设方案研究"", 《中国新通信》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930069A (zh) * 2019-12-10 2020-03-27 航天新长征大道科技有限公司 数据采集打包方法和系统,可读存储介质和计算机

Similar Documents

Publication Publication Date Title
CN101176305B (zh) 分布式通信业务系统和分析通信业务流的方法
CN100504879C (zh) 动态网页的分块方法
CN107404480B (zh) 一种流媒体数据的传输方法、存储介质和流媒体服务器
CN108337236A (zh) 一种基于Protobuf和HTTP/1.1的gRPC调用方法及装置
CN105868075A (zh) 一种实时监控分析大量日志的系统及方法
CN103067218B (zh) 一种高速网络数据包内容分析装置
CN109714648A (zh) 一种视频流负载均衡方法和装置
CN108924228B (zh) 基于边缘计算的工业互联网优化系统
CN108924007A (zh) 通信运营信息的大数据采集及存储系统和方法
CN110417712A (zh) 一种基于网络数据传输设备实时数据采集与解析方法
CN107479966A (zh) 一种基于多核心cpu的信令采集方法
KR101018473B1 (ko) 모바일용 웹페이지 변환 시스템 및 방법
CN109299069A (zh) 一种基于互联网数据采集的大数据采集管理平台
CN111294241B (zh) 一种可配置物联网设备接入方法
CN103365859A (zh) 处理网页鼠标点击事件的方法
CN108881373A (zh) 一种基于mvc框架的前端数据流处理方法
CN208656811U (zh) 一种基于网络数据传输设备实时数据采集设备
CN107766497A (zh) 基于容器的数据收集的方法及终端
EP1117209A2 (de) Verfahren, Internet-Zugangseinrichtung, Vermittlungsstelle und Gebührenerfassungseinrichtung zur individuellen Vergebührung von Internet-Diensten
CN107450974A (zh) 一种cdn系统内任务执行管理的方法
CN112883110A (zh) 一种基于nifi的终端大数据分发方法、存储介质及系统
CN110781367A (zh) 一种基于中间人的互联网数据采集方法及系统
CN103079057A (zh) 用于视频监控分析系统进行资源优化的方法和系统
CN110839080B (zh) 语音服务云平台、提供语音服务的方法、装置及存储介质
KR100496263B1 (ko) 이동통신망의 데이터 서비스에 대한 빌링 방법과 이를위한 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191105