CN113242151A - 基于海量网络数据的特定数据提取方法和系统 - Google Patents

基于海量网络数据的特定数据提取方法和系统 Download PDF

Info

Publication number
CN113242151A
CN113242151A CN202110626602.8A CN202110626602A CN113242151A CN 113242151 A CN113242151 A CN 113242151A CN 202110626602 A CN202110626602 A CN 202110626602A CN 113242151 A CN113242151 A CN 113242151A
Authority
CN
China
Prior art keywords
transaction
network
data
module
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110626602.8A
Other languages
English (en)
Inventor
杜匡俊
蔡晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Netis Technologies Co ltd
Original Assignee
Shanghai Netis Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Netis Technologies Co ltd filed Critical Shanghai Netis Technologies Co ltd
Priority to CN202110626602.8A priority Critical patent/CN113242151A/zh
Publication of CN113242151A publication Critical patent/CN113242151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于海量网络数据的特定数据提取方法和系统,包括:进行网络抓包,进行网络层协议解析获得时间戳和五元组,根据时间戳存储数据包,根据五元组对数据包建立索引;将数据包通过应用协议解码引擎解析成交易事件并给每个交易事件分配唯一的事件ID,通过交易关联引擎将多个相关的交易事件关联成交易记录;将交易记录实时发送给应用性能监控平台,将交易记录聚合为监控指标通过仪表板进行呈现,添加告警规则,若触发告警则在仪表板中显示;在触发告警时将对应交易记录导出并获取该交易记录的所有交易事件ID,通过交易事件ID得到交易事件的原始网络数据。本发明保留了原始网络数据,可以用来取证或者回溯。

Description

基于海量网络数据的特定数据提取方法和系统
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种基于海量网络数据的特定数据提取方法和系统。
背景技术
当前重要的IT系统都会采用多种手段进行运维监控和管理,譬如基础设施运维管理、网络运维管理、应用运维管理等。当被监控系统发生异常时,操作人员往往需要从海量(对于大型数据中心而言,每天的数据量通常在TB级别)的网络数据中提取引起异常的流量,进行后续故障诊断。如何能够快速的在海量数据中准确定位到引起异常的数据并快速准确的将原始数据报文保存下来一直是性能监控领域的重大课题。
当前主要方案有如下两种:
方案1:通过网络分析设备监控网络状态并保留所有原始数据,当出现异常情况时通过TCP/IP会话对将异常时间段的数据包导出。其优点是通过网络设备获取网络数据镜像并对TCP/IP层解析分析网络状态,可以实时监控建连成功率、丢包率、重传率等网络指标,在发生异常后通过提取指定时间段内的原始数据进行进一步的根因分析。其缺点在于仅能够在网络层面TCP/IP监控系统的状态,无法感知到业务层面问题(如交易失败或交易超时等),因此可能存在无法及时发现问题的情况;
方案2:同时部署业务监控系统,通过业务监控增加异常感知能力并结合网络监控系统提取原始网络数据。业务监控系统通常可以使用采集日志或在业务系统中埋点等技术实现对业务层面的监控。当感知到业务异常后可以通过记录引起业务异常的组件的服务器地址和服务端口在网络监控系统中导出异常时间段的网络数据。其优点是通过日志采集分析或者应用程序埋点等方式收集应用状态(响应时间、成功率等指标),可以准确感知到业务层面的问题。其缺点在于,1)操作繁琐需要在多个系统间交互;2)定位精度有限,往往只能定位到引起异常的服务器,这会导致数据提取过程时间久,如果需要定位到引起异常的某个具体请求上需要再进行进一步的人工分析;3)需要对业务系统进行改造,搭建成本高。
专利文献CN105491139A(申请号:CN201510931556.7)公开了一种网络报文分析装置中海量数据的提取上送系统及方法,所述系统包括:用于获取网络报文分析装置中的海量数据信息的信息获取模块;用于诊断所获取的数据信息是否是严重信息的第一信息诊断模块;用于在将数据信息诊断为严重信息的情况下将数据信息上送到主站的第一信息上送模块;用于在将数据信息诊断为非严重信息的情况下统计非严重信息的数量的非严重信息数统计模块;用于诊断非严重信息的数量是否大于预定值的第二信息诊断模块;和用于在将非严重信息的数量诊断为大于预定值的情况下将非严重信息上送到主站的第二信息上送模块。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于海量网络数据的特定数据提取方法和系统。
根据本发明提供的基于海量网络数据的特定数据提取方法,包括:
步骤1:进行网络抓包,采集环境中的原始数据,并对原始数据进行网络层协议解析,获得时间戳和五元组,根据时间戳依次存储所有数据包,同时根据五元组对数据包建立索引;
步骤2:将经过网络层协议解析的数据通过应用协议解码引擎解析成交易事件并给每个交易事件分配唯一的事件ID,通过交易关联引擎将多个相关的交易事件关联成交易记录;
步骤3:将交易记录实时发送给应用性能监控平台,应用性能监控平台将交易记录聚合为监控指标,通过仪表板进行呈现,在呈现过程中自定义告警规则,若触发告警则在仪表板中显示;
步骤4:在触发告警时,将对应交易记录导出,并获取该交易记录的所有交易事件ID,通过交易事件ID得到交易事件的原始网络数据。
优选的,所述步骤1包括:
步骤1.1:采用网络镜像或网路帮路设备,将网络数据以数据报文形式导出;
步骤1.2:根据网络层协议对网络数据报文进行实时解码,生成网络数据包对象;
步骤1.3:使用网络数据包对象中五元组信息建立会话索引,使用网络数据包的时间戳信息建立数据包索引;
步骤1.4:将网络数据包按时序持久化并保存相应的索引文件。
优选的,所述步骤2包括:
步骤2.1:使用网络数据包对象进行在线分析,根据TCP/IP协议特征计算网络指标进行实时网络状态监控;
步骤2.2:使用网络数据包对象结合预定义的分析方法进行应用层协议解码,获得包括交易流水号、交易响应码的交易事件,预定义的分析方法包括数据包解码、深度包分析、正则表达式、规则匹配和字符串搜索;
步骤2.3:根据预定义的关联规则将多个交易事件关联为一次完整的交易记录;
步骤2.4:根据交易发生的时间顺序和交易中关键要素建立索引;
步骤2.5:将交易记录按时序持久化并保存对应的索引文件。
优选的,所述步骤3包括:
步骤3.1:使用网络指标,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
步骤3.2:使用交易记录,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
步骤3.3:基于聚合后的网络指标和交易记录添加告警规则;
步骤3.4:基于聚合后的网络指标和交易记录,按时间颗粒度将指标呈现在仪表盘视图上。
优选的,所述步骤4包括:
步骤4.1:根据交易记录的交易事件ID查询该交易记录相关的交易事件,若不存在相关交易事件,则结束导出过程并返回错误提示;若存在则继续导出;
步骤4.3:汇总所有交易事件的数据包时间戳和五元组信息;
步骤4.4:分别根据时间戳和五元组信息查找数据块列表,对两份数据块列表取交集,确定待提取的数据包所属的数据块集合,若数据块集合为空,则结束导出过程并返回错误提示;
步骤4.5:在数据块集合中根据时间戳和五元组信息线性查找符合条件的数据包。
根据本发明提供的基于海量网络数据的特定数据提取系统,包括:
模块M1:进行网络抓包,采集环境中的原始数据,并对原始数据进行网络层协议解析,获得时间戳和五元组,根据时间戳依次存储所有数据包,同时根据五元组对数据包建立索引;
模块M2:将经过网络层协议解析的数据通过应用协议解码引擎解析成交易事件并给每个交易事件分配唯一的事件ID,通过交易关联引擎将多个相关的交易事件关联成交易记录;
模块M3:将交易记录实时发送给应用性能监控平台,应用性能监控平台将交易记录聚合为监控指标,通过仪表板进行呈现,在呈现过程中自定义告警规则,若触发告警则在仪表板中显示;
模块M4:在触发告警时,将对应交易记录导出,并获取该交易记录的所有交易事件ID,通过交易事件ID得到交易事件的原始网络数据。
优选的,所述模块M1包括:
模块M1.1:采用网络镜像或网路帮路设备,将网络数据以数据报文形式导出;
模块M1.2:根据网络层协议对网络数据报文进行实时解码,生成网络数据包对象;
模块M1.3:使用网络数据包对象中五元组信息建立会话索引,使用网络数据包的时间戳信息建立数据包索引;
模块M1.4:将网络数据包按时序持久化并保存相应的索引文件。
优选的,所述模块M2包括:
模块M2.1:使用网络数据包对象进行在线分析,根据TCP/IP协议特征计算网络指标进行实时网络状态监控;
模块M2.2:使用网络数据包对象结合预定义的分析方法进行应用层协议解码,获得包括交易流水号、交易响应码的交易事件,预定义的分析方法包括数据包解码、深度包分析、正则表达式、规则匹配和字符串搜索;
模块M2.3:根据预定义的关联规则将多个交易事件关联为一次完整的交易记录;
模块M2.4:根据交易发生的时间顺序和交易中关键要素建立索引;
模块M2.5:将交易记录按时序持久化并保存对应的索引文件。
优选的,所述模块M3包括:
模块M3.1:使用网络指标,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
模块M3.2:使用交易记录,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
模块M3.3:基于聚合后的网络指标和交易记录添加告警规则;
模块M3.4:基于聚合后的网络指标和交易记录,按时间颗粒度将指标呈现在仪表盘视图上。
优选的,所述模块M4包括:
模块M4.1:根据交易记录的交易事件ID查询该交易记录相关的交易事件,若不存在相关交易事件,则结束导出过程并返回错误提示;若存在则继续导出;
模块M4.2:汇总所有交易事件的数据包时间戳和五元组信息;
模块M4.3:分别根据时间戳和五元组信息查找数据块列表,对两份数据块列表取交集,确定待提取的数据包所属的数据块集合,若数据块集合为空,则结束导出过程并返回错误提示;
模块M4.4:在数据块集合中根据时间戳和五元组信息线性查找符合条件的数据包。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明无需应用改造,部署成本低;
(2)本发明结合网络指标和应用指标智能进行根因分析,进行应用性能监控同时并保留了异常时间段原始网络数据,可以用来取证或者回溯。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明流程图;
图2为网络数据存储结构图;
图3为交易事件和交易记录存储结构图;
图4为原始记录导出流程图;
图5为本发明实施举例框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
参考图1,根据本发明提供的基于海量网络数据的特定数据提取方法,包括如下步骤:
步骤1,网络数据采集:通过旁路方式进行网络抓包,采集环境中的原始数据,对原始数据进行网络层协议解析,获得时间戳和五元组(SourceIp、DestIp、SourcePort、DestPort和IpProtocol),根据时间戳依次存储所有数据包,并同时根据五元组对数据包建立索引;其输入为镜像的网络数据,其输出为经过索引的网络数据存储和经过网络层协议解析的中间数据。
步骤2,应用层协议分析:将步骤1中经过网络层协议解析的中间数据通过应用协议解码引擎解析成交易事件并给每个交易事件分配唯一的事件ID,然后通过交易关联引擎将多个相关的交易事件关联成交易记录,交易记录中包括交易的关键信息(如交易是否成功,交易是否响应,交易响应时间,交易流水号,交易金额等)和组成交易记录的所有交易事件ID;其输入为经过网络层协议解析的中间数据,其输出为交易事件和交易记录。
步骤3,应用性能监控:将步骤2中得到交易记录实时发送给应用性能监控平台,应用性能监控平台根据被监控的系统将交易记录聚合为监控指标(如交易成功率,交易响应率,平均响应时间,交易量等),通过仪表板进行最终呈现。在呈现过程中可以自定义告警规则(如交易成功率低于90%,平均响应时间超过1秒等),如果触发告警会实时在仪表板中显示;其输入为交易记录,其输出为实时仪表板和告警记录。
步骤4,原始记录导出:当发现告警或者指标异常时,选择交易记录导出原始记录。具体的,在交易记录中获取到组成交易的所有交易事件ID,通过交易事件ID在存储的交易明细中查询到与交易记录相关的交易事件。在交易事件上获取到生成交易事件的原始数据时间戳和会话对信息。汇总所有交易事件的五元组和时间戳信息,计算出交易记录所涉及的会话和每个会话的活动时间。通过建立的五元组索引就能快速查找到会话,通过每个会话的活动时间就能导出交易相关的所有原始网络数据。
其中,步骤1网络数据采集包括如下步骤:
步骤1.1:网络数据报文接入,在真实交易环境中,采用网络镜像(TAP)或者网路帮路设备(SPAN),在不影响交易的情况下,将网络数据以数据报文导出,进行采集。这种方法也叫做网络抓包。
步骤1.2:网络层协议解码,根据网络层协议,如Ethernet,TCP/IP,VLAN等对网络数据报文进行实时解码,生成网络数据包对象。具体的解析后的数据包对象包括但不限于以下形式表示:
<ts,SourceIP,DestIP,SourcePort,DestPort,IpProtocal,Payload>
其中,ts为纳秒精度的时间戳;Payload为TCP或UDP的二进制负载数据。
步骤1.3:网络会话索引创建,使用步骤1.2网络数据包对象中五元组信息建立会话索引,在此基础上使用网络数据包的时间戳信息建立数据包索引;具体的为了支持TB级别数据查询,需要采用基于时序的数据块存储并以数据块为索引单元建立五元组的索引。
如图2所示,数据包对象(Packet)根据时间顺序分片存储至数据块(Bundle)中,这样的设计可以加速基于时间戳的条件查询。在此基础上进一步建立五元组与数据块之间的索引,这样的设计可以加速基于五元组的条件查询。基于时间戳和五元组的查询是步骤4中从海量数据导出原始数据的关键,上述优化的存储结构可以帮助解决查询的性能问题。
步骤1.4:存储网络数据包,将网络数据包按时序持久化并保存相应的索引文件。
其中,步骤2应用层协议分析包括如下步骤:
步骤2.1:网络指标分析,使用步骤1.2网络数据包对象进行在线分析,根据TCP/IP协议特征计算如活跃会话数、建连成功率、响应时间等网络指标,这些网络指标可以用于实时监控网络状态;
步骤2.2:应用层协议解码,使用步骤1.2网络数据包对象结合预定义的分析方法进行应用层协议解码可以获得如交易流水号、交易响应码等交易信息,这些信息称为交易事件。分析方法包括数据包解码(decode,parse)、深度包分析(DPI)、正则表达式(Regularexpress)、规则匹配、字符串搜索等。分析的结果是扁平的键值对信息,或者结构化信息,这些信息组成了消息。结构化包括但不限于XML、JSON、Protocol buffer、YAML、TOML等;
具体的解析后的交易事件包括但不限于以下形式表示:
<ts1,SourceIP,DestIP,SourcePort,DestPort,IpProtocal,EventID1,trans_id,req,req内容>
<ts2,SourceIP,DestIP,SourcePort,DestPort,IpProtocal,EventID2,trans_id,resp,resp内容>
其中,ts1,ts2是生成此次交易事件的数据包时间戳;EventID1,EventID2是此次交易事件的ID,由系统唯一生成;trans_id是交易标识,由应用协议确定;req和resp分别时表示请求和响应,并附带各自内容。
trans_id一般是协议定义,交易中请求和响应都有的字段,例如交易号,事件号,流水号等,也可以是多个字段的组合。特殊的,对于同步协议(譬如基于TCP的协议),因为总是一个请求对应一个响应的结构,可以并不需要显示的交易trans_id,采用系统编号即可,包括但不限于递增整数。
步骤2.3:应用交易关联,基于步骤2.2的交易事件,根据预定义的关联规则(如相同的流水号等)可以将多个交易事件关联为一次完整的交易记录,在复杂场景中,还需要对消息区分请求和响应,采用交易管理的技术,关联多个消息组成交易,从而确保数据的有效和准确;
具体的,对于步骤2.2中所示的交易事件,可以使用trans_id进行交易关联,关联引擎会将trans_id相同且的请求req和响应resp进行组合行程一笔交易记录。
交易记录包括但不限于以下形式表示:
<ts1~ts2,trans_id,[EventID1,EventID2],其他关键字段>
其中ts1~ts2为此次交易的起始时间和结束时间。Trans_id是交易记录的ID,[EventID1,EventID2]为组成此次交易的所有交易事件列表,其他关键字段为从所有交易事件中提取的关键信息。
步骤2.4:交易记录索引创建,基于步骤2.3的交易记录,根据交易发生的时间顺序和交易中关键要素(如流水号、交易类型等)建立索引;
具体的,如图3所示,建立交易记录和交易事件两张表,其中交易记录通过交易事件ID进行一对多的关联。由于业务场景的复杂性,交易记录可能会需要根据业务场景的需要提供多种方式的条件查询,包括但不限于基于流水号查询,基于操作类型查询等。因此交易记录的索引创建需要能够根据业务场景灵活定义。
步骤2.5:保存交易记录,将交易记录按时序持久化并保存步骤2.4中生成的索引文件。
其中,步骤3应用性能监控性能监控作为成熟技术,可以通过流处理引擎、规则引擎等成熟技术实现。主要包括如下步骤:
步骤3.1:网络指标聚合,使用步骤2.1输出的网络指标,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
步骤3.2:应用指标聚合,使用步骤2.3输出的交易记录,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
步骤3.3:告警规则应用,在系统运行过程中,基于步骤3.1聚合后的网络指标和步骤3.2聚合后的应用指标,可以在告警引擎中添加告警规则。以帮助用户及时发现异常;
步骤3.4:视图实时展示,基于步骤3.1聚合后的网络指标和步骤3.2聚合后的应用指标,按时间颗粒度将指标呈现在仪表盘视图上,以帮助用户实时感知被监控系统情况。
其中,步骤4原始数据导出,参考图4包括如下步骤:
步骤4.1:根据步骤3的监控情况,选择一笔需要导出原始数据的交易记录;
步骤4.2:根据交易记录上附带的交易事件ID,查询与此交易记录相关的交易事件。如果交易事件不存在(可能超过存储容量被清理或人为删除)则结束导出过程并报告错误提示。
步骤4.3:汇总所有交易事件的ts和五元组信息确定会话对和交易事件。
具体的,例如交易记录由如下4个交易事件组成:
<ts1,IP1,Port1,IP2,Port2,trans_id,req>
<ts2,IP2,Port3,IP3,Port4,trans_id,req>
<ts3,IP3,Port4,IP2,Port3,trans_id,resp>
<ts4,IP2,Port2,IP1,Port1,trans_id,resp>
其中,ts1~ts4为递增的时间序列,trans_id为该交易记录的流水号。
那么可以确定该交易由ts1~ts4时间段内的(IP1,Port1,IP2,Port2)会话和ts2~ts3时间段内的(IP2,Port3,IP3,Port4)会话组成。
步骤4.4:查找数据块。在步骤1.3中会根据数据块的形式保存数据包,数据块根据时间序列存储并且对五元组建立了索引。根据步骤4.3中确定的时间范围查找数据块列表,再根据步骤4.3中确定的会话的五元组通过索引查找数据块列表对两份数据块列表取交集确定待提取的数据包所属的数据块集合。如果数据块集合为空(可能超过存储容量被清理或人为删除)则结束导出过程并返回错误提示。
步骤4.5:导出原始数据包。在数据块集合中根据会话的五元组和时间范围作为查询条件,线性查找符合条件的数据包。由于网络交易往往在毫秒级别,因此通常1至2个数据块就可以包含了交易记录的涉及的所有原始数据包。每个数据块大小在MB级别,因此线性查找可以在有限的时间内快速导出目标交易记录的原始网络数据报文。
实施例2
实施例2为实施例1的优选例。
参考图5,根据本发明提供的基于海量网络数据的特定数据提取方法,包括如下步骤:
步骤1:在真实交易环境中,采用网络镜像(TAP)或者网路帮路设备(SPAN),在不影响交易的情况下,将网络数据以数据报文导出至网络数采集模块,进行采集;
步骤2:将采集的数据实时发送是网络层协议分析模块进行网络层协议解码和网络层协议分析计算网络指标;
步骤3:将网络层解码后结果实时发送至数据包索引模块建立索引并通过数据包存储模块进行持久化;
步骤4:同时将网络层解码后结果实时发送至应用层分析模块进行应用层解码生成交易事件;
步骤5:将交易事件实时发送至交易关联模块进行交易关联生成交易记录;
步骤6:将交易记录实时发送至交易索引模块建立交易索引并通过交易记录存储模块进行持久化;
步骤7:同时将交易记录实时发送至应用性能监控模块更新仪表板和触发告警规则;
步骤8:当仪表板异常或者告警被触发,用户可以通过交易明细查询模块查找引起异常的一条或者多条交易记录查询到原始交易数据。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于海量网络数据的特定数据提取方法,其特征在于,包括:
步骤1:进行网络抓包,采集环境中的原始数据,并对原始数据进行网络层协议解析,获得时间戳和五元组,根据时间戳依次存储所有数据包,同时根据五元组对数据包建立索引;
步骤2:将经过网络层协议解析的数据通过应用协议解码引擎解析成交易事件并给每个交易事件分配唯一的事件ID,通过交易关联引擎将多个相关的交易事件关联成交易记录;
步骤3:将交易记录实时发送给应用性能监控平台,应用性能监控平台将交易记录聚合为监控指标,通过仪表板进行呈现,在呈现过程中自定义告警规则,若触发告警则在仪表板中显示;
步骤4:在触发告警时,将对应交易记录导出,并获取该交易记录的所有交易事件ID,通过交易事件ID得到交易事件的原始网络数据。
2.根据权利要求1所述的基于海量网络数据的特定数据提取方法,其特征在于,所述步骤1包括:
步骤1.1:采用网络镜像或网路帮路设备,将网络数据以数据报文形式导出;
步骤1.2:根据网络层协议对网络数据报文进行实时解码,生成网络数据包对象;
步骤1.3:使用网络数据包对象中五元组信息建立会话索引,使用网络数据包的时间戳信息建立数据包索引;
步骤1.4:将网络数据包按时序持久化并保存相应的索引文件。
3.根据权利要求2所述的基于海量网络数据的特定数据提取方法,其特征在于,所述步骤2包括:
步骤2.1:使用网络数据包对象进行在线分析,根据TCP/IP协议特征计算网络指标进行实时网络状态监控;
步骤2.2:使用网络数据包对象结合预定义的分析方法进行应用层协议解码,获得包括交易流水号、交易响应码的交易事件,预定义的分析方法包括数据包解码、深度包分析、正则表达式、规则匹配和字符串搜索;
步骤2.3:根据预定义的关联规则将多个交易事件关联为一次完整的交易记录;
步骤2.4:根据交易发生的时间顺序和交易中关键要素建立索引;
步骤2.5:将交易记录按时序持久化并保存对应的索引文件。
4.根据权利要求3所述的基于海量网络数据的特定数据提取方法,其特征在于,所述步骤3包括:
步骤3.1:使用网络指标,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
步骤3.2:使用交易记录,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
步骤3.3:基于聚合后的网络指标和交易记录添加告警规则;
步骤3.4:基于聚合后的网络指标和交易记录,按时间颗粒度将指标呈现在仪表盘视图上。
5.根据权利要求1所述的基于海量网络数据的特定数据提取方法,其特征在于,所述步骤4包括:
步骤4.1:根据交易记录的交易事件ID查询该交易记录相关的交易事件,若不存在相关交易事件,则结束导出过程并返回错误提示;若存在则继续导出;
步骤4.3:汇总所有交易事件的数据包时间戳和五元组信息;
步骤4.4:分别根据时间戳和五元组信息查找数据块列表,对两份数据块列表取交集,确定待提取的数据包所属的数据块集合,若数据块集合为空,则结束导出过程并返回错误提示;
步骤4.5:在数据块集合中根据时间戳和五元组信息线性查找符合条件的数据包。
6.一种基于海量网络数据的特定数据提取系统,其特征在于,包括:
模块M1:进行网络抓包,采集环境中的原始数据,并对原始数据进行网络层协议解析,获得时间戳和五元组,根据时间戳依次存储所有数据包,同时根据五元组对数据包建立索引;
模块M2:将经过网络层协议解析的数据通过应用协议解码引擎解析成交易事件并给每个交易事件分配唯一的事件ID,通过交易关联引擎将多个相关的交易事件关联成交易记录;
模块M3:将交易记录实时发送给应用性能监控平台,应用性能监控平台将交易记录聚合为监控指标,通过仪表板进行呈现,在呈现过程中自定义告警规则,若触发告警则在仪表板中显示;
模块M4:在触发告警时,将对应交易记录导出,并获取该交易记录的所有交易事件ID,通过交易事件ID得到交易事件的原始网络数据。
7.根据权利要求6所述的基于海量网络数据的特定数据提取系统,其特征在于,所述模块M1包括:
模块M1.1:采用网络镜像或网路帮路设备,将网络数据以数据报文形式导出;
模块M1.2:根据网络层协议对网络数据报文进行实时解码,生成网络数据包对象;
模块M1.3:使用网络数据包对象中五元组信息建立会话索引,使用网络数据包的时间戳信息建立数据包索引;
模块M1.4:将网络数据包按时序持久化并保存相应的索引文件。
8.根据权利要求7所述的基于海量网络数据的特定数据提取系统,其特征在于,所述模块M2包括:
模块M2.1:使用网络数据包对象进行在线分析,根据TCP/IP协议特征计算网络指标进行实时网络状态监控;
模块M2.2:使用网络数据包对象结合预定义的分析方法进行应用层协议解码,获得包括交易流水号、交易响应码的交易事件,预定义的分析方法包括数据包解码、深度包分析、正则表达式、规则匹配和字符串搜索;
模块M2.3:根据预定义的关联规则将多个交易事件关联为一次完整的交易记录;
模块M2.4:根据交易发生的时间顺序和交易中关键要素建立索引;
模块M2.5:将交易记录按时序持久化并保存对应的索引文件。
9.根据权利要求8所述的基于海量网络数据的特定数据提取系统,其特征在于,所述模块M3包括:
模块M3.1:使用网络指标,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
模块M3.2:使用交易记录,根据预定义的维度和时间颗粒度进行指标聚合,用于在仪表板中实时展示和告警规则触发;
模块M3.3:基于聚合后的网络指标和交易记录添加告警规则;
模块M3.4:基于聚合后的网络指标和交易记录,按时间颗粒度将指标呈现在仪表盘视图上。
10.根据权利要求6所述的基于海量网络数据的特定数据提取系统,其特征在于,所述模块M4包括:
模块M4.1:根据交易记录的交易事件ID查询该交易记录相关的交易事件,若不存在相关交易事件,则结束导出过程并返回错误提示;若存在则继续导出;
模块M4.2:汇总所有交易事件的数据包时间戳和五元组信息;
模块M4.3:分别根据时间戳和五元组信息查找数据块列表,对两份数据块列表取交集,确定待提取的数据包所属的数据块集合,若数据块集合为空,则结束导出过程并返回错误提示;
模块M4.4:在数据块集合中根据时间戳和五元组信息线性查找符合条件的数据包。
CN202110626602.8A 2021-06-04 2021-06-04 基于海量网络数据的特定数据提取方法和系统 Pending CN113242151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110626602.8A CN113242151A (zh) 2021-06-04 2021-06-04 基于海量网络数据的特定数据提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110626602.8A CN113242151A (zh) 2021-06-04 2021-06-04 基于海量网络数据的特定数据提取方法和系统

Publications (1)

Publication Number Publication Date
CN113242151A true CN113242151A (zh) 2021-08-10

Family

ID=77136884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110626602.8A Pending CN113242151A (zh) 2021-06-04 2021-06-04 基于海量网络数据的特定数据提取方法和系统

Country Status (1)

Country Link
CN (1) CN113242151A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914146A (zh) * 2022-12-19 2023-04-04 上海天旦网络科技发展有限公司 网络会话数据TopK上卷方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106301971A (zh) * 2016-11-17 2017-01-04 国家电网公司 基于流量分析的电力应用性能监控系统
CN106302015A (zh) * 2016-08-16 2017-01-04 华青融天(北京)技术股份有限公司 一种业务状态监控方法、装置以及系统
CN107634848A (zh) * 2017-08-07 2018-01-26 上海天旦网络科技发展有限公司 一种采集分析网络设备信息的系统和方法
CN108989136A (zh) * 2017-05-31 2018-12-11 中国移动通信集团公司 业务端到端性能监控方法及装置
CN109067711A (zh) * 2018-07-16 2018-12-21 中国科学院声学研究所 一种网络数据包的快速回溯分析方法
CN109787809A (zh) * 2018-12-07 2019-05-21 北京盛世全景科技股份有限公司 一种全景易视智能运维系统
CN112433948A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 一种基于网络数据分析的仿真测试系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302015A (zh) * 2016-08-16 2017-01-04 华青融天(北京)技术股份有限公司 一种业务状态监控方法、装置以及系统
CN106301971A (zh) * 2016-11-17 2017-01-04 国家电网公司 基于流量分析的电力应用性能监控系统
CN108989136A (zh) * 2017-05-31 2018-12-11 中国移动通信集团公司 业务端到端性能监控方法及装置
CN107634848A (zh) * 2017-08-07 2018-01-26 上海天旦网络科技发展有限公司 一种采集分析网络设备信息的系统和方法
CN109067711A (zh) * 2018-07-16 2018-12-21 中国科学院声学研究所 一种网络数据包的快速回溯分析方法
CN109787809A (zh) * 2018-12-07 2019-05-21 北京盛世全景科技股份有限公司 一种全景易视智能运维系统
CN112433948A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 一种基于网络数据分析的仿真测试系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914146A (zh) * 2022-12-19 2023-04-04 上海天旦网络科技发展有限公司 网络会话数据TopK上卷方法及系统
CN115914146B (zh) * 2022-12-19 2024-05-14 上海天旦网络科技发展有限公司 网络会话数据TopK上卷方法及系统

Similar Documents

Publication Publication Date Title
CN107634848B (zh) 一种采集分析网络设备信息的系统和方法
CN107229556A (zh) 基于elastic组件的日志分析系统
CN107273267A (zh) 基于elastic组件的日志分析方法
US9531620B2 (en) Control plane packet traffic statistics
US20110032260A1 (en) Enhancing visualization of relationships and temporal proximity between events
CN112491652B (zh) 一种用于测试的网络流量样本处理方法及装置
CN112084224B (zh) 一种数据管理方法、系统、设备及介质
CN109460339B (zh) 日志的流式计算系统
CN108989136A (zh) 业务端到端性能监控方法及装置
CN115776449B (zh) 列车以太网通信状态监测方法及系统
CN114979186B (zh) 基于Flink组件的流量链接分析方法及系统
CN113364624A (zh) 基于边缘计算的混合云流量采集方法和系统
CN108713310A (zh) 用于对在线和传输中信息安全数据进行压缩和优化的方法和系统
CN113242151A (zh) 基于海量网络数据的特定数据提取方法和系统
CN113794719B (zh) 一种基于Elasticsearch技术网络异常流量分析方法、装置和电子设备
CN109783330B (zh) 日志处理方法、显示方法和相关装置、系统
CN111157245A (zh) 一种轨道交通走行部轴承的监管方法及系统
CN111741007B (zh) 一种基于网络层报文解析的金融业务实时监控系统及方法
CN108248641A (zh) 一种城市轨道交通数据处理方法及装置
CN115333967A (zh) 数据上报方法、系统、设备及存储介质
CN111737097B (zh) 一种流处理系统的性能测试方法及相关装置
CN114780625A (zh) 针对民用飞机的数据管理与综合分析系统
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
CN110413496A (zh) 一种实现电子证照运行数据组件化收集的方法
CN112202761B (zh) 一种叉车定位监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810

RJ01 Rejection of invention patent application after publication