CN115333967B - 数据上报方法、系统、设备及存储介质 - Google Patents
数据上报方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115333967B CN115333967B CN202211237383.5A CN202211237383A CN115333967B CN 115333967 B CN115333967 B CN 115333967B CN 202211237383 A CN202211237383 A CN 202211237383A CN 115333967 B CN115333967 B CN 115333967B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- information
- message
- protocol analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- Debugging And Monitoring (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种数据上报方法、系统、设备及存储介质,其中,该方法包括:数据接入子系统的网络流量分析器采集流量信息,由协议解析模块将流量信息分配给对应的协议解析插件进行解析,并进行标准化处理,得到流量信息对应的标准化消息,并由消息管理模块将标准化消息提供给数据处理子系统,最后由数据存储子系统对数据进行存储,由数据服务子系统对数据进行可视化展示和监控。通过协议解析模块可以扩展数据接入子系统所支持的协议种类,提高协议解析的覆盖率,实现全流量的数据审计,通过将协议解析插件处理得到的标准化消息直接提供给数据处理子系统,可以提高数据处理的实时性。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据上报方法、系统、设备及存储介质。
背景技术
数据上报系统可以对网络流量进行分析,从而得到许多数据,其中不仅包括在线上看到的每个连接的综合记录,还包括应用子系统记录,通过对数据进行处理,并对处理后的数据进行存储和可视化展示,可以提高数据管理的效率。
目前的数据上报系统使用网络流量分析器进行数据采集,例如使用ZEEK作为分布式网络安全审计系统的数据采集端,在对采集到的数据进行处理时,常见的方式是将这些采集到的数据写入JSON(JavaScript Object Notation)日志文件或者数据库,以供外部程序的使用。
但是,现有的网络流量分析器支持的协议解析比较有限,无法满足全流量协议的分析,并且,生成的描述网络活动的数据会先以日志文件的形式落盘,再对日志文件进行读取和分析,因此数据的时效性差,数据处理的效率也较低。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种数据上报方法、系统、设备及存储介质,以解决现有技术中无法满足全流量协议的分析、数据的时效性差以及数据处理的效率也较低的问题。
为实现上述目的,本申请采用的技术方案如下:
第一方面,本申请提供了一种数据上报方法,应用于数据上报系统,所述数据上报系统包括:数据接入子系统、数据处理子系统、数据存储子系统和数据服务子系统,所述数据接入子系统中包括至少一个网络流量分析器、与各网络流量分析器通信连接的协议解析模块以及与所述协议解析模块通信连接的消息管理模块,所述方法包括:
所述网络流量分析器采集流量信息,并将所述流量信息发送给所述协议解析模块;
所述协议解析模块根据所述流量信息的来源,确定所述流量信息所使用的目标协议,并将所述流量信息分配给所述目标协议对应的目标协议解析插件,由所述目标协议解析插件对所述流量信息进行标准化处理,得到所述流量信息对应的标准化消息,并将所述标准化消息发送给所述消息管理模块;
所述消息管理模块对所述标准化消息进行管理,并按照管理的结果将所述标准化消息提供给所述数据处理子系统;
所述数据处理子系统对所述标准化消息进行流式处理,得到处理后的数据,并将所述处理后的数据发送给所述数据存储子系统和所述数据服务子系统,由所述数据服务子系统根据所述处理后的数据进行数据的展示和监控。
可选的,所述由所述目标协议解析插件对所述流量信息进行标准化处理,得到所述流量信息对应的标准化消息,包括:
所述目标协议解析插件对所述流量信息中包含文件信息的数据流进行还原,得到所述流量信息对应的至少一个文件信息,并提取所述流量信息中的控制流中的至少一个目标字段信息;
所述目标协议解析插件根据各所述文件信息以及各目标字段信息,得到所述标准化消息。
可选的,所述目标协议解析插件根据各所述文件信息以及各目标字段信息,得到所述标准化消息,包括:
所述目标协议解析插件根据所述各目标字段信息的标识确定所述目标字段信息在所述至少一个文件信息对应的目标文件信息;
针对各目标字段信息,所述目标协议解析插件对所述目标字段信息以及所述目标字段信息对应的目标文件信息进行配对组合,得到一个消息单元;
所述目标协议解析插件将各所述消息单元组合为目标字符串,将所述目标字符串作为所述标准化消息。
可选的,所述消息管理模块对所述标准化消息进行管理,包括:
所述消息管理模块根据所述标准化消息所属的主题,确定待存储所述标准化消息的目标消息队列;
所述消息管理模块将所述标准化消息保存至所述目标消息队列中;
所述消息管理模块将所述目标消息队列中的各标准化消息保存至目标分区文件中。
可选的,所述按照管理的结果将所述标准化消息提供给所述数据处理子系统,包括:
所述数据处理子系统按照各消费者的标识,从各消费者对应的目标分区文件中读取各消费者对应的标准化消息。
可选的,所述协议解析模块根据所述流量信息的来源,确定所述流量信息所使用的目标协议,包括:
所述协议解析模块读取所述流量信息中的各所述数据包的包头,所述包头用于指示各所述数据包的来源;
所述协议解析模块根据各所述数据包的来源,确定所述流量信息所使用的目标协议。
可选的,所述数据处理子系统对所述标准化消息进行流式处理,得到处理后的数据,包括:
所述数据处理子系统对所述标准化消息依次进行读取、清洗、归并和结构化处理,得到处理后的数据。
第二方面,本申请提供了一种数据上报系统,所述系统包括:
数据接入子系统、数据处理子系统、数据存储子系统和数据服务子系统,所述数据接入子系统中包括至少一个网络流量分析器、与各网络流量分析器通信连接的协议解析模块以及与所述协议解析模块通信连接的消息管理模块,其中:
所述网络流量分析器用于采集流量信息,并将所述流量信息发送给所述协议解析模块;
所述协议解析模块用于根据所述流量信息的来源,确定所述流量信息所使用的目标协议,并将所述流量信息分配给所述目标协议对应的目标协议解析插件,由所述目标协议解析插件对所述流量信息进行标准化处理,得到所述流量信息对应的标准化消息,并将所述标准化消息发送给所述消息管理模块;
所述消息管理模块用于对所述标准化消息进行管理,并按照管理的结果将所述标准化消息提供给所述数据处理子系统;
所述数据处理子系统用于对所述标准化消息进行流式处理,得到处理后的数据,并将所述处理后的数据发送给所述数据存储子系统和所述数据服务子系统,由所述数据服务子系统根据所述处理后的数据进行数据的展示和监控。
所述数据接入子系统还用于:
所述目标协议解析插件对所述流量信息中包含文件信息的数据流进行还原,得到所述流量信息对应的至少一个文件信息,并提取所述流量信息中的控制流中的至少一个目标字段信息;
所述目标协议解析插件根据各所述文件信息以及各目标字段信息,得到所述标准化消息。
所述数据接入子系统还用于:
所述目标协议解析插件根据所述各目标字段信息的标识确定所述目标字段信息在所述至少一个文件信息对应的目标文件信息;
针对各目标字段信息,所述目标协议解析插件对所述目标字段信息以及所述目标字段信息对应的目标文件信息进行配对组合,得到一个消息单元;
所述目标协议解析插件将各所述消息单元组合为目标字符串,将所述目标字符串作为所述标准化消息。
所述数据接入子系统还用于:
所述消息管理模块根据所述标准化消息所属的主题,确定待存储所述标准化消息的目标消息队列;
所述消息管理模块将所述标准化消息保存至所述目标消息队列中;
所述消息管理模块将所述目标消息队列中的各标准化消息保存至目标分区文件中。
所述数据处理子系统还用于:
所述数据处理子系统按照各消费者的标识,从各消费者对应的目标分区文件中读取各消费者对应的标准化消息。
所述数据接入子系统还用于:
所述协议解析模块读取所述流量信息中的各所述数据包的包头,所述包头用于指示各所述数据包的来源;
所述协议解析模块根据各所述数据包的来源,确定所述流量信息所使用的目标协议。
所述数据处理子系统还用于:
所述数据处理子系统对所述标准化消息依次进行读取、清洗、归并和结构化处理,得到处理后的数据。
第三方面,本申请提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述数据上报方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述数据上报方法的步骤。
本申请的有益效果是:
本申请通过协议解析模块可以扩展数据接入子系统所支持的协议种类,提高协议解析的覆盖率,实现全流量的数据审计,通过将协议解析插件处理得到的标准化消息直接提供给数据处理子系统,而非将数据落盘成日志文件后再进行读取,可以减少系统对于消息的读写操作,提高标准化消息的处理效率,因此可以提高数据处理的实时性,通过数据接入子系统、数据处理子系统、数据存储子系统以及数据服务子系统形成完备的数据上报系统架构,可以提高本申请数据上报方法的执行效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种数据上报系统的架构示意图;
图2示出了本申请实施例提供的一种数据上报方法的流程图;
图3示出了本申请实施例提供的一种标准化消息生成方法的流程图;
图4示出了本申请实施例提供的又一种标准化消息生成方法的流程图;
图5示出了本申请实施例提供的一种消息管理模块管理方法的流程图;
图6示出了本申请实施例提供的一种Kafka工作原理的示意图;
图7示出了本申请实施例提供的一种确定目标协议方法的流程图;
图8示出了本申请实施例提供的又一种数据上报系统的结构示意图;
图9示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
ZEEK是一种网络流量分析器,通过对于网络中流量进行采集和分析,会得到许多有关流的信息,不仅包括在线上看到的每个连接的综合记录,还包括应用层记录。常见的流量信息处理方式是将这些信息写入JSON日志文件或者数据库,以供外部程序的使用。
目前的数据上报系统使用ZEEK作为分布式网络安全审计系统的数据采集端,可以覆盖网络中绝大部分协议解析,但ZEEK支持的协议解析比较有限,无法满足网络中全流量协议的分析,由于ZEEK自身的原因,在进行全流量解析时,生成的描述网络活动的数据会以日志文件的形式落盘,这样既不利于外部程序的处理,也不具有时效性,满足不了采集数据的展示。
基于上述问题,本申请提出一种数据上报方法,该方法可以应用于图1所示的数据上报系统,数据上报系统中可以包括数据接入子系统101、数据处理子系统、数据存储子系统和数据服务子系统,其中,数据接入子系统101中包括至少一个网络流量分析器、与各网络流量分析器通信连接的协议解析模块以及与协议解析模块通信连接的消息管理模块。
接下来结合图2对本申请的数据上报方法进行说明,如图2所示,该方法包括:
S201:网络流量分析器采集流量信息,并将流量信息发送给协议解析模块。
可选的,网络流量分析器可以监控多个网口,并从所监控的网口获取流量信息,流量信息可以是描述网络活动的数据信息,例如传输的协议、控制流以及数据流等。
可选的,协议解析模块可以是与网络流量分析器通信连接的模块,示例性的,网络流量分析器可以是ZEEK,协议解析模块可以独立部署,或是集成部署在ZEEK上。
协议解析模块可以用于解析流量信息中不同协议的报文信息,示例性的,协议解析模块可以解析数据库类协议,即时通讯类协议,远控类协议等,通过协议解析模块,可以丰富解析的协议种类。
S202:协议解析模块根据流量信息的来源,确定流量信息所使用的目标协议,并将流量信息分配给目标协议对应的目标协议解析插件,由目标协议解析插件对流量信息进行标准化处理,得到流量信息对应的标准化消息,并将标准化消息发送给消息管理模块。
可选的,协议解析模块中可以包括多个协议解析插件,每一个协议解析插件可以用于一种协议的解析。
流量信息的来源例如可以是数据链路层、网络层、传输层等,各层所对应的协议种类不同,因此,协议解析模块可以根据流量信息的来源确定流量信息所使用的协议。示例性的,假设流量信息的来源是传输层,则可以确定该流量信息所使用的协议是TCP或UDP,此时,目标协议解析插件可以是TCP或UDP的协议解析插件。
可选的,标准化消息可以是解析协议插件处理的,符合预设格式的字符串。
可选的,消息管理模块可以对生成的标准化消息进行管理,示例性的,消息管理模块例如可以是KAFKA(发布-订阅模式消息系统)。
KAFKA是一种发布-订阅模式的消息系统,可以跨域一个或多个数据中心服务器上作为集群运行,单节点可支持上千个客户端,可以保证零停机和零数据丢失,并且具备高吞吐量、可以持久化数据存储、分布式系统、易于向外扩展等优势。
值得注意的是,在实际部署中,消息管理模块可以与协议解析模块集成化部署,以提高消息管理的效率,但具体的部署方式本申请在此不作限制。
相比于目前将流量信息处理后先落盘为日志文件,再由消息管理模块对日志文件进行读取和管理,本申请实施例将标准化消息直接发送给消息管理模块,就可以不再进行数据落盘为日志文件的操作,从而减少系统对寄存器的读写操作、内存的占用以及对日志文件的管理,降低了标准化消息处理的复杂度。
S203:消息管理模块对标准化消息进行管理,并按照管理的结果将标准化消息提供给数据处理子系统。
可选的,消息管理模块对标准化消息进行管理,可以是对标准化消息进行存储,以及将管理的标准化消息提供给数据处理子系统。
示例性的,消息管理模块可以按照标准化消息的相关性,将各标准化消息进行分区存储,并在数据处理子系统进行数据读取时,进行分区的分配。
可选的,数据处理子系统例如可以是Flink(Apache Flink,简称Flink),Flink是一种分布式流式处理框架,可以实时计算各类数据指标,例如网络流量监控中各类协议的占比,网络行为中的安全威胁等,提高用户数据获取的实时性。
S204:数据处理子系统对标准化消息进行流式处理,得到处理后的数据,并将处理后的数据发送给数据存储子系统和数据服务子系统,由数据服务子系统根据处理后的数据进行数据的展示和监控。
可选的,数据处理子系统对标准化消息进行流式处理,可以是数据处理子系统实时地处理一个或多个标准化消息。
作为一种可能的实施方式,数据服务子系统可以根据数据处理子系统发送的处理后的数据直接进行数据的展示和监控。
示例性的,可以由消息中间件将数据处理子系统发送的处理后的数据转发给外部程序,进行数据的展示和监控。
作为另一种可能的实施方式,数据处理子系统可以将处理后的数据发送给数据存储子系统,并由数据服务子系统根据数据存储子系统中的数据进行数据的展示和监控。
示例性的,数据存储子系统例如可以是clickhouse(Click Stream,DataWareHouse),数据服务子系统例如可以是ckman(ClickHouse Manager),clickhouse是一种数据库管理系统,具有写入的吞吐量大,查询速度更快,稳定性更高的特点,ckman是一种可视化管理工具,可以从clickhouse中读取数据,并进行数据的可视化展示。
在本申请实施例中,通过数据接入子系统的网络流量分析器采集流量信息,由协议解析模块将流量信息分配给对应的协议解析插件进行解析,并进行标准化处理,得到流量信息对应的标准化消息,并由消息管理模块将标准化消息提供给数据处理子系统,最后由数据存储子系统对数据进行存储,由数据服务子系统对数据进行可视化展示和监控。通过协议解析模块可以扩展数据接入子系统所支持的协议种类,提高协议解析的覆盖率,实现全流量的数据审计,通过将协议解析插件处理得到的标准化消息直接提供给数据处理子系统,而非将数据先落盘成日志文件,再对日志文件进行读取,因此可以提高数据处理的实时性。
接下来对上述S202中,由目标协议解析插件对流量信息进行标准化处理,得到流量信息对应的标准化消息的步骤进行说明,如图3所示,上述S202步骤包括:
S301:目标协议解析插件对流量信息中包含文件信息的数据流进行还原,得到流量信息对应的至少一个文件信息,并提取流量信息中的控制流中的至少一个目标字段信息。
可选的,流量信息中可以包括数据流和控制流,控制流和数据流可以共同描述网络中数据的活动,数据流例如可以是可进行文件传输的协议中,文件事件的相关信息,文件信息例如可以是用户对文件的操作,如用户上传/下载文件,或用户发送/接收文件等,控制流例如可以是可进行文件传输的协议中的字段信息,示例性的,控制流例如可以是报文的字段信息。
需要说明的是,数据流中可能包括文件信息,也可能不包括文件信息,协议解析插件在接收到数据流后,可以先判断数据流中是否包含文件信息,若包含文件信息,则协议解析插件可以对该数据流进行还原,得到该数据流对应的文件信息,对于不包含文件信息的数据流,协议解析插件可以不进行还原。
可选的,目标协议插件可以对流量信息中的数据流和控制流进行识别,并对数据流进行文件还原,得到文件信息,示例性的,当数据流的协议类型为数据库类协议时,目标协议解析插件可以是数据库类协议解析插件,所还原的数据流例如可以是数据库语句。
可选的,目标协议插件可以对控制流提取字段信息,示例性的,当控制流的协议类型为传输类协议时,目标协议插件是传输控制协议(Transmission Control Protocol,TCP)/用户数据报协议(User Datagram Protocol,UDP)协议插件,可以提取TCP/UDP报文信息中的字段,得到字段信息。
需要说明的是,流量信息中可以包括多条数据流和控制流,目标协议解析插件可以分别依次进行各数据流的文件还原和控制流的字段提取,得到各数据流和控制流对应的文件信息和字段信息。
S302:目标协议解析插件根据各文件信息以及各目标字段信息,得到标准化消息。
可选的,目标协议解析插件根据文件信息以及字段信息,可以得到标准化消息,标准化消息可以描述网络中数据的活动。
在本申请实施例中,协议解析插件对数据流进行文件还原得到文件信息,并对控制流进行字段提取得到字段信息,并将文件信息和字段信息处理为标准化消息,可以将相同流的字段信息和文件信息进行关联,并生成标准化的信息格式,提高后续标准化消息处理的效率。
接下来对上述目标协议解析插件根据各文件信息以及各目标字段信息,得到标准化消息的步骤进行说明,如图4所示,上述S302包括:
S401:目标协议解析插件根据各目标字段信息的标识确定目标字段信息在至少一个文件信息对应的目标文件信息。
可选的,字段信息和文件信息都可以包括一个唯一标识,协议解析插件通过该标识可以将相同流的字段信息和文件信息关联起来,示例性的,可以对同一时间段的同一类型的字段信息和文件信息赋予相同的标识。
S402:针对各目标字段信息,目标协议解析插件对目标字段信息以及目标字段信息对应的目标文件信息进行配对组合,得到一个消息单元。
可选的,协议解析插件可以将具有相同标识的字段信息和文件信息进行组合,得到一个消息单元,一个消息单元中可以包括一个字段信息以及该字段信息对应的一个或多个文件信息,其中,字段信息可以描述文件信息的执行顺序。
S403:目标协议解析插件将各消息单元组合为目标字符串,将目标字符串作为标准化消息。
可选的,协议解析插件可以将同一时间段内的消息单元组合为字符串,或是将各消息单元单独转化为字符串,字符串的形式例如可以是JSON字符串。
协议解析插件将同一条流的字段信息和文件信息进行关联处理之后,还可以将生成的标准化消息发送给消息管理模块进行管理,以下是上述消息管理模块对标准化消息进行管理的说明,如图5所示,上述S203步骤包括:
S501:消息管理模块根据标准化消息所属的主题,确定待存储标准化消息的目标消息队列。
可选的,标准化消息所属的主题例如可以是标准化消息所关联的事件。消息管理模块通过对标准化消息的解析,可以获知标准化消息所属的主题。进而,可以将属于同一主题的标准化消息存储至同一消息队列中。
示例性的,一个主题中可以包括多个分区,每个分区用于存储一个或多个标准化消息组成的消息队列。
可选的,消息管理模块可以根据标准化消息的主题信息,首先确定多个标准化消息所组成的消息队列,即目标消息队列。
S502:消息管理模块将标准化消息保存至目标消息队列中。
可选的,消息管理模块可以将新接收到的标准化消息按照该标准化消息所关联的事件,保存到该事件的主题信息对应的消息队列中。
S503:消息管理模块将目标消息队列中的各标准化消息保存至目标分区文件中。
可选的,消息管理模块可以将标准化消息保存到目标消息队列中,并将消息队列追加至分区文件中。
作为另一种可能的实施方式,消息管理模块也可以将标准化消息直接依次追加到目标分区文件中,具体的消息追加方法本申请在此不作限制。
在消息管理模块对标准化消息管理之后,数据处理子系统还可以从消息管理模块中读取标准化消息,以下是对消息管理模块按照管理的结果将标准化消息提供给数据处理子系统的步骤说明,上述S203步骤包括:
数据处理子系统按照各消费者的标识,从各消费者对应的目标分区文件中读取各消费者对应的标准化消息。
消息管理模块可以对标准化消息进行管理,以kafka作为消息管理模块为例,kafka中包括生产者和消费者,生产者可以是消息的发布者,例如本申请实施例中的协议插件,消费者可以是消息的订阅者,例如本申请实施例中的数据处理子系统。
图6给出了一种kafka的工作原理图,图中的kafka服务器可以是分布式部署,消息管理模块可以按照标准化消息所关联的事件将标准化消息保存到不同主题的分区上,数据处理子系统可以包括多个消费者,多个从同一个主题消费的消费者可以加入到同一个消费组中,消费组会均衡的给组内的消费者分配分区,每个分区由消费组中的一个消费者消费。
可选的,消费者的标识可以是消费者所对应的主题,数据处理子系统可以根据消费者所对应主题信息的标识,从具有相同主题信息的分区文件中读取该消费者对应的标准化消息。
值得注意的是,消息管理模块中还可以包括监控组件,监控组件一方面可以实时展示消费管理模块中消费者组的信息、消费者的状态等,另一方面监控组件还可以监控各主题是否出现了消费延时的情况,如果出现可产生告警并进行优化处理。
示例性的,监控组件对消息管理模块进行监控,并对消费延时进行优化的方案可以是:监控组件增加消费者的数量,通过增加消息管理模块中对应主题分区的数量,生成相等数量的消费者;或是提高消费者的消费速度,可通过让消费者进行多线程的处理,并修改消息管理模块的配置,对消费者的消费时间适当延长,通过在消费管理模块中设置监控组件,可以提高消费管理模块对消息管理的可靠度和效率。
在本申请实施例中,没有将标准化消息先落盘为日志文件,再由数据处理子系统对日志文件进行读取,而是直接将标准化消息提供给数据处理子系统进行数据处理,大大减少了系统的读写操作,同时节省了内存,可以提高数据处理的效率。
接下来对上述协议解析模块根据流量信息的来源,确定流量信息所使用的目标协议的步骤进行说明,如图7所示,上述S202步骤包括:
S701:协议解析模块读取流量信息中的各数据包的包头,包头用于指示各数据包的来源。
可选的,流量信息中可以包括多个数据包,协议解析模块通过读取各个数据包的包头,可以确定该数据包的来源,数据包的来源例如可以是传输层、应用层、数据链路层等,不同层级的数据包包头可以不同。
S702:协议解析模块根据各数据包的来源,确定流量信息所使用的目标协议。
示例性的,假设协议解析模块确定数据包来源于传输层,则可以确定该数据包所使用的目标协议为TCP/UDP协议。
以下是对上述数据处理子系统对标准化消息进行流式处理,得到处理后的数据,包括:
数据处理子系统对标准化消息依次进行读取、清洗、归并和结构化处理,得到处理后的数据。
可选的,数据处理子系统例如可以是Flink引擎,Flink引擎可以对标准化消息依次进行实时清洗、归并、结构化处理,并将数据发送到数据库中,进行归档存储,或将处理后的数据发送到数据服务子系统中,进行数据的可视化展示和监控。
基于同一发明构思,本申请实施例中还提供了与数据上报方法对应的数据上报系统,由于本申请实施例中的系统解决问题的原理与本申请实施例上述数据上报方法相似,因此系统的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本申请实施例提供的一种数据上报系统的示意图,所述系统包括:数据接入子系统101、数据处理子系统802、数据存储子系统803和数据服务子系统804,数据接入子系统101中包括至少一个网络流量分析器、与各网络流量分析器通信连接的协议解析模块以及与协议解析模块通信连接的消息管理模块,其中:
数据接入子系统101中的网络流量分析器用于采集流量信息,并将流量信息发送给数据接入子系统101中的协议解析模块;
数据接入子系统101中的协议解析模块用于根据流量信息的来源,确定流量信息所使用的目标协议,并将流量信息分配给目标协议对应的目标协议解析插件,由目标协议解析插件对流量信息进行标准化处理,得到流量信息对应的标准化消息,并将标准化消息发送给数据接入子系统101中的消息管理模块;
数据接入子系统101中的消息管理模块用于对标准化消息进行管理,并按照管理的结果将标准化消息提供给数据处理子系统802;
数据处理子系统802用于:对标准化消息进行流式处理,得到处理后的数据,并将处理后的数据发送给数据存储子系统803和数据服务子系统804,由数据服务子系统804根据处理后的数据进行数据的展示和监控。
数据接入子系统101还用于:
由数据接入子系统101中的目标协议解析插件对流量信息中包含文件信息的数据流进行还原,得到流量信息对应的至少一个文件信息,并提取流量信息中的控制流中的至少一个目标字段信息;
目标协议解析插件根据各文件信息以及各目标字段信息,得到标准化消息。
数据接入子系统101还用于:
由数据接入子系统101中的目标协议解析插件根据各目标字段信息的标识确定目标字段信息在至少一个文件信息对应的目标文件信息;
针对各目标字段信息,目标协议解析插件对目标字段信息以及目标字段信息对应的目标文件信息进行配对组合,得到一个消息单元;
由目标协议解析插件将各消息单元组合为目标字符串,将目标字符串作为标准化消息。
数据接入子系统101还用于:
由数据接入子系统101中的消息管理模块根据标准化消息所属的主题,确定待存储标准化消息的目标消息队列;
由消息管理模块将标准化消息保存至目标消息队列中;
由消息管理模块将目标消息队列中的各标准化消息保存至目标分区文件中。
数据处理子系统802还用于:
数据处理子系统802按照各消费者的标识,从各消费者对应的目标分区文件中读取各消费者对应的标准化消息。
数据接入子系统101还用于:
由数据接入子系统101中的协议解析模块读取流量信息中的各数据包的包头,包头用于指示各数据包的来源;
由协议解析模块根据各数据包的来源,确定流量信息所使用的目标协议。
数据处理子系统802还用于:
数据处理子系统802对标准化消息依次进行读取、清洗、归并和结构化处理,得到处理后的数据。
关于系统中的各子系统的处理流程、以及各子系统之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本申请实施例通过协议解析模块可以扩展数据接入子系统所支持的协议种类,提高协议解析的覆盖率,实现全流量的数据审计,通过将协议解析插件处理得到的标准化消息直接提供给数据处理子系统,而非将数据落盘成日志文件后再进行读取,可以减少系统对于消息的读写操作,提高标准化消息的处理效率,因此可以提高数据处理的实时性。
本申请实施例还提供了一种电子设备,如图9所示,为本申请实施例提供的电子设备结构示意图,包括:处理器91、存储器92和总线。所述存储器92存储有所述处理器91可执行的机器可读指令(比如,图8中的系统中数据接入子系统101、数据处理子系统802、数据存储子系统803和数据服务子系统804对应的执行指令等),当计算机设备运行时,所述处理器91与所述存储器92之间通过总线通信,所述机器可读指令被所述处理器91执行时执行上述数据上报方法的处理。具体的,前述的数据上报系统中的各子系统可以分别部署在不同的电子设备上,在这种情况下,上述电子设备可以指部署各子系统的任一电子设备,该电子设备可以执行对应的子系统所执行的方法步骤。或者,前述的数据上报系统中的各子系统也可以集成部署相同的电子设备上,在这种情况下,上述电子设备可以执行上述数据上报系统中各子系统所执行的方法步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据上报方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (9)
1.一种数据上报方法,应用于数据上报系统,其特征在于,所述数据上报系统包括:数据接入子系统、数据处理子系统、数据存储子系统和数据服务子系统,所述数据接入子系统中包括至少一个网络流量分析器、与各网络流量分析器通信连接的协议解析模块以及与所述协议解析模块通信连接的消息管理模块,所述方法包括:
所述网络流量分析器采集流量信息,并将所述流量信息发送给所述协议解析模块;
所述协议解析模块根据所述流量信息的来源,确定所述流量信息所使用的目标协议,并将所述流量信息分配给所述目标协议对应的目标协议解析插件,由所述目标协议解析插件对所述流量信息进行标准化处理,得到所述流量信息对应的标准化消息,并将所述标准化消息发送给所述消息管理模块;
所述消息管理模块对所述标准化消息进行管理,并按照管理的结果将所述标准化消息提供给所述数据处理子系统;
所述数据处理子系统对所述标准化消息进行流式处理,得到处理后的数据,并将所述处理后的数据发送给所述数据存储子系统和所述数据服务子系统,由所述数据服务子系统根据所述处理后的数据进行数据的展示和监控;
所述由所述目标协议解析插件对所述流量信息进行标准化处理,得到所述流量信息对应的标准化消息,包括:
所述目标协议解析插件对所述流量信息中包含文件信息的数据流进行还原,得到所述流量信息对应的至少一个文件信息,并提取所述流量信息中的控制流中的至少一个目标字段信息;
所述目标协议解析插件根据各所述文件信息以及各目标字段信息,得到所述标准化消息。
2.如权利要求1所述的方法,其特征在于,所述目标协议解析插件根据各所述文件信息以及各目标字段信息,得到所述标准化消息,包括:
所述目标协议解析插件根据所述各目标字段信息的标识确定所述目标字段信息在所述至少一个文件信息对应的目标文件信息;
针对各目标字段信息,所述目标协议解析插件对所述目标字段信息以及所述目标字段信息对应的目标文件信息进行配对组合,得到一个消息单元;
所述目标协议解析插件将各所述消息单元组合为目标字符串,将所述目标字符串作为所述标准化消息。
3.如权利要求1所述的方法,其特征在于,所述消息管理模块对所述标准化消息进行管理,包括:
所述消息管理模块根据所述标准化消息所属的主题,确定待存储所述标准化消息的目标消息队列;
所述消息管理模块将所述标准化消息保存至所述目标消息队列中;
所述消息管理模块将所述目标消息队列中的各标准化消息保存至目标分区文件中。
4.如权利要求3所述的方法,其特征在于,所述按照管理的结果将所述标准化消息提供给所述数据处理子系统,包括:
所述数据处理子系统按照各消费者的标识,从各消费者对应的目标分区文件中读取各消费者对应的标准化消息。
5.如权利要求1所述的方法,其特征在于,所述协议解析模块根据所述流量信息的来源,确定所述流量信息所使用的目标协议,包括:
所述协议解析模块读取所述流量信息中的各数据包的包头,所述包头用于指示各所述数据包的来源;
所述协议解析模块根据各所述数据包的来源,确定所述流量信息所使用的目标协议。
6.如权利要求1-5任一项所述的方法,其特征在于,所述数据处理子系统对所述标准化消息进行流式处理,得到处理后的数据,包括:
所述数据处理子系统对所述标准化消息依次进行读取、清洗、归并和结构化处理,得到处理后的数据。
7.一种数据上报系统,其特征在于,所述数据上报系统包括:数据接入子系统、数据处理子系统、数据存储子系统和数据服务子系统,所述数据接入子系统中包括至少一个网络流量分析器、与各网络流量分析器通信连接的协议解析模块以及与所述协议解析模块通信连接的消息管理模块,其中:
所述网络流量分析器用于采集流量信息,并将所述流量信息发送给所述协议解析模块;
所述协议解析模块用于根据所述流量信息的来源,确定所述流量信息所使用的目标协议,并将所述流量信息分配给所述目标协议对应的目标协议解析插件,由所述目标协议解析插件对所述流量信息进行标准化处理,得到所述流量信息对应的标准化消息,并将所述标准化消息发送给所述消息管理模块;
所述消息管理模块用于对所述标准化消息进行管理,并按照管理的结果将所述标准化消息提供给所述数据处理子系统;
所述数据处理子系统用于对所述标准化消息进行流式处理,得到处理后的数据,并将所述处理后的数据发送给所述数据存储子系统和所述数据服务子系统,由所述数据服务子系统根据所述处理后的数据进行数据的展示和监控;
所述目标协议解析插件还用于:
对所述流量信息中包含文件信息的数据流进行还原,得到所述流量信息对应的至少一个文件信息,并提取所述流量信息中的控制流中的至少一个目标字段信息;
根据各所述文件信息以及各目标字段信息,得到所述标准化消息。
8.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如权利要求1至6任一所述的数据上报方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的数据上报方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211237383.5A CN115333967B (zh) | 2022-10-11 | 2022-10-11 | 数据上报方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211237383.5A CN115333967B (zh) | 2022-10-11 | 2022-10-11 | 数据上报方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115333967A CN115333967A (zh) | 2022-11-11 |
CN115333967B true CN115333967B (zh) | 2022-12-27 |
Family
ID=83914785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211237383.5A Active CN115333967B (zh) | 2022-10-11 | 2022-10-11 | 数据上报方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115333967B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016720A (zh) * | 2022-12-14 | 2023-04-25 | 湖南智领通信科技有限公司 | 一种多接口多通道在线离线网络协议解析系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110868336A (zh) * | 2019-11-11 | 2020-03-06 | 北京明略软件系统有限公司 | 数据管理方法、装置和计算机可读存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104579823B (zh) * | 2014-12-12 | 2016-08-24 | 国家电网公司 | 一种基于大数据流的网络流量异常检测系统及方法 |
US11019101B2 (en) * | 2016-03-11 | 2021-05-25 | Netskope, Inc. | Middle ware security layer for cloud computing services |
US11362910B2 (en) * | 2018-07-17 | 2022-06-14 | International Business Machines Corporation | Distributed machine learning for anomaly detection |
CN110365644B (zh) * | 2019-06-05 | 2020-10-27 | 华南理工大学 | 一种构建物联网设备高性能监控平台的方法 |
CN110222091B (zh) * | 2019-06-10 | 2021-03-30 | 帷幄匠心科技(杭州)有限公司 | 一种海量数据实时统计分析方法 |
CN111309845B (zh) * | 2020-05-15 | 2020-09-08 | 北京全路通信信号研究设计院集团有限公司 | 一种轨道交通路网宏观态势数据显示方法及系统 |
CN114238388A (zh) * | 2021-12-07 | 2022-03-25 | 南京熊猫电子股份有限公司 | 一种基于多协议的异构数据收集及检索系统 |
CN114338439B (zh) * | 2021-12-27 | 2023-08-08 | 上海观安信息技术股份有限公司 | 一种通用的网络流量解析装置和方法 |
-
2022
- 2022-10-11 CN CN202211237383.5A patent/CN115333967B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110868336A (zh) * | 2019-11-11 | 2020-03-06 | 北京明略软件系统有限公司 | 数据管理方法、装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115333967A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2011013B1 (en) | Merging multi-line log entries | |
US8533279B2 (en) | Method and system for reconstructing transactions in a communication network | |
CN104954184A (zh) | 云端后台服务器集群的监控、告警方法及系统 | |
CN101997925A (zh) | 具有预警功能的服务器监控方法及其系统 | |
CN113010565B (zh) | 基于服务器集群的服务器实时数据处理方法及系统 | |
CN110071873A (zh) | 一种发送数据的方法、装置及相关设备 | |
CN111930886A (zh) | 日志处理方法、系统、存储介质及计算机设备 | |
CN115333967B (zh) | 数据上报方法、系统、设备及存储介质 | |
CN107635003A (zh) | 系统日志的管理方法、装置及系统 | |
CN101883009A (zh) | 可靠性数据的自动采集方法、系统及网络管理设备 | |
US8442947B2 (en) | Management of performance data | |
CN116506300A (zh) | 一种网站流量数据统计方法和系统 | |
US10353792B2 (en) | Data layering in a network management system | |
CN115934464A (zh) | 一种信息化平台监控采集系统 | |
CN115086160A (zh) | 一种基于SaaS平台的日志采集方法、终端代理、设备 | |
CN113242151A (zh) | 基于海量网络数据的特定数据提取方法和系统 | |
CN114328093A (zh) | 一种基于Hadoop的监控方法、系统、存储介质及设备 | |
CN113282464A (zh) | 日志监控方法及系统 | |
CN113254313A (zh) | 一种监控指标异常检测方法、装置、电子设备及存储介质 | |
CN113630396B (zh) | 处理网络安全告警信息的方法、装置及系统 | |
CN111654410B (zh) | 网关请求监控方法、装置、设备及介质 | |
CN104735442A (zh) | 一种基于时长分析及全球眼平台的网络录像故障定位系统及方法 | |
de Oliveira | Near real-time network analysis for the identification of malicious activity | |
CN116582465A (zh) | 链路监控方法、介质、装置和计算设备 | |
CN101141299A (zh) | 网管通信的采集系统及其实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |