CN111654412B - 数据采集传输方法、装置和电子设备 - Google Patents

数据采集传输方法、装置和电子设备 Download PDF

Info

Publication number
CN111654412B
CN111654412B CN202010416799.8A CN202010416799A CN111654412B CN 111654412 B CN111654412 B CN 111654412B CN 202010416799 A CN202010416799 A CN 202010416799A CN 111654412 B CN111654412 B CN 111654412B
Authority
CN
China
Prior art keywords
event message
event
message
component
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010416799.8A
Other languages
English (en)
Other versions
CN111654412A (zh
Inventor
蔡伟培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fusionskye Beijing Software Co ltd
Original Assignee
Fusionskye Beijing Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fusionskye Beijing Software Co ltd filed Critical Fusionskye Beijing Software Co ltd
Priority to CN202010416799.8A priority Critical patent/CN111654412B/zh
Publication of CN111654412A publication Critical patent/CN111654412A/zh
Application granted granted Critical
Publication of CN111654412B publication Critical patent/CN111654412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/20Traffic policing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种数据采集传输方法、装置和电子设备,涉及数据处理的技术领域,包括统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;在字节数总和超过预设阈值时,控制source组件在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值;sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。该方法通过限制流向channel组件的event报文的字节数总和,实现控制sink组件对外发送的数据流量的效果,提高了服务端业务系统的稳定性,进而有效的缓解了现有技术中的数据采集传输方法存在的可靠性差的技术问题。

Description

数据采集传输方法、装置和电子设备
技术领域
本发明涉及数据处理的技术领域,尤其是涉及一种数据采集传输方法、装置和电子设备。
背景技术
人们由于过度使用和依赖互联网相关技术而产生了大量的数据,企业能够通过对这些数据进行分析,从中获取数据价值,但由于产生数据的渠道多、产生的数据量大且数据格式多样化,导致收集和使用数据的难度较大。现有技术中,多采用Flume(日志收集系统)作为数据采集框架进行数据采集传输,但在采集和传输数据的过程中,经常出现服务端业务系统响应超时甚至服务器宕机的情况。
综上所述,现有技术中的数据采集传输方法存在可靠性差的技术问题。
发明内容
本发明的目的在于提供一种数据采集传输方法、装置和电子设备,以缓解现有技术中的数据采集传输方法存在的可靠性差的技术问题。
第一方面,本发明实施例提供一种数据采集传输方法,包括:统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断所述字节数总和是否超过预设阈值;若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。
在可选的实施方式中,在控制所述source组件向所述Flume系统中的channel组件发送event报文之前,所述方法还包括:在每条待发送的event报文的报头header添加原始校验码,得到对应的多条待校验event报文,其中,每个所述原始校验码与每条待发送的event报文一一对应。
在可选的实施方式中,所述方法还包括:利用预设加密算法对每条所述待校验event报文进行加密,得到对应的多条加密后的待校验event报文。
在可选的实施方式中,所述外部存储设备包括:kafka本地集群系统。
在可选的实施方式中,所述方法还包括:控制所述sink组件向所述kafka本地集群系统发送所述多条加密后的待校验event报文;其中,所述kafka本地集群系统在接收到所述多条加密后的待校验event报文之后,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,所述过滤后的event报文为未被篡改的报文。
在可选的实施方式中,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,包括:对所述多条加密后的待校验event报文进行解密,得到多条解密后的event报文;判断目标event报文是否为合法报文,其中,所述目标event报文为所述多条解密后的event报文中的任一条event报文;若是,则将所述目标event报文存入所述目标topic目录。
在可选的实施方式中,判断目标event报文是否为合法报文,包括:基于所述目标event报文的body中的数据确定目标校验码;将所述目标校验码与所述目标event报文的报头header中的原始校验码进行比对;若比对结果一致,则确定所述目标event报文为合法报文;若比对结果不一致,则确定所述目标event报文为非法报文。
第二方面,本发明实施例提供一种数据采集传输装置,包括:统计模块,用于统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断模块,用于判断所述字节数总和是否超过预设阈值;第一控制模块,若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;发送模块,用于向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式中任一项所述的方法的步骤。
第四方面,本发明实施例提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行前述实施方式中任一项所述的方法。
本发明提供的数据采集传输方法,包括:统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断字节数总和是否超过预设阈值;若是,则控制source组件向Flume系统中的channel组件发送event报文,其中,在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值;向Flume系统中的sink组件发送获取指令,以使sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。
本发明提供的数据采集传输方法,在利用Flume数据采集框架进行数据采集传输时,对Flume系统中的source组件采集的数据的字节数总和进行统计,若预设时间段内采集到的字节数总和超过预设阈值,则限制流向channel组件的event报文的字节数总和,从而达到控制sink组件对外发送的数据流量的效果,提高了服务端业务系统的稳定性,进而有效的缓解了现有技术中的数据采集传输方法存在的可靠性差的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据采集传输方法的流程图;
图2为本发明实施例提供的一种常规的Flume数据采集框架示意图;
图3为本发明实施例提供的一种判断目标event报文是否为合法报文的流程图;
图4为本发明实施例提供的一种数据采集传输装置的功能模块图;
图5为本发明实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。人们通过使用互联网产生了大量的数据,且数据格式多样化,量级较大,企业想要从中获取价值,首先需要对数据进行收集,但是因为数据产生的渠道多种多样,导致收集的难度加大。
Flume作为数据采集框架的代表,提供了一个分布式的数据采集、聚合和传输的系统,能够提供多种多样数据采集方式,例如:采集文件数据,接收syslog,socket数据包等。但是Flume在采集和传输日志数据过程中,会占用到对应业务服务端的系统资源,例如:服务器带宽,如果过多带宽资源被用于传输Flume采集的数据,则会影响到服务端业务系统的正常运行,进而导致业务系统出现响应超时甚至服务器宕机的情况。有鉴于此,本发明实施例提供了一种数据采集传输方法,用以缓解上文中所涉及的技术问题。
实施例一
图1示出了一种数据采集传输方法的流程图,如图1所示,该方法具体包括如下步骤:
步骤S12,统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和。
常规的Flume数据采集框架如图2所示,Flume以agent为最小的独立运行单元,一个agent主要由三种组件构成:source组件,channel组件和sink组件,source组件主要负责从数据源采集数据,并将采集的数据放置在channel组件中,channel组件对数据进行简单的缓存,sink组件从channel组件获取数据,并将获取到的数据发送至外部存储设备,其中,source组件在采集数据的过程中,将每条数据封装成一条event报文,event报文是Flume的基本数据单位,一条event报文,分为header和body两部分,里面分别分装了对应的信息,通常采集到的数据存放在body中。
由于Flume在占用服务端业务系统的过多带宽资源进行数据采集传输工作时,易导致服务端业务系统的响应超时甚至服务器宕机的情况出现,因此,为了增强Flume数据采集框架的可靠性,发明人想到限制Flume传输数据的流量的方法来解决上述技术问题。
针对上述技术问题,本发明实施例采用流量调节插件对Flume内部的数据采集传输进程进行干预,可以基于Flume拦截器(Interceptor)机制对Flume数据传输流量进行自动化调节限制,赋予Interceptor流量调节插件的功能,Interceptor位置处于Flume整个数据采集链中source组件和channel组件中间,直接从字面上理解的一种作用是拦截过滤指定的数据内容,做一个简单的数据清洗;还有一种作用是在source写入到channel中时,在event报文的header中添加一些有用的信息,比如添加timestamp时间戳。
在本发明实施例中,source组件进行数据采集工作时,可以利用Interceptor统计source组件在预设时间段内采集到的数据的字节数总和,通过上文中的描述可知,source组件在采集到数据后,将每条数据封装成了一条event报文,因此统计时实际是对每条event报文进行换算,从而得到字节数总和的统计结果。上述预设时间段持续的时长用户可以根据实际需求进行设定,本发明实施例不对其进行具体限定,可以选择1秒作为单位时间来进行字节数总和的统计。
步骤S14,判断字节数总和是否超过预设阈值。
若是,则执行步骤S16,若否,则控制source组件在预设时间段内按照数据采集顺序依次向channel组件发送event报文。
步骤S16,控制source组件向Flume系统中的channel组件发送event报文,其中,在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值。
为了达到限制Flume数据传输流量的效果,Interceptor在统计得到source组件在预设时间段内采集到的数据的字节数总和之后,接下来判断上述字节数总和是否超过预设阈值,上述预设阈值需要根据用户的服务端业务系统的配置进行设置,本发明实施例不对其进行具体限定。如果确定未超过预设阈值,那么无需控制source组件向channel组件发送的event报文的数量,source组件在预设时间段内可以按照数据采集顺序依次向channel组件发送event报文;如果确定超过了预设阈值,那么source组件向channel组件发送event报文时,需要对source组件在预设时间段内向channel组件发送的event报文的字节数总和进行限制,要求不能大于上述预设阈值,也即,控制source组件向channel组件发送的event报文的数量。
步骤S18,向Flume系统中的sink组件发送获取指令,以使sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。
具体的,对channel组件接收到的event报文的字节数总和进行限制后,sink组件从channel组件中获取到的event报文的字节数总和也就得到了限制,从而向外部存储设备传输的数据流量也就得到了有效控制,进而提高了服务端业务系统的稳定性。
本发明提供的数据采集传输方法,包括:统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断字节数总和是否超过预设阈值;若是,则控制source组件向Flume系统中的channel组件发送event报文,其中,在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值;向Flume系统中的sink组件发送获取指令,以使sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。
本发明提供的数据采集传输方法,在利用Flume数据采集框架进行数据采集传输时,对Flume系统中的source组件采集的数据的字节数总和进行统计,若预设时间段内采集到的字节数总和超过预设阈值,则限制流向channel组件的event报文的字节数总和,从而达到控制sink组件对外发送的数据流量的效果,提高了服务端业务系统的稳定性,进而有效的缓解了现有技术中的数据采集传输方法存在的可靠性差的技术问题。
利用Flume进行数据传输时,为了能够让外部存储设备判断接收到的event报文是否被篡改,在一个可选的实施方式中,在上述步骤S16,控制source组件向Flume系统中的channel组件发送event报文之前,该方法还包括如下步骤:
步骤S151,在每条待发送的event报文的报头header添加原始校验码,得到对应的多条待校验event报文。
具体的,为了确保信息传输完整一致,增强数据的可靠性,在source组件向channel组件发送封装好的event报文之前,还为每条event报文添加原始校验码,通过上文的描述可知,source组件通常将采集到的数据存放在body中,因此本发明实施例将原始校验码存入event报文的报头header,其中,每个原始校验码与每条待发送的event报文一一对应。上述原始校验码可以采用MD5值,本发明实施例不对原始校验码的具体形式进行限定,用户可以根据实际需求进行设置,只要保证每个原始校验码与每条待发送的event报文一一对应即可。
进一步的,利用Flume进行数据采集传输时,sink组件发送给外部存储设备的数据包大部分采用明文方式进行传输,无法保证数据的安全性,且外部存储设备也无法确定接收到的数据是否为对应的Flume采集传输过来的,还有可能是第三方软件模拟数据报文对外部存储设备发送的,在一些对数据安全性要求较高的行业,现有的Flume数据采集框架无法满足其安全性要求,因此,在一个可选的实施方式中,该方法还包括如下步骤:
步骤S152,利用预设加密算法对每条待校验event报文进行加密,得到对应的多条加密后的待校验event报文。
在本发明实施例中,为了确保数据传输过程中的安全性,还可以使用加密插件对Flume传输的event报文进行加密,具体的,在得到待校验event报文之后,可以利用预设加密算法对每条待校验event报文进行加密,得到对应的多条加密后的待校验event报文。上述加密插件可以使用java语言进行实现,预设加密算法可以采用业界中加密强度较高,使用范围较广的非对称加密方式算法:RSA加密算法,用户也可以根据实际需求选择其他加密算法,本发明实施例不对所采用的预设加密算法进行具体限制。
需要说明的是,上述步骤S151至步骤S152也可以在source组件封装数据得到event报文之后立即执行,在步骤S12统计字节数总和之前也没有问题,只要channel组件接收到的报文是加密后的即可。
通过上述描述可知,在利用Flume进行数据采集传输时,具体可以使用流量调节插件对Flume内部的数据采集传输进程进行干预,监控和灵活的调节Flume数据传输的流量,从而提高服务端业务系统的稳定性;还可以通过在报头增加原始校验码,以及使用加密插件对event报文进行加密,然后再将加密后的报文发送至外部存储设备的方式,增强数据传输的安全性,但是用户在使用Flume传输的报文时,还需要进行报文解密以及校验等相关工作,因此,可以通过在本地部署kafka集群系统,对Flume发送的报文进行相关处理,然后再将处理后的数据供分析系统使用,进而能够有效的提高工作效率。
在一个可选的实施方式中,外部存储设备包括:kafka本地集群系统。
上述方法还包括如下内容:
控制sink组件向kafka本地集群系统发送多条加密后的待校验event报文;其中,kafka本地集群系统在接收到多条加密后的待校验event报文之后,对多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,过滤后的event报文为未被篡改的报文。
具体的,kafka是一个开源的流处理平台,为处理实时数据提供了一个统一、高吞吐、低延迟的数据临时中转平台,当kafka本地集群系统作为Flume的外部存储设备,且Flume对每条event报文的header添加原始校验码以及对报文进行加密后,sink组件向kafka本地集群系统发送多条加密后的待校验event报文,kafka本地集群系统在接收到多条加密后的待校验event报文之后,可以先将上述报文存储在接收外部数据topic目录下,然后再对接收外部数据topic目录中的报文执行过滤的操作,并将过滤后的event报文存入目标topic目录,且目标topic目录中的报文均为未被篡改的报文,用户还可以根据实际需求对过滤条件进行相应的增设,例如,过滤掉病毒文件等。
在一个可选的实施方式中,对多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,具体包括如下步骤:
步骤S31,对多条加密后的待校验event报文进行解密,得到多条解密后的event报文。
步骤S32,判断目标event报文是否为合法报文。
若是,则执行步骤S33,若否,则丢弃所述目标event报文。
步骤S33,将目标event报文存入目标topic目录。
具体的,执行过滤步骤时,首先需要对接收到的多条加密后的待校验event报文进行解密,以得到多条解密后的event报文,然后还要进一步确定解密后的event报文是否被篡改,具体为判断目标event报文是否为合法报文,其中,目标event报文为多条解密后的event报文中的任一条event报文,如果目标event报文为合法报文,则允许目标event报文存入目标topic目录(合法数据topic),否则,丢弃目标event报文。
在一个可选的实施方式中,如图3所示,上述步骤S32,判断目标event报文是否为合法报文,具体包括如下步骤:
步骤S321,基于目标event报文的body中的数据确定目标校验码。
步骤S322,将目标校验码与目标event报文的报头header中的原始校验码进行比对。
若比对结果一致,则执行步骤S323,若比对结果不一致,则执行步骤S324。
步骤S323,确定目标event报文为合法报文。
步骤S324,确定目标event报文为非法报文。
通过上文中的描述可知,每个所述原始校验码与每条待发送的event报文一一对应,且采集到的数据存储在event报文的body中,因此,如果数据在传输过程中被篡改,那么解密后的event报文的body中存储的数据与待发送的event报文的body中存储的数据则不同,因此,在判断目标event报文是否为合法报文时,首先根据目标event报文的body中的数据生成目标校验码,然后判断生成的目标校验码与目标event报文的报头header中的原始校验码是否一致,如果一致,则说明body中的数据在传输过程中没有被篡改过,为合法报文;如果目标校验码与目标event报文的报头header中的原始校验码不一致,则可以确定,数据被篡改过,目标event报文为非法报文。
本发明实施例提供的数据采集传输方法,对Flume数据采集框架进行了改进,通过对Flume数据传输流量进行监控和灵活的调节,提高了服务端业务系统的稳定性,还通过增加加密插件的方法,提高了数据集采集传输过程中的安全性和可靠性,防止企业因为数据泄露造成的经济损失,同时满足了部分行业对数据安全性和可靠性要求。
实施例二
本发明实施例还提供了一种数据采集传输装置,该数据采集传输装置主要用于执行上述实施例一所提供的数据采集传输方法,以下对本发明实施例提供的数据采集传输装置做具体介绍。
图4是本发明实施例提供的一种数据采集传输装置的功能模块图,如图4所示,该装置主要包括:统计模块10,判断模块20,第一控制模块30,发送模块40,其中:
统计模块10,用于统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和。
判断模块20,用于判断字节数总和是否超过预设阈值。
第一控制模块30,若是,则控制source组件向Flume系统中的channel组件发送event报文,其中,在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值。
发送模块40,用于向Flume系统中的sink组件发送获取指令,以使sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。
本发明提供的数据采集传输装置,包括:统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;判断字节数总和是否超过预设阈值;若是,则控制source组件向Flume系统中的channel组件发送event报文,其中,在预设时间段内向channel组件发送的event报文的字节数总和不大于预设阈值;向Flume系统中的sink组件发送获取指令,以使sink组件从channel组件中获取event报文,并将获取到的event报文发送至外部存储设备。该装置在利用Flume数据采集框架进行数据采集传输时,对Flume系统中的source组件采集的数据的字节数总和进行统计,若预设时间段内采集到的字节数总和超过预设阈值,则限制流向channel组件的event报文的字节数总和,从而达到控制sink组件对外发送的数据流量的效果,提高了服务端业务系统的稳定性,进而有效的缓解了现有技术中的数据采集传输方法存在的可靠性差的技术问题。
可选的,该装置还包括:
添加模块,用于在每条待发送的event报文的报头header添加原始校验码,得到对应的多条待校验event报文,其中,每个原始校验码与每条待发送的event报文一一对应。
可选的,该装置还包括:
加密模块,用于利用预设加密算法对每条待校验event报文进行加密,得到对应的多条加密后的待校验event报文。
可选的,外部存储设备包括:kafka本地集群系统。
可选的,该装置还包括:
第二控制模块,用于控制sink组件向kafka本地集群系统发送多条加密后的待校验event报文;其中,kafka本地集群系统在接收到多条加密后的待校验event报文之后,对多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,过滤后的event报文为未被篡改的报文。
可选的,该装置还用于:
对多条加密后的待校验event报文进行解密,得到多条解密后的event报文。
判断目标event报文是否为合法报文,其中,目标event报文为多条解密后的event报文中的任一条event报文。
若是,则将目标event报文存入目标topic目录。
可选的,该装置还用于:
基于目标event报文的body中的数据确定目标校验码。
将目标校验码与目标event报文的报头header中的原始校验码进行比对。
若比对结果一致,则确定目标event报文为合法报文。
若比对结果不一致,则确定目标event报文为非法报文。
实施例三
参见图5,本发明实施例提供了一种电子设备,该电子设备包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的一种数据采集传输方法、装置和电子设备的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种数据采集传输方法,其特征在于,包括:
统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;
判断所述字节数总和是否超过预设阈值;
若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;
向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备;
所述外部存储设备包括:kafka本地集群系统;
所述方法还包括:
控制所述sink组件向所述kafka本地集群系统发送多条加密后的待校验event报文;
其中,所述kafka本地集群系统在接收到所述多条加密后的待校验event报文之后,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,所述过滤后的event报文为未被篡改的报文。
2.根据权利要求1所述的方法,其特征在于,在控制所述source组件向所述Flume系统中的channel组件发送event报文之前,所述方法还包括:
在每条待发送的event报文的报头header添加原始校验码,得到对应的多条待校验event报文,其中,每个所述原始校验码与每条待发送的event报文一一对应。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用预设加密算法对每条所述待校验event报文进行加密,得到对应的多条加密后的待校验event报文。
4.根据权利要求1所述的方法,其特征在于,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,包括:
对所述多条加密后的待校验event报文进行解密,得到多条解密后的event报文;
判断目标event报文是否为合法报文,其中,所述目标event报文为所述多条解密后的event报文中的任一条event报文;
若是,则将所述目标event报文存入所述目标topic目录。
5.根据权利要求4所述的方法,其特征在于,判断目标event报文是否为合法报文,包括:
基于所述目标event报文的body中的数据确定目标校验码;
将所述目标校验码与所述目标event报文的报头header中的原始校验码进行比对;
若比对结果一致,则确定所述目标event报文为合法报文;
若比对结果不一致,则确定所述目标event报文为非法报文。
6.一种数据采集传输装置,其特征在于,包括:
统计模块,用于统计Flume系统中的source组件在预设时间段内采集到的数据的字节数总和;
判断模块,用于判断所述字节数总和是否超过预设阈值;
第一控制模块,若是,则控制所述source组件向所述Flume系统中的channel组件发送event报文,其中,在所述预设时间段内向所述channel组件发送的event报文的字节数总和不大于所述预设阈值;
发送模块,用于向所述Flume系统中的sink组件发送获取指令,以使sink组件从所述channel组件中获取event报文,并将获取到的event报文发送至外部存储设备;
所述外部存储设备包括:kafka本地集群系统;
所述装置还包括:
第二控制模块,用于控制所述sink组件向所述kafka本地集群系统发送多条加密后的待校验event报文;
其中,所述kafka本地集群系统在接收到所述多条加密后的待校验event报文之后,对所述多条加密后的待校验event报文进行过滤,并将过滤后的event报文存入目标topic目录,所述过滤后的event报文为未被篡改的报文。
7.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5中任一项所述的方法的步骤。
8.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行权利要求1至5中任一项所述的方法。
CN202010416799.8A 2020-05-15 2020-05-15 数据采集传输方法、装置和电子设备 Active CN111654412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010416799.8A CN111654412B (zh) 2020-05-15 2020-05-15 数据采集传输方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010416799.8A CN111654412B (zh) 2020-05-15 2020-05-15 数据采集传输方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111654412A CN111654412A (zh) 2020-09-11
CN111654412B true CN111654412B (zh) 2022-02-01

Family

ID=72352737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010416799.8A Active CN111654412B (zh) 2020-05-15 2020-05-15 数据采集传输方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111654412B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113422794A (zh) * 2021-02-09 2021-09-21 阿里巴巴集团控股有限公司 流量录制、回放处理方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452819A (zh) * 2015-08-13 2017-02-22 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN106709069A (zh) * 2017-01-25 2017-05-24 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN106850258A (zh) * 2016-12-22 2017-06-13 北京锐安科技有限公司 一种日志管理系统、方法及装置
CN109032910A (zh) * 2018-07-24 2018-12-18 北京百度网讯科技有限公司 日志采集方法、装置及存储介质
CN109542733A (zh) * 2018-12-05 2019-03-29 焦点科技股份有限公司 一种高可靠的实时日志收集及可视化检索方法
CN109656784A (zh) * 2018-12-25 2019-04-19 新华三技术有限公司 一种日志处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063191B (zh) * 2013-11-12 2019-09-17 皮沃塔尔软件公司 流事件数据收集

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452819A (zh) * 2015-08-13 2017-02-22 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN106850258A (zh) * 2016-12-22 2017-06-13 北京锐安科技有限公司 一种日志管理系统、方法及装置
CN106709069A (zh) * 2017-01-25 2017-05-24 焦点科技股份有限公司 高可靠性的大数据日志采集与传输方法
CN109032910A (zh) * 2018-07-24 2018-12-18 北京百度网讯科技有限公司 日志采集方法、装置及存储介质
CN109542733A (zh) * 2018-12-05 2019-03-29 焦点科技股份有限公司 一种高可靠的实时日志收集及可视化检索方法
CN109656784A (zh) * 2018-12-25 2019-04-19 新华三技术有限公司 一种日志处理方法及装置

Also Published As

Publication number Publication date
CN111654412A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN110324210B (zh) 基于icmp协议进行隐蔽信道通信的检测方法及装置
US11477548B2 (en) Network telemetry with byte distribution and cryptographic protocol data elements
EP2933954B1 (en) Network anomaly notification method and apparatus
US20090238088A1 (en) Network traffic analyzing device, network traffic analyzing method and network traffic analyzing system
CN107181743B (zh) 网络直播数据上报方法及装置
CN112468488A (zh) 工业异常监测方法、装置、计算机设备及可读存储介质
US9548993B2 (en) Automated security gateway
CN112994983B (zh) 流量统计方法、装置和电子设备
CN110808994B (zh) 暴力破解操作的检测方法、装置及服务器
CN104115463A (zh) 用于处理网络元数据的流式传输方法和系统
CN106899443B (zh) 一种Netflow流量数据的采集方法和设备
US20180027008A1 (en) Device activity and data traffic signature-based detection of mobile device health
CN110535888B (zh) 端口扫描攻击检测方法及相关装置
US9594616B2 (en) Method for implementing counting control of counter, and network chip
CN113225339B (zh) 网络安全监测方法、装置、计算机设备及存储介质
KR101602189B1 (ko) 10기가급 패킷 캡쳐링에 의한 트래픽 분석 및 망 감시 시스템
CN111654412B (zh) 数据采集传输方法、装置和电子设备
CN110929896A (zh) 一种系统设备的安全分析方法及装置
CN110266726A (zh) 一种识别ddos攻击数据流的方法及装置
CN113992544A (zh) 端口流量分配的优化方法、装置
CN113315678A (zh) 加密tcp流量采集方法与装置
CN110177075B (zh) 异常访问拦截方法、装置、计算机设备及存储介质
JP2018067829A (ja) 即時トラフィック収集・分析システム及び方法
CN113810332B (zh) 一种加密数据报文判定方法、装置及计算机设备
KR101587845B1 (ko) 디도스 공격을 탐지하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant