CN113709183B - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113709183B
CN113709183B CN202111088766.6A CN202111088766A CN113709183B CN 113709183 B CN113709183 B CN 113709183B CN 202111088766 A CN202111088766 A CN 202111088766A CN 113709183 B CN113709183 B CN 113709183B
Authority
CN
China
Prior art keywords
data processing
module
task
target data
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111088766.6A
Other languages
English (en)
Other versions
CN113709183A (zh
Inventor
张雯雯
史帅
尚程
杨满智
蔡琳
梁彧
傅强
田野
王杰
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hengan Jiaxin Safety Technology Co ltd
Original Assignee
Beijing Hengan Jiaxin Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hengan Jiaxin Safety Technology Co ltd filed Critical Beijing Hengan Jiaxin Safety Technology Co ltd
Priority to CN202111088766.6A priority Critical patent/CN113709183B/zh
Publication of CN113709183A publication Critical patent/CN113709183A/zh
Application granted granted Critical
Publication of CN113709183B publication Critical patent/CN113709183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及存储介质。可以应用于数据处理系统,数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;数据处理方案解析模块分别与数据处理方案设计模块以及数据处理模块通信连接,监测模块与数据处理模块通信连接;其中方法包括:生成与目标数据处理任务对应的数据处理方案;根据数据处理方案确定与目标数据处理任务对应的目标数据处理模块,并通过目标数据处理模块对目标数据处理任务进行处理,得到处理结果;根据处理结果确定异常数据,并对异常数据进行监测,以对网络安全提供保障。本发明实施例的方案,可以实现对大数据的分析处理,为提升网络安全提供保障。

Description

数据处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的不断发展,网络中每天都会产生大量的数据,数据的意义发生了重大的变化,成为了“大数据”,为我们提供更高的利用价值。在大数据时代,用户的喜好、行为等数据,如上网的习惯、浏览的痕迹、参与的话题以及其它信息都会在网络上留下痕迹,提供基础的分析数据,从而简化了需要用户访谈、问卷调查等获得用户行为习惯的传统方法。大数据技术的迅猛发展,对业界的研究学者带来了重大的发展基于与技术挑战,传统的计算技术在处理海量的大数据时将面临诸多的技术困难,也使网络安全面临着更严峻的考验。
如何更好地完成大数据分析处理工作,提升网络安全是业内关注的重点问题。
发明内容
本发明实施例提供一种数据处理方法、装置、设备及存储介质,以实现对大数据的分析处理工作,为提升网络安全提供保障。
第一方面,本发明实施例提供了一种数据处理方法,应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;所述方法包括:
生成与目标数据处理任务对应的数据处理方案;
根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;
根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障。
第二方面,本发明实施例还提供了一种数据处理装置,应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;所述装置包括:
数据处理方案生成模块,用于生成与目标数据处理任务对应的数据处理方案;
处理结果获取模块,用于根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;
异常数据确定模块,用于根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障。
第三方面,本发明实施例还提供了一种数据处理设备,所述数据处理设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一实施例所述的数据处理设备方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一实施例所述的数据处理设备方法。
本发明实施例可以应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;所述方法包括:生成与目标数据处理任务对应的数据处理方案;根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障,可以实现对大数据的分析处理,为提升网络安全提供保障。
附图说明
图1是本发明实施例一中的一种数据处理方法的流程图;
图2是本发明实施例一中的一种数据处理系统的结构示意图;
图3是本发明实施例一中的一种数据处理系统的架构图;
图4是本发明实施例二中的一种数据处理装置的结构示意图;
图5是本发明实施例三中的一种数据处理设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种数据处理方法的流程图,本实施例可适用于对网络大数据进行处理,进而确定异常数据的情况,该方法可以应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;该方法可以由数据处理装置执行,该装置可以通过软件和/或硬件的方式实现,并集成在数据处理设备中;在本实施例中,数据处理设备可以为计算机、服务器或者平板电脑等;具体的,参考图1,该方法具体包括如下步骤:
步骤110、生成与目标数据处理任务对应的数据处理方案。
其中,目标数据处理任务可以为交通数据采集以及存储任务、网络流量数据监控以及报警任务或者多媒体数据下载任务等等,本实施例中对其不加以限定。
在本实施例的一个可选实现方式中,数据处理系统在接收到目标数据处理任务时,可以通过数据处理方案设计模块生成与目标数据处理任务对应的数据处理方案;其中,数据处理方案设计模块可以提供图形化设计环境,能够实现数据处理方案的设计与编辑,包括数据处理可配元素库、设计与引导模块、方案校验与整合模块、接口封装模块。
在本实施例中,数据处理可配元素库,给系统提供数据处理全部可配元素,包括图形化的计算资源、处理环节、处理算法、数据流向等;设计与引导模块,提供数据处理方案模板和设计过程引导。用户通过拖拽各类可配元素,并设定相应配置参数,完成完整数据处理流程的方案;方案校验与整合模块,对生成的数据处理方案进行校验,查找各项指标是否存在冲突。各项指标包括:元素数量、资源数量、处理算法、计算框架、存储对象类型等;接口封装模块,实现系统中的涉及的所有数据处理流程方案进行按照统一的标准进行模块化封装,并形成不同类型的接口,包括http接口、RFC接口和web service接口等以供其他模块和系统调用,最终实现与其他系统平台进行功能、数据的集成交互。
在本实施例的一个可选实现方式中,生成与目标数据处理任务对应的数据处理方案,包括:根据所述目标数据处理任务中的各目标数据的属性信息生成与目标数据处理任务对应的数据处理方案;其中,各所述目标数据的属性信息包括下述至少一项:数据类型、数据大小以及数据格式;
相应的,本实施例中在生成与目标数据处理任务对应的数据处理方案之后,还可以包括:对所述数据处理方案进行封装,并生成目标接口,以对所述数据处理方案进行调用。
步骤120、根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果。
在本实施例的一个可选实现方式中,数据处理方案设计模块在生成与目标数据处理任务对应的数据处理方案之后,数据处理系统中的数据处理方案模块以及数据数据处理模块可以根据数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果。
其中,目标数据处理模块可以包括:通用处理模块、网络宏观特征处理模块或者网络微观特征处理模块。
在本实施例的一个可选实现方式中,所述根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,可以包括:根据所述数据处理方案确定与目标数据处理任务对应的各目标数据的数据类型;若所述数据类型为通用数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述通用处理模块;若所述数据类型为网络宏观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块;若所述数据类型为网络微观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块。
进一步的,通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果,可以包括:若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块,则通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理;相应的,所述通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理,可以包括:在目标数据处理任务的执行过程中,对获取到的网络流量数据进行关联分析,得到宏观特征分析结果;其中,宏观特征结果,包括:网络拓扑、数据流分析以及资源分布。
在本实施例的另一个可选实现方式中,通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果,还可以包括:若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块,则通过所述网络微观特征处理模块对所述目标数据处理任务进行处理;相应的,所述通过所述网络微观特征处理模块对所述目标数据处理任务进行处理,可以包括:在目标数据处理任务的执行过程中,对获取到的网络流量数据进行微观分析,得到微观特征分析结果;其中,宏观特征分析结果,包括:系统漏洞、数据包、设备性能指标以及系统日志。
需要说明的是,在本实施例中,数据处理方案解析模块可以实现数据处理任务的解析分配,以及计算任务区的划分与分配功能,实现处理任务接收解析功能,具备多任务规划和并行执行功能,同时能够根据数据处理任务对计算资源进行划分,对计算区进行隔离和创建。
数据处理任务解析模块:通过人机交互界面,接受数据处理任务和相应指标要求,读取任务方案中的数据处理方案,或接受来自于任务配置与管理的数据处理方案,最终实现对方案进行解析得到明确的数据处理任务;计算任务区创建模块:对任务解析后,根据任务方案,调用相应系统的处理插件,对任务进行分区分配,并可同时执行多个任务。
数据处理模块提供预处理等通用数据处理算法,支持新的数据处理算法注册发布,能够根据任务需要实现数据自动获取和算法自动调用,完成相应的处理任务;通用处理模块,实现实时数据预处理、常规处理等通用数据处理以及网络特征的数据处理,支持数据实时预处理、数据计算、常用统计分析等通用数据处理算法。分为通用数据预处理、微观数据处理和宏观数据处理,通用预处理主要包括数据加工、整合、集成等算法,常规处理主要包括常用数值计算、数据关联、数据分类、回归分析、数据聚类等算法;网络宏观特征处理包括网络拓扑、数据流和资源分布等;网络微观特征数据处理包括系统漏洞、数据包、设备性能指标、系统日志等;算法管理模块实现的目的是提供用户对新算法的检查、分类、注册、发布与管理等操作,提供图形化的算法开发环境,用于算法库的扩展;算法调用模块实现的目的是根据数据处理流程任务的需要,自动或提示用户选择满足该处理任务要求的算法,并完成该算法在任务对应的计算环境资源中加载,计算并执行对应的数据处理任务。
步骤130、根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障。
在本实施例的一个可选实现方式中,数据处理方案解析模块以及数据处理模块根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果之后,可以进一步的通过监测模块确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障。
在本实施例的一个可选实现方式中,根据所述处理结果确定异常数据,可以包括:将各所述处理结果与标准基线进行比对,当目标处理结果与标准基线的比对结果大于设定阈值时,确定所述目标处理结果为异常数据。
可选的,在将各所述处理结果与标准基线进行比对之前,还可以包括:获取多个参考结果,并根据各参考结果生成所述标准基线;其中,各所述参考结果中不包含异常数据。
示例性的,在本实施例中,可以通过获取大量的无异常网络流量数据,并根据这些网络流量数据的数据特征生成标准基线,通过该标准基线可以准确地确定处理结果中的异常数据,从而为网络安全提供保障。
需要说明的是,本实施例中涉及到的监测模块可以实现数据处理过程各个环节运行状态监视,以及对数据处理任务的人工干预资源调度处理功能,实现任务执行优先级排序能力:其中,数据处理过程监视模块可以对数据处理过程中的每个阶段进行监视,包括数据处理状态监视和插件运行状态监视;通过对数据处理状态监视和插件运行状态监视,用户可以及时了解当前数据处理任务运行是否正常,以及系统插件是否可正常支撑外部系统使用;处理任务调度模块:通过调度处理模块,可以根据任务需求和当前处理状态,通过人工干预或调用任务执行队列优化算法,调整任务执行的优先级。一般情况下,处理调度模块会按照一定的算法进行数据处理任务的调度。当用户想根据自定义的方式调整任务的执行顺序时,可以通过任务调度模块,调整任务执行的先后顺序,使得通过调整后的任务按照用户指定的执行顺序运行。
本实施例的方案,可以应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;所述方法包括:生成与目标数据处理任务对应的数据处理方案;根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障,可以实现对大数据的分析处理,为提升网络安全提供保障。
为了使本领域技术人员更好地理解本实施例数据处理方法,下面采用一个具体示例进行说明;图2是本发明实施例一中的一种数据处理系统的结构示意图,包括:数据处理方案设计模块210、数据处理方案解析模块220、数据处理模块230以及监测模块240;所述数据处理方案解析模块220分别与所述数据处理方案设计模块210以及所述数据处理模块230通信连接,所述监测模块240与所述数据处理模块230通信连接。
在本实施例中,数据处理方案设计模块210包括数据处理可配元素库、设计与引导模块、方案校验与整合模块以及接口封装模块;其中,数据处理可配元素库,给系统提供数据处理全部可配元素,包括图形化的计算资源、处理环节、处理算法、数据流向等;设计与引导模块,提供数据处理方案模板和设计过程引导。用户通过拖拽各类可配元素,并设定相应配置参数,完成完整数据处理流程的方案;方案校验与整合模块,对生成的数据处理方案进行校验,查找各项指标是否存在冲突。各项指标包括:元素数量、资源数量、处理算法、计算框架、存储对象类型等;接口封装模块,实现系统中的涉及的所有数据处理流程方案进行按照统一的标准进行模块化封装,并形成不同类型的接口,包括http接口、RFC接口和webservice接口等以供其他模块和系统调用,最终实现与其他系统平台进行功能、数据的集成交互。
需要说明的是,在本实施例中,数据处理方案设计模块210可以通过流程设计器进行实现,流程设计器提供图形化的界面,主要用来完成数据处理的设计工作。ETL提供内置的数据处理组件和数据源组件,用户可以通过拖拽、复制、粘贴来完成复杂数据流程的设计。
流程设计器主要分为展现部分和模型部分。展现部分主要用来完成流程设计的工作,以图形化的形式显示数据处理的工作流;模型部分用来描述和保存数据处理的结点的属性信息。模型部分和展示部分是一一对应的关系,模型部分会保存到元数据库当中。当使用流程设计器打开设计的流程时,会将模型部分转换为展现部分。所有结点的模型合起来描述了一个完整的工作流。通过该组件能够以拖拉拽的形式形成方案设计交互界面,用户通过前端浏览器,拖拽配置组件即可完成方案的设计。
在本实施例中,数据处理方案解析模块220包括:数据处理任务解析模块以及计算任务区创建模块;其中,数据处理任务解析模块:通过人机交互界面,接受数据处理任务和相应指标要求,读取任务方案中的数据处理方案,或接受来自于任务配置与管理的数据处理方案,最终实现对方案进行解析得到明确的数据处理任务;计算任务区创建模块:对任务解析后,根据任务方案,调用相应系统的处理插件,对任务进行分区分配,并可同时执行多个任务。
需要说明的是,在数据处理任务解析过程中,通过流程解析模块对抽取过程、转换过程、装载过程基于抽取规则、转换规则、装在规则进行任务解析和处理,实现基于前端的流程方案的实际落地参数,更好的协调多方计算资源、解读解析任务,为后续数据处理过程提供支撑。
在本实施例中,数据处理模块230包括:通用处理模块、算法管理模块以及算法调用模块;其中,通用处理模块实时数据预处理、常规处理等通用数据处理以及网络特征的数据处理,支持数据实时预处理、数据计算、常用统计分析等通用数据处理算法。分为通用数据预处理、微观数据处理和宏观数据处理,通用预处理主要包括数据加工、整合、集成等算法,常规处理主要包括常用数值计算、数据关联、数据分类、回归分析、数据聚类等算法;网络宏观特征处理包括网络拓扑、数据流和资源分布等;网络微观特征数据处理包括系统漏洞、数据包、设备性能指标、系统日志等;法管理模块目的是提供用户对新算法的检查、分类、注册、发布与管理等操作,提供图形化的算法开发环境,用于算法库的扩展;法调用模块目的是根据数据处理流程任务的需要,自动或提示用户选择满足该处理任务要求的算法,并完成该算法在任务对应的计算环境资源中加载,计算并执行对应的数据处理任务。
需要说明的是,在本实施例中,通用处理模块可以包括通用数据预处理,网络宏观特征处理和网微观特征处理。
其中,通用数据预处理支持数据实时预处理、数据计算、常用统计分析等通用数据处理算法,包括字段的选择、类型校验、范围校验等,如下表所示:
网络宏观特征处理能对网络流量数据进行关联分析,从整体上把握网络的运行情况,得到宏观特征结果包括:网络拓扑、数据流分析和资源分布等。
网络微观特征数据处理能够对网络流量数据进行微观分析,对单个数据包进行分析,得到分析结果包括:系统漏洞、数据包、设备性能指标、系统日志等。
数据处理实施技术是指按照数据处理方案和解析的参数设定,对数据处理过程进行实现,从数据源到数据湖或操作型数据存储的过程中,需要对数据进行抽取、转换、装载处理:(1)数据抽取是从数据源获取符合需要的数据的过程。数据抽取过程会过滤掉数据湖中不需要的源数据字段,并进行格式和类型转换。数据抽取可以采用PULL和PUSH两种方式。PUSH就是指由源系统按照双方定义的数据格式,将符合要求的格式抽取出来,再通过FTP或其它文件传送方式拷贝到ETL系统中。PULL则是有ETL程序直接访问数据源,获取数据的方式。(2)数据转换过程就是结合通用数据处理特征、网络宏观特征、网络微观特征对数据源进行处理。(3)数据加载实现加载经转换和汇总的数据到目标数据湖中,可实现SQL批量加载。数据加载策略包括加载周期和数据追加策略。装载过程中应该避免生成日志,利用成批的转载功能(比如,创建索引和聚集等)。
在本实施例中,监测模块240包括:数据处理过程监视模块以及处理任务调度模块;其中,数据处理过程监视模块可以对数据处理过程中的每个阶段进行监视,包括数据处理状态监视和插件运行状态监视;通过对数据处理状态监视和插件运行状态监视,用户可以及时了解当前数据处理任务运行是否正常,以及系统插件是否可正常支撑外部系统使用;处理任务调度模块242:可以根据任务需求和当前处理状态,通过人工干预或调用任务执行队列优化算法,调整任务执行的优先级。一般情况下,处理调度模块会按照一定的算法进行数据处理任务的调度。当用户想根据自定义的方式调整任务的执行顺序时,可以通过任务调度模块,调整任务执行的先后顺序,使得通过调整后的任务按照用户指定的执行顺序运行。
在本实施例的一个具体例子中,首先用户可以通过前端的交互界面进行数据处理方案的设计拟定,拟定过程中可以根据模板引导内容进行数据处理流程的设计,基于元素库对数据处理组件进行选择和添加,形成方案后对方案进行整合和校验,校验通过后对方案进行封装,并下发。
进一步的,当数据处理解析组件接收到数据处理方案后对方案所需计算资源情况、数据源来源、组件内容进行解析,匹配并分配相应的计算资源环境,同时判断是否需要高性能计算环境的支撑,如果需要则调用高性能计算资源环境。任务下发前,通过处理调度组件对任务区进行任务排序,调度高优先级任务优先执行,实时监控任务的紧急程度和处理进度。
相应的,开始执行数据处理任务时,对选定数据源进行常规和通用预处理,同时利用宏观特征和微观特征对数据进行处理,得到目标数据,存储到数据仓库中,数据处理任务结束后,进行任务区回收和资源回收。
图3是本发明实施例一中的一种数据处理系统的架构图,其主要包括数据来源层310、数据处理层320、数据存储层330以及应用层340。
其中,数据源层310是提供系统的数据来源。需要说明的是,在数据来源中,包括3种类型的数据:结构化数据,非结构化数据以及半结构化数据。结构化数据一般包含:mysql、Sql server、DB2、Oracle等关系型数据库中的数据。非结构化数据一般包括:各类报表、图片和音频、视频信息等。半结构化的数据一般包含:XML、HTML等,数据源类型包括语音、图片、视频、文本、文件、通信协议等。
数据处理层320是数据处理分系统的主要核心部分。该层实现的主要目的是对于收集来的数据,进行数据的抽取,数据的转换和数据的加载。数据抽取的过程是从数据源中抽取所需的数据,包括全量抽取和增量抽取,同时进行数据的清洗,得到完整的数据。数据转换的过程是把抽取来的多源异构的数据统一转换成统一格式的数据。同时在转化的过程中运用多种算法,例如:数据的加工、整合、集成等算法,以及数值计算、数据关联、数据分类、回归分析、数据聚类等算法对数据进行分析和处理,并在处理过程中合理调用及分配不同的数据处理架构和计算资源。
数据存储层330:数据处理过程的最后一步是数据加载,通过前期的数据处理生成的过程数据以及结果数据都将在该层进行存储。系统的数据存储方式主要以数据库的形式进行保存,例如:HDFS、MongoDB、Hive、Hbase、MPP等。以及存储系统内部产生的数据,包括系统配置,系统管理员账号、信息等,通过关系型数据库保存,例如:mysql、SQL server等。还有系统产生的过程数据,一般用Redis存储。
应用层340主要负责支撑系统的实际应用,主要包括数据处理方案的规划、数据处理任务的解析和数据处理任务调度监控:(1)方案规划实现数据任务处理方案的交互式设计,提供图形化设计环境,实现数据处理方案的设计与编辑,完成数据获取,处理算法,处理环节,结果分发或者存储等。在全过程的配置方案中,能兼容处理规模、处理速度,优先级等方面要求。(2)数据处理任务解析主要实现数据处理任务的解析分配,以及计算任务区的划分与分配功能,实现处理任务接收解析功能。(3)调度监控要实现数据处理过程各个环节运行状态监视,以及对数据处理任务的人工干预资源调度处理功能,实现任务执行优先级排序能力。
本实施例的方案,可以汇总多源的网络安全数据,对网络数据进行处理并对任务数据处理方案进行拖-拉-拽形式的规划,结合常规数据处理特征、网络微观特征、网络宏观特征和算法模型对数据进行不同层次的处理,同时也可以对数据处理任务进行控制。
实施例二
图4是本发明实施例二中的一种数据处理装置的结构示意图,该装置可以执行上述各实施例中涉及到的数据处理方法。参照图4,该装置包括:数据处理方案生成模块410、处理结果获取模块420以及异常数据确定模块430。
数据处理方案生成模块410,用于生成与目标数据处理任务对应的数据处理方案;
处理结果获取模块420,用于根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;
异常数据确定模块430,用于根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障。
本实施例的方案,通过数据处理方案生成模块生成与目标数据处理任务对应的数据处理方案;通过处理结果获取模块根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;通过异常数据确定模块根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障,可以实现对大数据的分析处理,为提升网络安全提供保障。
在本实施例的一个可选实现方式中,数据处理方案生成模块410,具体用于根据所述目标数据处理任务中的各目标数据的属性信息生成与目标数据处理任务对应的数据处理方案;
其中,各所述目标数据的属性信息包括下述至少一项:
数据类型、数据大小以及数据格式;
相应的,数据处理装置,还包括:封装模块,用于对所述数据处理方案进行封装,并生成目标接口,以对所述数据处理方案进行调用。
在本实施例的一个可选实现方式中,目标数据处理模块包括:通用处理模块、网络宏观特征处理模块或者网络微观特征处理模块;
处理结果获取模块420,具体用于根据所述数据处理方案确定与目标数据处理任务对应的各目标数据的数据类型;
若所述数据类型为通用数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述通用处理模块;
若所述数据类型为网络宏观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块;
若所述数据类型为网络微观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块。
在本实施例的一个可选实现方式中,处理结果获取模块420,还具体用于若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块,则通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理;
相应的,所述通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理,包括:
在目标数据处理任务的执行过程中,对获取到的网络流量数据进行关联分析,得到宏观特征分析结果;
其中,宏观特征结果,包括:网络拓扑、数据流分析以及资源分布。
在本实施例的一个可选实现方式中,处理结果获取模块420,还具体用于若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块,则通过所述网络微观特征处理模块对所述目标数据处理任务进行处理;
相应的,所述通过所述网络微观特征处理模块对所述目标数据处理任务进行处理,包括:
在目标数据处理任务的执行过程中,对获取到的网络流量数据进行微观分析,得到微观特征分析结果;
其中,宏观特征分析结果,包括:系统漏洞、数据包、设备性能指标以及系统日志。
在本实施例的一个可选实现方式中,异常数据确定模块430,具体用于将各所述处理结果与标准基线进行比对,当目标处理结果与标准基线的比对结果大于设定阈值时,确定所述目标处理结果为异常数据。
在本实施例的一个可选实现方式中,数据处理装置,还包括:基线生成模块,用于获取多个参考结果,并根据各参考结果生成所述标准基线;
其中,各所述参考结果中不包含异常数据。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例三
图5为本发明实施例三提供的一种数据处理设备的结构示意图,如图5所示,该数据处理设备包括处理器50、存储器51、输入装置52和输出装置53;数据处理设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;数据处理设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据处理方法对应的程序指令/模块(例如,数据处理装置中的数据处理方案生成模块410、处理结果获取模块420以及异常数据确定模块430)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行数据处理设备的各种功能应用以及数据处理,即实现上述的数据处理方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至数据处理设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与数据处理设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据处理方法,该方法包括:
生成与目标数据处理任务对应的数据处理方案;
根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;
根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种数据处理方法,应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;其特征在于,所述方法包括:
生成与目标数据处理任务对应的数据处理方案;
根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;
根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障;
其中,所述数据处理方案解析模块包括数据处理任务解析模块以及计算任务区创建模块;其中,所述数据处理任务解析模块通过人机交互界面接受数据处理任务和相应指标要求,读取任务方案中的数据处理方案;计算任务区创建模块对任务解析后,根据任务方案调用系统的处理插件对任务进行分区分配,同时执行多个任务;
其中,所述目标数据处理模块包括:通用处理模块、网络宏观特征处理模块或者网络微观特征处理模块;
所述根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,包括:
根据所述数据处理方案确定与目标数据处理任务对应的各目标数据的数据类型;
若所述数据类型为通用数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述通用处理模块;
若所述数据类型为网络宏观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块;
若所述数据类型为网络微观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块;
通用处理包括:数据加工、数据关联、数据分类、回归分析和数据聚类;
所述通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果,包括:
若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块,则通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理;
相应的,所述通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理,包括:
在目标数据处理任务的执行过程中,对获取到的网络流量数据进行关联分析,得到宏观特征分析结果;
其中,宏观特征结果,包括:网络拓扑、数据流分析以及资源分布;
所述通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果,还包括:
若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块,则通过所述网络微观特征处理模块对所述目标数据处理任务进行处理;
相应的,所述通过所述网络微观特征处理模块对所述目标数据处理任务进行处理,包括:
在目标数据处理任务的执行过程中,对获取到的网络流量数据进行微观分析,得到微观特征分析结果;
其中,微观特征分析结果,包括:系统漏洞以及设备性能指标。
2.根据权利要求1所述的方法,其特征在于,所述生成与目标数据处理任务对应的数据处理方案,包括:
根据所述目标数据处理任务中的各目标数据的属性信息生成与目标数据处理任务对应的数据处理方案;
其中,各所述目标数据的属性信息包括下述至少一项:
数据类型、数据大小以及数据格式;
相应的,在生成与目标数据处理任务对应的数据处理方案之后,还包括:
对所述数据处理方案进行封装,并生成目标接口,以对所述数据处理方案进行调用。
3.根据权利要求1所述的方法,其特征在于,所述根据所述处理结果确定异常数据,包括:
将各所述处理结果与标准基线进行比对,当目标处理结果与标准基线的比对结果大于设定阈值时,确定所述目标处理结果为异常数据。
4.根据权利要求3所述的方法,其特征在于,在将各所述处理结果与标准基线进行比对之前,还包括:
获取多个参考结果,并根据各参考结果生成所述标准基线;
其中,各所述参考结果中不包含异常数据。
5.一种数据处理装置,应用于数据处理系统,所述数据处理系统包括:数据处理方案设计模块、数据处理方案解析模块、数据处理模块以及监测模块;所述数据处理方案解析模块分别与所述数据处理方案设计模块以及所述数据处理模块通信连接,所述监测模块与所述数据处理模块通信连接;其特征在于,所述装置包括:
数据处理方案生成模块,用于生成与目标数据处理任务对应的数据处理方案;
处理结果获取模块,用于根据所述数据处理方案确定与所述目标数据处理任务对应的目标数据处理模块,并通过所述目标数据处理模块对所述目标数据处理任务进行处理,得到处理结果;
异常数据确定模块,用于根据所述处理结果确定异常数据,并对所述异常数据进行监测,以对网络安全提供保障;
其中,所述数据处理方案解析模块包括数据处理任务解析模块以及计算任务区创建模块;
其中,所述数据处理任务解析模块,用于通过人机交互界面接受数据处理任务和相应指标要求,读取任务方案中的数据处理方案;
所述计算任务区创建模块,用于对任务解析后,根据任务方案调用系统的处理插件对任务进行分区分配,同时执行多个任务;
其中,目标数据处理模块包括:通用处理模块、网络宏观特征处理模块或者网络微观特征处理模块;
处理结果获取模块,用于根据所述数据处理方案确定与目标数据处理任务对应的各目标数据的数据类型;
若所述数据类型为通用数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述通用处理模块;
若所述数据类型为网络宏观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块;
若所述数据类型为网络微观特征数据,则确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块;
所述通用处理模块,还用于数据加工、数据关联、数据分类、回归分析和数据聚类;
处理结果获取模块,还用于若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络宏观特征处理模块,则通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理;
相应的,所述通过所述网络宏观特征处理模块对所述目标数据处理任务进行处理,包括:
在目标数据处理任务的执行过程中,对获取到的网络流量数据进行关联分析,得到宏观特征分析结果;
其中,宏观特征结果,包括:网络拓扑、数据流分析以及资源分布;
处理结果获取模块,还用于若确定与所述目标数据处理任务对应的目标数据处理模块为所述网络微观特征处理模块,则通过所述网络微观特征处理模块对所述目标数据处理任务进行处理;
相应的,所述通过所述网络微观特征处理模块对所述目标数据处理任务进行处理,包括:
在目标数据处理任务的执行过程中,对获取到的网络流量数据进行微观分析,得到微观特征分析结果;
其中,微观特征分析结果,包括:系统漏洞以及设备性能指标。
6.一种数据处理设备,其特征在于,所述数据处理设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的数据处理方法。
7.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-4中任一所述的数据处理方法。
CN202111088766.6A 2021-09-16 2021-09-16 数据处理方法、装置、设备及存储介质 Active CN113709183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111088766.6A CN113709183B (zh) 2021-09-16 2021-09-16 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111088766.6A CN113709183B (zh) 2021-09-16 2021-09-16 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113709183A CN113709183A (zh) 2021-11-26
CN113709183B true CN113709183B (zh) 2023-07-18

Family

ID=78661154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111088766.6A Active CN113709183B (zh) 2021-09-16 2021-09-16 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113709183B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN107766234A (zh) * 2017-08-31 2018-03-06 广州数沃信息科技有限公司 一种基于移动设备的网页健康度的测评方法、装置及系统
CN108491327A (zh) * 2018-03-26 2018-09-04 中南大学 一种安卓应用动态Receiver组件本地拒绝服务漏洞检测方法
CN110493043A (zh) * 2019-08-16 2019-11-22 武汉思普崚技术有限公司 一种分布式态势感知调用方法和装置
CN113010742A (zh) * 2021-03-01 2021-06-22 歌尔微电子股份有限公司 数据处理方法、装置、设备及介质
CN113240140A (zh) * 2021-06-04 2021-08-10 海尔数字科技(青岛)有限公司 物理设备的故障检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901573A (zh) * 2020-08-17 2020-11-06 泽达易盛(天津)科技股份有限公司 一种基于边缘计算的细颗粒度实时监管系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN107766234A (zh) * 2017-08-31 2018-03-06 广州数沃信息科技有限公司 一种基于移动设备的网页健康度的测评方法、装置及系统
CN108491327A (zh) * 2018-03-26 2018-09-04 中南大学 一种安卓应用动态Receiver组件本地拒绝服务漏洞检测方法
CN110493043A (zh) * 2019-08-16 2019-11-22 武汉思普崚技术有限公司 一种分布式态势感知调用方法和装置
CN113010742A (zh) * 2021-03-01 2021-06-22 歌尔微电子股份有限公司 数据处理方法、装置、设备及介质
CN113240140A (zh) * 2021-06-04 2021-08-10 海尔数字科技(青岛)有限公司 物理设备的故障检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113709183A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN111241078B (zh) 数据分析系统、数据分析的方法及装置
CN107239335B (zh) 分布式系统的作业调度系统及方法
CN111339071B (zh) 一种多源异构数据的处理方法及装置
Park et al. Web-based collaborative big data analytics on big data as a service platform
JP6505123B2 (ja) ビッグ・データ・リポジトリにおけるデータ・セットの処理
US11314808B2 (en) Hybrid flows containing a continous flow
CN109815382B (zh) 大规模网络数据的感知与获取方法和系统
CN109033109B (zh) 数据处理方法及系统
CN109815283A (zh) 一种异构数据源可视化查询方法
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN104572895A (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及系统
CN109814992A (zh) 用于大规模网络数据采集的分布式动态调度方法和系统
CN110740079A (zh) 一种面向分布式调度系统的全链路基准测试系统
CN108108466A (zh) 一种分布式系统日志查询分析方法及装置
CN114756629B (zh) 基于sql的多源异构数据交互分析引擎及方法
CN106383746A (zh) 大数据处理系统的配置参数确定方法和装置
CN113409555B (zh) 一种基于物联网的实时报警联动方法及系统
CN112925619A (zh) 大数据实时计算方法及平台
WO2023227012A1 (zh) 产品数据处理方法、装置及存储介质
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
CN113268530A (zh) 海量异构数据采集方法、系统、计算机设备和存储介质
CN112632082B (zh) 一种创建Flink作业的方法及装置
CN113709183B (zh) 数据处理方法、装置、设备及存储介质
CN106708854A (zh) 数据导出方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant