CN112100257A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents
数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112100257A CN112100257A CN202010847394.XA CN202010847394A CN112100257A CN 112100257 A CN112100257 A CN 112100257A CN 202010847394 A CN202010847394 A CN 202010847394A CN 112100257 A CN112100257 A CN 112100257A
- Authority
- CN
- China
- Prior art keywords
- data
- format
- groups
- formats
- unified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000013499 data model Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000007123 defense Effects 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000013024 troubleshooting Methods 0.000 abstract description 8
- 238000013480 data collection Methods 0.000 abstract description 7
- 239000010979 ruby Substances 0.000 abstract description 6
- 229910001750 ruby Inorganic materials 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种数据处理方法,其中,该数据处理方法包括:获取来自多个数据源的多组原始数据;分别对每组所述原始数据进行格式统一,得到多组格式统一数据;将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;将所述威胁情报发送处理相应数据格式的数据平台,解决了logstash开源数据收集引擎采用基于ruby的配置语法,排查威胁情况难度大的问题,实现了通过大数据模型快速收集处理数据并排查威胁情况。
Description
技术领域
本申请涉及数据处理引擎领域,特别是涉及数据处理方法、装置、计算机设备和存储介质。
背景技术
由于涉及的系统种类繁多,并且每个系统都有自己的开发工具和编程语言,因此,当数据在多个系统之间传输时,不可避免的会增加开发和运维成本,同时,也难以保证数据的一致性。在大多数企业中,超过一半的开发时间都花在了系统间的数据传输上。因此,常用数据处理引擎对多种格式的数据进行数据处理。
EDR日志由于其庞大的日志数量,无法被常规的数据处理引擎快速收集处理,常见的logstash开源数据收集引擎可以采集来自不同数据源的数据,并对数据进行处理后输出到多种输出源。然而logstash开源数据收集引擎采用基于ruby(一种面向对象程序设计的脚本语言)的配置语法,排查威胁情况难度较大。
发明内容
本申请实施例提供了一种数据处理方法、装置、计算机设备和存储介质,以至少解决相关技术中logstash开源数据收集引擎采用基于ruby的配置语法,排查问题难度较大的问题。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取来自多个数据源的多组原始数据;分别对每组所述原始数据进行格式统一,得到多组格式统一数据;将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;将所述威胁情报发送处理相应数据格式的数据平台。
在其中一个实施例中,所述获取来自多个数据源的多组原始数据包括:通过多个可分布式部署的数据输入流器获取多个数据源的原始数据;所述原始数据包括主动防御格式日志、采集器日志、EDR格式日志以及用户自定义格式日志中的一种或多种。
在其中一个实施例中,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据包括:将每组所述原始数据分别存入不同队列;对每一队列中的原始数据进行预处理,得到预处理数据;所述预处理包括删除、填充以及整合中的至少一种;对每一队列中的预处理数据进行格式统一,得到多组格式统一数据。
在其中一个实施例中,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据之后包括:将多组所述格式统一数据发送至存储单元;若接收到存储单元的备份完成信号,则完成备份;所述备份完成信号为存储单元接收到完整的多组所述格式统一数据之后反馈的信号;若未接收到存储单元的备份完成信号,则再次将多组所述格式统一数据发送至存储单元,直至完成备份。
在其中一个实施例中,所述将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报之前包括:获取多组所述格式统一数据中的误报数据和字段丢失数据;将多组所述格式统一数据中的误报数据和字段丢失数据进行删除,得到二次处理数据。
在其中一个实施例中,所述将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报包括:将多组所述格式统一数据和/或二次处理数据输入所述大数据模型;所述大数据模型根据预设算法得到威胁情报;所述预设算法包括分类算法、关联算法以及聚合算法中至少一种。
在其中一个实施例中,所述将所述威胁情报发送处理相应数据格式的数据平台之后包括:删除存储单元内的备份数据。
第二方面,本申请实施例提供了一种数据处理装置,包括:
采集模块:用于获取来自多个数据源的多组原始数据;
预处理模块:用于分别对每组所述原始数据进行格式统一,得到多组格式统一数据;
解析模块:用于将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;
输出模块:用于将所述威胁情报发送处理相应数据格式的数据平台。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据处理方法。
相比于相关技术,本申请实施例提供的数据处理方法,通过获取来自多个数据源的多组原始数据;分别对每组所述原始数据进行格式统一,得到多组格式统一数据;将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;将所述威胁情报发送处理相应数据格式的数据平台,解决了logstash开源数据收集引擎采用基于ruby的配置语法,排查威胁情况难度大的问题,实现了通过大数据模型快速收集处理数据并排查威胁情况。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据处理方法流程图;
图2是根据本申请优选实施例的数据处理方法示意图;
图3是根据本申请实施例的数据处理装置示意图;
图4是根据本申请实施例的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请的数据处理方法主要应用于处理EDR日志。EDR意为端点检测与响应。端点检测与响应是国际上端点安全领域新近出现的研究热点,他完全不同于以往的端点被动防护思路,而是通过云端威胁情报、机器学习、异常行为分析、攻击指示器等方式,主动发现来自外部或内部的安全威胁,并进行自动化捐的阻止、取证、补救和溯源,从而有效对端点进行防护。
EDR客户端发现威胁,会产生EDR日志,该日志包括违规外联日志、登录防护日志、主动防御日志、病毒查杀日志、进程防护日志、文件访问控制日志、微隔离日志、防端口扫描日志、流量画像日志、网站漏洞防护日志、CC攻击防护日志、网站访问控制日志、网站后门查杀日志、勒索防护日志、文件推送日志、挖矿防护日志、情报云脑日志以及客户自定义威胁。假如直接用过rest接口然后直接送入elasticsearch,由于来源的数据多种多样并且格式各不相同,增加开发与运维成本,也很难保持数据的一致性。Rest(RepresentationalState Transfer,简称rest,表述性状态转移)是一组架构约束原则。Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。假如试用传统的logstash数据处理引擎将EDR日志输入elasticsearch,可以达到可以采集来自不同数据源的数据,并对数据进行处理后输出到多种输出源,但是占用系统资源大,并且由于logstash数据处理引擎基于ruby的配置语法,该语法比较复杂并且排查问题难度大。采用本申请的数据收集处理方法可以快速收集,准确收集,精准清洗庞大的EDR日志,达到高吞吐的高并发高效,占用系统资源少的数据处理引擎。使得EDR可以快速给终端做出响应,把威胁拒之门外。
本实施例还提供了一种数据处理方法。图1是根据本申请实施例的数据处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取来自多个数据源的多组原始数据;
具体的,该数据源优选的为EDR(终端检测与响应)客户端,包括:PC设备和Linux服务器。通过数据接收器接收来自数据源的日志数据。
在其中一个实施例中,通过多个可分布式部署的数据输入流器获取多个数据源的原始数据;原始数据包括主动防御格式日志、采集器日志、EDR格式日志以及用户自定义格式日志中的一种或多种。具体的,数据接收器可以由多个数据输入流器组成。数据输入流器可以接收不同格式的日志,这些数据输入流器采用可分布式部署的分布方式,可以达到接收多种格式日志的目的。该数据接收器主要用于采集EDR日志,但也可以采集主动防御格式日志、其他采集器采集到的日志以及用户指定的格式的日志。采用该可分布式的部署的多个数据输入流器,可以提高接收日志数据的速率,降低系统的性能消耗,在短时间内接收庞大的数据。
步骤S102,分别对每组所述原始数据进行格式统一,得到多组格式统一数据;
具体的,将数据接收器采集到的日志数据存入不同的消息队列,根据预设的数据结构样式规则,可以的对已存入消息队列的日志数据进行保留取舍以及字段的补充和整合。采用同一种数据结构样式规则的消息队列处理日志数据后可以得到同一种格式的数据。因此设置多组消息队列及数据结构样式规则,可以得到多组格式统一的数据。结构样式规则可以采用特征匹配算法和模糊匹配算法中的至少一种。消息队列是在消息传输过程中保存消息的容器。消息队列管理器在将消息从它的源中继到他的目标时充当中间人。队列的主要目的是提供路由并保证消息的传递;如果发送消息是接收者不可用,消息队列会保留消息,直到可以成功的传递它。该数据结构样式规则为编码算法,包括强转UTF-8(8位元,Universal Character Set/Unicode Transformation Format)和JSON格式,UTF-8是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。由于存在多种多样的数据结构样式规则,因此当日志进入消息队列后,根据数据结构样式规则,可以在亚秒级的时间内完成对这条数据的保留取舍,以及字段数据的补充和整合,大大提高了日志数据的收集和处理效率。
在其中一个实施例中,将每组所述原始数据分别存入不同队列;对每一队列中的原始数据进行预处理,得到预处理数据;所述预处理包括删除、填充以及整合中的至少一种;对每一队列中的预处理数据进行格式统一,得到多组格式统一数据。具体的,字段是指日志的一部分内容,判断JSON格式的日志是否有基本字段丢失的情况,若基本字段丢失过于严重无法补全,则删除该条字段所属数据,若该字段可以进行补全,则对字段进行补充并进一步整合,整合的目的是让日志更加完整。
在其中一个实施例中,将多组所述格式统一数据发送至存储单元;若接收到存储单元的备份完成信号,则完成备份;所述备份完成信号为存储单元接收到完整的多组所述格式统一数据之后反馈的信号;若未接收到存储单元的备份完成信号,则再次将多组所述格式统一数据发送至存储单元,直至完成备份。具体的,本实施例为预处理数据发送的补偿机制。预处理数据由消息队列发送至核心数据解析器,核心数据解析器接收到完整的预处理数据之后,将预处理数据保存到硬盘中并发送反馈信号给消息队列,则预处理数据发送完成。若未收到反馈信号,则根据预设时间,定时将预处理数据再次发送,直至预处理数据完成备份。该补偿机制保证了数据的发送与保存过程中不会出现数据丢失的情况。
步骤S103,将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;
具体的,将经过处理的多组格式统一的数据输入大数据模型中,生成相应格式的威胁情报。威胁情报是用于识别和检测威胁的失陷标识,是通过大数据分析日志得到的。
在其中一个实施例中,将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报之前包括:获取多组所述格式统一数据中的误报数据和字段丢失数据;将多组所述格式统一数据中的误报数据和字段丢失数据进行删除,得到二次处理数据。具体的,在数据输入大数据模型前,可通过设置拦截器对预处理数据做进一步处理。拦截器主要完成请求参数的解析、将页面表单参数赋给值栈中相应属性、执行功能检验、程序异常调试等工作。该拦截器可以对预处理数据阶段未删除的字段丢失严重的数据进行删除已,也可以将误报数据进行删除,达到对数据二次清晰和过滤的目的,得到二次处理数据,使输入大数据模型的日志更加完整和完善。
在其中一个实施例中,多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报包括:将多组所述格式统一数据和/或二次处理数据输入所述大数据模型;所述大数据模型根据预设算法得到威胁情报;所述预设算法包括分类算法、关联算法以及聚合算法中至少一种。具体的,优选的大数据模型应当包括分类算法、关联算法以及聚合算法。将经过处理后的数据输入大数据模型进行计算,分类算法可以将同一格式的数据进行分类,关联算法可将应用于同一问题的相关数据进行关联,最后通过聚合算法将有关同一个问题或威胁的数据进行聚合生成威胁情报。
步骤S104,将所述威胁情报发送处理相应数据格式的数据平台。
具体的,由核心数据解析器生成的威胁情报,经由可分布式部署的输出模块发送至处理相应数据格式的数据平台。采用可分布式部署架构,可以同时发送多个威胁情报至对应的多个数据平台,提高发送效率。
在其中一个实施例中,将所述威胁情报发送处理相应数据格式的数据平台之后包括:删除存储单元内的备份数据。具体的,在威胁情报经过输出模块发送至对应的数据平台之后,输出模块会反馈给核心数据解析器输出完成信号。核心数据解析器收到输出完成信号后,会把该信号对应的数据的备份数据从硬盘中删除,为硬盘节约存储空间。
通过上述步骤,本申请采用可分布式部署的数据接收器和输出模块,达到了高吞吐数据的目的。采用大数据模型对相关数据进行处理,大大提高了数据处理速度,并且由于消息存在于队列中并且采用的大数据计算模型并未基于ruby的配置语法,使得的问题的排查难度降低,并且,基于该数据处理方法组成的数据处理引擎占用的系统资源也大大减少,做到了快速收集,准确收集数据,精准清洗庞大的EDR日志。使得EDR可以快速给终端做出相应,生成威胁情报。
下面通过优选实施例对本申请实施例进行描述和说明。
图2是根据本申请优选实施例的数据处理方法的示意图。如图2所示,包括主动防御格式日志、其他采集器日志、EDR格式日志以及用户自定义格式日志四种格式的大量日志被分布式部署的收集模块收集。可分布式部署的收集模块保证了多个数据输入流器可以同时采集数据。在收集模块中,数据输入流器采集到的数据被存入队列,根据数据结构样式规则,对存入队列的数据中字段丢失的数据进行删除、保留、补充和整合等操作,经过同一收集模块处理后的数据为同一格式;多个收集模块经由多种数据结构样式规则处理数据,得到多组格式的数据,保证了数据的有序性。将数据处理完成后得到的多组格式的数据输入核心数据解析器。收集模块中还可设置通知单元,该通知单元用于确保收集模块和核心数据处理模块的通讯。若核心数据解析器接收到该数据,则存入硬盘备份,并反馈信号给收集模块,若收集模块并未收到反馈信号,则将数据缓存并经过预设时间段后再次发送该数据直至备份完成。核心数据解析器中的拦截器可再次对数据进行清洗和过滤,得到的二次处理数据输入大数据模型,进行分类、关联和整合,生成威胁情报并由输出模块发送至对应的数据平台,如图中的Elasticsearch、graphite、客户大数据模块和EDR大数据模块中的一种或多种。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种数据处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的数据处理装置的结构框图,如图3所示,该装置包括:
采集模块10:用于获取来自多个数据源的多组原始数据;
预处理模块20:用于分别对每组所述原始数据进行格式统一,得到多组格式统一数据;
解析模块30:用于将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;
输出模块40:用于将所述威胁情报发送处理相应数据格式的数据平台。
采集模块10,还用于通过多个可分布式部署的数据输入流器获取多个数据源的原始数据;所述原始数据包括主动防御格式日志、采集器日志、EDR格式日志以及用户自定义格式日志中的一种或多种。
预处理模块20,还用于将每组所述原始数据分别存入不同队列;对每一队列中的原始数据进行预处理,得到预处理数据;所述预处理包括删除、填充以及整合中的至少一种;对每一队列中的预处理数据进行格式统一,得到多组格式统一数据。
预处理模块20,还用于将多组所述格式统一数据发送至存储单元;若接收到存储单元的备份完成信号,则完成备份;所述备份完成信号为存储单元接收到完整的多组所述格式统一数据之后反馈的信号;若未接收到存储单元的备份完成信号,则再次将多组所述格式统一数据发送至存储单元,直至完成备份。
解析模块30,还用于获取多组所述格式统一数据中的误报数据和字段丢失数据;将多组所述格式统一数据中的误报数据和字段丢失数据进行删除,得到二次处理数据。
解析模块30,还用于将多组所述格式统一数据和/或二次处理数据输入所述大数据模型;所述大数据模型根据预设算法得到威胁情报;所述预设算法包括分类算法、关联算法以及聚合算法中至少一种。
输出模块40,还用于删除存储单元内的备份数据。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例数据方法可以由计算机设备来实现。图4为根据本申请实施例的计算机设备的硬件结构示意图。
计算机设备可以包括处理器41以及存储有计算机程序指令的存储器42。
具体地,上述处理器41可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器42可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器42可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器42可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器42可在数据处理装置的内部或外部。在特定实施例中,存储器42是非易失性(Non-Volatile)存储器。在特定实施例中,存储器42包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器42可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器41所执行的可能的计算机程序指令。
处理器41通过读取并执行存储器42中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在其中一些实施例中,计算机设备还可包括通信接口43和总线4。其中,如图4所示,处理器41、存储器42、通信接口43通过总线4连接并完成相互间的通信。
通信接口43用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口43还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线4包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线4包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线4可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线4可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于获取到的计算机程序指令,执行本申请实施例中的数据处理方法,从而实现结合图1描述的数据处理方法。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取来自多个数据源的多组原始数据;
分别对每组所述原始数据进行格式统一,得到多组格式统一数据;
将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;
将所述威胁情报发送处理相应数据格式的数据平台。
2.根据权利要求1所述的数据处理方法,其特征在于,所述获取来自多个数据源的多组原始数据包括:
通过多个可分布式部署的数据输入流器获取多个数据源的原始数据;所述原始数据包括主动防御格式日志、采集器日志、EDR格式日志以及用户自定义格式日志中的一种或多种。
3.根据权利要求1-2中任一项所述的数据处理方法,其特征在于,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据包括:
将每组所述原始数据分别存入不同队列;
对每一队列中的原始数据进行预处理,得到预处理数据;所述预处理包括删除、填充以及整合中的至少一种;
对每一队列中的预处理数据进行格式统一,得到多组格式统一数据。
4.根据权利要求3所述的数据处理方法,其特征在于,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据之后包括:
将多组所述格式统一数据发送至存储单元;
若接收到存储单元的备份完成信号,则完成备份;所述备份完成信号为存储单元接收到完整的多组所述格式统一数据之后反馈的信号;
若未接收到存储单元的备份完成信号,则再次将多组所述格式统一数据发送至存储单元,直至完成备份。
5.根据权利要求1所述的数据处理方法,其特征在于,所述将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报之前包括:
获取多组所述格式统一数据中的误报数据和字段丢失数据;
将多组所述格式统一数据中的误报数据和字段丢失数据进行删除,得到二次处理数据。
6.根据权利要求5所述的数据处理方法,其特征在于,所述将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报包括:
将多组所述格式统一数据和/或二次处理数据输入所述大数据模型;
所述大数据模型根据预设算法得到威胁情报;所述预设算法包括分类算法、关联算法以及聚合算法中至少一种。
7.根据权利要求6所述的数据处理方法,其特征在于,所述将所述威胁情报发送处理相应数据格式的数据平台之后包括:
删除存储单元内的备份数据。
8.一种数据处理装置,其特征在于,包括:
采集模块:用于获取来自多个数据源的多组原始数据;
预处理模块:用于分别对每组所述原始数据进行格式统一,得到多组格式统一数据;
解析模块:用于将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;
输出模块:用于将所述威胁情报发送处理相应数据格式的数据平台。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847394.XA CN112100257A (zh) | 2020-08-21 | 2020-08-21 | 数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847394.XA CN112100257A (zh) | 2020-08-21 | 2020-08-21 | 数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100257A true CN112100257A (zh) | 2020-12-18 |
Family
ID=73754103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847394.XA Pending CN112100257A (zh) | 2020-08-21 | 2020-08-21 | 数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100257A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377851A (zh) * | 2021-06-11 | 2021-09-10 | 上海妙一生物科技有限公司 | 一种数据处理系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663169A (zh) * | 2015-07-24 | 2017-05-10 | 策安保安有限公司 | 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法 |
CN106778253A (zh) * | 2016-11-24 | 2017-05-31 | 国家电网公司 | 基于大数据的威胁情景感知信息安全主动防御模型 |
CN109299174A (zh) * | 2018-09-11 | 2019-02-01 | 北京奇安信科技有限公司 | 一种多源情报数据聚合处理方法及装置 |
CN109522373A (zh) * | 2018-12-21 | 2019-03-26 | 北京奇安信科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109547479A (zh) * | 2018-12-27 | 2019-03-29 | 国网浙江省电力有限公司电力科学研究院 | 一种工业环境中威胁情报整合系统和方法 |
CN110213238A (zh) * | 2019-05-06 | 2019-09-06 | 北京奇安信科技有限公司 | 数据的威胁检测方法及装置、存储介质、计算机设备 |
CN110351315A (zh) * | 2018-04-03 | 2019-10-18 | 中兴通讯股份有限公司 | 数据处理的方法、系统及存储介质、电子装置 |
CN111190876A (zh) * | 2019-12-31 | 2020-05-22 | 天津浪淘科技股份有限公司 | 日志管理系统及其运行方法 |
-
2020
- 2020-08-21 CN CN202010847394.XA patent/CN112100257A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663169A (zh) * | 2015-07-24 | 2017-05-10 | 策安保安有限公司 | 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法 |
CN106778253A (zh) * | 2016-11-24 | 2017-05-31 | 国家电网公司 | 基于大数据的威胁情景感知信息安全主动防御模型 |
CN110351315A (zh) * | 2018-04-03 | 2019-10-18 | 中兴通讯股份有限公司 | 数据处理的方法、系统及存储介质、电子装置 |
CN109299174A (zh) * | 2018-09-11 | 2019-02-01 | 北京奇安信科技有限公司 | 一种多源情报数据聚合处理方法及装置 |
CN109522373A (zh) * | 2018-12-21 | 2019-03-26 | 北京奇安信科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN109547479A (zh) * | 2018-12-27 | 2019-03-29 | 国网浙江省电力有限公司电力科学研究院 | 一种工业环境中威胁情报整合系统和方法 |
CN110213238A (zh) * | 2019-05-06 | 2019-09-06 | 北京奇安信科技有限公司 | 数据的威胁检测方法及装置、存储介质、计算机设备 |
CN111190876A (zh) * | 2019-12-31 | 2020-05-22 | 天津浪淘科技股份有限公司 | 日志管理系统及其运行方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377851A (zh) * | 2021-06-11 | 2021-09-10 | 上海妙一生物科技有限公司 | 一种数据处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111131379B (zh) | 一种分布式流量采集系统和边缘计算方法 | |
EP2868045B1 (en) | A method of and network server for detecting data patterns in an input data stream | |
CN110287163B (zh) | 安全日志采集解析方法、装置、设备及介质 | |
US20150347305A1 (en) | Method and apparatus for outputting log information | |
US20050278781A1 (en) | System security approaches using sub-expression automata | |
US11347851B2 (en) | System and method for file artifact metadata collection and analysis | |
CN104090891A (zh) | 数据处理方法、装置、数据处理服务器及系统 | |
CN111970236B (zh) | 跨网数据传输方法和装置 | |
CN112558948A (zh) | 一种海量流量下报文识别的方法和装置 | |
CN111866016A (zh) | 日志的分析方法及系统 | |
CN108989151B (zh) | 用于网络或应用性能管理的流量采集方法 | |
US7216364B2 (en) | System security approaches using state tables | |
US20160269428A1 (en) | Data processing | |
EP1607823A2 (en) | Method and system for virus detection based on finite automata | |
CN113810381B (zh) | 一种爬虫检测方法、web应用云防火墙、装置和存储介质 | |
Wang et al. | Using CNN-based representation learning method for malicious traffic identification | |
WO2021097713A1 (zh) | 分布式安全检测系统、方法、设备及存储介质 | |
CN111177193A (zh) | 一种基于Flink的日志流式处理方法及系统 | |
CN112232881A (zh) | 一种数据检测方法、装置、电子设备及存储介质 | |
CN112235253A (zh) | 数据资产的梳理方法、装置、计算机设备和存储介质 | |
CN110784486A (zh) | 一种工业漏洞扫描方法和系统 | |
CN112100257A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112866279B (zh) | 网页安全检测方法、装置、设备及介质 | |
CN112257065A (zh) | 一种进程事件处理方法和装置 | |
CN113098852A (zh) | 一种日志处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |