CN110334119A - 一种数据关联处理方法、装置、设备及介质 - Google Patents
一种数据关联处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110334119A CN110334119A CN201910541182.6A CN201910541182A CN110334119A CN 110334119 A CN110334119 A CN 110334119A CN 201910541182 A CN201910541182 A CN 201910541182A CN 110334119 A CN110334119 A CN 110334119A
- Authority
- CN
- China
- Prior art keywords
- data
- real time
- memory
- rule
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000015654 memory Effects 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012098 association analyses Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012517 data analytics Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009781 safety test method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
- G06F16/24565—Triggers; Constraints
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据关联处理方法、装置、设备及介质,所述方法包括获取关联规则,根据所述关联规则生成关联分析树;根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;根据所述关联目标数据进行数据处理。本发明用于对位于内存的实时数据进行即时关联,从而可以快速得到安全检测结果。通过多种数据的关联,从而能够准确定位触发数据产生的相关事件,应用于安全领域能够显著提升告警的准确度与及时性。本发明自定义语法,并将根据自定义语法编写的关联规则自动执行,降低了关联规则编写门槛,使得关联规则的制定者可以摆脱对于程序开发人员的依赖,缩短关联规则落地时间。
Description
技术领域
本发明涉及安全防御领域,尤其涉及一种数据关联处理方法、装置、设备及介质。
背景技术
随着公司办公环境的互联网化,移动化,无边界化,必然面对更多的网络渗透、木马病毒入侵等网络攻击、还有严峻的信息泄露风险、新型的更隐蔽的APT(advancedpersistent threat)攻击。为了提高纵深防御能力,必须对百亿至千亿海量安全日志数据实时多维关联高速分析,以尽可能早的发现泄露行为或入侵行为,保障办公安全正常和业务连续性。黑客在进行入侵时,会在多种类别的安全日志中留下痕迹。单类别的数据分析往往看不出黑客攻击的全貌,而且误报率高,关联分析成为入侵检测平台应该具备的核心能力。
现有技术中主要有下述关联分析方案:
(1)利用数据库关联查询:将安全日志存入数据库,利用数据库查询语言进行关联查询。这种方法需要数据落地后才能进行分析,性能差、延时性高、实时性低。关系数据库存储量有限,查询速度慢,难以用于处理百亿至千亿海量安全日志数据。
(2)基于规则进行关联查询:需要将业务规则代码化并将其上传到分布式数据平台。规则创建调整更新困难,需要开发人员介入,成本高周期长,灵活性差。
可见,现有技术中尚不存在灵活性高,性能优越的海量数据关联分析方案。
发明内容
为了解决现有技术中尚不存在灵活性高,性能优越的海量数据关联分析方案的技术问题,本发明实施例提供一种数据关联处理方法、装置、设备及介质。
一方面,本发明提供了一种数据关联处理方法,所述方法包括:
获取关联规则,根据所述关联规则生成关联分析树;
根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;
根据所述关联目标数据进行数据处理。
另一方面,本发明提供了一种数据关联处理装置,所述装置包括:
关联分析树获取模块,用于获取关联规则,根据所述关联规则生成关联分析树;
关联模块,用于根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;
数据处理模块,用于根据所述关联目标数据进行数据处理。
另一方面,本发明提供了一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现一种数据关联处理方法。
另一方面,本发明提供了一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行一种数据关联处理方法。
本发明提供了一种数据关联处理方法、装置、设备及介质。本发明用于对位于内存的实时数据进行即时关联,从而可以快速得到安全检测结果。通过多种数据的关联,从而能够准确定位触发数据产生的相关事件,应用于安全领域能够显著提升告警的准确度与及时性。本发明实施例中自定义语法,并将根据自定义语法编写出的关联规则自动执行,降低了关联规则的编写门槛,使得关联规则的制定者可以摆脱对于程序开发人员的依赖,缩短关联规则的落地时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明提供的实施环境示意图;
图2是本发明提供的一种数据关联处理方法流程图;
图3是本发明提供的按照所述关联分析树对所述实时数据进行关联以得到待关联目标数据流程图;
图4是本发明提供的根据所述关联目标数据进行数据处理流程图;
图5是本发明提供的另一根据所述关联目标数据进行数据处理流程图;
图6是本发明提供的实时数据获取优化流程图;
图7是本发明提供的数据获取优化示意图;
图8是本发明提供的一种数据关联处理装置框图;
图9是本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。
为了实施本发明实施例公开的一种数据关联处理方法,本发明实施例给出其实施环境。
参见图1,该实施环境包括:分布式数据分析服务器01、数据采集服务器03、数据存储服务器05和客户端07,所述数据采集服务器03与所述客户端07通信连接,所述数据采集服务器03从所述客户端07获取数据。所述数据采集服务器03、数据分析服务器01和数据存储服务器05依次通信连接,所述数据分析服务器01对于所述数据采集服务器03采集到的数据进行关联分析,并根据分析结果将所述数据或关联分析过程中产生的数据传输至数据存储服务器。
还可以包括告警服务器09,所述告警服务器09与所述数据分析服务器01通信连接,以便于根据所述分析结果进行告警,或根据所述分析结果产生告警信号,并将所述告警信号传输至相关的客户端07。
所述分布式数据分析服务器01、数据采集服务器03和数据存储服务器05均可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。
本发明实施例提供一种数据关联处理方法,所述方法以所述实施环境中的数据分析服务器为实施主体,如图2所示,包括:
S101.获取关联规则,根据所述关联规则生成关联分析树。
具体地,为了解决现有技术中数据关联规则代码化困难,难以摆脱对于研发人员依赖的技术问题,本发明实施例中关联规则可以使用预设语法来表述,从而减低关联规则的制定人员描述关联规则的难度,所述预设语法可以起到伪代码的功能,降低规则的制定人员构建关联规则的难度。
具体地,本发明实施例中使用预设语法描述关联规则时,所述关联规则可以通过支持的运算符、右值规则和左值规则来描述。所述运算符包括逻辑运算符和算法运算符,具体地,所述预算符的表述以及说明可以参考表1,其列出了部分的运算符的说明。右值规则支持现有的字符串、字符串集合和逗号分割的字符串,左值规则支持通过左值方式对字符串进行定义以得到自定义特征。
表1
所述关联规则可以基于JSON语言来描述,通过本发明实施例设定的支持的运算符、右值规则和左值规则,基于JSON语言描述的关联规则构成了关联分析树。JSON(JavaScript Object Notation,对象简谱)是一种轻量级的数据交换格式。它采用完全独立于编程语言的文本格式来存储和表示数据。本发明给出一个示例关联规则的示例:
在一个可行的实施例中,所述关联规则可以由规则制定人员编写,并存储于数据库之中。
S102.根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据。
所述实时数据可以通过定时扫描指定的数据采集器获得,也可以通过实时读取流式数据存储器获得。在安全场景中,所述实时数据可以为实时产生的安全日志。
具体地,可以通过创建定时触发的线程驱动扫描指定的数据采集器。比如,每个一分钟进行一次数据扫描,由内存规则执行对象处理所述扫描的结果。
在一个可行的实施例中,可以对关联规则使用JSON格式进行存放,和规则编写人员使用的配置管理结果相对应,以便于其对关联规则进行调整。
具体地,所述关联分析树包括关联字段和必要字段,所述关联字段包括数据产生时间,所述按照所述关联分析树对所述实时数据进行关联以得到待关联目标数据,如图3所示,包括:
S1021.按照所述关联分析树对所述实时数据进行特征提取,以得到每一条实时数据所包括的字段以及所述字段对应的值。
具体地,所述实时数据可以通过多个来源获得。
其中一个数据来源可以为:所述客户端的某个进程与数据采集器交互所产生的实时数据被传输至数据分析服务器。为了便于举例,本发明实施例将这种实时数据称之为第一类实时数据,所述第一类实时数据可以包括网络请求四元组、数据产生时间、数据产生进程标识、客户端标识、用户标识等字段。
另一个数据来源可以为:数据采集器各个模块所产生的实时数据被传输至数据分析服务器。为了便于举例,本发明实施例将这种实时数据称之为第二类实时数据,所述第二类实时数据可以包括网络请求四元组、数据产生时间和数据统计流量。
以用户名Kylin在2019/2/2510:00:00在pc-kylinzhu使用git.exe往github上传了一个10kB代码文件这一事件为例,则其对应会产生第一实时数据和第二实时数据。
S1023.从所述实时数据中获取待关联数据,所述待关联数据均包括关联字段,并且所述待关联数据满足数据产生关联条件和数据联合条件,所述数据产生关联条件为数据产生时间位于相同的时间窗,所述数据联合条件为除去数据产生时间外的其它关联字段对应的值相同。
对于上述事件产生的第一类数据和第二类数据,所述关联字段可以为网络请求四元组与数据产生时间,所述网络请求四元组包括源IP地址,源端口,目标IP地址和目标端口。互联网协议地址(Internet Protocol Address,IP),是分配给用户上网使用的网际协议的设备的数字标签。
有别于现有技术中的基于SQL(结构化查询语言,Structured Query Language)的联合查询中基于联合主键查询落地到磁盘上的数据,本发明实施例是基于关联字段对实时产生的数据进行关联,而基于相同事件而产生的实时数据,其数据产生时间必然相近,同样理由,若数据产生时间相隔较远,则本发明实施例认为其所指向的实时数据之间的关联必然较弱,其极小概率由相同事件而触发,因此,本发明实施例中的关联字段必然包括数据产生时间。
在一个可行的实施方式中,所述时间窗可以根据实际需求进行设定,比如每0.5秒设置一个时间窗,并对每个时间窗进行编号。若不同数据中的数据产生时间落入编号相同的时间窗之中,则判定其其满足数据产生关联条件。
在另一个可行的实施方式中,所述时间窗可以根据实际需求进行设定,还可以计算不同数据中的数据产生时间的差值,若所述差值小于所述时间窗的窗口长度,则判定其满足数据产生关联条件。
S1025.提取所述待关联数据的关联字段和必要字段以得到待关联目标数据。
对于待关联数据,其可能包括很多字段,以上述事件产生的第一类实时数据和第二类实时数据为例,第一类实时数据包括网络请求四元组、数据产生时间、数据产生进程标识、客户端标识、用户标识五个字段;第二类实时数据包括网络请求四元组、数据产生时间和数据统计流量三个字段。
而在实际进行数据分析的过程中,并不一定需要第一类实时数据或第二类实时数据的全部字段,若只需要第一类实时数据中的数据产生进程标识和客户端标识,第二类实时数据中的数据统计流量,则数据产生进程标识、客户端标识和数据统计流量均为必要字段,第一类实时数据对应的待关联目标数据包括网络请求四元组、数据产生时间、数据产生进程标识、客户端标识四个字段,第二类实时数据对应的待关联目标数据包括网络请求四元组、数据产生时间和数据统计流量三个字段。
当然,本发明实施例中对于关联字段和必要字段的提取包括对字段所对应的键值对的提取。
S1027.合并待关联目标数据以得到关联目标数据。
相应的,待关联目标数据被合并后得到的关联目标数据包括网络请求四元组、数据产生时间、数据产生进程标识、客户端标识和数据统计流量共五个字段。
S103.根据所述关联目标数据进行数据处理。
在一个可行的实施例中,可以根据关联目标数据进行安全检测,则所述根据所述关联目标数据进行数据处理,如图4所示,包括:
S1031.获取安全检测条件。
具体地,所述安全检测条件与所述关联分析树可以为对应关系,即所述关联分析树用于根据实时数据得到关联目标数据,而所述安全检测条件则用于判断关联目标数据是否满足安全检测条件。
S1033.若所述关联目标数据不满足所述安全检测条件,则发布安全警告。
在其它优选的实施例中,还可以生成安全告警消息,将所述安全告警消息推送至相关客户端或者告警网关。
进一步地,在其它优选的实施例中,对于关联目标数据或其它实时数据均可以使用kafka磁盘型分布阵列进行存储,以降低设备成本,获得较高的数据落地可靠性,支持多分区多消费者模式,并行操作,并灵活扩容。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
在一个可行的实施方式中,所述关联目标数据可以直接应用于安全检测,即判断所述关联目标数据是否满足所述安全检测条件,若不满足,则发布安全警告。在另一个可行的实施方式中,还可以对关联目标数据进行统计处理,如图5所示,进行统计处理,并进行后续数据处理包括:
S1032.根据所述关联目标数据得到待统计数据,所述待统计数据为产生时间满足预设时间要求的关联目标数据。
比如,可以按照小时、天数等时间节点进行数据统计,则将产生时间位于相同的时间节点的关联目标数据作为待统计数据。
本发明实施例中产生时间不同于关联目标数据中的数据产生时间字段的值,而是指关联目标数据的实际生成时间。
S1034.对待统计数据的指定字段的对应值进行统计以得到统计结果。
以所述关联目标数据包括网络请求四元组、数据产生时间、数据产生进程标识、客户端标识和数据统计流量共五个字段为例,可以对其数据统计流量进行统计。
S1036.若所述统计结果不满足所述安全检测条件,则发布安全警告。
对于触发安全警告的事件,还可以将其存储于事件库,所述事件库优选使用mongodb实现。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中又很像关系数据库的数据库。它支持的数据结构松散,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
本发明实施例提供的一种数据关联处理方法用于对位于内存的实时数据进行即时关联,从而可以快速得到安全检测结果。通过多种数据的关联,从而能够准确定位触发数据产生的相关事件,应用于安全领域能够显著提升告警的准确度与及时性。本发明实施例中自定义语法,并将根据自定义语法编写出的关联规则自动执行,降低了关联规则的编写门槛,使得关联规则的制定者可以摆脱对于程序开发人员的依赖,缩短关联规则的落地时间。
本发明实施例中的实时数据位于内存之中,而不同的线程为了处理实时数据时不产生冲突,通常会对其使用的实时数据进行加锁保护,这种加锁保护可能会降低实时数据的处理效率,为了进一步提升实时数据的关联效率,本发明实施例对于内存数据的获取过程进行优化。即在步骤S102之前,如图6所示,还包括:
S201.获取实时数据。
S203.对所述实时数据的主键的对应值进行第一次散列以得到用于处理所述实时数据的进程对应的数据队列所在的存储空间。
具体地,所述主键不同于关联字段,其不包括数据产生时间字段,但是可以包括网络请求四元组字段,事实上,在网络安全检测领域,网络请求四元组字段常常可以作为主键使用。
对实时数据按照其主键的对应值进行第一次散列的目的在于使得具有相同主键的对应值的实时数据被存储于相同的进程对应的数据队列所在的存储空间。
具体地,在本发明实施例中,所述数据分析服务器可以为分布式服务器集群,不同服务器节点运行一个实时数据的处理进程,步骤S203中确定了用于处理所述实时数据的进程对应的数据队列所在的存储空间后可将所述实时数据发送至所述所述进程所在的服务器节点。
S205.对各个存储空间中存储的实时数据按照其主键的对应值进行第二次散列以得到用于处理所述实时数据的线程。
第一次散列和第二次散列都可以使用Hash(散列函数)来实现。Hash把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说Hash就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
在一个具体的实施例中,所述用于处理所述实时数据的线程的标识可以根据第二次散列结果而得到。具体地,在一个可行的实施例中所述用于处理所述实时数据的线程的标识通过第二次散列得到的散列值的小数点移动N位后除以线程的数量而得到。所述线程数量为运行于所述服务器节点中用于处理实时数据的线程的数量。
S207.将所述实时数据传输至所述线程对应的数据队列所在的内存分区。
请参考图7,通过第一次散射过程将具备相同主键的对应值的数据发送到了相同的进程所对应的数据队列所在的内存空间,每个内存空间对应唯一一个服务器节点,即将数据发送到了分布式服务器集群中某个服务器节点的内存之中,通过第二次散射将所述数据发送至某个线程的数据队列之中,从而使得具有相同主键的对应值的实时数据被相同的线程进行处理。具体地,所述线程可以通过内存规则执行对象来处理实时数据。
本发明实施例中通过两次散射使得实时数据均可以被发送至其唯一对应的一个线程来处理,线程的确定性可以使得各个线程进行数据关联处理的过程中不再需要进行数据加锁,从而实现了数据的无锁关联。无锁关联可以显著提升数据处理速度,提升告警即时性。在安全检测领域,在安全事件发生后两分钟之内即可收到告警。
本发明实施例在实际使用过程中进行了充分的性能测试,具体为对包括6台进行数据关联的服务器构成的数据分析集群的性能进行测试,其日处理安全日志数据量达到300亿,数据分析集群的中央处理器使用率65%,内存占用30%,执行不同关联规则上千个,服务可用性99.99%,数据完整性99.9%,峰值数据45万每秒。其优秀的性能是使用现有的数据库联合查询无法达到的。
本发明实施例提供了一种数据关联处理装置,如图8所示,所述装置包括:
关联分析树获取模块301,用于获取关联规则,根据所述关联规则生成关联分析树;
关联模块303,用于根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;
数据处理模块305,用于根据所述关联目标数据进行数据处理。
具体地,本发明实施例所述一种数据关联处理装置与方法实施例均基于相同发明构思。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行本发明实施例所述的一种数据关联处理方法。
所述指令包括:
一种数据关联处理方法,所述方法包括:
获取关联规则,根据所述关联规则生成关联分析树;
根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;
根据所述关联目标数据进行数据处理。
进一步地,包括:
按照所述关联分析树对所述实时数据进行特征提取,以得到每一条实时数据所包括的字段以及所述字段对应的值;
从所述实时数据中获取待关联数据,所述待关联数据均包括关联字段,并且所述待关联数据满足数据产生关联条件和数据联合条件,所述数据产生关联条件为数据产生时间位于相同的时间窗,所述数据联合条件为除去数据产生时间外的其它关联字段对应的值相同;
提取所述待关联数据的关联字段和必要字段以得到待关联目标数据;
合并待关联目标数据以得到关联目标数据。
进一步地,包括:
每隔预设时间设置一个时间窗,并对每个时间窗进行编号;若不同数据中的数据产生时间落入编号相同的时间窗之中,则判定其其满足数据产生关联条件;
或,
计算不同数据的数据产生时间的差值,若所述差值小于所述时间窗的窗口长度,则判定其满足数据产生关联条件。
进一步地,包括:
获取安全检测条件;
若所述关联目标数据不满足所述安全检测条件,则发布安全警告。
进一步地,包括:
根据所述关联目标数据得到待统计数据,所述待统计数据为产生时间满足预设时间要求的关联目标数据;
对待统计数据的指定字段的对应值进行统计以得到统计结果;
若所述统计结果不满足所述安全检测条件,则发布安全警告。
进一步地,在所述根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据,之前包括:
获取实时数据;
对所述实时数据的主键的对应值进行第一次散列以得到用于处理所述实时数据的进程对应的数据队列所在的存储空间;
对各个存储空间中存储的实时数据按照其主键的对应值进行第二次散列以得到用于处理所述实时数据的线程;
将所述实时数据传输至所述线程对应的数据队列所在的内存分区。
进一步地,所述用于处理所述实时数据的进程与服务器节点一一对应,所述对各个存储空间中存储的实时数据按照其主键的对应值进行第二次散列以得到用于处理所述实时数据的线程,包括:
通过第二次散列得到的散列值的小数点移动N位后除以线程的数量而得到用于处理所述实时数据的线程的标识,所述线程的数量为服务器节点中运行的用于处理所述实时数据的线程的总量。
进一步地,图9示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本发明实施例所提供的装置。如图9所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种数据关联处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据关联处理方法,其特征在于,所述方法包括:
获取关联规则,根据所述关联规则生成关联分析树;
根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;
根据所述关联目标数据进行数据处理。
2.根据权利要求1所述的方法,其特征在于,所述对进入内存的实时数据进行关联以得到关联目标数据,包括:
按照所述关联分析树对所述实时数据进行特征提取,以得到每一条实时数据所包括的字段以及所述字段对应的值;
从所述实时数据中获取待关联数据,所述待关联数据均包括关联字段,并且所述待关联数据满足数据产生关联条件和数据联合条件,所述数据产生关联条件为数据产生时间位于相同的时间窗,所述数据联合条件为除去数据产生时间外的其它关联字段对应的值相同;
提取所述待关联数据的关联字段和必要字段以得到待关联目标数据;
合并待关联目标数据以得到关联目标数据。
3.根据权利要求2所述的方法,其特征在于:
每隔预设时间设置一个时间窗,并对每个时间窗进行编号;若不同数据中的数据产生时间落入编号相同的时间窗之中,则判定其其满足数据产生关联条件;
或,
计算不同数据的数据产生时间的差值,若所述差值小于所述时间窗的窗口长度,则判定其满足数据产生关联条件。
4.根据权利要求1所述的方法,其特征在于,所述根据所述关联目标数据进行数据处理,包括:
获取安全检测条件;
若所述关联目标数据不满足所述安全检测条件,则发布安全警告。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关联目标数据进行数据处理,包括:
根据所述关联目标数据得到待统计数据,所述待统计数据为产生时间满足预设时间要求的关联目标数据;
对待统计数据的指定字段的对应值进行统计以得到统计结果;
若所述统计结果不满足所述安全检测条件,则发布安全警告。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据,之前包括:
获取实时数据;
对所述实时数据的主键的对应值进行第一次散列以得到用于处理所述实时数据的进程对应的数据队列所在的存储空间;
对各个存储空间中存储的实时数据按照其主键的对应值进行第二次散列以得到用于处理所述实时数据的线程;
将所述实时数据传输至所述线程对应的数据队列所在的内存分区。
7.根据权利要求6所述的方法,其特征在于,所述用于处理所述实时数据的进程与服务器节点一一对应,所述对各个存储空间中存储的实时数据按照其主键的对应值进行第二次散列以得到用于处理所述实时数据的线程,包括:
通过第二次散列得到的散列值的小数点移动N位后除以线程的数量以得到用于处理所述实时数据的线程的标识,所述线程的数量为服务器节点中运行的用于处理所述实时数据的线程的总量。
8.一种数据关联处理装置,其特征在于,所述装置包括:
关联分析树获取模块,用于获取关联规则,根据所述关联规则生成关联分析树;
关联模块,用于根据所述关联分析树生成内存规则执行对象,所述内存规则执行对象用于对进入内存的实时数据进行关联以得到关联目标数据;
数据处理模块,用于根据所述关联目标数据进行数据处理。
9.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的一种数据关联处理方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1-7任一项所述的一种数据关联处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910541182.6A CN110334119B (zh) | 2019-06-21 | 2019-06-21 | 一种数据关联处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910541182.6A CN110334119B (zh) | 2019-06-21 | 2019-06-21 | 一种数据关联处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334119A true CN110334119A (zh) | 2019-10-15 |
CN110334119B CN110334119B (zh) | 2024-06-11 |
Family
ID=68142479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910541182.6A Active CN110334119B (zh) | 2019-06-21 | 2019-06-21 | 一种数据关联处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334119B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339245A (zh) * | 2020-03-03 | 2020-06-26 | 腾讯云计算(北京)有限责任公司 | 数据存储方法、装置、存储介质及设备 |
CN111414619A (zh) * | 2020-03-17 | 2020-07-14 | 深信服科技股份有限公司 | 一种数据安全检测方法、装置、设备及可读存储介质 |
CN112287339A (zh) * | 2020-03-06 | 2021-01-29 | 杭州奇盾信息技术有限公司 | Apt入侵检测方法、装置以及计算机设备 |
CN114500038A (zh) * | 2022-01-24 | 2022-05-13 | 深信服科技股份有限公司 | 网络安全检测方法、装置、电子设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101610174A (zh) * | 2009-07-24 | 2009-12-23 | 深圳市永达电子股份有限公司 | 一种日志关联分析系统与方法 |
CN101938366A (zh) * | 2009-06-30 | 2011-01-05 | 中兴通讯股份有限公司 | 一种实现关联告警的方法及装置 |
CN103678314A (zh) * | 2012-09-03 | 2014-03-26 | 中国银联股份有限公司 | 基于关联规则提取的海量数据处理系统、设备及方法 |
CN103812676A (zh) * | 2012-11-08 | 2014-05-21 | 深圳中兴网信科技有限公司 | 一种实现日志数据实时关联装置及方法 |
CN104933095A (zh) * | 2015-05-22 | 2015-09-23 | 中国电子科技集团公司第十研究所 | 异构信息通用性关联分析系统及其分析方法 |
CN105159845A (zh) * | 2015-09-07 | 2015-12-16 | 四川神琥科技有限公司 | 存储器读取方法 |
KR101757849B1 (ko) * | 2016-08-04 | 2017-07-14 | 주식회사 넷츠 | 규칙 그룹 관리 장치 및 그 방법 |
CN108664509A (zh) * | 2017-03-31 | 2018-10-16 | 华为技术有限公司 | 一种即席查询的方法、装置及服务器 |
-
2019
- 2019-06-21 CN CN201910541182.6A patent/CN110334119B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101938366A (zh) * | 2009-06-30 | 2011-01-05 | 中兴通讯股份有限公司 | 一种实现关联告警的方法及装置 |
CN101610174A (zh) * | 2009-07-24 | 2009-12-23 | 深圳市永达电子股份有限公司 | 一种日志关联分析系统与方法 |
CN103678314A (zh) * | 2012-09-03 | 2014-03-26 | 中国银联股份有限公司 | 基于关联规则提取的海量数据处理系统、设备及方法 |
CN103812676A (zh) * | 2012-11-08 | 2014-05-21 | 深圳中兴网信科技有限公司 | 一种实现日志数据实时关联装置及方法 |
CN104933095A (zh) * | 2015-05-22 | 2015-09-23 | 中国电子科技集团公司第十研究所 | 异构信息通用性关联分析系统及其分析方法 |
CN105159845A (zh) * | 2015-09-07 | 2015-12-16 | 四川神琥科技有限公司 | 存储器读取方法 |
KR101757849B1 (ko) * | 2016-08-04 | 2017-07-14 | 주식회사 넷츠 | 규칙 그룹 관리 장치 및 그 방법 |
CN108664509A (zh) * | 2017-03-31 | 2018-10-16 | 华为技术有限公司 | 一种即席查询的方法、装置及服务器 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339245A (zh) * | 2020-03-03 | 2020-06-26 | 腾讯云计算(北京)有限责任公司 | 数据存储方法、装置、存储介质及设备 |
CN111339245B (zh) * | 2020-03-03 | 2023-05-02 | 腾讯云计算(北京)有限责任公司 | 数据存储方法、装置、存储介质及设备 |
CN112287339A (zh) * | 2020-03-06 | 2021-01-29 | 杭州奇盾信息技术有限公司 | Apt入侵检测方法、装置以及计算机设备 |
CN112287339B (zh) * | 2020-03-06 | 2024-06-04 | 杭州奇盾信息技术有限公司 | Apt入侵检测方法、装置以及计算机设备 |
CN111414619A (zh) * | 2020-03-17 | 2020-07-14 | 深信服科技股份有限公司 | 一种数据安全检测方法、装置、设备及可读存储介质 |
CN111414619B (zh) * | 2020-03-17 | 2023-11-07 | 深信服科技股份有限公司 | 一种数据安全检测方法、装置、设备及可读存储介质 |
CN114500038A (zh) * | 2022-01-24 | 2022-05-13 | 深信服科技股份有限公司 | 网络安全检测方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110334119B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210019674A1 (en) | Risk profiling and rating of extended relationships using ontological databases | |
CN110334119A (zh) | 一种数据关联处理方法、装置、设备及介质 | |
US10929345B2 (en) | System and method of performing similarity search queries in a network | |
US10237295B2 (en) | Automated event ID field analysis on heterogeneous logs | |
CN106326381B (zh) | 基于MapDB构建的HBase数据检索方法 | |
Petrenko et al. | Problem of developing an early-warning cybersecurity system for critically important governmental information assets | |
US20210385251A1 (en) | System and methods for integrating datasets and automating transformation workflows using a distributed computational graph | |
Nasridinov et al. | A decision tree-based classification model for crime prediction | |
CN113924563A (zh) | 通过网站跟踪识别因特网服务提供商的机器学习分类器 | |
CN113347170B (zh) | 一种基于大数据框架的智能分析平台设计方法 | |
CN111680153A (zh) | 一种基于知识图谱的大数据鉴真方法与系统 | |
CN100504882C (zh) | 实现采集数据共享的方法、系统 | |
US9990403B2 (en) | System and a method for reasoning and running continuous queries over data streams | |
CN106453320B (zh) | 恶意样本的识别方法及装置 | |
CN112765366A (zh) | 基于知识图谱的apt组织画像构建方法 | |
US11475013B2 (en) | System, method and computer program for ingesting, processing, storing, and searching technology asset data | |
CN109241084A (zh) | 数据的查询方法、终端设备及介质 | |
CN105610881B (zh) | 一种分布式缓存范围查询方法、装置及系统 | |
CN107871055A (zh) | 一种数据分析方法和装置 | |
CN109685375A (zh) | 一种基于半结构化文本数据的企业风险规则引擎运算方法 | |
Semenov | Principles of social media monitoring and analysis software | |
CN113779017A (zh) | 数据资产管理的方法和装置 | |
Belcastro et al. | A parallel library for social media analytics | |
CN104572945A (zh) | 一种基于云存储空间的文件搜索方法和装置 | |
CN110471926B (zh) | 一种档案建立方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |