CN111865899A - 威胁驱动的协同采集方法及装置 - Google Patents

威胁驱动的协同采集方法及装置 Download PDF

Info

Publication number
CN111865899A
CN111865899A CN202010491567.9A CN202010491567A CN111865899A CN 111865899 A CN111865899 A CN 111865899A CN 202010491567 A CN202010491567 A CN 202010491567A CN 111865899 A CN111865899 A CN 111865899A
Authority
CN
China
Prior art keywords
acquisition
node
security event
collection
security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010491567.9A
Other languages
English (en)
Other versions
CN111865899B (zh
Inventor
李凤华
陈佩
张林杰
房梁
李子孚
耿魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010491567.9A priority Critical patent/CN111865899B/zh
Publication of CN111865899A publication Critical patent/CN111865899A/zh
Application granted granted Critical
Publication of CN111865899B publication Critical patent/CN111865899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种威胁驱动的协同采集方法及装置,所述方法包括:通过第一采集代理采集异常数据并将其转换为安全事件后,发送给第一主节点,第一主节点若查询到数据库中安全事件的数量大于第一阈值,结合实时发生的安全事件,根据第一关联规则和/或第二关联规则构建备选采集项,并根据备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将协同采集结果发送至待采集节点上的采集代理。本发明实施例能够根据威胁的关联性,挖掘安全事件间和节点间的关联规则,在多个节点上自适应地调整协同采集结果,减少采集数据总量,提升数据采集的有效性。

Description

威胁驱动的协同采集方法及装置
技术领域
本发明涉及网络安全技术领域,尤其涉及一种威胁驱动的协同采集方法及装置。
背景技术
为了监测网络系统的威胁状况,需要在网络系统中部署各类采集代理,以采集安全相关的数据。例如,在单台主机上部署的采集代理,采集主机的系统调用、用户登录记录、系统CPU/内存/网络等资源占用情况、进程运行状态、终端命令行历史记录、系统日志信息等运行状态和日志记录信息;在网关、路由器等网络设备中部署的采集代理,采集TCP连接请求数量、ICMP请求数量、TCP数据内容等流量统计信息和应用层数据;在业务服务器部署的采集代理,采集业务请求数据等业务数据;在数据存储服务器上部署的采集代理,采集磁盘IO、磁盘占用等性能数据。
现有技术中数据采集大多只考虑单节点数据的采集,未考虑节点间的位置、时空等关联关系对安全威胁的影响(如威胁的传播特性、相同类型节点可能遭受同样威胁、历史统计中的节点间遭受同样攻击的规律等),导致部分隐含的威胁信息缺失,降低了安全威胁分析的精确度,难以掌握全局的威胁态势和可能的威胁传播情况。此外,现有协同采集结果大多采用静态设置、人工调整的方式,无法根据威胁状况在多个节点上自适应地调整协同采集结果,难以有效应对威胁时刻变化的网络环境。
因此,根据全局的威胁状况,构建安全事件间关联规则和节点间关联规则,以筛选有利于发现潜在威胁的采集项,进而在多个节点上自适应地调整协同采集结果,提高数据采集的有效性,成为亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种威胁驱动的协同采集方法及装置。
第一方面,本发明实施例提供一种威胁驱动的协同采集方法,包括:
第一采集代理采集异常数据,并将所述异常数据转换为安全事件后,将所述安全事件发送给第一主节点;
第一主节点将安全事件存储至数据库中,并定时查询数据库中安全事件的数量;若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则;其中,所述第一关联规则指单个节点上发生的多个安全事件间的关联规则,所述第二关联规则指可能发生相同安全事件的多个节点间的关联规则;
结合实时发生的安全事件,第一主节点根据第一关联规则和/或第二关联规则,构建备选采集项集合;
第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理;其中,所述待采集节点由协同采集结果确定,所述采集收益因素包括节点的相似性、数据有效性和威胁严重程度中的至少一种;所述采集成本因素包括采集占用资源、数据隐私泄露、协同采集结果变动和虚假预测风险中的至少一种。
优选地,所述若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则,具体包括:
若安全事件的数量大于第一阈值,则基于单个节点同一时段发生的安全事件,确定第一安全事件集合,基于多个时段的第一个安全事件集合,确定第二安全事件集合,针对第二安全事件集合采用关联规则算法,得到第一关联规则;
基于同一时段发生相同安全事件的节点,确定第一节点集合,基于多个时段的第一节点集合,确定第二节点集合,针对第二节点集合采用关联规则算法,得到第二关联规则。
优选地,所述结合实时发生的安全事件,第一主节点根据第一关联规则和/或第二关联规则,构建备选采集项集合,具体包括:
设置最远规则距离为p;
将实时发生的安全事件加入备选安全事件集合,并将所述实时发生的安全事件的初始规则距离设为0;
分别在第一关联规则和第二关联规则中进行循环搜索,逐步构建备选安全事件集合,直到当前规则距离大于p,或者第一关联规则和第二关联规则均不存在与当前备选安全事件集合关联的安全事件时,停止搜索,每轮次搜索过程具体为:
对于第n次搜索,设定当前规则距离,在第一关联规则中搜索与备选安全事件集合关联的安全事件集合,将搜索到的安全事件集合作为第一关联安全事件集合;对于第一关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第一更新规则距离;对于第一关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为所述差集中安全事件的规则距离;
相应地,在第二关联规则中搜索与备选安全事件集合关联的安全事件集合,将搜索到的安全事件集合作为第二关联安全事件集合;对于第二关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第二更新规则距离;对于第二关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为所述差集中安全事件的规则距离;
其中,n≤p,且p和n均为≥1的正整数;
所述备选安全事件是指定节点上发生的指定安全事件;
基于检测所述备选安全事件所需的采集项,确定备选采集项集合。
优选地,所述第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,具体包括:
根据节点属性,构造节点相似特征向量,得到节点的相似性收益;
根据各个安全事件数据有效性收益的增加,得到单个采集项的数据有效性收益;通过各节点进行采集的采集项,得到各节点采集的数据有效性收益,综合各节点采集的数据有效性收益,得到系统的数据有效性收益;
根据安全事件在节点上发生的频次,得到威胁严重程度的收益;
根据采集项的数据量和/或采集频率,得到采集占用资源成本;
根据采集项的数据量和/或敏感度,得到数据隐私泄露成本;
根据采集项采集到的安全事件数量和时间间隔,得到协同采集结果变动成本;
根据采集项历史采集次数,以及采集项在历史预测过程中采集到安全事件的数量,得到虚假预测风险成本。
优选地,所述方法还包括:待采集节点上的采集代理接收到协同采集结果后,按照所述协同采集结果采集异常数据。
优选地,所述协同采集结果是在备选采集项基础上,经过多目标优化模型计算出的在一个或多个待采集节点上需要采集的一个或多个采集项,以及采集项的采集频率。
优选地,所述异常数据包括:系统负载状况、硬件系统信息、系统调用、用户登录状况、日志数据和流量统计数据中的至少一种。
第二方面,本发明实施例提供一种威胁驱动的协同采集装置,包括:
采集数据单元,用于第一采集代理采集异常数据,并将所述异常数据转换为安全事件后,将所述安全事件发送给第一主节点;
第一计算单元,用于第一主节点将安全事件存储至数据库中,并定时查询数据库中安全事件的数量;若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则;其中,所述第一关联规则指单个节点上发生的多个安全事件间的关联规则,所述第二关联规则指可能发生相同安全事件的多个节点间的关联规则;
数据整合单元,用于结合实时发生的安全事件,根据第一关联规则和/或第二关联规则,构建备选采集项集合;
第二计算单元,用于第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理;其中,所述待采集节点由协同采集结果确定,所述采集收益因素包括节点的相似性、数据有效性和威胁严重程度中的至少一种;所述采集成本因素包括采集占用资源、数据隐私泄露、协同采集结果变动和虚假预测风险中的至少一种。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面威胁驱动的协同采集方法的各个步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面威胁驱动的协同采集方法的各个步骤。
本发明实施例提供的威胁驱动的协同采集方法及装置,通过第一采集代理采集异常数据并将其转换为安全事件后,发送给第一主节点,第一主节点若查询到数据库中安全事件的数量大于第一阈值,根据实时发生的安全事件,第一关联规则和第二关联规则,构建备选采集项,并根据备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将协同采集结果发送至待采集节点上的采集代理。本发明实施例能够根据威胁的关联性,挖掘安全事件间和节点间的关联规则,在多个节点上自适应地调整协同采集结果,减少采集数据总量,提升数据采集的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中威胁驱动的协同采集方法的流程示意图;
图2为本发明实施例中单节点的安全事件间关联规则生成过程图;
图3为本发明实施例中单安全事件的节点间关联规则生成过程图;
图4为本发明实施例中3个节点的网络环境下的采集成本收益计算结果图;
图5为本发明实施例中20个节点的网络环境下的采集成本收益计算结果图;
图6为本发明实施例中威胁驱动的协同采集装置的结构示意图;
图7为本发明实施例中实例和实例间的关系图;
图8为本发明实施例中系统的框架图;
图9为本发明实施例中电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例中威胁驱动的协同采集方法的流程示意图,如图1所示,本发明实施例提供的一种威胁驱动的协同采集方法,包括:
步骤110,第一采集代理采集异常数据,并将所述异常数据转换为安全事件后,将所述安全事件发送给第一主节点。
具体地,第一采集代理对异常数据进行采集,所述采集数据包括但不限于系统负载状况、系统硬件信息、系统调用、用户登录状况、日志数据、流量统计数据。第一采集代理将采集到的异常数据转换为安全事件,其中异常数据转换为安全事件是将采集的原始异常数据转为安全事件的格式,安全事件格式包括基础属性和/或额外属性,基础属性包括事件类型、事件发生时间和事件发生地点中的至少一种,额外属性包括攻击者IP和/或持续时间,其中,事件发生地点可用节点id和/或节点所在网络id表示,事件发生时间可用时间戳表示。原始异常数据可能是异常的运行状态、日志记录和流量信息中的至少一种。另外,可以通过特征匹配方式检测到异常数据,提取异常数据中的属性组合成安全事件。
然后第一采集代理将安全事件通过网络连接发送给第一主节点,以供第一主节点求解协同采集结果。
步骤120,第一主节点将安全事件存储至数据库中,并定时查询数据库中安全事件的数量;若所述安全事件的数量大于第一阈值,根据关联规则算法,如可以采用笛卡尔积运算和迭代剪枝,获取第一关联规则和/或第二关联规则;其中,所述第一关联规则指单个节点上发生的多个安全事件间的关联规则,所述第二关联规则指可能发生相同安全事件的多个节点间的关联规则。
具体地,第一主节点接收第一采集代理上传的安全事件,并将其存储至数据库中,第一主节点定时查询数据库的安全事件数量,当安全事件的数量超过第一阈值时(例如,安全事件数量大于80个),则应用关联规则生成算法,对单个节点上同时段发生多个安全事件(例如,节点1在时间区间1同时发生了安全事件A、B、C、D)和多节点上同时段发生同一安全事件(例如,节点1、节点2、节点3在时间区间1同时发生安全事件A)两种情况分别生成关联规则,即第一关联规则与第二关联规则。其中,第一关联规则指的是单个节点上发生的多个安全事件间的关联规则,第二关联规则指的是可能发生相同安全事件的多个节点间的关联规则。
步骤130,结合实时发生的安全事件,第一主节点根据第一关联规则和/或第二关联规则,构建备选采集项集合。
具体地,在生成协同采集结果的过程中,第一主节点根据实时发生的安全事件,需对步骤120中两种情况的关联规则进行整合,即整合第一关联规则和第二关联规则,构成多节点多安全事件的关联规则,从而可以更新旧的关联规则,也就是可以实时应对网络环境的变化,调整协同采集结果。第一主节点经过整合第一关联规则和第二关联规则,可以得到备选采集项,所述备选采集项是指在一个或多个节点上需要采集的一个或多个采集项。
由于传统的数据采集大多只考虑单节点数据的采集,未考虑节点间的位置、时空等关联关系对安全威胁的影响(如威胁的传播特性、相同类型节点可能遭受同样威胁、历史统计中的节点间遭受同样攻击的规律等),导致部分隐含的威胁信息缺失,降低了安全威胁分析的精确度,难以掌握全局的威胁态势和可能的威胁传播情况。而本发明实施例结合已知节点上发生的已知安全事件,利用第一关联规则和/或第二关联规则,构建备选采集项,采集其他可能发生威胁的节点和安全事件。由于关联规则表示了对于引发威胁的安全事件的时序关系和传播情况,因此可用关联规则发现隐含的威胁信息,从而为安全威胁的精准分析提供有效输入。
步骤140,第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理;其中,所述待采集节点由协同采集结果确定,所述采集收益因素包括节点的相似性、数据有效性和威胁严重程度中的至少一种;所述采集成本因素包括采集占用资源、数据隐私泄露、协同采集结果变动和虚假预测风险中的至少一种。
具体地,根据步骤130中得到的备选采集项,需要进一步量化采集收益因素和采集成本因素,判断是否需要对备选采集项进行采集,以及如何进行数据采集。若采集项与威胁越相关,通过采集项发现威胁的可能性越大,则采集的收益越高。除了采集的收益因素,采集的成本因素同样影响协同采集结果。因此,第一主节点需根据备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理。其中,待采集节点指协同采集结果中需要采集的节点,而采集节点上的采集代理指能够采集协同采集结果中采集项的采集程序,包括但不限于采集器、采集组件、威胁感知器和威胁感知组件。例如“协同采集结果”为:以每10秒钟1次的频率采集节点1的采集项1;以每5秒钟1次的频率采集节点1的采集项2;以每10秒钟1次的频率采集节点2的采集项1;因此协同采集结果发送的对象是能够采集节点1的采集项1和2,节点2的采集项1的采集代理。
考虑采集收益因素和采集成本因素的影响,对采集数据的收益和成本进行量化分析。可以理解的是,在实际过程中还可以根据问题的具体情况对影响因素的计算方式进行调整,从而对协同采集结果的收益和成本进行多目标优化建模,然后通过遗传算法、粒子群算法、模拟退火算法等方式,对该多目标优化问题进行求解,得到效用最高的协同采集结果。可以理解的是,本发明实施例可以平衡采集收益和采集成本,在多个节点上自适应地调整协同采集结果,减少采集数据总量,提升数据采集的有效性。
需要说明的是,第一主节点可以在间隔固定时间后,应用协同采集结果生成算法,根据当前系统的安全状态和运行状态,重新生成各个节点的协同采集结果,然后将新生成的协同采集结果下发到对应节点的采集代理上。在生成协同采集结果的过程中,需对单节点多安全事件和单安全事件多节点的情况生成关联规则,并将关联规则整合得到多节点多安全事件的关联规则。
其中,采集收益具体从以下几个方面进行考虑:节点之间具有某些相似属性,导致这些节点可能遭受相同类型的威胁攻击,故节点的相似性越高,节点协同采集收益越大;采集数据的有效性越高,则采集的收益越大;威胁严重程度较高,威胁影响节点越多,则采集相应采集项同样会获得较高的采集收益。
具体为:
(1)节点的相似性。节点相似性可以用来度量两个节点因为某些属性相同而遭受同样类型攻击的可能性。设定节点具有多种固有属性,每个属性用节点相似特征向量的一个维度表示,各节点的属性中相同的部分越多,则表示节点间的相似度越高。
(2)数据有效性。数据有效性评估的方法包括但不限于互信息、信息增益和卡方度量,将数据有效性的评估结果量化为采集项对威胁发现所做出的贡献度收益。
(3)威胁严重程度。采集项的采集收益应当与该采集项相关安全事件对应威胁的感染情况相关。如果安全事件发生的比较频繁,威胁感染节点较多,则该安全事件对应采集项的收益较大,应迅速加大其采集频率;反之,如果该安全事件长期未发生,则减少采集收益权重,缓慢降低采集频率。
影响采集成本因素包括:资源占用,例如,预处理数据所占用的CPU计算资源,采集过程中数据在内存中所占用的内存资源,传输过程中所占用的网络带宽,加密传输所需要的计算资源,数据库存储数据所需要的硬盘存储;如果采集数据涉及节点的隐私信息,那么将存在隐私泄露的风险成本;针对大量的节点进行协同采集结果部署同样需要成本,修改之前的协同采集结果可能导致之前采集的采集项停止采集,产生协同采集结果变动成本;部署协同采集结果可能带来虚假预测的风险,即部署了该采集项在较长时间内均未采集到预期的安全事件。具体为:
(1)采集占用资源。数据采集的计算资源成本、内存资源成本、网络带宽成本、加密运算成本均与采集项的数据量和采集频率成正比关系。对单个采集项占用资源设定最大阈值和中间阈值。当采集占用资源超过中间阈值时,缓慢增加采集占用资源的收益系数;当采集资源超过最大阈值时,迅速增加采集占用资源的收益系数。
(2)数据隐私泄露。数据采集和传输过程中可能导致节点隐私数据的泄露。采集项的隐私泄露风险与该采集项的敏感度和采集数据量相关,采集项的敏感度越高,隐私泄露风险越大,对敏感数据采集量越多,隐私泄露风险越大。采集项可能导致的敏感数据泄露严重程度可通过人工配置和/或自动计算的方式获得。
(3)协同采集结果变动。新的协同采集结果生成之后,调整协同采集结果可能会导致之前的采集项停止采集,因而产生协同采集结果变动的成本。协同采集结果变动成本与采集项的效用相关,若采集项持续未采集到安全事件,停止采集的成本较小;若采集项频繁采集到安全事件,则停止采集的成本较大。
(4)虚假预测风险。虚假预测风险成本与该采集项采集到安全事件的频次和持续时间相关,若预测某个采集项应进行采集,部署该采集项后长期未采集到任何异常数据,则增大该采集项的虚假预测风险成本。
由此可见,本发明实施例可以根据节点正在遭受或即将遭受的威胁、节点资源情况、节点相似度等信息,并根据节点间的关联规则和系统中所发生安全事件间的关联规则,构建备选采集项。然后通过分析采集收益和采集成本的影响因素,如数据的有效性、节点属性间的关系、威胁的严重程度等,实现多节点的协同采集结果生成,精准采集高效用数据,为安全威胁的精准分析提供有效输入,同时第一主节点向待采集节点上的采集代理发送协同采集结果,动态更新各节点的协同采集结果。
本发明实施例提供的威胁驱动的协同采集方法,通过第一采集代理采集异常数据并将其转换为安全事件后,发送给第一主节点,第一主节点若查询到数据库中安全事件的数量大于第一阈值,根据实时发生的安全事件,第一关联规则和第二关联规则构建备选采集项,并根据备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将协同采集结果发送至待采集节点上的采集代理。由于关联规则表示了对于引发威胁的安全事件的时序关系和传播情况,因此可用关联规则发现隐含的威胁信息,在多个节点上自适应地调整协同采集结果,减少采集数据总量,提升数据采集的有效性,为安全威胁的精准分析提供有效输入。
基于上述实施例的内容,作为一种可选实施例,所述若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则,具体包括:
若安全事件的数量大于第一阈值,则基于单个节点同一时段发生的多个安全事件,确定第一安全事件集合,基于多个时段发生的第一个安全事件集合,确定第二安全事件集合,针对第二安全事件集合采用关联规则算法,得到第一关联规则;
基于同一时段发生相同安全事件的节点,确定第一节点集合,基于多个时段的第一节点集合,确定第二节点集合,针对第二节点集合采用关联规则算法,得到第二关联规则。
具体地,单节点的安全事件间关联规则生成,主要是依靠时间戳来进行安全事件的关联,其次是针对安全事件的属性来进行安全事件的关联。其中,依靠时间戳来进行安全事件的关联,是对多次在同一时间段发生的事件进行关联;针对安全事件的属性来进行安全事件的关联,可以根据采集到的数据是否包含异常安全事件中的恶意属性,判断其是否同样属于异常数据,构建和恶意攻击者相关联安全事件的模型,也可以对含有相同源IP的多个安全事件进行关联。
若第一主节点在数据库中查询到安全事件的数量大于第一阈值,获取单个节点同一时段发生的安全事件,确定第一安全事件集合,然后根据多个时段的第一安全事件集合,确定第二安全事件集合,针对第二安全事件集合采用关联规则算法,得到单节点多安全事件的第一关联规则,其中,单节点多安全事件是指在同一节点不同时间区间发生的多个安全事件,例如,节点1在时间区间1同时发生了安全事件A、B、C、D,节点1在时间区间2同时发生了安全事件A、B、C,节点1在时间区间3同时发生了安全事件A、B。
图2为本发明实施例中单节点的安全事件间关联规则生成过程图,如图2所示,左边方框内表示节点1在不同的时间区间同时发生的安全事件集合,如节点1在时间区间1同时发生了安全事件A、B、C、D,节点1在时间区间2同时发生了安全事件A、B、C。右边方框内表示对左边方框内的安全事件执行关联规则生成算法的过程记录,对安全事件A、B、C、D、E、F分别进行笛卡尔积运算和迭代剪枝,最终得到节点1在6个安全事件(即安全事件A、B、C、D、E、F)的关联规则集合。其中矩形M表示候选集通过1次笛卡尔积运算和剪枝后生成的频繁集,矩形N表示2次笛卡尔积运算和剪枝后的频繁集。
同样地,若第一主节点在数据库中查询到安全事件的数量大于第一阈值,获取同一时段发生相同安全事件的节点,确定第一节点集合,然后根据多个时段的第一节点集合,确定第二节点集合,针对第二节点集合采用关联规则算法,得到单安全事件多节点的第二关联规则。其中,单安全事件多节点是指在多个节点在不同时间区间发生相同安全事件,例如,节点1、节点2和节点3在时间区间1同时发生安全事件A,节点1和节点2在时间区间2同时发生安全事件A。
图3为本发明实施例中单安全事件的节点间关联规则生成过程图,如图3所示,左边方框内表示安全事件A同时发生在多个节点上,共有4条记录。如在节点1、节点2、节点3上于时间区间1同时发生安全事件A,在节点1和节点2上于时间区间2同时发生安全事件A;右边方框内表示对左图的节点集合执行关联规则生成算法的过程记录,对节点1、节点2、节点3、节点4、节点5分别进行笛卡尔积运算和迭代剪枝,最终得到安全事件A在上述5个节点上的关联规则集合。其中矩形P表示候选集通过1次笛卡尔积运算和剪枝后生成的频繁集,矩形Q表示2次笛卡尔积运算和剪枝后生成的频繁集。
本发明实施例提供的威胁驱动的协同采集方法,通过关联规则算法,获取第一关联规则和/或第二关联规则,考虑了节点间位置、时空等关联关系对安全威胁的影响,从而可以掌握全局的威胁态势和可能的威胁传播情况,能够为安全威胁的精准分析提供有效输入。
基于上述实施例的内容,作为一种可选实施例,所述结合实时发生的安全事件,第一主节点根据第一关联规则和/或第二关联规则,构建备选采集项集合,具体包括:
设置最远规则距离为p;
将实时发生的安全事件加入备选安全事件集合,并将所述实时发生的安全事件的初始规则距离设为0;
分别在第一关联规则和第二关联规则中进行循环搜索,逐步构建备选安全事件集合,直到当前规则距离大于p,或者第一关联规则和第二关联规则均不存在与当前备选安全事件集合关联的安全事件时,停止搜索,每轮次搜索过程具体为:
对于第n次搜索,设定当前规则距离,在第一关联规则中搜索与备选安全事件集合关联的安全事件集合,将搜索到的安全事件集合作为第一关联安全事件集合;对于第一关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第一更新规则距离;对于第一关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为所述差集中安全事件的规则距离;
相应地,在第二关联规则中搜索与备选安全事件集合关联的安全事件集合,将搜索到的安全事件集合作为第二关联安全事件集合;对于第二关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第二更新规则距离;对于第二关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为所述差集中安全事件的规则距离;
其中,n≤p,且p和n均为≥1的正整数;
所述备选安全事件是指定节点上发生的指定安全事件;
基于检测所述备选安全事件所需的采集项,确定备选采集项集合。
具体地,对于某个节点上发生某件安全事件,除节点间或安全事件间可能直接具有强规则外,还可能间接具有强规则,对间接强规则需要规定规则距离,规则距离指两个项集在多个关联规则集中的关联长度。如安全事件A与安全事件B直接具有强关联,安全事件B与安全事件C直接具有强关联,则安全事件A与安全事件C间接具有强关联,设置安全事件A与安全事件B的规则距离为1,安全事件B与安全事件C的规则距离为1,则安全事件A与安全事件C的规则距离为2。将具有强规则的关联项加入备选安全事件集合,在加入备选安全事件集合时,标注规则的距离,并规定最远规则距离p,例如设置p为5。
将实时发生的安全事件加入备选安全事件集合,并将所述实时发生的安全事件的初始规则距离设为0。
在第一关联规则中进行不超过最远规则距离次数的搜索,或者第一关联规则不存在与当前备选安全事件集合关联的安全事件时,停止搜索。例如若最远规则距离为5,每轮次搜索的规则距离加1,则最多进行5次搜索,对于第n次搜索,如第1次搜索,当前规则距离为1,在第一关联规则中搜索与实时发生的安全事件关联的安全事件集合,并将搜索到的安全事件集合作为第一关联安全事件集合;对于第一关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离1,则将所述交集中安全事件的规则距离更新为当前规则距离1,得到第一更新规则距离;对于第一关联安全事件集合与备选安全事件集合的差集,则将所述差集中安全事件加入备选安全事件集合;同理,对于第2次搜索,当前规则距离为2。
同样地,在第二关联规则中进行不超过最远规则距离次数的搜索,或者第二关联规则不存在与当前备选安全事件集合关联的安全事件时,停止搜索。例如若最远规则距离为5,每轮次搜索的规则距离加1,则最多进行5次搜索,对于第n次搜索,如第1次搜索,将初始规则距离加1,即当前规则距离为1,在第二关联规则中搜索与实时发生的安全事件关联的安全事件集合,并将搜索到的安全事件集合作为第二关联安全事件集合;对于第二关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第二更新规则距离;对于第二关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为差集中安全事件的规则距离。
可选地,本发明实施例提供一种生成备选采集项的技术方案,具体如下:
存在两个关联规则集Rule_host和Rule_event(即第一关联规则和第二关联规则),分别表示在单个节点上同时发生的安全事件间的关联规则和在多个节点上同时发生相同安全事件的节点间的关联规则。假设节点i上发生安全事件j,设置最远规则距离为distance_max,整合上述两种关联规则,并构建备选采集项集合的算法流程如下:
(1)设置当前距离为0,在备选采集项中增加当前已发生事件对应采集项,新增备选采集项的记录距离为0。
(2)将当前距离curDistance加1,在Rule_host中搜索j事件,如存在强规则,而且备选采集项集合中不存在关联安全事件对应的采集项,则将关联安全事件对应的采集项插入备选采集项集合,该采集项的记录距离值为当前距离值;如果存在强规则,备选采集项集合中已存在关联事件对应的采集项且距离大于当前距离,则更新记录距离的值为当前距离值。同理,在Rule_event中搜索i节点,如存在强规则且满足要求,则插入到备选采集项集合中,该采集项的记录距离值为当前距离值,或者该采集项已存在,且该采集项的记录距离大于当前距离,则更新记录距离的值为当前距离值。
(3)针对新增加的备选采集项,执行步骤(2),直到当前距离大于最远规则距离distance_max或已无法找到插入或更新的采集项。
(4)对每个已经发生的事件均执行步骤(1)-(3),得到最终的备选采集项集合。
本发明实施例提供的威胁驱动的协同采集方法,结合已知节点上发生的已知安全事件,通过整合第一关联规则和第二关联规则,得到基于多节点发生多事件关联规则的备选采集项集合,能够根据威胁状况动态更新备选采集项集合,以采集其他可能发生威胁的节点和安全事件,由于关联规则表示了对于引发威胁的安全事件的时序关系和传播情况,因此可用关联规则发现隐含的威胁信息,提高数据采集的有效性,为安全威胁的精准分析提供有效输入。
基于上述实施例的内容,作为一种可选实施例,所述第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,具体包括:
根据节点属性,构造节点相似特征向量,得到节点的相似性收益;
根据各个安全事件数据有效性收益的增加,得到单个采集项的数据有效性收益;通过各节点进行采集的采集项,得到各节点采集的数据有效性收益,综合各节点采集的数据有效性收益,得到系统的数据有效性收益;
根据安全事件在节点上发生的频次,得到威胁严重程度的收益;
根据采集项的数据量和/或采集频率,得到采集占用资源成本;
根据采集项的数据量和/或敏感度,得到数据隐私泄露成本;
根据采集项采集到的安全事件数量和时间间隔,得到协同采集结果变动成本;
根据采集项历史采集次数,以及采集项在历史预测过程中采集到安全事件的数量,得到虚假预测风险成本。
具体地,数据采集需要综合考虑采集收益因素和采集成本因素,根据具体的网络拓扑状况,量化计算数据采集所产生的成本和收益,图4为本发明实施例中3个节点的网络环境下的采集成本收益计算结果图,在3个节点上模拟攻击,通过遗传算法迭代得到各项采集收益和成本的适应度值随迭代次数变化情况如图4所示。图5为本发明实施例中20个节点的网络环境下的采集成本收益计算结果图,在20个节点上模拟攻击,通过遗传算法迭代得到各项采集收益和成本的适应度值随迭代次数变化情况如图5所示。由图4、图5可知,在针对不同规模的网络环境和不同的攻击状态下,协同采集结果生成过程中的适应度波动的趋势较为相似,采集收益均呈现增加趋势,采集成本绝对值呈现越来越小的趋势。本发明实施例可根据威胁状况动态调整协同采集结果,迅速增大威胁相关采集项的采集频率,逐步减小威胁无关的采集项的采集频率,减少了冗余数据的采集,节约了采集所占用的各种资源。
其中,采集收益和成本具体计算方法如下:
1.节点的相似性
节点相似性是用来度量两个节点因为某些属性相同而遭受同样类型攻击的可能性。节点相似属性根据变动的频繁程度分为三种,分别是静态节点属性、半动态节点属性和动态节点属性。静态属性包括型号、主板型号、内存大小、CPU类型、GPU类型。一般而言,资产配置人员不会对设备的硬件设施属性进行更改,但是某些入侵者可能会根据设备的硬件型号发动特定攻击。半动态的属性包括节点的系统版本、节点所在的网段,由网络管理员在进行重装系统、重新配置网络拓扑环境等管理配置操作时修改,这部分设备属性同样不频繁变动。攻击者可以针对这部分属性实施入侵行为,如针对系统版本漏洞进行攻击,攻击者也可能根据网络拓扑环境,将节点当作跳板以攻击网络中其他节点。动态属性包括开启的端口号、运行进程MD5、执行的命令历史。动态的属性主要由应用层开发部署者进行配置管理,这部分节点属性会随着业务应用的变化而改变。
每个属性用相似特征向量的一个维度表示,属性的数值越高,则表示该属性的相似度越高。节点的相似特征向量如下面的公式所示,采用10维向量表示节点Hosti和节点Hostj之间10个属性的相似度:
FeatureHostij=[f1,f2,f3,f4,...,f10];
其中,FeatureHostij表示节点的相似特征向量,f1,f2,f3,f4,...,f10分别表示型号、主板型号、内存大小、CPU类型、GPU类型、系统版本、所在的网段、开启的端口号、运行进程MD5、执行的命令历史的相似度值。
节点属性的数值量化方式分为三类:
(1)对于字符串型的属性按离散值是否相等决定相似度大小,如型号、主板型号、内存大小、CPU类型、GPU类型、操作系统版本、网段,如果相同则将相似度设置为1,否则置0。
(2)对于多值的节点属性,使用相同值的数量表示相似度,如开启的端口号、正在运行进程MD5。开启相同端口数量表示端口号属性的相似度,运行相同MD5的进程数量表示进程MD5属性的相似度。
(3)对于序列类的相似特征,如历史命令执行记录,通过时间段内连续执行相同命令序列的长度的最大值计算。
对于备选采集项集合中的采集项的权重,需要根据该采集项对应安全事件和节点属性特征之间的关联来进行判定,因此每个采集项需要设定节点属性的关联向量。例如,CPU利用率采集项与CPU负载过高的告警相对应,与操作系统版本、网段、开放端口数量等采集项无直接关系,与正在运行的进程、CPU版本等采集项相关,故CPU利用率与节点属性的关联向量如下面的公式所示,其中公式中为1的两项分别为进程运行情况和CPU版本:
Ccpu=[0 0 0 0 1 0 0 0 1 0]T
综上,节点Hosti和节点Hostj之间相似度对CPU利用率采集项的采集收益用如下公式表示:
HostSimBenefitcpu=FeatureHostij*Ccpu*khostsim
其中,HostSimBenefitcpu表示节点间基于CPU利用率得到的采集收益,khosts表示节点相似性的加权系数。
2.数据有效性评估
本实例采用互信息的方法计算数据的有效性,互信息的计算方法如下:
Figure BDA0002521245020000181
根据互信息的公式,可以得到各个安全事件的数据有效性。每类采集项至少会生成一种安全事件,采集项类型和安全事件类型之间为一对多的关系,故通过各个安全事件数据有效性收益的叠加,可以得到的一类采集项的数据有效性收益。再通过采集的采集项数量,得到节点的数据有效性收益,综合各个节点的有效性收益,获得系统的数据有效性收益,如公式所示:
Figure BDA0002521245020000182
其中,BenefitEventInfo表示数据有效性收益,Numhost表示节点数量,Numitem表示采集项数量,Bm表示各个采集项基于互信息的收益矩阵,Mn表示节点对各个采集项是否采集的01矩阵,由此可以得到整个系统关于数据有效性的采集收益。
3.威胁严重程度
采集项的采集收益应当与该采集项相关安全事件对应威胁的感染情况相关。威胁严重程度的收益如下面的公式所示:
Figure BDA0002521245020000183
其中,Threatenevent表示威胁的严重程度,Numhost表示目前发生该安全事件的节点数量,Numevent表示发生的安全事件数,
Figure BDA0002521245020000196
表示事件eventi在节点n上发生的频次,取值等于0时表示当前节点hostn上未发生该安全事件。kthreatencost表示威胁收益权重,
Figure BDA0002521245020000191
表示安全事件eventi在节点hostn上持续未发生的时间长度,kiunoccurred表示该事件长期未发生的收益系数权重。可以很容易地理解,如果安全事件eventi发生的比较频繁,感染节点较多,则该安全事件对应采集项的收益越大,应迅速加大其采集频率;反之,如果该安全事件长期未发生,则降低采集收益权重,以降低采集频率。
4.采集占用资源
数据采集的计算资源成本、内存资源成本、网络带宽成本、加密运算成本均与采集项的数据量和采集频率成正比关系。下面的公式为单个节点的采集项i的固定资源成本,DataSizei表示采集项i的数据量,
Figure BDA0002521245020000195
表示采集项i的采集时间间隔,kDatai表示采集项i的收益系数:
Figure BDA0002521245020000192
一般而言,在普通的节点上数据采集所占用的资源不应超过10%。故设定当采集资源消耗不超过8%时,收益系数取k1;超过8%但不超过10%时,采集项的收益应减缓,收益系数取k2;当采集资源消耗超过10%时,新增采集项为负收益,减少采集项为正收益,收益系数取k3。新增采集项的占用资源比例的成本如下公式所示,CurCnt表示当前采集项数目,LastCnt为之前采集项的数目,
Figure BDA0002521245020000193
表示当前节点执行采集占用的CPU利用率、内存利用率和网络利用率中的最大资源利用率。
Figure BDA0002521245020000194
数据采集在整个系统中所占用资源的总成本为:
Figure BDA0002521245020000201
其中,ResourceCost表示整个系统的采集占用资源成本,NodeCosti表示单个节点执行采集的资源占用成本,CurCnt表示当前进行采集的采集项数目,TermResourceCost表示单个采集项的资源占用成本。
5.数据隐私泄露
采集项的隐私泄露风险与该采集项的敏感度Csensitivityi常量相关,若对该采集项进行采集则必然根据该采集项的敏感程度产生相应的隐私泄露的风险,数据采集的隐私泄露风险公式为:
Figure BDA0002521245020000202
其中,SensitivityCost表示数据隐私泄露成本,NodeCnt表示节点数目,CurCnt表示当前进行采集的采集项数目,Csensitivityj表示采集项j的敏感度。
6.协同采集结果变动
新的协同采集结果生成之后,调整协同采集结果可能会导致之前的采集项停止采集,因而产生协同采集结果变动的成本。协同采集结果变动成本与采集项的效用相关,若采集项持续未采集到安全事件,停止采集的成本较小;若采集项频繁采集到安全事件,则停止采集的成本较大,具体如下面的公式所示:
Figure BDA0002521245020000203
其中,BenefitCost表示协同采集结果变动成本,LastCnt表示之前采集的事件数,Curcnt表示当前采集事件数,LastCnt-Curcnt表示之前采集而当前未采集的事件数,CollectEventCnti表示采集项i采集到的安全事件数量,tlasti表示采集项i的采集时间间隔。
7.虚假预测风险
虚假预测风险成本与该采集项采集到安全事件的频次和持续时间相关,具体如下面的公式所示:
Figure BDA0002521245020000204
其中,PredCost表示虚假预测风险成本,HisCnti表示某采集项i的历史采集次数,CollectEventCntij表示采集项i在第j次历史预测过程中是否采集到安全事件,若采集到安全事件,CollectEventCntij的值为1,否则为0。
综合考虑资源占用成本、隐私泄露成本、协同采集结果变动成本和虚假预测成本,总成本如下面的公式所示:
Cost=ResourceCost+SensitivityCost+BenefitCost+PredCost;
其中,Cost表示数据采集的总成本。
本发明实施例提供的威胁驱动的协同采集方法,通过量化数据采集的收益和成本,得到协同采集结果,从而实现各采集代理根据第一主节点发送的协同采集结果精准高效地进行数据采集。
基于上述实施例的内容,作为一种可选实施例,所述方法还包括:待采集节点上的采集代理接收到协同采集结果后,按照所述协同采集结果采集异常数据。
具体地,根据协同采集结果,确定待采集节点,并将协同采集结果发送至待采集节点上的采集代理,待采集节点上的采集代理接收到协同采集结果后,按照协同采集结果负责采集异常数据,可以理解的是,网络中的采集代理还可以监听第一主节点下发的协同采集结果,并对当前的协同采集结果进行调整。
本发明实施例提供的威胁驱动的协同采集方法,各待采集节点上的采集代理根据协同采集结果采集异常数据,从而为安全威胁的精准分析提供有效输入,提高安全威胁分析的精确度。
基于上述实施例的内容,作为一种可选实施例,所述协同采集结果是在备选采集项基础上,经过多目标优化模型计算出的在一个或多个待采集节点上需要采集的一个或多个采集项,以及采集项的采集频率。
具体地,协同采集结果是第一主节点根据备选采集项中数据采集收益和成本因素,经过多目标优化模型计算出的在一个或多个待采集节点上需要采集的一个或多个采集项,以及如何对采集项进行采集(即确定采集项的采集频率)。
本发明实施例提供的威胁驱动的协同采集方法,各待采集节点上的采集代理根据协同采集结果采集异常数据,从而为安全威胁的精准分析提供有效输入,提高安全威胁分析的精确度。
基于上述实施例的内容,作为一种可选实施例,所述异常数据包括:系统负载状况、硬件系统信息、系统调用、用户登录状况、日志数据和流量统计数据中的至少一种。
具体地,各采集代理通过获取异常数据,包括但不限于系统负载状况、硬件系统信息、系统调用、用户登录状况、日志数据和流量统计数据中的至少一种,将其转换为安全事件后,发送给第一主节点。
需要说明的是,各采集代理可以定时对异常数据进行采集,也可以进行实时采集,本发明实施例对此不作具体限定。
本发明实施例提供的威胁驱动的协同采集方法,通过各采集代理采集异常数据,为安全威胁的精准分析提供了有效的输入。
图6为本发明实施例中威胁驱动的协同采集装置的结构示意图,如图6所示,本发明实施例提供的一种威胁驱动的协同采集装置,包括:
采集数据单元610,用于第一采集代理采集异常数据,并将所述异常数据转换为安全事件后,将所述安全事件发送给第一主节点。
具体地,采集数据单元610通过第一采集代理对异常数据进行采集,所述采集数据包括但不限于系统负载状况、系统硬件信息、系统调用、用户登录状况、日志数据、流量统计数据。第一采集代理将采集到的异常数据转换为安全事件,其中异常数据转换为安全事件是通过将采集的原始异常数据转为安全事件的格式,安全事件格式包括基础属性和/或额外属性。
然后第一采集代理将安全事件通过网络连接发送给第一主节点,以供第一主节点求解协同采集结果。
第一计算单元620,用于第一主节点将安全事件存储至数据库中,并定时查询数据库中安全事件的数量;若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则;其中,所述第一关联规则指单个节点上发生的多个安全事件间的关联规则,所述第二关联规则指可能发生相同安全事件的多个节点间的关联规则。
具体地,第一计算单元620中第一主节点接收第一采集代理上传的安全事件,并将其存储至数据库中,第一主节点定时查询数据库的安全事件数量,当安全事件的数量超过第一阈值时,则应用关联规则生成算法,对单个节点上同时发生多个安全事件和多节点上同时发生同一安全事件两种情况分别生成关联规则,即第一关联规则与第二关联规则。
数据整合单元630,用于结合实时发生的安全事件,根据第一关联规则和/或第二关联规则,构建备选采集项。
具体地,在生成协同采集结果的过程中,数据整合单元630根据实时发生的安全事件,需对第一计算单元620中两种情况的关联规则进行整合,即整合第一关联规则和第二关联规则,构成多节点多安全事件的关联规则,从而可以更新旧的关联规则,也就是可以实时应对网络环境的变化,调整协同采集结果。第一主节点经过整合第一关联规则和第二关联规则,可以得到备选采集项,所述备选采集项是指在一个或多个节点上需要采集的一个或多个采集项。
第二计算单元640,用于第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理;其中,所述待采集节点由协同采集结果确定,所述采集收益因素包括节点的相似性、数据有效性和威胁严重程度中的至少一种;所述采集成本因素包括采集占用资源、数据隐私泄露、协同采集结果变动和虚假预测风险中的至少一种。
具体地,第二计算单元640根据数据整合单元630中得到的备选采集项,需要进一步量化采集收益因素和采集成本因素,判断是否需要对备选采集项进行采集,以及如何进行数据采集。若采集项与威胁越相关,通过采集项发现威胁的可能性越大,则采集的收益越高。除了采集的收益因素,采集的成本因素同样影响协同采集结果。因此,第一主节点需根据备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理。其中,待采集节点指协同采集结果中需要采集的节点,而采集节点上的采集代理指能够采集协同采集结果中采集项的采集程序,包括但不限于采集器、采集组件、威胁感知器和威胁感知组件。考虑采集收益因素和采集成本因素的影响,对采集数据的收益和成本进行量化分析。可以理解的是,在实际过程中还可以根据问题的具体情况对影响因素的计算方式进行调整,从而对协同采集结果的收益和成本进行多目标优化建模,然后通过遗传算法、粒子群算法、模拟退火算法等方式,对该多目标优化问题进行求解,得到效用最高的协同采集结果。
需要说明的是,第一主节点可以在间隔固定时间后,应用协同采集结果生成算法,根据当前系统的安全状态和运行状态,重新生成各个节点的协同采集结果,然后将新生成的协同采集结果下发到对应节点的采集代理上。在生成协同采集结果的过程中,需对单节点多安全事件和单安全事件多节点的情况生成关联规则,并将关联规则整合得到多节点多安全事件的关联规则。
本发明实施例提供的威胁驱动的协同采集装置用于执行上述威胁驱动的协同采集方法,其具体的实施方式与方法实施方式一致,此处不再赘述。
本发明实施例提供的威胁驱动的协同采集装置,通过第一采集代理采集异常数据并将其转换为安全事件后,发送给第一主节点,第一主节点若查询到数据库中安全事件的数量大于第一阈值,结合实时发生的安全事件,根据第一关联规则和/或第二关联规则构建备选采集项,并根据备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将协同采集结果发送至待采集节点上的采集代理。由于关联规则表示了对于引发威胁的安全事件的时序关系和传播情况,因此可用关联规则发现隐含的威胁信息,在多个节点上自适应地调整协同采集结果,减少采集数据总量,提升数据采集的有效性,为安全威胁的精准分析提供有效输入。
图7为本发明实施例中实例和实例间的关系图,如图7所示,每个节点具有多个属性,属性间具有相似性;在每个节点具有多个采集项,每类采集项可能会生成多种安全事件,安全事件间具有强规则。通过安全事件间的强规则,将实时威胁相关的安全事件对应的采集项加入备选采集项集合。最终考虑采集成本和采集收益,确定备选采集项集合中的各个采集项的采集频率,生成多节点的协同采集结果,下发协同采集结果,以更新各个节点的采集项和采集频率。
图8为本发明实施例中系统的框架图,如图8所示,本发明实施例采用主从架构,采集代理使用3个线程分别采集运行状态数据、日志数据和流量数据,然后在数据预处理模块对数据进行格式转换,将原始数据转换为安全事件,并进行压缩和加密,将预处理结果放入待发送数据的缓冲队列,数据发送线程进行数据发送。第一主节点接收采集代理采集的数据,进行校验、解密和解压缩等操作,将解析后的数据插入数据库。当威胁数据达到一定数量,威胁发现模块根据历史数据更新强关联规则。威胁发现模块根据实时的威胁状况和强关联规则构建备选采集项,考虑采集的多种成本和收益,生成协同采集结果,并将协同采集结果下发给采集代理。
图9为本发明实施例中电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行如上所述威胁驱动的协同采集方法的各个步骤。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的威胁驱动的协同采集方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种威胁驱动的协同采集方法,其特征在于,包括:
第一采集代理采集异常数据,并将所述异常数据转换为安全事件后,将所述安全事件发送给第一主节点;
第一主节点将安全事件存储至数据库中,并定时查询数据库中安全事件的数量;若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则;其中,所述第一关联规则指单个节点上发生的多个安全事件间的关联规则,所述第二关联规则指可能发生相同安全事件的多个节点间的关联规则;
结合实时发生的安全事件,第一主节点根据第一关联规则和/或第二关联规则,构建备选采集项集合;
第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理;其中,所述待采集节点由协同采集结果确定,所述采集收益因素包括节点的相似性、数据有效性和威胁严重程度中的至少一种;所述采集成本因素包括采集占用资源、数据隐私泄露、协同采集结果变动和虚假预测风险中的至少一种。
2.根据权利要求1所述的威胁驱动的协同采集方法,其特征在于,所述若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则,具体包括:
若安全事件的数量大于第一阈值,则基于单个节点同一时段发生的安全事件,确定第一安全事件集合,基于多个时段的第一安全事件集合,确定第二安全事件集合,针对第二安全事件集合采用关联规则算法,得到第一关联规则;
基于同一时段发生相同安全事件的节点,确定第一节点集合,基于多个时段的第一节点集合,确定第二节点集合,针对第二节点集合采用关联规则算法,得到第二关联规则。
3.根据权利要求2所述的威胁驱动的协同采集方法,其特征在于,所述结合实时发生的安全事件,第一主节点根据第一关联规则和/或第二关联规则,构建备选采集项集合,具体包括:
设置最远规则距离为p;
将实时发生的安全事件加入备选安全事件集合,并将所述实时发生的安全事件的初始规则距离设为0;
分别在第一关联规则和第二关联规则中进行循环搜索,逐步构建备选安全事件集合,直到当前规则距离大于p,或者第一关联规则和第二关联规则均不存在与当前备选安全事件集合关联的安全事件时,停止搜索,每轮次搜索过程具体为:
对于第n次搜索,设定当前规则距离,在第一关联规则中搜索与备选安全事件集合关联的安全事件集合,将搜索到的安全事件集合作为第一关联安全事件集合;对于第一关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第一更新规则距离;对于第一关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为所述差集中安全事件的规则距离;
相应地,在第二关联规则中搜索与备选安全事件集合关联的安全事件集合,将搜索到的安全事件集合作为第二关联安全事件集合;对于第二关联安全事件集合与备选安全事件集合的交集,若所述交集中安全事件的规则距离大于当前规则距离,则将所述交集中安全事件的规则距离更新为当前规则距离,得到第二更新规则距离;对于第二关联安全事件集合与备选安全事件集合的差集,将所述差集中安全事件加入备选安全事件集合,并将当前规则距离作为所述差集中安全事件的规则距离;
其中,n≤p,且p和n均为≥1的正整数;
所述备选安全事件是指定节点上发生的指定安全事件;
基于检测所述备选安全事件所需的采集项,确定备选采集项集合。
4.根据权利要求1所述的威胁驱动的协同采集方法,其特征在于,所述第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,具体包括:
根据节点属性,构造节点相似特征向量,得到节点的相似性收益;
根据各个安全事件数据有效性收益的增加,得到单个采集项的数据有效性收益;通过各节点进行采集的采集项,得到各节点采集的数据有效性收益,综合各节点采集的数据有效性收益,得到系统的数据有效性收益;
根据安全事件在节点上发生的频次,得到威胁严重程度的收益;
根据采集项的数据量和/或采集频率,得到采集占用资源成本;
根据采集项的数据量和/或敏感度,得到数据隐私泄露成本;
根据采集项采集到的安全事件数量和时间间隔,得到协同采集结果变动成本;
根据采集项历史采集次数,以及采集项在历史预测过程中采集到安全事件的数量,得到虚假预测风险成本。
5.根据权利要求1所述的威胁驱动的协同采集方法,其特征在于,还包括:待采集节点上的采集代理接收到协同采集结果后,按照所述协同采集结果采集异常数据。
6.根据权利要求1所述的威胁驱动的协同采集方法,其特征在于,所述协同采集结果是在备选采集项基础上,经过多目标优化模型计算出的在一个或多个待采集节点上需要采集的一个或多个采集项,以及采集项的采集频率。
7.根据权利要求1所述的威胁驱动的协同采集方法,其特征在于,所述异常数据包括:系统负载状况、硬件系统信息、系统调用、用户登录状况、日志数据和流量统计数据中的至少一种。
8.一种威胁驱动的协同采集装置,其特征在于,包括:
采集数据单元,用于第一采集代理采集异常数据,并将所述异常数据转换为安全事件后,将所述安全事件发送给第一主节点;
第一计算单元,用于第一主节点将安全事件存储至数据库中,并定时查询数据库中安全事件的数量;若所述安全事件的数量大于第一阈值,根据关联规则算法,获取第一关联规则和/或第二关联规则;其中,所述第一关联规则指单个节点上发生的多个安全事件间的关联规则,所述第二关联规则指可能发生相同安全事件的多个节点间的关联规则;
数据整合单元,用于结合实时发生的安全事件,根据第一关联规则和/或第二关联规则,构建备选采集项集合;
第二计算单元,用于第一主节点根据所述备选采集项的采集收益因素和采集成本因素,建立多目标优化模型,求解出协同采集结果,并将所述协同采集结果发送至待采集节点上的采集代理;其中,所述待采集节点由协同采集结果确定,所述采集收益因素包括节点的相似性、数据有效性和威胁严重程度中的至少一种;所述采集成本因素包括采集占用资源、数据隐私泄露、协同采集结果变动和虚假预测风险中的至少一种。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述威胁驱动的协同采集方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述威胁驱动的协同采集方法的步骤。
CN202010491567.9A 2020-06-02 2020-06-02 威胁驱动的协同采集方法及装置 Active CN111865899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010491567.9A CN111865899B (zh) 2020-06-02 2020-06-02 威胁驱动的协同采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010491567.9A CN111865899B (zh) 2020-06-02 2020-06-02 威胁驱动的协同采集方法及装置

Publications (2)

Publication Number Publication Date
CN111865899A true CN111865899A (zh) 2020-10-30
CN111865899B CN111865899B (zh) 2021-07-13

Family

ID=72985432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010491567.9A Active CN111865899B (zh) 2020-06-02 2020-06-02 威胁驱动的协同采集方法及装置

Country Status (1)

Country Link
CN (1) CN111865899B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112737972A (zh) * 2020-12-24 2021-04-30 北京珞安科技有限责任公司 一种数据传输频率确定方法、装置及计算机设备
CN113489740A (zh) * 2021-07-20 2021-10-08 山石网科通信技术股份有限公司 网络威胁情报信息的处理方法、装置、存储介质及处理器
CN118488084A (zh) * 2024-07-16 2024-08-13 四川万物纵横科技股份有限公司 一种智能化物联设备数据采集方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878093A (zh) * 2006-07-19 2006-12-13 华为技术有限公司 安全事件关联分析方法和系统
US20090178139A1 (en) * 2008-01-09 2009-07-09 Global Dataguard, Inc. Systems and Methods of Network Security and Threat Management
CN101697545A (zh) * 2009-10-29 2010-04-21 成都市华为赛门铁克科技有限公司 安全事件关联方法、装置及网络服务器
CN102880802A (zh) * 2012-09-25 2013-01-16 浙江图讯科技有限公司 一种用于面向工矿企业安全生产云服务平台系统的重大危险源的分析评价方法
CN102882969A (zh) * 2012-09-25 2013-01-16 浙江图讯科技有限公司 一种工矿企业的安全生产云服务平台
CN102903009A (zh) * 2012-09-25 2013-01-30 浙江图讯科技有限公司 一种用于面向工矿企业的安全生产云服务平台的基于广义规则推理的异常诊断方法
CN102930372A (zh) * 2012-09-25 2013-02-13 浙江图讯科技有限公司 一种用于面向工矿企业安全生产云服务平台系统的关联规则的数据分析方法
CN105447097A (zh) * 2015-11-10 2016-03-30 北京北信源软件股份有限公司 数据采集方法及系统
CN105678436A (zh) * 2014-11-21 2016-06-15 中国科学院上海高等研究院 一种基于云服务平台的物联网协同管理方法和系统
CN107465667A (zh) * 2017-07-17 2017-12-12 全球能源互联网研究院有限公司 基于规约深度解析的电网工控安全协同监测方法及装置
CN107623697A (zh) * 2017-10-11 2018-01-23 北京邮电大学 一种基于攻防随机博弈模型的网络安全态势评估方法
CN109639648A (zh) * 2018-11-19 2019-04-16 中国科学院信息工程研究所 一种基于采集数据异常的采集策略生成方法及系统
CN109688106A (zh) * 2018-11-19 2019-04-26 中国科学院信息工程研究所 一种数据协同采集方法及系统
CN109714312A (zh) * 2018-11-19 2019-05-03 中国科学院信息工程研究所 一种基于外部威胁的采集策略生成方法及系统
CN110222058A (zh) * 2019-06-05 2019-09-10 深圳市优网科技有限公司 基于FP-growth的多源数据关联隐私泄露风险评估系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878093A (zh) * 2006-07-19 2006-12-13 华为技术有限公司 安全事件关联分析方法和系统
US20090178139A1 (en) * 2008-01-09 2009-07-09 Global Dataguard, Inc. Systems and Methods of Network Security and Threat Management
CN101697545A (zh) * 2009-10-29 2010-04-21 成都市华为赛门铁克科技有限公司 安全事件关联方法、装置及网络服务器
CN102930372A (zh) * 2012-09-25 2013-02-13 浙江图讯科技有限公司 一种用于面向工矿企业安全生产云服务平台系统的关联规则的数据分析方法
CN102882969A (zh) * 2012-09-25 2013-01-16 浙江图讯科技有限公司 一种工矿企业的安全生产云服务平台
CN102903009A (zh) * 2012-09-25 2013-01-30 浙江图讯科技有限公司 一种用于面向工矿企业的安全生产云服务平台的基于广义规则推理的异常诊断方法
CN102880802A (zh) * 2012-09-25 2013-01-16 浙江图讯科技有限公司 一种用于面向工矿企业安全生产云服务平台系统的重大危险源的分析评价方法
CN105678436A (zh) * 2014-11-21 2016-06-15 中国科学院上海高等研究院 一种基于云服务平台的物联网协同管理方法和系统
CN105447097A (zh) * 2015-11-10 2016-03-30 北京北信源软件股份有限公司 数据采集方法及系统
CN107465667A (zh) * 2017-07-17 2017-12-12 全球能源互联网研究院有限公司 基于规约深度解析的电网工控安全协同监测方法及装置
CN107623697A (zh) * 2017-10-11 2018-01-23 北京邮电大学 一种基于攻防随机博弈模型的网络安全态势评估方法
CN109639648A (zh) * 2018-11-19 2019-04-16 中国科学院信息工程研究所 一种基于采集数据异常的采集策略生成方法及系统
CN109688106A (zh) * 2018-11-19 2019-04-26 中国科学院信息工程研究所 一种数据协同采集方法及系统
CN109714312A (zh) * 2018-11-19 2019-05-03 中国科学院信息工程研究所 一种基于外部威胁的采集策略生成方法及系统
CN110222058A (zh) * 2019-06-05 2019-09-10 深圳市优网科技有限公司 基于FP-growth的多源数据关联隐私泄露风险评估系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUNCHUAN GUO: "Real-Time Data Incentives for IoT Searches", 《2018 IEEE INTERNATIONAL CONFERENCE ON COMMUNICATIONS (ICC)》 *
李凤华: "复杂网络环境下面向威胁监测的采集策略精化方法", 《通 信 学 报》 *
陈黎丽: "安全数据采集代理顽健部署策略研究", 《通 信 学 报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112737972A (zh) * 2020-12-24 2021-04-30 北京珞安科技有限责任公司 一种数据传输频率确定方法、装置及计算机设备
CN112737972B (zh) * 2020-12-24 2023-05-26 北京珞安科技有限责任公司 一种数据传输频率确定方法、装置及计算机设备
CN113489740A (zh) * 2021-07-20 2021-10-08 山石网科通信技术股份有限公司 网络威胁情报信息的处理方法、装置、存储介质及处理器
CN113489740B (zh) * 2021-07-20 2023-10-27 山石网科通信技术股份有限公司 网络威胁情报信息的处理方法、装置、存储介质及处理器
CN118488084A (zh) * 2024-07-16 2024-08-13 四川万物纵横科技股份有限公司 一种智能化物联设备数据采集方法及系统
CN118488084B (zh) * 2024-07-16 2024-09-24 四川万物纵横科技股份有限公司 一种智能化物联设备数据采集方法及系统

Also Published As

Publication number Publication date
CN111865899B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN108494810B (zh) 面向攻击的网络安全态势预测方法、装置及系统
CN114584405B (zh) 一种电力终端安全防护方法及系统
CN110620759B (zh) 基于多维关联的网络安全事件危害指数评估方法及其系统
Deshpande et al. HIDS: A host based intrusion detection system for cloud computing environment
CN111865899B (zh) 威胁驱动的协同采集方法及装置
US8028061B2 (en) Methods, systems, and computer program products extracting network behavioral metrics and tracking network behavioral changes
US8725871B2 (en) Systems and methods for application dependency discovery
CN113159615B (zh) 一种工业控制系统信息安全风险智能测定系统及方法
US20180183680A1 (en) Behavior-based host modeling
US10367842B2 (en) Peer-based abnormal host detection for enterprise security systems
CN112882911A (zh) 异常性能行为检测方法、系统、装置及存储介质
CN111935161A (zh) 一种基于博弈论的网络攻防分析方法及系统
CN114915479A (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
CN110830467A (zh) 基于模糊预测的网络可疑资产识别方法
CN114465874A (zh) 故障预测方法、装置、电子设备与存储介质
US10476754B2 (en) Behavior-based community detection in enterprise information networks
CN115795330A (zh) 一种基于ai算法的医疗信息异常检测方法及系统
WO2020119627A1 (zh) 应用于分布式容器云平台的异常检测与定位方法及装置
CN110188015A (zh) 一种主机访问关系异常行为自适应检测装置及其监测方法
CN111147300B (zh) 一种网络安全告警置信度评估方法及装置
RU148692U1 (ru) Система мониторинга событий компьютерной безопасности
CN118101250A (zh) 一种网络安全检测方法及系统
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN118133274A (zh) 一种基于大数据的信息安全管理及监控方法及系统
RU180789U1 (ru) Устройство аудита информационной безопасности в автоматизированных системах

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant