CN109510793A

CN109510793A - 一种基于协同过滤的安全事件预测技术

Info

Publication number: CN109510793A
Application number: CN201710824750.4A
Authority: CN
Inventors: 杨育斌; 吴智东; 覃晓宁; 柯宗贵
Original assignee: Bluedon Information Security Technologies Co Ltd
Current assignee: Bluedon Information Security Technologies Co Ltd
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2019-03-22

Abstract

本发明公开了一种基于协同过滤的安全事件预测技术，该发明通过基于用户的协同过滤和基于模型的协同过滤相结合的方法，对设备将会发生的安全事件进行准确有效的预测并告警，为设备提供了更加安全的保障。

Description

一种基于协同过滤的安全事件预测技术

技术领域

本发明涉及一种互联网通信技术领域，特别涉及一种基于协同过滤的安全事件预测技术。

背景技术

在数据储存技术和设备计算能力大幅度提高的背景下，标准SIEM/SOC从多个安全事件源收集到各种恶意攻击、非法入侵、病毒木马、数据泄露、流量异常等安全日志的数据日呈指数式增长，而如何使用各种安全日志的数据，服务于设备的安全，显得尤其重要。

针对安全日志的数据利用情况，目前较为常见的是用关联规则检测当前发生的事件是否为正常的安全事件。这种方法只能实时检测发生的安全事件是否对设备或系统存在损害可能，并不能防范于未然。如果在某个恶意的事件发生前，系统能提前预测出该安全事件将会发生的时间和位置，这样对于防范资产设备所受的损害，提供了极大的帮助。

推荐算法的出现，是为了解决在信息过载的情况下，如何准确有效地为用户提供个性化推荐服务的难题。目前，各大电子商务平台都在不同程度地使用了推荐系统，如Amazon，eBay，豆瓣网等，并且推荐算法不断被开发成更多形式不同的算法模式，日渐成熟。而其中最为常用的算法为协同过滤。协同过滤可以细分为一下三种：基于用户的协同过滤、基于项目的协同过滤和基于模型的协同过滤。基于用户的协同过滤的基本思想是：计算与用户兴趣爱好相似的用户组，再从喜好相似的用户组中找到此用户没有的商品，进行推荐。基于项目的协同过滤原理类似。而基于模型的协同过滤是采用了机器学习的方法，使用历史数据训练生成推荐模型，再用此模型进行推荐。

本发明将结合安全事件和协同过滤算法，对设备将要发生的安全事件进行预测。

发明内容

为克服现有技术的不足，本发明通过基于用户的协同过滤和基于模型的协同过滤相结合的方法，对设备将会发生的安全事件进行准确有效的预测并告警，为设备提供了更加安全的保障。

本发明所叙述安全事件包括但不限于各种网络攻击事件、异常流量、授权操作等，数据来源于SIEM/SOC整合的主机日志数据、IDS日志数据、WAF日志数据、防火墙日志数据等。该发明技术方案如下：

步骤s1：收集原始SIEM/SOC系统的事件日志数据，按照细分的时间粒度进行分割并进行处理，形成适合统计分析的数据。

步骤s2：采用基于模型的协同过滤思想，将步骤1处理后的数据整合成资产-事件的UV矩阵，其中矩阵的行为资产IP，矩阵的列为事件名称，矩阵值为对应资产的对应安全事件发生次数，类似于多维空间的多个点。将此UV矩阵进行分解，分解为资产因子矩阵和安全事件因子矩阵。不断迭代，最小化误差，构建出推荐模型。通过该模型，可以计算每个资产在各个时间段各个安全事件的推荐得分。

步骤s3：采用基于用户的协同过滤思想，遍历所有资产，计算资产两两之间的相似性，找出与当前资产在安全事件上最为相似的一个资产组。设定一定的阈值，对组内发生而该资产没有发生且推荐得分大于阈值的安全事件进行推荐。

步骤s4：结合步骤s2和步骤s3，对同一资产的同一推荐的安全事件结果，采用最佳的权重值，进行线性加权组合，得出最终的事件预测得分。

步骤s5：将设备实施发生的安全事件和预测该设备将会发生的安全事件进行配对，根据配对结果更新模型权重值，提高模型预测准确率。

本发明本发明技术方案带来的有益效果：

本发明相对于以往仅对安全事件进行检测，从一个新的角度出发，对设备将要发生的安全事件进行预测，提前发现设备可能潜在的威胁；采用推荐系统和机器学习的方式，利用历史数据和设备之间的相关性，本发明通过预测的安全事件，能够判断当前设备的安全现状，对后续应对威胁或改善设备安全状态提供了一定的指示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施方案：

步骤1，对原始SIEM/SOC系统的事件日志数据进行预处理；包括4个步骤：

步骤1.1：收集原始SIEM/SOC系统的事件日志数据，使用全量的历史日志数据，选取建模字段为设备IP、事件名称、事件发生时间；

步骤1.2：一个IP作为一个资产对象，选取时间间隔将每天的日志数据进行切割；

步骤1.3：对于每一个时间标签，统计在相同时间标签下相同资产发生的安全事件种类和事件次数，组成一个由资产IP、安全事件名称、安全事件发生次数和时间标签组成的四元组数据，以此作为样本数据；

步骤1.4：选取特定的时间标签，构造UV矩阵，其中矩阵行是资产IP，矩阵列是安全事件名称，矩阵值为对应资产的对应安全事件发生次数。

步骤2，采用基于模型的协同过滤算法计算资产安全事件推荐得分；包括3个步骤：

步骤2.1：将此UV矩阵使用SVD奇异值分解的方法，分解为资产因子矩阵U和安全事件因子矩阵V；

步骤2.2：采用交替最小二乘法来计算出使模型误差低于某阈值的最佳资产因子矩阵U和事件因子矩阵V，训练目标为最小化以下损失函数：

通过交叉训练选出使模型最优的c，λ，以此构建出最优的推荐模型；

步骤2.3：通过该模型，可以计算每个资产在各个时间段各个安全事件的推荐得分，如对于资产u_i在安全事件v_j上的得分为

步骤3，采用基于用户的协同过滤算法计算资产推荐安全事件推荐得分；包括2个步骤：

步骤3.1：根据余弦相似度，计算资产间两两的余弦相似度

步骤3.2：计算出资产u_i在安全事件v_j上的推荐得分。其中得分计算算法如下，选出与资产u_i余弦相似度最高的K个资产和发生过安全事件v_j的资产集合T，通过如下公式计算出资产u_i在安全事件v_j上的推荐得分：

通过对所有安全事件v_j的计算得分降序排列，设置指定阈值a，选取出得分超过该a的安全事件，以此作为对资产u_i进行预测的安全事件。

步骤4，采用线性加权的方法，组合得出最终预测得分；包括2个步骤：

步骤4.1：计算资产u_i对安全事件v_j的预测得分。对步骤二和步骤三中每个资产计算出来的推荐得分结果，对资产u_i预测其发生安全事件v_j的得分为：

其中w_m表示设置的基于模型得分的权重，w_n表示设置的基于用户的协同过滤得分权重。计算出加权后的推荐得分作为模型最终的预测得分。

步骤4.2：对每个资产按安全事件的总预测得分降序排列，排名最前的为在该时间段内最可能发生的安全事件。

步骤5，记录设备当前发生的安全事件，并与模型预测的安全事件，进行配对，计算准确率和更新模型权重；包括2个步骤：

步骤5.1：实时监测设备发生的安全事件，与模型预测的安全事件进行匹配，计算预测安全事件发生的准确率；

步骤5.2：通过准确率自动调整两个模型在步骤4.1的线性权重值，自学习式更新模型，提高准确率。

以上对本发明实施例所提供的一种基于协同过滤的安全事件预测技术进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于协同过滤的安全事件预测技术，该发明基于用户的协同过滤和基于模型的协同过滤相结合的方法，对设备将会发生的安全事件进行准确有效的预测并告警，为设备提供了更加安全的保障。

2.根据权利要求1所述的一种基于协同过滤的安全事件预测技术，其特征在于：将协同过滤推荐算法使用在安全事件领域，以及使用协同过滤算法对安全事件进行预测。

3.根据权利要求1所述的一种基于协同过滤的安全事件预测技术，其特征在于：使用主机日志数据、IDS日志数据、WAF日志数据、防火墙日志数据，结合协同过滤算法，创造性地对设备的安全事件进行预测。

4.根据权利要求1所述的一种基于协同过滤的安全事件预测技术，其特征在于：使用两种协同过滤算法来进行建模，并使用自动调整模型权重参数的方式调节模型准确率。

5.根据权利要求1中所述的一种基于协同过滤的安全事件预测技术，其特征在于：预测模型权重的自学习调整方式，区别于静态设置组合模型权重的方式，通过对设备实时发生的安全事件与预测安全事件进行匹配，从而更新模型权重参数，使得模型能自学习地提高预测准确率和自动优化预测模型。