CN112532652A

CN112532652A - 一种基于多源数据的攻击行为画像装置及方法

Info

Publication number: CN112532652A
Application number: CN202011514648.2A
Authority: CN
Inventors: 刘欣; 徐浩; 王龙江; 王成宇
Original assignee: China Telecom Fufu Information Technology Co Ltd
Current assignee: China Telecom Fufu Information Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-19

Abstract

本发明公开一种基于多源数据的攻击行为画像装置及方法，利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法，组成一个提取攻击画像、计算攻击行为异常得分。对风险数据进行特征聚类，对攻击行为进行打标签，形成攻击画像仓库。不断采集攻击行为数据不断对攻击历史标签进行修正及新告警产生，不断丰富攻击画像仓库。全程自动化运行，自动对数据进行学习优化，节省人工成本及误报率，大大的增加攻击判断准确性。

Description

一种基于多源数据的攻击行为画像装置及方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于多源数据的攻击行为画像装置及方法。

背景技术

近年来，网络攻击事件频发，互联网上的木马、蠕虫、勒索软件层出不穷，这对网络安全乃至国家安全形成了严重的威胁。网络攻击是利用网络信息系统存在的漏洞和安全缺陷对系统和资源进行攻击。网络信息系统所面临的威胁来自很多方面，而且会随着时间的变化而变化。一般情况下企业都是使用WAF或应用防火墙等来获取攻击行为，或者通过特定的攻击规则策略配置，特征识别，算法识别等方式进行是否是攻击行为的判断。

对于传统的风险获取方式，由于告警预警漏洞种类繁多，所以就需要配置很多的拦截规则，识别方式等。由于攻击模式多样、攻击样本缺乏、人工标记标签工作量大等困难，当前较为成熟的有监督学习分类方法无法有效利用现有数据进行训练。而且有些规则策略需要特定的技术人员去对海量数据进行风险判断，研判是风险后再进行规则配置，提取符合单一规则的数据进行攻击标识。由于攻击手段存在多样性，就需要分析程序的攻击识别也要不断的更新，这样才能满足攻击识别要求，因此这种识别方式最大的弊端就是相似的攻击行为如果和规则不完全匹配就不能进行攻击判定。虽然这种攻击发现方式能够发现许多攻击，但是漏报率很大，并且不能对过往数据进行修正，往往对于使用者使用起来体验不佳。

发明内容

本发明的目的在于提供一种基于多源数据的攻击行为画像装置及方法。

本发明采用的技术方案是：

一种基于多源数据的攻击行为画像装置，其包括依次连接的数据收集与整理模块、本体构建模块和相似行为聚类模块；

数据收集与整理模块：收集经多种协议接入的数据，并对所得数据进行清洗和预处理成属性数据收集和标签化工作形成攻击画像仓库；

本体构建模块：对风险数据的攻击属性进行属性数据收集和标签化，建立属性信息与攻击行为画像的沟通桥梁；

相似行为聚类模块：计算攻击行为画像间的相似度，将相似度高的攻击行为画像分为一类，得到行为模式相近的攻击群。

进一步地，数据收集与整理模块支持syslog、http、webservice、socket 多种协议数据接入，且数据接入程序支持分布式。

进一步地，数据收集与整理模块对数据中无法真实表现攻击特点的数据进行清理，理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性；再将无法完全量化的指标按照实际情况进行等级划分。

进一步地，在基于本体的攻击属性画像中，有些属性是定量的，有些属性是定性的，因此，攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。

一种基于多源数据的攻击行为画像方法，其包括以下步骤：

步骤1，通过多种数据接入协议获取多源数据，

步骤2，对所得数据进行清洗和预处理完成属性数据收集和标签化工作形成攻击画像仓库；

步骤3，对风险数据进行特征细节的提取，基于特征细节以攻击为基本单位进行攻击行为本体构建；

步骤4，计算攻击行为画像间的相似度，将相似度高的攻击行为画像分为一类，得到行为模式相近的攻击群。

进一步地，步骤1支持syslog、http、webservice、socket 多种协议数据接入，且数据接入程序支持分布式。

进一步地，步骤2的具体步骤为：首先对数据中无法真实表现攻击特点的数据进行清理；理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性；将无法完全量化的指标，按照实际情况进行等级划分。

进一步地，步骤3利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法，组成一个提取攻击画像、计算攻击行为异常得分。

进一步地，步骤4中在基于本体的攻击属性画像中，有些属性是定量的，有些属性是定性的，因此，攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。

本发明采用以上技术方案，对流量及主机日志数据进行采集，并对历史及实时告警、预警及漏洞数据进行机器学习，由于获取攻击行为样本代价高、难度大，且正负例样本比例严重失衡，传统的二分类方法不能很好地适应该问题。因此，在画像提取部分，只能对单类行为细节和全局行为序列特征进行学习，并分别形成一个攻击行为的数据描述模型。而后，根据设定的阈值判断新行为样本的归属。利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法，组成一个提取攻击画像、计算攻击行为异常得分的框架。装置首先对风险数据进行特征聚类，对攻击行为进行打标签，形成攻击画像仓库。然后不断采集攻击行为数据不断对攻击历史标签进行修正及新告警产生，不断丰富攻击画像仓库。采集流量及主机日志后与攻击行为画像仓库进行匹配，匹配度达到一定阈值后判定为攻击行为并发出告警提供给技术人员进行研判，对产生的攻击行为进行一段时间研判后可基本省略人工研判过程。这种装置可以手动对规则进行优化，而且这个装置全程自动化运行，自动对数据进行学习优化，节省人工成本及误报率，大大的增加攻击判断准确性。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种基于多源数据的攻击行为画像装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，本发明公开了一种基于多源数据的攻击行为画像装置，其包括依次连接的数据收集与整理模块、本体构建模块和相似行为聚类模块；

一种基于多源数据的攻击行为画像方法，其包括以下步骤：

步骤1，通过多种数据接入协议获取多源数据，

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.一种基于多源数据的攻击行为画像装置及方法，其特征在于：其包括依次连接的数据收集与整理模块、本体构建模块和相似行为聚类模块；

2.根据权利要求1所述的一种基于多源数据的攻击行为画像装置，其特征在于：数据收集与整理模块支持syslog、http、webservice、socket 多种协议数据接入，且数据接入程序支持分布式。

3.根据权利要求1所述的一种基于多源数据的攻击行为画像装置，其特征在于：数据收集与整理模块对数据中无法真实表现攻击特点的数据进行清理，理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性；再将无法完全量化的指标按照实际情况进行等级划分。

4.根据权利要求1所述的一种基于多源数据的攻击行为画像装置，其特征在于：相似行为聚类模块进行攻击行为画像之间的相似度计算时结合定量相似度和定性相似度来进行计算。

5.一种基于多源数据的攻击行为画像方法，权利要求1至4之一所述的一种基于多源数据的攻击行为画像装置，其特征在于：方法包括以下步骤：

步骤1，通过多种数据接入协议获取多源数据，

6.根据权利要求5所述的一种基于多源数据的攻击行为画像方法，其特征在于：步骤1支持syslog、http、webservice、socket 多种协议数据接入，且数据接入程序支持分布式。

7.根据权利要求5所述的一种基于多源数据的攻击行为画像方法，其特征在于：步骤2的具体步骤为：首先对数据中无法真实表现攻击特点的数据进行清理；理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性；将无法完全量化的指标，按照实际情况进行等级划分。

8.根据权利要求5所述的一种基于多源数据的攻击行为画像方法，其特征在于：步骤3利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法，组成一个提取攻击画像、计算攻击行为异常得分。

9.根据权利要求5所述的一种基于多源数据的攻击行为画像方法，其特征在于：步骤4中攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。