CN111586046A

CN111586046A - 一种结合威胁情报和机器学习的网络流量分析方法及系统

Info

Publication number: CN111586046A
Application number: CN202010381750.3A
Authority: CN
Inventors: 娈靛浆; 段彬
Original assignee: Wuhan Sipuling Technology Co Ltd
Current assignee: Wuhan Sipuleng Technology Co Ltd; Wuhan Sipuling Technology Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-25
Anticipated expiration: 2040-05-08
Also published as: CN111586046B

Abstract

本发明提供一种结合威胁情报和机器学习的网络流量分析方法及系统，采集多种途径的数据信息，将其预处理为情报数据流，克服现有技术信息仅来源于本地发生的事件和行为，分析所述情报数据流与热门安全事件的关联，得出关键设备的安全态势值，进而通过模型预测网络的攻击来源和攻击路径，实现实时动态预测网络安全，更好地保护不同用户的业务数据。

Description

一种结合威胁情报和机器学习的网络流量分析方法及系统

技术领域

本申请涉及网络安全技术领域，尤其涉及一种结合威胁情报和机器学习的网络流量分析方法及系统。

背景技术

现有的流量分析方法和系统多为被动式、静态地使用规则对提取的关键词进行匹配，得出是否被攻击的结论。即使有一些网络攻击的预测，也只是根据自身网络的历史数据进行机器学习，预测的效果很差。

因此，急需一种可动态学习的网络流量分析方法和对应的系统。

发明内容

本发明的目的在于提供一种结合威胁情报和机器学习的网络流量分析方法及系统，采集多种途径的数据信息，将其预处理为情报数据流，分析所述情报数据流与热门安全事件的关联，得出关键设备的安全态势值，进而通过模型预测网络的攻击来源和攻击路径。

第一方面，本申请提供一种结合威胁情报和机器学习的网络流量分析方法，所述方法包括：

采集不同来源的传感器、节点设备、信息平台、网络设备的运行状态数据、IP数据、域名信息、URL信息、传输文件数据、数据库动态信息中的一种或若干种；

接收采集数据后，进行初始化处理，清除数据中冗余重复的信息，根据来源的类型，将数据初始化转换为统一的格式，分入对应的字段，合并成情报数据流；

其中，根据信息来源的历史记录，对不同的信息来源给出了不同的评分，当采集的信息出现冗余或重复时，优先采信评分的信息来源，如果后续环节验证信息为可用，则在原有评分基础上继续累计分值；

还可以根据预先设置的情报类型，侧重采集所述情报类型对应的信息，动态将与所述情报类型相关度低的信息设置为冗余信息，在初始化处理中清除；所述与所述情报类型相关度低为，采集到的信息的类型与预先设置的情报类型进行相关度计算，相关度的值低于阈值，则认定为相关度低；

从合并后的情报数据流中提取要素，发现要素中包括的行为动作、访问对象、来源者地址、瞬时流量大小中的一种或若干种，从中发掘高频项目组，根据高频项目组对应的信息生成高频关联规则，加大其对应的权重，将更新权重后的数据进行数据融合，组成树状结构；

其中，所述提取要素时还包括判断发现的要素是否与当前热门安全事件相关，如果是则在要素中标记热门安全事件摘要，并将多个与该热门安全事件相关的要素进行关联，进行数据融合，形成专门的数据条；

根据所述树状结构和专门的数据条，查询与单个关键设备地址相邻的资产态势信息，查询与单个关键设备的访问对象所属属性区域内的资产态势信息，以及查询与单个关键设备流量速度、流量总量相似的资产态势信息；

其中，属性区域为根据用户属性动态划分出的属性域，每个属性域与若干个关键设备建立关联关系，采用属性加密算法隔离不同属性域的边界，实现不同网络的边界访问控制，以及同一属性域内关键设备的授权访问；

判断单个关键设备是否存在与地址相邻相近资产相同的安全漏洞，判断单个关键设备的并发线程、带宽、网络拓扑、访问频率是否存在与所属同属性区域资产相同的报警，判断单个关键设备的流入量增长率、不同协议数据包分布比例、不同大小数据包分布比例是否存在与流量速度、流量总量相似资产相同的变化，计算单个关键设备的安全态势值；

将邻近的若干个单个关键设备，或者依据有业务交互的若干个单个关键设备，组成局部网络，由局部网络内的每个关键设备对应的安全漏洞、并发线程、带宽、网络拓扑、访问频率、流入量增长率、不同协议数据包分布比例和不同大小数据包分布比例，根据业务优先级引入模糊处理计算局部网络的安全态势值；

根据多个局部网络的拓扑关系，模糊处理计算整个网络的安全态势值；

分别将单个关键设备、局部网络和整个网络的安全态势值导入神经网络模型，通过神经网络模型推演，得出未来一段时间关于攻击者来源和攻击范围的预测，并将预测结果反馈给神经网络模型，更新神经网络模型的参数；

将单个关键设备、局部网络和整个网络的安全态势值，攻击者来源和攻击范围的预测结果进行可视化展示。

结合第一方面，在第一方面第一种可能的实现方式中，所述模糊处理计算是基于D-S理论与模糊集相结合的方法，计算攻击发生支持的概率。

结合第一方面，在第一方面第二种可能的实现方式中，所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种，对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘，建立规则库，将疑似攻击的溯源信息与规则库中的信息进行对比，通过传播查询和追溯查询构建溯源图，根据所述溯源图获取攻击事件的发生脉络和攻击路径，并在发生脉络上标记热门安全事件摘要。

结合第一方面，在第一方面第三种可能的实现方式中，所述可视化展示还包括风险评估、攻击关联分析、态势感知，进行主动防御，与云服务器中的数据挖掘、大数据分析配合，定位网络脆弱点和发现潜在的威胁和攻击。

第二方面，本申请提供一种结合威胁情报和机器学习的网络流量分析系统，所述系统包括：

采集单元，用于采集不同来源的传感器、节点设备、信息平台、网络设备的运行状态数据、IP数据、域名信息、URL信息、传输文件数据、数据库动态信息中的一种或若干种；

预处理单元，用于接收采集数据后，进行初始化处理，清除数据中冗余重复的信息，根据来源的类型，将数据初始化转换为统一的格式，分入对应的字段，合并成情报数据流；

情报理解单元，用于从合并后的情报数据流中提取要素，发现要素中包括的行为动作、访问对象、来源者地址、瞬时流量大小中的一种或若干种，从中发掘高频项目组，根据高频项目组对应的信息生成高频关联规则，加大其对应的权重，将更新权重后的数据进行数据融合，组成树状结构；

情报评估单元，用于根据所述树状结构和专门的数据条，查询与单个关键设备地址相邻的资产态势信息，查询与单个关键设备的访问对象所属属性区域内的资产态势信息，以及查询与单个关键设备流量速度、流量总量相似的资产态势信息；

情报预测单元，用于分别将单个关键设备、局部网络和整个网络的安全态势值导入神经网络模型，通过神经网络模型推演，得出未来一段时间关于攻击者来源和攻击范围的预测，并将预测结果反馈给神经网络模型，更新神经网络模型的参数；

情报展示单元，用于将单个关键设备、局部网络和整个网络的安全态势值，攻击者来源和攻击范围的预测结果进行可视化展示。

结合第二方面，在第二方面第一种可能的实现方式中，所述模糊处理计算是基于D-S理论与模糊集相结合的方法，计算攻击发生支持的概率。

结合第二方面，在第二方面第二种可能的实现方式中，所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种，对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘，建立规则库，将疑似攻击的溯源信息与规则库中的信息进行对比，通过传播查询和追溯查询构建溯源图，根据所述溯源图获取攻击事件的发生脉络和攻击路径，并在发生脉络上标记热门安全事件摘要。

结合第二方面，在第二方面第三种可能的实现方式中，所述可视化展示还包括风险评估、攻击关联分析、态势感知，进行主动防御，与云服务器中的数据挖掘、大数据分析配合，定位网络脆弱点和发现潜在的威胁和攻击。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明结合威胁情报和机器学习的网络流量分析方法的大致流程图；

图2为本发明结合威胁情报和机器学习的网络流量分析系统的架构图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

图1为本申请提供的结合威胁情报和机器学习的网络流量分析方法的大致流程图，所述方法包括：

在一些优选实施例中，所述模糊处理计算是基于D-S理论与模糊集相结合的方法，计算攻击发生支持的概率。

在一些优选实施例中，所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种，对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘，建立规则库，将疑似攻击的溯源信息与规则库中的信息进行对比，通过传播查询和追溯查询构建溯源图，根据所述溯源图获取攻击事件的发生脉络和攻击路径，并在发生脉络上标记热门安全事件摘要。

在一些优选实施例中，所述方法还包括采用访问控制、入侵检测，对重要网络节点、网络边界、远程访问用户行为进行安全审计，使用时间戳或计数器并结合完整性检查核查现场设备认证数据的新鲜度和检测数据是否被篡改。

在一些优选实施例中，所述数据融合可采用的聚类算法包括K-Means算法、均值漂移聚类算法、基于密度的聚类算法、或凝聚层次聚类算法。

在一些优选实施例中，所述可视化展示还包括风险评估、攻击关联分析、态势感知，进行主动防御，与云服务器中的数据挖掘、大数据分析配合，定位网络脆弱点和发现潜在的威胁和攻击。

图2为本申请提供的结合威胁情报和机器学习的网络流量分析系统的架构图，所述系统包括：

在一些优选实施例中，所述网络传输层还包括采用访问控制、入侵检测，对重要网络节点、网络边界、远程访问用户行为进行安全审计，使用时间戳或计数器并结合完整性检查核查现场设备认证数据的新鲜度和检测数据是否被篡改。

所述采集单元、预处理单元、情报理解单元、情报评估单元、情报预测单元和情报展示单元可部署在不同的装置上，装置之间协同工作。

所述部署在不同的装置上，可以是每一个单元为一个装置，不同装置之间通过专用安全传输协议进行传输。所述专用安全传输协议可以是在通用传输协议的基础上添加特殊的报头，所述报头中携带有字段，用于指示加密算法或密钥。

所述部署在不同的装置上，可以是情报理解单元、情报评估单元、情报预测单元集成在一个装置上，不同装置之间通过专用安全传输协议进行传输。

所述情报理解单元、情报评估单元、情报预测单元可以不是固定在一个网络中间装置上，可以根据网络中间装置当前的负载情况、业务种类动态调整到其他网络中间装置上。

所述预处理单元、情报理解单元、情报评估单元、情报预测单元四个部分，也可以不是固定一种部署方式，可以根据情况动态调整部署。这里所述的情况，可以是网络拥塞、被攻击范围等等因素。

还可以预处理单元包括被固化在内的第一加密密钥，是指在预处理单元内完成第一道数字加密，这里的密钥是固定不变的。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称：ROM)或随机存储记忆体(简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书各个实施例之间相同相似的部分互相参见即可。尤其，对于实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种结合威胁情报和机器学习的网络流量分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于：所述模糊处理计算是基于D-S理论与模糊集相结合的方法，计算攻击发生支持的概率。

3.根据权利要求1-2任一项所述的方法，其特征在于：所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种，对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘，建立规则库，将疑似攻击的溯源信息与规则库中的信息进行对比，通过传播查询和追溯查询构建溯源图，根据所述溯源图获取攻击事件的发生脉络和攻击路径，并在发生脉络上标记热门安全事件摘要。

4.根据权利要求1-3任一项所述的方法，其特征在于：所述可视化展示还包括风险评估、攻击关联分析、态势感知，进行主动防御，与云服务器中的数据挖掘、大数据分析配合，定位网络脆弱点和发现潜在的威胁和攻击。

5.一种结合威胁情报和机器学习的网络流量分析系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述模糊处理计算是基于D-S理论与模糊集相结合的方法，计算攻击发生支持的概率。

7.根据权利要求5-6任一项所述的系统，其特征在于，所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种，对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘，建立规则库，将疑似攻击的溯源信息与规则库中的信息进行对比，通过传播查询和追溯查询构建溯源图，根据所述溯源图获取攻击事件的发生脉络和攻击路径，并在发生脉络上标记热门安全事件摘要。

8.根据权利要求5-7任一项所述的系统，其特征在于，所述可视化展示还包括风险评估、攻击关联分析、态势感知，进行主动防御，与云服务器中的数据挖掘、大数据分析配合，定位网络脆弱点和发现潜在的威胁和攻击。