CN112115183A

CN112115183A - 一种基于图的蜜罐系统威胁情报分析方法

Info

Publication number: CN112115183A
Application number: CN202010984070.0A
Authority: CN
Inventors: 吴建亮; 胡鹏; 刘顺明
Original assignee: Guangzhou Jeeseen Network Technologies Co Ltd
Current assignee: Guangzhou Jeeseen Network Technologies Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-22
Anticipated expiration: 2040-09-18
Also published as: CN112115183B

Abstract

本发明涉及一种基于图的蜜罐系统威胁情报分析方法，包括如下步骤：利用蜜罐系统收集攻击者的行为数据；分析提取出元信息以及由元信息衍生出的衍生信息；构建图模型，保存至图数据库；威胁情报挖掘和分析；提供节点间关系的挖掘和分析接口，挖掘和分析用户指定的节点信息，本方法解决了现有技术无法对蜜罐系统收集的攻击数据进行深度挖掘的问题，可进一步挖掘分析攻击数据中的潜在联系，了解攻击者的攻击方式，为蜜罐系统架构层面的调整提供更为精确的参考，同时也为攻击追溯和攻击取证提供了有效的信息参考。

Description

一种基于图的蜜罐系统威胁情报分析方法

技术领域

本发明涉及网络安全技术领域，具体的说是一种基于图的蜜罐系统威胁情报分析方法。

背景技术

随着计算机技术的飞速发展，信息网络已经成为社会发展的重要保证，为此保证信息网络安全至关重要，因此针对网络上各种攻击手段需制定相应防护手段以免遭受到网络攻击。但相应防护手段的制定前提是首先要了解攻击者的攻击方式，但多数攻击者的手段是具有破坏性的，因此为实现攻击数据大量收集，蜜罐技术被大量采用到网络安全技术中。蜜罐技术本质上是一种对攻击方进行欺骗的技术，通过布置一些作为诱饵的主机、网络服务或者信息，诱使攻击方对它们实施攻击，从而可以对攻击行为进行捕获和分析，了解攻击方所使用的工具与方法，推测攻击意图和动机，能够让防御方清晰地了解他们所面对的安全威胁。但由于蜜罐系统每时每刻都会收集海量的攻击数据，而想从中分析出有效的数据信息是十分困难的。为此需要一种可从海量数据中有效提取信息的方法。

传统的数据挖掘任务，比如关联规则挖掘、市场购物篮分析和聚类分析等，都是试图从一个具有单一关系的独立实例集中寻找模式。许多真实数据集描述的都是通过多种关系连接在一起的各种实体类型，各样本之间可能存在潜在的连接关系，并且拥有共同点的对象之间往往有连接存在，作为一种通用的数据结构，图可以满足建模数据间的复杂关系的要求。

中国专利文献CN102833240B公开了一种恶意代码捕获方法及系统，该方法中公开了一种图模型结构，但该结构用于Email终端虚拟蜜罐的选择与部署算法，算法目的为选择适合部署为蜜罐的Email账号，算法的主要思想为对图模型进行聚类，再按点的入度、活跃度、聚集系数进行评估后选择指标靠前的Email账号，而针对已收集到的海量攻击数据，无法进行进一步挖掘分析，无法挖掘出各攻击实体间可能存在的联系，以及攻击者的技术能力水平。

中国专利文献CN111371758A公开了一种基于动态贝叶斯攻击图的网络欺骗效能评估方法，该方法中构建了一种有向图模型，表示了被评估的网络或信息系统中存在的脆弱点以及攻击者利用这些脆弱点进行一步或多步攻击的各种可能的攻击路径，该图模型应用于评估网络欺骗的效能，无法对海量的攻击数据进行有效挖掘。

发明内容

针对上述现有技术中存在的问题，本发明公布了一种基于图的蜜罐系统威胁情报分析方法，解决了现有技术无法对蜜罐系统收集的攻击数据进行深度挖掘的问题，本方法基于图模型可进一步挖掘分析攻击数据中的潜在联系，使用户进一步了解攻击者的攻击方式，为蜜罐系统架构层面的调整提供更为精确的参考，同时也为攻击追溯和攻击取证提供了有效的信息参考。

在本方法中，用于分析的威胁情报数据是指从蜜罐系统中收集到的攻击行为数据中提取出的元信息及衍生信息，元信息凸显了攻击者在蜜罐系统中进行的攻击操作留下的痕迹特征，如攻击源IP，输入的账号密码，上传的恶意文件等，这些都是威胁情报的一部分，同时，由元信息衍生出的一些衍生信息也是威胁情报的一部分，如攻击源IP的地理定位信息，上传的恶意文件执行后释放的文件等。

本发明所公开的具体的技术方案如下：一种基于图的蜜罐系统威胁情报分析方法，包括如下步骤：

S10.数据收集：利用蜜罐系统收集攻击者的行为数据；

S20.数据提取：基于收集到的行为数据，分析提取出元信息以及由元信息衍生出的衍生信息；所收集的行为数据中由攻击者产生的数据，如输入的账号密码、上传的文件、访问的外部URL等；攻击者本身携带的数据，如IP、User-Agent、工具payload等；以及由上述数据衍生出的数据，如IP衍生出的地理位置、上传的文件相应的MD5值和模糊hash值等。这些都是可作为元信息以及衍生信息的关键数据。

S30.构建图模型：以提取出的元信息以及衍生信息作为图模型的节点，以各种元信息以及衍生信息的关系作为图的边，构建出图模型，并实时保存至图数据库中；

S40.基于构建完成的图模型定期进行威胁情报挖掘和分析，得到威胁情报的挖掘和分析结果，并进行显示；

所述S40步骤中基于构建完成的图模型进行威胁情报挖掘和分析的具体方法为：

S41.基于需要发掘和分析的威胁情报，选取图模型中与威胁情报相关的节点；

S42.基于选取出的节点，结合挖掘目标应用图挖掘算法，得到相应挖掘结果：当挖掘攻击源间的群体特征时，采用基于节点相似度的社区发现算法；当挖掘攻击者的个人特征信息时，采用频繁子图挖掘算法；

S43.基于挖掘结果分析得到所需要的威胁情报；

S50.基于已得到的威胁情报挖掘和分析结果，提供节点间关系的挖掘和分析接口，用于挖掘和分析用户指定的节点信息，

所述S50步骤中接口进行挖掘和分析的具体方法为：

S51.用户指定一个或多个原始节点；

S52.基于用户指定的原始节点，接口选取图模型中所有与原始节点关联的节点；

S53.基于选取出的节点，接口分析相同邻居节点或计算节点相似度，用户得到原始节点关联的节点信息。

社区发现算法用于挖掘出图结构中可能存在的社区群体，在本发明中，不同攻击源IP之间没有直接的边连接关系，但线下部分IP对应的人员中可能属于一个社区群体，他们一起发动了对蜜罐系统的攻击，他们的群体性质在攻击数据层面是很难看出，本发明通过社区挖掘算法可挖掘出不同IP中所存在的群体组织。

优选的，所述S40步骤中威胁情报的挖掘和分析结果包括攻击源之间关联关系、恶意文件之间模糊关系、恶意文件家族衍生图谱、基于同一攻击平台利用公网IP进行网络攻击情况。

优选的，所述S50步骤中接口包括IP关联查询接口、恶意文件家族信息查询接口、攻击工具信息查询接口。

优选的，本发明可用于攻击源(以IP表示)之间关联关系的挖掘和分析过程，其具体过程为：

a.图模型中选取与IP节点存在关联的SAMPLE、SAMPLE_FUZZY、SAMPLE_NAME、URL、TOOL_PAYLOAD节点；

b.采用社区发现算法挖掘和分析出攻击蜜罐系统的攻击源IP中所存在的社区群体；

c.采用频繁子图挖掘算法，挖掘出攻击源使用频率较高的攻击工具，分析出攻击源的攻击习惯和攻击水平。

优选的，本发明可用于恶意文件之间模糊关系挖掘和分析过程，其具体过程为：

a.图模型中选取所有SAMPLE_FUZZY节点，所述SAMPLE_FUZZY，即恶意文件的模糊哈希值，是一种基于内容分割的分片哈希算法，主要用于文件的相似性比较。由于大多数恶意文件都包含了大量相同代码字段，只是攻击者根据不同使用场景对文件代码字段进行了小部分代码字段修改，其实质上仍属于同一恶意文件家族，因此通过恶意文件的模糊哈希值可挖掘出恶意文件的家族信息；

b.计算SAMPLE_FUZZY之间模糊哈希值的相似度，例如采用字符串相似性对比算法，判断两个模糊哈希值的相似度有多少，从而判断两个文件的相似程度；

c.将相似度大于阈值的SAMPLE_FUZZY节点进行关联，从而得到恶意文件之间的关系。

优选的，本发明可用于恶意文件家族衍生图谱的挖掘和分析过程，其具体过程为：

a.图模型中选取所有SAMPLE、SAMPLE_FUZZY、RELEASE_FIL和REALSE_FILE_FUZZY节点；

b.基于SAMPLE、SAMPLE_FUZZY、RELEASE_FIL和REALSE_FILE_FUZZY节点分别计算各节点之间哈希值或模糊哈希值的节点相似度

c.将节点相似度大于阈值的节点进行关联，从而构建出恶意文件的家族衍生图谱；

d.基于恶意文件的家族衍生图谱，分析得到恶意文件的进化衍生过程，可得知攻击工具的进化衍生过程以及攻击者的技术能力水平。

优选的，本发明可用于同一攻击平台利用公网IP进行网络攻击情况的挖掘和分析过程，其具体过程为：

a.图模型中选取与IP节点存在关联的USER_AGENT、CANVAS_ID、BROWSER_FINGERPRINT和DEVEICE_FINGERPRINT节点；

b.依据浏览器指纹和设备指纹的唯一性，即攻击者虽利用公网IP隐藏网络地址，但其采用同一浏览器或设备进行攻击时，浏览器或设备的指纹信息是唯一的、不变的。采用基于节点相似度的社区发现算法，挖掘出与同一USER_AGENT、CANVAS_ID、BROWSER_FINGERPRINT和DEVEICE_FINGERPRINT具有关联的IP节点；

c.对挖掘出的IP节点进行分析，判断是否属于同一攻击者，从而得出攻击情况。

优选的，本发明中IP关联查询接口的挖掘和分析过程为：

a.用户首先指定多个待分析的IP节点；

b.基于图模型，IP关联查询接口以每个待分析的IP节点为起始点分别查找出关联节点，即图模型中与待分析的IP节点具有直接连接的边的节点；

c.基于已查找出的关联节点，寻找出待分析的IP节点之间的共同邻居节点，即同一个关联节点与两个以上待分析的IP节点具有边；

d.基于共同邻居节点，分析得到具有共同邻居节点的待分析IP节点之间的联系。

优选的，本发明中恶意文件家族信息查询接口的挖掘和分析过程为：

a.用户指定需分析恶意文件的原始SAMPLE和SAMPLE_FUZZY信息；

b.恶意文件家族信息查询接口选取图模型中所有SAMPLE和SAMPLE_FUZZY节点，并计算与原始SAMPLE和SAMPLE_FUZZY节点的节点相似度；

c.对相似度大于阈值的SAMPLE和SAMPLE_FUZZY节点进行关联，并构建图模型的边，得到SAMPLE和SAMPLE_FUZZY节点的图模型；

d.恶意文件家族信息查询接口依据SAMPLE和SAMPLE_FUZZY节点的图模型，查询与原始SAMPLE和SAMPLE_FUZZY节点相关联的节点，得到恶意文件的家族信息。

优选的，所述攻击工具(以TOOL_PAYLOAD表示)信息查询接口的挖掘和分析过程为：

a.用户提供原始TOOL_PAYLOAD节点的信息；

b.攻击工具信息查询接口以图模型中原始TOOL_PAYLOAD节点为中心节点，并查找出与原始TOOL_PAYLOAD节点关联的所有IP节点；

c.攻击工具信息查询接口基于查询获得的IP节点，分析得到使用过原始TOOL_PAYLOAD的所有IP节点。

本发明同现有技术相比，具有如下优点：

1)本发明的数据分析方法基于图模型，可最大程度的分析得到各关键数据中直接或间接地联系，进一步挖掘出数据的潜在价值，提升数据处理效率。

2)本发明的图模型可直观的展示出所有具有潜在关联的关键数据，可让用户更进一步的了解攻击者的攻击方式及手段，有效针对攻击者调整系统架构，提升蜜罐系统诱捕效率，保证内部数据安全。

3)本发明中基于图模型的数据分析方式，可针对某一关键数据或特征，进行攻击追溯、攻击取证，快速挖掘和分析出相同或相似的攻击数据，为攻击追溯、攻击取证提供重要参考。

附图说明

图1是本发明实施例中一种基于图的蜜罐系统威胁情报分析方法的工作流程图；

图2是本发明实施例中一种基于图的蜜罐系统威胁情报分析装置的结构示意图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：

结合图1所示，本实施例中公开的一种基于图的蜜罐系统威胁情报分析方法，包括如下步骤：

S10.数据收集：利用蜜罐系统收集攻击者的行为数据；

S20.数据提取：基于收集到的行为数据，分析提取出元信息以及由元信息衍生出的衍生信息；

S43.基于挖掘结果分析得到所需要的威胁情报；

所述S50步骤中接口进行挖掘和分析的具体方法为：

S51.用户指定一个或多个原始节点；

需要了解的是，用于分析的威胁情报数据是指从蜜罐系统中收集到的攻击行为数据中提取出的元信息及衍生信息，如表1所示，元信息凸显了攻击者在蜜罐系统中进行的攻击操作留下的痕迹特征，如攻击源IP，输入的账号密码，上传的恶意文件等，这些都是威胁情报的一部分，同时，由元信息衍生出的一些衍生信息也是威胁情报的一部分，如攻击源IP的地理定位信息，上传的恶意文件执行后释放的文件等，基于元信息及衍生信息可构建出的不同关联，如表2所示。通过元信息及衍生信息作为图模型的节点，以元信息及衍生信息的关联作为图模型的边可构建出图模型。

表1图模型中节点常用项

表2常用节点之间的关联

需注意的是，上述表1和表2中所表述的节点及节点关系仅为蜜罐系统所收集信息的一部分，在实际应用过程中可不断添加节点数据并更新图模型。

所述S40步骤中威胁情报的挖掘和分析结果包括有攻击源之间关联关系、恶意文件之间模糊关系、恶意文件家族衍生图谱、基于同一攻击平台利用公网IP进行网络攻击情况。本方法中所挖掘和分析得到的结果不止含有上述几项内容，具体挖掘和分析的结果可根据实际威胁情报的挖掘分析需要进行调整。

实施例1：

所述攻击源之间关联关系的挖掘和分析过程为：

图模型中选取与IP节点存在关联的SAMPLE、SAMPLE_FUZZY、SAMPLE_NAME、URL、TOOL_PAYLOAD节点；

采用社区发现算法挖掘和分析出攻击蜜罐系统的攻击源IP中所存在的社区群体；

采用频繁子图挖掘算法，挖掘出攻击源使用频率较高的攻击工具，分析出攻击源的攻击习惯和攻击水平。

实施例2：

所述恶意文件之间模糊关系挖掘和分析过程为：

图模型中选取所有SAMPLE_FUZZY节点；

计算SAMPLE_FUZZY之间模糊哈希值的相似度，例如采用字符串相似性对比算法，判断两个模糊哈希值的相似度有多少，从而判断两个文件的相似程度；

将相似度大于阈值的SAMPLE_FUZZY节点进行关联，从而得到恶意文件之间的关系。

实施例3：

所述恶意文件家族衍生图谱的挖掘和分析过程为：

图模型中选取所有SAMPLE、SAMPLE_FUZZY、RELEASE_FIL和REALSE_FILE_FUZZY节点；

基于SAMPLE、SAMPLE_FUZZY、RELEASE_FIL和REALSE_FILE_FUZZY节点分别计算各节点之间哈希值或模糊哈希值的节点相似度；

将节点相似度大于阈值的节点进行关联，从而构建出恶意文件的家族衍生图谱；

基于恶意文件的家族衍生图谱，分析得到恶意文件的进化衍生过程，可得知攻击工具的进化衍生过程以及攻击者的技术能力水平。

实施例4：

所述基于同一攻击平台利用公网IP进行网络攻击情况的挖掘和分析过程为：

图模型中选取与IP节点存在关联的USER_AGENT、CANVAS_ID、BROWSER_FINGERPRINT和DEVEICE_FINGERPRINT节点；

依据浏览器指纹和设备指纹的唯一性，采用基于节点相似度的社区发现算法，挖掘出使用过相同的USER_AGENT和DEVEICE_FINGERPRINT的IP节点；

对挖掘出的IP节点进行分析，分析得出同一攻击者利用公网IP进行的攻击情况。

此外，所述S50步骤中接口包括有IP关联查询接口、恶意文件家族信息查询接口、攻击工具信息查询接口，需注意的上述接口为优选的接口，本方法中所提供的接口可依据用户需要进行调整。

实施例5：

所述IP关联查询接口的挖掘和分析过程为：

用户首先指定需要分析的多个IP节点；

基于图模型，IP关联查询接口以每个IP节点为起始点分别查找出关联节点；

基于已查找出的关联节点，分析IP节点之间的共同邻居节点；

基于共同邻居节点，分析得到具有共同邻居节点的IP节点之间的联系。

实施例6：

所述恶意文件家族信息查询接口的挖掘和分析过程为：

用户指定需分析恶意文件的原始SAMPLE和SAMPLE_FUZZY信息；

恶意文件家族信息查询接口选取图模型中所有SAMPLE和SAMPLE_FUZZY节点，并计算与原始SAMPLE和SAMPLE_FUZZY节点的节点相似度；

对相似度大于阈值的SAMPLE和SAMPLE_FUZZY节点进行关联，得到SAMPLE和SAMPLE_FUZZY节点的图模型；

恶意文件家族信息查询接口依据SAMPLE和SAMPLE_FUZZY节点的图模型，查询与原始SAMPLE和SAMPLE_FUZZY节点相关联的节点，得到恶意文件的家族信息。

实施例7：

所述攻击工具信息查询接口的挖掘和分析过程为：

用户提供攻击工具原始TOOL_PAYLOAD节点的信息；

攻击工具信息查询接口以图模型中原始TOOL_PAYLOAD节点为中心节点，并查找出与原始TOOL_PAYLOAD节点关联的所有IP节点，得到TOOL_PAYLOAD节点的图模型；

攻击工具信息查询接口基于TOOL_PAYLOAD节点的图模型，查询与原始TOOL_PAYLOAD节点相关联的IP节点，分析得到包含原始TOOL_PAYLOAD节点信息的所有IP节点。

须注意的是，上述实施例中节点之间相似度的阈值可人为进行设定。

如图2所示，同时本发明还公开了一种基于图的蜜罐系统威胁情报分析装置，包括情报收集模块、情报提取模块、图模型构建模块、图模型数据库、图模型挖掘和分析模块、接口查询模块和信息展示模块，

所述情报收集模块用于利用蜜罐系统收集攻击者行为数据；

所述情报提取模块用于依据收集到的行为数据，分析提取元信息以及衍生信息；

所述图模型构建模块用于利用元信息以及衍生信息作为图模型的节点，利用元信息以及衍生信息间的关系作为图模型的边，构建图模型；

所述图模型数据库用于存储已构建完成的图模型数据；

所述挖掘和分析模块用于针对图模型中数据进行挖掘和分析，得到挖掘和分析结果；

所述接口查询模块用于提供节点查询接口，以挖掘和分析指定节点的信息；

所述信息展示模块用于显示挖掘和分析的结果信息。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于图的蜜罐系统威胁情报分析方法，其特征在于，包括如下步骤：

S10.数据收集：利用蜜罐系统收集攻击者的行为数据；

S43.基于挖掘结果分析得到所需要的威胁情报；

所述S50步骤中接口进行挖掘和分析的具体方法为：

S51.用户指定一个或多个原始节点；

2.根据权利要求1所述的分析方法，其特征在于，所述S40步骤中威胁情报的挖掘和分析结果包括攻击源之间关联关系、恶意文件之间模糊关系、恶意文件家族衍生图谱、同一攻击平台利用公网IP进行网络攻击情况。

3.根据权利要求1所述的分析方法，其特征在于，所述S50步骤中接口包括IP关联查询接口、恶意文件家族信息查询接口、攻击工具信息查询接口。

4.根据权利要求2所述的分析方法，其特征在于，所述攻击源之间关联关系的挖掘和分析过程为：

采用频繁子图挖掘算法，挖掘出攻击源使用频率较高的攻击工具，分析出不同攻击源的攻击习惯和攻击水平。

5.根据权利要求2所述的分析方法，其特征在于，所述恶意文件之间模糊关系挖掘和分析过程为：

图模型中选取所有SAMPLE_FUZZY节点；

计算SAMPLE_FUZZY之间模糊哈希值的相似度；

将相似度大于阈值的SAMPLE_FUZZY节点进行关联，从而得到出恶意文件之间的关系。

6.根据权利要求2所述的分析方法，其特征在于，所述恶意文件家族衍生图谱的挖掘和分析过程为：

7.根据权利要求2所述的分析方法，其特征在于，所述同一攻击平台利用公网IP进行网络攻击情况的挖掘和分析过程为：

依据浏览器指纹和设备指纹的唯一性，采用基于节点相似度的社区发现算法，挖掘出与同一USER_AGENT、CANVAS_ID、BROWSER_FINGERPRINT和DEVEICE_FINGERPRINT关联的IP节点；

对挖掘出的IP节点进行分析，判断是否属于同一攻击者，并得出攻击情况。

8.根据权利要求3所述的分析方法，其特征在于，所述IP关联查询接口的挖掘和分析过程为：

用户首先指定多个待分析的IP节点；

基于图模型，IP关联查询接口以每个待分析的IP节点为起始点分别查找出关联节点；

基于已查找出的关联节点，寻找出待分析的IP节点之间的共同邻居节点；

9.根据权利要求3所述的分析方法，其特征在于，所述恶意文件家族信息查询接口的挖掘和分析过程为：

用户指定需分析恶意文件的原始SAMPLE和SAMPLE_FUZZY信息；

恶意文件家族信息查询接口依据查询得到的与原始SAMPLE和SAMPLE_FUZZY节点相关联的节点，分析得到恶意文件的家族信息。

10.根据权利要求3所述的分析方法，其特征在于，所述攻击工具信息查询接口的挖掘和分析过程为：

用户提供原始TOOL_PAYLOAD节点的信息；

攻击工具信息查询接口以图模型中原始TOOL_PAYLOAD节点为中心节点，并查找出与原始TOOL_PAYLOAD节点关联的所有IP节点；

攻击工具信息查询接口基于查询获得的IP节点，分析得到使用过原始TOOL_PAYLOAD的所有IP节点。