CN111541705B

CN111541705B - 一种ttp自动化提取与攻击团队聚类的方法

Info

Publication number: CN111541705B
Application number: CN202010353068.3A
Authority: CN
Inventors: 黄诚; 吴怡欣
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2021-05-07
Anticipated expiration: 2040-04-29
Also published as: CN111541705A

Abstract

本发明涉及一种TTP自动化提取与攻击团队聚类的方法，随着全球范围内高级持续威胁的日益普及，物联网由于其安全性差，直接暴露于互联网中，使其成为黑客组织发起APT攻击的绝佳武器。攻击者就可以利用攻陷的物联网设备组建僵尸网络，并使用它发起APT攻击。本发明提出了一个用于观察和预测物联网攻击的框架。该框架旨在自动提取攻击者的技术、战术、过程，并在大量攻击背后挖掘出潜在的攻击者团队。首先，它从捕获的物联网蜜罐日志中提取相关字段。然后，将攻击行为映射到ATT&CK框架以实现TTP自动化提取。此外，它生成四个特征组，包括TTP，时间，IP和URL，共18个特征，通过特定分层聚类挖掘潜在的攻击组，最终，将为每个攻击者集群生成攻击树，以更好地描述团队攻击行为。

Description

一种TTP自动化提取与攻击团队聚类的方法

技术领域

本发明涉及网络安全领域，具体而言，涉及到一种TTP自动化提取与攻击团队聚类的方法，用于描述攻击者的行为特征，挖掘攻击背后潜在的攻击团队。

背景技术

卡巴斯基的全球研究和分析团队（GReAT）指出，自从黑客组织对关键基础设施发起有针对性的攻击并试图破坏中央网络以来，高级持续威胁（APT）活动变得越来越复杂和具有破坏性。与此同时，因为物联网设备本身存在风险，容易被利用，同时又大量暴露在互联网上，物联网已经成为对个人隐私、企业信息安全甚至关键基础设施的头号安全威胁。更糟糕的是，攻击者可以利用开源工具来快速组装恶意软件扫描,渗透和控制物联网设备。出色的黑客可以在短时间内拿下数百万个物联网设备。一旦物联网僵尸网络形成，攻击者就可以借此发起APT攻击，破坏互联网基础设施，导致网络断开。当前面临的挑战是如何观察和预测个人甚至攻击团队对物联网设备的攻击。

当前的攻击行为检测方法大多是基于IOC（MD5、IP和域名）,从基于规则的方法或传统的黑名单提取。但IOC不稳定，无法描述攻击过程等特征，使其无法描述复杂的网络安全环境。然而，技术，战术，过程（TTP）描述了对手完成任务所经历的所有过程，从最初的接触到影响，以及其间的每一步，这为全面分析个人或攻击团体的攻击行为提供了充足的支持。同时，防御也在从以漏洞为中心向以威胁为中心转变，合理高效的安全架构只能在充分理解关键资产威胁的基础上构建，这就需要依赖于对攻击策略、技术和行为模式的全面理解。然而，现阶段还没有成熟的方法来规范针对物联网攻击的描述并将其映射到分析模型中去。

与此同时，随着APT活动的快速增长，威胁场景从单个黑客演变为组织良好的攻击组织。如何在海量的攻击中发现和刻画攻击者的行为成为一个挑战。沙箱中的行为分析和二进制分析是不错的方法，它可以将攻击者使用的恶意样本与已知的或新的恶意家族进行匹配，并捕获它们的行为，观察这些攻击者之间的相似性。然而，恶意家族与攻击群体是一种多对多的关系，我们不能仅仅依靠分析恶意样本来找到攻击背后的群体。

本文基于上述挑战，提出了一种新的TTP自动化提取和攻击团队聚类的框架，解决了在物联网设备攻击中个人或团体的行为在观查和预测时出现的挑战。

发明内容

攻击者行为的全面描述。本发明利用日志数据抽取的四个特征组（TTP，时间，IP和URL）从不同维度来表征攻击者的不同行为，从而解决了在观察和预测IoT攻击时，对于个人攻击行为描述的挑战。 TTP描述了攻击者的技术，战术和过程。时间特征组提供基于攻击持续时间，攻击次数和攻击者时区的统计特征。 IP特征组和URL特征组都涉及IP / URL的类型，地区和恶意指数，而URL特征组还涵盖了对攻击者下载的文件名的分析。

攻击技术、战术和过程的自动化提取。考虑到蜜罐日志数据中收集了攻击者利用的有效负载（payload），我们构建了两个不同的知识库，它们存储了命令和TTP之间的映射。通过使用这些知识库，本发明将从有效负载提取出的命令序列映射到ATT&CK框架以生成攻击者的TTP，从而弥合了网络威胁情报（CTI）与攻击者之间的鸿沟。

团队聚类与攻击树生成。本发明采用基于四个特征组的分层聚类算法，以挖掘出攻击背后的潜在组织，然后为每个团队创建攻击树，其中节点是命令，边代表命令序列，以具体化并更好地理解攻击行为。

附图说明

图 1 是本发明的框架示意图。

图 2 是本发明中的TTP自动化提取流程的示意图。

图3 是本发明中抽象语法树提取命令示意图。

图 4 是本发明中层次聚类原理示意图。

图 5 是本对于给定团队生成的攻击树示意图。

具体实施方式

现结合附图和具体实施方式对本发明进行进一步说明。如图1所示为该发明的框架图。首先，该框架捕获来自Internet的攻击，生成原始数据，并从特定字段（例如时间戳，有效负载和时区）提取特征。其次，它丰富了这些特征。例如生成TTP特征组时，它将负载分为命令，将这些命令映射到ATT ＆CK框架，然后生成命令的抽象语法树，以第二次映射到技术和战术。在生成所有特征组后，可使用编码和TF-IDF对这些字符串类型的特征进行矢量化处理。然后，它结合了所有特征向量，并利用层次聚类算法将这些攻击者聚类。最后，该框架利用每个攻击团队所有的有效载荷为其创建攻击树，以将团队行为形象化。节点是命令而边是命令序列。

TTP的自动化提取模块：如图2所示，构建第一/第二知识库，它们分别包含整条命令（命令与其参数）与命令本身同ATT&CK框架中定义的战术、技术之间的映射。然后，提取物联网蜜罐的系统日志，利用正则匹配的方式抽取每次攻击中的有效载荷（payload），并将有效载荷分割为命令序列。接着，利用第一知识库对整个命令进行初次映射，获取给定攻击者相应的部分技术、战术。然后，对于每条命令来说，提取如图3所示抽象语法树，获得其命令本身，利用第二知识库对命令本身进行映射，获取指定攻击者其他的技术、战术。最后，合并上述两次映射产生的战术、技术为给定攻击者最终的TTP特征。

攻击者行为描述模块：该模块主要分为IP/URL特征组生成与Time特征组生成这两个部分。URL/IP特征组中的相关特征有：国家，描述了该IP所在的地区；恶意指数，该IP/URL为恶意的可能性；IP/URL类型，IP类型可能为数据中心，专用出口，普通宽带，移动宽带，骨干节点，已知爬虫，中小型运营商中的一种；以及攻击者利用命令执行下载的文件名。本模块首先利用反病毒引擎来扫描未知IP/URL的恶意性，将返回的结果作为该IP/URL的恶意指数；然后，通过扫描特定服务相应的端口开放情况来获得IP类型的分类，7种分类分别是数据中心，专用出口，普通宽带，移动宽带，骨干节点，已知爬虫以及中小型运营商。接着，本发明通过IP地址定位来获取该IP所在国家。其中，URL特征组中还有一个IP特征组中没有的特征：下载文件名。本方法将文件名进行TF-IDF编码后作为特征。在获得这些特征组之后，将相应的字符串编码为一个数字型特征向量，并将所有向量转换为特征矩阵。Time特征组的生成是首先计算每个IP的所有条目的时间戳的间隔，并生成时间间隔序列；随机选择一个数字作为初始阈值，计算每个IP攻击时段的总数；调整阈值直到大多数IP的攻击时段的数量几乎不变；如果多个阈值具有相同的结果，该方法总是倾向于选择中最小的数值作为最后的阈值。然后，整理每个IP所有攻击时段的开始时间、结束时间和攻击时段中包含的访问数量；计算每个IP所有的攻击时段持续时间。最后，最大值、最小值、序列长度、平均值、中位数、标准差、方差、总值这8个统计特征，并对该IP所在的时区进行编码，生成Time特征组的最终向量。

团队聚类与攻击树生成模块：在团队聚类部分，该方法利用了如图4所示的层次聚类算法，输入预处理后的特征向量，通过计算数据点之间的相似性进行聚类，来挖掘海量攻击中的潜在攻击组织。在得到了攻击团伙之后，该发明将给定团伙中所有IP的有效载荷整理在一起，生成如图5所示攻击树。对所有的有效载荷抽取其相应的抽象语法树，然后以命令本身为节点，命令序列为边构成一幅有向图。其中，命令的出度作为节点大小的直接参考依据。当一个节点没有出度时，用入度来代替。边的宽度由命令序列出现的次数决定。

Claims

1.一种TTP自动化提取与攻击团队聚类的方法，其特征在于：应用于观察和预测个人甚至团队针对物联网设备的攻击，包括如下步骤：

步骤S1，即TTP自动化提取步骤：通过建立第一知识库与第二知识库将命令映射到相应的TTP，生成TTP特征组；

步骤S2，即攻击者行为描述步骤：生成IP特征组，URL特征组以及Time特征组，并与TTP特征组进行合并构成对攻击者行为的描述；

步骤S3，即团队聚类与攻击树生成步骤：应用攻击者行为描述的TTP、IP、URL、Time四个特征组到层次聚类算法中，聚类潜在的攻击者团队，并生成每个团队的攻击树。

2.根据权利要求1所述的TTP自动化提取与攻击团队聚类的方法，其中所述步骤S1具体包括：

（1）构建第一知识库，包含命令与其参数同ATT&CK框架中定义的战术、技术之间的映射，第一知识库的条目由命令、技术、战术三元组构成，service iptables stop、DisablingSecurity Tools、Defense Evasion即为第一知识库一个条目，其中service iptablesstop为一个禁用防火墙的命令，Disabling Security Tools为该命令对应的技术，DefenseEvasion为该技术对应的战术；

（2）构建第二知识库，包含命令本身与ATT&CK框架中定义的战术、技术之间的映射，第二知识库的条目也同样以命令、技术、战术三元组构成，tftp、Remote File Copy、LateralMovement即为第二知识库一个条目，其中tftp为一个传输文件的命令，它不同于第一知识库中的命令，因为其只包含了命令本身，不包含其他的参数，Remote File Copy为tftp所属的技术，Lateral Movement为所属技术对应的战术；

（3）解析物联网蜜罐中的所有访问日志，并利用正则表达式或者日志解析器抽取每次请求攻击日志中的有效攻击载荷，即日志中攻击者GET/POST请求中的内容；

（5）将每条有效载荷利用分号或者特定语法间隔符分割为命令序列，并利用对应的命令解析引擎抽象出命令序列中的每条命令，将分析结果通过语法树进行呈现，从而构建每条有效载荷的抽象语法树，最后通过遍历语法树获得命令序列中的对应的操作命令集合；

（7）利用第一知识库对整个命令进行初次映射，提取给定攻击者部分相应的技术、战术；

（8）利用第二知识库对命令本身进行映射，获取指定攻击者剩余的技术、战术；

（9）简单的合并步骤（7），（8）中生成的技术、战术即为给定攻击者最终的TTP特征组。

3.根据权利要求1所述的TTP自动化提取与攻击团队聚类的方法，其中所述步骤S2具体包括：

IP特征组以及URL特征组包含：

（1）URL特征组与IP特征组中有3个相同的相关特征：国家，描述了该IP/URL所在的地区；恶意指数，该IP/URL为恶意的可能性；IP/URL类型，URL通过DNS解析后得到的IP以及日志中出现的源IP类型为数据中心，专用出口，普通宽带，移动宽带，骨干节点，已知爬虫，中小型运营商中的一种；同时，URL特征组还以攻击者执行命令下载的文件名作为一个特征；

（2）恶意指数：利用反病毒引擎来分析IP/URL的恶意性，并将返回的结果作为该IP/URL的恶意指数；

（3）IP类型：通过端口扫描引擎扫描IP是否开放了特定服务相对应的端口来获得IP类型的分类，7种分类分别是数据中心，专用出口，普通宽带，移动宽带，骨干节点，已知爬虫以及中小型运营商；

（4）国家：通过IP地址定位其所处的位置来获取国家特征；

（5）下载文件名，通过正则表达式匹配从攻击者使用的有效载荷中提取出下载文件的文件名进行TF-IDF编码后作为特征；

Time特征组生成：

（1）计算每个IP的所有条目的时间戳的间隔，并生成时间间隔序列；

（2）随机选择一个数字作为初始阈值，计算每个IP相对应的攻击时段的总数；

（3）调整阈值直到大多数IP的攻击时段的数量不变；

（4）如果多个阈值具有相同的结果，选择其中最小的数值作为最后的阈值；

（5）整理每个IP所有攻击时段的开始时间、结束时间和攻击时段中包含的访问数量；

（6）利用每个IP所有的攻击时段相应的开始时间与结束时间来计算攻击的持续时间；

（7）以IP为主键，计算其对应的所有时段的持续时间以及包含访问数量的最大值、最小值、序列长度、平均值、中位数、标准差、方差、总值共计8个统计特征，并对该IP所在的时区进行编码，生成Time特征组的最终向量；

（8）在获得这四个特征组之后，将相应的字符串型的特征向量编码为数字型特征向量，并将所有向量合并转换为特征矩阵；

该TTP，IP、URL和Time四个特征组通过从四个不同维度来表征攻击者的行为，并基于这四个特征组进行聚类以获取攻击活动背后的组织团队。

4.根据权利要求1所述的TTP自动化提取与攻击团队聚类的方法，其中所述步骤S3具体包括：

（1）攻击者行为描述由四个特征组构成，其中包含了TTP特征组中涉及的技术，战术；IP特征组中涉及的IP所属国家，IP类型，IP的恶意指数；URL特征组中涉及的URL所属国家，URL类型，URL的恶意指数，下载文件名以及时间特征组中对应的所有攻击时段的持续时间以及该时段包含访问数量的最大值、最小值、序列长度、平均值、中位数、标准差、方差、总值共计8个统计特征；利用层次聚类算法，输入预处理后的由四个特征组合并而成的且经过矢量化处理特征向量，通过计算数据点之间的相似性进行聚类，挖掘海量攻击中的潜在攻击组织，最终每个类都包含了一定数量的IP，类对应攻击组织，IP对应攻击组织中的成员；

（2）以类为基本单位，整理归纳给定类中所有IP的有效载荷；

（3）利用命令解析引擎抽象出有效载荷中的每条命令，将分析结果通过语法树进行呈现，从而构建每条有效载荷的抽象语法树，最后通过遍历语法树获得命令序列中的对应的操作命令集合；

（4）以命令本身为节点，命令序列为边构成一幅有向图作为给定攻击组织的攻击树，其中节点的大小由命令的出度决定，当一个节点出度为0时，则使用入度计算节点大小，边的宽度由命令子序列出现的次数决定。