CN115396147A

CN115396147A - 一种融合云网端日志与威胁知识的apt检测方法

Info

Publication number: CN115396147A
Application number: CN202210869355.9A
Authority: CN
Inventors: 朱添田; 李爽; 陈铁明; 吕明琪
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-25

Abstract

本发明公开了一种融合云网端日志与威胁知识的APT检测方法，采集多平台的云网端融合日志，将其处理成以进程为单位，以时间为序的四元组序列，来构建云网端的起源图。从网络威胁情报中抽取攻击实体和实体关系，以形成攻击因果图，并用于云网端的APT检测之中。本发明采集多平台的云网端融合日志，并从网络威胁情报中抽取攻击因果图，不依赖人工，从而避免了大量规则的制定，帮助安全行业人员更精准、更高效地判别云网端融合的APT攻击，从而实现针对云网端融合APT的有效检测。

Description

一种融合云网端日志与威胁知识的APT检测方法

技术领域

本发明属于信息安全技术领域，具体涉及一种融合云网端日志与威胁知识的APT检测方法。

背景技术

随着信息产业的迅速发展，云网端深度融合的网络空间环境呈现出设备多样异构、行为多跨场景、边界多态模糊、威胁多源重构等复杂化趋势，网络攻击面被无限放大，现已成为威胁国家网络空间主权和数字化新基建安全面临的最大隐患。针对云网端融合的网络攻击，世界各国已把网络空间安全治理提到国家战略层面，并出台相关政策推动恶意软件治理的理论研究和技术研发。

面对近些年来层出不穷的网络攻击事件，需要新的方法来支撑和面对越来越多艰巨的任务。学术界和工业界对云网端融合的APT检测研究尽管取得了一定的成果，但仍然难以应对其的多样性、隐蔽性、持续性、动态性等特点，导致其应用和落地还存在诸多挑战，主要表现在：

现有云网端融合的APT检测方法面临功能单一、联动困难、效率低下、智能不足等问题，且威胁情报通常是以非结构化文本的形式保存的，人工阅读和理解效率太低，与普通文本差异较大，从中挖掘出结构化的知识十分困难。因此，如何对知识进行统一表征、抽取和融合，建立适应威胁情报特点的云网端融合攻击知识挖掘算法，是实现自动化抽取和检测APT的关键问题。

发明内容

本发明的目的在于提供一种融合云网端日志与威胁知识的APT检测方法，实现针对云网端融合的APT进行高效、精准检测。

为实现上述目的，本发明所采取的技术方案为：

一种融合云网端日志与威胁知识的APT检测方法，所述融合云网端日志与威胁知识的APT检测方法，包括：

步骤1、获取应用数据集，所述应用数据集包含网络威胁情报，以及根据网络威胁情报展开模拟攻击下得到的云端日志、网络端日志和终端日志；

步骤2、对应用数据集中的云端日志、网络端日志和终端日志进行预处理，生成以进程为单位、以时间为顺序的四元组序列，并根据四元组序列构建攻击起源图，四元组序列中的每一四元组为(P，E，O，T)，其中P是进程，E是事件类型，O是客体，T是时间戳；

步骤3、对应用数据集中的网络威胁情报进行处理，建立攻击因果图库，包括：

步骤3.1、对于一个网络威胁情报的文本，根据其文本中所含符号将长句分割为短句，并将句子转换为规范形式；

步骤3.2、将步骤3.1得到的文本进行消歧处理；

步骤3.3、将步骤3.2得到的文本进行冗余删除，保留句子中的所有实体与主谓宾部分；

步骤3.4、将步骤3.3得到的文本抽取实体和实体关系；

步骤3.5、根据步骤3.4抽取得到的实体和实体关系，生成攻击因果图；

步骤3.6、重复步骤3.1至步骤3.5，将生成的单个攻击因果图存储到攻击因果图库中；

步骤4、根据步骤2的攻击起源图和步骤3得到的攻击因果图库训练Auto-encoder网络，训练中以攻击起源图作为输入、以攻击因果图作为真实标签；

步骤5、将待检测的云端日志、网络端日志和终端日志生成待检测的起源图，将待检测的起源图输入到训练好的Auto-encoder网络，输出为待检测的因果图，将该因果图与现有的攻击因果图库进行比对，若达到预设的相似度，则判定存在云网端的APT攻击，并进行警报；否则不存在云网端的APT攻击，继续进行检测。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述网络威胁情报为取自Microsoft安全情报报告中预设数量的非结构化威胁情报。

作为优选，所述将句子转换为规范形式，包括：

使用词性标记和依赖树检测句子中的被动语态，并利用依赖树将被动语态转换为主动语态。

作为优选，所述将步骤3.1得到的文本进行消歧处理，包括：

针对文本中省略主语的问题，结合语法解析、实体识别与实体字典，从无主语的句子前挑选候选实体，并优先选择距离最近的实体恢复省略的主语；针对文本中使用代词的问题，采用指代消解算法将代词恢复为实体；针对文本中同义不同词的问题，采用专家编写的同义词库进行消歧处理。

作为优选，所述将步骤3.2得到的文本进行冗余删除，包括：

针对文本冗余的问题，采用BERT模型作为分类器对句子进行分类，并根据分类结果删除与攻击描述无关的句子；

针对词冗余的问题，先后执行语法解析与实体识别算法，保留句子中的所有实体与主谓宾部分。

作为优选，根据步骤3.4抽取得到的实体和实体关系，生成攻击因果图，包括：

语义角色标记：从包含步骤3.4抽取的实体和实体关系的句子中提取实施者和受施这两个角色，并将句子中的每个角色与语义标签建立联系；

系统实体提取器：以从语义角色标记生成的角色中提取代表系统实体的简明节点，并修剪掉不能构成系统实体的描述部分；

因果推断：根据语义角色标记区分出各角色的主体与客体，并以主体到客体之间边的方向表示节点之间的因果关系和信息流；

图形生成器：对于至少包含一个动词和两个节点的句子生成相应的边和节点对，并根据因果关系和信息流确定边的方向。

作为优选，所述根据步骤2的攻击起源图和步骤3得到的攻击因果图库训练Auto-encoder网络，包括：

步骤4.1、将对应于同一网络威胁情报的攻击起源图和攻击因果图作为一个训练对，将训练对中的攻击起源图输入Auto-encoder网络，得到Auto-encoder网络输出的预测因果图；

步骤4.2、根据预测因果图和训练对中作为真实标签的攻击因果图修正网络参数；

步骤4.3、返回步骤4.1直至训练达到预设的结束条件。

本发明提供的融合云网端日志与威胁知识的APT检测方法，采集多平台的云网端融合日志，将其处理成以进程为单位，以时间为序的四元组序列，来构建云网端的起源图。从网络威胁情报中抽取攻击实体和实体关系，以形成攻击因果图，并用于云网端的APT检测之中。本发明采集多平台的云网端融合日志，并从网络威胁情报中抽取攻击因果图，不依赖人工，从而避免了大量规则的制定，帮助安全行业人员更精准、更高效地判别云网端融合的APT攻击，从而实现针对云网端融合APT的有效检测。

附图说明

图1为本申请的融合云网端日志与威胁知识的APT检测方法的流程图；

图2为本申请的威胁情报转化流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

为了克服现有技术中云网端APT攻击检测存在的弊端，其中一个实施例中，提供一种融合云网端日志与威胁知识的APT检测方法。

如图1所示，本实施例的融合云网端日志与威胁知识的APT检测方法，包括以下步骤：

步骤1、获取应用数据集，所述应用数据集包含网络威胁情报，以及根据网络威胁情报展开模拟攻击下得到的云端日志、网络端日志和终端日志。

本实施例提出的融合云网端日志与威胁知识的APT检测方法，重要基础部分为数据收集，数据的真实性和可靠性直接决定后期训练模型的有效性。对此，拟采用的数据集有：云网端融合日志，DARPA TC项目数据集和Microsoft安全情报。

云网端融合日志：针对不同终端和系统的日志，主要可分为两大类：第一类是用户层日志数据，通过人机交互数据来定义用户行为和软件行为(如软件行为数据、用户操作数据)，并利用API调用数据的采集来记录软件运行的日志；第二类是内核层数据，通过采集系统调用方式与相关参数来记录底层细粒度的相关行为(如Windows系统中基于ETW事件跟踪日志数据、Linux系统中auditd审计数据以及BSD系统中Dtrace跟踪数据)。

DARPA TC项目数据集：DARPA TC项目数据集是美国国防部高级研究计划局的透明计算项目，是迄今为止网络攻击检测领域的标准数据集，包含了DDoS(Distribution Denyof Service)攻击、内部攻击、内部监听数据以及Windows NT流量和攻击。

Microsoft安全情报：Microsoft安全情报是微软公司收集的来自全球安全专家网络的安全研究和威胁情报，本实施例拟采用其中4000份非结构化威胁情报进行处理，表1对部分恶意软件报告进行说明。

表1恶意软件报告

本实施例基于云端日志、网络端日志和终端日志的采集与存储，进行跨平台多层域数据的实时高效采集，在不影响攻击追踪溯源的情况下减少数据存储开销，实施多源异构数据融合以提高数据质量。

步骤2、对应用数据集中的云端日志、网络端日志和终端日志进行预处理，生成以进程为单位、以时间为顺序的四元组序列，并根据四元组序列构建攻击起源图，四元组序列中的每一四元组为(P，E，O，T)，其中P是进程，E是事件类型，O是客体，T是时间戳。

本实施例由CamFlow处理云网端日志，并生成流式的四元组序列用于步骤四的检测模型训练，其中P是进程，用于唯一标识序列节点；E是事件类型，表明序列节点的操作，如进程读写等；O是客体，通常指与进程相关的文件、注册表项，网络IP等；T是时间戳，用于记录事件的发生时间以及标记事件流。

本实施例根据内核审计日志(四元组)构建起源图，能很好表达上下文关系。其节点表示内核日志中的系统实体，边表示节点之间的因果关系。

步骤3、对应用数据集中的网络威胁情报进行处理，建立攻击因果图库。

网络威胁情报是以非结构化文本的形式保持的，与普通文本不同，其具有专业表述多、冗余语句多、实体关系复杂、攻击行为路径长等特点，若直接使用现有知识抽取算法难以有效挖掘网络攻击知识。本发明采用自然语言处理技术，从文本中抽取实体以及实体关系；使用双向语言模型的BERT模型建立细粒度表示模型，删除与攻击描述不相关的文本，减少文本冗余；利用语义角色标签和一系列规则模块来提取因果关系和信息流的方向，以构建攻击因果图。

如图2所示，具体转化步骤如下：

步骤3.1、对网络威胁情报的文本进行标准化处理，使得每个句子表达一个动作，并将其转化为规范形式。

具体处理时根据标点符号以及威胁情报中常用的项目符号、换行符号等，将长句分割成主谓宾较为完整、语义较为集中的短句，并使用词性标记(POS)和依赖树检测句子中的被动语态，并利用依赖树将被动语态转换为主动语态。

步骤3.2、将步骤3.1得到的文本进行消歧处理，解决句子中的指代不明，使文本由具有明确主语、宾语和动词的句子组成。

针对威胁情报中省略主语的问题，结合语法解析、实体识别与实体字典，从无主语的句子前挑选候选实体，并优先选择距离最近的实体恢复省略的主语；针对威胁情报中使用代词的问题，采用指代消解算法(如NeuralCoref)将代词恢复为特定实体；针对威胁情报中同义不同词的问题，采用专家编写的同义词库进行消歧处理。

步骤3.3、将步骤3.2得到的文本进一步归纳，仅保留与攻击行为强相关的文本。

针对威胁情报中文本冗余的问题，在本发明中采用能够学习细粒度上下文的BERT模型作为分类器，通过人工标记的方式判断分类后的句子是否与攻击描述相关，并基于标记删除与攻击描述无关的“冗余”句子；针对威胁情报中词冗余的问题，结合语法解析与实体识别算法，保留句子中的所有实体与主谓宾部分。

步骤3.4、将步骤3.3得到的文本抽取实体和实体关系。

实体抽取：命名实体识别(NER，Named Entity Recognition)是实体抽取的主流技术，针对实体标注的威胁情报数据极度有限的问题，先在通用有实体标注的语料库上预训练一个命名实体识别模型，利用少量有实体标注的威胁情报语料，基于迁移学习算法将预训练的命名实体识别模型适配到威胁情报领域。为减少实体标注的工作量，结合预定义规则和专家知识，半自动化地完成实体标注工作。

实体关系抽取：威胁情报中主体(Subject)和客体(Object)之间的关系指主体对客体的行为(如进程发送文件、进程访问服务器)，通常是由句子中的动词来表现，根据语法解析得到句子的主谓宾，并依据系统行为消歧字典将谓语的动词对应到标准的系统行为，最后由主语和宾语所代表的实体类型确定系统行为的方向，该方向为由主体指向客体。

本实施例中的系统行为消歧字典构建过程为首先获取系统调用中的所有动词，并根据每一动词取对应的同义词，由系统调用动词以及对应的同义词构成系统行为消歧字典。因此在依据系统行为消歧字典将谓语的动词对应到标准的系统行为的过程为，根据谓语的动词找到其对应的系统调用动词，并将谓语的动词替换为所找到的系统调用动词。

步骤3.5、根据步骤3.4抽取得到的实体和实体关系，生成攻击因果图，包括：语义角色标记、系统实体提取器、因果推断和图形生成器。

语义角色标记：语义角色标记是一种发现句子中的语义角色的技术，能够从每个句子中提取两个角色：实施者和受施者，正确地将句子中的每个成分与语义标签联系起来。语义角色标签是一种NLP技术，本实施例中不进行赘述。

系统实体提取器：以从语义角色标记生成的角色中提取代表系统实体的简明节点，并修剪掉不能构成系统实体的描述部分。系统实体提取器使用正则表达式(例如，文件实体正则表达式、进程实体正则表达式)和一个应用程序名称或知名进程的数据库来检测可能的系统实体名称(例如，文件或进程名称、IP、注册表项)。系统实体提取器模块分析每个名词短语，并删除与正则表达式不匹配的部分。

因果推断：确定图中边的正确方向，以表示节点之间的因果关系和信息流。为了推断这个方向，它使用系统调用与系统流动方向的映射，包含与每个系统调用相关联的条目，即主体与客体之间的边的方向。

图形生成器：将具有相同文本的语义角色标记合并到同一个节点中，并使用系统实体提取器删除不属于系统实体的词语。采用以下方法构建图形：

1)节点-边-节点，对于每个句子，如果它至少有三个角色(包括一个动词和两个节点)，图形生成器就会生成相应的边和节点对；

2)边的方向，依据因果推断的结果，来确定节点之间边的方向。

步骤3.6、重复步骤3.1至步骤3.5，将生成的单个因果图存储到攻击因果图库中。

针对节点数据占用大量内存的问题，本发明采用了业界广泛使用的内存数据库Redis作为因果图生成模型的存储系统，并使用最近最少使用方法作为内存淘汰策略。

步骤4、根据步骤2的攻击起源图和步骤3得到的攻击因果图库训练Auto-encoder网络，包括：

步骤4.1、将对应于同一网络威胁情报的攻击起源图和攻击因果图作为一个训练对，将训练对中的攻击起源图输入Auto-encoder网络，得到Auto-encoder网络输出的预测因果图。

步骤4.2、根据预测因果图和训练对中作为真实标签的攻击因果图修正网络参数。

步骤4.3、返回步骤4.1直至训练达到预设的结束条件。预设的结束条件可以是到达预设的训练循环次数，也可以是Auto-encoder网络能准确将攻击起源图输出为对应的攻击因果图。

本申请提供的融合云网端日志与威胁知识的APT检测方法，采集多平台的云网端融合日志，将其处理成以进程为单位，以时间为序的四元组序列，来构建云网端的起源图。从网络威胁情报中抽取攻击实体和实体关系，以形成攻击因果图，并用于云网端的APT检测之中，实现针对云网端融合的APT进行高效、精准检测。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种融合云网端日志与威胁知识的APT检测方法，其特征在于，所述融合云网端日志与威胁知识的APT检测方法，包括：

步骤3.2、将步骤3.1得到的文本进行消歧处理；

步骤3.4、将步骤3.3得到的文本抽取实体和实体关系；

2.如权利要求1所述的融合云网端日志与威胁知识的APT检测方法，其特征在于，所述网络威胁情报为取自Microsoft安全情报报告中预设数量的非结构化威胁情报。

3.如权利要求1所述的融合云网端日志与威胁知识的APT检测方法，其特征在于，所述将句子转换为规范形式，包括：

4.如权利要求1所述的融合云网端日志与威胁知识的APT检测方法，其特征在于，所述将步骤3.1得到的文本进行消歧处理，包括：

5.如权利要求1所述的融合云网端日志与威胁知识的APT检测方法，其特征在于，所述将步骤3.2得到的文本进行冗余删除，包括：

6.如权利要求1所述的融合云网端日志与威胁知识的APT检测方法，其特征在于，根据步骤3.4抽取得到的实体和实体关系，生成攻击因果图，包括：

7.如权利要求1所述的融合云网端日志与威胁知识的APT检测方法，其特征在于，所述根据步骤2的攻击起源图和步骤3得到的攻击因果图库训练Auto-encoder网络，包括：

步骤4.3、返回步骤4.1直至训练达到预设的结束条件。