CN117131503B

CN117131503B - 一种用户行为的威胁链识别方法

Info

Publication number: CN117131503B
Application number: CN202311402486.7A
Authority: CN
Inventors: 王晶; 谢涛
Original assignee: Zhongfu Information Co Ltd
Current assignee: Zhongfu Information Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-02-20
Anticipated expiration: 2043-10-27
Also published as: CN117131503A

Abstract

本发明提出的一种用户行为的威胁链识别方法，属于信息安全技术领域，包括：建立威胁知识库；对日志数据进行清洗和预处理；根据本体模式建立用户行为属性图；对用户行为属性图进行实体融合和消岐；对用户行为属性图进行结构加工与优化；进行用户威胁行为子图与节点特征的抽取；将用户威胁行为链与预置图模型匹配；利用神经网络模型计算威胁行为子图的相似度评分，并判断相似度评分是否高于阈值，若是，则将威胁行为子图保存到下游任务队列中。本发明能够利用神经网络模型对用户的威胁行为链进行识别，并自动评估威胁分数，有效提高了用户威胁行为的识别率。

Description

一种用户行为的威胁链识别方法

技术领域

本发明涉及信息安全技术领域，更具体的说是涉及一种用户行为的威胁链识别方法。

背景技术

随着互联网新兴技术的发展，带来了网络空间边界模糊化，访问方与被访问方的通路逐渐增多，传统的以规则为核心的边界防御加流量检测的安全架构难以适应。越来越多的组织和企业接受来自远程办公的资源请求，使威胁攻击有更多机会进入内部。由此更加严格的规则带来告警数据增加，但实际有效的攻击更难以发现。于此同时相对于外部网络，企业和组织更加信任内部网络空间的人员和设备，内部人员和实体更容易接触到商业机密、敏感信息、重要数字资产等数据，有意或无意地造成数据安全问题时有发生，此类威胁发生具有隐蔽性、复杂性和关联性，对此类内部威胁往往缺乏有效的检测措施。

现有技术中，针对用户威胁行为的检测，按照使用机器学习方法的不同，大致可分为基于异常检测和基于形式化建模两类。

基于异常检测的方式主要是通过异常行为发现和分析（UEBA）检测威胁，数据源多基于审计日志，这些日志包含用户和其使用的设备因操作或运行留下的日志数据，如用户的命令执行记录、文件搜索记录、数据库访问记录、单双导文件传输记录、主机审计日志、共享文档空间操作记录、电子邮件发送记录等。对这些日志采用统计分析和机器学习进行数据挖掘，可以找出用户和实体的异常行为。基于形式化建模的方式则是通过对用户行为画像和建模，可对用户的正常行为建模，也可以对用户的威胁攻击建模。

但是，采用上述方法进行用户威胁行为的检测，存在以下缺点：

1、由于审计日志字段设计主旨在广泛覆盖各种应用场景中的信息采集需求，而忽视记录值是否可用于内部威胁检测，针对多样安全设备和应用系统的海量日志，通常需要人工设计多种威胁行为数据抽取方法，缺少一个统一的日志数据处理方式，造成日志数据处理负担重，日志数据信息难以挖掘。

2、内部威胁检测需要使用多种行为域的数据，现有方法多针对单个行为域建立机器学习模型，缺少链式威胁的识别功能，容易忽略不同行为之间的关联关系和上下文信息，造成分析威胁时因信息不足而大量需要人工分析研判。

3、对正常行为建模的方法通常需要通过评分系统，使模型可以区分正常和异常行为，但大多评分系统采用异常分数累加，易造成假阳性比例高，需根据实际场景、用户习惯等频繁调整阈值。

4、用户行为样本分布属于长尾分布，异常行为占比本身很小，其中被识别且标注为威胁行为的样本极少，因此利用传统监督学习训练模型识别威胁行为，易造成模型过拟合导致识别准确度低、模型泛化性能差。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种用户行为的威胁链识别方法，能够利用神经网络模型对用户的威胁行为链进行识别，并自动评估威胁分数，有效提高了用户威胁行为的识别率。

本发明为实现上述目的，通过以下技术方案实现：

一种用户行为的威胁链识别方法，包括如下步骤：

S1：建立威胁知识库；

S2：对日志数据进行清洗和预处理；

S3：对预处理后的日志数据进行对象化处理，根据威胁攻击行为本体模式建立用户行为属性图；

S4：在用户行为属性图中对多节点对应同一实体的情况进行实体融合，对具有同一名称但可指代多个实体的节点进行消岐；

S5：对用户行为属性图的结构进行加工优化；

S6：从用户行为属性图中抽取威胁行为子图；

S7：将威胁行为子图与威胁知识库中的威胁攻击链图模型进行匹配；

S8：利用神经网络模型计算威胁行为子图的相似度评分；

S9：判断相似度评分是否超过阈值；若是，则执行步骤S10；否则，执行步骤S11；

S10：将威胁行为子图保存到下游任务队列中；

S11：判断威胁知识库中的威胁攻击链图模型是否已经匹配完毕；若是，则识别结束；若否，则返回步骤S7。

进一步，步骤S1包括：

建立异常行为ATT&CK映射策略；

建立威胁攻击行为本体模式；

建立威胁攻击链图模型，并存储在威胁攻击链图模型库中；

构建基于GNN的子图匹配算法。

进一步，步骤S2包括：

对日志数据进行归一化处理；

利用异常行为ATT&CK映射策略抽取日志数据中的关键信息，并映射为ATT&CK中的技术。

进一步，步骤S4包括：

当存在同一字段可指代多个实体的节点时，通过节点属性化的方法将此类节点转化为同一节点。

进一步，步骤S5包括：

通过属性传递增加邻接节点的特征；

通过知识推理建立节点之间新的连接。

进一步，步骤S6包括：

从用户行为属性图中抽取含有ATT&CK标识的节点及其k-阶邻接节点的子图或子图集，并将子图内节点的属性转换为节点特征向量。

进一步，步骤S7包括：

将威胁行为子图与威胁攻击链图模型库中的图模型逐一匹配，根据不同的行为属性图建立方式和子图抽取方式，选取不同的子图匹配算法；

子图匹配算法采用基于节点嵌入的子图匹配模型或基于边嵌入的子图匹配模型。

进一步，步骤S8包括：

利用神经张量网络计算节点特征相似度，作为威胁行为子图的相似度评分。

进一步，步骤S8还可以包括：

利用行为发出方特征融合与神经张量网络结合的方式计算边特征相似度，作为威胁行为子图的相似度评分。

进一步，步骤S8还可以包括：

利用数据图边重排列之后与查询图的曼哈顿距离直接计算图对相似度，作为威胁行为子图的相似度评分。

对比现有技术，本发明有益效果在于：本发明提供了一种用户行为的威胁链识别方法，能够利用威胁知识库辅助处理日志并给予日志数据额外威胁信息标注，可避免繁琐多样的日志数据预处理，也可弥补威胁行为标注信息少的问题。利用威胁知识库还可辅助建立带有用户行为上下文信息的用户行为属性图，该属性图可关联多方日志并为后续基于威胁行为链模型的识别提供输入数据。

本方法利用GAT（图注意力网络）和NTN（神经张量网络）组成的神经网络模型，可对用户的威胁行为链进行识别，并自动评估威胁分数，避免单纯累加分数造成的打分异常问题。同时GAT和NTN具有可学习的参数且泛化能力强，因此本发明的神经网络模型对未知的威胁行为具有识别能力，可缓解以往模型泛化性较差的问题。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明具体实施方式中一种用户行为的威胁链识别方法的方法流程图。

图2是本发明具体实施方式的图神经网络模型的结构示意图。

图3是本发明具体实施方式中另一种用户行为的威胁链识别方法的方法流程。

具体实施方式

下面结合附图对本发明的具体实施方式做出说明。

参见图1所示，本发明公开了的一种用户行为的威胁链识别方法，包括如下步骤：

S1：建立威胁知识库。

具体从以下四个方面完成威胁知识库的建立：

A、建立异常行为ATT&CK映射策略。

B、建立威胁攻击行为本体模式。

C、建立威胁攻击链图模型，并存储在威胁攻击链图模型库中。

D、构建基于GNN的子图匹配算法。

S2：对日志数据进行清洗和预处理。

首先，对日志数据进行归一化处理；然后利用异常行为ATT&CK映射策略抽取日志数据中的关键信息，并映射为ATT&CK中的技术。

S3：对预处理后的日志数据进行对象化处理，根据威胁攻击行为本体模式建立用户行为属性图。

S4：在用户行为属性图中对多节点对应同一实体的情况进行实体融合，对具有同一名称但可指代多个实体的节点进行消岐。

当存在同一字段可指代多个实体的节点时，可通过节点属性化的方法将此类节点转化为同一节点。还可以通过给对象增加属性或转换对象名的方式消除歧义。

S5：对用户行为属性图的结构进行加工优化。

具体来说，可通过属性传递增加邻接节点的特征；或通过知识推理建立节点之间新的连接。

S6：从用户行为属性图中抽取威胁行为子图。

具体的，从用户行为属性图中抽取含有ATT&CK标识的节点及其k-阶邻接节点的子图或子图集，并将子图内节点的属性转换为节点特征向量。

S7：将威胁行为子图与威胁知识库中的威胁攻击链图模型进行匹配。

具体的，将威胁行为子图与威胁攻击链图模型库中的图模型逐一匹配，根据不同的行为属性图建立方式和子图抽取方式，选取不同的子图匹配算法。其中，子图匹配算法采用基于节点嵌入的子图匹配模型或基于边嵌入的子图匹配模型。

S8：利用神经网络模型计算威胁行为子图的相似度评分。

在具体实施方式中，对威胁行为子图的相似度计算，可根据需求采用以下任一种方式：

A、利用神经张量网络计算节点特征相似度，作为威胁行为子图的相似度评分。

B、利用行为发出方特征融合与神经张量网络结合的方式计算边特征相似度，作为威胁行为子图的相似度评分。

C、利用数据图边重排列之后与查询图的曼哈顿距离直接计算图对相似度，作为威胁行为子图的相似度评分。

S10：将威胁行为子图保存到下游任务队列中。

需要特别说明的是，在上述方法中，步骤S7是本方法的关键步骤，其中模糊子图匹配技术为必要技术。传统的子图方法使用启发式函数并且要选择合适的种子节点，通常需要靠图算法专家的指导且缺乏稳定性。本方法中，利用图神经网络（GNN）挖掘图中隐藏的知识和信息，对大样本依然有较好的效果和运行速度。但现有的GNN模型用于子图匹配存在两个局限性：首先只能在数据图（data graph）中找到查询图（query graph)所在的位置，无法建立节点之间的映射关系，即无法对齐两个图中的用于行为；其次模型训练完毕后只能匹配固定的查询图，实用价值较低。

因此，本方法采用了基于边特征嵌入的GAT与NTN组合的图神经网络模型，其具体结构如图2所示。该结构通过将节点的特征嵌入融入到边的特征嵌入中，可使当前节点更加关注在时间上或（和）战术逻辑上更靠前发生的其他节点，同时基于边的嵌入更加关注实体行为的学习，而非传统的节点嵌入着重学习实体自身特征嵌入。训练该神经网络前需要准备训练数据，即用户行为子图和其中节点与威胁攻击链图模型中节点的相似度（通常为人工标注真实数据或利用模拟的方式生成数据），训练过程如下：

a、步骤S6抽取的用户行为子图为（数据图），及边特征向量为/>，其中/>为边的数量，/>为特征的维度，这里边特征融合了行为发出节点的部分特征，而不包含行为接受方的特征。再从威胁攻击链图模型库中选取一个图模型/>（查询图），将三者送入第一层GAT网络，该网络使用多头注意力聚合邻接的上一行为边的特征向量，最终生成。

b、类似步骤a，将、/>和第一层嵌入特征/>，一起送入第二层GAT网络，最终生成/>。第二层生成的边特征向量可以融合它的2阶邻接行为边特征。

c、将与/>中边第一层的嵌入特征/>送入NTN网络，通过NTN计算查询图与数据图边的相似度张量/>；第一层的嵌入特征同时送入ATT（注意力）层，该层使用缩放点积模型，生成注意力矩阵/>。

d、类似步骤c，将与/>中边的第二层的嵌入特征/>送入NTN网络和ATT层，得到相似度张量/>和注意力矩阵/>。

e、分别将和/>、/>和/>进行哈达马积（Hadamard product）运算，再将结果拼接为最终相似度张量/>。

f、将经过/>卷积运算和激活函数（如LeakyReLU），得到相似度矩阵/>，计算真实相似度矩阵/>与GNN计算相似度/>之间的距离（如标准化互信息NMI值，或 Frobenius范数），作为GNN的相似度计算损失用于训练网络参数。

由于带有标注的真实攻击链数据量较小，若直接采用监督学习方法训练神经网络容易过拟合，导致泛化性差。因此，本发明采用了一种具有少样本学习能力的图神经网络模型，该模型按照上述训练过程并采用了分阶段训练的策略。训练过程具体如下：

第一阶段，利用子图采样技术训练神经网络的领域子图匹配能力。通过从行为图数据中随机抽取大量子图，使神经网络学会识别不同子图之间的拓扑结构和属性的异同。该阶段的训练通过对比学习增强嵌入网络表示能力。

第二阶段，利用少样本学习技术训练神经网络的标签子图匹配能力，即具有ATT&CK标签子图的匹配能力。该阶段重点在训练匹配网络学习行为子图与攻击模式的相似度函数，该函数可通过注意力机制实现，注意力权重可根据输入样本动态计算，而不用修改其余网络参数。该阶段将训练网络中的非参数部件，增强模型的小样本学习能力。

参见图3所示，基于上述实施例，本发明还公开了一种用户行为的威胁链识别方法，包括如下步骤：

S301：建立威胁知识库。

作为示例的，威胁知识库的建立方法具体如下：

（1）异常行为ATT&CK映射策略：根据日志产生设备，即具有检测能力的设备构建威胁场景，从场景中提取异常行为及其关联的日志字段，根据ATT&CK框架中检测方法中的描述，设置日志字段中可能出现的“污点”为异常探测点，若用户行为日志超过行为基线，且出现“污点”关键字，则赋予对应的ATT&CK技术标签。

（2）威胁攻击行为本体模式：本发明中的本体模式中对象采用STIX（结构化威胁信息表达）中的对象类型+自定义对象类型（根据防护场景中的实体定义），本体模式中关系采用STIX中预定义的关系类型+自定义的关系类型（根据具体防护场景中实体的关系定义）组成。

（3）威胁攻击链图模型：以STIX中的SDOs（STIX Domain Objects）、SCOs（STIXCyber-observable Objects）和SROs（STIX Relationship Objects）为实体和关系的基础，对已发现的安全事件或专家总结出的常见安全场景进行适度抽象，在②中本体模式的指导下建立包含人、物、行为的抽象图模型。图模型中节点和边需通过连接或属性与②中的对象和关系建立联系，如果与ATT&CK中的战术或技术对映，则将相应的编号添加在节点或边的属性中。

（4）基于GNN的子图匹配算法：可内置多种基于图数据的子图匹配算法，如采用GCN或GAT作为节点嵌入表示层，或消息传递网络将一对节点的嵌入向量转换为一个消息向量进行边的嵌入表示；然后根据不同的嵌入表示计算查询图与数据图之间的相似度。

S302：对日志数据进行清洗和预处理。

其中，清洗包括数据格式统一（归一化），预处理包括利用异常行为ATT&CK映射策略抽取告警中的关键信息，然后映射为ATT&CK中的技术，相当于原始数据额外标注。

S303：根据本体模式建立用户行为属性图。

具体的，对预处理后的日志数据进行对象化处理，根据威胁攻击行为本体模式建立用户行为属性图。可通过“表字段——》本体对象”的映射，“表——》关系组”的映射，将预处理后的日志数据转为用户行为属性图。

S304：对用户行为属性图进行实体融合和消岐。

在行为属性图中对多节点对应同一实体的情况进行实体融合，对具有同一名称但可指代多个实体的节点进行消岐。如用户字段可以是“用户名”也可以是“员工编号”，可通过节点属性化的方法转化为同一节点；如公司在多个地区的分公司都存在运维管理员，他们的用户名可能都为“admin_op”，将不同地区的运维审计日志汇聚后会出现一词多义，可以通过给对象增加地区属性或转换对象名消除歧义。

S305：对用户行为属性图进行结构加工与优化。

对行为属性图的结构进行加工优化，可通过属性传递增加邻接节点的特征；或通过知识推理建立节点之间新的连接。

S306：进行用户威胁行为子图与节点特征的抽取。

从威胁行为子图中抽取含有ATT&CK标识的节点及其k-阶邻接节点的子图或子图集，并将子图内节点的属性转换为节点特征向量。如：将用户的文件操作行为编码为二进制向量；将用户在设定时间窗口内不同活动的次数转为计数特征集和；将用户在设定时间窗内传输数据量的大小转换为累加特征；将可移动驱动器上的文件实践与所有文件时间的比率、应用程序上传与下载的比率转化为比率特征等。

S307：将用户威胁行为链与预置图模型匹配。

使用抽取的威胁行为子图与威胁攻击链图模型库中的图模型逐一匹配，根据不同的行为属性图建立方式和子图抽取方式，选取不同的子图匹配算法。如基于节点嵌入的子图匹配模型，基于边嵌入的子图匹配模型等。

S308：利用神经网络模型计算威胁行为子图的相似度评分，并判断相似度评分是否高于阈值。若是，则执行步骤S309；否则，执行步骤S310。

具体的，本步骤的目的在于对用户行为子图评分，并根据阈值判断用户行为链的威胁程度和重要威胁点。其中，可根据需求采用不同的方式实现相似度计算，如，利用神经张量网络（NTN）计算节点特征相似度、利用行为发出方特征融合与NTN结合计算边特征相似度、或利用数据图边重排列之后与查询图的曼哈顿距离直接计算图对相似度。

S309：将威胁行为子图保存到下游任务队列中。

具体的，将威胁链评分超过阈值的用户行为子图保存到下游任务队列中。下游任务可包括：多因子量化风险评估，安全人员溯源取证，威胁行为统计分析等。

S310：判断威胁知识库中的威胁攻击链图模型是否已经匹配完毕；若是，则识别结束；若否，则返回步骤S308。

由此可见，本发明公开的用户行为的威胁链识别方法，将传统的表格日志数据，转换为可表达逻辑和语义关系的图数据。利用异常行为ATT&CK映射策略抽取告警中的关键信息，然后映射为ATT&CK中的技术，可给与原始数据额外标注，增强原始数据的属性和特征。利用威胁攻击行为本体模式，可将不同日志中多样的字段进行概念上的统一与逻辑上的关联，大幅减少由于实体歧义。采用GAT作为学习节点的嵌入表示层，不但具有GCN的优良特性，如对测试集和训练集中未见过的图具有表示不变性和归纳性，对于相同特征集合的节点具有泛化性；而且还引入了对邻居节点的注意力机制，在直推式学习和归纳式学习的任务中表现均超过了使用GCN作为嵌入表示层的模型。

相比两个向量直接点积这种单一的相似度计算方式，通过训练NTN，可以更加灵活的学习不同的相似度计算方法，向量点积只作为NTN网络中的一个特例。

以CMU-CERT数据集为例：本发明可以将其中logon、device、http、email、file、LDAP等结构化日志数据转换为图数据，其中节点和边都具有标签（类别）和属性（特征字段）。节点表示日志文件中的实体或对象（如用户、电子邮箱、URL等），边表示日志中记录的实体或对象之间的关系（如电子邮箱-【属于】-用户、用户-【访问】-URL等）。图数据中的实体或对象及关系的标签根据威胁攻击行为本体模式定义，结构化日志的不规范性导致这些标签可能已存在于结构化日志中，也可能需要更具日志内容人工定义。它们的属性字段也取自本体模式中预定义的属性字段，这些字段的值通常从结构化日志中提取，缺失部分则需要人工添加。

建立图数据库之后，利用数据集中的威胁攻击链样本进行神经网络训练：若用户的行为子图和威胁知识库中某一威胁攻击链图模型较为相似，则通过嵌入网络和度量网络之后和两者具有较高的匹配值。通过从图数据库中以不同的采样策略获取与真实攻击链相似程度不同的行为子图作为训练样本，对神经网络进行训练。神经网络获取该种攻击链的识别能力后可用于推理阶段，即经过网络推理，具有威胁攻击的行为的子图得分较高，而正常行为的子图得分较低，减小误报率。经过嵌入关系属性中的ATT&CK特征，可让攻击手段的变种依然有较高的识别率，即攻击者采用同类型的攻击手段，但在实施细节上加以改变（如改变行动时间顺序，改变提权工具，改变数据泄露方式等），利用本发明的识别方法可给予这类攻击链上的行为相似的ATT&CK特征，进而增强变种攻击的识别得分，提高变种攻击识别率。

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

Claims

1.一种用户行为的威胁链识别方法，其特征在于，包括如下步骤：

S1：建立威胁知识库；

S2：对日志数据进行清洗和预处理；

S5：对用户行为属性图的结构进行加工优化；

S6：从用户行为属性图中抽取威胁行为子图；

S8：利用神经网络模型计算威胁行为子图的相似度评分；

S10：将威胁行为子图保存到下游任务队列中；

2.根据权利要求1所述的用户行为的威胁链识别方法，其特征在于，所述步骤S1包括：

建立异常行为ATT&CK映射策略；

建立威胁攻击行为本体模式；

建立威胁攻击链图模型，并存储在威胁攻击链图模型库中；

构建基于GNN的子图匹配算法。

3.根据权利要求2所述的用户行为的威胁链识别方法，其特征在于，所述步骤S2包括：

对日志数据进行归一化处理；

4.根据权利要求3所述的用户行为的威胁链识别方法，其特征在于，所述步骤S4包括：

5.根据权利要求4所述的用户行为的威胁链识别方法，其特征在于，所述步骤S5包括：

通过属性传递增加邻接节点的特征；

通过知识推理建立节点之间新的连接。

6.根据权利要求5所述的用户行为的威胁链识别方法，其特征在于，所述步骤S6包括：

7.根据权利要求6所述的用户行为的威胁链识别方法，其特征在于，所述步骤S7包括：

8.根据权利要求7所述的用户行为的威胁链识别方法，其特征在于，所述步骤S8包括：

9.根据权利要求7所述的用户行为的威胁链识别方法，其特征在于，所述步骤S8包括：

10.根据权利要求7所述的用户行为的威胁链识别方法，其特征在于，所述步骤S8包括：