基于攻击模式的动态实体对齐方法
技术领域
本发明涉及网络安全技术领域,具体涉及基于攻击模式的动态实体对齐方法。
背景技术
当前业界使用最广泛的方法是采用实体对齐的方法对冗余信息进行整合。TransE是一种常见的知识图谱嵌入方法,它试图通过学习实体之间的关系向量来捕捉实体对齐。通过最小化三元组中关系的嵌入向量与实体向量之和与目标实体向量之间的距离;BootEA是一种基于图的实体对齐方法,它通过在源和目标知识图谱上交替地进行嵌入学习和实体对齐。这些方法通常试图通过学习低维嵌入表示,使得在不同知识图谱中相似意义的实体能够在嵌入空间中靠近,从而实现实体对齐或实体融合的目标。这是一个不断发展的研究领域,涉及到图嵌入、表示学习、多模态学习等多个方向。
在网络安全领域,网络威胁情报(CTI)是安全分析师进行防御工作制定、合作、优化的重要参考数据来源,它能够帮助组织了解网络攻击者的能力、意图、行动模式和策略,从而提高他们的防御能力,降低网络威胁的风险,在现实世界中,借助互联网的庞大信息共享能力,对于同一网络攻击事件,安全分析师通常可以获得多份描述该事件的威胁情报,在对这多份报告进行处理的过程中,值得考量的是,这些情报数据描述的差异性,使得最终的知识图谱构建工作中会对同一对象生成多个相似的三元组数据,从而增加了知识图谱的冗余数据,对后续使用基于庞大数据集的知识图谱查询与预测工作带来极大的额外性能损耗;
现有技术存在以下不足:
首先,TransE假设实体和关系之间是一对一的,这在某些情况下可能不成立,其次,TransE无法处理多义词和歧义性问题,这可能导致嵌入空间中的实体和关系之间存在混淆,此外,TransE还存在一些训练上的挑战,例如需要大量的训练数据和计算资源,以及需要调整一些超参数来获得最佳性能,BootEA技术的计算复杂度较高,因为它需要在大规模的图数据上进行训练和推理,这需要大量的计算资源和时间,同时BootEA技术的对齐精度不高,因为它只考虑了实体的属性信息,而没有考虑实体之间的语义关系,这可能导致一些实体对齐错误,从而影响后续的应用,另外的,BootEA技术的对齐效果不稳定,因为它对实体的属性信息敏感,而实体的属性信息可能会受到噪声的干扰,从而影响对齐效果。不仅如此,现有的结合了时序特点的对齐方法都是采取每次逐个更新所有节点时间信息以实现知识图谱(KG)的动态更新,需要重新训练处理大量的时间数据,整个过程耗时长、且易产生数据泄露的风险。
发明内容
本发明的目的是提供基于攻击模式的动态实体对齐方法,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:基于攻击模式的动态实体对齐方法,所述对齐方法包括以下步骤:
S1:攻击模式的抽取
使用GPT模型对CTI进行预处理,并基于CTI内容生成威胁情报扩充训练数据集用于模型训练;
S2:文本嵌入
将文本数据从高维离散表示形式映射为低维连续向量,通过保留语义和上下文信息,将文本转化为向量表示;
S3:三元组数据抽取
通过深度学习模型进行实体抽取和关系抽取,采用深度学习的Transformer标记文本中的命名实体,通过嵌入表示法将实体和关系映射到向量空间,CNN和RNN用于捕捉上下文信息,注意力机制提高信息关注度,多任务学习联合处理实体抽取和关系抽取后构建知识图谱;
S4:实体对齐模型的训练
结合训练命名实体标记模型得到待处理的多个相似实体的攻击模式集合,将提取出攻击模式抽象语义描述作为实体特征嵌入,将映射的标准化格式要点作为辅助实体属性标签,联合知识图谱中多种关系信息,选取与待处理实体相连接的3-hop(包含)以内连接关系(边),生成准确且唯一的攻击实体“画像”;
每一攻击实体“画像”除了有攻击模式的标注属性、整合多种关系限定后特征集合之外,它还拥有代表时间信息的模型时序参数集,当比较多个相似实体时,该实体携带的时间标记会与模型时序参数集共同作用,动态更新“画像”,实现最新实体对齐,该过程直接经过特定规则由时间戳生成模型时序参数,与实体静态嵌入无关,同时无需集中处理大规模时间数据,只需依靠卷积神经网络层层训练,自发寻找模型时序参数来调整实体对齐模型;
S5:结果输出
得到输入为CTI文本,输出为不含相似数据的三元组集合,每个实体都拥有基于攻击模式以及时间信息的“描述画像”用于唯一表示攻击实体的依据。
优选的,所述攻击模式基于多视图学习与注意力机制的文本处理模型获取,文本处理模型提取攻击模式中的各个要素并整合归纳出当前实体对象的行为特征和攻击风格,将攻击模式要素映射到ATT&CK-ID规范化实体的标准属性。
优选的,所述文本嵌入将文本数据从高维离散表示形式映射为低维连续向量,用单个向量表示整个文本,以便在机器学习模型中更高效地进行训练和处理,文本嵌入通过词嵌入方法或预训练语言模型生成。
优选的,使用GPT模型对CTI进行预处理,并基于CTI内容生成威胁情报扩充训练数据集用于模型训练包括以下步骤:
收集包含各种威胁情报信息的CTI数据,CTI数据包括威胁指标、恶意行为描述;
将CTI文本进行预处理,预处理包括标记化、去除停用词、词干化,将处理后的文本转换为嵌入向量;
使用GPT模型生成威胁情报文本,通过调整GPT模型的参数来控制生成文本的多样性,将生成的文本与原始CTI数据集合并,形成扩充的训练数据集;
根据生成的文本内容为其添加标签。
优选的,多任务学习联合处理实体抽取和关系抽取后构建知识图谱,包括以下步骤:
准备已标注的文本数据,包含实体和关系的标签,将数据集划分为训练集、验证集和测试集;
将文本分割成单词或子词的序列,使用预训练的Transformer模型来获取每个词的上下文嵌入,使用Transformer模型来编码每个词的上下文信息;
在每个位置上添加用于预测实体标签的全连接层;
使用Transformer中的自注意力机制来捕获关系抽取任务中的上下文关系,通过引入CNN或RNN层捕获序列信息,同时学习实体和关系抽取;
将实体和关系映射到低维向量空间,将实体和关系的向量表示存储在图数据库中,形成知识图谱。
优选的,联合知识图谱中多种关系信息,选取与待处理实体相连接的3-hop(包含)以内连接关系(边),生成准确且唯一的攻击实体“画像”,包括以下步骤:
提取文本数据中的攻击模式,并将攻击模式进行抽象化和语义描述,明确定义攻击模式的标准化格式要点,并将攻击模式映射为辅助实体属性标签;
将攻击模式、语义描述和标准化格式要点整合为一个数据集,使用预训练的词嵌入模型将攻击模式的语义描述映射为词向量,对攻击模式中的所有词向量进行平均池化,生成整个攻击模式的语义特征嵌入;
使用独热编码将攻击模式的标准化格式要点映射为标签,将语义特征嵌入和标签整合成一个实体的特征表示;
利用广度优先搜索(BFS)遍历与目标实体相连接的3-hop及以内的三元组构成子图,将子图内节点与边进行消息通信机制全局更新边信息,在突出边本身特征情况下,整合节点信息于边嵌入向量当中,再利用多头注意力机制聚合边信息用于生成实体的第二特征表示;
每个节点的特征除了包含语义嵌入和辅助实体属性标签以外,还包含子图边信息的整合,使用GCN层对图进行卷积操作,在GCN层之后应用激活函数ReLU;
攻击实体的“画像”中包含了代表时间信息的模型时序参数集合,由以时间戳,新实体信息,新关系信息作为输入,经过图卷积神经网络层层训练,将新信息融合时序特点,生成攻击者实体“画像”中增添的模型时序参数集合。当之后再次更新该实体时,只需将新时间戳与原实体时序参数进行线性变换,得到新实体下的模型时序训练参数;这个过程避免了利用复杂静态嵌入信息与再次对庞大知识图谱进行重新繁琐的训练,极大提高了模型的训练效率;
最后,使用GCN输出的节点表示计算节点之间的相似性度量,将相似性度量低于阈值的节点组合成数据三元组,得到最后对齐结果,其间每个实体都拥有基于攻击模式、子图信息以及时间信息的“描述画像”用于唯一表示攻击实体的依据。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明通过深度学习模型进行实体抽取和关系抽取,采用深度学习的Transformer标记文本中的命名实体,通过嵌入表示法将实体和关系映射到向量空间,CNN和RNN用于捕捉上下文信息,注意力机制提高信息关注度,多任务学习联合处理实体抽取和关系抽取后构建知识图谱,将提取出攻击模式抽象语义描述作为实体特征嵌入,将映射的标准化格式要点作为辅助实体属性标签,同时,利用实体的子图信息融合多跳邻居内的边信息,作为实体的第二特征,除此之外,生成时间序列参数集并作为实体的标识特征之一。基于以上节点信息,模型使用神经网络计算节点之间相似性,整合生成唯一的数据三元组。该对齐方法能够提取更贴合攻击者行为特点的描述标签,从而构建攻击者描述画像,作为实体对齐的更准确依据,解决了现有对齐手段的准确性不够高且实现攻击节点动态更新效率低下的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的模型框架图。
图2为本发明的文本嵌入示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:本实施例所述基于攻击模式的动态实体对齐方法,所述对齐方法包括以下步骤:
模型的第一阶段为攻击模式的抽取;实验中使用GPT模型对CTI进行预处理并且基于CTI内容生成类似威胁情报扩充训练数据集用于模型训练;攻击模式是相对于攻击行为的更抽象化概念,它对数据文本的上下文语义理解范围与程度要求更高,它要求训练得到基于多视图学习与注意力机制的文本处理模型,该模型能够提取攻击模式中的各个要素并整合归纳出当前实体对象的行为特征和攻击风格,将攻击模式要素映射到ATT&CK-ID以规范化实体的标准属性;
文本嵌入是一种将文本数据从高维离散表示形式映射为低维连续向量的过程,旨在通过保留语义和上下文信息,将文本转化为更紧凑的、有意义的向量表示;这种方法解决了传统文本数据难以高效输入机器学习算法的问题;其目标是用单个向量表示整个文本,以便在机器学习模型中更高效地进行训练和处理;这种文本嵌入的生成可以通过多种方法,包括传统的词嵌入方法和最新的预训练语言模型,以及使用这些预训练模型进行微调;如图2所示,这样的使得文本嵌入能够在保留文本语义信息的同时,提供更有利于机器学习模型处理和理解的低维表示;
模型第二阶段为三元组数据抽取;知识图谱是一种用于表示实体及其关系的图形结构,构建过程中涉及实体抽取和关系抽取;这两个任务通过深度学习技术实现,其中NER模型是实体抽取的核心,采用深度学习的Transformer标记文本中的命名实体,如人名、地名、组织机构等;NER模型的关键功能包括标记实体类别、上下文理解和泛化能力,因为关系抽取任务涉及识别文本中实体之间的语义关系,所以深度学习模型和特殊的注意力机制是关系抽取的技术要点;嵌入表示法将实体和关系映射到向量空间,CNN和RNN用于捕捉上下文信息,注意力机制提高关键信息关注度,多任务学习联合处理实体抽取和关系抽取;
模型的第三阶段为实体对齐模型的训练与应用实施;该阶段将提取出攻击模式抽象语义描述作为实体特征嵌入,将映射的标准化格式要点作为辅助实体属性标签,得到了知识图谱后,通过聚合子图的边特征信息形成实体的特征之一,同时生成实体的时序参数集,共同构成唯一的攻击者“画像”,得到新的攻击者实体集合,并使用图卷积神经网络计算相似性。另外的,在进行模型训练的同时,通过使用一致性指标合理引入噪声,提升模型的泛化能力;
,
最终,我们会得到输入为CTI文本,输出为不含相似数据的三元组集合,每个实体都拥有基于攻击模式、子图信息、时序信息的“描述画像”用于唯一表示攻击实体的依据,通过这种方式得到的知识图谱结构更加清楚分明,高质量的数据可视化结构使得后续的威胁预测工作更加高效与可靠。
图1是基于攻击模式的实体对齐方案所实现的模型原型整体框架。该框架主要分为了三个阶段:攻击模式的抽取、实体-关系-实体三元组数据抽取、获得实体描述画像,进行实体对齐融合生成最终KG图;
使用GPT模型对CTI进行预处理,并基于CTI内容生成威胁情报扩充训练数据集用于模型训练;
本申请通过深度学习模型进行实体抽取和关系抽取,采用深度学习的Transformer标记文本中的命名实体,通过嵌入表示法将实体和关系映射到向量空间,CNN和RNN用于捕捉上下文信息,注意力机制提高信息关注度,多任务学习联合处理实体抽取和关系抽取后构建知识图谱,将提取出攻击模式抽象语义描述作为实体特征嵌入,将映射的标准化格式要点作为辅助实体属性标签,利用得到的实体-关系-实体三元组生成知识图谱,并利用子图信息以及时序信息丰富实体节点特征内容,在实体对齐时使用图卷积神经网络计算相似性,生成只有唯一数据的三元组集合。该对齐方法能够提取更贴合攻击者行为特点的描述标签,从而构建攻击者描述画像,作为实体对齐的更准确依据,解决了现有对齐手段的准确性不够高且实体时序信息更新效率低下的问题。
整个框架中采取将提取的攻击模式要素映射到统一技术标准,并将其作为实体对齐的辅助信息,解决了当前不同CTI对威胁技术的不同描述而产生的含义混淆、内容杂乱的问题;
面对海量数据多维度数据,深度学习更加准确高效的处理。
使用GPT模型对CTI进行预处理,并基于CTI内容生成威胁情报扩充训练数据集用于模型训练,包括以下步骤:
收集包含各种威胁情报信息的CTI数据,例如威胁指标、恶意行为描述等,清洗数据以确保其质量,去除重复项、处理缺失数据,并确保数据格式一致,将CTI文本进行预处理,包括标记化、去除停用词、词干化等,以提高GPT模型的输入效果,将处理后的文本转换为嵌入向量,以便输入GPT模型;
使用GPT模型生成威胁情报文本,可以根据任务需要生成各种描述、威胁情报相关的内容,可以通过调整GPT模型的温度参数来控制生成文本的多样性,将生成的文本与原始CTI数据集合并,形成扩充的训练数据集,根据生成的文本内容为其添加标签,以便在训练中学习相关的模式,确保生成的数据集中不同类别的样本数量相对均衡,以防止模型过度关注某个类别,将数据集分为训练集和验证集,以便在训练过程中进行模型性能评估。
将文本数据从高维离散表示形式映射为低维连续向量,通过保留语义和上下文信息,将文本转化为向量表示,包括以下步骤:
将文本分割成单词或子词的序列,去除对文本分析无帮助的停用词,例如“and”、“the”等,将词汇缩减到它们的基本形式,以减少词汇的变体,将文本数据中出现的所有单词映射到唯一的索引,并构建一个词汇表,使用预训练的词嵌入模型(例如Word2Vec、GloVe、FastText或BERT)将每个词映射为一个低维向量,这些向量捕捉了词汇之间的语义关系,将预训练的词向量加载到模型的嵌入层,并冻结它,或者在训练过程中微调它,使用RNN来考虑上下文信息,特别是对于序列数据,使用更先进的RNN变体,以便更好地处理长距离依赖关系,考虑使用注意力机制,以便网络更关注输入序列中的重要部分,对每个维度取平均值,将整个序列转换为一个向量,对嵌入向量进行降维,以便可视化或加速训练。
通过深度学习模型进行实体抽取,采用深度学习的Transformer标记文本中的命名实体,通过嵌入表示法将实体和关系映射到向量空间,CNN和RNN用于捕捉上下文信息,注意力机制提高信息关注度,多任务学习联合处理实体抽取和关系抽取后构建知识图谱,包括以下步骤:
准备已标注的文本数据,其中包含实体和关系的标签,将数据集划分为训练集、验证集和测试集,将文本分割成单词或子词的序列,使用预训练的Transformer模型(如BERT、GPT)来获取每个词的上下文嵌入,使用Transformer模型来编码每个词的上下文信息,以捕获语境,在每个位置上添加用于预测实体标签的全连接层,例如softmax层;
使用Transformer中的自注意力机制来捕获关系抽取任务中的上下文关系,通过引入CNN或RNN层来更好地捕获序列信息,同时学习实体和关系抽取,共享部分模型参数以提高训练效率,将实体和关系映射到低维向量空间,可以使用训练好的嵌入层或进一步的关系嵌入技术,将实体和关系的向量表示存储在图数据库中,形成知识图谱。
将提取出攻击模式抽象语义描述作为实体特征嵌入,将映射的标准化格式要点作为辅助实体属性标签,得到初步KG图,之后进一步利用KG图信息更新自身实体信息,加入代表了时序特点的时序参数,进一步方便实体的动态更新过程,并使用图卷积神经网络计算相似性,整合生成对齐后的数据三元组集合,包括以下步骤:
提取文本数据中的攻击模式,并将其进行抽象化和语义描述,明确定义攻击模式的标准化格式要点,并将其映射为辅助实体属性标签,将攻击模式、语义描述和标准化格式要点整合为一个数据集,使用预训练的词嵌入模型(如Word2Vec、GloVe、Fast-Text)将攻击模式的语义描述映射为词向量,对攻击模式中的所有词向量进行平均池化,生成整个攻击模式的语义特征嵌入;
将攻击模式的标准化格式要点映射为标签,可以使用独热编码或其他编码方式,将语义特征嵌入和标签整合成一个实体的特征表示,将实体表示为图中的节点,节点之间的边表示它们之间的关系,这可以基于攻击模式之间的相似性或其他相关性,将每个节点的特征表示为语义嵌入和辅助实体属性标签的整合,使用GCN层对图进行卷积操作,以考虑节点之间的邻近关系,在GCN层之后应用适当的激活函数,例如ReLU,在获得包含了丰富信息的实体集合后,使用GCN输出的节点表示计算节点之间的相似性度量,可以使用余弦相似度或其他相似性度量方法,将相似性度量高于阈值的节点组合成数据三元组,其中包括攻击模式、语义描述、标准化格式要点、边条件限定信息、时间戳信息。
得到输入为CTI文本,输出为不含相似数据的三元组集合,每个实体都拥有基于攻击模式的“描述画像”用于唯一标识攻击实体的依据,包括以下步骤:
对CTI文本进行标记化、去除停用词、词干化等预处理操作,以便后续的处理,基于之前提到的实体抽取模型,使用深度学习模型从CTI文本中抽取攻击实体,例如攻击模式、受害者、攻击者等,对每个攻击实体,使用嵌入表示法将其文本描述映射为低维连续向量,可以使用预训练的词嵌入模型或其他深度学习模型来获得描述画像,将攻击实体的描述画像与其他属性整合为一个综合的实体特征;
使用相似性计算方法(例如余弦相似度)来计算不同实体之间的相似性,排除相似性较高的实体,以确保三元组集合中不含有相似数据,对于每个攻击实体,构建一个三元组,包括攻击模式、描述画像和其他关键属性,确保每个实体都有一个唯一的标识,可以使用攻击模式的描述画像或其他属性作为唯一标识符,根据相似性计算的结果,清理三元组集合中相似性较高的实体,以确保输出不含有相似数据。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。