CN115776401A - 基于少样本学习对网络攻击事件进行溯源的方法、装置 - Google Patents

基于少样本学习对网络攻击事件进行溯源的方法、装置 Download PDF

Info

Publication number
CN115776401A
CN115776401A CN202211471171.3A CN202211471171A CN115776401A CN 115776401 A CN115776401 A CN 115776401A CN 202211471171 A CN202211471171 A CN 202211471171A CN 115776401 A CN115776401 A CN 115776401A
Authority
CN
China
Prior art keywords
apt
organization
data
attack event
attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211471171.3A
Other languages
English (en)
Other versions
CN115776401B (zh
Inventor
韩跃
陈恺
赵学臣
田磊
方滨兴
韩伟红
李爱平
江荣
周斌
王晔
涂宏魁
于晗
刘子牛
尚颖丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Peng Cheng Laboratory
Original Assignee
National University of Defense Technology
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology, Peng Cheng Laboratory filed Critical National University of Defense Technology
Priority to CN202211471171.3A priority Critical patent/CN115776401B/zh
Publication of CN115776401A publication Critical patent/CN115776401A/zh
Application granted granted Critical
Publication of CN115776401B publication Critical patent/CN115776401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了基于少样本学习对网络攻击事件进行溯源的方法、装置,通过应用少样本学习技术处理APT组织的小规模数据,从而实现对网络攻击事件的APT组织溯源,基于已有的APT组织的数据构建APT组织攻击事件的表示矩阵;基于神经网络构建相似度匹配模型并进行训练;基于少样本学习技术,将已有完整的APT组织的数据构建为支撑集;使用预训练好的相似度匹配模型,计算由小规模的APT组织数据作为支撑集的每个组织的每个攻击事件的表示矩阵与目标攻击事件的表示矩阵之间相似度;将每个APT组织的多个攻击事件与目标攻击事件的相似度的平均值,作为目标攻击事件归属为对应APT组织时的关联紧密度数值,根据关联紧密度数值的大小,确定目标攻击事件的源头APT组织。

Description

基于少样本学习对网络攻击事件进行溯源的方法、装置
技术领域
本发明涉及网络空间安全技术领域,具体涉及基于少样本学习对网络攻击事件进行溯源的方法、装置。
背景技术
对于从事网络安全专业的技术人员而言,分析各类网络安全威胁的数据,检测存在网络安全威胁的应用,侦察跟踪网络安全威胁的发起制造者是一系列重要且艰巨的任务。其中,以高级持续威胁(Advanced Persistent Threat,APT)为代表的网络攻击行为是一类重点研究对象。如今,网络空间高度对抗,开展以APT攻击为代表的高隐蔽未知威胁智能检测与溯源技术的相关研究,是网络空间安全的重要发展方向。
长期以来,在网络空间安全领域内,对APT组织建模并建立知识库,利用知识库进行攻击仿真并反复训练,以便能够围绕已有的知识数据进行归因,检查出恶意行为,并实现将恶意网络活动与特定组织或个人进行联系的目的。因此,研究APT攻击的检测、归因与溯源技术是辅助快速检测APT攻击等高隐蔽性的未知威胁,关联来自同一威胁的不同攻击事件,拓展线索范围的核心任务。
神经网络是一种复杂的计算模型,通常用于模式识别。由于神经网络是以生物大脑功能为模型,所以它们能够学习和预测结果。神经网络在网络安全领域的预测方面也有许多实际用途。
在对APT攻击样本进行APT组织进行溯源问题的研究中,神经网络技术的作用的发挥受到了限制,其原因是神经网络需要大规模训练数据集作为支撑,才能学习到高质量的神经网络模型参数。但是,APT组织的数据规模小,时至2021年11月,各大网络空间安全厂商披露的APT组织现有总量为381个。故在网络空间安全中,APT组织的领域知识有限,无法基于该领域内的小规模APT组织数据训练一个高效的神经网络模型,关于对接收到的最新APT攻击样本实现机器的检测、追踪与溯源的研究进展缓慢。在有关的研究应用中,大部分工作仍然依靠纯粹的网络安全领域的专家人工地处理,工业机器级别技术手段的实现很少,大多数技术研究仍停留在科研学术层面中,实际应用仍然需要大量的人力物力的投入。
发明内容
针对上述问题,本发明提供了基于少样本学习对网络攻击事件进行溯源的方法、装置,其通过应用少样本学习技术处理APT组织的小规模数据,从而实现对网络攻击事件的APT组织溯源。
其技术方案是这样的:基于少样本学习对网络攻击事件进行溯源的方法,包括以下步骤:基于已有的APT组织的数据,构建APT组织攻击事件的表示矩阵;
基于神经网络构建相似度匹配模型,基于多种网络安全的分类数据构建训练集训练所述相似度匹配模型,所述相似度匹配模型用于判断攻击事件的相似度;
基于少样本学习技术,将已有完整的APT组织的数据构建为支撑集;使用预训练好的相似度匹配模型,计算支撑集里的每个组织的每个攻击事件的表示矩阵与目标攻击事件的表示矩阵之间相似度;
将每个APT组织的多个攻击事件与目标攻击事件的相似度的平均值,作为目标攻击事件归属为对应APT组织时的关联紧密度数值,根据关联紧密度数值的大小,确定目标攻击事件的源头APT组织。
进一步的,所述的基于已有的APT组织的数据集,构建APT组织攻击事件的表示矩阵,具体包括:
基于已有的APT组织的数据,构建APT组织知识图谱的三元组数据和APT组织自身属性关系的三元组数据;
将APT组织知识图谱的三元组数据和APT组织自身属性关系的三元组数据进行嵌入向量化,得到APT组织攻击事件的表示矩阵。
进一步的,所述APT组织的三元组(头实体,属性关系,尾实体)包括:
(APT组织名称,take_advantage_of,攻击手段)、(APT组织名称,use,某种具体攻击工具)、(APT组织名称,reported_by,该组织的APT报告)、(APT组织名称,command_and_control,基础设施)、(APT组织名称,utilize,漏洞)、(URL链接,contain,APT组织的基础设施实体)、(APT组织的基础设施实体,permeation_and_attack,关键基础设施)、(漏洞,identification_number,CVE漏洞编号)、(漏洞,belonged_to,攻击手段)。
进一步的,所述APT组织自身属性关系的三元组数据的头实体为APT组织名称,属性关系包括中文名、组织地理、历史目标、目标行业、发现时间、动机,尾实体包括各类属性关系的属性值。
进一步的,所述的构建并训练相似度匹配模型包括以下步骤:
以多种网络安全的分类数据构建训练集;获取正样本:从训练集的某个APT组织的多类数据里挑选一类选出一个,再从此类样本中选出一个,设置标签为1,相似度为1;获取负样本:从训练集的某个APT组织的多类别数据里挑选一类选出一个,再从另一类数据中再选出一个,设置标签为0,相似度为0;
基于孪生神经网络构建相似度匹配模型,所述相似度匹配模型的输入模型为两个向量化表示的数据,所述相似度匹配模型包括Conv层、Pool层、Flatten层以及全连接层,所述相似度匹配模型通过sigmoid激活函数得到一个取值介于0到1之间的同类别鉴定标签作为模型的输出,用于衡量输入的两个数据的相似度;
从训练集中选择两个数据输入所述相似度匹配模型,输出预测的输入数据的相似度,将输出的同类别鉴定标签与真实的标签进行比较,使用梯度下降法优化对数似然损失函数,使用反向传播算法训练相似度匹配模型的模型参数,通过训练集对构建相似度匹配模型进行训练迭代,直至模型收敛,得到预训练好的构建相似度匹配模型。
进一步的,选择关联紧密度数值最高的APT组织作为目标攻击事件的源头APT组织。
进一步的,将关联紧密度数值最高的若干个APT组织作为疑似源头APT组织提供给网安专家,由网安专家在若干个APT组织中选择目标攻击事件的源头APT组织。
进一步的,根据已有的源头APT组织对应的攻击事件数据,补全目标攻击事件在APT组织知识图谱构建的三元组中的缺失信息。
一种计算机装置,其包括:包括处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的基于少样本学习对网络攻击事件进行溯源的方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序,所述程序用于执行上述的基于少样本学习对网络攻击事件进行溯源的方法。
在网络空间安全领域内的网络攻击溯源的工作中,本项技术发明巧妙地结合了知识图谱的技术与少样本学习技术,通过将零散的APT组织数据以APT组织知识图谱的形式进行展现,APT组织知识图谱以一种更便于理解的方式来向外界展示APT组织数据和APT攻击的相关流程;
并且针对APT组织的领域知识有限的问题,本发明在大范围的网络安全领域的分类数据的基础上构建训练集,并通过训练集训练了一个相似度匹配模型,相似度匹配模型可以对输入的两个网络安全领域的数据预测相似度,进而该相似度匹配模型也可以用于网络攻击事件的相似度的预测;本发明基于少样本学习技术,通过已有完整的APT组织知识图谱的三元组构建为支撑集,将目标攻击样本数据作为训练好的预训练好的相似度匹配模型的一个输入,并针对支撑集中每个APT组织,逐一取出该APT组织的一个攻击事件数据作为预训练好的相似度匹配模型的另一个输入,输出最新攻击样本数据与这个APT组织攻击事件的同类别鉴定标签,由于一个APT组织可能发起多次攻击,故可以让目标攻击样本数据与该APT组织的每个攻击事件数据分别成组输入预训练好的相似度匹配模型后,对多个同类别鉴定标签数值取平均值,作为该目标攻击样本与这个APT组织的关联紧密度数值,相似度分数高的APT组织数据就极有可能与待检测溯源的APT攻击样本具有相同的组织信息,由此可以将关联紧密度数值高的APT组织作为该目标攻击样本的所属APT组织,从而完成目标攻击样本的APT组织溯源工作,本发明实现了对于新接收到的最新APT攻击样本实现机器的检测、追踪与溯源,可以有效地减少网络安全领域的专家的人力的投入。
附图说明
图1为本发明的一个实施例中的基于少样本学习对网络攻击事件进行溯源的方法的步骤示意图;
图2为本发明的另一个实施例中的基于少样本学习对网络攻击事件进行溯源的方法的步骤示意图;
图3为一个实施例中计算机装置的内部结构图。
具体实施方式
见图1,本发明的基于少样本学习对网络攻击事件进行溯源的方法,包括以下步骤:
步骤1:基于已有的APT组织的数据,构建APT组织攻击事件的表示矩阵;
步骤2:基于神经网络构建相似度匹配模型,基于多种网络安全的分类数据构建训练集训练相似度匹配模型,相似度匹配模型用于判断攻击事件的相似度;
步骤3:基于少样本学习技术,将已有完整的APT组织的数据构建为支撑集;使用预训练好的相似度匹配模型,计算支撑集里的每个组织的每个攻击事件的表示矩阵与目标攻击事件的表示矩阵之间相似度;
步骤4:将每个APT组织的多个攻击事件与目标攻击事件的相似度的平均值,作为目标攻击事件归属为对应APT组织时的关联紧密度数值,根据关联紧密度数值的大小,确定目标攻击事件的源头APT组织。
针对网络空间安全的APT组织数据较少的现状,本发明设计了一种面向网络空间安全的APT组织知识图谱对已有的APT组织数据进行整合和梳理,且对于构建的APT组织知识图谱数据,本发明基于多种网络安全的分类数据训练了一个基于神经网络的相似度匹配模型,从而能够充分利用已有数据中包含的信息关联特性,将APT组织的攻击特性深度挖掘,训练集中包含了基于多种网络安全的分类数据,相似度匹配模型训练学习对多个恶意代码家族检测是否能归类为同一个恶意代码家族,众多恶意流量日志的判别归类,多个APT攻击事件的归属APT组织检测等分类问题的预训练学习,从而,训练好的相似度匹配模型学到了APT组织攻击事件的判别,进而可以解决对多个不同攻击事件的归属APT组织是否相同的问题。训练好的预训练好的相似度匹配模型做出尽可能准确地识别并分类,基于少样本学习技术,有完整的APT组织的数据构建为支撑集;使用预训练好的相似度匹配模型,计算支撑集里的每个组织的每个攻击事件的表示矩阵与目标攻击事件的表示矩阵之间相似度,从而可以将攻击样本归类为已有的APT组织数据中的某一个具体的APT组织,至此,综合以上的所有技术实现,本发明便根据已有的APT组织数据,推理溯源出了最新攻击事件的归属APT组织。
具体在本发明的一个实施例中,在步骤1中,包括以下步骤:
基于已有的APT组织的数据,构建APT组织知识图谱的三元组数据和APT组织自身属性关系的三元组数据;
将APT组织知识图谱的三元组数据和APT组织自身属性关系的三元组数据进行嵌入向量化,得到APT组织攻击事件的表示矩阵。
对于APT组织的攻击事件,其中包括九类常用的APT组织知识图谱三元组数据与其他的APT组织自身属性关系的三元组数据,进行嵌入向量化表示。每个三元组的嵌入向量作为矩阵的一整行数据,所有三元组向量按列来排列,构成APT组织攻击事件的一个嵌入矩阵。按照此方式,构建所有已知的APT组织在数据库中的每个攻击事件的数字表示矩阵,同时也构建多个恶意代码家族的恶意代码的数字表示矩阵与众多恶意流量日志的数字表示矩阵。在神经网络预训练的过程中,不仅使用已有的APT组织数据集,也使用网络安全类别里的其他方向的安全数据集,作用是给要训练的模型提供更多,更全面的网络安全数据类型,让神经网络模型尽可能学到,相比于仅学习APT组织攻击事件时,模型最终能表现出更强大的分析能力。简言之,此过程就是执行网络安全分类事件的数字化的矩阵表示。
目前用于构建APT组织知识图谱的常用三元组分为下表1所列举的九种类型。
(APT组织名称,take_advantage_of,某种具体攻击手段)
(APT组织名称,use,某种具体攻击工具)
(APT组织名称,reported_by,该组织的APT报告)
(APT组织名称,command_and_control,基础设施)
(APT组织名称,utilize,漏洞)
(URL链接,contain,APT组织的基础设施实体)
(APT组织的基础设施实体,permeation_and_attack,关键基础设施)
(漏洞,identification_number,CVE漏洞编号)
(漏洞,belonged_to,攻击手段)
表1
APT组织知识图谱的三元组中,其中:take_advantage_of表示利用,use表示使用,reported_by表示被报道、command_and_control表示命令及控制,utilize表示利用,contain表示包含,permeation_and_attack表示渗透与攻击,identification_number表示识别码、belonged_to表示属于。
除了上表所列举的九种常用的APT组织三元组类型外,关于APT组织自身的属性值信息,仍有大量的三元组信息类型,如下表2所列举的格式。
Figure BDA0003958550580000061
表2
此类APT组织自身属性关系的三元组数据仅描述该APT组织的个体情况信息,与外界关联性不紧密,因此,在APT组织的检测、追踪与溯源过程中,一般不考虑此类属性关系的三元组数据。而在详细了解某一APT组织的具体情况时,方才通过此类属性三元组知识加以补充。
在一个实施例中,在步骤2中,构建并训练相似度匹配模型包括以下步骤:
以多种网络安全的分类数据构建训练集;获取正样本:从训练集的某个APT组织的多类数据里挑选一类选出一个,再从此类样本中选出一个,设置标签为1,相似度为1;获取负样本:从训练集的某个APT组织的多类别数据里挑选一类选出一个,再从另一类数据中再选出一个,设置标签为0,相似度为0;
基于孪生神经网络构建相似度匹配模型,相似度匹配模型的输入模型为两个向量化表示的数据,相似度匹配模型包括Conv层、Pool层、Flatten层以及全连接层,相似度匹配模型通过sigmoid激活函数得到一个取值介于0到1之间的同类别鉴定标签作为模型的输出,用于衡量输入的两个数据的相似度;
从训练集中选择两个数据输入相似度匹配模型,输出预测的输入数据的相似度,将输出的同类别鉴定标签与真实的标签进行比较,使用梯度下降法优化对数似然损失函数,使用反向传播算法训练相似度匹配模型的模型参数,通过训练集对构建相似度匹配模型进行训练迭代,直至模型收敛,得到预训练好的构建相似度匹配模型。
模型的训练集的数据来源是多种网络安全的分类数据,包括:多个家族的恶意代码检测是否能归类为同一个恶意代码家族,众多恶意流量日志的归类判别,多个APT攻击事件的归属APT组织检测。从训练集中,每次取两个样本,样本为APT组织数据的嵌入向量矩阵,矩阵的规模为九行N列,九行分别对应表一所示的九种常见的APT组织三元组数据的嵌入向量表示,N列作为嵌入向量的维度,具体维度的数值可以有不同的选择。比较两个样本的相似度。训练该神经网络,需要一个大的分类数据集,数据有标注,每一类下面都有很多个样本。需要使用训练集来构造正样本和负样本。正样本告诉神经网络什么东西是同一类,负样本告诉神经网络数据之间的区别。
相似度匹配模型的作用是辨别两个输入数据的异同:训练相似度匹配模型这一步需要大量具有异/同类分辨性的数据样本,它们的分类类别都有明确的正、负样本的标签。因此,根据两个输入数据类别标签的异同,来告诉模型,两个输入是同类,或者两个输入不是同类。为方便设计模型的损失函数,将两个输入数据的标签是同一类别时,把异/同类别的标签为数字1;将两个输入数据的标签是异类别时,把异/同类别的标签为数字0。
相似度匹配模型相似度匹配模型包括Conv层、Pool层、Flatten层以及全连接层,两个样本x1,x2经过相同的Conv层、Pooling层、Flatten层,输出提取的特征向量记作h1=f(x1),h2=f(x2),最后通过全连接层(Fully ConnectedLayers)来处理z向量,z=|h1-h2|,z表示两个特征向量之间的区别,最终输出一个标量,最后再用sigmoid激活函数,得到一个输出介于0到1之间的实数,这个输出就可以衡量两个输入数据之间的相似度。
相似度匹配模型的输出也是数据的同类别的鉴定标签,取值介于[0,1],训练模型是希望神经网络的输出接近标签,把输出与标签的差别记作损失函数Loss,具体可以是标签与预测的cross entropy(交叉熵),它可以衡量标签与预测之间的差别,直观理解即为相似度匹配模型的所有输出标签要尽可能接近真值标签。相似度匹配模型根据输入数据标签与数据特征来训练模型中的所有神经元参数,训练的实质就是神经网络遍历调整参数的过程,这一步作为预训练,数据量是大规模的。从训练集中选择两个数据的表示矩阵输入相似度匹配模型,输出预测的输入数据的相似度,将输出的同类别鉴定标签与真实的标签进行比较,使用梯度下降法优化对数似然损失函数,使用反向传播算法训练相似度匹配模型的模型参数,通过训练集对构建相似度匹配模型进行训练迭代,直至模型收敛,得到预训练好的构建相似度匹配模型。
在一个实施例中,在步骤3中,基于少样本学习技术,将已有完整的APT组织的数据构建为支撑集;使用预训练好的相似度匹配模型,计算支撑集里的每个组织的每个攻击事件的表示矩阵与目标攻击事件的表示矩阵之间相似度;针对少样本的APT组织攻击事件,此处需要使用少样本相关技术,将其作为支撑集(support set),将攻击样本数据作为预训练好的构建相似度匹配模型的一个输入,并针对支撑集中每个APT组织,逐一取出该APT组织的一个攻击事件数据作为相似度匹配模型的另一个输入,输出最新攻击样本数据与这个APT组织攻击事件的同类别鉴定标签,以此判断最新攻击样本数据与这个APT组织中的攻击事件的相似度。
在一个实施例中,在步骤4中,由于一个APT组织可能发起多次攻击,故可以让攻击样本数据与该APT组织的每个攻击事件数据分别成组输入预训练好的相似度匹配模型后,对多个同类别鉴定标签数值取平均值,作为该攻击样本与这个APT组织的关联紧密度数值,遍历支撑集下所有的APT组织后,即可得到攻击样本与每个APT组织的关联紧密度数值。进行APT组织的相似度分数排序,相似度分数最高的APT组织数据就极有可能与待检测溯源的APT攻击样本具有相同的组织信息,从而支撑集中的与该攻击样本紧密度最高的APT组织即推断为本次攻击样本的追踪溯源的APT组织,将攻击样本数据归纳到已有的APT组织数据库中最有可能归属的APT组织。
在本发明的另外一个实施例中,为了增强APT组织追踪溯源的准确性,把获取相似度分数排序最高的第一个APT组织,调整为获取相似度分数排序比较高的前三个APT组织,进而再由网安专家来决定待检测溯源的APT攻击样本的源头是哪一个APT组织。
在本发明的一个实施例中,除了前述的步骤1至步骤4,其还包括步骤5:根据已有的源头APT组织对应的攻击事件数据,补全目标攻击事件在APT组织知识图谱构建的三元组中的缺失信息。
基于推理出的归属APT组织作为攻击事件的组织源头的规则,再根据归属APT组织下对应所有的APT攻击事件数据,来补充攻击事件在APT组织知识图谱构建的各类三元组中的缺失信息。如何从多个APT攻击事件中的多个数据来对某一个缺失数据做补充,可以利用知识图谱已有成熟的知识抽取或属性值抽取技术执行,此处执行的知识图谱推理与补充操作,是针对新发现的攻击样本对应的APT组织知识图谱的九类三元组数据,通过已有的APT知识图谱数据来对应补充新攻击样本的缺失数据,达到推理补全的效果,应用少样本学习技术来处理APT组织的小规模数据,进而来辅助人工来推理补全APT组织知识图谱中的缺失实体或关系。
本发明的技术应用于网络空间安全中,基于知识图谱的知识推理与补全技术进行APT组织的检测、追踪与溯源研究。将少样本学习(Few-shot learning)技术应用于APT组织知识图谱中的小规模数据集,对构建好的APT组织知识图谱中缺失的实体或关系,运用本发明技术,能够更好地辅助人工推理补全缺失的最新APT攻击事件所归属的组织等各类属性关系的信息。
在本发明的实施例中,还提供了一种计算机装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的基于少样本学习对网络攻击事件进行溯源的方法。
该计算机装置可以是终端,其内部结构图可以如图3所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于少样本学习对网络攻击事件进行溯源的方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序,程序用于执行上述的基于少样本学习对网络攻击事件进行溯源的方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的基于少样本学习对网络攻击事件进行溯源的方法、系统、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.基于少样本学习对网络攻击事件进行溯源的方法,其特征在于,包括以下步骤:基于已有的APT组织的数据,构建APT组织攻击事件的表示矩阵;
基于神经网络构建相似度匹配模型,基于多种网络安全的分类数据构建训练集训练所述相似度匹配模型,所述相似度匹配模型用于判断攻击事件的相似度;
基于少样本学习技术,将已有完整的APT组织的数据构建为支撑集;使用预训练好的相似度匹配模型,计算支撑集里的每个组织的每个攻击事件的表示矩阵与目标攻击事件的表示矩阵之间相似度;
将每个APT组织的多个攻击事件与目标攻击事件的相似度的平均值,作为目标攻击事件归属为对应APT组织时的关联紧密度数值,根据关联紧密度数值的大小,确定目标攻击事件的源头APT组织。
2.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于,所述的基于已有的APT组织的数据集,构建APT组织攻击事件的表示矩阵,具体包括:
基于已有的APT组织的数据,构建APT组织知识图谱的三元组数据和APT组织自身属性关系的三元组数据;
将APT组织知识图谱的三元组数据和APT组织自身属性关系的三元组数据进行嵌入向量化,得到APT组织攻击事件的表示矩阵。
3.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于,所述APT组织的三元组(头实体,属性关系,尾实体)包括:
(APT组织名称,take_advantage_of,攻击手段)、(APT组织名称,use,某种具体攻击工具)、(APT组织名称,reported_by,该组织的APT报告)、(APT组织名称,command_and_control,基础设施)、(APT组织名称,utilize,漏洞)、(URL链接,contain,APT组织的基础设施实体)、(APT组织的基础设施实体,permeation_and_attack,关键基础设施)、(漏洞,identification_number,CVE漏洞编号)、(漏洞,belonged_to,攻击手段)。
4.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于:所述APT组织自身属性关系的三元组数据的头实体为APT组织名称,属性关系包括中文名、组织地理、历史目标、目标行业、发现时间、动机,尾实体包括各类属性关系的属性值。
5.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于:所述的基于神经网络构建相似度匹配模型,基于多种网络安全的分类数据构建训练集训练所述相似度匹配模型,包括以下步骤:
以多种网络安全的分类数据构建训练集;获取正样本:从训练集的某个APT组织的多类数据里挑选一类选出一个,再从此类样本中选出一个,设置标签为1,相似度为1;获取负样本:从训练集的某个APT组织的多类别数据里挑选一类选出一个,再从另一类数据中再选出一个,设置标签为0,相似度为0;
基于孪生神经网络构建相似度匹配模型,所述相似度匹配模型的输入模型为两个向量化表示的数据,所述相似度匹配模型包括Conv层、Pool层、Flatten层以及全连接层,所述相似度匹配模型通过sigmoid激活函数得到一个取值介于0到1之间的同类别鉴定标签作为模型的输出,用于衡量输入的两个数据的相似度;
从训练集中选择两个数据输入所述相似度匹配模型,输出预测的输入数据的相似度,将输出的同类别鉴定标签与真实的标签进行比较,使用梯度下降法优化对数似然损失函数,使用反向传播算法训练相似度匹配模型的模型参数,通过训练集对构建相似度匹配模型进行训练迭代,直至模型收敛,得到预训练好的构建相似度匹配模型。
6.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于:选择关联紧密度数值最高的APT组织作为目标攻击事件的源头APT组织。
7.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于:将关联紧密度数值最高的若干个APT组织作为疑似源头APT组织提供给网安专家,由网安专家在若干个APT组织中选择目标攻击事件的源头APT组织。
8.根据权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法,其特征在于:根据已有的源头APT组织对应的攻击事件数据,补全目标攻击事件在APT组织知识图谱构建的三元组中的缺失信息。
9.一种计算机装置,其特征在于,其包括:包括处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质用于存储程序,所述程序用于执行权利要求1所述的基于少样本学习对网络攻击事件进行溯源的方法。
CN202211471171.3A 2022-11-23 2022-11-23 基于少样本学习对网络攻击事件进行溯源的方法、装置 Active CN115776401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211471171.3A CN115776401B (zh) 2022-11-23 2022-11-23 基于少样本学习对网络攻击事件进行溯源的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211471171.3A CN115776401B (zh) 2022-11-23 2022-11-23 基于少样本学习对网络攻击事件进行溯源的方法、装置

Publications (2)

Publication Number Publication Date
CN115776401A true CN115776401A (zh) 2023-03-10
CN115776401B CN115776401B (zh) 2024-04-19

Family

ID=85389925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211471171.3A Active CN115776401B (zh) 2022-11-23 2022-11-23 基于少样本学习对网络攻击事件进行溯源的方法、装置

Country Status (1)

Country Link
CN (1) CN115776401B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860769A (zh) * 2023-02-21 2023-03-28 中国环境科学研究院 一种基于匹配度和交叉熵的危险废物溯源方法
CN116886379A (zh) * 2023-07-21 2023-10-13 鹏城实验室 网络攻击重构方法、模型的训练方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11218502B1 (en) * 2020-09-23 2022-01-04 Sichuan University Few-shot learning based intrusion detection method of industrial control system
CN113938889A (zh) * 2021-09-27 2022-01-14 浙江工业大学 一种基于元学习的小样本Wi-Fi伪装攻击检测方法和系统
WO2022077907A1 (zh) * 2020-10-14 2022-04-21 上海交通大学 对抗攻击的检测方法、系统、设备、计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11218502B1 (en) * 2020-09-23 2022-01-04 Sichuan University Few-shot learning based intrusion detection method of industrial control system
WO2022077907A1 (zh) * 2020-10-14 2022-04-21 上海交通大学 对抗攻击的检测方法、系统、设备、计算机可读存储介质
CN113938889A (zh) * 2021-09-27 2022-01-14 浙江工业大学 一种基于元学习的小样本Wi-Fi伪装攻击检测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIN ZHOU等: "Multiple Sequential Network Attacks Detection Based on DTW-HMM", 《2022 7TH IEEE INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE (DSC)》, 29 September 2022 (2022-09-29) *
宋闯;赵佳佳;王康;梁欣凯;: "面向智能感知的小样本学习研究综述", 航空学报, vol. 41, no. 1, 31 December 2020 (2020-12-31) *
陈海雁;潘伟;吉志远;: "基于元学习的入侵检测研究", 电力信息与通信技术, no. 09, 25 September 2020 (2020-09-25) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860769A (zh) * 2023-02-21 2023-03-28 中国环境科学研究院 一种基于匹配度和交叉熵的危险废物溯源方法
CN115860769B (zh) * 2023-02-21 2023-05-05 中国环境科学研究院 一种基于匹配度和交叉熵的危险废物溯源方法
CN116886379A (zh) * 2023-07-21 2023-10-13 鹏城实验室 网络攻击重构方法、模型的训练方法及相关装置
CN116886379B (zh) * 2023-07-21 2024-05-14 鹏城实验室 网络攻击重构方法、模型的训练方法及相关装置

Also Published As

Publication number Publication date
CN115776401B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
Hu et al. A distributed framework for large-scale protein-protein interaction data analysis and prediction using mapreduce
CN110135157B (zh) 恶意软件同源性分析方法、系统、电子设备及存储介质
CN115776401B (zh) 基于少样本学习对网络攻击事件进行溯源的方法、装置
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
Batur Şahin et al. A novel deep learning-based feature selection model for improving the static analysis of vulnerability detection
CN102291392A (zh) 一种基于Bagging算法的复合式入侵检测方法
US12039257B2 (en) Systems, methods, and computer-readable media for improved table identification using a neural network
Barry-Straume et al. An evaluation of training size impact on validation accuracy for optimized convolutional neural networks
WO2021168617A1 (zh) 业务风控处理方法、装置、电子设备以及存储介质
Gao et al. BLNN: Multiscale Feature Fusion‐Based Bilinear Fine‐Grained Convolutional Neural Network for Image Classification of Wood Knot Defects
CN116432184A (zh) 基于语义分析和双向编码表征的恶意软件检测方法
Zekany et al. CrystalBall: Statically analyzing runtime behavior via deep sequence learning
Huang et al. Harnessing deep learning for population genetic inference
Li et al. Protein-protein interaction sites prediction based on an under-sampling strategy and random forest algorithm
CN112613032B (zh) 基于系统调用序列的主机入侵检测方法及装置
Xu et al. Rethinking the trigger-injecting position in graph backdoor attack
CN116910753A (zh) 一种恶意软件检测和模型构建方法、装置、设备及介质
CN116702157A (zh) 一种基于神经网络的智能合约漏洞检测方法
CN115774784A (zh) 一种文本对象的识别方法及装置
US11609936B2 (en) Graph data processing method, device, and computer program product
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
Jin et al. Graph-based identification and authentication: A stochastic kronecker approach
Batur et al. A novel deep learning-based feature selection model for improving the static analysis of vulnerability detection
Sen Attention-GAN for Anomaly Detection: A Cutting-Edge Approach to Cybersecurity Threat Management
KR102429120B1 (ko) 학습모델 기반 인간 ppar 감마의 길항제 예측 방법 및 분석장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant