CN114710344A

CN114710344A - 一种基于溯源图的入侵检测方法

Info

Publication number: CN114710344A
Application number: CN202210328644.8A
Authority: CN
Inventors: 谢雨来; 冯丹; 李锦�; 吴雅锋; 周潘
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-05
Anticipated expiration: 2042-03-30
Also published as: CN114710344B

Abstract

本发明公开了一种基于溯源图的入侵检测方法，属于计算机系统安全领域，包括：获得待检测行为的溯源图并计算节点重要度；快速判断和精准判断两个阶段。在快速判断阶段：选取重要度较高的N₁个节点及对应的K₁个邻域节点，通过映射规则将溯源图转换为第一邻域矩阵，从而快速提取溯源图主体特征，检测时若该特征与正常规则行为间的差异m₁大于阈值Th_H，则判为入侵行为，若m₁<Th_L，则判定为正常行为；若Th_L<Th<Th_H，则进入精准判断阶段：通过扩大中心节点N₂(N₂>N₁)及邻域节点K₂(K₂>K₁)规模，深度挖掘溯源图，构建第二邻域矩阵并提取特征，若该特征与正常规则行为间的差异m₂<Th，则判定为正常行为，否则判定为异常行为。本发明能够高效、准确地实现入侵检测。

Description

一种基于溯源图的入侵检测方法

技术领域

本发明属于计算机系统安全领域，更具体地，涉及一种基于溯源图的入侵检测方法。

背景技术

随着网络环境和攻击手段的愈发复杂,面对层出不穷的入侵技术与手段，如何及时识别多种多样的网络入侵操作和攻击行为，尤其是在面对新型网络攻击等从未出现过的攻击方式时采取何种对策变得尤为关键。

传统的基于主机的入侵检测系统通常使用系统调用来分析和识别入侵。由于这些方法不使用上下文信息，它们无法识别攻击者与受感染系统之间的因果关系，因此只能一定程度上降低入侵发生频率，但是无法从根本上杜绝黑客入侵行为。

与系统调用相比，系统或溯源日志提供了信息流传输的详细历史记录，以跟踪系统行为。溯源图包含着丰富的系统行为语义，系统溯源图将系统中的实体(如进程、文件、网络端口等)抽象为节点，实体间的行为抽象为边，从而将系统中的行为编码到了一个有向，有标签且带有时间信息的图中，因此有很强的表达能力和关联分析能力，可以有效的用于已知和未知技术的检测，和关联分析以过滤误报。并且基于溯源图的入侵检测方案已经越来越多的被各大安全厂商采纳，作为新的检测引擎核心。

但当前基于溯源图进行的检测过程中普遍面临着一些问题：

1.数据量过大带来的数据收集开销：为了构建完整的系统溯源图，检测系统需要收集大量的数据，一般来说单机一天收集的数据量会在GB这一数量级。因此存储和处理数据会带来很大的开销。

2.图结构处理带来的计算开销：因为溯源图原始的图结构，完整的处理其信息会引入大量的开销。

3.溯源图预处理导致有效信息的丢失：对数据进行预处理时，仅仅使用了溯源图中的节点间依赖关系和节点本身的名称信息，这种方式遗失了节点本身的属性等重要信息，因此缺乏对溯源信息的深度挖掘使用。

总的来说，现有的基于溯源图的入侵检测方法存在海量溯源数据所带来的性能开销问题和溯源信息中重要信息提取不足的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于溯源图的入侵检测方法，其目的在于，有效缓解海量溯源数据所带来的性能开销问题和溯源信息中重要信息提取不足的问题，高效、准确地实现入侵检测。

为实现上述目的，按照本发明的一个方面，提供了一种基于溯源图的入侵检测方法，包括如下步骤：

(S1)获得待检测行为的溯源图，并计算各节点的重要度；

(S2)获得溯源图中重要度最高的前N₁个节点作为中心节点，并从各中心节点的邻域中分别筛选出K₁个节点，构建第一邻域矩阵后，对其进行特征提取，得到第一溯源特征；

(S3)计算第一溯源特征与正常规则行为之间的差异m₁，若m₁>Th_H，则判定待检测行为为入侵行为，并转入步骤(S6)；若m₁<Th_L，则判定待检测行为为正常行为，并转入步骤(S6)；若Th_L≤m₁≤Th_H，则转入步骤(S4)；

(S4)获得溯源图中重要度最高的前N₂个节点作为中心节点，并从各中心节点的邻域中分别筛选出K₂个节点，构建第二邻域矩阵；将第二邻域矩阵变换至与第一邻域矩阵的规模及中心节点顺序一致后，对其进行特征提取，得到第二溯源特征；N₂>N₁，且K₂>K₁；

(S5)计算第二溯源特征与正常规则行为之间的差异m₂，若m₂<Th，则判断待检测行为为正常行为；否则，判断待检测行为为异常行为；

(S6)检测结束；

其中，Th_H、Th_L和Th均为阈值，且Th_L<Th<Th_H；从中心节点的邻域中筛选节点的顺序为：按照与中心节点的紧密程度降序的顺序进行筛选，在紧密程度相同时按照节点重要度降序的顺序进行筛选。

本发明在提取溯源图的特征时，充分考虑了节点的重要度，提取了溯源重要信息；在节点重要度信息的辅助作用之下，本发明仅提取溯源图中重要度较高的节点及其邻域节点即可完成检测，相比于现有检测方法需要对完整的溯源图进行信息处理，能够在保证检测准确性的情况下有效减少计算和存储开销。

本发明中，入侵检测可以分为快速判断和精准判断两个阶段，在不同阶段，对溯源图中节点重要度及溯源节点间相互依赖关系的感知范围大小有所不同：在快速判断阶段，通过步骤(S2)～(S3)，选取重要性较高的部分节点及其邻域节点，能够快速提取溯源图的主体特征，并结合高阈值和低阈值，在待检测行为明显是入侵行为或明显是正常行为的情况下，快速完成判断；在实际应用中，大部分的检测在快速判断阶段即可完成；当快速判断阶段无法完成检测时，再进入精准判断阶段；在精准判断阶段，通过步骤(S4)～(S5)，增加选取的节点数量，增加扩大感知规模，全面挖掘溯源图信息，再进行判断，能够有效提高检测准确性。因此，本发明通过快速判断阶段和精准判断阶段相结合，能够高效、准确地完成入侵检测。

进一步地，第一邻域矩阵和第二邻域矩阵中，每个行向量与一个中心节点相对应，行向量中的每个元素与中心节点的一个邻域节点相对应；

并且，步骤(S4)中，将第二邻域矩阵变换至与第一邻域矩阵的规模一致，包括：

以第一邻域矩阵中的列向量作为指标，计算各指标对应的权重系数；权重系数用于衡量指标变异性的大小；

利用权重系数对第二邻域矩阵中的列向量进行滑动平均，使第二邻域矩阵的列数与第一邻域矩阵的列数一致。

本发明对于精准判断阶段建立的第二邻域矩阵，以第一邻域矩阵中的列向量作为指标，计算用于衡量指标变异性大小的权重系数，并基于所计算的权重系数对第二邻域矩阵进行滑动平均，在保证变换后的第二邻域矩阵与第一邻域矩阵列数一致的情况下，综合更多邻域节点及其影响，感知更为丰富的溯源图信息，能够进一步提高检测准确性。

进一步地，步骤(S4)中，将第二邻域矩阵变换至与第一邻域矩阵的规模一致，还包括：

使第二邻域矩阵的列数与第一邻域矩阵的列数一致后，对第二邻域矩阵中的行向量进行聚类，得到多个聚类层后，在各聚类层中以等比例进行抽样，共抽样得到K₁个行向量，并从第二邻域矩阵中剔除其余行向量，使第二邻域矩阵的行数与第一邻域矩阵的行数一致；

按照中心节点重要度对第二邻域矩阵的行向量进行排序，使第二邻域矩阵与第一邻域矩阵的中心节点顺序一致。

本发明通过聚类、等比例采样的方式从第二邻域矩阵中抽取K₁个行向量，并按照中心节点重要度对抽取的行向量进行排序，在使得第二邻域矩阵的行数与第一邻域矩阵一致的情况下，能够最大程度上不影响行向量的原始分布，从而提取到溯源图的整体性、有代表性的特征。

进一步地，使第二邻域矩阵的列数与第一邻域矩阵的列数一致后，对第二邻域矩阵中的行向量进行聚类之前，还包括：检测第二邻域矩阵中的孤立行向量，并剔除所检测出的孤立行向量。

本发明中，第二邻域矩阵中的每一个行向量可视作对同一个溯源图进行不同角度感知得到的样本，其中的孤立样本所携带的信息往往不具有代表性，在对第二邻域矩阵的行向量进行聚类之前，会先检测并剔除孤立行向量，能够有效保证最终得到的矩阵能够准确反映溯源图的整体性、有代表性的特征。

进一步地，获得待检测行为的溯源图，包括：

收集待检测行为的溯源数据，并从中滤除程序执行期间生成的临时文件和环境变量，利用剩余的溯源数据构建溯源图。

程序执行期间生成的临时文件和环境变量，用于在不同实体(例如文件或进程)之间传输信息，并且生命周期短，这些临时文件和环境变量往往不包含入侵信息，可视为与入侵检测无关的信息；本发明对于收集到的溯源数据，会先将大量与入侵检测无关的信息进行过滤及剪枝，仅保留用于入侵的关键数据，能够节省存储空间并提高检测效率。

进一步地，对于任意一个节点p，其重要度SI(p)的计算方式为：

SI(p)＝αA(p)+(1-α)H(p)；

其中，A(p)和H(p)分别表示节点p的节点属性和节点依赖度，α表示节点属性占比。

本发明在计算节点的重要度时，会综合考虑节点的节点属性和节点依赖度，使得节点的重要度能够反映更多的溯源信息，能够进一步提高后续检测结果的检测精度。

进一步地，α＝0.375。

本发明在综合考虑节点的节点属性和节点依赖度计算节点的重要度时，设置节点属性的占比为0.375，能够取得较优的入侵检测效果。

进一步地，对邻域矩阵进行特征提取，包括：

将邻域矩阵输入至已训练好的特征提取模型，得到相应的特征；

其中，特征提取模型是含有多层卷积层的卷积神经网络，邻域矩阵为第一邻域矩阵或第二邻域矩阵。

本发明中，利用含有多层卷积层的卷积神经网络提取溯源特征，利用卷积神经网络局部感受野和权值共享可以解决溯源数据量过大导致的入侵检测数据集过于庞大的问题，多卷积核和池化操作可以通过对用户的正常行为进行特征提取以构建特征模型，多卷积层的使用则可以对溯源信息进行深入挖掘。

进一步地，计算溯源特征与正常规则之间的差异，包括：

分别计算溯源特征与正常规则行为库中各特征之间的差异，将差异中的最小值作为溯源特征与正常规则行为之间的差异；

其中，正常规则行为库由正常行为的溯源特征构成；溯源特征为第一溯源特征或第二溯源特征。

按照本发明的另一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序，计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于溯源图的入侵检测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明以溯源节点本身状态属性及节点间的依赖关系作为指标衡量节点重要度，并采用快速判断和精准判断相结合的检测流程，为每个事件溯源图选择表达能力强的节点作为中心节点并构建其规范化邻域，在不同的阶段，对溯源图中节点重要度及溯源节点间相互依赖关系的感知范围大小不同，在快速判断阶段，快速提取溯源图的主体特征，并结合阈值判断，快速判断出明显的入侵行为或明显的正常行为，满足时效性要求；在精准判断阶段，扩大感知规模，全面挖掘溯源图信息，再次进行入侵检测判断，满足准确性，能够有效解决现有的入侵检测方法因海量溯源数据所带来的性能开销问题和溯源重要信息提取不足的问题。

(2)本发明不仅考虑了节点本身的属性等重要信息，同时考虑通过溯源图内部节点的重要度及节点间相互依赖关系强度，有效降低了大数据环境下对入侵行为进行检测的误检率。

(3)本发明采用含多层卷积层的卷积神经网络提取邻域矩阵的特征，能够准确提取溯源信息的特征，并借助卷积神经网络对数据特征快速学习的特性，加快检测速度。

附图说明

图1为本发明实施例提供的基于溯源图的入侵检测方法示意图；

图2为本发明实施例提供的检测框架示意图；

图3为本发明实施例提供的溯源信息收集示意图；

图4为本发明实施例提供的中心节点及规范化邻域构建示意图；

图5为本发明实施例提供的卷积神经网络处理示意图；

图6为本发明实施例提供的精准判断阶段邻域矩阵的构建示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了缓解现有的基于溯源图的入侵检测方法所存在的海量溯源数据所带来的性能开销问题和溯源信息中重要信息提取不足的问题，本发明提供了一种基于溯源图的入侵检测方法，其整体思路在于：以溯源节点本身状态属性及节点间的依赖关系作为指标衡量节点重要度，并采用快速判断和精准判断相结合的检测流程，为每个事件溯源图选择表达能力强的节点作为中心节点并构建其规范化邻域；首先执行快速判断阶段，快速提取溯源图的主体特征，在待检测行为明显是入侵行为或明显是正常行为的情况下快速完成检测，满足时效性；在快速阶段无法完成检测时，执行精准判断，通过扩大感知规模，全面挖掘溯源图信息，再次进行入侵检测判断，满足准确性；由此解决现有方法中所面临的海量溯源数据所带来的性能开销和溯源重要信息提取不足的问题。

以下为实施例。

实施例1：

一种基于溯源图的入侵检测方法，包括如下步骤：

(S1)获得待检测行为的溯源图，并计算各节点的重要度；

为了进一步节省存储空间并提高检测效率，本实施例收集待检测行为的溯源数据后，还会从中滤除程序执行期间生成的临时文件和环境变量等与入侵检测无关的信息，以压缩依赖关系的数量；

(S4)获得溯源图中重要度最高的前N₂个节点作为中心节点，并从各中心节点的邻域中分别筛选出K₂个节点，构建第二邻域矩阵；将第二邻域矩阵变换至与第一邻域矩阵的规模及中心节点顺序一致后，对其进行特征提取，得到第二溯源特征；N₂>N₁，且K₂>K₁；可选地，本实施例中，N₁＝K₁＝16，N₂＝64，K₂＝32；

(S6)检测结束；

参阅图1和图2，本实施例可分为以下几个阶段：

溯源图信息及预处理阶段：通过溯源收集框架获得多种易受入侵应用的溯源信息，并对这些溯源信息粗略地进行过滤，从而得到进程节点，文件节点，网络连接节点和管道节点等名称及它们之间的依赖关系；将临时文件及环境变量等与入侵检测无关的信息进行过滤及剪枝，从而进一步压缩依赖关系的数量；本实施例中，溯源图信息及预处理阶段通过执行步骤(S1)实现；

快速判断阶段：通过快速提取溯源图的主体特征，并与正常行为规则库进行比较，若入侵检测判断与正常规则行为库差别较大，则判断为入侵行为，否则进一步进行精准判断；本实施例中，快速判断阶段通过执行步骤(S2)～(S3)完成；

精准判断阶段：通过扩大感知规模，全面挖掘溯源图的信息，然后获得权重系数，对邻域节点进行滑动平均，从而综合更多邻域节点及其影响，达到感知的溯源图信息更丰富的目的；最后利用向量筛选与矩阵重构，去除感知的噪声，提取溯源图的整体性、有代表性的特征进行入侵检测判断；本实施例中，精准判断阶段通过执行步骤(S4)～(S5)完成。

以下对本实施例中各阶段及各步骤具体实施方式做进一步地说明。

溯源图信息及预处理阶段中，通过溯源跟踪框架拦截Syscall对易受攻击的应用进行溯源收集，并生成文件级溯源数据；溯源跟踪框架如图3所示，具体包括：

溯源拦截层：负责拦截accept、connect、send和recv等系统调用，并将信息传送给溯源观察层；

溯源观察层：将拦截层拦截到的信息转换成溯源信息；例如，初始化socket结构中加入的溯源变量，收集与该socket连接相关联的IP地址、端口号信息、用户ID和连接创建时间；

溯源分析层：处理溯源信息中一些重复的信息记录，从而保证不会出现重复的数据；

溯源分布层：负责将获得的溯源信息写入溯源文件系统，保存在文件中，以便后续存储入数据库中。

本实施例收集到的溯源信息主要表现形式为节点与节点之间相互依存进而建立相应的依赖关系，这些相互连接的每个节点当中都包含了大量属性信息，这些属性信息对进程以及文件对象等进行了详细的描述。为了进一步节省存储空间并提高检测效率，本实施例进一步会从所收集的溯源信息中筛选出用于检测入侵的关键数据，具体地，从收集的溯源数据中滤除程序执行期间生成的临时文件和环境变量，由于这些数据在不同实体(例如文件或进程)之间传输信息，并且生命周期短，因此，不太可能包含入侵信息，滤除这些数据不会影响溯源检测的准确性，而且可以压缩依赖关系的数量。

经过预处理之后，利用剩余的溯源数据构建溯源图，溯源图中的节点和边分别对应实体和实体间的依赖关系。

考虑到通常在入侵事件中，可疑套接字、病毒进程或受感染的文件都可能是潜在的重要节点，并且它们在它们自己和其他对象节点之间有多个依赖关系。例如，一个病毒进程试图访问具有高机密性的本地文件或与外部计算机进行通信，并且对其他节点具有重要影响。此外，还需要综合考虑节点的属性值来描述出处图的实际含义。对于依赖较多但没有属性值的节点，如果以此类节点为中心进行聚类，则没有描述实际含义的属性信息。我们选择重要性最高的节点作为中心节点。对于节点之间的依赖关系，类似于PageRank的思路算法，认定若某节点为溯源图当中多个对象的祖先节点，则说明该节点对象为溯源数据中大多数文件和进程所主要依赖的对象，那么它的重要程度相应的就应该高于其他节点。基于以上考虑，本实施例的步骤(S1)中，对于溯源图中的节点p，计算其重要度SI(p)的计算方式为：

SI(p)＝αA(p)+(1-α)H(p)；

其中，A(p)和H(p)分别表示节点p的节点属性和节点依赖度，α表示节点属性占比；由此计算的节点重要度，综合考虑了节点的节点属性和节点依赖度，使得节点的重要度能够反映更多的溯源信息，能够进一步提高后续检测结果的检测精度；其中的节点属性占比α反映了节点自身属性在节点重要度中的重要成都，可根据实际应用相应设定，本实施例中，为了获得较优的入侵检测效果，设置α＝0.375；

考虑到溯源图一个节点的重要度不仅与自身有关，还与该节点的子节点有关，为了更为准确地度量节点的重要度，本实施例中，计算节点p的节点依赖度时，采用如下计算公式：

其中，H_p0表示节点p的初始节点依赖度，与其他节点之间没有依赖关系的节点的初始节点依赖度为0，其余节点的初始依赖度为x，x为正数；M_p表示节点p的所有子节点构成的节点集合，p_i表示节点p的子节点，SI(p_i)表示节点p_i的节点依赖度。

经过上述溯源数据收集、预处理及节点重要度计算之后，即可进行后续的检测过程，即快速判断阶段和精准判断阶段；考虑到处理完整的溯源图结构，会引入大量的开销，为避免该问题，本实施例在快速判断阶段和精准判断阶段，仅基于节点的重要度和节点间的依赖关系，提取部分表达能量较强的节点及其邻域节点对溯源图进行表征，本实施例将这一过程称之为溯源图向量化，具体过程如下：

(1)中心节点选取：从溯源图中选取重要度最高的部分节点，作为中心节点；

(2)中心节点邻域构建及规范化：对于所选取的每一个中心节点，从其邻域中筛选出重要度最高的部分节点；每个中心节点所选取的邻域节点数量相同；

(3)邻域矩阵构建：为每一个中心节点建立一个向量；对于每一个中心节点，按照与中心节点的紧密程度对其邻域节点进行排序，与中心节点的紧密相同时，则按照节点的重要度进行排序，将排序后的邻域节点依次映射为向量中的一个元素，具体地，本实施例中，每个向量元素的内容使用节点的重要度进行填充；将中心节点的向量作为行向量，按照重要度对中心节点排序，利用排序后的中心节点的向量构建邻域矩阵；

图4所示，为针对一个中心节点构建其规范化邻域并映射为向量的示意图；其中，所选取的中心节点为1，邻域节点与中心节点的紧密程度可使用领域节点与中心节点之间的距离度量；对于所选取的中心节点1，其邻域节点与该中心节点的紧密程度及各节点的重要度如图4所示，所选取的邻域节点数量为9；则优先按照紧密程度进行排序，在紧密程度相同时按照节点重要度排序后，各节点的顺序为：

(1、4、6、8、10、2、5、7、9、11、3)

从排序后的节点中按顺序选取9个节点，映射为向量；容易理解的是，当中心节点的邻域较少，不足所设定的选取数量时，则以零进行填充。

在快速判断阶段，为了快速提取溯源图的主体特征，以快速完成判断，满足时效性，在进行溯源图向量化以构建邻域矩阵时，所选取的中心节点数量较少，对于每一个中心节点所选取的邻域节点也较少；在精准判断阶段，为了全面挖掘溯源图信息，以进行精准判断，满足准确性，所选取的中心节点数量较大，对于每一个中心节点所选取的邻域节点也较大。

在快速判断阶段和精准判断阶段中，在获得用于表征溯源图的邻域矩阵之后，会进一步基于该邻域矩阵进行特征提取，作为一种可选的实施方式，本实施例中，具体使用卷积神经网络(CNN)进行特征提取。如图5所示，在卷积神经网络模型中，隐含层通常是将卷积层、池化层，还有全连接层三者组合形成的，其中卷积层的作用是通过一个采样器从输入的数据中获取关键数据信息；而池化层则是将卷积层得到的结果进行提炼得到更有用的特征信息，这样做同时还能有效控制过拟合行为所带来的负面影响。因此和其他类型的神经网络模型作对比，卷积神经网络模型具备的特征有以下五点：1.局部感受野；2.权值共享；3.多卷积核；4.池化；5.多卷积层。为了满足入侵检测的时效性和准确性要求，本实施例在卷积神经网络中添加了多层卷积层，由此能够将需要着重分析的特征部分进行重点分析，减少需要训练的参数数量；本实施例通过卷积神经网络模型，利用局部感受野和权值共享可以解决溯源数据量过大导致的入侵检测数据集过于庞大的问题，多卷积核和池化操作可以通过对用户的正常行为进行特征提取以构建特征模型，多卷积层的使用则可以对溯源信息进行深入挖掘。

在进行入侵检测之前，可利用已知行为类别的行为溯源数据构建卷积神经网络的训练数据集，具体地，对各行为的溯源图进行向量化处理，得到对应的邻域矩阵，作为模型的输入，将各行为的类别作为标签信息；训练结束后，该卷积神经网络模型即可用于提取邻域矩阵的特征；为了便于在获得溯源特征后，完整行为判断，本实施例在模型训练的过程中，会同时利用正常行为的特征构建正常规则行为库。

在快速判断阶段，提取到溯源图的溯源特征之后，分别计算该溯源图的溯源特征与正常规则行为库中各特征之间的差异，将差异中的最小值作为该溯源特征与正常规则行为之间的差异m₁，若m₁>Th_H，即差异较大，则可判定待检测行为为入侵行为；若m₁<Th_L，即差异较小，则可判定待检测行为为正常行为；若Th_L≤m₁≤Th_H，需要通过精准判断阶段进行判断；可选地，本实施例中，特征之间的差异用欧式距离进行度量；

其中，Th_H表示高阈值，Th_L表示低阈值，这两个阈值均可在卷积神经网络训练的过程中确定；

在实际应用中，大部分的待检测行为可通过快速判断阶段完成检测。

在精准判断阶段，为了提高准确度，对差异不大的行为进行更全面的二次特征提取，做更精确的匹配判断；具体过程如图6所示，包括：

(1)扩大中心节点及邻域节点的感知范围：会选择更多的中心节点和更多的邻域节点，进行溯源图向量化；

溯源图向量化的过程与快速判断阶段相同，在此将不做赘述；此时所构建的邻域矩阵规模比快速判断阶段构建的邻域矩阵要大，需要通过后续步骤进行矩阵重构，使两个邻域矩阵的规模一致；

(2)计算权重系数：以第一邻域矩阵中的列向量为指标，计算各列向量的权重系数，所计算的权重系数用于度量指标变异性的大小；可选地，本实施例中，具体使用熵权法计算权重系数；

(3)利用权重系数进行滑动平均：由此能够使第二邻域矩阵的列数与第一矩阵的列数相同，同时综合更多邻域节点及其影响，感知的溯源图信息更丰富；

(4)向量筛选：将每一个行向量作为对同一个溯源图进行不同角度感知得到的样本，检测出其中的孤立行向量并剔除；可选地，本实施例使用离群点检测方法IsolationForest检测孤立行向量；

(5)向量采样：对剩余行向量进行聚类，并在每个聚类层上按照比例抽取部分样本，每一类进行等比例抽取，使抽取的行向量的数量与第一邻域矩阵的行向量数量一致；通过聚类和等比例采样相结合，能够在采样时，尽量不影响样本的原始分布，提取溯源图的整体性、有代表性地特征；

(6)矩阵重构：根据所抽取的每个行向量的中心节点的重要度对行向量进行排序，与第一邻域矩阵中的行向量分布规则一致，最终重构获得全新的矩阵。

经由以上步骤，感知的向量更多，考虑的邻域节点的影响更广泛，得到的溯源图信息也更加全面。

将重构之后的矩阵输入至上述已训练好的卷积神经网络模型，即可更为丰富的特征，同样地，分别计算该特征与正常规则行为库中各特征之间的差异，将差异中的最小值作为该溯源特征与正常规则行为之间的差异m₂，若m₂<Th，即差异较小，则可判断待检测行为为正常行为；否则，说明差异较大，可判断待检测行为为异常行为；同样地，阈值Th也可以在模型训练过程中确定。

总地来说，本实施例在提取溯源图的特征时，充分考虑了节点的重要度，提取了溯源重要信息；采用快速判断阶段和精准判断阶段相结合的检测流程，并其通过不同阶段对溯源图中节点重要度及溯源节点间相互依赖关系的感知范围大小，达到时效性和准确性的要求，有效解决了现有方法中所面临的海量溯源数据所带来的性能开销和溯源重要信息提取不足的问题。

实施例2：

一种计算机可读存储介质，包括存储的计算机程序，计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于溯源图的入侵检测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于溯源图的入侵检测方法，其特征在于，包括如下步骤：

(S1)获得待检测行为的溯源图，并计算各节点的重要度；

(S2)获得所述溯源图中重要度最高的前N₁个节点作为中心节点，并从各中心节点的邻域中分别筛选出K₁个节点，构建第一邻域矩阵后，对其进行特征提取，得到第一溯源特征；

(S3)计算所述第一溯源特征与正常规则行为之间的差异m₁，若m₁>Th_H，则判定所述待检测行为为入侵行为，并转入步骤(S6)；若m₁<Th_L，则判定所述待检测行为为正常行为，并转入步骤(S6)；若Th_L≤m₁≤Th_H，则转入步骤(S4)；

(S4)获得所述溯源图中重要度最高的前N₂个节点作为中心节点，并从各中心节点的邻域中分别筛选出前K₂个节点，构建第二邻域矩阵；将所述第二邻域矩阵变换至与所述第一邻域矩阵的规模及中心节点顺序一致后，对其进行特征提取，得到第二溯源特征；N₂>N₁，且K₂>K₁；

(S5)计算所述第二溯源特征与正常规则行为之间的差异m₂，若m₂<Th，则判断所述待检测行为为正常行为；否则，判断所述待检测行为为异常行为；

(S6)检测结束；

2.如权利要求1所述的基于溯源图的入侵检测方法，其特征在于，所述第一邻域矩阵和所述第二邻域矩阵中，每个行向量与一个中心节点相对应，行向量中的每个元素与中心节点的一个邻域节点相对应；

并且，所述步骤(S4)中，将所述第二邻域矩阵变换至与所述第一邻域矩阵的规模一致，包括：

以所述第一邻域矩阵中的列向量作为指标，计算各指标对应的权重系数；权重系数用于衡量指标变异性的大小；

利用所述权重系数对所述第二邻域矩阵中的列向量进行滑动平均，使所述第二邻域矩阵的列数与所述第一邻域矩阵的列数一致。

3.如权利要求2所述的基于溯源图的入侵检测方法，其特征在于，所述步骤(S4)中，将所述第二邻域矩阵变换至与所述第一邻域矩阵的规模一致，还包括：

使所述第二邻域矩阵的列数与所述第一邻域矩阵的列数一致后，对所述第二邻域矩阵中的行向量进行聚类，得到多个聚类层后，在各聚类层中以等比例进行抽样，共抽样得到K₁个行向量，并从所述第二邻域矩阵中剔除其余行向量，使所述第二邻域矩阵的行数与所述第一邻域矩阵的行数一致；

按照中心节点重要度对所述第二邻域矩阵的行向量进行排序，使所述第二邻域矩阵与所述第一邻域矩阵的中心节点顺序一致。

4.如权利要求3所述的基于溯源图的入侵检测方法，其特征在于，使所述第二邻域矩阵的列数与所述第一邻域矩阵的列数一致后，对所述第二邻域矩阵中的行向量进行聚类之前，还包括：检测所述第二邻域矩阵中的孤立行向量，并剔除所检测出的孤立行向量。

5.如权利要求1～4任一项所述的基于溯源图的入侵检测方法，其特征在于，所述步骤(S1)中，获得待检测行为的溯源图，包括：

收集所述待检测行为的溯源数据，并从中滤除程序执行期间生成的临时文件和环境变量，利用剩余的溯源数据构建溯源图。

6.如权利要求1～4任一项所述的基于溯源图的入侵检测方法，其特征在于，对于任意一个节点p，其重要度SI(p)的计算方式为：

SI(p)＝αA(p)+(1-α)H(p)；

7.如权利要求6所述的基于溯源图的入侵检测方法，其特征在于，α＝0.375。

8.如权利要求1～4任一项所述的基于溯源图的入侵检测方法，其特征在于，对邻域矩阵进行特征提取，包括：

其中，所述特征提取模型是含有多层卷积层的卷积神经网络，所述邻域矩阵为第一邻域矩阵或第二邻域矩阵。

9.如权利要求1～4任一项所述的基于溯源图的入侵检测方法，其特征在于，计算溯源特征与正常规则之间的差异，包括：

分别计算溯源特征与正常规则行为库中各特征之间的差异，将差异中的最小值作为所述溯源特征与正常规则行为之间的差异；

其中，所述正常规则行为库由正常行为的溯源特征构成；所述溯源特征为所述第一溯源特征或所述第二溯源特征。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序，所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1～9任一项所述的基于溯源图的入侵检测方法。