CN115344863A

CN115344863A - 一种基于图神经网络的恶意软件快速检测方法

Info

Publication number: CN115344863A
Application number: CN202210996905.3A
Authority: CN
Inventors: 刘红; 万鑫; 朱宇; 安旭斌; 李暾; 王蓉; 卢星宇; 肖云鹏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-15

Abstract

本发明属于网络与信息安全技术领域，具体涉及一种基于图神经网络的恶意软件快速检测方法，该方法包括：构建恶意软件检测模型，采用不同元结构挖掘软件节点中不同实体中的隐藏信息；捕获节点之间基于高阶内容的相关性，使用注意力机制，对元路径进行语义融合；采用基于元结构相似度匹配的Sim2vec算法从未知软件节点和与之相似的已知软件节点嵌入进行增量聚合，提升检测速度；本发明考虑到不同恶意软件实体的多样性和语义关系复杂性所带来的检测精度不准得问题，采用异质信息网络构建模型，并利用高阶图神经网络挖掘恶意软件的高阶特征信息，再利用相似度算法进行匹配，能够有效的进行恶意软件的快速检测。

Description

一种基于图神经网络的恶意软件快速检测方法

技术领域

本发明属于网络与信息安全技术领域，具体涉及一种基于图神经网络的恶意软件快速检测方法。

背景技术

随着科学技术的不断发展，网络安全越来越受到人们的关注，特别是软件的安全性，其中恶意软件对网络安全、信息安全造成了严重的威胁，如何准确检测恶意软件和如何降低恶意软件产生的危害成为了现在亟需解决的问题。现有的检测可分为两大类型：静态(基于签名)检测和动态(基于行为)检测。在静态检测中，会因为简单的代码混淆技术使得检测失效，而在动态检测会取决于操作系统的版本和设备运行的状态，这样需要较高的检测成本。因此现有技术对软件进行检测过程中虽然恶意软件数据中包含了大量内容特征，但这些检测方法都忽略恶意软件样本节点之间的隐含关系；而大多的异构图嵌入方法仅仅考虑了直接相邻邻居节点的影响，而忽略了高阶邻居的属性，从而对于节点的内容相关性获取不全面，并且在网络深层网络的语义传播中，会存在一个语义的混淆现象；并且在未知的软件进行检测时，因为需要对未知软件进行重新进行异质图嵌入，同时还需要重新训练下游分类器，所以会导致模型对未知软件的检测速度过于缓慢。如何有效地学习异质图中未知软件的表示仍然是很大的困难。

发明内容

针对现有技术中由于恶意软件样本的多样性和样本之间关系的复杂性和恶意样本节点之间基于内容的相关性造成检测的结果准确度低，并且未知的恶意软件的检测速度慢的问题，本发明提出了一种基于图神经网络的恶意软件快速检测方法，该方法包括：构建恶意软件检测模型；获取待检测软件的应用数据，将待检测软件的应用数据输入到恶意软件检测模型中，得到检测结果；

采用恶意软件检测模型对待检测软件的应用数据进行处理的过程包括：

S1、采用不同的元路径和元图对输入的待检测软件的应用程序数据进行特征提取，根据提取的特征构建异质图网络；

S2、采用HG2vec算法对异质图网络中的软件实体节点的高阶领居节点进行消息聚合，得到待检测软件节点的高阶增强嵌入表示；

S3、采用自注意力机制对经过不同元结构的高阶增强嵌入表示进行语义融合，得到融合后节点的最终嵌入向量表示；

S4、采用Sim2vec算法对待测软件节点的最终嵌入向量表示进行分类检测，得到待测软件的检测结果。

优选的，采用不同的元路径和元图对输入的待检测应用数据进行特征提取的过程包括：

S11、获取待检测软件的数据信息，该数据信息包括代码文件、配置文件以及签名信息；提取数据信息中的五类实体作为软件的关键特征，五类实体包括API、权限、组件、签名以及服务；

S12、根据待检测软件的五类实体构建不同的元结构，获取各个元结构的邻接矩阵，对各个邻接矩阵进行点乘，得到异质图网络。

优选的，采用HG2vec算法对隐藏信息进行特征提取的过程包括：

S21、采用单层神经网络构成的映射函数将不同元路径中高阶领居节点的隐藏信息投影到语义空间中，并采用聚合函数将所有投影到语义空间中的邻居信息进行聚合，得到节点嵌入；

S22、采用GAT方法计算节点嵌入中各个节点之间的权重，并对计算出的权重进行Lipschitz归一化处理，得到权重系数；

S23、根据权重系数和节点嵌入对各个节点嵌入中的相邻节点进行聚合，得到聚合后的节点级语义特征；

S24：采用堆叠节点聚合方法对节点进行高阶属性增强，得到基于单个元结构的节点高阶嵌入表示。

优选的，采用自注意力机制对经过不同元结构的高阶特征进行融合的过程包括：

S31、获取每个元结构的学习权重，并构建为权重矩阵；

S32、根据自注意力机制通过权重矩阵计算每个元结构的重要性，；

S33、根据后的每个元结构的重要性对不同元结构的高阶特征进行融合，得到融合后的节点嵌入向量表示。

优选的，采用Sim2vec算法对融合后的已知节点嵌入向量表示进行分类检测的过程包括：

S41、将待检测软件节点的关系矩阵与已知软件节点的关系矩阵连接，得到待测软件节点到已知软件节点的新路径，根据新路径构建一个具有新的邻接关系的增量邻接矩阵；

S42、计算未知节点和现有的已知节点的元结构相似度，提取前N个最相似的已知节点嵌入表示；

S43、根据相似度的权重将对应已知节点进行聚合，得到单节点的节点级别嵌入表示；

S44、根据已有模型的元结构权重对前N个单节点的节点级别嵌入表示进行语义融合，得到未知软件的节点嵌入表示，未知软件的节点嵌入表示为分类结果。

本发明的有益效果：

1.本方法将异质信息网络应用到恶意代码的分析中，为恶意代码分析提供了一种特征构造和语义描述的新方法。并且针对大多异构图设计的方法无法学习复杂的语义表示的问题，提出利用了元路径和元图的嵌入表示方法，提高对恶意软件特征的表达，从而可以更加准确的探索基于内容的节点的交互关系。

2.本方法通过融合多个节点聚合层到注意力网络中，提出了一种高阶增强的节点嵌入新方法，从而可以在异质图嵌入中同时通过基于节点的交互逐层逐步增强初始输入节点特征。特别是通过融合多个节点层，模型可以获取到更高阶的邻居的属性，并且在节点级别的语义传播机制中，为基于注意力的神经网络引入了一种新颖的归一化层。这种归一化层的应用增强了自注意层的连续性，使得在深层图神经网络能够捕捉到每个节点的特征，并通过更深层次的神经网络结构来学习可区分的节点嵌入。

3.本方法构建了一个增量聚合的快速检测模型。当未知软件样本节点第一次输入到模型是，可以将未知软件节点与相似的已知软件样本节点的嵌入表示进行增量聚合，同时微调模型参数，从而提升对未知软件的检测速度。

4、本发明可以应用于各大软件平台或终端的安全防护，有助于数据安全与个人信息的保护，还能挖掘到软件网络中软件节点行为数据和关系结构对检测的影响。也可以使监管部门更准确地掌握恶意软件的爆发，并加以引导和管控。

附图说明

图1是本发明实施例中一种恶意软件的快速检测方法的示意图；

图2是本发明优选实施例中的一种恶意软件的快速检测方法的流程图；

图3是本发明实施例中所采用的元结构示意图；

图4是本发明实施例中采用节点融合示意图；

图5是本发明实施例中高阶节点属性增强示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有的恶意软件检测方法中检测的准确度低以及检测成本高的问题，本发明提出了一种考虑到高阶邻居属性和未知应用检测的基于图注意力网络的恶意软件快速检测模型。首先，利用异质信息网络可以通过保留全面的语义和结构来挖掘发现隐藏信息的优势，采用异质信息网络来构建模型；同时，在模型中加入自注意力机制和多种元结构，来获取恶意软件样本之间的隐含关系；随后堆叠带有注意力机制的多个降噪后的节点层，获取融合高阶语义后的节点嵌入；最后，将未知软件与已知软件的节点嵌入表示进行增量聚合，以提升所提模型的检测速度。基于此方法，不仅能更好的挖掘软件节点间的语义关系，并且还可以提升了未知恶意软件的检测速度。

一种基于图神经网络的恶意软件快速检测方法，该方法包括：构建恶意软件检测模型；获取的待检测软件的应用数据，将待检测软件的应用数据输入到恶意软件检测模型中，得到检测结果；

如图2所示，采用恶意软件检测模型对待检测软件的应用数据进行处理的过程包括：

一种基于图神经网络的恶意软件快速检测方法的具体实施方式，如图1所示，所述恶意软件的快速检测方法需要输入恶意软件的软件特征；再利用不同的元结构提取出恶意软件的同质图特征空间，在这个特征空间中，使用HG2vec算法提取软件节点的高阶特征；使用每条元结构上添加自注意力机制，获取经过元结构融合后的节点嵌入向量表示；将这些向量输入到Sim2vec算法中，得到未知节点的二分类结果。

一种恶意软件的快速检测方法的具体实施方式，包括：恶意软件特征提取；根据所获取的软件节点行为数据提取软件节点的高阶特征属性；采用自注意力机制融合不同元结构的嵌入向量表示；使用Sim2vec算法活得未知节点的增量学习嵌入表示。

在本实施例中，恶意软件特征提取的过程包括：为了将节点网络输入到后续算法中，需要将由各种实体组成的异构图转换为仅包含App节点的同构图，其关键操作是将App实体和其他实体之间的关系合并到App之间的组合连接中。具体来说，给定一个元结构，可以异构图转换为一个独占的同构图，其中每个节点都有特定于元结构的邻居节点。事实上，元路径通过把语义上有语义关系一对的节点连接起来。

在本实施例中为进一步丰富元结构，将元图纳入元路径中，元图可用作扩展模板，以捕获一对节点之间现有任意语义关系的组合。实际上，元结构可作为异构图转换为同构图的语义桥梁，其中所有节点都满足特定的复杂语义。可以说，根据不同的元结构，节点将在不同的图中具有不同的结构关系。在某种程度上，每个图都可以被视为在特定视图下整体的子图——每个子图都满足元结构给出的语义约束。

采用一系列矩阵运算计算图中节点的邻接度，对于给定的元路径MP(A1，...，An)，邻接矩阵可以通过以下公式计算：

其中，

是实体A_j和A_j+1之间的关系矩阵(例如，在元路径PID₁中：A-API-A下的图的邻接矩阵

ψ_ij＞0表示App_i和App_j相互关联，即它们是基于元路径PID₁的邻居。具体而言，该值表示节点i和j之间的元路径实例的计数，即路径的数量。类似地，对于给定的元图MG，它代表几个元路径的组合，即(MP₁，...，MP_m)，节点邻接矩阵为：

其中，⊙代表Hadamard积。例如，元图PID₆可计算为

通过对每个元结构进行图建模，原始App异构图被转换为多个App同构图，每个图都属于一个邻接矩阵给定K元结构，即有K个邻接关系矩阵的集合，即

本实施例提供了一种根据所获取的软件节点行为数据提取软件节点的高阶特征属性的方法，包括：给定一个元路径Φ，首先给定一个映射函数f_Φ，将App节点投影到语义空间中。然后，再通过一个聚合函数g_Φ聚合App节点基于元路径和元图的邻居信息，学习特定的节点嵌入：

Z^Φ＝g_Φ(f_Φ(X))

其中X表示初始特征矩阵，Z^Φ表示语义特定的节点嵌入。为了处理异构图，语义投影函数f_Φ将节点投影到语义空间，如下：

f_Φ(X)＝σ(X·W^Φ+b^Φ)

利用GAT来决定各种节点之间的权重。给定一个通过元路径Φ连接的节点对(i，j)，节点级注意

可以了解节点j对节点i的重要性。基于元路径的节点对(i，j)的重要性可以表述如下：

其中，attnode表示执行节点级注意力的深度神经网络。

计算节点

的

其中

表示节点i的基于元路径的邻居(包括自身)。在获得基于元路径的节点对之间的重要性之后，通过softmax函数对其进行归一化以获得权重系数

其中σ表示激活函数，||表示连接操作，a_Φ是元路径Φ的节点级注意向量。(i，j)的权重系数取决于它们的特征。节点i的基于元路径的嵌入可以通过邻居的投影特征进行聚合，对应的系数如下：

其中

是元路径Φ的节点i的学习嵌入每个节点嵌入都是由其相邻节点聚合而成。由于注意权重

是为单个元路径生成的，因此它是语义特定的，能够提取一种语义信息。由于异构图具有无标度特性，图数据的方差很大。

在本实施例中，将节点级注意扩展到多头部注意，从而使训练过程更加稳定，具体的，为了增强注意力模型，将多个独立的注意力模型串联起来。多头模型因此可以同时关注输入空间的多个方向，并且在实践中通常更强大。标准过程包括首先将输入向量投影到多个低维空间中，然后使用线性函数组合所有注意层的结果。令d_I(或者d_O)为输入(或输出)维，h为注意力头的数量，

和

是h+1维矩阵；将所有的矩阵进行逐行连接，即：

MultiAtt(X)＝W_o(Att(W₁X)||...||Att(W_hX))

在本实施例中，将利用多头注意的利普希茨常数为每个注意头的常数界，从而来分别计算每个注意力头系数。具体的，每个注意力头是Lipschitz连续的，那么多头注意力也是Lipschitz连续的，并且可定义为：

LipschitzNorm对数据进行处理的过程包括：给定一个具有评分函数g的注意力模型M，将M-Lip定义为应用LipschitzNorm的更新注意力模型，具体步骤包括：

步骤1：查询的Frobenius范数；即计算Q的Frobenius范数：

步骤2：根据Q的Frobenius范数计算输入向量的2-范数(欧氏距离)的最大值：v＝max_i||x_i||₂；

步骤3：根据计算得到的数据对函数进行缩放，即将分数函数除以乘积uv。

每个注意力头都被单独处理，因此每个头都采用所有规范和最大值。此外，在图注意力的情况下，范数和最大值是按邻居计算的，即对于每个节点计算其邻居的2-范数的最大值。

给定元路径集Φ₀，Φ₁，...，Φ_P，在将节点特征输入节点级注意力后，得到P组语义特定的节点嵌入，表示为

在本实施例中，HG2vec框架将多个节点级别的聚合堆叠在一起。它构建了一个高阶属性增强体系结构，以分层的方式通过基于内容的节点交互增强输入节点功能。以4阶的HG2vec作为一个具体的例子来说明高阶体系结构是如何工作的。通过堆叠三个NAL，HG2vec⁽⁴⁾能够捕获基于内容的一阶和基于高阶语义结构的邻域之间的交互。

NAL通过嵌入其基于邻域的一阶语义结构来增强每个App的嵌入。因此，如图5所示，第一个NAL使用App2和App6增强App1，并使用App1和App7增强App6。然后，第二个NAL重复此过程，并用App3增强App1。同时，App3通过第一次NAL与App2、App8进行了增强，因此，第二个NAL通过App3间接增强App1。类似地，第三个NAL使用App4增强App1。通过这种方式，HGat2vec⁽³⁾将App1的嵌入与其一阶(App2和App6)、二阶(App3)和三阶(App4)邻居的嵌入结合起来。如图3所示，HGat2vec⁽³⁾模型将目标类型节点的初始特征矩阵作为输入，并将增强节点嵌入表示作为输出。

本实施例中公开了采用自注意力机制融合不同元结构的嵌入向量表示的方法，包括：异构图中的每个节点都包含多种类型的语义信息，特定语义的节点嵌入只能从一个方面反映节点。为了学习更全面的节点嵌入，本发明通过融合多种元结构的方式揭示的多种语义。为了解决异构图中元路径和元图的选择和语义融合的挑战，采用自注意力机制用于自动学习不同元结构的重要性，并将它们融合到特定任务中。以从节点级聚合中学习到的k组语义特定节点嵌入为输入，每个元结构

的学习权重如下所示：

其中，att_sem表示加入自注意力机制的语义级深层神经网络。为了了解每个元路径的重要性，首先通过非线性变换(例如，一层MLP)转换为的语义嵌入，采用语义层次的注意向量q来衡量语义特定嵌入的重要性，即转换后的嵌入的相似性。在平均所有语义特定节点嵌入的重要性时，可以解释为每个元路径的重要性；每个元路径的重要性的公式为：

其中W是权重矩阵，b是偏差向量，q是语义层面的注意力向量。注意，上述所有参数在所有元结构和特定语义嵌入都是共享的。在获得每个元结构的重要性后，通过softmax函数对它们进行归一化。元路径Φ_i的权重表示为

，可通过使用softmax函数对所有元结构的上述重要性进行归一化来获得：

根据上述公式可以知

越高，元路径Φ_i越重要；对于不同的任务，元路径Φ_i可能具有不同的权重。使用学习的权重作为系数，对语义特定嵌入进行融合，以获得最终嵌入Z，其表达式为：

为了更好地理解语义层的聚合过程，如图4所示，最终的嵌入表示由所有特定语义的嵌入聚合而成。根据最终嵌入应用于特定任务，并设计不同的损失函数。对于半监督节点分类，可以最小化地面真实值和预测之间所有标记节点的交叉熵：

其中C是分类器的参数，Y^l是具有标签的节点索引集，Y^l和Z^l是标签节点的标签和嵌入。在标记数据的指导下，可以通过反向传播优化所提出的模型，并学习节点的嵌入情况。

在本实施例中，使用Sim2vec算法活得未知节点的增量学习嵌入表示的过程包括：为了更好的对训练过程中未包含的未知App进行嵌入表示，采用了Sim2vec算法，利用从HG2vec学习到的样本内App嵌入表示，快速表示那些样本外App的一种增量学习机制。为了清楚起见，使用App_out表示HIN中的任何样本外节点。

准确寻找HIN中未知节点和现有节点之间的潜在联系，在快速嵌入表示的恶意软件检测方面起着关键作用。为此，必须计算和积累App_out和现有节点之间的相似性。给定元路径下节点v_i和节点v_j之间的节点相似性定义为：

其中，

表示两个连接节点之间的元结构数量，因此更高的相似性表示这两个节点之间的关联更紧密。因此，元图MG下节点v_i和节点v_j之间的节点相似性为：

主要任务是捕获增量关系并构造图信息。在给定的元结构中，只更新邻接矩阵，该矩阵量化样本外节点和样本内现有App节点之间的连接。为了降低训练成本，以渐进的方式进行。将新App节点的关系矩阵与现有App节点的关系矩阵连接起来，形成节点邻接

的增量段--从样本内App节点到新节点的路径。以PID1为例；首先获得所有新节点的关系矩阵A_out，然后通过

生成矩阵。这种设计确保了增量邻接矩阵

可以独立于已建立的邻接矩阵

发挥作用，同时它们一起作为所有节点之间连通性的整体抽象。

使用Sim2vec在校准现有节点表示的同时，也能够对新节点进行嵌入。与HG2vec类似，该模型由两个步骤组成：节点级别聚合和与语义级别融合。给定语义元结构M_k，将

代入相似函数公式中，以计算Sim^Mk(v_j，v_out)，即新节点v_out和任何示例应用程序节点v_j之间的相似性。对所有样本外节点和样本内应用程序节点重复此操作将形成一个相似度矩阵X^Mk，其中较大的值本质上表示两个节点之间更接近。因此，可以获得所有元结构{X^M1，...，X^Mk}的相似矩阵集合。

为了更好地在数值向量中表示新节点，应该完全聚合与新节点非常接近的现有节点的现有嵌入结果。为此，基于相似度矩阵

在样本App节点

中选择top-σ，并聚合它们的向量以嵌入新节点：

其中

表示节点

在元结构M_k的权重，

表示表示样本外节点的增量嵌入信息。权重可通过以下方式计算：

通过对所有元结构下的K个单独表示进行内部聚合来重新校准嵌入：

其中，

可以从注意力公式中获得。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。