CN111538989B

CN111538989B - 基于图卷积网络和主题模型的恶意代码同源性分析方法

Info

Publication number: CN111538989B
Application number: CN202010323546.6A
Authority: CN
Inventors: 张磊; 刘亮; 谭杨; 刘嘉勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-08-26
Anticipated expiration: 2040-04-22
Also published as: CN111538989A

Abstract

本发明提出基于图卷积网络和主题模型的恶意代码同源性分析方法。本方法从恶意代码中提取出两种静态特征形成混合特征，使用注意力机制和主题模型对重点特征进行加权处理，然后使用归一化分类模型对其进行分类。主要包括以下几个步骤：（1）利用IDA提取恶意代码的函数调用图和函数指令分布特征；（2）使用改进的图卷积网络对函数调用图进行节点嵌入；（3）使用注意力机制对节点嵌入进行图嵌入操作；（4）使用半监督主题模型对函数指令分布进行降维和变换；（4）使用神经张量网络对混合特征进行结合；（5）利用归一化分类模型对恶意软件进行家族分类。

Description

基于图卷积网络和主题模型的恶意代码同源性分析方法

技术领域

本发明涉及的技术领域为深度学习与信息安全领域，具体涉及一种基于图卷积网络和主题模型的恶意代码同源性分析方法。通过该方法对攻击者或组织进行溯源，利用准确的溯源手段震慑攻击者以降低恶意代码造成的危害。

背景技术

在近年来，全球网络安全攻防博弈态势日趋严峻，各种利用恶意代码谋取政治、经济等利益的攻击事件层出不穷。攻击者对恶意代码的生产和利用方式，逐渐呈现出团队化、组织化的倾向，导致恶意代码的数量一直保持快速的增长趋势。当前不同家族的恶意代码存在技术公用问题，仅仅依靠对复用代码和关键技术的分析来判定恶意代码的同源性存在一定的不足。因此研究一种涵盖高层次和细粒度特征的同源性分析方法对降低恶意代码的危害具有重要的现实意义。

目前恶意软件同源性分析技术包括动态分析和静态分析两大类。静态分析方法分析是在不运行恶意代码的前提下提取恶意代码的段结构，字符串和代码等特征。动态分析方法依靠捕获程序的行为作为分析基础。静态分析和动态分析技术目前各有优缺点，相比动态分析技术，静态分析技术具有分析速度快，不受反沙箱技术影响的特点。静态分析与动态分析主要区别在于特征的提取手段不同，但是在相似性与同源性判定方面有极大的相通之处。因此，本发明通过恶意代码的函数调用图这一可以体现程序设计特点的高层次特征出发，结合恶意代码的函数指令分布这一细粒度特征，形成混合特征。同时，近些年来神经网络和深度学习也逐渐用于恶意代码的同源性分析。从而提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法，对恶意软件进行家族分类。

发明内容

本发明提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法。本方法可以通过IDA提取出函数调用图和函数指令分布的邻接矩阵作为特征，使用主题模型和注意力机制提取对分类贡献较大的特征，应用神经张量网络（NTN）对多特征进行结合，然后使用改进的图卷积网络对其进行家族同源性分析。具体方案如下：提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法，所述方法包括：

A. 利用IDA提取恶意代码的函数调用图和函数指令分布特征，分别形成对应的特征矩阵。

B. 首先对恶意代码函数进行人工分析和频率统计，在利用半监督主题模型对函数的指令分布进行的变换和降维，得到恶意代码主题分布。

C. 利用注意力机制对函数调用图的节点嵌入进行图嵌入表达，从而有效提高分类的精度。

D. 由于函数调用图是无权有向图，因此利用图卷积网络进行处理时，需要对图卷积的归一化方法进行修改，使得模型在运算过程中可以保留图的方向信息，并且使用批处理机制加速了节点嵌入的计算过程。

E.. 通过神经张量网络（NTN）对混合特征进行结合，将得到的特征向量输入到全连接层和Softmax层进行恶意软件的家族分类。

附图说明

为了进一步阐述本发明的实现目标、实现方法和特性，将结合附图进行详细描述。其中:

图1是一个展示本发明提出方法的具体实现的总体流程图。

图2是一个说明本发明的系统框架图。

图3是一个说明本发明如何通过节点嵌入转为图嵌入的示意图。

图4是一个说明本发明对多特征进行交互过程的示意图。

具体实施方式

本发明是基于图卷积网路和主题模型的恶意代码同源性分析，主要针对Windows下的二进制PE恶意代码。首先提取恶意软件的函数调用图和函数指令分布特征，然后经过主题模型和注意力机制处理后的特征输入到神经张量网络（NTN）得到结合后的混合特征，最后通过图卷积网络进行家族分类。为了进一步阐述本发明的具体实施方式，将结合附图加以详细的说明。本发明提出一种基于图卷积网络和主题模型的恶意代码同源性分析方法，可以有效的对已有恶意代码进行家族划分，并判别新增恶意代码的家族类别。

提取恶意代码的函数调用图和函数指令分布：通过IDA，将样本的函数调用图和函数指令分布的频率分别存储为对应的邻接矩阵。

提取函数调用图的有效特征：首先计算函数调用图的节点嵌入，为了在计算过程中保留图的方向信息，对图卷积网络的归一化方法进行修改，同时使用批处理机制加速计算过程。此时，得到经过处理的函数调用图的节点嵌入。但是，当前的节点嵌入没有体现重要特征，因此利用注意力机制为重要程度不同的节点赋予不同的权值，最后得到函数调用图的图嵌入。

提取函数指令分布的有效特征：由于恶意代码样本的完整指令分布是227维的向量，因此我们需要对其进行降维和变换，避免维度灾难的发生。同时也需要凸显重要特征，我们使用半监督主题模型得到函数的主题分布，并利用函数-主题关联和主题-指令关联对主题分布的计算过程进行调整。

归一化分类：将上诉的函数调用图的图嵌入和函数指令分布的主题分布特征，共同作为恶意代码的特征向量。由于是混合特征，因此使用神经张量网络（NTN）对特征进行特征交互。最后，通过全连接层和Softmax层对其进行分类。然后，通过交叉熵损失函数计算损失值，对模型的参数进行优化，使得家族类别的预测结果不断趋近于真实值。

Claims

1.基于图卷积网络和主题模型的恶意代码同源性分析方法，其特征在于包括以下步骤：

步骤一：提取恶意代码的函数调用图和函数指令分布特征，形成对应的邻接矩阵；

步骤二：改进图卷积的归一化算法，用于提取函数调用图邻接矩阵的节点嵌入，利用注意力机制对函数调用图的节点嵌入进行图嵌入表达；

步骤三：利用半监督主题模型对函数的指令分布进行的变换和降维；

步骤四：利用神经张量网络对函数调用图和函数指令分布进行特征混合，使用全连接层和Softmax层对其进行家族分类。

2.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法，其特征在于步骤一中特征的提取，使用了Python调用IDA对样本进行遍历，提取样本的函数调用图和函数指令分布形成对应的邻接矩阵。

3.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法，其特征在于步骤二中对图卷积进行改进，使图卷积网络适用于有向图；同时，引入图的批处理机制修改图卷积网络的分层传播模型，加快节点嵌入的计算过程；但是分类需要图嵌入表达，因此利用注意力机制将节点嵌入进行加权求和得到图嵌入，同时提高重要节点的权重值。

4.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法，其特征在于步骤三中利用半监督主题模型对函数的指令分布进行的变换和降维，使得不同家族的恶意代码具有更高的区分度。

5.根据权利要求1所述的基于图卷积网络和主题模型的恶意代码同源性分析方法，其特征在于步骤四中利用神经张量网络(NTN)对多特征进行结合，形成混合特征，然后利用全连接层和Softmax层对其进行分类，同时通过交叉熵损失函数计算损失值，对模型的参数进行优化，使得类别预测结果不断趋近于真实值。