CN116910752A

CN116910752A - 一种基于大数据的恶意代码检测方法

Info

Publication number: CN116910752A
Application number: CN202310872806.9A
Authority: CN
Inventors: 苏柯润; 牟以恒; 王进
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-20
Anticipated expiration: 2043-07-17
Also published as: CN116910752B

Abstract

本发明属于深度学习领域，具体涉及一种基于大数据的恶意代码检测方法，包括：获取的代码文本数据，对代码文本进行拆分和处理得到灰度图像，对灰度图像进行数据增强，构建恶意代码检测初步模型并训练的得到最终模型；本发明采用Word2Vec模型的训练方法解决了恶意代码在转化为灰度图时文本特征遭到破坏的难题，并使用带有辨别器的变分自编码器进行数据增强，缓解了了恶意代码检测领域图像提取特征单一，抗混淆能力不足的困难，可以高效、可靠地完成恶意代码检测。

Description

一种基于大数据的恶意代码检测方法

技术领域

本发明属于深度学习领域，具体涉及一种基于大数据的恶意代码检测方法。

背景技术

随着我国互联网科技的飞速发展，由恶意代码所引发的安全问题也越来越多。根据国家互联网应急中心的报告,近几年恶意代码的数量迅速增长,恶意代码带来的威胁也日益严重。恶意代码检测,旨在对计算机或终端中的恶意程序进行识别,以阻止恶意程序产生更大的危害。

传统的恶意代码检测技术分为动态分析技术和静态分析技术。动态分析技术是一种在软件或系统运行时观察、监控和分析其行为的方法，如通过沙箱分析、行为分析、代码追踪等，来检测其恶意活动。这种方法可以捕捉到恶意代码的实际执行行为，但需要在实时运行中进行监测，需要耗费大量的时间和硬件成本。静态分析方法是一种在软件或系统静态状态下对其进行分析的技术，与动态分析技术相对，它需要研究员根据专家知识手工提取恶意代码的特征码，并将其与数据库中已知特征码进行逐一比对。随着恶意代码混淆、加壳等技术的发展，恶意代码繁衍出大量变种。传统检测方法效率较低，并且难以有效地检测与识别恶意代码的变种。因此，如何准确、高效地对恶意代码及其变种进行检测、分类成为了该领域的研究热点。

随着深度学习的发展,有学者提出了一种基于图像处理的恶意代码检测方法。这种方法摆脱了传统方法耗时费力的缺点,通过将恶意代码转换成图像的方式,利用深度学习神经网络对图像进行分类,从而对恶意代码进行检测。目前，恶意代码转换为图像的方法,通常是将其中的操作码或者字节码映射成数字作为图像中的像素值；然而,这种方法生成的图像提取的特征单一，抗混淆能力不足。直接将操作码或者字节码映射成数字作为图像中的像素值会导致其文本特征遭到破坏，因此后续使用神经网络提取不了恶意代码的文本特征，从而导致识别率下降。

发明内容

为解决上述技术问题，本发明提出一种基于大数据的恶意代码检测方法，包括以下步骤：

获取未标注的代码文本数据U，将未标注的代码文本数据U转换为灰度图像输入到训练好的恶意代码分类模型中，得到代码文本数据的分类结果；

所述恶意代码分类模型的训练过程包括：

S1、获取标注的代码文本数据T，采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D；

S2、使用改进的变分自编码器对灰度图像D做数据增强，得到增强后的灰度图像数据D^′；

所述改进的变分自编码器包括：编码器、解码器和分类器；

S3、将增强后的灰度图像数据D^′输入Swin-Transformer模型，得到代码文件的特征向量表示H，使用全连接神经网络对特征向量H进行分类；

S4、根据编码器、解码器和分类器的输出构建模型的损失函数，并采用图像标签优化损失函数，当损失函数最小时完成训练，得到训练好的恶意代码分类模型。

本发明的有益效果：

本发明使用Word2Vec提取代码文本特征，再将其转换为灰度图片，相比传统方法直接将代码二进制文件转换为灰度图像，更好的保留了代码的语义信息；采用带有辨别器的变分编码器对灰度图像进行数据增强，以补全图像中缺失的细节信息；使用Swin-Transformer模型进行分类，融合了不同Stage阶段的特征，深度挖掘不同位置代码之间的关联，提高了代码检测的准确性。

附图说明

图1为本发明实施例一提供一种基于大数据的恶意代码检测方法的流程图；

图2为本发明实施例一提供一种基于大数据的恶意代码检测方法中预训练方法流程图；

图3为本发明实施例一提供一种基于大数据的恶意代码检测方法中灰度图像数据增强模型结构示意图；

图4为本发明实施例一提供一种基于大数据的恶意代码检测方法中分类模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于大数据的恶意代码检测方法，如图1所示，包括：

所述恶意代码分类模型的训练过程，如图2所示，包括：

S2、使用改进的变分自编码器对生成的灰度图像D做数据增强，得到增强后的灰度图像数据D^′；

S3、将增强数据D^′输入Swin-Transformer模型，得到代码文件的特征向量表示H，使用全连接神经网络对特征向量H进行分类；

S4、根据训练集标签优化损失函数，当损失函数最小时完成训练，得到恶意代码分类模型。

在本实施例中，采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D包括以下步骤：

S11、将代码文本T按函数进行切分，转换为多个代码文本序列T^′；

S12、使用所有的代码文本序列训练Word2Vec模型，设置词向量维度为k，得到代码文本数据中每个单词的词编码表示w；

S13、对每个词编码w的所有特征维度求均值，得到每个词的数值表示d；

S14、将所有词的数值表示d进行归一化，映射范围0到255之间，将标准化后的数值乘以255并取整，得到代码文本的初始灰度图像表示G；

S15、使用Lanczos插值算法对所有灰度图像G的尺寸进行归一化，得到灰度图像D。

设置词向量维度为k，包括：

计算代码文本序列T′中每个词的TF-IDF值，设置阈值α，词向量维度k等于TF-IDF值大于阈值α的词的数量；其中，k是在训练word2vec模型的时候的一个参数，表示用多少个分量来表示一个词，即词编码w的维度是k。

其中，α为通过文本长度和信息熵计算出的一个阈值：

其中，H表示文本信息熵，n表示代码文本总数，u表示代码文本长度的平均值，σ表示文本长度的标准差。

使用Lanczos插值算法对所有灰度图像G的尺寸进行归一化，包括：

对于插值点，利用窗口内的像素，根据它们与目标像素的距离，计算插值权重，根据插值权重和采样窗口内的像素值，计算目标像素的像素值，计算公式如下：

W(i,j)＝sinc(x)*sinc(x/a),if|x|<a

V＝∑(W(i,j)*P(i,j))/∑W(i,j)

其中，V表示目标像素的像素值，W(i,j)是插值窗口内像素的权重，i、j分别表示像素点的横坐标和纵坐标，P(i,j)表示插值窗口内像素值，sinc(x)表示插值核函数，x表示相对于目标像素的位置，σ表示x的标准差，a是Lanczos插值的参数，控制插值窗口的大小，通常取2或3。

在本实施例中，如图3所示，使用带有辨别器的变分自编码器对生成的灰度图像D做数据增强，得到增强后的灰度图像数据D^′，包括以下步骤：

S21、构建编码器，其结构包括输入层、卷积层和全连接层，其中输入层用于接受代码灰度图像D；卷积层包含3个尺寸为4×4的卷积核，步长为2，用于捕获局部特征表示；全连接层包含两个全连接神经网络，用于将池化层输出的特征向量转换为潜在空间的均值μ和方差σ²，通过潜在空间的均值μ和方差σ²得到潜在向量；

S22、构建解码器，其结构包括输入层、重塑层、转置卷积层和全连接层，其中输入层用于接收潜在特征；重塑层用于将潜在特征重塑为适合转置卷积层处理的形状；转置卷积层包含3个尺寸为4×4的卷积核，步长为2，对潜在特征进行上采样；全连接层包含一个全连接神经网络，将上采样后的潜在特征的维度映射到与输入编码器时相同后生成灰度图像D₁；

S23、构造辨别器，结构包括输入层、卷积层、全连接层，其中输入层用于接收解码器生成的灰度图像D₁；卷积层包含3个尺寸为4×4的卷积核，步长为2，用于捕获局部特征表示；全连接层对卷积层输出的局部特征表示与编码器捕获的局部特征表示对比，得到解码器生成的灰度图片D₁与输入编码器的原始图像D的相似度；

S24、将灰度图像D输入编码器，从编码器获得的均值μ和方差σ²，使用重参数化技巧进行潜在空间的采样，通过从标准正态分布中采样的随机向量与方差参数相乘，再加上均值参数，获得潜在特征向量z，将潜在特征向量z输入解码器生成灰度图像D₁，将该图像输入辨别器进行解码器和辨别器的对抗学习，在对抗学习中判断灰度图像D₁与灰度图像D的真实度，将真实度最接近的生成图像作为最终的数据增强后的图像D^′。

将图像D^′输入辨别器进行解码器和辨别器的对抗学习，包括：

解码器的目标是最小化辨别器对生成图像的辨别能力，使生成图像更接近真实样本，判别器的目标是最大化其对真实图像和生成图像的辨别能力，通过对抗学习从而提升解码器生成图像的质量。

在本实施例中，如图4所示，将增强数据D′输入Swin-Transformer模型，得到代码文件的特征向量表示H，使用全连接神经网络对特征向量H进行分类，包括以下步骤：

S31、将图像数据D′输入Swin-Transformer模型，得到模型每个Stage输出的特征向量h_i，将h_i经过全连接层将维度映射到768后，进行拼接得到特征向量h，拼接方式如下：

h＝[Linear(h₁)；Linear(h₂)；…；Linear(h_n)]

其中，n表示Swin-Transformer中的Stage数量，Linear表示全连接神经网络；

S32、将特征向量h进行维度的动态融合，得到模型的输出特征向量表示H，融合公式如下：

H＝Softmax(θ)h

其中，θ表示融合权重向量，它是一个可训练的模型参数，通过后续的对损失函数的最小化确定其最优值，θ长度与特征向量h相同，Softmax函数用于将θ中的各个分量输出为概率。

在本实施例中，根据训练集标签优化损失函数，当损失函数最小时完成训练，得到恶意代码分类模型包括以下步骤：

S41、将编码器输入图像与解码器生成图像转换为形状为H×W的向量，其中H、W分别表示图像的长和宽，使用加权二进制交叉熵损失函数计算输入图像与生成图像之间的重构损失；

其中，重构损失计算公式如下：

其中，表示重构损失，N表示样本的总数，x_i第i个输入图像，/>表示第i个解码器生成图像；

S42、根据编码器输出的潜在空间的均值μ和方差σ²计算KL散度损失；其中，KL散度损失计算公式如下：

其中，表示KL散度损失，μ²表示均值的平方，σ²表示方差；

S43：根据辨别器的输出，计算辨别损失；

其中，辨别损失计算公式如下：

其中，表示辨别损失，D()表示辨别器输出，G()表示解码器输出，x解码器生成的图像，z表示潜在特征向量，E()表示求期望值操作；

S44、将重构损失、KL散度损失、判别损失以及模型分类损失的加权组合成总体损失；

其中，总体损失计算公式如下：

其中，表示模型最终的总体损失，/>表示Swin Transformer模型分类的损失，表示重构损失，/>表示KL散度损失，/>表示辨别损失。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大数据的恶意代码检测方法，其特征在于，包括：

所述恶意代码分类模型的训练过程包括：

所述改进的变分自编码器包括：编码器、解码器和分类器；

2.根据权利要求1所述的一种基于大数据的恶意代码检测方法，其特征在于，采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D，包括：

S12、使用所有的代码文本序列T^′训练Word2Vec模型，同时设置词向量维度为k，得到代码文本数据中每个单词的词编码表示w；

3.根据权利要求2所述的一种基于大数据的恶意代码检测方法，其特征在于，设置词向量维度为k，包括：

计算代码文本序列T^′中每个词的TF-IDF值，设置阈值α，词向量维度k等于TF-IDF值大于阈值α的词的数量，其中，α为通过文本长度和信息熵计算出的一个阈值，H表示文本信息熵，n表示代码文本总数，u表示代码文本长度的平均值，σ表示文本长度的标准差。

4.根据权利要求1所述的一种基于大数据的恶意代码检测方法，其特征在于，使用改进的变分自编码器对灰度图像D做数据增强，得到增强后的灰度图像数据D^′，包括：

S24、将灰度图像D输入编码器，从编码器获得的均值μ和方差σ²，使用重参数化技巧进行潜在空间的采样，通过从标准正态分布中采样的随机向量与方差参数相乘，再加上均值参数，获得潜在特征向量z，将潜在特征向量z输入解码器生成灰度图像D₁，将该图像输入辨别器进行解码器和辨别器的对抗学习，在对抗学习中判断灰度图像D₁与灰度图像D的真实度，将真实度最接近的生成图像作为最终的数据增强后的图像D′。

5.根据权利要求4所述的一种基于大数据的恶意代码检测方法，其特征在于，将图像D′输入辨别器进行解码器和辨别器的对抗学习，包括：

解码器的目标是最小化辨别器对生成图像的辨别能力，使生成图像更接近真实样本，判别器的目标是最大化其对真实图像和生成图像的辨别能力。

6.根据权利要求1所述的一种基于大数据的恶意代码检测方法，其特征在于，将增强数据输入Swin-Transformer模型，得到代码文件的特征向量表示H，包括：

S31、将图像数据D′输入Swin-Transformer模型，得到模型每个Stage输出的特征向量h_i，将h_i经过全连接层将维度映射到768后，进行拼接得到特征向量h；

S32、对特征向量h进行维度的动态融合，得到模型的输出特征向量表示H。

7.根据权利要求6所述的一种基于大数据的恶意代码检测方法，其特征在于，对特征向量h进行维度的动态融合，包括：

H＝Softmax(θ)h

其中，θ表示融合权重向量。

8.根据权利要求1所述的一种基于大数据的恶意代码检测方法，其特征在于，所述模型的损失函数，包括：

S41、将编码器的输入图像与解码器的生成图像转换为形状为H×W的向量，其中H、W分别表示图像的长和宽，使用加权二进制交叉熵损失函数计算输入图像与生成图像之间的重构损失；其中，所述重构损失，包括：

S42、根据编码器输出的潜在空间的均值μ和方差σ²计算KL散度损失；其中，所述KL散度损失，包括：

其中，表示KL散度损失，μ²表示均值的平方，σ²表示方差；

S43：根据辨别器的输出，计算辨别损失；其中所述辨别损失，包括：

S44、将重构损失、KL散度损失、判别损失以及模型分类损失的加权组合成总体损失；其中，所述总体损失，包括：