CN107392019A

CN107392019A - 一种恶意代码家族的训练和检测方法及装置

Info

Publication number: CN107392019A
Application number: CN201710543651.9A
Authority: CN
Inventors: 曲武
Original assignee: Beijing Jinqing Yun Hua Technology Co Ltd
Current assignee: Beijing Jinqing Yun Hua Technology Co Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-11-24

Abstract

本发明实施例公开了一种恶意代码家族的训练和检测方法，该方法包括：将恶意代码映射为图像，并提取该图像的图像特征；根据该图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；建立卷积神经元网络模型；利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型，并将经过训练的卷积神经元网络模型作为检测模型；利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。本发明实施例公开了一种恶意代码家族的训练和检测装置。

Description

一种恶意代码家族的训练和检测方法及装置

技术领域

本发明实施例涉及计算机安全技术领域和深度学习领域，尤指一种恶意代码家族的训练和检测方法及装置。

背景技术

随着恶意代码成为信息安全的重要威胁，恶意代码检测技术成为信息安全领域的重要研究方向。恶意代码的检测方法主要有基于特征码的检测方法和基于行为的检测方法。

基于特征码的检测方法，通过检测文件是否拥有已知恶意代码的特征码(如一段特殊代码或字符串)来判断其是否为恶意代码。它的优点是快速、准确率高、误报率低，但是难以检测恶意代码变种和未知的恶意代码。而且，该方法需要安全专家对大量恶意代码进行人工特征码提取，更新特征库。

基于行为的检测方法，通过监视程序的行为与已知的恶意行为模式进行匹配，以此判断目标文件是否具备恶意行为特征。它的优点可以检测变种和未知的恶意代码，缺点是时间开销大、误报率较高，且不同类型的恶意代码需要使用不同虚拟环境(Windows、Linux和Android)支持。

发明内容

为了解决上述技术问题，本发明实施例提供了一种恶意代码家族的训练和检测方法及装置，能够解决特征检测的人工提取困难以及行为检测的时间开销大且误报高等问题，对于恶意代码变种和加壳具有优异的检测能力，具有检测速度快、准确率高、误报率低、可以跨平台检测等诸多特点。

为了达到本发明实施例目的，本发明实施例提供了一种恶意代码家族的训练和检测方法，该方法包括：

将恶意代码映射为图像，并提取该图像的图像特征；

根据该图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；

建立卷积神经元网络模型；

利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型，并将经过训练的卷积神经元网络模型作为检测模型；

利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。

可选地，将恶意代码映射为图像，并提取图像的图像特征包括：

选取恶意代码库作为待处理的恶意代码集合；

对待处理的恶意代码集合进行分布式处理，以过滤掉不符合条件的恶意代码样本；

利用预设的映射算法将经过处理的恶意代码库中的恶意代码映射为图像；

采用预设的图像特征提取算法从映射获得的图像中提取所述恶意代码对应的图像特征，并将所提取的图像特征构造为特征集合。

可选地，根据图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注包括：

采用预设的聚类算法对所述特征集合进行分布式聚类；

使用杀毒软件对经过分布式聚类后的恶意代码图像进行恶意代码家族标注。

可选地，

恶意代码库包括：Windows系统的PE恶意文件、Linux系统的ELF恶意文件和/或安卓Android系统的APK文件；

预设的映射算法包括：B2G映射算法；

预设的图像特征提取算法包括：GIST特征算法、SIFT特征算法、GLCM特征算法、ColorHis特征算法、Gabor特征算法、Census特征算法和LBP特征算法；

预设的聚类算法包括：分布式聚类算法和通用单机聚类算法；

杀毒软件包括：微软MSE杀毒软件。

可选地，建立卷积神经元网络模型包括：

构造输入层、输出层以及以下任意一个或多个层：卷积层、非线性层、池化层和全连接层；

设置各层参数和训练权重。

可选地，在利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型之前，该方法还包括：

采用预设的分段算法将经过标注的恶意代码图像集合中的恶意代码文件根据不同的文件类型分别分为多个段section；

利用预设的映射算法将恶意代码文件以及恶意代码文件中的各个section映射为灰度图像。

可选地，利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型包括：

71、将映射获得的灰度图像作为训练卷积神经元网络模型的输入；

72、执行灰度图像在输入层和所述输出层之间各层的传播，并计算每种恶意代码家族对应的输出概率；

73、根据输出概率计算全部种类的恶意代码家族在输出层的误差总和，以获得输出层的总误差；

74、采用预设的梯度算法计算总误差相对于所有权重的梯度，并用梯度下降法更新各层的权重和参数值；

75、判断当前迭代次数是否达到预设的迭代次数N，当判断结果为是时，结束训练过程；当判断结果为否时，返回步骤71；其中，N为正整数。

可选地，预设的分段算法包括：B2S分段算法；

预设的梯度算法包括：反向传播算法。

可选地，利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测包括：

将待检测的恶意代码样本以及所述恶意代码样本的变种的样本文件根据不同的文件类型分别分为多个段section，对多个section进行过滤；并将样本文件以及经过过滤的section映射为第一灰度图像；

将第一灰度图像的集合输入检测模型，并获取检测结果；

将检测结果与预设的检测阈值相比较，当检测结果低于预设的检测阈值时，判定待检测的恶意代码样本为白样本；当检测结果高于或等于预设的检测阈值时，判定待检测的恶意代码样本为恶意样本；

确定每个恶意样本所对应的恶意代码家族，并统计每个恶意代码家族中对应的判定出的恶意样本的数量，将数量最多的恶意代码家族确定为恶意样本家族。

为了达到本发明实施例目的，本发明实施例还提供了一种恶意代码家族的训练和检测装置，该装置包括：处理模块、聚类模块、建模模块、训练模块和检测模块；

处理模块，用于将恶意代码映射为图像，并提取图像的图像特征；

聚类模块，用于根据图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；

建模模块，用于建立卷积神经元网络模型；

训练模块，用于利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型，并将经过训练的卷积神经元网络模型作为检测模型；

检测模块，用于利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。

可选地，处理模块将恶意代码映射为图像，并提取图像的图像特征包括：

选取恶意代码库作为待处理的恶意代码集合；

采用预设的图像特征提取算法从映射获得的图像中提取恶意代码对应的图像特征，并将所提取的图像特征构造为特征集合。

可选地，聚类模块根据图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注包括：

采用预设的聚类算法对特征集合进行分布式聚类；

可选地，

预设的映射算法包括：B2G映射算法；

杀毒软件包括：微软MSE杀毒软件。

可选地，建模模块建立卷积神经元网络模型包括：

设置各层参数和训练权重。

可选地，该装置还包括预处理模块；在训练模块利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型之前，预处理模块还用于：

可选地，训练模块利用已经进行所述恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型包括：

72、执行灰度图像在输入层和输出层之间各层的传播，并计算每种恶意代码家族对应的输出概率；

可选地，预设的分段算法包括：B2S分段算法；

预设的梯度算法包括：反向传播算法。

可选地，检测模块利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测包括：

将第一灰度图像的集合输入检测模型，并获取检测结果；

为了达到本发明实施例目的，本发明实施例还提供了一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有恶意代码家族的训练和检测程序，该恶意代码家族的训练和检测程序被处理器执行时实现上述的恶意代码家族的训练和检测方法的步骤。

本发明实施例包括：将恶意代码映射为图像，并提取该图像的图像特征；根据该图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；建立卷积神经元网络模型；利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型，并将经过训练的卷积神经元网络模型作为检测模型；利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。通过本发明实施例方案，能够解决特征检测的人工提取困难以及行为检测的时间开销大且误报高等问题，对于恶意代码变种和加壳具有优异的检测能力，具有检测速度快、准确率高、误报率低、可以跨平台检测等诸多特点。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明实施例的技术方案，并不构成对本发明实施例技术方案的限制。

图1为本发明实施例的恶意代码家族的训练和检测方法流程图；

图2为本发明实施例的恶意代码家族的训练和检测方法示意图；

图3为本发明实施例的B2G映射算法原理示意图；

图4为本发明实施例的震网(Stuxnet)恶意代码家族灰度图像示意图；

图5为本发明实施例的CNN网络结构示意图；

图6为本发明实施例的B2S分段算法原理示意图；

图7为本发明实施例的Windows系统PE文件结构示意图；

图8为本发明实施例的Android系统DEX文件结构示意图；

图9为本发明实施例的Linux系统ELF文件结构示意图；

图10为本发明实施例的恶意代码Locker家族样本的分段图像示意图；

图11为本发明实施例的恶意代码家族的训练和检测装置组成框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例涉及一种利用卷积神经元网络CNN的恶意代码训练和检测方法，本方法的核心是基于恶意代码通过变种绕过杀毒软件的原理，变种过程中保留了绝大部分功能段。利用机器学习中的无监督学习(聚类)方法对恶意代码进行家族标注，将恶意代码库进行家族分类。然后，利用深度学习中的卷积神经元网络对恶意代码的灰度图像进行学习，进而通过分段学习和分段识别获得恶意代码及其变种的检测能力，同时获得了恶意代码家族的检测能力。本发明解决了传统杀毒软件基于人工提取规则困难、容易被恶意代码变种绕过、恶意代码家族标注不规范、不统一等问题，且具有更高效、更准确的检测能力。而且，本发明实施例能够实现对Windows系统、Linux系统和Android系统中的恶意代码进行检测，具备较强的样本类型覆盖能力。其中，恶意代码家族特指Windows环境下的PE恶意文件、Android环境下的APK恶意文件和Linux环境下的ELF恶意文件。

为了达到本发明实施例目的，本发明实施例提供了一种恶意代码家族的训练和检测方法，如图1、图2所示，该方法可以包括步骤S101-S104：

S101、将恶意代码映射为图像，并提取该图像的图像特征。

在本发明实施例中，可以利用映射算法，对恶意代码库进行处理，将库中的恶意代码映射为文件灰度图像，并提取其灰度图像特征，具体方案如下所述。

可选地，将恶意代码映射为图像，并提取图像的图像特征可以包括S201-S204：

S201、选取恶意代码库作为待处理的恶意代码集合。

在本发明实施例中，该恶意代码库可以包含业内大部分的恶意代码样本。可选地，恶意代码库可以包括：Windows系统的PE恶意文件、Linux系统的ELF恶意文件和/或安卓Android系统的APK文件。

S202、对待处理的恶意代码集合进行分布式处理，以过滤掉不符合条件的恶意代码样本。

在本发明实施例中，该不符合条件的恶意代码样本可以包括：不完整的样本、误报样本以及流氓软件等。

S203、利用预设的映射算法将经过处理的恶意代码库中的恶意代码映射为图像。

可选地，该预设的映射算法可以包括：B2G映射算法。

在本发明实施例中，可以利用B2G映射算法，将过滤后的恶意代码采用分布式方案映射为灰度图像集合。

在本发明实施例中，B2G映射算法示意图可以参考图3所示，图3展示了映射恶意代码到纹理图像的可视化流程。图3示意图中，将恶意代码采用B2G映射算法映射为灰度图像集合的过程可以包括如下步骤：

1、对于给定的恶意代码可执行文件，即二进制文件，读取8位为一个无符号的整形(范围为0～255)，固定的行宽为一个向量，整个文件最后生成一个二维数组；

2、数组中每个元素的范围都是取值为[0,255](0表示黑色，255表示白色)，将此数组可视化为一个灰度图像，图像的宽度和高度取决于文件大小，例如宽度选择PE文件段宽度(512字节)的一半为256个字节，高度为文件大小与256的比值；

3、映射后的灰度图像将被存储为无压缩的PNG(Portable Network GraphicFormat图像文件存储格式)图像，对于恶意代码可视化后的灰度图像，不同的纹理结构往往代表不同类型的数据信息。

S204、采用预设的图像特征提取算法从映射获得的图像中提取所述恶意代码对应的图像特征，并将所提取的图像特征构造为特征集合。

在本发明实施例中，通过步骤S203映射出恶意代码的灰度图像以后，便可以进一步采用预设的图像特征提取算法从映射获得的图像中提取恶意代码对应的图像特征。

在本发明实施例中，对于给定灰度图像，进行图像纹理特征提取过程，该过程可使用的算法较多。可选地，预设的图像特征提取算法可以包括但不限于：GIST特征算法、SIFT特征算法、GLCM特征算法、ColorHis特征算法、Gabor特征算法、Census特征算法和LBP特征算法。

在本发明实施例中，下面首先对上述各种特征进行简单介绍：

(1)GIST特征，该特征模拟人的视觉提取图像中粗略但简明扼要的结构信息，本质上是通过一组多方向、多尺度的Gabor滤波器组对场景图像滤波后得到的轮廓信息；

(2)SIFT特征，尺度不变特征变换，该特征对平移、旋转、尺度缩放、亮度变化、遮挡和噪声等具有好的不变性，对观察视角的变化、仿射变换也具有一定的稳定性，属于局部结构特征；

(3)GLCM特征，灰度共生矩阵特征，该特征首先对于一幅图像定义一个方向和一个以像素为单位的步长，灰度共生矩阵T(n×n)，则定义M(i,j)为灰度级为i和j的像素同时出现在一个点和沿所定义的方向跨度步长的点上的频率。其中n是灰度级划分数目；

(4)ColorHis特征，颜色直方图特征，该特征描述的是不同颜色特征在整幅图像中所占的比例，反映了图像颜色的统计分布，属于全局特征；

(5)Census特征，变换直方图主成份分析特征，该特征是一种基于局部图像像素灰度值比较而提出的纹理特征。其核心思想是将二值矩阵看作一个二值纹理模式(纹理基元)，通过比较一个像素点和它周围的八邻域像素点的灰度值来获得变换值；

(6)Gabor特征，该特征是对原始影像通过二维Gabor函数计算得到的特征，适用于检测和描述图像纹理特征；多尺度多方向Gabor滤波器组是在Gabor滤波器基础上通过尺度和旋转变换扩展而成的多通道滤波方案；

(7)LBP特征，局部二进制模式特征，该特征是一种理论简单、计算高效的非参数局部纹理特征描述子。由于其具有较高的特征鉴别力和较低的计算复杂度，在图像分析、计算机视觉和模式识别领域得到了广泛的应用。

在本发明实施例中，下面以GIST方法为例说明纹理特征提取过程，具体描述如下：

步骤1，创建Gabor滤波器组；

步骤2，多个Gabor滤波在不同尺度，多个方向上进行卷积，得到相同数量的特征映射大小和输入图像一致；

步骤3，对图像进行预滤波、缩放局部对比度；

步骤4，把每个特征映射分成4×4或8×8的区域，计算每个区域内的均值；

步骤5，计算所有Gabor滤波器产生结果特征映射的均值，并把均值拼接在一起得到最后的GIST特征。

S102、根据该图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注。

可选地，根据图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注可以包括S301-S302：

S301、采用预设的聚类算法对所述特征集合进行分布式聚类。

可选地，预设的聚类算法包括：分布式聚类算法和通用单机聚类算法。

在本发明实施例中，可以首先利用恶意代码灰度图像特征集合的子集，执行预聚类过程，选择出最优的聚类算法。由于恶意代码灰度图像特征集合规模大、计算复杂度高，在聚类算法的选择上以分布式聚类算法优先，例如，基于spark环境的k-means算法、LDA算法、二分k-means算法、GMM算法，基于hadoop环境的spectral-clustering算法、hierarchical-clustering算法、k-means算法、fuzzy-k-means算法等。另外，也可以选择通用单机聚类算法，例如，基于scikit-learn机器学习库的层次聚类算法、密度聚类算法、K-means聚类算法等。本发明实施例的聚类方法包括但不局限于以上方法。

在本发明实施例中，利用上述聚类算法中的最优算法对恶意代码灰度图像特征集合进行聚类，聚类结果为聚类簇。

S302、使用杀毒软件对经过分布式聚类后的恶意代码图像进行恶意代码家族标注，并将标注完成的恶意代码家族作为训练恶意样本集合，用于CNN模型训练。

在本发明实施例中，通过步骤S301获取恶意代码灰度图像特征的聚类簇以后，需要进一步将图像特征聚类簇映射为恶意文件标识(例如文件名、文件Hash等)聚类簇，即对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注。具体地，可以使用杀毒软件对聚类簇进行恶意代码家族标注。

可选地，杀毒软件可以包括但不限于：微软MSE杀毒软件。

在本发明实施例中，可以利用微软MSE杀毒软件或其他杀毒软件对于聚类簇采用投票算法进行家族命名，即恶意代码家族标注，每一个聚类簇为一个家族。如图4所示，震网(Stuxnet)恶意代码家族聚类簇部分样本示意图，从震网(Stuxnet)恶意代码灰度图像能够看出，同家族的恶意代码在映射后的灰度图像上是相似的，变种仅使得局部纹理发生变化。

在本发明实施例中，所述训练恶意样本集合包括多个经过聚类算法和杀毒软件标注过的恶意代码家族，每个恶意代码家族包含多个图像特征相近的同家族样本。

S103、建立卷积神经元网络模型。

可选地，建立卷积神经元网络模型可以包括：构造输入层、输出层以及以下任意一个或多个层：卷积层、非线性层、池化层和全连接层；并设置各层参数和训练权重。

在本发明实施例中，卷积神经元网络CNN的架构示意图，如图5所示，表示1个卷积层、1个池化层和1个全连接层的CNN架构。本发明实施例的卷积神经元网络CNN的模型架构包括但不局限于图5所描述的架构。

在本发明实施例中，CNN架构可以包含以下层结构：

(1)图像输入层，提供图像输入的单元。本质上来讲，每个图像都可以表示为像素值组成的矩阵。常见的图像包括3通道的RGB图像和单通道的灰度图像。RGB图像可以理解为三个2d矩阵(每种颜色对应一个)叠在一起，每个矩阵的值都在0到255之间。单通道的灰度图像可以理解为一个2d矩阵，矩阵中的每个像素值还是0到255之间。其中，0表示黑，255表示白。图像矩阵与输入图像的分辨率相对应，M×M像素点，默认M＝32。M×M与输入图像的分辨率相对应，M为正整数，M越大，卷积神经元网络CNN的训练时间复杂度越高，所需要的计算资源越大；

(2)卷积层，卷积层是因为“卷积”操作而得名的。卷积的根本目的是从输入图像中提取特征。卷积用一个N×N数据矩阵学习图像特征，保留像素之间的空间关系。在卷积层，滤波器(也可以称为“核”或“特征探测器”)的个数设定为64，滤波器矩阵的大小为11×11。对于每个滤波器，卷积层的输出可以是(32-11+1)*(32-11+1)＝484个神经元；

(3)非线性层，非线性层是一种被称为ReLU的附加操作层，处于每个卷积操作之后。ReLU的全称是纠正线性单元(Rectified Linear Unit)，是一种非线性操作，ReLU是以像素为单位生效的，其将所有负值像素替换为0；

(4)池化层，空间池化(也叫亚采样或下采样)的目的是降低每个特征映射的维度，但是保留最重要的信息。空间池化可以有很多种形式：最大(Max)、平均(Average)、求和(Sum)等。对于图5的示例，选用最大池化层，定义空间上的邻域(2×2的窗口)并且从非线性特征映射层中取出窗里最大的元素。因此，池化层的输出被约减到11*11*64＝7744个神经元；

(5)全连接层，使用了softmax激励函数作为输出层的多层感知机(Multi-LayerPerceptron)，其他很多分类器如支持向量机也使用了softmax。“全连接”表示上一层的每一个神经元，都和下一层的每一个神经元是相互连接的。卷积层和池化层的输出代表了输入图像的高级特征，全连接层的目的就是用这些特征进行分类，类别基于训练集。比如图5所示的恶意代码家族灰度图像分类任务，可以包括12种可能的类别。除了分类以外，加入全连接层也是学习特征之间非线性组合的有效办法。全连接层的输出概率之和为1，这是由激励函数Softmax保证的。Softmax函数把任意实值的向量转变成元素取之0～1且和为1的向量。对于图5的示例，全连接层具有4096个神经元，其中每个神经元都分别与输出层的每个神经元相连。

(6)输出层，提供图像检测结果的单元，即图像的分类类别概率。比如图5所示的恶意代码家族灰度图像分类任务，可以包括12种可能的类别，对应12个神经元。其中，这12个神经元分别与全连接层的4096个神经元相连。

在本发明实施例中，对于图9架构的卷积神经元网络，可学习的参数个数P为39702604，计算过程描述如下：P＝1024*(11*11*64)+64+(11*11*64)*4096+4096+4096*12+12＝39702604；其中，式中的(11*11*64)+64，(11*11*64)为每个特征映射的共享权重，64为共享偏置项的总数。

在本发明实施例中，基于上述各层的介绍，建立卷积神经元网络模型可以包括以下流程：

S1.构造输入层，设置输入层参数。输入图像是32*32*1，1是它的深度，表示单通道。如果输入图像为RGB图像，该值为3。

S2.构造卷积层，设置卷积层参数。从输入图像中提取特征，使用一个N×N数据矩阵学习图像特征，同时保留像素之间的空间关系。

S3.构造非线性层，设置非线性层参数。每个卷积操作之后，都有一个纠正线性单元(Rectified Linear Unit，ReLU)的附加层，该层进行一种非线性操作，以像素值为单位，将所有负值像素值替换为0。

S4.构造池化层，设置池化层参数。在保留最重要的信息前提下，降低每个特征映射的维度。

S5.构造全连接层，设置全连接层参数。使用Softmax激励函数作为输出层的多层感知机(Multi-Layer Perceptron，MLP)，将上一层的每一个神经元和下一层的每一个神经元相互连接。全连接层的输出概率之和为1，这是由激励函数Softmax保证的。Softmax函数把任意实值的向量转变成元素取值0-1且和为1的向量。

S6.构造输出层，设置输出层参数。输出结果为待检测样本为各个恶意代码家族的概率。

S104、利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型，并将经过训练的卷积神经元网络模型作为检测模型。

在本发明实施例中，在对卷积神经元网络模型进行训练之前，需要对标注完成的恶意代码家族进行预处理，获得恶意代码各家族样本及其分段的灰度图像集合，具体方案如下所述。

可选地，在利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型之前，该方法还可以包括S401-S402：

S401、采用预设的分段算法将经过标注的恶意代码图像集合中的恶意代码文件根据不同的文件类型分别分为多个段section。

可选地，该预设的分段算法可以包括：B2S分段算法。

在本发明实施例中，对于B2S分段算法，可以结合图6进行解释，具体可以包括以下步骤：

步骤11：对于给定的二进制文件，判断该文件的类型；

步骤12：如果该文件为Windows环境的PE文件，则基于PE文件结构，使用PE文件分段算法进行处理；如果文件为Android环境的APK文件，则解压APK文件，获取DEX文件，然后基于DEX文件结构，使用DEX文件分段算法进行处理；如果文件为Linux环境的ELF文件，则基于ELF文件结构使用ELF文件分段算法进行处理；

步骤13：对各个分段根据指定条件进行过滤，例如分段大小、分段的图像特征等；

步骤14：对于各个分段，根据文件类型、家族名、文件SHA256、段名(块名、节名)等对分段重命名。

在本发明实施例中，PE文件结构示意图如图7所示，DEX文件结构示意图如图8所示，ELF文件结构示意图如图9所示。

在本发明实施例中，下面以PE文件为例，对B2S分段算法进行具体描述如下：

步骤21：对于恶意代码家族的每个恶意代码，通过读取PE文件头的段表信息，获得文件包含的段信息，包括段的属性、文件偏移量、虚拟偏移量等；

步骤22：通过文件的段信息分别获得各个段的数据，即文件分段。

步骤23：对各个分段根据指定条件进行过滤。例如，对于数据过小的段将被过滤，阈值默认设置为1024个字节，即小于1024个字节的段将被过滤掉；

步骤24：对于各个分段，根据文件类型、家族名、文件SHA256、块名(段名、节名)对分段重命名。重命名分段为“PE_家族名_SHA256_段名”。对于段名的定义如下：对于整个文件段名为“all”，其他段包括但不局限于以下段：执行代码段(text)、数据段(bss，rdata，data)、资源段(rsrc)、输出数据段(edata)、输入数据(idata)、调试信息段(debug)、线程局部存储段(tls)、基重定位(reloc)等。

S402、利用预设的映射算法将恶意代码文件以及恶意代码文件中的各个section映射为灰度图像。

可选地，预设的映射算法包括：B2G映射算法。

在本发明实施例中，对于B2G映射算法，前文已经结合图3进行了解释，在此不再赘述。利用B2S分段算法将恶意代码文件分为多个section，过滤不符合条件的分段，例如过滤掉section段大小小于一定阈值(例如小于1KB)的段。通过B2G映射算法将恶意代码文件及其各个分段映射为灰度图像文件后，可以对生成的灰度图像重新命名，重新命名的图像文件格式可以包括：“文件类型_家族名_SHA256_段名.PNG”。

在本发明实施例中，通过步骤S401和S402可以将恶意代码图像集合完全转化为训练图像集合，用于CNN模型的训练输入；所述训练图像集合是包含各个恶意家族样本及其分段的灰度图像集合。如图10所示，描述了恶意代码Locker勒索软件家族的样本分段后映射为灰度图片的示意图，其中白条是分割块。

在本发明实施例中，所有的恶意代码家族生成的灰度图像文件将被写到训练文件夹，以对卷积神经元网络模型进行训练。

可选地，利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型可以包括S501-S502：

S501、将映射获得的灰度图像作为训练卷积神经元网络模型的输入。

在本发明实施例中，训练之前，需要用随机数初始化卷积神经元网络模型中所有的滤波器、参数和权重。对于滤波器个数、滤波器尺寸、CNN网络架构等参数，是在CNN模型确定时就已经固定的，且不会在训练过程中改变，只有滤波矩阵和神经元突触权重会被更新。对卷积神经元网络的训练，可以优化所有的权重和参数，使其能够正确地分类恶意代码图像集合的图片。

S502、执行灰度图像在输入层和所述输出层之间各层的传播，并计算每种恶意代码家族对应的输出概率。

在本发明实施例中，将映射获得的灰度图像通过输入层输入后，执行前向传播，可以包括卷积层、非线性层、池化层和全连接层的前向传播。

S503、根据输出概率计算全部种类的恶意代码家族在输出层的误差总和，以获得输出层的总误差。例如，前述的12类别恶意代码家族的误差之和。

S504、采用预设的梯度算法计算总误差相对于所有权重的梯度，并用梯度下降法更新各层的权重和参数值，以使输出误差最小化。

可选地，预设的梯度算法包括：反向传播算法。

在本发明实施例中，权重的调整程度与其对总误差的贡献成正比。

S505、判断当前迭代次数是否达到预设的迭代次数N，当判断结果为是时，结束训练过程；当判断结果为否时，返回步骤71；其中，N为正整数。

在本发明实施例中，经过多次迭代以后，可以输出最优的CNN模型，并保存该最优的CNN模型。具体地，可以将训练完毕的CNN模型和权重保存到HDF5文件中，该文件可以包括以下信息：模型结构、模型权重、训练配置(损失函数，优化器等)和优化器的状态。

在本发明实施例中，通过以上步骤便实现了恶意代码家族的训练过程，并将经过训练的卷积神经元网络模型作为检测模型。需要说明的是，以上过程可以在对任意的恶意代码样本以及恶意代码样本的变种进行家族检测之前预先完成，在对任意的恶意代码样本以及恶意代码样本的变种进行家族检测时仅需要将训练好的检测模型拿来使用即可，也可以在每次进行检测时进行训练，对于具体实施方式不做限制。

S105、利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。

在本发明实施例中，采用训练好的检测模型对恶意代码样本以及所述恶意代码样本的变种进行家族检测之前，需要先将训练出的最优的卷积神经元网络CNN模型从硬盘文件引导到内存，例如，将CNN模型和权重从HDF5文件引导到内存。

可选地，利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测可以包括S601-S605：

S601、将待检测的恶意代码样本以及所述恶意代码样本的变种的样本文件根据不同的文件类型分别分为多个段section，对多个section进行过滤；并将样本文件以及经过过滤的section映射为第一灰度图像。

在本发明实施例中，可以先对待检测的恶意代码样本进行预处理，以将该待检测的恶意代码样本及其分段映射为多个图像。

在本发明实施例中，对于一个新的待检测样本，仍然可以通过B2S分段算法将该文件切分为多个section段，并通过B2G映射算法将该样本及其分段处理后生成多个灰度图像，包括样本灰度图像和各个分段的灰度图像，即上述的第一灰度图像。

S602、将第一灰度图像的集合输入检测模型，并获取检测结果。

在本发明实施例中，将第一灰度图像的集合(如，灰度图像列表)分别输入训练好的CNN模型，CNN会执行前向传播步骤并输出可能属于某个家族类别的概率，对这些检测结果使用S2V算法进行处理，得出待检测样本的最终检测结果。

在本发明实施例中，S2V算法具体可以包括以下步骤：

步骤31：输入待检测样本的灰度图像及各个分段的灰度图像的检测结果概率矩阵；

步骤32：将检测结果概率矩阵转换为恶意代码家族列表，即选择概率最高的恶意代码家族作为该灰度图像的家族标注；

步骤33：计算各恶意代码家族类别的比例，并进行排序，选择比例最大的恶意代码类别记为R；

步骤34：如果R大于设定的阈值(默认为0.75)，则将该样本标注为该恶意代码家族，否则，将该样本标注为未知样本。

S603、将检测结果与预设的检测阈值相比较，当检测结果低于预设的检测阈值时，判定待检测的恶意代码样本为白样本；当检测结果高于或等于预设的检测阈值时，判定待检测的恶意代码样本为恶意样本。

S604、在判定待检测的恶意代码样本为恶意样本以后，可以进一步确定每个恶意样本所对应的恶意代码家族，并统计每个恶意代码家族中对应的判定出的恶意样本的数量，将数量最多的恶意代码家族确定为恶意样本家族。

S605、输出检测结果，该检测结果可以包括样本类型(Windows的PE样本、Linux的ELF样本和Android的APK样本)、恶意/良性样本、恶意样本所属的家族、CNN模型版本号等。

在本发明实施例中，当选用的训练集覆盖足够多的恶意代码家族，训练完毕的CNN模型能够区分恶意样本和良性样本，能够对恶意样本进行准确的家族标注。而且训练完毕的CNN模型能够实现对Windows系统、Linux系统和Android系统中的恶意代码及其变种进行检测。并且所述的检测过程仅需要不断提供新的样本，通过无监督学习和深度学习过程，无需人工干预就能够完成学习、检测和升级功能。

为了达到本发明实施例目的，本发明实施例还提供了一种恶意代码家族的训练和检测装置1，需要说明的是，上述的方法实施例中的任何实施例均适用于该装置实施例中，在此不再一一赘述。如图11所示，该装置可以包括：处理模块11、聚类模块12、建模模块13、训练模块14和检测模块15；

处理模块11，用于将恶意代码映射为图像，并提取图像的图像特征；

聚类模块12，用于根据图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；

建模模块13，用于建立卷积神经元网络模型；

训练模块14，用于利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型，并将经过训练的卷积神经元网络模型作为检测模型；

检测模块15，用于利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。

可选地，处理模块11将恶意代码映射为图像，并提取图像的图像特征包括：

选取恶意代码库作为待处理的恶意代码集合；

可选地，聚类模块12根据图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注包括：

采用预设的聚类算法对特征集合进行分布式聚类；

可选地，

预设的映射算法包括：B2G映射算法；

杀毒软件包括：微软MSE杀毒软件。

可选地，建模模块13建立卷积神经元网络模型包括：

设置各层参数和训练权重。

可选地，该装置还包括预处理模块16；在训练模块利用已经进行恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型之前，预处理模块16还用于：

可选地，训练模块14利用已经进行所述恶意代码家族标注的恶意代码图像集合训练卷积神经元网络模型包括：

可选地，预设的分段算法包括：B2S分段算法；

预设的梯度算法包括：反向传播算法。

可选地，检测模块15利用检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测包括：

将第一灰度图像的集合输入检测模型，并获取检测结果；

虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种恶意代码家族的训练和检测方法，其特征在于，所述方法包括：

将恶意代码映射为图像，并提取所述图像的图像特征；

根据所述图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；

建立卷积神经元网络模型；

利用已经进行所述恶意代码家族标注的恶意代码图像集合训练所述卷积神经元网络模型，并将经过训练的所述卷积神经元网络模型作为检测模型；

利用所述检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。

2.根据权利要求1所述的恶意代码家族的训练和检测方法，其特征在于，所述将恶意代码映射为图像，并提取所述图像的图像特征包括：

选取恶意代码库作为待处理的恶意代码集合；

对所述待处理的恶意代码集合进行分布式处理，以过滤掉不符合条件的恶意代码样本；

利用预设的映射算法将经过处理的所述恶意代码库中的恶意代码映射为图像；

采用预设的图像特征提取算法从映射获得的所述图像中提取所述恶意代码对应的图像特征，并将所提取的所述图像特征构造为特征集合。

3.根据权利要求2所述的恶意代码家族的训练和检测方法，其特征在于，所述根据所述图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注包括：

采用预设的聚类算法对所述特征集合进行分布式聚类；

使用杀毒软件对经过所述分布式聚类后的恶意代码图像进行恶意代码家族标注。

4.根据权利要求3所述的恶意代码家族的训练和检测方法，其特征在于，

所述恶意代码库包括：Windows系统的PE恶意文件、Linux系统的ELF恶意文件和/或安卓Android系统的APK文件；

所述预设的映射算法包括：B2G映射算法；

所述预设的图像特征提取算法包括：GIST特征算法、SIFT特征算法、GLCM特征算法、ColorHis特征算法、Gabor特征算法、Census特征算法和LBP特征算法；

所述预设的聚类算法包括：分布式聚类算法和通用单机聚类算法；

所述杀毒软件包括：微软MSE杀毒软件。

5.根据权利要求1所述的恶意代码家族的训练和检测方法，其特征在于，所述建立卷积神经元网络模型包括：

设置各层参数和训练权重。

6.根据权利要求2或5所述的恶意代码家族的训练和检测方法，其特征在于，在利用已经进行所述恶意代码家族标注的恶意代码图像集合训练所述卷积神经元网络模型之前，所述方法还包括：

采用预设的分段算法将经过标注的所述恶意代码图像集合中的恶意代码文件根据不同的文件类型分别分为多个段section；

利用所述预设的映射算法将所述恶意代码文件以及所述恶意代码文件中的各个section映射为灰度图像。

7.根据权利要求6所述的恶意代码家族的训练和检测方法，其特征在于，所述利用已经进行所述恶意代码家族标注的恶意代码图像集合训练所述卷积神经元网络模型包括：

71、将映射获得的所述灰度图像作为训练所述卷积神经元网络模型的输入；

72、执行所述灰度图像在所述输入层和所述输出层之间各层的传播，并计算每种恶意代码家族对应的输出概率；

73、根据所述输出概率计算全部种类的恶意代码家族在所述输出层的误差总和，以获得所述输出层的总误差；

74、采用预设的梯度算法计算所述总误差相对于所有权重的梯度，并用梯度下降法更新各层的权重和参数值；

8.根据权利要求7所述的恶意代码家族的训练和检测方法，其特征在于，

所述预设的分段算法包括：B2S分段算法；

所述预设的梯度算法包括：反向传播算法。

9.根据权利要求1所述的恶意代码家族的训练和检测方法，其特征在于，所述利用所述检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测包括：

将所述待检测的恶意代码样本以及所述恶意代码样本的变种的样本文件根据不同的文件类型分别分为多个段section，对所述多个section进行过滤；并将所述样本文件以及经过过滤的section映射为第一灰度图像；

将所述第一灰度图像的集合输入所述检测模型，并获取检测结果；

将所述检测结果与预设的检测阈值相比较，当所述检测结果低于所述预设的检测阈值时，判定所述待检测的恶意代码样本为白样本；当所述检测结果高于或等于所述预设的检测阈值时，判定所述待检测的恶意代码样本为恶意样本；

确定每个恶意样本所对应的恶意代码家族，并统计每个恶意代码家族中对应的判定出的恶意样本的数量，将所述数量最多的恶意代码家族确定为恶意样本家族。

10.一种恶意代码家族的训练和检测装置，其特征在于，所述装置包括：处理模块、聚类模块、建模模块、训练模块和检测模块；

所述处理模块，用于将恶意代码映射为图像，并提取所述图像的图像特征；

所述聚类模块，用于根据所述图像特征对恶意代码图像进行聚类，并对聚类后获得的不同类型的恶意代码图像进行恶意代码家族标注；

所述建模模块，用于建立卷积神经元网络模型；

所述训练模块，用于利用已经进行所述恶意代码家族标注的恶意代码图像集合训练所述卷积神经元网络模型，并将经过训练的所述卷积神经元网络模型作为检测模型；

所述检测模块，用于利用所述检测模型对待检测的恶意代码样本以及所述恶意代码样本的变种进行家族检测。