CN114679331B

CN114679331B - 一种基于ai技术的恶意代码被动检测方法及系统

Info

Publication number: CN114679331B
Application number: CN202210371445.5A
Authority: CN
Inventors: 门嘉平; 于春华
Original assignee: Beijing Guolian Tiancheng Information Technology Co ltd
Current assignee: Beijing Guolian Tiancheng Information Technology Co ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2024-02-02
Anticipated expiration: 2042-04-11
Also published as: CN114679331A

Abstract

本发明涉及一种基于AI技术的恶意代码被动检测方法及系统，其方法包括：S1：计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若待测程序不是已知程序，则转至S2；S2：对待测程序进行加壳检验，按照其加壳方式对待测程序调用脱壳脚本，进行自动化脱壳处理；S3：提取待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果判定待测程序类别为恶意程序，则输出其类别，并将其加入黑白名单数据库，否则转入S4；S4：提取待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出待测程序的类别，并将其加入黑白名单数据库。本发明提供的方法为恶意代码的判别及分类提供有力的数据支持。

Description

一种基于AI技术的恶意代码被动检测方法及系统

技术领域

本发明涉及信息安全技术领域，具体涉及一种基于AI技术的恶意代码被动检测方法及系统。

背景技术

恶意代码的威胁极大，能够快速进行自我复制，并对计算机进行攻击。常见的恶意代码包括计算机病毒、特洛伊木马、计算机蠕虫、后门、逻辑炸弹等。由于恶意代码本身即为一段程序代码，可以在很隐蔽的情况下嵌入到正常合法的程序中，通过运行合法的程序而自动运行，从而达到破坏被感染计算机的数据、程序以及对被感染计算机进行信息窃取等目的。恶意代码经过多年的发展，破坏性、种类和感染性都得到极大的增强。而且，随着计算机网络化程度的不断普及，网络传播的恶意代码造成的影响和危害越来越大。目前，恶意代码的检测是安全领域研究的热点之一。早期的恶意软件往往实现的恶意目标比较单一，容易被检测到。但是随着黑客技术的不断提高，恶意代码的隐蔽性越来越强，破坏性大而且难以检测。一个恶意软件往往会呈现多个类别的特征，从而绕过运行在内核模式下的防火墙、防病毒等恶意代码防护软件。

针对上述问题，CN202111297733.2给出了一种恶意代码检测方法，在获取待检测的目标代码包后，通过采用预设神经网络模型对所述目标代码包进行特征提取，以获取所述目标代码包的两轮特征信息，然后结合两轮检测结果确定所述目标代码包中的恶意代码包情况。CN202111119216.6给出了一种基于改进CNN网络的恶意代码检测方法，通过图像化技术将恶意代码转换成灰度图像特征，再通过N-Gram技术提取恶意代码的操作码序列特征，通过特征融合技术将全局特征和局部特征进行特征融合，得到的融合特征输入到改进的卷积神经网络模型训练并选用合适的分类器进行检测。CN202111061961.X给出了一种恶意代码检测的方法，通过将可执行程序代码在动态沙箱中模拟运行，获取数据集；利用数据集训练XGBoost模型；利用数据集训练TextCNN模型；将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果，提高了恶意代码的识别率。

综上，目前的方法及系统无法解决如下问题：(1)对经过精心伪装后的恶意代码检测存在一定不足；(2)对恶意代码单纯采用静态分析或动态分析的方法，影响了恶意代码检测的准确率和效率。

发明内容

为了解决上述技术问题，本发明提供一种基于AI技术的恶意代码被动检测方法及系统。

本发明技术解决方案为：一种基于AI技术的恶意代码被动检测方法，包括：

步骤S1：计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若所述待测程序不是所述已知程序，则转至步骤S2；其中，所述已知程序包括：正常程序和恶意程序；

步骤S2：对所述待测程序进行加壳检验，按照其加壳方式对所述待测程序调用脱壳脚本，进行自动化脱壳处理；

步骤S3：提取所述待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果判定所述待测程序类别为恶意程序，则输出其类别，并将其加入所述黑白名单数据库，否则转入步骤S4；

步骤S4：提取所述待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出所述待测程序的类别，并将其加入所述黑白名单数据库。

本发明与现有技术相比，具有以下优点：

本发明公开了一种基于AI技术的恶意代码被动检测方法，能够对恶意代码进行自动化查壳检测，并对常见的压缩壳、加密壳进行自动化脱壳；通过设定的黑白名单对待测程序进行快速过滤，删除其中的重复样本和已知样本；先采用静态检测提高恶意代码的检测效率，然后采用动态检测提高检测的准确率，从而为恶意代码的判别及分类提供有力的数据支持。

附图说明

图1为本发明实施例中一种基于AI技术的恶意代码被动检测方法的流程图；

图2A为本发明实施例中RNN网络架构示意图；

图2B为本发明实施例中利用RNN网络生成特征图像流程示意图；

图3为本发明实施例中CNN网络架构示意图；

图4为本发明实施例中一种基于AI技术的恶意代码被动检测方法流程示意图；

图5为本发明实施例中一种基于AI技术的恶意代码被动检测系统的结构框图；

图6为本发明实施例中一种基于AI技术的恶意代码被动检测系统的流程示意框图。

具体实施方式

本发明提供了一种基于AI技术的恶意代码被动检测方法，通过首先对从待测程序进行黑白名单判定，然后进行脱壳处理，最后采用先静态检测提高检测效率，后动态检测提高准确率的方法，为恶意代码的判别及分类提供有力的数据支持。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于AI技术的恶意代码被动检测方法，包括下述步骤：

步骤S1：计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若待测程序不是已知程序，则转至步骤S2；其中，已知程序包括：正常程序和恶意程序；

步骤S2：对待测程序进行加壳检验，按照其加壳方式对待测程序调用脱壳脚本，进行自动化脱壳处理；

步骤S3：提取待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果判定待测程序类别为恶意程序，则输出其类别，并将其加入黑白名单数据库，否则转入步骤S4；

步骤S4：提取待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出待测程序的类别，并将其加入黑白名单数据库。

在一个实施例中，上述步骤S1：计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若待测程序不是已知程序，则转至步骤S2；其中，已知程序包括：正常程序和恶意程序，具体包括：

步骤S11：利用MD5-Hash函数将待测程序映射到有限长度的域上，将计算得到的Hash值作为待测程序的唯一身份标识；

步骤S12：通过字符串匹配的方式，将Hash值与黑白名单数据库中已知程序的Hash值进行快速匹配，若待测程序不是已知程序，则转至步骤S2；其中，黑白名单数据库是指存放已检测过的所有程序Hash值的数据库，白名单指的是正常程序的Hash值集合，黑名单指的是恶意程序的Hash值集合。

本发明实施例根据计算得到的程序Hash值，利用预先设定的黑白名单对待测程序进行快速过滤，筛除已有明确结果的程序样本，避免对相同样本的重复检测，降低系统开销。

在一个实施例中，上述步骤S2：对待测程序进行加壳检验，按照其加壳方式对待测程序调用脱壳脚本，进行自动化脱壳处理，具体包括：

步骤S21：对加壳特征进行分析，确定待测程序是否加壳，若判定待测程序已加壳，则确定其加壳方式及版本，则转至步骤S22，否则转至步骤S3；

加壳程序一般存在如下特征：1)加壳程序中仅存在较少的导入函数；2)加壳程序的熵值高于未加壳的程序，表现为加壳程序中的数据更接近于随机数据；3)加壳程序通常具有异常的节大小，比如.text节的原始数据大小为0，但是虚拟大小非0等特征。

本发明实施例通过加壳特征码实现对加壳种类的判别，对于常见的压缩壳、加密壳等加壳方式，根据加壳算法的版本，调用对应的脱壳脚本。

步骤S22：基于加壳方式及版本，调用对应的脱壳脚本进行脱壳，若脱壳成功，则得到脱壳程序并转至步骤S3，若脱壳失败，则将待测程序存档保存。

本发明实施例中，当脱壳成功时，生成脱壳成功日志，该日志包含待测程序的Hash值作为唯一标识、加壳版本、脱壳时间等信息；当脱壳失败时，生成脱壳失败日志，该日志包含待测程序Hash值、加壳版本、首次加壳检测时间等信息。并将脱壳成功的程序进行后续的静态特征分析，将脱壳失败的程序进行存档保留以备后续分析。

在一个实施例中，上述步骤S3：提取待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果判定待测程序类别为恶意程序，则输出其类别，并将其加入黑白名单数据库，否则转入步骤S4，具体包括：

步骤S31：通过对待测程序的PE结构进行详细解析，提取其中的有效静态特征集；PE结构中与恶意代码检测相关的静态属性包括：DLL的出现频率、API的出现频率、引用DLL的总数、调用API的总数、.test节头、.data节头、.rsrc节头和.rdata节头；

步骤S32：利用AdaBoost集成学习算法，通过构建并结合多个学习器，形成一个强学习器，基于静态特征集进行恶意代码的检测和分类任务，如果判定待测程序类别为恶意程序，则输出其类别，并将其加入黑白名单数据库，否则转入步骤S4。

本发明实施例中采用AdaBoost集成学习算法，是多个弱分类器的结合。本发明中采用的弱分类器是决策树。AdaBoost集成学习算法具体分类过程如下：

首先，提高在前一轮弱分类器错误分类样本的权值，并降低哪些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大，从而增加了其在后一轮弱分类器的比重。

其次，AdaBoost采用多个弱分类器加权多数表决的方法，具体指加大分类误差率小的分类器的权值，使其在表决中起到较大作用；减小分类误差率答的弱分类器的权值，使其在表决中起到较小的作用。

在一个实施例中，上述步骤S4提取待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出待测程序的类别，并将其加入黑白名单数据库，具体包括：

步骤S41：通过在SandBoxie和BSA构成的动态沙箱中执行待测程序，对在程序执行期间的API调用、网络访问、系统文件修改和注册表修改的动态特征属性进行格式化处理，并生成记录API调用序列的日志文件；使用RNN基于动态特征属性提取待测程序的行为特征并生成特征图像；

本发明中实施例中使用RNN基于动态特征属性提取待测程序的行为特征并生成特征图像，包括：RNN网络训练和利用训练好的RNN网络生成特征图像。本发明实施例中RNN网络包括一个输入层x，7个隐藏层，1个输出层y。其中第一层隐藏层h¹为普通的神经单元，第二～六层隐藏层(h²～h⁶)为LSTM神经单元。RNN网络的架构如图2A所示。

首先，RNN网络训练及调优的具体过程如下：

(1)将已知恶意代码执行期间的API调用、网络访问、系统文件修改和注册表修改的动态特征属性进行格式化处理，并生成记录API调用序列的日志文件；

(2)对所有采集的动态特征和日志文件进行one-hot编码，生成动态特征的特征向量，作为RNN算法的输入层x。其中，日志文件操作步骤向量集为{S₁，S₂，S₃，……，S_t}，编码为one-hot向量集为{x₁，x₂，x₃，……，x_t}。

(3)每个输入层one-hot向量中的x_i对应输出层预测的输出向量y_i，然后通过计算y_i与x_i+1的差距得到损失函数。

(4)当所有的t步操作都经过RNN网络后，得到所有{y₁，y₂，y₃，……，y_t}的损失函数情况。

(5)利用反向传播计算更新RNN中所有的权重，完成RNN算法的参数调优。

(6)经过多次迭代，直到输出向量y_i与实际操作x_i+1的损失函数在设定的阈值之内。此时得到训练好的RNN网络。

其次，如图2B所示，利用训练好的RNN网络生成特征图像，具体过程如下：

(1)将待测程序的操作编码为one-hot向量，然后依次输入到训练好的RNN网络中，获得每个输入向量x_i的第六个隐藏层向量，得到向量集/>

(2)将得到的向量集转换成相同大小的特征图像矩阵M。首先将所有元素进行缩放，保证所有元素取值范围为[0,1]，计算公式如下：

然后将特征向量利用函数f转换成相同大小的特征图像矩阵M，计算公式如下：

其中，f_i为固定大小的特征图像矩阵的元素，x_i为第i个动态特征，则特征图像矩阵M为：

其中，N为动态特征图像矩阵M的行数，W为第6隐藏层的维数。

(3)将动态特征图像矩阵M中所有元素f_ij乘以255，用来形成256级灰度图像。

步骤S42：使用CNN对特征图像进行分类，得到待测程序的类别，并将其加入黑白名单数据库。

本发明中所述的利用CNN网络对特征图像进行分类，包括训练CNN网络，以及利用训练好的CNN网络对特征图像进行分类。本发明实施例中CNN网络包括1个输入层、2个卷积-池化层、1个全连接层和2个输出层。第一个卷积层包含5个核，用于处理的输入的W₀×W₀×1的图像；第二个卷积层包含10个核，用于处理前一层输出的W₁×W₁×10的图像；每个池化层均用于处理前一个卷积层的输出结果，并将其尺寸减小为原尺寸的一半，第1个池化层将图像降为(W₀/2)×(W₀/2)×1，第2个池化层将图像降为(W₁/2)×(W₁/2)×10；最大池化的步长为2，CNN算法为二分类，包含两个输出层。CNN网络的详细架构如图3所示。

首先，CNN网络的训练及调优的具体过程如下：

(1)使用带有恶意、良性标记的特征图像矩阵作为输入训练CNN网络；

(2)输出y₀、y₁分别为良性软件、恶意软件的概率。可用sigmoid函数Sig(y1)计算出为恶意软件的概率。

其次，利用训练好的CNN网络，对输入的特征图像进行分类，具体过程与上述CNN训练过程相同。

最后，根据得到的待测程序的类别，并将其加入黑白名单数据库。

如图4的一种基于AI技术的恶意代码被动检测方法流程图所示，本发明实施例首先对待测程序进行Hash值计算，采用字符串快速匹配的方式，判定待测程序是否在黑白名单数据库中；如果在数据库中，则直接输出结果并结束；如果不在数据库中，则进行加壳判定，如果判定程序加壳，则自动化调用脱壳程序进行处理，否则直接进行静态分析处理；静态研判模块将通过静态检测的方式对待测程序进行分析，如果判定为恶意程序(或正常程序)，则生成静态检测报告并输出结果，同时将分析结果同步到黑白名单数据库；如果无法判定分析结果，则将待测程序进行下一步动态分析；动态研判模块将通过沙箱动态运行待测程序进行分析，如果判定为恶意程序(或正常程序)，则生成静态检测报告并输出结果，同时将分析结果同步到黑白名单数据库。

实施例二

如图5所示，本发明实施例提供了一种基于AI技术的恶意代码被动检测系统，包括下述模块：

判别筛选模块51，用于计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若待测程序不是已知程序，则转至软件脱壳模块；其中，已知程序包括：正常程序和恶意程序；

软件脱壳模块52，用于对待测程序进行加壳检验，按照其加壳方式对待测程序调用脱壳脚本，进行自动化脱壳处理；

静态研判模块53，用于提取待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果待测程序类别为恶意程序，则输出其类别，并将其加入黑白名单数据库，否则转入动态研判模块；

动态研判模块54，用于提取待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出待测程序的类别，并将其加入黑白名单数据库。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于AI技术的恶意代码被动检测方法，其特征在于，包括：

步骤S3：提取所述待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果判定所述待测程序类别为恶意程序，则输出其类别，并将其加入所述黑白名单数据库，否则转入步骤S4，具体包括：

步骤S31：通过对所述待测程序的PE结构进行详细解析，提取其中的有效静态特征集；PE结构中与恶意代码检测相关的静态属性包括：DLL的出现频率、API的出现频率、引用DLL的总数、调用API的总数、.test节头、.data节头、.rsrc节头和.rdata节头；

步骤S32：利用AdaBoost集成学习算法，通过构建并结合多个学习器，形成一个强学习器，基于所述静态特征集进行恶意代码的检测和分类任务，如果判定所述待测程序类别为恶意程序，则输出其类别，并将其加入所述黑白名单数据库，否则转入步骤S4；

步骤S4：提取所述待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出所述待测程序的类别，并将其加入所述黑白名单数据库，具体包括：

步骤S41：通过在SandBoxie和BSA构成的动态沙箱中执行所述待测程序，对在程序执行期间的API调用、网络访问、系统文件修改和注册表修改的动态特征属性进行格式化处理，同时生成记录API调用序列的日志文件；使用RNN基于所述动态特征属性提取所述待测程序的行为特征并生成特征图像；

步骤S42：使用CNN对所述特征图像进行分类，得到所述待测程序的类别，并将其加入所述黑白名单数据库。

2.根据权利要求1所述的基于AI技术的恶意代码被动检测方法，其特征在于，所述步骤S1：计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若所述待测程序不是所述已知程序，则转至步骤S2；其中，所述已知程序包括：正常程序和恶意程序，具体包括：

步骤S11：利用MD5-Hash函数将所述待测程序映射到有限长度的域上，将计算得到的Hash值作为所述待测程序的唯一身份标识；

步骤S12：通过字符串匹配的方式，将所述Hash值与黑白名单数据库中已知程序的Hash值进行快速匹配，若所述待测程序不是所述已知程序，则转至步骤S2；其中，所述黑白名单数据库是指存放已检测过的所有程序Hash值的数据库，白名单指的是正常程序的Hash值集合，黑名单指的是恶意程序的Hash值集合。

3.根据权利要求1所述的基于AI技术的恶意代码被动检测方法，其特征在于，所述步骤S2：对所述待测程序进行加壳检验，按照其加壳方式对所述待测程序调用脱壳脚本，进行自动化脱壳处理，具体包括：

步骤S21：对加壳特征进行分析，确定所述待测程序是否加壳，若判定所述待测程序已加壳，则确定其加壳方式及版本，则转至步骤S22，否则转至步骤S3；

步骤S22：基于所述加壳方式及版本，调用对应的脱壳脚本进行脱壳，若脱壳成功，则得到脱壳程序并转至步骤S3，若脱壳失败，则将所述待测程序存档保存。

4.一种基于AI技术的恶意代码被动检测系统，其特征在于，包括下述模块：

判别筛选模块，用于计算待测程序的Hash值，将其与黑白名单数据库中已知程序的Hash值进行对比，若所述待测程序不是所述已知程序，则转至软件脱壳模块；其中，所述已知程序包括：正常程序和恶意程序；

软件脱壳模块，用于对所述待测程序进行加壳检验，按照其加壳方式对所述待测程序调用脱壳脚本，进行自动化脱壳处理；

静态研判模块，用于提取所述待测程序的静态特征，结合训练好的静态分类器进行恶意软件检测与分类，如果所述待测程序类别为恶意程序，则输出其类别，并将其加入所述黑白名单数据库，否则转入动态研判模块，具体包括：

步骤S32：利用AdaBoost集成学习算法，通过构建并结合多个学习器，形成一个强学习器，基于所述静态特征集进行恶意代码的检测和分类任务，如果判定所述待测程序类别为恶意程序，则输出其类别，并将其加入所述黑白名单数据库，否则转入动态研判模块；

动态研判模块，用于提取所述待测程序的动态特征，结合训练好的动态分类器进行恶意软件检测与分类，输出所述待测程序的类别，并将其加入所述黑白名单数据库，具体包括：