CN112989339B

CN112989339B - 一种基于机器学习的gcc编译器恶意代码入侵检测方法

Info

Publication number: CN112989339B
Application number: CN202110205444.9A
Authority: CN
Inventors: 黑新宏; 姚怡蕾; 王一川; 朱磊; 姬文江; 杜延宁; 宋昕
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-05-02
Anticipated expiration: 2041-02-24
Also published as: CN112989339A

Abstract

本发明公开了一种基于机器学习的GCC编译器恶意代码入侵检测方法，具体包括如下步骤：步骤1，下载c语言源代码数据集；步骤2，将步骤1得到的源代码数据集转化为二进制文件；步骤3，对步骤2得到的样本集进行预处理；步骤4，搭建BP神经网络模型并对模型进行训练，将步骤4得到的特征值输入到BP神经网络模型中进行训练，得到最优的神经网络模型并输出。步骤5，对步骤4输出的神经网络模型进行预测分类并根据测试结果通过步骤4对模型进行调参训练。本发明通过自动化提取GCC编译器的软件指纹特征，检测编译器中恶意代码的指纹特征，从而检测一个GCC编译器是否有被恶意代码入侵。

Description

一种基于机器学习的GCC编译器恶意代码入侵检测方法

技术领域

本发明属于信息处理技术领域，涉及一种基于机器学习的GCC编译器恶意代码入侵检测方法。

背景技术

近年来，越来越多的攻击者开始将目光投向软件供应链。软件供应链是指软件从软件生产商到用户下载使用的整个过程，即软件的源码编写、源码编译、软件发布、软件下载和软件更新过程。软件供应链攻击是指攻击者利用软件供应链上各个环节存在的安全漏洞，在软件的开发、交付、使用过程中劫持和篡改，并针对供应链上的信任关系而不进行传统软件安全检查问题，沿着供应链向后渗透，从而实现对目标网络的渗透和攻击。传统的软件攻击主要是攻击人员针对已经开发的软件本身的漏洞进行恶意代码植入。从统计数据上来看，攻击者对软件供应链的攻击行为已经远远超过了对传统的软件攻击。目前能够实现自动化分析并检测软件供应链是否被污染的工作很少，而频繁发生的软件供应链攻击行为已经对个人、企业乃至国家带来了严重的隐私泄露和财产安全等问题，在当今复杂的互联网背景下，对软件供应链的安全检测与预防已经成为网络安全工作一个不可忽视的研究方向。

编译器作为源码编译过程不可或缺的一部分，一旦开发人员的编译器被攻击人员植入恶意代码，之后由这款编译器编译的所有软件都会被影响，这些软件被用户下载后可能会对用户的隐私和财产造成严重的威胁，而目前人们对编译器的安全问题关注较少，但是编译器在软件开发过程中占有很重要的地位，所以，编译器的安全预防也应该渐渐进入人们的视野。

发明内容

本发明的目的是提供一种基于机器学习的GCC编译器恶意代码入侵检测方法，该方法通过自动化提取GCC编译器的软件指纹特征，检测编译器中恶意代码的指纹特征，从而检测一个GCC编译器是否有被恶意代码入侵。

本发明所采用的技术方案是，一种基于机器学习的GCC编译器恶意代码入侵检测方法，具体包括如下步骤：

步骤1，下载c语言源代码数据集，记为样本A；

步骤2，将样本A经过A版本GCC编译器转化为二进制文件，命名为样本一；将样本A经过B版本GCC编译器转化为二进制文件，命名为样本二；

步骤3，对步骤2得到的样本集进行预处理；

步骤4，搭建BP神经网络模型并对模型进行训练，得到最优的BP神经网络模型，记为model A；

步骤5，对步骤4输出的神经网络模型model A进行测试。

本发明的特点还在于：

步骤3的具体过程为：

步骤3.1,分别将步骤2得到的样本一和样本二转化为灰度图，并将样本一转化后得到的灰度图命名为样本三，将样本二转化后得到的灰度图命名为样本四；

步骤3.2，对步骤3.1得到的样本三和样本四中的灰度图基于灰度共生矩阵纹理特征提取方法进行纹理特征提取，得到角二阶矩ASM、对比度Con、相关性Cor、熵Ent、相异性Dis五个特征值，并将通过样本三得到的五个特征值进行存储，命名为样本五，将通过样本四得到的五个特征值进行存储，命名为样本六。

步骤3.2的具体过程为：

步骤3.2.1，对步骤3.1获得的最高灰度级数为M的所有灰度图像进行降级处理，如果M＞a，将M级的灰度图降级为a级，0<M≦256；

步骤3.2.2，从步骤3.2.1得到的灰度图中提取出a*a的灰度共生矩阵；

步骤3.2.3，对步骤3.2.2得到的a*a级灰度共生矩阵分别通过如下公式(1)～(5)计算角二阶矩ASM、对比度Con、相关性Cor、熵Ent、相异性Dis五个特征值：

在公式(1)～(5)中，a为灰度共生矩阵的大小，f(i,j)为灰度共生矩阵里第i行第j列的值；μ_x表示行的均值，μ_y表示列的均值，σ_x表示行的标准差，σ_y表示列的标准差；

步骤3.2.4，将从样本三中灰度图计算出的角二阶矩ASM、对比度Con、相关性Cor、熵Ent、相异性Dis五个特征值进行存储，得到样本五；将从样本四中灰度图计算出的角二阶矩ASM、对比度Con、相关性Cor、熵Ent、相异性Dis五个特征值进行存储，得到样本六。

步骤4的具体过程为：

步骤4.1，搭建BP神经网络模型，该模型包括输入层、隐藏层及输出层，其中输入层包括五个神经元，隐藏层神经元个数在训练过程中根据训练结果调整，输出层包括两个神经元；

步骤4.2，设定如下公式(6)中的交叉熵损失函数作为损失函数：

其中，n是训练集样本数，y是真实的标签，a是神经网络的输出，x是输入样本。

步骤4.3，将步骤3.2.4得到的样本五和样本六融合后打乱，并按照8:2 的比例分为训练集和测试集，并将训练集命名为样本七、将测试集命名为样本八；将样本七输入到步骤4.1搭建的BP神经网络模型中进行训练，经过若干次迭代，直到步骤4.2中的损失函数达到最小，训练结果稳定不变时，得到最优的神经网络模型，命名为model A。

步骤5的具体过程为：采用步骤4中的样本八对步骤4得到的最优的神经网络模型model A进行测试，即用model A对样本八中的包含的样本一和样本二进行分类，当分类的准确率小于80％时，则继续重复步骤4.3对BP 神经网络模型进行调参训练，直至测试集测试的准确率大于等于80％为止。

本发明的有益效果是，本发明一种基于机器学习的GCC编译器恶意代码入侵检测方法，针对被特定编译器编译后的二进制代码(*.o文件)进行静态检测，避免了直接运行源码而产生的危害，借助机器学习识别编译器的指纹特征，可以及时检测编译器是否有被恶意代码入侵，从攻击人员对软件供应链安全里源码编译环节的攻击行为进行有效预防，具有很强的参考性和实用性。

附图说明

图1是本发明一种基于机器学习的GCC编译器恶意代码入侵检测方法系统架构图；

图2是本发明一种基于机器学习的GCC编译器恶意代码入侵检测方法中 BP神经网络结构图；

图3(a)、(b)分别是本发明一种基于机器学习的GCC编译器恶意代码入侵检测方法中将编译器编译得到的二进制代码转化的灰度图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于机器学习的GCC编译器恶意代码入侵检测方法，GCC编译器的编译过程可以分为：预处理、编译、汇编和链接四个阶段。其中，第一个阶段预处理阶段主要包括头文件展开、删除注释、条件编译、宏定义的展开等过程，在该阶段GCC编译器生成*.i文件；在第二个阶段编译阶段是对第一个阶段产生的*.i文件进行语法检查、将高级语言转变为汇编语言，在该阶段GCC编译器生成*.s文件；在第三个阶段汇编阶段是指将第二个阶段产生的汇编语言代码转变成目标机器指令，在该阶段中GCC编译器生成*.o 文件；在第四个阶段链接阶段将外部函数的代码添加到可执行文件中，在该阶段生成*.exe文件。由以上编译过程可以看出GCC编译器的编译结果与GCC 编译器本身自带的库文件、自身的处理程序、所处的计算机环境等因素有很大的关系，所以不同版本的GCC编译器在各个阶段所产生的文件会有所区别。基于这个思想，当某一个GCC编译器被植入恶意代码后，经过该编译器编译得到的各个阶段的文件也会把恶意代码的指纹特征记录下来，通过对比该编译器与同一个版本的正常编译器编译得到的二进制文件可以对该编译器进行恶意代码入侵检测，对被恶意代码入侵的GCC编译器与同一版本的GCC正常编译器经过上述5个处理步骤最终得到最优模型model A,model A可以通过对一个特定的GCC编译器编译得到的二进制文件进行检测，如果判断出该二进制文本属于被恶意代码入侵的编译器编译得到的二进制文件这个类别，则可以判断被测的GCC编译器被植入了恶意代码，否则没有被植入恶意代码。由于二进制文件(*.o文件)是源码经过了编译器预处理、编译、汇编过程得到的文件，没有经过链接阶段，避免了直接运行源码可能带来的危害，所以测试该文件可以很好的抓取GCC编译器的指纹特征。本发明基于以上分析提出利用机器学习自动对源码样本集使用不同版本的GCC编译器编译后得到的二进制文件(*.o文件)进行二分类，通过该方法及时对使用的GCC编译器进行检测，可以及时发现该编译器是否有被植入恶意代码。

如图1所示，具体包括如下步骤：

步骤1，下载c语言源代码数据集,记为样本A；

步骤2，将样本A经过A版本GCC编译器转化为二进制文件，(*.o文件)，命名为样本一；将样本A经过B版本GCC编译器转化为二进制文件(*.o 文件)，命名为样本二；

步骤3，对步骤2得到的样本集进行预处理；

步骤3.1，分别将步骤2得到的样本一和样本二转化为灰度图，并将样本一转化后得到的灰度图命名为样本三，将样本二转化后得到的灰度图命名为样本四；

本发明通过B2M算法(将二进制文件(*.o文件)每8位为一个单位进行读取，固定行宽后可以得到一个二维数组，此数组可视化为一个灰度图像，该数组里的每个元素范围为0-255，正好对应灰度图像中的一个像素点)，将步骤2得到的二进制代码(*.o文件)转化为灰度图像，将该图像存储为无压缩的JPG图像文件。因为样本一与样本二里二进制文件大小的不同，所产生的灰度图像大小也会有所不同，而灰度图的宽度设置会影响二进制文件的内在结构，为了保存二进制样本最优的特征和后面对灰度图纹理特征提取的质量，需要根据二进制文件的大小设置灰度图的宽度与高度；

步骤3.2，对步骤3.1得到的样本三和样本四中的灰度图通过灰度共生矩阵进行纹理特征提取，得到角二阶矩ASM、对比度Con、相关性Cor、熵Ent、相异性Dis五个特征值，并将通过样本三得到的五个特征值进行存储，命名为样本五，将通过样本四得到的五个特征值进行存储，命名为样本六；灰度共生矩阵(Gray-Level Co-occurrence Matrix，GLCM)是一种通过研究灰度空间相关特性来描述图像纹理的方法，可以反应图像灰度关于方向、相邻间隔、变化幅度的综合信息，通过统计灰度图像里灰度为i的像素点和在某一固定方向θ(0度，45度，90度，135度)上距离i像素点的距离为 d的另一个灰度为j的像素点出现的概率可以得到一个大小为M*M(M是灰度图像的最高灰度级数)灰度共生矩阵(GLCM)。

步骤3.2的具体过程为：

步骤3.2.1，对步骤3.1获得的最高灰度级数为M(0<M<256)的所有灰度图像进行降级处理，如果M＞a，将M级的灰度图降级为a级；

步骤3.2.2，从步骤3.2.1得到的灰度图提取出a*a的灰度共生矩阵；

步骤3.2.3，对步骤3.2.2得到的a*a级灰度共生矩阵分别通过如下公式(1)～(5)计算角二阶矩ASM(Angular second moment，ASM)、对比度 (Contrast,Con)、相关性(Correlation,Cor)、熵(Entropy,Ent)、相异性 (Dissimilarity,Dis)五个特征值：

由二进制文件转为的灰度图像的规模为h*w，h是灰度图像的高度，w 是灰度图像的宽度，因为灰度图像的灰度级数是M，所以得到的灰度共生矩阵大小为M*M，为了降低算法复杂度，需要将灰度图的灰度级数降为a(a<M)。灰度共生矩阵算法过程主要有三类操作，从将灰度级数为M的灰度图降级为 a级、从降级后的灰度图中计算出灰度共生矩阵和从灰度共生矩阵中计算出特征向量。对灰度图降级的时间复杂度为O(hw),计算出灰度共生矩阵的时间复杂度为O(a²)，从灰度共生矩阵计算出特征向量的时间为O(a²)，所以使用灰度共生矩阵提取灰度图纹理特征算法的时间复杂度为O(hw+2a²),所以灰度共生矩阵提取灰度图纹理特征算法的时间复杂度为O(hw+2a²)。

步骤4，搭建BP神经网络模型并对模型进行训练，将步骤4得到的样本五和样本六输入到BP神经网络模型中进行训练，得到最优的神经网络模型并输出。

步骤4的具体过程为：

步骤4.1，搭建BP神经网络模型，如图2所示，该模型包括输入层、隐藏层及输出层，其中因为步骤4对每个样本提取出5个特征值，所以输入层共有5个神经元(图2中x1～x5表示5个神经元)，隐藏层的神经元个数根据训练结果不断调整，输出层共有两个神经元。

步骤4.2，设定如下公式(6)中的交叉熵损失函数(CrossEntropy Loss) 作为损失函数：

其中，n是训练集样本数，y是真实的标签，a是神经网络的输出；

步骤4.3，将步骤3得到的样本五和样本六融合后打乱，并按照8:2的比例分为训练集和测试集，并将训练集命名为样本七、将测试集命名为样本八；将样本七输入到步骤4.1搭建的BP神经网络模型(如图2所示的模型) 中进行训练，通过调整参数及若干次迭代后当损失函数值达到最小，训练结果达到理想值时得到一个最优模型，记为model A。

步骤5，对步骤4.3输出的神经网络模型model A进行测试。

步骤5的具体过程为：用步骤4中的样本八对步骤4得到的最优的神经网络模型model A进行测试，即用model A对样本八中的包含的样本一和样本二进行分类，当分类的准确率小于80％时，则继续重复步骤4.3对BP神经网络模型进行调参训练，直至测试集测试的准确率大于等于80％为止。

将通过一个被植入恶意代码的GCC编译器与同版本正常编译器得到的二进制文本(*.o文本)进行步骤2～4操作后，可以得到一个分类模型model A，通过该模型model A可以测试同一个版本下的GCC编译器是否被植入恶意代码，该方法通过判断经某一特定版本的GCC编译器编译得到的二进制文件由哪一个GCC编译器编译得到的，从而判断出该编译器是否又被植入恶意代码。

实施例

步骤1，本发明在SARD(Software Assurance Reference Dataset)里下载了502个C语言源码数据集，即样本A；

步骤2，将下载好的c语言源码样本集(样本A)经过GCC8.1.0版本和 GCC8.3.1版本编译器通过命令“gcc–c*.c–o*.o”分别编译成二进制代码文件(*.o文件)，得到样本一(GCC8.1.0版本编译器编译得到的二进制文件)和样本二(GCC8.3.1版本编译器编译得到的二进制文件)，样本一和样本二分别包含502个二进制文件(*.o文件)；

步骤3，对步骤2得到的样本集进行预处理：

步骤3.1，通过B2M算法分别将步骤1得到的样本一与样本二转化为宽度为32高度不确定的灰度JPG图像文件,分别对应得到样本三(GCC8.1.0 版本编译器)和样本四(GCC8.3.1版本编译器)，样本三和样本四分别包含 502张灰度图像。得到的灰度图像如图3所示，图3(a)是GCC8.1.0版本编译器得到的灰度图像，图3(b)是GCC8.3.1版本编译器得到的灰度图像，总共得到1004张灰度图像。

步骤3.2，对步骤3.1得到的灰度图像基于GLCM纹理特征提取方法进行纹理特征提取，基于GLCM纹理特征提取方法的具体步骤如下：

步骤3.2.1，从步骤3.1得到的每张灰度图像提取GLCM，首先将灰度图像降级为a(a＝16)级(步骤3.1得到的灰度图像为M级，0＜M≦256)，再计算水平方向(θ为0度)、距离d为1的GLCM，最终得到一个16*16的GLCM。

步骤3.2.2，基于步骤3.2.1得到的GLCM通过公式(1)-(5)计算出角二阶矩ASM、对比度Con、相关性Cor、熵Ent、相异性Dis五个特征值：

将样本三(GCC8.1.0版本编译器)和样本四(GCC8.3.1版本编译器) 里的灰度图像计算出的特征值分别存储，分别对应得到样本五(GCC8.1.0版本编译器)和样本六(GCC8.3.1版本编译器)。

步骤4，搭建BP神经网络模型并对模型训练，模型结构如图2所示，该模型共由三层组成，输入层、隐藏层、输出层，其中因为步骤3对每个样本提取出5个特征值，所以输入层共有5个神经元，隐藏层的神经元个数根据模型训练结果不断调整后为11个神经元时有良好的训练结果，输出层共有两个神经元。本实施例中采用通过交叉熵损失函数(CrossEntropy Loss)作为损失函数，将步骤4得到的样本五与样本六融合打乱后按照8：2的比率分为训练集(样本七)与测试集(样本八)，其中训练集(样本七)包含803个样本，测试集(样本八)包含201 个样本，将训练集(样本七)输入图2所示的模型进行训练，根据前向传播得到预测值，通过跟真实结果进行比较，得到损失值，接着根据反向传播，更新权值，经过来回不断的迭代，直到损失值达到最小，训练结果与测试结果达到理想值后就得到一个最优模型model A。本实施例通过调整学习率(learning rate＝0.0001)、隐藏层神经元为11，迭代200000次后得到一个最优模型modelA，本实施例中损失函数(Train loss)达到0.216,训练准确度为99.13％后基本不变即得到一个最优模型model A。

步骤5，用步骤4得到的测试集(样本八)对步骤4得到的模型model A 测试，最终测试准确度达到99％，通过步骤4得到的模型model A可以对一个c语言源码经过特定版本的编译器编译后的二进制文件(*.o文件) 进行检测，判断该c语言源码是由GCC8.1.0版本与GCC8.3.1版本编译器哪个版本的编译器编译出来的，基于这个思想，假设步骤4得到的模型是由两个相同版本的GCC编译器(其中一个是被植入恶意代码的，另一个是正常的)训练出的(虽然是同一版本，但是被植入恶意代码之后的编译器与未植入恶意代码的编译器就会变成两个不同版本的编译器，即相当于本发明中的GCC8.1.0版本编译器和GCC8.3.1版本编译器)，则通过步骤5 得到的这个最优模型model A可以判断出相同版本下的GCC编译器编译得到的二进制文件(*.o文件)是由哪一个编译器编译的(被植入恶意代码的还是正常的GCC编译器)，从而可以判断一个编译器是否有被恶意代码入侵。

Claims

1.一种基于机器学习的GCC编译器恶意代码入侵检测方法，其特征在于：具体包括如下步骤：

步骤1，下载c语言源代码数据集，记为样本A；

步骤3，对步骤2得到的样本集进行预处理；

步骤4，搭建BP神经网络模型并对模型进行训练，得到最优的BP神经网络模型，记为modelA；

步骤5，对步骤4输出的神经网络模型modelA进行测试。

2.根据权利要求1所述的一种基于机器学习的GCC编译器恶意代码入侵检测方法，其特征在于：所述步骤3的具体过程为：

3.根据权利要求2所述的一种基于机器学习的GCC编译器恶意代码入侵检测方法，其特征在于：所述步骤3.2的具体过程为：

4.根据权利要求2所述的一种基于机器学习的GCC编译器恶意代码入侵检测方法，其特征在于：所述步骤4的具体过程为：

其中，n是训练集样本数，y是真实的标签，a是神经网络的输出，x是输入样本；

步骤4.3，将步骤3.2.4得到的样本五和样本六融合后打乱，并按照8:2的比例分为训练集和测试集，并将训练集命名为样本七、将测试集命名为样本八；将样本七输入到步骤4.1搭建的BP神经网络模型中进行训练，经过若干次迭代，直到步骤4.2中的损失函数达到最小，训练结果稳定不变时，得到最优的神经网络模型，命名为model A。

5.根据权利要求4所述的一种基于机器学习的GCC编译器恶意代码入侵检测方法，其特征在于：所述步骤5的具体过程为：采用步骤4中的样本八对步骤4得到的最优的神经网络模型modelA进行测试，即用modelA对样本八中包含的样本五和样本六进行分类，当分类的准确率小于80％时，则继续重复步骤4.3对BP神经网络模型进行调参训练，直至测试集测试的准确度大于等于80％为止。