CN113378162A

CN113378162A - 可执行和可链接格式文件的检验方法、装置及存储介质

Info

Publication number: CN113378162A
Application number: CN202010119293.0A
Authority: CN
Inventors: 刘彦南; 李朝竟; 郭开
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-09-10
Anticipated expiration: 2040-02-25
Also published as: CN113378162B

Abstract

本发明公开了一种可执行和可链接格式文件的检验方法，包括以下步骤：根据可执行和可链接格式ELF文件的文件属性，识别所述ELF文件所属的类别，其中，所述文件属性包括文件类型和/或所述ELF文件对应的来源平台类型，所述文件类型包括可重定位文件、可执行文件和可被共享文件；提取所述ELF文件的文件特征，所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个；根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果，所述检验结果为所述ELF文件属于恶意ELF文件或正常ELF文件。本发明还公开了一种可执行和可链接格式文件的检验装置以及计算机可读存储介质。本发明提高了对ELF文件进行检验的准确率。

Description

可执行和可链接格式文件的检验方法、装置及存储介质

技术领域

本发明涉及计算机安全技术领域，尤其涉及一种可执行和可链接格式文件的检验方法、可执行和可链接格式文件的检验装置以及计算机可读存储介质。

背景技术

在计算机科学中，ELF(Executable and Linking Format，可执行和可链接格式)文件是一种用于二进制文件、可执行文件、目标代码、共享库和核心转储格式文件。由于ELF文件是Linux操作系统中最主要的可执行文件格式，因此不少恶意软件会采用恶意ELF文件攻击Linux操作系统，故在检测恶意软件的过程中，实质上是对软件下的ELF文件进行识别，以判断其是属于恶意ELF文件，还是属于正常ELF文件。

目前的ELF文件检测技术，对于不同平台类型的ELF文件检测能力有巨大差异，未针对不同类型细分下的ELF文件进行检测，对所有类型的ELF文件采取同样的检测手段，这样往往容易造成对部分客户系统内正常ELF文件造成误报，而对恶意ELF文件造成漏报，从而导致对ELF文件进行检验的准确率低下。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种可执行和可链接格式文件的检验方法、可执行和可链接格式文件的检验装置以及计算机可读存储介质，提高了对ELF文件进行检验的准确率。

为实现上述目的，本发明提供一种可执行和可链接格式文件的检验方法，所述可执行和可链接格式文件的检验方法包括以下步骤：

根据可执行和可链接格式ELF文件的文件属性，识别所述ELF文件所属的类别，其中，所述文件属性包括文件类型和/或所述ELF文件对应的来源平台类型，所述文件类型包括可重定位文件、可执行文件和可被共享文件；

提取所述ELF文件的文件特征，所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个；

根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果，所述检验结果为所述ELF文件属于恶意ELF文件或正常ELF文件。

可选地，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤包括：

将所述文件特征输入至所述类别对应的训练模型中得到检验结果；

其中，所述训练模型为根据所述类别对应的多组恶意ELF文件的文件特征，以及根据所述类别对应的多组正常ELF文件的文件特征训练得到。

可选地，所述恶意ELF文件包括所述类别下的所有种类的恶意ELF文件，其中，所述恶意ELF文件的活跃数大于对应的所述种类中其他恶意ELF文件的活跃数。

可选地，所述提取所述ELF文件的文件特征的步骤之后，还包括：

当所述ELF文件存在多个文件特征时，根据所述ELF文件的类别对应的特征融合算法，对所述ELF文件对应的多个文件特征进行特征融合；

将特征融合后的文件特征作为对所述ELF文件进行检验的文件特征。

可选地，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤之后，还包括：

在根据所述检验结果判定所述ELF文件属于恶意ELF文件时，对所述ELF文件进行拦截，并将所述ELF文件加入黑名单中。

可选地，所述的可执行和可链接格式文件的检验方法还包括：

获取到待检验的ELF文件时，检测所述待检验的ETF文件是否属于所述黑名单；

若是，判定所述待检验的ELF文件属于恶意ELF文件，并对所述待检验的ELF文件进行拦截；

若否，执行所述根据ELF文件的文件属性识别所述ELF文件所属的类别的步骤。

在根据所述检验结果判定所述ELF文件属于正常ELF文件时，将所述ELF文件加入白名单中；

其中，在检测到待检验的ELF文件属于所述白名单时，判定所述待检验的ELF文件属于正常ELF文件。

为实现上述目的，本发明提供一种可执行和可链接格式文件的检验装置，所述可执行和可链接格式文件的检验装置包括：

识别模块，用于根据可执行和可链接格式ELF文件的文件属性，识别所述ELF文件所属的类别，其中，所述文件属性包括文件类型和/或所述ELF文件对应的来源平台类型，所述文件类型包括可重定位文件、可执行文件和可被共享文件；

提取模块，用于提取所述ELF文件的文件特征，所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个；

检验模块，用于根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果，所述检验结果为所述ELF文件属于恶意ELF文件或正常ELF文件。

为实现上述目的，本发明还提供一种可执行和可链接格式文件的检验装置，所述可执行和可链接格式文件的检验装置包括：

所述可执行和可链接格式文件的检验装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的可执行和可链接格式文件的检验程序，所述可执行和可链接格式文件的检验程序被所述处理器执行时实现如上述可执行和可链接格式文件的检验方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行和可链接格式文件的检验程序，所述可执行和可链接格式文件的检验程序被处理器执行时实现如上述可执行和可链接格式文件的检验方法的步骤。

本发明提供的可执行和可链接格式文件的检验方法、可执行和可链接格式文件的检验装置以及计算机可读存储介质，根据可执行和可链接格式ELF文件的文件属性，识别所述ELF文件所属的类别，其中，所述文件属性包括文件类型和/或所述ELF文件对应的来源平台类型，所述文件类型包括可重定位文件、可执行文件和可被共享文件；提取所述ELF文件的文件特征，所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个；根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果，所述检验结果为所述ELF文件属于恶意ELF文件或正常ELF文件。这样，提高了对ELF文件进行检验的准确率。

附图说明

图1为本发明实施例方案涉及的实施例终端的硬件运行环境示意图；

图2为本发明可执行和可链接格式文件的检验方法第一实施例的流程示意图；

图3为本发明可执行和可链接格式文件的检验方法第二实施例的流程示意图；

图4为本发明可执行和可链接格式文件的检验方法第三实施例的流程示意图；

图5为本发明实施例方案涉及的可执行和可链接格式文件的检验装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种可执行和可链接格式文件的检验方法，提高了对ELF文件进行检验的准确率。

如图1所示，图1是本发明实施例方案涉及的实施例终端的硬件运行环境示意图；

本发明实施例终端可以是可执行和可链接格式文件的检验装置，可执行和可链接格式文件的检验装置可以具体为计算机设备。

如图1所示，该终端可以包括：处理器1001，例如CPU中央处理器(centralprocessing unit)，存储器1002，通信总线1003。其中，通信总线1003用于实现该终端中各组成部件之间的连接通信。存储器1002可以是高速RAM随机存储器(random-accessmemory)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对本发明实施例终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1002中可以包括可执行和可链接格式文件的检验程序。

在图1所示的终端中，处理器1001可以用于调用存储器1002中存储的可执行和可链接格式文件的检验程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1002中存储的可执行和可链接格式文件的检验程序，还执行以下操作：

所述恶意ELF文件包括所述类别下的所有种类的恶意ELF文件，其中，所述恶意ELF文件的活跃数大于对应的所述种类中其他恶意ELF文件的活跃数。

参照图2，在一实施例中，所述可执行和可链接格式文件的检验方法包括：

步骤S10、根据可执行和可链接格式ELF文件的文件属性，识别所述ELF文件所属的类别，其中，所述文件属性包括文件类型和/或所述ELF文件对应的来源平台类型，所述文件类型包括可重定位文件、可执行文件和可被共享文件。

本实施例中，实施例终端可以是可执行和可链接格式文件的检验装置，可执行和可链接格式文件的检验装置可以具体为计算机设备。

终端预先根据ELF(Executable and Linking Format，可执行和可链接格式)文件的文件属性，将ELF文件划分为多个类别。其中，ELF文件的文件属性包括文件类型和/或ELF文件对应的来源平台类型。

需要说明的是，终端预先确定有ELF文件所应用的操作平台的类型，当终端在获取ELF文件时，当前获取的ELF文件所应用的操作平台的类型，即为ELF文件对应的来源平台类型。其中，这些操作平台可以是ARM(Advanced RISC Machines)平台、sparc平台、MIPS平台、Intel平台等等。

需要说明的是，ELF文件的文件类型包括可重定位文件、可执行文件和可被共享文件(lib库文件)。

可选地，ELF文件的文件属性包括文件类型和ELF文件对应的来源平台类型。例如，一个ELF文件来自于ARM平台，并且ELF文件的文件类型是可执行文件，那么终端可以将这个类别划分为“ARM_可执行”。

可选地，终端从某个操作平台上获取到待检验的ELF文件时，则识别该ELF文件的文件属性，并进一步根据其文件属性，识别该ELF文件所属的类别。

步骤S20、提取所述ELF文件的文件特征，所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个。

可选地，终端在识别待检验的ELF文件所属的类别后，则提取该ELF文件的文件特征。所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个。

其中，ELF文件的证书信息特征，可以是根据ELF文件对应的来源方的数字证书的相关信息，提取得到的特征值(当然也不排除证书信息特征为数字证书全部信息)。

其中，ELF文件的静态特征为可用于通过静态检测方法检测ELF文件的特征数据。当一个ELF文件存在静态结构属性时，终端即可以获取该静态结构属性对应的特征，得到ELF文件的静态特征。

其中，ELF文件的动态特征为可用于通过动态检测方法检测ELF文件的特征数据。终端可以是通过使用沙箱获得取到的ELF文件的动态信息特征，作为动态特征。

需要说明的是，静态检测方法是通过分析恶意软件的二进制代码、反汇编后的代码、反汇编后的静态调用等获取恶意软件的特征，利用分类算法在正常软件与恶意代码之间建立较好的分割线。动态检测方法一般是通过分析恶意软件运行时的API调用系列，提取出在恶意软件和正常文件频繁出现且在两类软件中具有较好区分度的子系列，然后使用分类算法对两类软件进行分类。

终端预先根据为各个类别的ELF文件建立有对应的特征融合算法，每一个类别的ELF文件的特征融合算法，可以采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法和基于深度学习理论算法中的至少一种建立。

可选地，当终端从待检验的ELF文件中提取文件特征后，检测ELF文件是否存在多个对应的文件特征(即是否存在至少两个文件特征)。

可选地，当终端从待检验的ELF文件中只提取得到一个文件特征时，则直接将该文件特征作为后续对该ELF文件进行检验的文件特征。

可选地，当终端从待检验的ELF文件中提取得到多个文件特征时，则终端可以该ELF文件的类别所对应的特征融合算法，对所述ELF文件对应的多个文件特征进行特征融合，并将进行特征融合后得到文件特征，作为后续对该ELF文件进行检验的文件特征。

步骤S30、根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果，所述检验结果为所述ELF文件属于恶意ELF文件或正常ELF文件。

可选地，终端预先为各个类别的ELF文件建立有对应的训练模型，训练模型用于根据ELF文件的文件特征进行检验。可选地，训练模型可以是机器学习模型，如神经网络模型。

需要说明的是，神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

可选地，每个ELF文件类别的训练模型的训练样本，由该类别对应的多组恶意ELF文件的文件特征，以及该类别对应的多组正常ELF文件的文件特征组成。

可选地，终端在对训练样本进行采样时，可以是随机在待检验的真实场景中采集一定数量的恶意ELF文件和正常ELF文件，并识别出这些ELF文件的文件类型、来源平台类型等信息。需要说明的是，待检验的真实场景可以是任一物联网环境下，各类型终端设备的检测场景。

进一步地，终端根据采集样本的文件类型和来源平台类型等信息，识别出采集到恶意ELF文件和正常ELF文件所属的类别，然后根据类别将这些采集样本划分至各类别对应的训练模型中，作为训练模型的训练样本。

进一步地，终端在采集恶意ELF文件的样本时，对每个ELF文件类别的恶意ELF文件统计大类病毒家族变种，获得每个病毒种类下的热门恶意ELF文件作为采集样本。其中，热门恶意ELF文件的定义，为其活跃数需大于对应的病毒种类中其他恶意ELF文件的活跃数；即选取当前ELF文件类别下的各个种类的恶意ELF文件作为采集样本时，每个种类所选取的恶意ELF文件的活跃数，大于该种类下的其他恶意ELF文件的活跃数。

可选地，终端可以是先对每个病毒种类下的恶意ELF文件的活跃数进行排序，然后选取活跃数排序前几名的恶意ELF文件作为采集样本。

需要说明的是，恶意ELF文件的活跃数，表征为该恶意ELF文件出现的次数，或者该恶意ELF文件攻击系统的活跃程度。每个恶意ELF文件的活跃数，可以通过大数据统计或者联网获取。

这样，可以实现针对主流的恶意ELF文件(比较热门的恶意ELF文件)构建对应的训练模型，使得基于此构建的训练模型更容易检测出这些恶意ELF文件。

可选地，终端得到每个ELF文件类别的训练样本，则将训练样本加入至该ELF文件类别对应的训练模型中进行训练。

可选地，终端在得到待检验的ELF文件所属的类别，以及文件特征后，根据ELF文件的类别选择对应的训练模型，并将该ELF文件的文件特征作为训练模型的入参，输入至训练模型中。通过训练模型检验该ELF文件是属于恶意ELF文件，还是属于正常ELF文件，并且输出相应的检验结果。

应当理解的是，在训练模型输出的检验结果为当前ELF文件属于恶意ELF文件时，则终端判定ELF文件为恶意ELF文件；在训练模型输出的检验结果为当前ELF文件属于正常ELF文件时，则终端判定ELF文件为正常ELF文件。

在一实施例中，通过对检测场景采样进行统计分析，获取当前场景下ELF文件的文件类型、来源平台类型，划分出ELF文件的类别。并且统计各类别内热门恶意ELF文件的大类家族。依据上述信息按类别收集恶意ELF文件和恶意ELF文件，划分训练集，对每个类别的ELF文件单独提取文件特征构建对应的训练模型，并基于这些训练模型对待检验的ELF文件进行检验。这样，实现针对不同类型细分下的ELF文件进行检验，并对各类别的ELF文件采取相应的训练模型进行检验，从而降低了正常ELF文件的误报率和恶意ELF文件的漏报率，进而提高了对ELF文件进行检验的准确率。

在第二实施例中，如图3所示，在上述图2所示的实施例基础上，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤之后，还包括：

步骤S40、在根据所述检验结果判定所述ELF文件属于恶意ELF文件时，对所述ELF文件进行拦截，并将所述ELF文件加入黑名单中。

本实施例中，终端在根据检验结果判定ELF文件属于恶意ELF文件时，则对ELF文件进行拦截。

可选地，终端建立有ELF文件的黑名单，可以将判定为恶意ELF文件的ELF文件加入到黑名单中。

可选地，终端在获取到待检验的ELF文件时，可以是先检验该ETF文件是否已列入黑名单中。

可选地，终端若检测到待检验的ETF文件属于黑名单中时，则终端可以直接判定该ELF文件属于恶意ELF文件，并对该ELF文件进行拦截；可选地，终端若检测到待检验的ETF文件不属于黑名单中时，则执行所述根据ELF文件的文件属性识别所述ELF文件所属的类别的步骤，通过对步骤S10至步骤S30的执行，进一步判断该ELF文件是属于恶意ELF文件，还是属于正常ELF文件。

这样，通过建立ELF文件的黑名单，可以提高ELF文件的检验效率。

在第三实施例中，如图4所示，在上述图2至图3的实施例基础上，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤之后，还包括：

步骤S50、在根据所述检验结果判定所述ELF文件属于正常ELF文件时，将所述ELF文件加入白名单中。

本实施例中，终端在根据检验结果判定ELF文件属于正常ELF文件时，则不对该ELF文件进行拦截，或者允许该ELF文件执行。

可选地，终端建立有ELF文件的白名单，可以将判定为正常ELF文件的ELF文件加入到白名单中。

可选地，终端在获取到待检验的ELF文件时，可以是先检验该ETF文件是否已列入白名单中。

可选地，终端若检测到待检验的ETF文件属于白名单中时，则终端可以直接判定该ELF文件属于正常ELF文件；可选地，终端若检测到待检验的ETF文件不属于白名单中时，则执行所述根据ELF文件的文件属性识别所述ELF文件所属的类别的步骤，通过对步骤S10至步骤S30的执行，进一步判断该ELF文件是属于恶意ELF文件，还是属于正常ELF文件。

这样，通过建立ELF文件的白名单，可以提高ELF文件的检验效率。

此外，本发明还提出一种可执行和可链接格式文件的检验装置，所述可执行和可链接格式文件的检验装置包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行和可链接格式文件的检验程序，所述处理器执行所述可执行和可链接格式文件的检验程序时实现如以上实施例所述的可执行和可链接格式文件的检验方法的步骤。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质包括可执行和可链接格式文件的检验程序，所述可执行和可链接格式文件的检验程序被处理器执行时实现如以上实施例所述的可执行和可链接格式文件的检验方法的步骤。

本发明还提出一种可执行和可链接格式文件的检验装置。

参照图5所示，为本发明可执行和可链接格式文件的检验装置的功能模块示意图。

在该实施例中，该可执行和可链接格式文件的检验装置包括：

识别模块10，用于根据可执行和可链接格式ELF文件的文件属性，识别所述ELF文件所属的类别，其中，所述文件属性包括文件类型和/或所述ELF文件对应的来源平台类型，所述文件类型包括可重定位文件、可执行文件和可被共享文件。

可选地，终端从某个操作平台上获取到待检验的ELF文件时，则通过识别模块10识别该ELF文件的文件属性，并进一步根据其文件属性，识别该ELF文件所属的类别。

提取模块20，用于提取所述ELF文件的文件特征，所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个。

可选地，终端在识别待检验的ELF文件所属的类别后，则通过提取模块20提取该ELF文件的文件特征。所述文件特征包括静态特征、动态特征和证书信息特征中的至少一个。

检验模块30，用于根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果，所述检验结果为所述ELF文件属于恶意ELF文件或正常ELF文件。

可选地，检验模块30由各个ELF文件类别的训练模型构成。

这样，实现针对不同类型细分下的ELF文件进行检验，并对各类别的ELF文件采取相应的训练模型进行检验，从而降低了正常ELF文件的误报率和恶意ELF文件的漏报率，进而提高了对ELF文件进行检验的准确率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是可选实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是电视机，手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种可执行和可链接格式文件的检验方法，其特征在于，所述可执行和可链接格式文件的检验方法包括以下步骤：

2.如权利要求1所述的可执行和可链接格式文件的检验方法，其特征在于，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤包括：

3.如权利要求2所述的可执行和可链接格式文件的检验方法，其特征在于，所述恶意ELF文件包括所述类别下的所有种类的恶意ELF文件，其中，所述恶意ELF文件的活跃数大于对应的所述种类中其他恶意ELF文件的活跃数。

4.如权利要求1至3中任一项所述的可执行和可链接格式文件的检验方法，其特征在于，所述提取所述ELF文件的文件特征的步骤之后，还包括：

5.如权利要求1至3中任一项所述的可执行和可链接格式文件的检验方法，其特征在于，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤之后，还包括：

6.如权利要求5所述的可执行和可链接格式文件的检验方法，其特征在于，所述的可执行和可链接格式文件的检验方法还包括：

7.如权利要求1至3中任一项所述的可执行和可链接格式文件的检验方法，其特征在于，所述根据所述类别和所述文件特征，对所述ELF文件进行检验，得到检验结果的步骤之后，还包括：

在根据所述检验结果判定所述ELF文件属于正常ELF文件时，将所述ELF文件加入白名单中。

8.一种可执行和可链接格式文件的检验装置，其特征在于，所述可执行和可链接格式文件的检验装置包括：

9.一种可执行和可链接格式文件的检验装置，其特征在于，所述可执行和可链接格式文件的检验装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的可执行和可链接格式文件的检验程序，所述可执行和可链接格式文件的检验程序被所述处理器执行时实现如权利要求1至7中任一项所述的可执行和可链接格式文件的检验方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行和可链接格式文件的检验程序，所述可执行和可链接格式文件的检验程序被处理器执行时实现如权利要求1至7中任一项所述的可执行和可链接格式文件的检验方法的步骤。