CN109299609A

CN109299609A - 一种elf文件检测方法及装置

Info

Publication number: CN109299609A
Application number: CN201810895149.9A
Authority: CN
Inventors: 陈宇龙; 华元彬
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2019-02-01

Abstract

本发明实施例提供一种ELF文件检测方法及装置，所述方法包括：获得待检测的可执行与可链接格式ELF文件；基于所述ELF文件的ELF头，确定所述ELF文件的类别信息；按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据；基于所述特征数据，计算所述ELF文件的特征向量；基于所述类别信息、所述特征向量和预先训练的机器学习模型库，检测所述ELF文件是否为恶意文件。如此，能够提高检测效率和准确率。

Description

一种ELF文件检测方法及装置

技术领域

本发明涉及安全领域，尤其涉及一种ELF文件检测方法及装置。

背景技术

ELF(Excutable and Linking Format，可执行与可链接格式)文件，也可称为目标文件格式(object file format)，是一种可执行与可链接格式的二进制文件，可以被调入处理器中直接运行，也可与多个ELF文件链接在一起而形成一个可执行文件来运行，被广泛地应用于计算机、手机等电子设别中。但是，恶意ELF文件会对用户信息的安全和用户财产造成极大的危害。

目前，主要是通过特征码串和简单的人工经验来检测恶意ELF文件，所查杀的病毒大多是已知病毒，难以对新病毒进行查杀。

在执行上述恶意ELF文件检测方法的过程中，发明人发现通过特征码串和简单的人工经验的启发式检测方式，严重依赖于分析人员的分析能力，由于分析人员的分析能力有限，会导致恶意ELF文件的检测效率和准确率较低。

发明内容

有鉴于此，本发明实施例提供一种ELF文件检测方法及装置，主要目的在于通过计算节点的均衡带宽值，来表征计算节点处理分布式任务的带宽能力，能够提高恶意ELF文件的检测效率和准确率。

为达到上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供一种ELF文件检测方法，所述方法包括：获得待检测的可执行与可链接格式ELF文件；基于所述ELF文件的ELF头，确定所述ELF文件的类别信息；按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据；基于所述特征数据，计算所述ELF文件的特征向量；基于所述类别信息、所述特征向量和预先训练的机器学习模型库，检测所述ELF文件是否为恶意文件。

第二方面，本发明实施例提供一种ELF文件检测装置，所述装置包括：获得单元，用于获得待检测的可执行与可链接格式ELF文件；确定单元，用于基于所述ELF文件的ELF头，确定所述ELF文件的类别信息；特征提取单元，用于按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据；计算单元，用于基于所述特征数据，计算所述ELF文件的特征向量；检测单元，用于基于所述类别信息、所述特征向量和预先训练的机器学习模型库，检测所述ELF文件是否为恶意文件。

第三方面，本发明实施例提供一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述ELF文件检测方法的步骤。

第四方面，本发明实施例提供一种ELF文件检测设备，所述设备至少包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述ELF文件检测方法的步骤。

本发明实施例提供的ELF文件检测方法及装置，在获得了待检测的ELF文件后，会基于该ELF文件的ELF头，来确定该ELF文件的类别信息；接下来，会按照预设策略，从该ELF文件中提取该ELF文件的特征数据，并基于该特征数据，计算出该ELF文件的特征向量；最后，可以基于该ELF文件的类别信息、特征向量和预先训练的机器学习模型库，来检测该ELF文件是否为恶意文件。这样，通过ELF文件的类别信息、特征向量和预先训练的机器学习模型库来对ELF文件进行检测，无需依赖于分析人员的分析能力，能够提高恶意ELF文件的检测效率和准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1A为本发明实施例一中的在链接视图下的ELF文件的结构示意图；

图1B为本发明实施例一中的在执行视图下的ELF文件的结构示意图；

图2为本发明实施例一中的ELF文件检测方法的流程示意图；

图3为本发明实施例二中的ELF文件检测方法的流程示意图；

图4为本发明实施例二中的训练机器学习模型的过程示意图；

图5为本发明实施例二中的检测ELF文件的过程示意图；

图6为本发明实施例三中的ELF文件检测装置的结构示意图；

图7为本发明实施例四中的ELF文件检测设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

本发明实施例提供一种ELF文件检测方法，该ELF文件检测方法的执行主体为ELF文件检测装置，该ELF文件检测装置可以应用于各种电子设备中。该ELF文件检测方法可以应用于各种对ELF文件进行安全性检测的场合。

在实际应用中，上述电子设备可以以各种形式来实施。例如，本发明中描述的电子设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigital Assistant，PDA)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机、服务器等固定终端。这里，本发明实施例不做具体限定。

首先，对ELF文件进行介绍。

ELF文件主要包括三种类型的目标文件：(1)、可重定位文件(relocatable file)，主要保存代码和相关数据，用来和其它目标文件结合来创建一个可执行文件或一个被共享的目标文件，例如，Linux系统中，后缀为.a和.o的文件；(2)、可执行文件(executablefile)，主要保存有一个能够执行的程序；(3)、被共享的目标文件(shared object file)，也可称为共享库，主要保存用于链接的代码和相关数据。

参见图1A和1B所示，ELF文件主要包括以下四部分：(1)、ELF头(ELF header)10，用于指示该ELF文件的组织信息，如版本信息、目标文件类型、程序头表的入口地址、节头表的入口地址、机器体系结构架构、处理器架构(也可称为指令集)、节的数量等；(2)、程序头表(Program Header Table)11，用于指示如何创建进程映像；(3)、节(Section)12或者段(Segment)13，用于提供目标文件的各项信息，如指令、数据、符号表、字符串表、散列表、重定位信息等，段为一个或多个节，节也可以称为节区；(4)、节头表(Section Header Table)14，用于指示ELF文件中每个节的信息，如节的入口、节的名称、节的类型、节的大小、节的数量等。

下面，对本发明实施例提供的ELF文件检测方法进行介绍。

图2为本发明实施例一中的ELF文件检测方法的流程示意图，参见图2所示，该ELF文件检测方法包括：

S201：获得待检测的ELF文件；

具体来说，在需要检测ELF文件是否为恶意ELF文件时，就会获得待检测的ELF文件。

S202：基于ELF文件的ELF头，确定ELF文件的类别信息；

在实际应用中，ELF文件的ELF头中所保存的该ELF文件的组织信息能够对ELF文件进行分类。因此，可以基于待检测的ELF文件的ELF头，来确定待检测的ELF文件的类别信息。

在具体实施过程中，上述S202可以包括：对待检测的ELF文件的ELF头进行解析，根据预设的第一EFL标识字，从待检测的ELF文件的ELF头中确定待检测的ELF文件的类别信息，其中，类别信息包括：处理器架构、文件类型、操作系统、机器体系结构和运行时内存布局信息中的一种或多种组合。

在实际应用中，上述预设的第一ELF标识字为标识字e_machine，也可以为标识字e_type，还可以为标识字e_ident中的成员EI_OSABI、EI_CLASS等，当然，还可以为其它标识字，例如标识字e_entry、标识字e_phoff、标识字e_shoff或者上述标识字中的多种的组合。可由本领域技术人员在具体实施过程中根据实际情况来设定，这里，本发明实施例不做具体限定。

在具体实施过程中，根据预先设置的第一ELF标识字的不同，上述根据预设的第一EFL标识字，从待检测的ELF头中确定待检测的ELF文件的类别信息的情况，存在且不限于以下五种实现方式：

第一种实现方式，将第一ELF标识字配置为e_machine，从而，就可以将待检测的ELF文件的处理器架构确定为待检测的ELF文件的类别信息。

在实际应用中，ELF文件的处理器架构包括Intel 80386、Intel 80860、MIPS、ARM、Sony DSP、X86-64等。

第二种实现方式，将第一ELF标识字配置为e_type，从而，就可以将待检测的ELF文件的目标文件类型确定为待检测的ELF文件的类别信息。

在实际应用中，ELF文件的目标文件类型包括未知类型文件(No file type)、可重定位文件、可执行文件、被共享的目标文件、内存转储文件(Core file)等。

第三种实现方式，将第一ELF标识字配置为EI_OSABI，从而，就可以将待检测的ELF文件的操作系统确定为待检测的ELF文件的类别信息。

在实际应用中，ELF文件的操作系统包括UNIX、GNU、Linux、FreeBSD、AIX等。

第四种实现方式，将第一ELF标识字配置为EI_CLASS，从而，就可以将待检测的ELF文件的机器体系结构确定为待检测的ELF文件的类别信息。

在实际应用中，ELF文件的机器体系结构包括：32位体系结构或者64位体系结构。

第五种实现方式，将第一ELF标识字配置为e_entry、e_phoff和e_shoff，从而，就可以将待检测的ELF文件的运行时内存布局信息确定为待检测的ELF文件的类别信息。

这里，e_entry用于指示虚拟地址信息；e_phoff用于指示程序头表的文件偏移信息(以字节为单位)；e_shoff用于指示文件偏移信息(以字节为单位)。

当然，除了上述所列出的实现方式外，还可以为其它实现方式，如上述实现方式的组合，这里，本发明实施例不做具体限定。

S203：按照预设策略，从ELF文件中，提取ELF文件的特征数据；

在具体实施过程中，根据预设策略的不同，从待检测的ELF文件中，提取待检测的ELF文件的特征数据的情况，存在且不限于以下几种情况：

第一种情况，直接将待检测的ELF文件的各部分中的原始数据确定为待检测的ELF文件的特征数据。

具体来说，上述S203可以包括：对待检测的ELF文件进行解析，将待检测的ELF文件的ELF头中的数据、待检测的ELF文件的程序头表中的数据和待检测的ELF文件的段中的数据中的至少一种确定为特征数据。

在实际应用中，由于ELF文件中的ELF头、程序头表、段这几部分中的数据容易感染病毒，因此，为了获得更高的精确度，可以将待检测的ELF文件的ELF头中的数据、待检测的ELF文件的程序头表中的数据、待检测的ELF文件的段中的数据中的多种组合确定为特征数据；为了获得更高的检测效率，可以将待检测的ELF文件的ELF头中的数据、待检测的ELF文件的程序头表中的数据、待检测的ELF文件的段中的数据中的任一种确定为特征数据。

第二种情况，将待检测的ELF文件的各部分中的部分数据确定为待检测的ELF文件的特征数据。

具体来说，上述S203还可以包括：根据预设的第二ELF标识字，从待检测的ELF文件的程序头表中的数据中，确定解释器信息；将解释器信息确定为特征数据；和/或，根据预设的第三ELF标识字，从待检测的ELF文件的程序头表中的数据中，确定动态链接信息；基于动态链接信息，从待检测的ELF文件中提取符号信息；将符号信息确定为特征数据。

在实际应用中，由于ELF文件为可执行文件或可被共享的目标文件时，容易感染病毒，因此，可以将ELF文件运行时所必须的解释器信息或者符号信息确定为待检测的ELF文件的特征数据。

这里，解释器能够用于解释ELF文件中的程序，符号信息是ELF文件中程序运行时确定符号意义和引用信息所必须的信息，所谓的符号就是经过修饰了的函数名或者变量名。

在具体实施过程中，为了从程序头表中提取解释器信息，可以将程序头表中的标识字PT_INERP确定为上述第二ELF标识字。从而，可以将PT_INERP数组元素中所存储的字符串确定为解释器信息。

在具体实施过程中，当ELF文件参与动态链接，则该ELF文件的程序头表中将会包含一个类型为PT_DYNAMIC的元素，对应地，ELF文件会包括动态段或动态节。此时，可以将程序头表中的标识字PT_DYNAMIC确定为上述第三ELF标识字，从而，可以将PT_DYNAMIC数组元素中所存储的数据确定为动态链接信息。接下来，就可以基于该动态链接信息，从该ELF文件的段中确定出符号信息。

举例来说，可以在获取到动态链接信息后，基于动态段的段偏移和段大小，就可以定位至ELF文件中的动态段处，然后，对动态链接信息所指示的动态段进行解析，从该动态段中确定出符号表的地址；基于该符号表的地址，获取符号表；然后，对符号表进行解析，得到符号名、符号类型、起始偏移、大小等符号信息。从而，就可以将符号信息确定为待检测的ELF文件的特征数据。

此外，为了获得更好的检测效果，需要获取更完整的符号信息，还可以从动态段中，确定出符号散列表的地址、字符串表的地址，以获取符号散列表和字符串表，利用符号散列表和字符串表来辅助查找符号表中的符号信息。

当然，预设策略还可以为其它，除了上述所列出的情况外，还可以通过其它方式来从待检测的ELF文件中提取该待检测的ELF文件的特征数据，例如，可以将待检测的ELF文件的段中的原始数据进行过滤，将过滤后的数据确定为待检测的ELF文件的特征数据。这里，本发明实施例不做具体限定。

进一步地，为了更准确地提取出待检测的ELF文件的特征数据，还可以配置上述预设策略包括多个子策略，此时，先根据待检测的ELF的类别信息，确定对应的子策略，然后，基于该子策略，从待检测的ELF文件中提取特征数据。

S204：基于特征数据，计算ELF文件的特征向量；

具体来说，在确定出待检测的ELF文件的特征数据后，就可以根据该特征数据计算出该ELF文件的特征向量，以便检测该ELF文件是否为恶意ELF文件。

在具体实施过程中，上述S204可以包括：将特征数据输入到降维算法中，计算出ELF文件的特征向量。

在实际应用中，上述降维算法可以为主成分分析(Principal ComponentAnalysis，PCA)算法，也可以为局部线性嵌入(Locally Linear Embedding，LLE)算法，当然，还可以为其它能够将特征数据向量化的算法，如线性判别式分析(LinearDiscriminant Analysis，LDA)算法或者其它改进算法。这里，本发明实施例不做具体限定。

当然，在实际应用中，除了通过上述示例的降维算法来将特征数据向量化，还可以采用其他算法来将特征数据向量化。

S205：基于类别信息、特征向量和预先训练的机器学习模型库，检测ELF文件是否为恶意文件。

具体来说，在获得了待检测的ELF文件对应的类别信息及特征向量后，就可以通过预先训练的机器学习模型，来检测该ELF文件是否为恶意文件。

在实际应用中，为了提高检测的精确度，根据ELF文件的类别信息进行了分类，针对每一类ELF文件会训练出对应的机器学习模型。从而，上述预先训练的机器学习模型库中存储有多种类别的机器学习模型，每一类别的机器学习模型各自用于检测对应类别的ELF文件是否为恶意文件。

那么，在具体实施过程中，上述S205可以包括：从预先训练的机器学习模型库中，确定出类别信息对应的目标模型；将特征向量输入目标模型中，获得输出值；将输出值与预设阈值进行比较；如果输出值大于预设阈值，确定ELF文件为恶意文件；否则，确定ELF文件为非恶意文件。

举例来说，假设在对机器学习模型进行分类时，是以训练该模型时所使用的ELF文件的处理器架构，例如，Intel 80386、Intel 80860、MIPS、ARM、Sony DSP、X86-64等进行分类的，此时，当待检测的ELF文件的类别信息为ARM时，就可以将机器学习模型库中类别信息为ARM的机器学习模型确定为目标模型。

这里，上述输出值可以是指被检测的ELF文件是恶意ELF文件的概率值，取值范围在[0.00～1.00]之间，当该输出值越大时，表明该被检测的ELF文件为恶意ELF文件的概率越大。

在实际应用中，上述预设阈值为经验值，如0.50、0.80等，由本领域技术人员在具体实施过程中根据实际情况来设定。这里，本发明实施例不做具体限定。

示例性地，一般情况下，可以将该预设阈值设置为0.50，假设某一ELF文件对应的输出值为0.68，则可以确定该ELF文件为恶意文件。当然，为了减少误报率，提高检测准确率，也可以该预设阈值设置为0.80。

至此，便完成了ELF文件的检测过程。

由上述内容可知，本发明实施例提供的ELF文件检测方法，在获得了待检测的ELF文件后，会基于该ELF文件的ELF头，来确定该ELF文件的类别信息；接下来，会按照预设策略，从该ELF文件中提取该ELF文件的特征数据，并基于该特征数据，计算出该ELF文件的特征向量；最后，可以基于该ELF文件的类别信息、特征向量和预先训练的机器学习模型库，来检测该ELF文件是否为恶意文件。这样，通过ELF文件的类别信息、特征向量和预先训练的机器学习模型库来对ELF文件进行检测，能够提高恶意ELF文件的检测效率和准确率。

实施例二

基于前述实施例，本发明实施例提供一种ELF文件检测方法，该方法应用于以下场景：为了保护用户信息安全、消除安全隐患，可以预先通过机器学习算法训练出机器学习模型，接下来，在获得ELF文件时，就可以通过预先训练的机器学习模型来检测是否存在恶意ELF文件。

图3为本发明实施例二中的ELF文件检测的流程示意图，参见图3所示，在执行上述S201之前，上述方法还可以包括：

S301：获得训练集；

其中，训练集包括恶意样本ELF文件和非恶意样本ELF文件；

在实际应用中，为了能够训练出检测精确度更好的机器学习模型，所获得的训练集中样本ELF文件的数量为海量的。

S302：分别确定训练集中的每一个样本ELF文件的类别信息；

需要说明的是，确定训练集中每一个样本ELF文件的类别信息的方法与前述实施例中确定待检测的ELF文件的类别信息的方法是一致的，可以参照前述方法实施例中的细节内容来实施，这里，不做过多赘述。

S303：基于训练集中的每一个样本ELF文件的类别信息，将训练集划分成至少两类训练子集；

S304：分别计算每一类训练子集中的每一个样本ELF文件的特征向量；

在具体实施过程中，上述S304可以包括：按照预设策略，分别从每一类训练子集中的每一个样本ELF文件中，提取每一类训练子集中的每一个样本ELF文件的的特征数据；分别基于每一类训练子集中的每一个样本ELF文件的特征数据，计算每一类训练子集中的每一个样本ELF文件的特征向量。

需要说明的是，确定每一类训练子集中每一个样本ELF文件的特征数据和特征向量的方法与前述实施例中确定待检测的ELF文件的特征数据和特征向量的方法是一致的，可以参照前述方法实施例中的细节内容来实施，这里，不做过多赘述。

此外，在实际应用中，针对不同类的训练子集可以采用相同的或者不同的预设策略来提取到特征数据。

S305：分别通过机器学习算法对每一类训练子集中的每一个样本ELF文件的特征向量进行学习，获得每一类训练子集各自对应的机器学习模型。

在实际应用中，上述机器学习算法可以为支持向量机(Support Vector Machine，SVM)，也可以为决策树(Decision Tree)，当然，还可为其它算法，如随机森林(RandomForest)、AdaBoost算法、深度学习(Deep Learning)等。这里，本发明实施例不做具体限定。

在实际应用中，ELF文件的类别信息的种类和数量与机器学习模型的类别信息的种类和数量是相对应的。

下面参见图4和图5所示，对上述训练机器学习模型的过程和ELF文件的检测过程进行说明。

首先，参见图4所示，在获得了由海量样本ELF文件组成的训练集40后，根据训练集的样本ELF文件的类别信息，对这些海量样本ELF文件进行分类，得到多类训练子集，如训练子集41、训练子集42、训练子集43等；然后，按照预设策略，分别从每一类训练子集中的每一个样本ELF文件中，提取每一类训练子集中的每一个样本ELF文件的的特征数据；分别基于每一类训练子集中的每一个样本ELF文件的特征数据，计算每一类训练子集中的每一个样本ELF文件的特征向量，对应地获得多个特征向量集，如特征向量集44、特征向量集45、特征向量集46，最后，分别通过机器学习算法对每一类训练子集中的每一个样本ELF文件的特征向量进行学习，获得每一类训练子集各自对应的机器学习模型，如模型47、模型48、模型49。这样，就获得了预先训练的机器学习模型库。

接下来，参见图5所示，在获得了预先训练的机器学习模型库之后，获得了待检测的ELF文件50，会先确定该ELF文件50的类别信息；然后，按照预设策略，从该ELF文件50中，提取该ELF文件50的特征数据，并基于该特征数据，计算出该ELF文件的特征向量，最后，将该特征向量输入到预先训练的机器学习模型库51中的与该类别信息对应的模型52中，获得检测结果。这样，就检测出ELF文件50是否为恶意文件。

由上述内容可知，本发明实施例提供的ELF文件检测方法，能够预先针对每一类ELF文件训练对应的机器学习模型，获得包含有多类机器学习模型的机器学习模型库，这样，通过该机器学习模型库来检测ELF文件是否为恶意文件时，能够提升检测效率和准确度。

实施例三

基于同一发明构思，作为对上述方法的实现，本发明实施例提供了一种ELF文件检测装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图6为本发明实施例三中的ELF文件检测装置的结构示意图，参见图6所示，该装置60包括：第一获得单元601，用于获得待检测的可执行与可链接格式ELF文件；第一确定单元602，用于基于ELF文件的ELF头，确定ELF文件的类别信息；特征提取单元603，用于按照预设策略，从ELF文件中，提取ELF文件的特征数据；第一计算单元604，用于基于特征数据，计算ELF文件的特征向量；检测单元605，用于基于类别信息、特征向量和预先训练的机器学习模型库，检测ELF文件是否为恶意文件。

在本发明实施例中，第一确定单元，用于对ELF文件的ELF头进行解析，根据预设的第一EFL标识字，从ELF头中确定类别信息，其中，类别信息包括：处理器架构、目标文件类型、操作系统、机器体系结构和运行时内存布局信息中的一种或多种组合。

在本发明实施例中，特征提取单元，用于对ELF文件进行解析，将ELF文件的ELF头中的数据、ELF文件的程序头表中的数据和ELF文件的段中的数据中的至少一种确定为特征数据。

在本发明实施例中，特征提取单元，还用于根据预设的第二ELF标识字，从ELF文件的程序头表中的数据中，确定解释器信息；将解释器信息确定为特征数据；和/或，根据预设的第三ELF标识字，从ELF文件的程序头表中的数据中，确定动态链接信息；基于动态链接信息，从ELF文件中提取符号信息；将符号信息确定为特征数据。

在本发明实施例中，第一计算单元，用于将特征数据输入到降维算法中，计算出ELF文件的特征向量。

在本发明实施例中，检测单元，用于基于类别信息，从预先训练的机器学习模型库中，确定出待检测的ELF文件对应的目标模型；将特征向量输入目标模型中，获得输出值；将输出值与预设阈值进行比较；如果输出值大于预设阈值，确定ELF文件为恶意文件；否则，确定ELF文件为非恶意文件。

在本发明其它实施例中，上述装置还包括：第二获得单元，用于获得训练集，其中，训练集包括恶意样本ELF文件和非恶意样本ELF文件；第二确定单元，用于分别确定训练集中的每一个样本ELF文件的类别信息；划分单元，用于基于训练集中的每一个样本ELF文件的类别信息，将训练集划分成至少两类训练子集；第二计算单元，用于分别计算每一类训练子集中的每一个样本ELF文件的特征向量；学习单元，用于分别通过机器学习算法对每一类训练子集中的每一个样本ELF文件的特征向量进行学习，获得每一类训练子集各自对应的机器学习模型。

实施例四

基于同一发明构思，本发明实施例提供一种ELF文件检测设备。图7为本发明实施例四中的ELF文件检测设备的结构示意图，参见图7所示，该ELF文件检测设备70包括：存储器701、处理器702以及存储在存储器701上并可在处理器702上运行的计算机程序703，处理器执行程序703时实现上述实施例中的ELF文件检测方法的步骤。

上述处理器可由中央处理器(Central Processing Unit，CPU)、微处理器(MicroProcessor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。存储器可能包括计算机可读介质中的非永久性存储器，随机存储器(Random Access Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(Flash RAM)，存储器包括至少一个存储芯片。

实施例五

基于同一发明构思，本实施例提供一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在程序运行时控制所述存储介质所在设备执行上述实施例中的ELF文件检测方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，RAM和/或非易失性内存等形式，如ROM或Flash RAM。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质可以是ROM、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是快闪记忆体或其他内存技术、CD-ROM、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息；还可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种ELF文件检测方法，其特征在于，所述方法包括：

获得待检测的可执行与可链接格式ELF文件；

基于所述ELF文件的ELF头，确定所述ELF文件的类别信息；

按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据；

基于所述特征数据，计算所述ELF文件的特征向量；

基于所述类别信息、所述特征向量和预先训练的机器学习模型库，检测所述ELF文件是否为恶意文件。

2.根据权利要求1所述的方法，其特征在于，所述基于所述ELF文件的ELF头，确定所述ELF文件的类别信息，包括：

对所述ELF文件的ELF头进行解析，根据预设的第一EFL标识字，从所述ELF头中确定所述类别信息，其中，所述类别信息包括：处理器架构、目标文件类型、操作系统、机器体系结构和运行时内存布局信息中的一种或多种组合。

3.根据权利要求1所述的方法，其特征在于，所述按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据，包括：

对所述ELF文件进行解析，将所述ELF文件的ELF头中的数据、所述ELF文件的程序头表中的数据和所述ELF文件的段中的数据中的至少一种确定为所述特征数据。

4.根据权利要求1所述的方法，其特征在于，所述按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据，包括：

根据预设的第二ELF标识字，从所述ELF文件的程序头表中的数据中，确定解释器信息；将所述解释器信息确定为所述特征数据；

和/或，

根据预设的第三ELF标识字，从所述ELF文件的程序头表中的数据中，确定动态链接信息；基于所述动态链接信息，从所述ELF文件中提取符号信息；将所述符号信息确定为所述特征数据。

5.根据权利要求1所述的方法，其特征在于，所述基于所述特征数据，计算所述ELF文件的特征向量，包括：

将所述特征数据输入到降维算法中，计算出所述ELF文件的特征向量。

6.根据权利要求1所述的方法，其特征在于，所述基于所述类别信息、所述特征向量和预先训练的机器学习模型库，检测所述ELF文件是否为恶意文件，包括：

基于所述类别信息，从预先训练的机器学习模型库中，确定出所述待检测的ELF文件对应的目标模型；

将所述特征向量输入所述目标模型中，获得输出值；

将所述输出值与预设阈值进行比较；

如果所述输出值大于所述预设阈值，确定所述ELF文件为恶意文件；否则，确定所述ELF文件为非恶意文件。

7.根据权利要求1所述的方法，其特征在于，在所述获得待检测的可执行与可链接格式ELF文件之前，所述方法还包括：

获得训练集，其中，所述训练集包括恶意样本ELF文件和非恶意样本ELF文件；

分别确定所述训练集中的每一个样本ELF文件的类别信息；

基于所述训练集中的每一个样本ELF文件的类别信息，将所述训练集划分成至少两类训练子集；

分别计算每一类训练子集中的每一个样本ELF文件的特征向量；

分别通过机器学习算法对每一类训练子集中的每一个样本ELF文件的特征向量进行学习，获得所述每一类训练子集各自对应的机器学习模型。

8.一种ELF文件检测装置，其特征在于，所述装置包括：

第一获得单元，用于获得待检测的可执行与可链接格式ELF文件；

第一确定单元，用于基于所述ELF文件的ELF头，确定所述ELF文件的类别信息；

特征提取单元，用于按照预设策略，从所述ELF文件中，提取所述ELF文件的特征数据；

第一计算单元，用于基于所述特征数据，计算所述ELF文件的特征向量；

检测单元，用于基于所述类别信息、所述特征向量和预先训练的机器学习模型库，检测所述ELF文件是否为恶意文件。

9.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的ELF文件检测方法的步骤。

10.一种ELF文件检测设备，其特征在于，所述设备至少包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任一项所述的ELF文件检测方法的步骤。