CN108734012A

CN108734012A - 恶意软件识别方法、装置及电子设备

Info

Publication number: CN108734012A
Application number: CN201810489276.9A
Authority: CN
Inventors: 刘旭; 胡逸漪; 章丽娟
Original assignee: Shanghai Junpan Network Technology Co Ltd
Current assignee: Shanghai Junpan Network Technology Co Ltd
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-02
Anticipated expiration: 2038-05-21
Also published as: CN108734012B

Abstract

本申请提供一种恶意软件识别方法、装置及电子设备，方法包括：获取待识别软件，并对待识别软件进行反编译得到待处理代码；根据待处理代码中调用系统API的代码所在的位置，将待处理代码拆分为多个代码基因片段；采用第一随机森林模型对多个代码基因片段进行检测，获得静态检测结果；在沙箱虚拟环境中运行待识别软件，获得待识别软件调用的系统API，采用第二随机森林模型对待识别软件调用的系统API进行检测，判断待识别软件的动态运行过程中是否存在恶意行为，并获得动态检测结果；根据静态检测结果及动态检测结果判断待识别软件是否为恶意软件。如此，可以有效提高对恶意软件识别的精确度，更全面地进行恶意软件的识别。

Description

恶意软件识别方法、装置及电子设备

技术领域

本申请涉及软件安全技术领域，具体而言，涉及一种恶意软件识别方法、装置及电子设备。

背景技术

随着信息技术的不断发展，应用在各种电子设备上的软件越来越多，各种软件内容供应商也越来越繁杂，相应地，对软件安全的要求也越来越高。软件安全技术领域，常需要对未知的软件进行检测识别，判断软件是否为恶意软件。在现有技术的恶意软件识别方案中，大多基于静态识别，即对软件代码进行整体分析，将软件代码与已知的恶意代码做比对，判断软件代码中是否存在恶意代码，这种检测方式单一，往往造成识别不全面，检测结果的不稳定，例如在进行加壳样本处理时会在一定程度上影响静态检测的结果，造成误判。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种恶意软件识别方法，所述方法包括：

获取待识别软件，并对所述待识别软件进行反编译得到待处理代码；

根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段；

采用预先训练的第一随机森林模型对所述多个代码基因片段进行检测，判断所述多个代码基因片段中是否存在恶意代码，并获得静态检测结果；

在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用的系统API，采用预先训练的第二随机森林模型对所述待识别软件调用的系统API进行检测，判断所述待识别软件的动态运行过程中是否存在恶意行为，并获得动态检测结果；

根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件。

可选地，在上述方法中，所述根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段的步骤，包括：

获取所述待处理代码中调用系统API的代码所在的位置；

以相邻的两条调用系统API的代码之间的部分作为一个代码基因片段，将所述待处理代码拆分为多个代码基因片段。

可选地，在上述方法中，所述采用预先训练的第一随机森林模型对所述多个代码基因片段进行检测，判断所述多个代码基因片段中是否存在恶意代码，并获得静态检测结果的步骤，包括：

根据预设的多个基因项，检测所述待识别软件的多个代码基因片段是否具有所述多个基因项，得到该待识别软件的基因向量；

采用预先训练的第一随机森林模型对所述基因向量进行检测，得到所述静态检测结果。

可选地，在上述方法中，所述在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用的系统API，采用预先训练的第二随机森林模型对所述待识别软件调用的系统API进行检测的步骤，包括：

在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用运行行为记录；

从所述运行行为记录中提取所述待识别软件运行过程中调用的系统API，并输入预先训练的Word2Vec模型，得到API向量；

采用预先训练的第二随机森林模型对所述API向量进行检测，得到动态检测结果。

可选地，在上述方法中，所述获取待识别软件，并对所述待识别软件进行反编译得到待处理代码的步骤可包括：

获取待识别软件，通过IDA反汇编工具将待识别软件反编译为asm格式的待处理代码。

可选地，在上述方法中，所述根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件的步骤包括：

获得所述静态检测结果及动态检测；

若所述静态检测结果及动态检测结果检测均为非恶意，则判定所述待识别软件为非恶意软件；若所述静态检测结果或所述动态检测结果中的至少一个为恶意，则判定所述待识别软件为恶意软件。

可选地，在上述方法中，所述获得所述静态检测结果及动态检测的步骤之后，所述方法还包括：

将所述待识别软件提交至第三方检测平台进行检测；

根据第三方检测平台的检测结果对所述静态检测结果及所述动态检测结果进行修正。

可选地，在上述方法中，所述方法还包括：

若判定所述待识别软件为恶意软件，则对所述待识别软件进行yara规则的生成，并根据该待识别软件在所述沙箱虚拟环境中的运行记录对该待识别软件进行抗动态分析检测。

本申请的另一目的在于提供一种恶意软件识别装置，所述装置包括：

预处理模块，用于获取待识别软件，并对所述待识别软件进行反编译得到待处理代码；

基因提取模块，用于根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段；

静态检测模块，用于采用预先训练的第一随机森林模型对所述多个代码基因片段进行检测，判断所述多个代码基因片段中是否存在恶意代码，并获得静态检测结果；

动态检测模块，用于在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用的系统API，采用预先训练的第二随机森林模型对所述待识别软件调用的系统API进行检测，判断所述待识别软件的动态运行过程中是否存在恶意行为，并获得动态检测结果；

结果输出模块，用于根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件。

本申请的另一目的在于提供一种电子设备，所述电子设备包括可读存储介质级处理器；所述可读存储介质存储有机器可执行指令，所述机器可执行指令再被所述处理器执行或调用时，促使所述电子设备实现本申请提供的恶意软件识别方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请提供的恶意软件识别方法、装置及电子设备，通过根据待识别软件的代码中对系统API调用的代码的位置将待识别软件拆分成多个代码基因片段，并对代码基因片段进行静态识别，再结合沙箱动态识别一起判断待识别软件是否为恶意软件。如此，可以有效提高对恶意软件识别的精确度，更全面地进行恶意软件的识别。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的方框示意图；

图2为本申请实施例提供的恶意软件识别方法的流程示意图之一；

图3为本申请实施例提供的恶意软件识别方法的流程示意图之二；

图4为本申请实施例提供的恶意软件识别装置的示意图。

图标：100-电子设备；110-恶意软件识别装置；111-预处理模块；112-基因提取模块；113-静态检测模块；114-动态检测模块；115-结果输出模块；120-存储器；130-处理器。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参照图1，图1是本实施例提供的一种电子设备100的方框示意图。所述电子设备100包括恶意软件识别装置110、存储器120及处理器130。

所述存储器120及处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述恶意软件识别装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述恶意软件识别装置110所包括的软件功能模块及计算机程序等。

其中，所述存储器120可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。

请参照图2，图2为本实施例提供的一种应用于图1所示的电子设备100的恶意软件识别方法的流程图，以下将对所述方法包括各个步骤进行详细阐述。

步骤S110，获取待识别软件，并对所述待识别软件进行反编译得到待处理代码。

在本实施例中，所述待识别软件可以为PE类型的文件或者是ELF类型的文件。所述电子设备100在获取到获取所述待识别软件后，可以通过IDA反汇编工具将待识别软件反编译为asm格式的待处理代码，其中，所述IDA反汇编工具是一种交互式的反汇编程序插件，可以将软件反编译位汇编语言的格式。

通过步骤S110可以将待识别软件反编译成统一的asm格式，有利于之后步骤的检测识别。

步骤S120，根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段。

在本实施例中，需要对待处理代码进行拆分，拆分的原则是在正常运行的情况下(无外接终端或内部崩溃)，无论任何输入，拆分出的每个代码片段应该是可以单独地完整被执行或者单独地完全不被执行，也就是说，拆分出的代码片段可做一个小的整体来表达，即拆分出的代码片段具有基因原子性。

经发明人研究发现，软件运行过程中会调用很多API，其中，如果调用的API为该软件本身API，则需要依赖该API返回值后续动作都可以在软件内部执行；如果调用的API为系统API，则需要等待外部操作系统的API返回值才能继续执行后续步骤。也就是说，相邻的两条调用系统API的代码之间的部分通常在不调用系统API时，可以完整地被执行。

故在本实施例中，根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段。具体地，在本实施例中，获取所述待处理代码中调用系统API的代码所在的位置。以相邻的两条调用系统API的代码之间的部分作为一个代码基因片段，将所述待处理代码拆分为多个代码基因片段。

步骤S130，采用预先训练的第一随机森林模型对所述多个代码基因片段进行检测，判断所述多个代码基因片段中是否存在恶意代码，并获得静态检测结果。

具体地，在本实施例中，根据预设的多个基因项，检测所述待识别软件的多个代码基因片段是否具有所述多个基因项，得到该待识别软件的基因向量。例如，将所述多个基因代码片段含有的基因项记录在该向量中，有为1，没有则为0，进行LE(LaplacianEigenmaps，拉普拉斯特征映)降维，最终得到所述待识别软件基因向量。

然后，采用预先训练的第一随机森林模型对所述基因向量进行检测。

所述第一随机森林模型在训练时对训练样本中的软件基因片段进行提取，记录所有的软件基因片段的种类，将种类数量设置为向量的维度。得到的所述第一随机森林模型可以包括多个随机树，每个随机数包括对应不同的基因项组合是否为恶意代码的多个判断分支。

将所述代码基因片段形成的基因向量输入所述第一随机森林后，遍历所述第一随机森林模型中的各个分支，得到所述多个代码基因片段对应的基因项组合是否为存在恶意，即获得所述静态检测结果。

步骤S140，在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用的系统API，采用预先训练的第二随机森林模型对所述待识别软件调用的系统API进行检测，判断所述待识别软件的动态运行过程中是否存在恶意行为，并获得动态检测结果。

具体地，在本实施例中，所述电子设备100可以提供一个沙箱虚拟环境，并在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用运行行为记录。例如，将所述待识别软件在沙箱虚拟环境中运行之后会记录其行为，并且截获该待识别软件在运行过程中调用API接口传递的数据得到pcap文件。

接着，所述电子设备100可以从所述运行行为记录中提取所述待识别软件运行过程中调用的系统API，并输入预先训练的Word2Vec模型，得到API向量。然后，采用预先训练的第二随机森林模型对所述API向量进行检测，得到动态检测结果。例如，在获得运行行为记录和pcap文件之后，将运行行为记录文件中该待识别软件调用的系统API提取出来，将其经过Word2Vec进行训练，得到API的向量表达形式，并将其作为参数输入进随机森林模型中最终得到动态的结果。

步骤S150，根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件。

在本实施例中，若所述静态检测结果及动态检测结果检测均为非恶意，则判定所述待识别软件为非恶意软件；若所述静态检测结果或所述动态检测结果中的至少一个为恶意，则判定所述待识别软件为恶意软件。

进一步地，为了提高识别率，减少误判，在本实施例中，在获得所述静态检测结果及动态检测的步骤之后，所述电子设备100可以将所述待识别软件提交至第三方检测平台进行检测，然后根据第三方检测平台的检测结果对所述静态检测结果及所述动态检测结果进行修正。

例如，在一个例子中，所述第三方检测平台可以为类似VirusTotal的病毒检测平台。所述电子设备100将所述待识别软件提交至VirusTotal后，若VirusTotal的结果为0，则将所述静态检测结果重新设置为非恶意；若所述动态检测结果为恶意，但VirusTotal的结果小于等于3，则将所述动态检测结果重新设置为非恶意；若所述动态检测结果为非恶意，但VirusTotal的结果大于10，则将所述动态检测结果重新设置为恶意。

然后在根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件。

为了针对被判定为恶意的软件进一步地分析，请参照图3，本实施例中，在步骤S150之后所述方法还可以包括步骤S160。

步骤S160，若判定所述待识别软件为恶意软件，则对所述待识别软件进行yara规则的生成，并根据该待识别软件在所述沙箱虚拟环境中的运行记录对该待识别软件进行抗动态分析检测。

请参照图4，本实施例还提供一种应用于图1所示电子设备100的恶意软件识别装置110，所述装置包括预处理模块111、基因提取模块112、静态检测模块113、动态检测模块114及结果输出模块115。

所示预处理模块111，用于获取待识别软件，并对所述待识别软件进行反编译得到待处理代码。

本实施例中，所述预处理模块111可用于执行图2所示的步骤S110，关于所述预处理模块111的具体描述可参对所述步骤S110的描述。

所示基因提取模块112，用于根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段。

本实施例中，所述基因提取模块112可用于执行图2所示的步骤S120，关于所述基因提取模块112的具体描述可参对所述步骤S120的描述。

所示静态检测模块113，用于采用预先训练的第一随机森林模型对所述多个代码基因片段进行检测，判断所述多个代码基因片段中是否存在恶意代码，并获得静态检测结果。

本实施例中，所述静态检测模块113可用于执行图2所示的步骤S130，关于所述静态检测模块113的具体描述可参对所述步骤S130的描述。

所示动态检测模块114，用于在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用的系统API，采用预先训练的第二随机森林模型对所述待识别软件调用的系统API进行检测，判断所述待识别软件的动态运行过程中是否存在恶意行为，并获得动态检测结果。

本实施例中，所述动态检测模块114可用于执行图2所示的步骤S140，关于所述动态检测模块114的具体描述可参对所述步骤S140的描述。

所示结果输出模块115，用于根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件。

本实施例中，所述结果输出模块115可用于执行图2所示的步骤S150，关于所述结果输出模块115的具体描述可参对所述步骤S150的描述。

综上所述，本申请提供的恶意软件识别方法、装置及电子设备，通过根据待识别软件的代码中对系统API调用的代码的位置将待识别软件拆分成多个代码基因片段，并对代码基因片段进行静态识别，再结合沙箱动态识别一起判断待识别软件是否为恶意软件。如此，可以有效提高对恶意软件识别的精确度，更全面地进行恶意软件的识别。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种恶意软件识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待处理代码中调用系统API的代码所在的位置，将所述待处理代码拆分为多个代码基因片段的步骤，包括：

获取所述待处理代码中调用系统API的代码所在的位置；

3.根据权利要求1所述的方法，其特征在于，所述采用预先训练的第一随机森林模型对所述多个代码基因片段进行检测，判断所述多个代码基因片段中是否存在恶意代码，并获得静态检测结果的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述在沙箱虚拟环境中运行所述待识别软件，获得所述待识别软件调用的系统API，采用预先训练的第二随机森林模型对所述待识别软件调用的系统API进行检测的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待识别软件，并对所述待识别软件进行反编译得到待处理代码的步骤可包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述静态检测结果及所述动态检测结果判断所述待识别软件是否为恶意软件的步骤包括：

获得所述静态检测结果及动态检测；

7.根据权利要求6所述的方法，其特征在于，所述获得所述静态检测结果及动态检测的步骤之后，所述方法还包括：

将所述待识别软件提交至第三方检测平台进行检测；

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

9.一种恶意软件识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括可读存储介质级处理器；所述可读存储介质存储有机器可执行指令，所述机器可执行指令再被所述处理器执行或调用时，促使所述电子设备实现权利要求1-8任意一项所述的方法。