CN110619213A

CN110619213A - 基于多模型特征的恶意软件识别方法、系统及相关装置

Info

Publication number: CN110619213A
Application number: CN201810639511.6A
Authority: CN
Inventors: 章明星; 位凯志
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2019-12-27
Also published as: WO2019242442A1

Abstract

本申请公开了一种基于多模型特征的恶意软件识别方法，包括：对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，得到各原始特征；对各原始特征进行融合处理，得到融合特征向量；利用线性分类器对融合特征向量进行分类，得到恶意软件识别结果。同时使用特征提取模型集中的多种特征提取模型实现对同一待测文件的特征提取，再将各模型提取得到的原始特征进行融合得到融合特征向量，最终利用线性分类器对该融合特征向量完成恶意软件的识别，可同时兼具多种特征提取模型的优点，增加恶意软件的识别准确度。本申请还同时公开了一种基于多模型特征的恶意软件识别系统、设备及计算机可读存储介质，具有上述有益效果。

Description

基于多模型特征的恶意软件识别方法、系统及相关装置

技术领域

本申请涉及恶意软件识别领域，特别涉及一种基于多模型特征的恶意软件识别方法、系统、装置及计算机可读存储介质。

背景技术

随着计算机编程技术的不断发展，基于各式计算机语言编程得到的软件也使得人们能够更加方便的在计算机中完成各式任务和工作，但携带恶意内容的恶意软件也随之出现，恶意的攻击正常数据文件或盗取他人劳动成果。因此，对待测软件进行是否为恶意软件的识别是十分重要的。

不论如何进行恶意内容的识别，总需要从待测软件中提取相应的识别特征信息，而传统的恶意软件识别方法往往依赖某一种特定的特征提取算法或模型，意图以同一种方式识别所有类型的恶意内容。当实际情况并非如此，由于恶意内容、恶意软件表现形式越来越多样化，只使用固定的一种特征提取算法或模型的方式也越来越行不通了，因为无法对变化幅度较大的新式恶意内容进行较好的识别，导致实际使用效果越来越差。

因此，如何克服现有仅使用固定的特征提取算法或模型带来的各项技术缺陷，提供一种使用多特征提取算法或模型分别对同一待测文件进行特征提取，并将各种算法或模型提取到的原始特征进行融合以具有更好的恶意软件识别效果的方法是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种基于多模型特征的恶意软件识别方法，同时使用特征提取模型集中的多种特征提取模型实现对同一待测文件的特征提取，再将各模型提取得到的原始特征进行融合得到融合特征向量，最终利用线性分类器对该融合特征向量完成恶意软件的识别，可同时兼具多种特征提取模型的优点，增加恶意软件的识别准确度。

本申请的另一目的在于提供了一种基于多模型特征的恶意软件识别系统、装置及计算机可读存储介质。

为实现上述目的，本申请提供一种基于多模型特征的恶意软件识别方法，该方法包括：

对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，得到各原始特征；其中，所述特征提取模型集中包括二进制特征提取模型、字符串特征提取模型、汇编代码特征提取模型以及动态特征提取模型中的至少一种；

对各所述原始特征进行融合处理，得到融合特征向量；

利用线性分类器对所述融合特征向量进行分类，得到恶意软件识别结果。

可选的，对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，包括：

判断当前测试环境下是否允许执行所述PE文件；

若允许，则同时利用所述二进制特征提取模型、所述字符串特征提取模型、所述汇编代码特征提取模型以及所述动态特征提取模型对所述PE文件分别进行特征提取；

若不允许，则同时利用所述二进制特征提取模型、所述字符串特征提取模型以及所述汇编代码特征提取模型对所述PE文件分别进行特征提取。

可选的，在对各所述原始特征进行融合处理，得到融合特征向量之前，还包括：

对各所述原始特征根据各所述特征提取模型的不同种类分别使用不同的无监督高维特征提取技术进行降维，得到对应的各降维特征。

可选的，对各所述原始特征进行融合处理，得到融合特征向量，包括：

将各所述降维特征按预设拼接方式进行拼接，得到所述融合特征向量。

可选的，在利用线性分类器对所述融合特征向量进行分类之前，还包括：

利用由一维卷积神经网络组成的自编码器对所述融合特征向量进行降维处理，得到最终综合特征。

可选的，利用线性分类器对所述融合特征向量进行分类，得到恶意软件识别结果，包括：

利用所述线性分类器对所述最终综合特征进行分类，得到所述恶意软件识别结果。

为实现上述目的，本申请还提供了一种基于多模型特征的恶意软件识别系统，该系统包括：

多模型特征提取单元，用于对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，得到各原始特征；其中，所述特征提取模型集中包括二进制特征提取模型、字符串特征提取模型、汇编代码特征提取模型以及动态特征提取模型中的至少一种；

特征融合单元，用于对各所述原始特征进行融合处理，得到融合特征向量；

分类识别单元，用于利用线性分类器对所述融合特征向量进行分类，得到恶意软件识别结果。

可选的，所述多模型特征提取单元包括：

情景判断子单元，用于判断当前测试环境下是否允许执行所述PE文件；

可执行处理子单元，用于当允许执行所述PE文件时，同时利用所述二进制特征提取模型、所述字符串特征提取模型、所述汇编代码特征提取模型以及所述动态特征提取模型对所述PE文件分别进行特征提取；

不可执行处理子单元，用于当不允许执行所述PE文件时，同时利用所述二进制特征提取模型、所述字符串特征提取模型以及所述汇编代码特征提取模型对所述PE文件分别进行特征提取。

可选的，该系统还包括：

原始特征降维单元，用于对各所述原始特征根据各所述特征提取模型的不同种类分别使用不同的无监督高维特征提取技术进行降维，得到对应的各降维特征。

可选的，所述特征融合单元包括：

拼接融合单元，用于将各所述降维特征按预设拼接方式进行拼接，得到所述融合特征向量。

可选的，所述特征融合单元还包括：

自编码器降维子单元，用于利用由一维卷积神经网络组成的自编码器对所述融合特征向量进行降维处理，得到最终综合特征。

可选的，所述分类识别单元包括：

线性分类器识别子单元，用于利用所述线性分类器对所述最终综合特征进行分类，得到所述恶意软件识别结果。

为实现上述目的，本申请还提供了一种基于多模型特征的恶意软件识别装置，该装置包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述内容所描述的恶意软件识别方法的步骤。

为实现上述目的，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述内容所描述的恶意软件识别方法的步骤。

本申请所提供的一种基于多模型特征的恶意软件识别方法：对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，得到各原始特征；其中，所述特征提取模型集中包括二进制特征提取模型、字符串特征提取模型、汇编代码特征提取模型以及动态特征提取模型中的至少一种；对各所述原始特征进行融合处理，得到融合特征向量；利用线性分类器对所述融合特征向量进行分类，得到恶意软件识别结果。

显然，本申请所提供的技术方案，同时使用特征提取模型集中的多种特征提取模型实现对同一待测文件的特征提取，再将各模型提取得到的原始特征进行融合得到融合特征向量，最终利用线性分类器对该融合特征向量完成恶意软件的识别，可同时兼具多种特征提取模型的优点，增加恶意软件的识别准确度。本申请同时还提供了一种基于多模型特征的恶意软件识别系统、装置及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种基于多模型特征的恶意软件识别方法的流程图；

图2为本申请实施例所提供的另一种基于多模型特征的恶意软件识别方法的流程图；

图3为本申请实施例所提供的一种基于多模型特征的恶意软件识别系统的结构框图。

具体实施方式

本申请的核心是提供一种基于多模型特征的恶意软件识别方法、系统、装置及计算机可读存储介质，同时使用特征提取模型集中的多种特征提取模型实现对同一待测文件的特征提取，再将各模型提取得到的原始特征进行融合得到融合特征向量，最终利用线性分类器对该融合特征向量完成恶意软件的识别，可同时兼具多种特征提取模型的优点，增加恶意软件的识别准确度。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一

以下结合图1，图1为本申请实施例所提供的一种基于多模型特征的恶意软件识别方法的流程图。

其具体包括以下步骤：

S101：对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，得到各原始特征；

本步骤旨在利用预设的特征提取模型集中的各特征提取模型对同一PE文件(Portable Executable，可移植的可执行的文件，常见的EXE、DLL、OCX、SYS、COM都是PE文件，PE文件是微软Windows操作系统上的程序文件)分别进行特征提取，得到基于各特征提取模型对应的原始特征。

结合对PE文件的分类，可以将PE文件按照特征的不同分为多类，其中一种现今常用的特征分类方法为：(1)二进制特征，即PE文件本身所表示的二进制流(由0或1组成)作为是否为恶意文件的判别基础；(2)字符串特征，即从PE文件中提取出来的各类字符串，包括节的名称、编译器的名称、程序中带有的URL(Uniform Resource Locator，统一资源定位符)、IP、邮件地址等特殊信息，还可以从中提取得到调用的系统函数等等作为是否为恶意文件的判别基础；(3)汇编代码特征，即对PE文件进行反汇编，并从反汇编的结果中提取得到包括寄存器的访问序列、指令码的执行序列等在内的信息作为是否为恶意文件的判别基础；(4)动态特征，即以待测程序执行时产生的各类文件操作作为是否为恶意文件的判别基础，其中一种动态特征的分类方法为：时间特征、访问文件模式特征以及其它系统调用特征。

当然，随着技术的发展，可能会随之出现更多种类的特征分类方法，可以将更多的特征提取模型加入该特征提取模型集中，以实现更好、更全面的特征提取效果，另外也可以根据实际情况删去某些特征提取模型，具有较高的可拓展性，此处并不将特征提取模型局限于上述四种。

其中，上述各类特征中的有些特征的得到需要基于特殊的测试环境，例如动态特征的获取，需要该测试环境能够实际运行该待测程序或文件，因为只有该待测程序或文件被执行才能够获取其文件操作，并据此从文件操作中获取各类别动态特征。

传统的恶意软件识别方法往往仅依据一类特征提取模型或算法得到的特征进行是否为恶意软件的判断，然而在真实情况下没有任何一种特定的特征提取模型或算法可以在所有类型的恶意软件上都拥有良好的表现，总有些特征提取模型或算法在某种类型的恶意软件的识别过程中表现较好，而在其它类别的恶意软件识别过程中表现较差，即使同一种特征提取模型也可以在对其参数进行调节后拥有不同的特征提取效果，传统使用过程中，为得到最佳的特征提取效果可能需要经过多次尝试并根据待测文件的不同进行改变，需要花费较大的成本的资源。

因此，需要结合多种体征提取模型或算法的优点，将各类别特征提取模型对同一PE文件分别进行特征提取，并基于得到的各原始特征进行特征融合。

进一步的，由于经过各类特征提取模型对应得到的原始特征构成较为复杂，拥有较高的维度，而高维度的原始特征也不利于后续特征融合操作的执行和处理，因此可以对其进行降维操作。由于各类别特征提取模型间存在较大的不同，可以对不同类别的特征提取模型得到原始特征使用不同的高维特征提取方法进行降维。

具体的，高维特征提取方法主要分为有监督和无监督两大类，其中有监督方式需要人工对各特征进行标签附加处理，而无监督方式则无需附加标签，前者以极大的前期人力资本带来较好的特征提取效果，而后者则以各式聚类算法在无标签情况下得到较为一般的特征提取效果，但通常情况下无法投入那么多的人力进行标签标注，更倾向于使用无监督特征提取方法。

S102：对各原始特征进行融合处理，得到融合特征向量；

在S101的基础上，本步骤旨在对经各特征提取模型或算法对应得到的各原始特征进行融合，以得到包含各原始特征的融合特征向量，以在后续步骤中对综合了各特征提取模型优点得到融合特征向量进行更加全面的分类。

其中，如何实现将各类别特征提取模型得到的各原始特征进行融合是本申请的重点。由于各类别特征提取模型提取得到的各原始特征的表现形式并非完全一致，可能需要对某些原始特征进行转换，而特征融合从原理上大体可分为：直接拼接、去重增加以及其它在特殊要求下得到的特殊融合方式，本申请并不限定具体如何进行特征的融合，只要能够基于特征融合的思想，实现将多类别特征提取模型得到的各类原始特征综合即可，以实现更加全面的特征提取和恶意软件识别效果。

进一步的，为方便后续分类，还可以利用由一维卷积神经网络组成的自编码器对该融合特征向量进行降维处理，得到最终综合特征，即该最终综合特征是一个一维向量，可以极大的方便后续步骤中分类器对该向量的分类。

S103：利用线性分类器对融合特征向量进行分类，得到恶意软件识别结果。

在S102的基础上，本步骤旨在利用线性分类器对得到的融合特征向量进行分类，以得到恶意软件识别结果。其中线性分类器可以基于包括但不限于逻辑回归、支持向量机、决策树等等算法搭建。

基于上述技术方案，本申请实施例提供的一种基于多模型特征的恶意软件识别方法，同时使用特征提取模型集中的多种特征提取模型实现对同一待测文件的特征提取，再将各模型提取得到的原始特征进行融合得到融合特征向量，最终利用线性分类器对该融合特征向量完成恶意软件的识别，可同时兼具多种特征提取模型的优点，增加恶意软件的识别准确度。

实施例二

以下结合图2，图2为本申请实施例所提供的另一种基于多模型特征的恶意软件识别方法的流程图。

S201：判断当前测试环境下是否允许执行PE文件；

S202：同时利用二进制特征提取模型、字符串特征提取模型、汇编代码特征提取模型以及动态特征提取模型对PE文件分别进行特征提取；

本步骤建立在S201对当前测试环境的判断结果为可以执行该PE文件的基础上，因此满足动态特征提取模型的使用要求，可以使用上述四种不同的特征提取模型进行特征的提取。

S203：同时利用二进制特征提取模型、字符串特征提取模型以及汇编代码特征提取模型对PE文件分别进行特征提取；

本步骤建立在S201对当前测试环境的判断结果为无法执行该PE文件的基础上，因此不满足动态特征提取模型的使用要求，仅可以使用除动态特征提取模型外的其余三种特征提取模型进行特征的提取。

S204：对各原始特征根据各特征提取模型的不同种类分别使用不同的无监督高维特征提取技术进行降维，得到对应的各降维特征；

S205：将各降维特征按预设拼接方式进行拼接，得到融合特征向量；

本步骤旨在基于拼接的方法将经过降维操作得到的各降维特征进行拼接得到融合特征向量。一种优选的特征拼接方式为：使用维度相同的各降维特征进行拼接，例如将三个分别被命名为01、02和03的2维向量按照01、02、03的顺序进行拼接，得到一个2维长向量。

S206：利用由一维卷积神经网络组成的自编码器对融合特征向量进行降维处理，得到最终综合特征；

S207：利用线性分类器对最终综合特征进行分类，得到恶意软件识别结果。

本实施例在实施例一的基础上，通过S201、S202以及S203增加了对当前测试环境下是否允许执行PE文件的判断，以便准确的得到后续能够使用的特征提取模型对PE文件进行特征提取，并通过S204增加使用不同的无监督高维特征提取技术进行降维处理，以拼接各降维特征得到融合特征向量，且通过S206使用自编码器对融合特征向量进行再次降维，使得最终得到一个更准确的恶意软件识别结果。

需要说明的是，本实施例区别于实施例一的基础增加、限定均可以单独基于实施例一构成相应的具体实施例，也可以灵活组合得到一个更优的方案，本实施例仅为一个组合各种优选的实现方案得到的一个最优实施例。

因为情况复杂，无法一一列举进行阐述，本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子，在不付出足够的创造性劳动下，应均在本申请的保护范围内。

下面请参见图3，图3为本申请实施例所提供的一种基于多模型特征的恶意软件识别系统的结构框图。

该恶意软件识别系统可以包括：

多模型特征提取单元100，用于对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，得到各原始特征；其中，特征提取模型集中包括二进制特征提取模型、字符串特征提取模型、汇编代码特征提取模型以及动态特征提取模型中的至少一种；

特征融合单元200，用于对各原始特征进行融合处理，得到融合特征向量；

分类识别单元300，用于利用线性分类器对融合特征向量进行分类，得到恶意软件识别结果。

其中，多模型特征提取单元100包括：

情景判断子单元，用于判断当前测试环境下是否允许执行PE文件；

可执行处理子单元，用于当允许执行PE文件时，同时利用二进制特征提取模型、字符串特征提取模型、汇编代码特征提取模型以及动态特征提取模型对PE文件分别进行特征提取；

不可执行处理子单元，用于当不允许执行PE文件时，同时利用二进制特征提取模型、字符串特征提取模型以及汇编代码特征提取模型对PE文件分别进行特征提取。

进一步的，该系统还可以包括：

原始特征降维单元，用于对各原始特征根据各特征提取模型的不同种类分别使用不同的无监督高维特征提取技术进行降维，得到对应的各降维特征。

其中，特征融合单元200包括：

拼接融合单元，用于将各降维特征按预设拼接方式进行拼接，得到融合特征向量。

进一步的，特征融合单元200还可以包括：

自编码器降维子单元，用于利用由一维卷积神经网络组成的自编码器对融合特征向量进行降维处理，得到最终综合特征。

其中，分类识别单元300包括：

线性分类器识别子单元，用于利用线性分类器对最终综合特征进行分类，得到恶意软件识别结果。

本申请所提供的基于多模型特征的恶意软件识别系统具有极高的可拓展性，可以任意增删特征提取模型的种类以及相应的高纬特征提取方法且不影响其它分类器的使用，同时也可以极大的降低调节参数的人工开销，只需将不同参数的同一特征提取模型产生的输出作为不同的原始特征一并进行融合即可。

在此基础上，为防止盲目增加特征提取模型的数量带来的较大的计算资源使用，还可以增加选择特征提取模型的内容，其中一种方法为：通过在训练结果每次从所有不同种类的原始特征中随机选择部分进行融合并通过实验集合评定此次融合的交过，并在最终训练时只取之前融合效果中最好的几种执行后续步骤。基于该思想能够较为容易的得到多种具体实现方法，在此不再赘述。

基于上述实施例，本申请还提供了一种基于多模型特征的恶意软件识别装置，该恶意软件识别装置可以包括存储器和处理器，其中，该存储器中存有计算机程序，该处理器调用该存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然，该恶意软件识别装置还可以包括各种必要的网络接口、电源以及其它零部件等。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于多模型特征的恶意软件识别方法，其特征在于，包括：

对各所述原始特征进行融合处理，得到融合特征向量；

2.根据权利要求1所述方法，其特征在于，对待测软件中的各PE文件利用预设的特征提取模型集中的各特征提取模型分别进行特征提取，包括：

判断当前测试环境下是否允许执行所述PE文件；

3.根据权利要求1所述方法，其特征在于，在对各所述原始特征进行融合处理，得到融合特征向量之前，还包括：

4.根据权利要求3所述方法，其特征在于，对各所述原始特征进行融合处理，得到融合特征向量，包括：

5.根据权利要求1至4任一项所述方法，其特征在于，在利用线性分类器对所述融合特征向量进行分类之前，还包括：

6.根据权利要求5所述方法，其特征在于，利用线性分类器对所述融合特征向量进行分类，得到恶意软件识别结果，包括：

7.一种基于多模型特征的恶意软件识别系统，其特征在于，包括：

8.根据权利要求7所述系统，其特征在于，所述多模型特征提取单元包括：

9.根据权利要求7所述系统，其特征在于，还包括：

10.根据权利要求9所述系统，其特征在于，所述特征融合单元包括：

11.根据权利要求7至10任一项所述系统，其特征在于，所述特征融合单元还包括：

12.根据权利要求11所述系统，其特征在于，所述分类识别单元包括：

13.一种基于多模型特征的恶意软件识别装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的恶意软件识别方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的恶意软件识别方法的步骤。