CN109101817B

CN109101817B - 一种识别恶意文件类别的方法及计算设备

Info

Publication number: CN109101817B
Application number: CN201810916255.0A
Authority: CN
Inventors: 李晓燕; 朱斌; 师政毅
Original assignee: Asiainfo Technologies (chengdu) Inc
Current assignee: Asiainfo Technologies (chengdu) Inc
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2023-09-01
Anticipated expiration: 2038-08-13
Also published as: CN109101817A

Abstract

本发明公开了一种识别恶意文件类别的方法及用于执行该方法的计算设备。其中，该方法包括步骤：对待识别的恶意文件进行预处理，以生成预处理文件；采用预定方式提取出预处理文件的至少一个特征；对至少一个特征进行处理，生成第一数目个第一特征向量；以及将第一数目个第一特征向量输入到预设分类模型中，以识别出待识别的恶意文件的类别。

Description

一种识别恶意文件类别的方法及计算设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别恶意文件类别的方法及计算设备。

背景技术

恶意文件指在计算机系统上执行恶意任务的病毒、蠕虫、木马程序，以及可能导致计算机使用者信息外泄的广告程序、间谍程序、后门程序等。恶意文件通常通过网络进行传播，随着近些年网络的普及，恶意文件也愈发地泛滥，且新恶意文件的数量剧增，严重危害着网络安全。因此，通过识别恶意文件的类型来对恶意文件进行主动防御，甚至查杀恶意文件，就变得越来越重要。

现有的技术方案大都采用静态特征匹配技术来进行恶意文件的检测和分类。通过采集各种恶意文件样本并提取其特征码来建立特征库，在检测时通过比较待检测文件的特征码与特征库中特征码的一致性，来判断待检测文件是否属于该恶意文件样本所在的类别。但现有方案对于变异或新型恶意文件(例如目前广泛传播的变形病毒、多态病毒等)很难检测出来，且误判率高；另外，随着特征库的增大，其检测效率也会大大降低。

鉴于上述原因，亟需一种能够快速准确地识别恶意文件类别的方案。

发明内容

为此，本发明提供了一种识别恶意文件类别的方案，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种识别恶意文件类别的方法，该方法适于在计算设备中执行，包括步骤：对待识别的恶意文件进行预处理，以生成预处理文件；采用预定方式提取出预处理文件的至少一个特征；对至少一个特征进行处理，生成第一数目个第一特征向量；以及将第一数目个第一特征向量输入到预设分类模型中，以识别出待识别的恶意文件的类别。

可选地，在根据本发明的方法中，预设分类模型包括依次相连的第一处理模块、特征处理模块和第二处理模块，其中，第一处理模块包括第一数目个第一子处理模块，每个第一子处理模块包括一个全连接层，每个第一子处理模块适于对一个对应的第一特征向量进行处理以输出一个中间特征向量；特征处理模块适于将第一子处理模块输出的第一数目个中间特征向量与至少一个第一特征向量进行组合以到第二特征向量，并输入到第二处理模块；以及第二处理模块包括一个全连接层和分类处理层，适于基于输入的第二特征向量，识别出待识别的恶意文件的类别。

可选地，在根据本发明的方法中，还包括通过训练生成预设分类模型的步骤，包括：获取经过标注的恶意文件作为训练样本，训练样本具有相应的标注数据，且标注数据指示该训练样本的类别；生成各训练样本的第一数目个第一特征向量；将各训练样本的第一数目个第一特征向量输入预训练的分类模型中进行处理，以输出指示该训练样本类别的索引值；以及根据标注数据对预训练的分类模型进行模型训练，并在满足预定条件时训练结束，得到训练后的分类模型作为预设分类模型，其中，分类模型包括依次相连的第一处理模块、特征处理模块和第二处理模块。

可选地，在根据本发明的方法中，通过训练生成预设分类模型的步骤还包括：在第一处理模块和第二处理模块中，在各全连接层之后还包括优化处理层，适于以预定概率随机放弃该分类模型中的至少一个节点来训练模型。

可选地，在根据本发明的方法中，对待识别的恶意文件进行预处理、以生成预处理文件的步骤包括：对待识别的恶意文件进行文件脱壳处理，以得到第一预处理文件；以及对第一预处理文件进行反汇编处理，以得到第二预处理文件。

可选地，在根据本发明的方法中，采用预定方式提取出预处理文件的至少一个特征的步骤包括：采用预定方式来提取第一特征和/或第二特征和/或第三特征和/或第四特征和/或第五特征的步骤，并且还包括对所提取的特征进行归一化处理的步骤。

可选地，在根据本发明的方法中，第一数目为4，其中，对至少一个特征进行处理、生成第一数目个第一特征向量的步骤包括：将第一特征和第二特征合并为一个第一特征向量；以及将第三特征、第四特征和第五特征分别作为一个第一特征向量。

可选地，在根据本发明的方法中，提取第一预处理文件调用的应用程序编程接口、作为第三特征的步骤还包括：利用预设网络对所提取的应用程序编程接口进行降维处理，作为第三特征；其中预设网络采用稀疏自编码的网络结构，包括两层全连接层。

可选地，在根据本发明的方法中，还包括采用半监督学习的方式训练生成预设网络的步骤。

可选地，在根据本发明的方法中，通过训练生成预设分类模型的步骤还包括：通过训练得到第二数目个训练后的分类模型，均作为预设分类模型。

可选地，在根据本发明的方法中，识别待识别的恶意文件的类别的步骤还包括：将第一数目个第一特征向量输入到各预设分类模型中，经各预设分类模型处理后输出第二数目个指示该恶意文件类别的索引值；统计各索引值出现的次数，并将出现次数最多的索引值作为最终索引值；以及将最终索引值所指示的类别确认为该待识别的恶意文件的类别。

根据本发明的一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上所述任一方法的指令。

根据本发明的一个方面，提供一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上所述的任一方法。

根据本发明的方案，采用深度学习的方式来识别恶意文件的类别，提高了识别的速度和准确率，同时还降低了人工成本。另外，基于深度学习本身的优势，对于海量数据的训练可以通过GPU进行加速，相比传统的机器学习算法，根据本发明的方案在数据量很大时识别速度更快。还可以通过增加显卡来对训练和测试过程进行提速。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的示意图；

图2示出了根据本发明一个实施例的识别恶意文件类别的方法200的流程图；

图3示出了根据本发明一个实施例的预设网络300的结构图；以及

图4示出了根据本发明一个实施例的预设分类模型400的网络结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的识别恶意文件类别的方法适于在一个或一组计算设备中执行，即，在一个或一组计算设备中完成对待识别的恶意文件的识别处理过程。计算设备例如可以是服务器(例如Web服务器、应用服务器等)，桌面计算机和笔记本计算机等个人计算机，手机、平板电脑、智能可穿戴设备等便携式移动设备等，但不限于此。根据一种优选的实施例，本发明的识别恶意文件类别的方法在计算设备中执行，例如，计算设备可以实现为ParameterServer架构的分布式系统。

图1示出了根据本发明一个实施例的计算设备100的示意图。

如图1所示，在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备100中，应用122包括执行识别恶意文件的方法200的多条程序指令，而程序数据124还可以包括训练样本、以及通过训练生成的预设分类模型以及预设网络的参数等数据。

图2示出了根据本发明一个实施例的识别恶意文件类别的方法200的流程图，方法200适于在计算设备(例如前述计算设备100)中执行。

如图2所示，方法200始于步骤S210。在步骤S210中，对待识别的恶意文件进行预处理，以生成预处理文件。

在根据本发明的实施方式中，待识别的恶意文件一般为PE(PortableExecutable)文件，即可移植的可执行的文件，常见的PE文件如EXE文件、DLL文件、OCX文件、SYS文件、COM文件等。

根据一种实施例，对待识别的恶意文件的预处理包括两个处理步骤：脱壳处理和反汇编处理。以下对这两个处理步骤进行详细说明。

第一步，对待识别的恶意文件进行文件脱壳处理，以得到第一预处理文件(第一预处理文件通常为二进制文件)。

一般地，恶意文件为达到伪装的目的会采用加壳的方式来进行混淆。加壳的一种常用方法是在二进制的程序中植入一段代码，在运行的时候优先取得对程序的控制权，之后再将控制权交还给原代码，这样做可以隐藏程序真正的入口点，以防止被爆破。关于加壳的方法此处不做详细展开。在根据本发明的实施方式中，对待识别的恶意文件进行文件脱壳处理，从而减少数据干扰，提高后续识别的准确率。在根据本发明的一个实施例中，利用公开的脱壳工具对UPX压缩壳进行脱壳处理，得到第一预处理文件。当然，也可以使用工具对ASPack壳进行脱壳处理，本发明的实施例对具体的脱壳方法和采用的脱壳工具均不做过多限制，任何已知的文件脱壳处理方法均可以与本发明的实施例相结合，以实现本发明的方法200。

应当指出，当待识别的恶意文件没有壳或者脱壳不成功时，经文件脱壳处理得到的第一预处理文件就是原文件。

第二步，对第一预处理文件进行反汇编处理，以得到第二预处理文件(第二预处理文件就是汇编文件)。

在对待识别的恶意文件进行脱壳处理后，再使用反汇编工具对第一预处理文件进行反汇编处理，将待识别的恶意文件转换成了汇编代码文件，以便于后续的特征提取。

经上述预处理步骤后，在随后的步骤S220中，采用预定方式提取出预处理文件的至少一个特征。

基于对恶意文件样本的分析，在根据本发明的实施方式中，所提取的至少一个特征包括：表征文件基本信息(文件的基本信息包括文件大小、文件所包含信息量等)的第一特征、表征文件静态结构属性的第二特征、表征文件所调用的应用程序编程接口(API)的第三特征、以及表征文件中上下文关系的第四特征和第五特征。以下将进一步阐述以上各特征的提取过程。

(1)采用预定方式提取出预处理文件的至少一个特征的步骤包括提取第一特征的步骤。具体地，获取第一预处理文件的文件大小，并且计算第一预处理文件的文件熵，最后结合文件大小和文件熵生成第一特征。

文件熵，即一个文件所包含的信息熵，信息熵是系统有序化程度的一个度量。简单来讲，一个系统越是有序，其信息熵就越低；反之，一个系统越是混乱，其信息熵就越高。如前文所述，恶意文件一般会采用加壳的方式进行混淆，壳的压缩算法和加密算法一方面会对恶意文件的大小有所影响，另一方面会导致恶意文件的信息熵值比较高。故而选取文件大小和文件熵值来表征恶意文件的基本信息，组成第一特征。

在一个实施例中，第一预处理文件的文件大小可以通过读取文件信息获得。

在另一个实施例中，按照公式(1)计算第一预处理文件的文件熵值H(x)：

式(1)中，x表示第一预处理文件中的每个符号，i是表示第一预处理文件中符号的序号，i＝1,2,3,...,n，表示文件中一共有n个符号，p(x_i)为第i个符号(即x_i)出现的概率。

(2)采用预定方式提取出预处理文件的至少一个特征的步骤包括提取第二特征的步骤。具体地，提取第一预处理文件的文件头信息，作为第二特征。

虽然PE文件的结构属性比较多(如PE header，section等)，但很多属性并不能够很好地区分恶意文件的类别。在本实施例中，基于对静态结构属性的深入分析，确认恶意文件样本的文件头信息具有很好的区分度。因此，在根据本发明的实施方式中，提取第一预处理文件的文件头信息来作为第二特征。

(3)采用预定方式提取出预处理文件的至少一个特征的步骤包括提取第三特征的步骤。具体地，提取第一预处理文件调用的应用程序编程接口(API)，作为第三特征。

基于对恶意文件样本的分析，申请人发现不同类别的恶意文件调用的API接口具有辨识度。故，通过开源的工具开发包提取第一预处理文件调用的所有API接口，组成API接口列表来作为第三特征。

(4)采用预定方式提取出预处理文件的至少一个特征的步骤包括提取第四特征的步骤。具体地，通过N-Gram模型对第一预处理文件进行特征提取，得到第四特征。

N-Gram模型，即，N元模型，是自然语言处理中的概念，其主要思想是：假设第m个词的出现只与其前面的m-1个词相关。在根据本发明的一个实施例中，N取4，这样，生成第四特征的过程可以概括为如下三步。

1)先基于N-Gram模型提取出第一预处理文件的4-Gram特征。假设第一预处理文件为0F 01 02 03 04 05，经4-Gram模型所提取出的特征码就是{0F010203}，{01020304}，{02030405}，根据本发明的一种实施方式，计算各特征码是否出现，若特征码出现，则该特征码对应的特征值为1；若特征码没出现，则该特征码对应的特征值为0，一般地，依序拼接各特征码对应的特征值，就得到第一预处理文件的4-Gram特征。

2)鉴于4-Gram特征维度很高，故需要对4-Gram特征进行降维。在一个实施例中，通过计算各特征码的信息增益来对其降维。信息增益定义了一个特征能够为分类系统带来的信息量的多少，通常来说，特征带来的信息量越大，信息增益越大，信息增益的计算采用信息熵减去条件熵的方式。由于信息熵和条件熵的计算均属于信息论领域的基本知识，故此处不再展开赘述。

3)按照步骤2)中计算出的信息增益从大到小的顺序对特征码进行排序，然后从这些特征码中选取至少一个4-Gram特征来组成第四特征。还是以上文中的第一预处理文件为例，特征码是{0F010203}，{01020304}，{02030405}，假设这3个特征码对应的信息增益分别为0.02,0.1,0.05，那么从中选取一个特征码就应该是{01020304}，选取两个特征码就应该是{01020304}和{02030405}，依序选取出的一个或多个特征码对应的特征值就构成了第四特征。应当指出，此处仅是作为示例，以形象说明4-Gram特征及从中选取出第四特征的过程，在实际应用中，4-Gram特征的维度会很高，篇幅所限，此处不再展开一一描述。

(5)采用预定方式提取出预处理文件的至少一个特征的步骤包括提取第五特征的步骤。具体地，通过N-Gram模型对第二预处理文件进行特征提取，得到第五特征。在一个实施例中，N取5，即，基于N-Gram模型提取出第二预处理文件的5-Gram特征，作为第五特征。假设第二预处理文件为ABCDEFGH，所提取的5-Gram特征码就是{ABCDE}，{BCDEF}，{CDEFG}，{DEFGH}，同步骤1)，根据每个特征码是否出现来确认特征值，将各特征值结合就得到了第二预处理文件的5-Gram特征，即第五特征。

需要说明的是，可能有少数PE文件存在无法反汇编的情况，这样就无法获取待识别的恶意文件的第二预处理文件。在这种情况下，根据本发明的实施例，待识别的恶意文件的第五特征设为0。

应当指出，在上述步骤中通过N-Gram模型计算特征值时，也可以计算每个特征码出现的概率值，根据各特征码的概率值得到相应的4-Gram特征和5-Gram特征。本发明的实施例对此不做过多限制。在根据本发明的优先的实施例中，通过判断各特征码是否出现来生成相应的4-Gram特征和5-Gram特征。

至此就提取出了预处理文件的一些特征。在根据本发明的另一些实施例中，考虑到直接提取的第三特征(即，API接口列表)维度比较大，故对提取的第三特征进行了筛选。根据一种实施方式，从提取的API接口列表中挑选出现频率较高的一些API接口来组合成第三特征，但这种筛选方式的缺点是第三特征的维度依旧很大，且处理速度过慢。根据本发明的一些实施例，采用以下方式来筛选第三特征，即，提取第一预处理文件调用的应用程序编程接口、作为第三特征的步骤还包括：先按照步骤(3)所述提取第一预处理文件调用的所有应用程序编程接口(作为初始的第三特征)；然后，利用预设网络对所提取的应用程序编程接口进行降维处理，得到降维处理后的第三特征，作为第三特征参与后续计算。根据一种实施例，预设网络采用稀疏自编码的网络结构，通过采用稀疏自编码的网络结构使得预设网络能够自己学习到样本(即，输入预设网络的第三特征)中的一些重要特征，并能有效地对样本进行降维。预设网络包括两层全连接层，如图3示出了根据本发明一个实施例的预设网络300的结构图。在图3中，预设网络300包括依次相连的第一全连接层310和第二全连接层320，并且在第一全连接层310和第二全连接层320中还包括激活函数，在根据本发明的一个实施例中，激活函数采用sigmoid函数。当第一全连接层310和第二全连接层320中的神经元的输出接近于1时认为该神经元被激活，而当神经元的输出接近于0时认为该神经元被抑制。

根据本发明的实施方式，方法200还包括训练生成上述预设网络300的过程。一般地，自编码是一个压缩再解压的过程，属于无监督学习范畴。在根据本发明的一个实施例中，将系统中符合格式(如PE文件)的恶意文件分为训练样本集和测试样本集，将全部训练样本集和部分测试样本集一起输入到预训练的稀疏自编码网络中进行训练，也就是说，采用半监督学习的方式进行训练，最终生成预设网络。这样训练出的预设网络能利用测试集中的数据分布，以提高分类预测的准确率。更具体的关于训练生成预设网络的过程可参考稀疏自编码网络的训练过程，本发明的实施例对此不做限制。

在根据本发明的再一些实施例中，在提取出预处理文件的上述特征后，还要对所提取的这些特征分别进行归一化处理，以便于提高后期识别的速度。根据一种实施例，采用正态标准化的方式、通过计算特征的均值和标准差对特征进行归一化处理。应当指出，本领域技术人员也可以通过线性变换，将特征值映射到[0，1]之间，本发明对此均不做过多限制。需要说明的是，本领域技术人员可以对所提取的特征均进行归一化处理，也可以根据实际情况选取其中一些特征做归一化处理。

随后在步骤S230中，对经步骤S220得到的至少一个特征进行处理，生成第一数目个第一特征向量。

根据一种实施例，第一数目为4，4个第一特征向量分别记作Feature1、Feature2、Feature3和Feature4。也就是说，对经步骤S220得到的第一特征、第二特征、第三特征、第四特征和第五特征进行重新组合，得到4个第一特征向量。在一个优选的实施例中，将第一特征和第二特征合并为一个第一特征向量，将第三特征、第四特征和第五特征分别作为一个第一特征向量。换句话说，4个第一特征向量分别表示如下：

Feature1：包括文件大小和文件熵、文件头特征

Feature2：降维后的API特征

Feature3：二进制文件的4-Gram特征

Feature4：汇编文件的5-Gram特征

随后在步骤S240中，将第一数目个第一特征向量输入到预设分类模型中，以识别出待识别的恶意文件的类别。

根据本发明的实施方式，预设分类模型是事先对预训练的分类模型进行模型训练后得到的最优分类模型(关于训练的过程下文会进一步阐述)。分类模型采用神经网络结构，应当指出，分类模型的结构可以由本领域技术人员根据实际需要自行设置，本发明对此不做限制。根据一种实施例，分类模型包括依次相连的第一处理模块、特征处理模块和第二处理模块。其中，第一处理模块包括第一数目个第一子处理模块，且每个第一子处理模块又包括一个全连接层。特征处理模块将第一处理模块的输出和第一处理模块的至少一个输入进行组合，并输出给第二处理模块。第二处理模块包括一个全连接层和一个分类处理层。根据一些实施方式，分类处理层可以通过全连接层、Softmax函数等来实现，本发明的实施例对此不做限制。另外，在每个全连接层中还可以包含激活函数，激活函数可以由本领域技术人员自行设置，本发明对此也不做限制，例如，可以将激活函数设置为ReLU函数、Tanh函数、Sigmoid函数等。

如上所述，图4示出了根据本发明一个实施例的预设分类模型400的网络结构图。预设分类模型400包括依次相连的第一处理模块410、特征处理模块420和第二处理模块430。其中，第一处理模块410包括第一数目个第一子处理模块(在图4的示例中，第一数目为4，4个第一子处理模块分别记作第一子处理模块412、第一子处理模块414、第一子处理模块416、第一子处理模块418)，每个第一子处理模块又包括一个全连接层。特征处理模块420将第一子处理模块输出的第一数目(即，4)个中间特征向量与第一特征向量Feature1和第一特征向量Feature4进行组合。第二处理模块430包括一个全连接层432(FC)和分类处理层434。在一个优选的实施例中，分类处理层434通过Softmax函数实现。需要说明的是，为简化图4的描述，在图4中没有进一步示出每个全连接层中的激活函数，参照前文描述，本领域技术人员应当了解，在每个全连接层中还包含相应的激活函数。在一个优选的实施例中，每个全连接层中的激活函数均采用ReLU函数。

根据一种实现方式，将第一数目个第一特征向量输入到预设分类模型400中，即，将4个第一特征向量(即Feature1、Feature2、Feature3、Feature4)分别输入到4个第一子处理模块(即412、414、416、418)中，每个第一子处理模块对一个对应的第一特征向量进行处理以输出一个中间特征向量；而后，特征处理模块420将第一子处理模块输出的第一数目个中间特征向量与至少一个第一特征向量(如Feature1和Feature4)进行组合，在一个实施例中，将这6个特征向量直接前后拼接，组合得到第二特征向量，并输入到第二处理模块430；第二处理模块430基于输入的第二特征向量，识别出待识别的恶意文件的类别，最终由分类处理层434输出指示该待识别的恶意文件类别的索引值，例如输出为2，则表示该待识别的恶意文件属于第2个类别。

根据本发明的预设分类模型400，通过第一处理模块410对原始特征(即，第一特征向量)进行了一次学习，提取了低维度的抽象特征，降低了复杂度，以提高后续的处理速度。同时，又将Feature1和Feature4与中间特征向量相汇总，这样，第二特征向量就同时具有了抽象过的特征和原始特征，在不增加模型深度的前提下，提高了模型的学习能力。应当指出，本领域技术人员据此也可以将其它一个或几个第一特征向量与中间特征向量相汇总来得到第二特征向量，本发明的实施例对此不做限制。

根据本发明的一种实施方式，方法200还包括预先训练生成预设分类模型的步骤。根据一种实施例，预先设置分类模型的基本参数(如，神经元初始个数、初始权值、激活函数等)，作为预训练的分类模型。而后，对预训练的分类模型进行训练，以使其输出能够达到预期效果。训练模型的过程，就是确定分类模型中的模型参数的过程，模型参数包括每一个神经元的权重、偏置参数等。以下给出了根据本发明的一种实施方式的训练生成预设分类模型的过程，具体包括如下四步。

第一步，获取经过标注的恶意文件作为训练样本，这样，每个训练样本具有相应的标注数据，且标注数据指示了该训练样本的类别。在根据本发明的实施例中，利用专业人士对恶意文件进行标注，将训练样本分成了33个类别，包含一般勒索软件、破解软件、代理服务器软件、FakeAV类病毒、蠕虫类病毒等，当然，本发明的实施例对将训练样本具体分成几类并不做限制，表1给出了一些较为常见的恶意文件，其中每一条就代表了一个类型。

表1一些常见的恶意文件示例

第二步，生成各训练样本的第一数目个第一特征向量。关于生成训练样本的第一特征向量的过程，可参考步骤S210-步骤S230的执行过程，即，先对训练样本进行预处理，生成预处理文件，再采用预定方式提取出预处理文件的至少一个特征，并对这至少一个特征进行处理，生成第一数目个第一特征向量。更详细的执行过程可参考前文描述，篇幅所限，此处不做赘述。

需要说明的是，在提取第四特征时，由于训练样本的4-Gram特征数据量很大，故在根据本发明的实施例中，先将训练样本按照类别分成多个子类，再提取出各子类中训练样本的第四特征。也就是说，每个类别分别计算自己的第四特征。在一个优选的实施例中，将训练样本分成了33个类别，则分别计算每个类别下的第四特征，再合并得到训练样本的第四特征。这样做的好处是：既可以保证训练过程中所提取的第四特征具有辨识度，又加快了处理速度。

第三步，将各训练样本的第一数目个第一特征向量输入预训练的分类模型中进行处理，以输出指示该训练样本类别的索引值。根据一种实施方式，对于每一个训练样本，将训练样本的第一数目个第一特征向量输入预训练的分类模型，经第一处理模块处理后生成第一数目个中间特征向量，再由特征处理模块将这第一数目个中间特征向量和和至少一个第一特征向量进行组合以得到第二特征向量，最后由第二处理模块基于第二特征向量确认出指示该训练样本类别的索引值。

第四步，根据标注数据对预训练的分类模型进行模型训练，并在满足预定条件时训练结束，得到训练后的分类模型作为预设分类模型。对于每一个训练样本，都有一个对应的标注数据和索引值，简单来说，通过计算标注数据和索引值的距离来相应调整分类模型的参数，直到满足预定条件时(在模型的训练过程中，随着训练次数的增加，通常输出的索引值会越来越接近于标注数据，当距离稳定时认为模型训练完成)，训练结束，得到训练后的分类模型作为预设分类模型。根据一种实施例，采用随机梯度下降的方法来训练分类模型，学习率取0.05。

根据本发明的实施方式还提供了进一步优化模型的方法。根据一种实施例，在根据本发明的训练过程中，在第一处理模块和第二处理模块的各全连接层之后增加一个优化处理层，即Dropout层，以预定概率随机放弃分类模型中的至少一个节点(或称为神经元)，以此来消除节点间的联合适应性，增强模型的泛化能力，以达到克服过拟合的目的。在本发明的一个实施例中，预定概率(即Dropout值)取0.5。

根据另一种实施例，利用L2正则化的方法，在第一处理模块和第二处理模块的各全连接层中加入二阶正则项，正则项通过惩罚权重参数来达到克服模型过拟合的目的。在本发明的一个实施例中，正则项参数设为0.01。

根据本发明的再一些实施方式，通过训练生成预设分类模型的步骤还包括：通过训练得到第二数目个训练后的分类模型，均作为预设分类模型。根据一种实现方式，采用同样的训练过程和网络配置执行上述四个步骤，在每执行完第一步～第四步后，就得到相应的一个预设分类模型，通过多次执行就得到多个预设分类模型，从多个预设分类模型中选取表现最优的第二数目个预设分类模型。在一个实施例中，第二数目设为5(根据本发明的实施方式，第二数目一般取奇数)。

当出现不止一个预设分类模型时，步骤S240进一步按照如下方式执行。首先，将第一数目个第一特征向量输入到各预设分类模型中，经各预设分类模型处理后输出第二数目个指示该恶意文件类别的索引值，例如将待识别的恶意文件的第一数目个第一特征向量输入到5个预设分类模型中，相应得到5个索引值。然后，统计各索引值出现的次数，并将出现次数最多的索引值作为最终索引值，那么，最终索引值所指示的类别就被确认为是该待识别的恶意文件的类别。假设5个索引值中，有3个索引值为2，有2个索引值为1，那么，取2作为最终索引值，进一步就可以确认该待识别的恶意文件属于类别2。

实验证明，根据本发明的另一些实施例通过这种“多模型投票”的机制，很好地提升了识别的准确率。

根据本发明的方案，基于深度学习解决了识别恶意文件类别的问题，提高了识别的速度和准确率，同时还降低了人工成本。另外，基于深度学习本身的优势，对于海量数据的训练可以通过GPU进行加速，相比传统的机器学习算法，根据本发明的方案在数据量很大时识别速度更快。还可以通过增加显卡来对训练和测试过程进行提速。

另外，在训练生成预设分类模型的过程中，采用了多种的优化方法来有效克服过拟合问题，同时提升分类模型预测的准确率。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明一并公开了：

A9、如A5-8中任一项所述的方法，其中，采用预定方式提取出预处理文件的至少一个特征的步骤还包括：基于N-Gram模型提取出第一预处理文件的4-Gram特征，并计算各4-Gram特征的信息增益；以及按照信息增益从大到小的顺序从所述4-Gram特征中选取至少一个4-Gram特征来组成第四特征。

A10、如A5-9中任一项所述的方法，其中，所述采用预定方式提取出预处理文件的至少一个特征的步骤还包括：基于N-Gram模型提取出第二预处理文件的5-Gram特征，作为第五特征。

A11、如A1-10中任一项所述的方法，其中，在采用预定方式提取预处理文件的至少一个特征的步骤之后、生成第一数目个特征向量的步骤之前，还包括步骤：对所提取的所述至少一个特征进行归一化处理。

A12、如A9-11中任一项所述的方法，其中，所述第一数目为4，其中，对至少一个特征进行处理、生成第一数目个第一特征向量的步骤包括：将第一特征和第二特征合并为一个第一特征向量；以及将第三特征、第四特征和第五特征分别作为一个第一特征向量。

A13、如A8所述的方法，其中，提取第一预处理文件调用的应用程序编程接口、作为第三特征的步骤还包括：提取第一预处理文件调用的所有应用程序编程接口；以及利用预设网络对所提取的应用程序编程接口进行降维处理，得到第三特征。

A14、如A13所述的方法，其中，预设网络采用稀疏自编码的网络结构，包括两层全连接层；以及方法还包括训练生成预设网络的步骤：采用半监督学习的方式训练生成预设网络。

A15、如A3-14中任一项所述的方法，其中，通过训练生成预设分类模型的步骤还包括：通过训练得到第二数目个训练后的分类模型，均作为预设分类模型。

A16、如A15所述的方法，其中，将第一数目个第一特征向量输入到预设分类模型中、以识别出待识别的恶意文件的类别的步骤还包括：将第一数目个第一特征向量输入到各预设分类模型中，经各预设分类模型处理后输出第二数目个指示该恶意文件类别的索引值；统计各索引值出现的次数，并将出现次数最多的索引值作为最终索引值；以及将最终索引值所指示的类别确认为该待识别的恶意文件的类别。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种识别恶意文件类别的方法，所述方法适于在计算设备中执行，所述方法包括步骤：

对待识别的恶意文件进行预处理，以生成预处理文件；

采用预定方式提取出预处理文件的至少一个特征；

对所述至少一个特征进行处理，生成第一数目个第一特征向量；以及

将所述第一数目个第一特征向量输入到预设分类模型中，以识别出所述待识别的恶意文件的类别；

其中，所述预设分类模型采用神经网络结构，包括依次相连的第一处理模块、特征处理模块和第二处理模块，其中，所述第一处理模块包括第一数目个第一子处理模块，每个第一子处理模块包括一个全连接层，每个第一子处理模块适于对一个对应的第一特征向量进行处理以输出一个中间特征向量；所述特征处理模块适于将所述第一子处理模块输出的第一数目个中间特征向量与至少一个第一特征向量进行组合以到第二特征向量，并输入到第二处理模块；以及所述第二处理模块包括一个全连接层和分类处理层，适于基于输入的第二特征向量，识别出所述待识别的恶意文件的类别，其中，所述第一数目为4。

2.如权利要求1所述的方法，还包括通过训练生成预设分类模型的步骤，包括：

获取经过标注的恶意文件作为训练样本，所述训练样本具有相应的标注数据，所述标注数据指示该训练样本的类别；

生成各训练样本的第一数目个第一特征向量；

将所述各训练样本的第一数目个第一特征向量输入预训练的分类模型中进行处理，以输出指示该训练样本类别的索引值；以及

根据所述标注数据对所述预训练的分类模型进行模型训练，并在满足预定条件时训练结束，得到训练后的分类模型作为预设分类模型，

其中，分类模型包括依次相连的第一处理模块、特征处理模块和第二处理模块。

3.如权利要求2所述的方法，其中，所述通过训练生成预设分类模型的步骤还包括：

在所述第一处理模块和所述第二处理模块中，在各全连接层之后还包括优化处理层，适于以预定概率随机放弃所述分类模型中的至少一个节点来训练所述模型。

4.如权利要求1-3中任一项所述的方法，其中，所述对待识别的恶意文件进行预处理、以生成预处理文件的步骤包括：

对待识别的恶意文件进行文件脱壳处理，以得到第一预处理文件；以及

对所述第一预处理文件进行反汇编处理，以得到第二预处理文件。

5.如权利要求4所述的方法，其中，所述采用预定方式提取出预处理文件的至少一个特征的步骤包括：

获取所述第一预处理文件的文件大小；

计算所述第一预处理文件的文件熵；以及

结合所述文件大小和文件熵生成第一特征。

6.如权利要求4所述的方法，其中，所述采用预定方式提取出预处理文件的至少一个特征的步骤还包括：

提取所述第一预处理文件的文件头信息，作为第二特征。

7.如权利要求4所述的方法，其中，所述采用预定方式提取出预处理文件的至少一个特征的步骤还包括：

提取所述第一预处理文件调用的应用程序编程接口，作为第三特征。

8.如权利要求7所述的方法，其中，所述采用预定方式提取出预处理文件的至少一个特征的步骤还包括：

基于N-Gram模型提取出第一预处理文件的4-Gram特征，并计算各4-Gram特征的信息增益；以及

按照信息增益从大到小的顺序从所述4-Gram特征中选取至少一个4-Gram特征来组成第四特征。

9.如权利要求8所述的方法，其中，所述采用预定方式提取出预处理文件的至少一个特征的步骤还包括：

基于N-Gram模型提取出第二预处理文件的5-Gram特征，作为第五特征。

10.如权利要求1-3中任一项所述的方法，其中，在采用预定方式提取预处理文件的至少一个特征的步骤之后、生成第一数目个特征向量的步骤之前，还包括步骤：

对所提取的所述至少一个特征进行归一化处理。

11.如权利要求8或9所述的方法，其中，

所述对至少一个特征进行处理、生成第一数目个第一特征向量的步骤包括：

将所述第一特征和第二特征合并为一个第一特征向量；以及

将所述第三特征、第四特征和第五特征分别作为一个第一特征向量。

12.如权利要求7所述的方法，其中，所述提取第一预处理文件调用的应用程序编程接口、作为第三特征的步骤还包括：

提取第一预处理文件调用的所有应用程序编程接口；以及

利用预设网络对所提取的应用程序编程接口进行降维处理，得到第三特征。

13.如权利要求12所述的方法，其中，所述预设网络采用稀疏自编码的网络结构，包括两层全连接层；以及

所述方法还包括训练生成预设网络的步骤：

采用半监督学习的方式训练生成预设网络。

14.如权利要求3所述的方法，其中，所述通过训练生成预设分类模型的步骤还包括：

通过训练得到第二数目个训练后的分类模型，均作为预设分类模型。

15.如权利要求14所述的方法，其中，所述将第一数目个第一特征向量输入到预设分类模型中、以识别出待识别的恶意文件的类别的步骤还包括：

将第一数目个第一特征向量输入到各预设分类模型中，经各预设分类模型处理后输出第二数目个指示该恶意文件类别的索引值；

统计各索引值出现的次数，并将出现次数最多的索引值作为最终索引值；以及

将所述最终索引值所指示的类别确认为该待识别的恶意文件的类别。

16.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-15中任一项所述方法的指令。

17.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-15中任一项所述的方法。