CN107688744A

CN107688744A - 基于图像特征匹配的恶意文件分类方法及装置

Info

Publication number: CN107688744A
Application number: CN201710776655.1A
Authority: CN
Inventors: 吕杰; 范渊; 吴卓群
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2018-02-13
Anticipated expiration: 2037-08-31
Also published as: CN107688744B

Abstract

本发明提供一种基于图像特征匹配的恶意文件分类方法及装置，涉及文件分类技术领域，该方法包括：对未分类的恶意文件进行图像特征提取，得到第一图像特征；第一图像特征包括：第一整体特征、第一区段特征；将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到恶意文件的分类信息；预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。该分类方法，能够基于恶意文件本身的数据特征和结构特征，提取出该恶意文件的图像特征，并将图像特征进行机器学习分类，以建立新的分类训练模型，从而对新的恶意文件进行准确的分类识别。

Description

基于图像特征匹配的恶意文件分类方法及装置

技术领域

本发明涉及文件分类技术领域，尤其是涉及一种基于图像特征匹配的恶意文件分类方法及装置。

背景技术

现阶段，随着信息化以及计算机技术的快速发展，信息安全也成为了一个当前不可忽视的重要研究领域。计算机恶意文件同源性分类技术也随之产生，该技术是专门针对近年来互联网上爆发的包括病毒、木马、蠕虫、勒索软件在内的各类恶意文件及其家族进行快速定位、分类以及分析的技术方法。恶意文件在流行传播的过程中会出现大量的变种，又因产生的变种会与原始恶意文件具有同源性，数据形式上具有相似性，样本之间会存在关联关系，这使得从某种具有相似性关联的维度，对大量的样本进行同源性分析归类变得可行。对于安全厂商来说，每天能获取到海量的恶意程序样本，对这些样本的归类并且家族化是十分有必要的。

恶意文件分类系统的分类过程，一般可分为特征提取和标注分类两个步骤。对于传统的恶意文件分类，步骤1特征提取一般通过静态分析或动态分析，获取样本的基本信息或行为特征来作为特征向量，常见的有文件特征(MD5、版本、证书等)、API调度行为、注册表行为、文件行为以及网络行为等。步骤2标注分类技术需要对步骤1中提取的特征向量进行自动标注，并分类到特定的恶意文件家族。传统的恶意文件分类方法虽然通过对常见特征行为的提取以及分类或聚类的技术，在一定程度上能达到对恶意样本分类溯源的效果，但由于普遍存在对特征提取的能力不足、分析提取的时间代价过大以及特征分类算法不够完善等情况，从而导致各种不够精确的结果，经常出现误判、漏判的情况。由于上述的问题，大多数恶意文件的分类工具难以真正的在工业实施中应用。

发明内容

有鉴于此，本发明的目的在于提供一种基于图像特征匹配的恶意文件分类方法及装置，根据恶意文件本身的数据特征和结构特征生成相应的特征图像，并从图像提取相应的维度特征进行机器学习分类，能够更精确的对恶意文件进行分类识别；对于相应的同源以及变种恶意文件只要局部特征拥有相似性，该机制就能精确定位识别到相应的类别。通过机器学习的方式进行识别，在一定程度上也节省了人力的输入，提高恶意文件的识别效率。

第一方面，本发明实施例提供了一种基于图像特征匹配的恶意文件分类方法，包括：

对未分类的恶意文件进行图像特征提取，得到第一图像特征；第一图像特征包括：第一整体特征、第一区段特征；

将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到恶意文件的分类信息；预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，在对未分类的恶意文件进行图像特征提取之前，方法还包括：

对已分类的恶意文件进行图像特征提取，得到第二图像特征；第二图像特征包括：第二整体特征、第二区段特征；

根据第二图像特征对预先建立的初始分类训练模型进行训练，以建立分类训练模型；分类训练模型包括：整体模型、区段模型。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，通过以下方式对恶意文件进行图像特征提取：

从恶意文件中提取图像缩略信息；图像缩略信息包括：整体图像缩略信息、分段图像缩略信息；

对图像缩略信息进行特征提取，得到图像特征；特征提取包括：GIST图像特征提取、统计信息特征提取；图像特征包括：整体特征、区段特征。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，从恶意文件中提取图像缩略信息，包括：

将恶意文件进行均等切分，得到多个切分块；

对每个切分块进行缩略信息提取，得到整体图像缩略信息；整体图像缩略信息包括：整体数据熵缩略信息、整体字节块特征缩略信息、整体PE结构缩略信息。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，从恶意文件样本中提取图像缩略信息，包括：

从恶意文件中提取多个区段；

对每个区段按照不同区分粒度进行切分，得到多个切分块；

对每个切分块进行缩略信息提取，得到区段图像缩略信息；区段图像缩略信息包括：区段数据熵缩略信息、区段字节块特征缩略信息。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，在特征提取包括GIST图像特征提取的情况下，对图像缩略信息进行特征提取，得到图像特征，包括：

根据图像缩略信息，生成图像；图像由多个切分块组成；

对图像进行GIST图像特征提取，得到整体特征和区段特征；整体特征包括：整体图像GIST特征；区段特征包括：区段图像GIST特征。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，在特征提取包括统计信息特征提取的情况下，对图像缩略信息进行特征提取，得到图像特征，还包括：

对图像缩略信息进行统计信息特征提取，得到整体特征和区段特征；整体特征包括：整体图像统计特征；区段特征包括：区段图像统计特征。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，在对图像进行GIST特征提取之前，还包括：

对图像进行图像补充。

结合第一方面，本发明实施例提供了第一方面的第八种可能的实施方式，其中，在通过分类训练模型的分类识别，得到恶意文件的分类信息之后，还包括：

将分类信息所对应的恶意文件加入已分类的恶意文件样本，以通过分类信息所对应的恶意文件对分类训练模型进行再次训练。

第二方面，本发明实施例提供一种基于图像特征匹配的恶意文件分类装置，包括：

图像特征提取模块，用于对未分类的恶意文件进行图像特征提取，得到第一图像特征；第一图像特征包括：第一整体特征、第一区段特征；

分类识别模块，用于将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到恶意文件的分类信息；预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

本发明实施例带来了以下有益效果：

在本发明实施例提供的基于图像特征匹配的恶意文件分类方法中，首先对未分类的恶意文件进行图像特征提取，得到未分类的恶意文件的图像特征；该图像特征包括：整体特征和区段特征；然后将上述图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到恶意文件的分类信息；该预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。本发明实施例所提供的基于图像特征匹配的恶意文件分类方法，能够基于恶意文件本身的数据特征和结构特征，提取出该恶意文件的图像特征，并将图像特征进行机器学习分类，以建立新的分类训练模型，从而对新的恶意文件进行准确的分类识别。对于相应的同源以及变种恶意文件只要局部特征拥有相似性，该方法就能精确定位识别到相应的类别。通过机器学习的方式进行识别，在一定程度上也节省了人力的输入，提高恶意文件的识别效率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图像特征匹配的恶意文件分类方法的流程图；

图2为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程图；

图3为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程图；

图4为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程图；

图5为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程图；

图6为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程图；

图7为本发明实施例提供的另一种基于图像特征匹配的恶意文件分类方法的流程图；

图8为本发明实施例提供的一种基于图像特征匹配的恶意文件分类装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前现有的恶意文件分类方法，由于普遍存在对特征提取的能力不足、分析提取的时间代价过大以及特征分类算法不够完善等情况，从而导致各种不够精确的结果，经常出现误判、漏判的情况，难以真正的在工业实施中应用。基于此，本发明实施例提供的基于图像特征匹配的恶意文件分类方法及装置，根据恶意文件本身的数据特征和结构特征生成相应的特征图像，并从图像提取相应的维度特征进行机器学习分类，能够更精确的对恶意文件进行分类识别；对于相应的同源以及变种恶意文件只要局部特征拥有相似性，该机制就能精确定位识别到相应的类别。通过机器学习的方式进行识别，在一定程度上也节省了人力的输入，提高恶意文件的识别效率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于图像特征匹配的恶意文件分类方法进行详细介绍。

首先对恶意文件的特征进行介绍，作为计算机系统中的程序文件，其总体上的组成可分为数据和结构两大类。数据特征包括数据熵缩略信息、字节块特征缩略信息；结构特征包括字节块特征缩略信息。

其中，数据熵缩略信息，为对样本中均等单位长度数据的信息熵计算。其中数据熵缩略信息类别包含：pack(包含数据量大，为压缩数据，数据熵0.5-0.8)、code(包含数据量中等，为代码数据，数据熵0.2-0.5)、repetition(包含数据量少，为重复数据，数据熵0-0.2)。

字节块特征缩略信息，为对样本中均等长度数据的字节特征提取。其中字节块缩略信息特征包含：可见ASCII、不可见ASCII、字节0x00、字节0xFF以及其他非ASCII码字符，在数据块中判断包含最多的字节类型即为该字节块缩略信息特征的类型。

结构块特征，为对样本中均等长度数据对应位置的结构信息特征提取。其中结构缩略信息特征包含：PE头(dos header、file header、option header)、入口点信息、导出表信息、导入表信息、资源信息、调试信息、各区段信息、附件文件信息。

实施例一：

本发明实施例提供一种基于图像特征匹配的恶意文件分类方法，参见图1所示，该恶意文件分类方法包括以下几个步骤：

S101：对未分类的恶意文件进行图像特征提取，得到第一图像特征。第一图像特征包括：第一整体特征、第一区段特征。

具体的，第一整体特征包括：整体图像GIST特征和整体图像统计特征。

第一区段特征包括：区段图像GIST特征。区段图像统计特征。

上述图像特征提取过程参见图3-图7。

S102：将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到恶意文件的分类信息。

上述预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

在通过分类训练模型的分类识别，得到恶意文件的分类信息之后，还包括：将分类信息所对应的恶意文件加入已分类的恶意文件样本，以通过分类信息所对应的恶意文件对分类训练模型进行再次训练。

作为一种优选实施方式，上述分类训练模型为SVM训练模型，未分类的恶意文件经过图像特征提取、SVM训练模型分类识别后，得到该恶意文件的分类结果信息，该分类结果信息将包含整体与区段两部分的识别结果，最终输出结果需要结合两部分来处理。对于已分类识别的样本结果，将重新放入训练模型中训练，完善训练模型。

参见图2所示，在对未分类的恶意文件进行图像特征提取之前，该方法还包括以下步骤：

S201：对已分类的恶意文件进行图像特征提取，得到第二图像特征。

其中，第二图像特征包括：第二整体特征、第二区段特征。

具体的，第二整体特征包括：整体图像GIST特征和整体图像统计特征。

第二区段特征包括：区段图像GIST特征。区段图像统计特征。

上述图像特征提取过程参见图3-图7。

S202：根据第二图像特征对预先建立的初始分类训练模型进行训练，以建立分类训练模型。

分类训练模型包括：整体模型、区段模型。

第二图像特征为从已分类的恶意文件中提取出来的图像特征，将这些图像特征输入初始分类训练模型中进行训练，进而建立该基于图像特征匹配的恶意文件分类方法中的分类训练模型。该分类训练模型中包括：整体模型和区段模型，整体模型对整体特征进行训练，区段模型对区段特征进行训练，对未分类的恶意文件的分类识别过程也是整体模型和区段模型分开进行的。

上述对已分类的恶意文件和未分类的恶意文件的进行图像特征提取的方法相同，参见图3所示，通过以下步骤对恶意文件进行图像特征提取：

S301：从恶意文件中提取图像缩略信息。

图像缩略信息包括：整体图像缩略信息、分段图像缩略信息。

具体的，参见图4所示，从恶意文件中提取图像缩略信息，包括以下步骤：

S401：将恶意文件进行均等切分，得到多个切分块。

S402：对每个切分块进行缩略信息提取，得到整体图像缩略信息。

当对恶意文件整体缩略信息提取时，首先需要对整体进行均等切分，在本实施例中该切分粒度为7200。对恶意文件整体均等切分后，得到多个切分块，然后对每个切分块进行缩略信息提取，提取出的整体图像缩略信息包括：整体数据熵缩略信息、整体字节块特征缩略信息、整体PE结构缩略信息，具体为3组大小7200的缩略信息数组。

此外，参见图5所示，从恶意文件中提取图像缩略信息，还包括以下步骤：

S501：从恶意文件中提取多个区段。

S502：对每个区段按照不同区分粒度进行切分，得到多个切分块。

S503：对每个切分块进行缩略信息提取，得到区段图像缩略信息。

对恶意文件的区段图像缩略信息进行提取，首先要从恶意文件中提取出多个区段。其中，区段可以包括附加文件。然后对每个区段，按不同区分粒度进行切分，得到多个切分块，这里，关于计算区分粒度的算法需要进行优化。一般情况下，越小的区段拥有越细致的缩略信息精度。对恶意文件区段数据切分后，对每个切分块进行缩略信息提取。区段数据不具备结构特性，因此提取的区段图像缩略信息仅包括：区段数据熵缩略信息、区段字节块特征缩略信息。

对恶意文件的图像特征提取，首先提取整体图像缩略信息和区段图像缩略信息，然后再对图像缩略信息进行统计信息特征提取与GIST图像特征提取。具体的，如S302所述：

S302：对图像缩略信息进行特征提取，得到图像特征。

其中，特征提取包括：GIST图像特征提取、统计信息特征提取。

提取出的图像特征包括：整体特征、区段特征。整体特征包括：整体图像GIST特征和整体图像统计特征。区段特征包括：区段图像GIST特征。区段图像统计特征。

具体的，在特征提取包括GIST图像特征提取的情况下，对图像缩略信息进行特征提取，得到图像特征，包括以下步骤，参见图6所示：

S601：根据图像缩略信息，生成图像；图像由多个切分块组成。

S602：对图像进行GIST图像特征提取，得到整体特征和区段特征。

整体特征包括：整体图像GIST特征；区段特征包括：区段图像GIST特征。

GIST特征是对图像的宏观场景特征描述，包含5种空间包络特征：自然度(Naturalness)、开放度(Openness)、粗糙度(Roughness)、膨胀度(Expansion)、险峻度(Ruggedness)；GIST特征一定程度上对图像的特征进行量化，有助于提供支持向量机的分类模型训练。在对图像缩略信息进行特征提取的时候，首先从根据图像缩略信息，生成图像。生成图像的方式为一个切分粒度代表一个像素块，由所有切分块组成。由于各个区段的切分粒度不同，这样生成的图像大小会不一样，不一样大小的图像进行GIST特征比较是没有意义的。所以需要对图像进行补充，比如可以填充像素值#FFFFFF，使得在取图像GIST特征时，图像的大小保持一致。

此外，在特征提取包括统计信息特征提取的情况下，对图像缩略信息进行特征提取，得到图像特征，还可以包括以下步骤，参见图7所示：

S701：对图像缩略信息进行统计信息特征提取，得到整体特征和区段特征。

整体特征包括：整体图像统计特征；区段特征包括：区段图像统计特征。

恶意文件的整体图像统计特征包括：恶意文件子类型(exe、dll、sys等)，文件大小、数据熵缩略信息总量、数据熵缩略信息方差、数据熵缩略信息pack类型占比、数据熵缩略信息code类型占比、数据熵缩略信息repetition类型占比、字节块特征缩略信息各类型占比、结构块特征缩略信息的类型数量、结构块特征缩略信息各类型的占比。

恶意文件的区段图像统计特征包括：区段的类型(正常区段、附件文件)，区段大小、区段缩略信息区分粒度、数据熵缩略信息总量、数据熵缩略信息方差、数据熵缩略信息pack类型占比、数据熵缩略信息code类型占比、数据熵缩略信息repetition类型占比、字节块特征缩略信息各类型占比。

数据熵(entropy)和字节块特征(byteplot)是计算机二进制文档数据的两个固有特征，相似文档的数据熵和字节特征具有总体或局部的相似性，恶意文件中的程序文件拥有的固定结构是计算机程序文档的固有特征，针对windows平台，该固有结构为PE结构，包含PE头、区段以及其他固有PE结构，相似PE程序在PE结构上拥有总体或局部的相似性，而PE区段信息又可分开提取为拥有之前所述两大文档数据固有特征的文档数据。机器学习中支持向量机(SVM)的模型训练需要提供样本的多维度数据特征，而这些多维度数据的来源可以从提供的三种缩略信息图像信息中提取的统计特征以及GIST特征中获取。图像信息的维度量化是机器学习支持向量机决策的关键，本发明实施例中，从图像的统计信息和GIST特征中获取相应的维度支持，完成对恶意文件类型的模型训练，从而完成恶意文件分类方法。

本发明实施例所提供的基于图像特征匹配的恶意文件分类方法，能够基于恶意文件本身的数据特征和结构特征，提取出该恶意文件的图像特征，并将图像特征进行机器学习分类，以建立新的分类训练模型，从而对新的恶意文件进行准确的分类识别。对于相应的同源以及变种恶意文件只要局部特征拥有相似性，该方法就能精确定位识别到相应的类别。通过机器学习的方式进行识别，在一定程度上也节省了人力的输入，提高恶意文件的识别效率。

实施例二：

本发明实施例提供一种基于图像特征匹配的恶意文件分类装置，参见图8所示，该装置包括：图像特征提取模块81以及分类识别模块82。

其中，图像特征提取模块81，用于对未分类的恶意文件进行图像特征提取，得到第一图像特征；第一图像特征包括：第一整体特征、第一区段特征；分类识别模块82，用于将第一图像特征输入预先建立的分类训练模型中，通过分类训练模型的分类识别，得到恶意文件的分类信息；预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

本发明实施例所提供的基于图像特征匹配的恶意文件分类装置中，各个模块与前述基于图像特征匹配的恶意文件分类方法具有相同的技术特征，因此，同样可以实现上述功能。本装置中各个模块的具体工作过程参见上述方法实施例，在此不再赘述。

本发明实施例所提供的基于图像特征匹配的恶意文件分类方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置及电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于图像特征匹配的恶意文件分类方法，其特征在于，包括：

对未分类的恶意文件进行图像特征提取，得到第一图像特征；所述第一图像特征包括：第一整体特征、第一区段特征；

将所述第一图像特征输入预先建立的分类训练模型中，通过所述分类训练模型的分类识别，得到所述恶意文件的分类信息；所述预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，所述已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。

2.根据权利要求1所述的方法，其特征在于，在对未分类的恶意文件进行图像特征提取之前，所述方法还包括：

对所述已分类的恶意文件进行图像特征提取，得到第二图像特征；所述第二图像特征包括：第二整体特征、第二区段特征；

根据所述第二图像特征对预先建立的初始分类训练模型进行训练，以建立所述分类训练模型；所述分类训练模型包括：整体模型、区段模型。

3.根据权利要求1或2所述的方法，其特征在于，通过以下方式对恶意文件进行图像特征提取：

从所述恶意文件中提取图像缩略信息；所述图像缩略信息包括：整体图像缩略信息、分段图像缩略信息；

对所述图像缩略信息进行特征提取，得到所述图像特征；所述特征提取包括：GIST图像特征提取、统计信息特征提取；所述图像特征包括：整体特征、区段特征。

4.根据权利要求3所述的方法，其特征在于，从所述恶意文件中提取图像缩略信息，包括：

将所述恶意文件进行均等切分，得到多个切分块；

对每个所述切分块进行缩略信息提取，得到所述整体图像缩略信息；所述整体图像缩略信息包括：整体数据熵缩略信息、整体字节块特征缩略信息、整体PE结构缩略信息。

5.根据权利要求3或4所述的方法，其特征在于，从所述恶意文件样本中提取图像缩略信息，包括：

从所述恶意文件中提取多个区段；

对每个区段按照不同区分粒度进行切分，得到多个切分块；

对每个所述切分块进行缩略信息提取，得到所述区段图像缩略信息；所述区段图像缩略信息包括：区段数据熵缩略信息、区段字节块特征缩略信息。

6.根据权利要求4所述的方法，其特征在于，在所述特征提取包括所述GIST图像特征提取的情况下，对所述图像缩略信息进行特征提取，得到图像特征，包括：

根据所述图像缩略信息，生成图像；所述图像由多个所述切分块组成；

对所述图像进行所述GIST图像特征提取，得到所述整体特征和所述区段特征；所述整体特征包括：整体图像GIST特征；所述区段特征包括：区段图像GIST特征。

7.根据权利要求4所述的方法，其特征在于，在所述特征提取包括所述统计信息特征提取的情况下，对所述图像缩略信息进行特征提取，得到图像特征，还包括：

对所述图像缩略信息进行所述统计信息特征提取，得到所述整体特征和所述区段特征；所述整体特征包括：整体图像统计特征；所述区段特征包括：区段图像统计特征。

8.根据权利要求6所述的方法，其特征在于，在所述对所述图像进行GIST特征提取之前，还包括：

对所述图像进行图像补充。

9.根据权利要求1所述的方法，其特征在于，在所述通过所述分类训练模型的分类识别，得到所述恶意文件的分类信息之后，还包括：

将所述分类信息所对应的恶意文件加入所述已分类的恶意文件样本，以通过所述分类信息所对应的恶意文件对所述分类训练模型进行再次训练。

10.一种基于图像特征匹配的恶意文件分类装置，其特征在于，包括：

图像特征提取模块，用于对未分类的恶意文件进行图像特征提取，得到第一图像特征；所述第一图像特征包括：第一整体特征、第一区段特征；

分类识别模块，用于将所述第一图像特征输入预先建立的分类训练模型中，通过所述分类训练模型的分类识别，得到所述恶意文件的分类信息；所述预先建立的分类训练模型为通过对已分类的恶意文件样本进行特征训练得到，所述已分类的恶意文件样本中包括预先提取到的已分类的恶意文件的图像特征。