CN105740707A

CN105740707A - 恶意文件的识别方法和装置

Info

Publication number: CN105740707A
Application number: CN201610036863.3A
Authority: CN
Inventors: 熊梅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2016-07-06
Anticipated expiration: 2036-01-20
Also published as: CN105740707B

Abstract

本申请公开了恶意文件的识别方法和装置。所述方法的一具体实施方式包括：获取待检测文件的操作行为信息；提取所述操作行为信息的特征信息；基于预设分类模型的信息量计算所述特征信息的信息增益；根据所述信息增益从所述特征信息中筛选出有效特征信息；将所述有效特征信息导入预先训练的恶意文件识别模型进行识别。该实施方式能够基于文件的多种操作行为提取出更有效的特征信息，从而提升了恶意文件识别的准确率。

Description

恶意文件的识别方法和装置

技术领域

本申请涉及电数字数据处理技术领域，具体涉及文件的安全性检测技术领域，尤其涉及恶意文件的识别方法和装置。

背景技术

随着通信技术的发展，文件传送为用户的交流提供了极大的便利。然而，在通过网络传送的文件中存在一些恶意文件，这些恶意文件对网络安全构成巨大的威胁。恶意文件可能给通信系统的服务器和文件接收终端造成巨大的负担。

现有的恶意文件识别方法包括基于文件静态行为的检测和基于文件动态行为的检测。其中，基于文件静态行为的检测可以采用分析文件的静态特征的方法，例如判断文件是否加壳，或者从恶意代码的二进制文件中提取恶意文件的特征，利用这些特征对恶意文件进行识别。基于文件动态行为的检测可以是基于文件的某一类操作行为特征的检测，诸如注册表行为特征或应用程序接口的调用行为特征等来对恶意文件进行检测。

上述基于文件静态行为的检测方法对于经过复杂的加密技术和加壳技术处理的恶意文件准确率和检测效率较低；基于文件单一类别的动态行为的检测方法可能造成恶意文件的漏检和误报，导致检测结果准确率低。另外，由于恶意文件在实际的操作环境中加载，可能导致操作系统故障，影响了其他程序的运行。

发明内容

有鉴于此，期望能够提供一种全面准确的恶意文件检测方法，进一步地，还期望能够提供一种不影响主机操作系统运行的恶意文件检测方法。为了解决上述一个或多个问题，本申请提供了恶意文件的识别方法和装置。

一方面，本申请提供了一种恶意文件的识别方法，包括：获取待检测文件的操作行为信息；提取所述操作行为信息的特征信息；基于预设分类模型的信息量计算所述特征信息的信息增益；根据所述信息增益从所述特征信息中筛选出有效特征信息；将所述有效特征信息导入预先训练的恶意文件识别模型进行识别。

在一些实施例中，所述获取待检测文件的操作行为信息，包括：加载所述待检测文件；采集所述待检测文件的接口调用信息，以确定所述待检测文件的操作行为信息。

在一些实施例中，所述加载所述待检测文件包括：创建虚拟机；在所述虚拟机中扫描待检测文件目录；依次加载所述待检测文件目录下的文件。

在一些实施例中，在所述提取所述操作行为信息的特征信息之前，所述方法还包括：对所述操作行为信息进行预处理；以及所述提取所述操作行为信息的特征信息，包括：提取预处理后的操作行为信息的特征信息。

在一些实施例中，所述对所述操作行为信息进行预处理，包括：将所述操作行为信息进行序列化处理，得到序列化的操作行为信息；以及所述提取所述操作行为信息的特征信息，包括：从所述序列化的操作行为信息中提取出多个特征序列，作为所述特征信息。

在一些实施例中，所述基于预设分类模型的信息量计算所述特征信息的信息增益，包括：对于每一个所述特征信息，分别计算所述预设分类模型的第一信息量和第二信息量；将所述第一信息量和所述第二信息量的差值作为所述特征序列的信息增益；其中，在计算所述第一信息量时，所述预设分类模型的输入特征向量中包含所述特征信息，在计算所述第二信息量时，所述预设分类模型的输入特征向量中不包含所述特征信息。

在一些实施例中，所述根据所述信息增益从所述特征信息中筛选出有效特征信息包括：将信息增益大于预设阈值的特征信息作为所述有效特征信息。

在一些实施例中，所述方法还包括：建立恶意文件识别模型的步骤，包括：采集样本文件的操作行为信息，所述样本文件包括恶意样本文件和正常样本文件；从所述样本文件的操作行为信息中提取出样本特征信息；利用机器学习方法，基于所述样本特征信息训练得出所述恶意文件识别模型。

在一些实施例中，所述操作行为信息包括：网络行为信息、注册表行为信息、文件行为信息、进程行为信息、应用程序接口行为信息。

另一方面，本申请提供了一种恶意文件的识别装置，包括：获取单元，用于获取待检测文件的操作行为信息；提取单元，用于提取所述操作行为信息的特征信息；计算单元，用于基于预设分类模型的信息量计算所述特征信息的信息增益；筛选单元，用于根据所述信息增益从所述特征信息中筛选出有效特征信息；识别单元，用于将所述有效特征信息导入预先训练的恶意文件识别模型进行识别。

在一些实施例中，所述获取单元进一步用于按如下方式获取待检测文件的操作行为信息：加载所述待检测文件；采集所述待检测文件的接口调用信息，以确定所述待检测文件的操作行为信息。

在一些实施例中，所述获取单元进一步用于按如下方式加载所述待检测文件：创建虚拟机；在所述虚拟机中扫描待检测文件目录；依次加载所述待检测文件目录下的文件。

在一些实施例中，所述装置还包括：预处理单元，用于对所述操作行为信息进行预处理；以及所述提取单元进一步用于提取预处理后的操作行为信息的特征信息。

在一些实施例中，所述预处理单元进一步用于按如下方式对所述操作行为信息进行预处理：将所述操作行为信息进行序列化处理，得到序列化的操作行为信息；以及所述提取单元进一步用于按如下方式提取所述操作行为信息的特征信息：从所述序列化的操作行为信息中提取出多个特征序列，作为所述特征信息。

在一些实施例中，所述计算单元用于按如下方式计算所述特征信息的信息增益：对于每一个所述特征信息，分别计算所述预设分类模型的第一信息量和第二信息量；将所述第一信息量和所述第二信息量的差值作为所述特征序列的信息增益；其中，在计算所述第一信息量时，所述预设分类模型的输入特征向量中包含所述特征信息，在计算所述第二信息量时，所述预设分类模型的输入特征向量中不包含所述特征信息。

在一些实施例中，所述筛选单元进一步用于按如下方式从所述特征信息中筛选出有效特征信息：将信息增益大于预设阈值的特征信息作为所述有效特征信息。

在一些实施例中，所述装置还包括：建立单元，用于建立恶意文件识别模型，包括：样本文件采集子单元，用于采集样本文件的操作行为信息，所述样本文件包括恶意样本文件和正常样本文件；特征提取子单元，用于从所述样本文件的操作行为信息中提取出样本特征信息；模型训练子单元，用于利用机器学习方法，基于所述样本特征信息训练得出所述恶意文件识别模型。

本申请提供的恶意文件的识别方法和装置，通过获取待检测文件的操作行为信息，随后提取操作行为信息的特征信息，而后基于预设分类模型的信息量计算特征信息的信息增益，之后根据信息增益从特征信息中筛选出有效特征信息，最后将有效特征信息导入预先训练的恶意文件识别模型进行识别，能够基于文件的多种操作行为特征有效地识别出恶意文件，提升了恶意文件识别的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的恶意文件的识别方法的一个实施例的流程图；

图3图2所示实施例的一个实际应用的原理示意图；

图4是基于图2所实施例提供的恶意文件的识别方法对一个待测文件集的识别结果示意图；

图5是根据本申请的恶意文件识别装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的恶意文件的识别方法或恶意文件的识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送文件。例如，用户110可以使用终端设备102通过网络104向服务器105上传文件，也可以从服务器105下载文件。用户还可以通过网络104在多个终端设备101、102、103之间接收或发送文件。

终端设备101、102、103可以是支持文件存储和加载的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上加载的文件提供支持的后台文件服务器。后台文件服务器可以对接收到的文件请求进行处理，并将处理结果反馈给终端设备。

需要说明的是，本申请实施例所提供的恶意文件的识别方法可以由终端设备101、102、103或服务器105执行，相应地，恶意文件的识别装置可以设置于终端设备101、102、103或服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的恶意文件的识别方法的一个实施例的流程200。所述的恶意文件的识别方法，包括以下步骤：

步骤201，获取待检测文件的操作行为信息。

在本实施例中，恶意文件的识别方法运行于其上的电子设备可以对待检测文件的操作行为进行监控，以获取待检测文件的操作行为信息。具体地，上述电子设备可以获取与文件操作相关的数据，对与文件操作相关的数据进行整理后，生成行为日志，作为待检测文件的操作行为信息。待检测文件可以是电子设备中的任意文件，进一步地，可以是用户设定的待检测目录下的文件。

在本实施例的一些可选的实现方式中，可以通过如下方式获取待检测文件的操作行为信息：加载待检测文件，采集待检测文件的接口调用信息。其中，待检测文件的接口调用信息可以包括加载待检测文件时所调用的函数名和输入参数等。进一步地，为了不影响系统运行，可以在虚拟机中加载待测文件。可以创建虚拟机，保存当前系统的快照，用以对恶意文件检测结束后对虚拟机运行环境的恢复。之后，可以在虚拟机中扫描待检测文件目录并依次加载待检测文件目录下的文件。在扫描过程中，如果扫描出待检测文件，则可以加载文件，并保存加载文件过程中调用的接口信息，添加至行为日志中，得到所述的操作行为信息。可选地，可以定时地关闭待检测文件，等待下一个待检测文件的输入。

在本实施例的一些可选的实现方式中，操作行为信息可以包括：网络行为信息、注册表行为信息、文件行为信息、进程行为信息以及应用程序接口(ApplicationProgrammingInterface，API)行为信息。其中，网络行为信息可以是加载文件时与网络进行交互操作的行为信息，例如加载文件时从网络服务器获取资源(例如图片、文字等)的操作行为信息；注册表行为信息可以是加载文件时对注册表中配置信息的读取或修改操作的行为信息；文件行为信息可以包括文件与其他文件进行交互的行为信息；进程行为信息可以包括加载文件时运行程序的相关行为信息；应用程序接口行为信息可以包括调用接口函数的行为信息。加载文件时每一个操作都可能产生新的网络行为信息、注册表行为信息、文件行为信息、进程行为信息以及应用程序接口行为信息。这些信息都可以以调用的函数名以及调用时间来表征。

在进一步的实现方式中，恶意文件的识别方法运行于其上的电子设备可以配置对应于以上五类操作行为信息的监控进程，分别收集每一类操作行为信息并生成行为日志。

步骤202，提取操作行为信息的特征信息。

在本实施例中，可以采用多种特征提取方式对操作行为信息的特征信息进行提取。一种可选的特征提取方式为对操作行为信息进行统计分类，过滤统计结果中数量较少的类别的信息，并将其他操作行为信息按照类别进行整合，例如可以将同一类别的操作信息用同一个特征向量表示，用特征向量中的一个参数表示该类别的操作信息的数量。另一种可选的特征提取方式为基于相关性分析的特征点提取方法，可以用一个特征信息表示相关性较高的多个操作行为信息。

在进一步的实施例中，对于网络行为信息、注册表行为信息、文件行为信息和进程行为信息，在提取操作行为信息的特征信息之前，所述的恶意文件识别方法还可以包括：对操作行为信息进行预处理。则在步骤202中可以提取预处理后的操作行为信息的特征信息。预处理可以包括对操作行为信息进行过滤，例如去除与调用的函数无关的文件验证头信息，还可以包括对操作行为信息进行特征变换，将操作行为信息向量化等。

进一步地，对操作行为信息进行预处理，可以包括：将操作行为信息进行序列化处理，得到序列化的操作行为信息。在序列化处理时，可以将同一个操作行为统一用一个特定的字符代替，这样就可以将操作行为信息转换为简单的字符数据。操作行为信息与字符的对应关系可以采用特定的数据格式进行保存，例如哈希表。这种序列化处理方式可以将操作行为信息简化，方便查询和保存，节省了存储空间，提高了算法的效率。

表1是操作行为信息与序列化的字符的一个示例性的对应关系表。在表1中，“序号”为操作行为信息的序号，“API”为所调用的函数名，“字符”为用于代替函数名的字符。在表1中，函数名“LdrLoad”、“OpenThreadToken”、“StartServiceA”、“OpenProcessToken”、“SetWindowsHookExW”、“bind”、“connect”分别用字符“A”、“B”、“C”、“D”、“E”、“F”、“G”对应，在对操作行为信息序列化时，可以将这些函数分别用对应的字符代替，例如当一个操作行为信息文件加载调用了“OpenThreadToken”、函数，则可以将该操作用“B”替换。

表1

序号	API	字符
			1	LdrLoad	A
2	OpenThreadToken	B
			3	StartServiceA	C
4	OpenProcessToken	D
			5	SetWindowsHookExW	E
6	bind	F
			7	connect	G

在用字符替换文件加载调用的函数之后，可以按照调用时间将统一文件的同一操作类型进行归纳。将同一类型的函数调用操作组合为一个字符序列。即可以将上述网络行为信息、注册表行为信息、文件行为信息、进程行为信息和API行为信息中所有的函数名按照时间顺序分别组合为网络行为字符序列、注册表行为字符序列、文件行为字符序列、进程行为字符序列和API字符序列。

表2是一个样本文件操作行为信息序列化处理后的示例性的结果。在表2中，“序号”一栏为操作行为信息的编号，“文件名”一栏为所加载的待检测文件的文件名称，“操作行为类型”是操作行为信息的类型，可以包括：网络行为信息(Net)、注册表行为信息(Reg)、文件行为信息(File)、进程行为信息(Process)和API行为信息(API)“操作行为序列”是经过字符转换后的操作行为信息。举例而言，文件名为“001.exe”的文件的操作行为信息包括API行为信息，对应的操作行为序列为“AAAABCAA”，加载该文件时调用的函数依次为表1中的：“LdrLoad”、“LdrLoad”、“LdrLoad”、“LdrLoad”、“OpenThreadToken”、“StartServiceA”、“LdrLoad”、“LdrLoad”。

表2

序号	文件名	操作行为类型	操作行为序列
				1	001.exe	API	AAAABCAA
2	002.exe	Reg	DEAEAFDAF
				3	002.exe	Process	ABBBBCAAAA
4	002.exe	Reg	ADDACBAECEFAD
				5	003.exe	File	CADEEAEACB
6	004exe	Process	ABA
				7	005.exe	API	ABDIEFBADFG

经过上述序列化处理之后，操作行为信息可以被表示为字符序列，这种字符序列的表示方式可以体现同类操作行为信息之间的依赖性，又可以区分不同类型操作行为信息之间的独立性，因而可以更准确地描述文件的属性。

在对序列化的操作行为信息进行特征提取处理时，可以从序列化的操作行为信息中提取出多个特征序列，作为操作行为信息的特征信息。具体地，可以采用N_gram算法对序列化的操作行为信息进行处理，提取其中的短序列。在本实施例中，网络行为信息和注册表行为信息中函数类型比较单一，可以仅对文件行为字符序列和进程行为字符序列进行短序列的提取。

N_Gram模型基于这样一种假设，第n个字符的出现只与前面n-1个字符相关，整个字符序列的概率就是各个字符出现概率的乘积。在本实施例中，可以创建具有N个字符长度的N_Gram窗口，N为正整数。N_Gram窗口每次以固定的字符长度为单位进行移动，在一个长序列中依次提取特征短序列。例如一个进程行为字符序列为“PROCESSACTION”，其长度为13，如果取N_Gram窗口的长度为4，以一个字符为单位进行移动，则可以得到如下10个特征序列：PROC、ROCE、OCES、CESS、ESSA、SSAC、SACT、ACTI、CTIO、TION；如果取N_Gram窗口的长度为6，以一个字符为单位进行移动，则可以得出如下8个特征序列：PROCES、ROCESS、OCESSA、CESSAC、ESSACT、SSACTI、SACTIO、ACTION。在实际场景中，可以调整移动窗口的宽度和窗口每次移动的单位长度，通过不同的取值得到不同的特征序列。

步骤203，基于预设分类模型的信息量计算特征信息的信息增益。

每个特征信息在恶意文件识别系统中具有的价值不同，在识别恶意文件时，需要选择具有较高价值的特征信息，使得识别结果可靠准确。每个特征信息对用于识别恶意文件的分类模型的信息量会造成影响。分类模型在采用该特征信息和不采用该特征信息时的信息量之差即为该特征信息的信息增益。进一步地，可以采用熵来表示信息量。

在本实施例的一些可选的实现方式中，可以采用如下方式计算特征信息的信息增益：对于每一个所述特征信息，分别计算预设分类模型的第一信息量和第二信息量；将第一信息量和所述第二信息量的差值作为特征序列的信息增益。其中，在计算第一信息量时，预设分类模型的输入特征向量中包含所述的特征信息，在计算第二信息量时，预设分类模型的输入特征向量中不包含所述的特征信息。

预设分类模型可以是恶意文件识别的模型，可以是通过机器学习训练好的模型。在本实施例中，预设分类模型可以是用于识别步骤201获取的待检测文件是否为恶意文件时所采用的模型。预设分类模型S的熵Entropy(S)可以如式(1)计算：

E n t r o p y (S) = - Σ_{i = 1}^{n} P (C_{i}) \cdot \log_{2} P (C_{i}) - - - (1)

其中，n表示预设分类模型中这个类别的特征总数量，每个类别的特征用C_i(i＝1，2，…，n)表示，P(C_i)为每个类别的特征出现的概率。在本实施例中，特征的类别包括安全(Safe)和恶意(Malice)两类，则预设分类模型的第一信息量Entropy(C)为：

Entropy(C)＝-P(Safe)·log₂P(Safe)-P(Malice)·log₂P(Malice)(2)

其中，P(safe)为分类结果中安全文件的比例，P(Malice)为分类结果中恶意文件的比例。

对于一个特征信息X，预设分类模型的第二信息量为：

其中，P(safe|X)为从预设分类模型采用的特征信息集合中去除特征信息X后分类结果中安全文件所占的比例，为从预设分类模型采用的特征信息集合中去除特征信息X后分类结果中恶意文件所占的比例。

对于一个特征信息X，其信息增益IG(X)可以如式(4)计算：

I G (X) = E n t r o p y (C) - E n t r o p y (C | \overset{&OverBar;}{X}) - - - (4)

信息增益的值越大，表明特征信息X具有越高的价值。

步骤204，根据信息增益从特征信息中筛选出有效特征信息。

在本实施中，可以根据所有特征信息的信息增益从特征信息中筛选出有效特征信息。具体地，可以将信息增益大于预设阈值的特征信息作为有效特征信息。也可以采用排序筛选的方式，按照信息增益对特征信息进行排序，排序前M位的特征信息作为有效特征信息。其中，M可以为预设的数值。

需要说明的是，步骤203中可以计算从每一类操作行为信息提取出的特征信息的信息增益。在采用以上排序筛选的方式筛选出有效特征信息时，可以对每一类操作行为信息的特征信息进行排序，分别筛选出每一类操作行为信息的有效特征信息，也可以对所有类别的操作行为信息的特征信息进行全排序然后进行筛选。

步骤205，将有效特征信息导入预先训练的恶意文件识别模型进行识别。

在确定有效特征信息后，可以将有效特征信息输入预先训练的恶意文件识别模型进行识别。所述的恶意文件识别模型可以是采用机器学习方法训练得出的模型，能够识别待检测文件是否为恶意文件，可以预先保存在恶意文件识别方法运行于其上的电子设备中。

在本实施例的一些可选的实现方式中，恶意文件的识别方法还可以包括建立恶意文件识别模型的步骤。具体地，建立恶意文件识别模型的步骤可以包括：采集样本文件的操作行为信息，从样本文件的操作行为信息中提取出样本特征信息，然后利用机器学习方法，基于样本特征信息训练得出恶意文件识别模型。

在上述建立恶意文件识别模型的步骤中，样本文件可以包括恶意样本文件和正常样本文件。样本文件的操作行为信息采集可以采用如本实施例步骤201的获取待检测文件的操作行为信息的方法。可以采用本实施例步骤202、步骤203和步骤204相类似的方法从样本文件的操作行为信息中提取出有效的样本特征信息。在利用机器学习方法训练恶意文件识别模型时，可以采用不同的分类算法作为备选的识别模型。之后可以检测测试样本集，基于测试样本集对备选的识别模型进行识别性能的测试后，可以选出最优的备选识别模型作为所述的恶意文件识别模型。可选的分类算法包括但不限于贝叶斯分类法、决策树分类法和支持向量机算法。识别性能可以采用假阴性(FalseNegative，FN)和假阳性(FalsePositive,FP)的数量或比例来判定，也可以通过接受者操作特征(ReceiverOperationCharacteristic，ROC)来判定。FN和FP的值越小，ROC曲线与坐标轴组成的区域面积越大，则识别性能越好，恶意文件的识别准确率越高。

在上述恶意文件识别模型建立过程中，还可以建立测试文件集合，采用测试文件集合测试模型的识别性能。可选地，还可以基于识别性能对模型参数进行调整，之后基于样本文件训练调整参数后的恶意文件识别模型。

在将步骤204中筛选出的有效特征信息导入训练好的恶意文件识别模型后，可以得出待检测文件是否为恶意文件的识别结果。

进一步参考图3，其示出了图2所示实施例的一个实际应用的原理示意图。如图3所示，在识别恶意文件时，开始之后，可以利用虚拟机中的监控程序对待检测文件的网络行为、注册表行为、文件行为、进程行为以及API行为等操作行为进行采集，之后可以对采集到的操作行为进行序列化处理。在计算序列化的操作行为的信息增益之前，可以判断采集到的操作行为是否为API行为，如果是，可以直接计算API行为的信息增益；如果不是，则可以采用N_gram算法从序列化的操作行为中提取短序列特征，之后再计算每个短序列特征的信息增益。而后可以根据信息增益从序列化的操作行为中筛选出有效特征信息，并输入分类器进行识别，得出识别结果后结束识别过程。

相应地，在建立识别模型时，也可以采用图3所示的流程，开始之后，可以利用虚拟机中的监控程序对样本文件的网络行为、注册表行为、文件行为、进程行为以及API行为等操作行为进行采集，之后可以对采集到的操作行为进行序列化处理。在计算序列化的操作行为的信息增益之前，可以判断采集到的操作行为是否为API行为，如果是，可以直接计算API行为的信息增益；如果不是，则可以采用N_gram算法从序列化的操作行为中提取短序列特征，之后再计算每个短序列特征的信息增益。而后可以根据信息增益从序列化的操作行为中筛选出有效特征信息，采用机器学习的方式对分类器进行训练，并通过FN、FP、ROC曲线等识别性能选择最优分类器之后结束识别模型的建立过程。

进一步参考图4，其示出了基于图2所实施例提供的恶意文件的识别方法对一个待测文件集的识别结果示意图。其中，“All”表示采用本申请实施例所述的五类操作行为信息(包括网络行为信息、注册表行为信息、文件行为信息、进程行为信息和应用程序接口行为信息)的识别结果。图4中柱状图的高度表示识别错误的待测文件数量。可以看出，采用五类操作行为信息进行识别时的FN和FP均为最低，识别准确率最高。

本申请所提供的恶意文件的识别方法，通过采集文件的多重操作行为信息，之后提取操作行为信息的特征信息，基于特征信息的信息增益筛选有效特征信息，然后导入恶意文件识别模型进行识别，增强了用于识别的恶意文件的特征信息的可靠性，从而提升了恶意文件识别的准确率。

继续参考图5，作为对上述图2所示方法的实现，本申请提供了一种恶意文件的识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的数据加载装置500包括：获取单元501、提取单元502、计算单元503、筛选单元504以及识别单元505。其中，获取单元501用于获取待检测文件的操作行为信息；提取单元502用于提取操作行为信息的特征信息；计算单元503用于基于预设分类模型的信息量计算特征信息的信息增益；筛选单元504用于根据信息增益从特征信息中筛选出有效特征信息；识别单元505用于将有效特征信息导入预先训练的恶意文件识别模型进行识别。

在本实施例中，获取单元501可以扫描待检测的文件目录，判断是否存在待检测文件。在检测到待检测文件时可以加载待检测文件，并监控待检测文件加载过程中操作日志。操作日志中的操作行为信息可以包括网络行为信息、注册表行为信息、文件行为信息、进程行为信息、应用程序接口行为信息。

在本实施例的一些可选的实现方式中，获取单元501可以按如下方式获取待检测文件的操作行为信息：加载待检测文件，采集所述待检测文件的接口调用信息，以确定所述待检测文件的操作行为信息。待检测文件的接口调用信息可以包括调用的函数名和调用时间等。进一步地，可以创建虚拟机，在虚拟机中扫描待检测文件目录，依次加载待检测文件目录下的文件。

在本实施例中，提取单元502可以从获取单元501获取的操作行为信息中提取特征信息。提取单元502可以对操作行为信息进行统计分类，过滤统计结果中数量较少的类别的信息，并将其他操作行为信息按照类别进行整合，例如可以将同一类别的操作信息用同一个特征向量表示，用特征向量中的一个参数表示该类别的操作信息的数量。提取单元502也可以基于相关性分析的特征点提取方法，例如可以用一个特征信息表示相关性较高的多个操作行为信息。

在进一步的实现方式中，恶意文件的识别装置500还可以包括预处理单元(未示出)，用于对操作行为信息进行预处理。提取单元502可以进一步用于提取预处理后的操作行为信息的特征信息。预处理的方式可以包括将操作行为信息序列化。具体地，可以将操作行为信息中文件加载时调用的函数名称用简单的字符代替，从而将操作行为信息转换为字符序列。提取单元502可以进一步用于从字符序列中提取出多个特征序列，作为特征信息。特征序列的提取可以采用基于N_gram窗口的端序列提取方法。对于每一个特征序列，以一定的窗口大小和一定的移动单位长度进行移动，在每次移动之后，将窗口内的字符序列作为提取出的一个特征序列。

计算单元503可以用于按如下方式计算提取单元502提取出的特征信息的信息增益：对于每一个特征信息，分别计算预设分类模型的第一信息量和第二信息量；将第一信息量和所述第二信息量的差值作为特征序列的信息增益；其中，在计算第一信息量时，预设分类模型的输入特征向量中包含上述特征信息，在计算第二信息量时，预设分类模型的输入特征向量中不包含上述特征信息。

筛选单元504可以基于计算单元503得出的信息增益，按照预设的规则对特征信息进行筛选，以确定对识别模型价值较大的有效特征信息。可选地，可以将信息增益大于预设阈值的特征信息作为所述的有效特征信息。

识别单元505可以基于筛选单元504筛选出的有效特征信息，采用经过训练的恶意文件识别模型对待检测文件进行识别，判断待检测文件是否为恶意文件。

在一些可选的实现方式中，恶意文件的识别装置500还可以包括建立单元(未示出)，用于建立恶意文件识别模型。建立单元可以包括：样本文件采集子单元，用于采集样本文件的操作行为信息，样本文件包括恶意样本文件和正常样本文件；特征提取子单元，用于从样本文件的操作行为信息中提取出样本特征信息；模型训练子单元，用于利用机器学习方法，基于样本特征信息训练得出所述恶意文件识别模型。其中样本文件采集子单元可以用于与获取单元502同样的方式采集样本文件的操作行为信息；特征提取子单元可以采用与提取单元、计算单元、筛选单元相类似的方式提取样本特征信息；模型训练子单元可以采用多种分类器作为识别模型，基于样本特征信息训练分类器，调整分类器的参数，得出最优的恶意文件识别模型。

应当理解，装置500中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对恶意文件的识别方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。装置500中的相应单元可以与终端设备和/或服务器中的单元相互配合以实现本申请实施例的方案。

本领域技术人员可以理解，上述恶意文件的识别装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

本实施例所提供的恶意文件的识别装置可以提升恶意文件的识别准确率，降低漏检率。该装置还可以配置于虚拟机中，能够动态地获取文件的操作行为信息，在检测恶意文件的同时能够影响主操作系统的安全，扩展了恶意文件检测的应用范围。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、提取单元、计算单元、筛选单元和识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“用于获取待检测文件的操作行为信息的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：获取待检测文件的操作行为信息；提取所述操作行为信息的特征信息；基于预设分类模型的信息量计算所述特征信息的信息增益；根据所述信息增益从所述特征信息中筛选出有效特征信息；将所述有效特征信息导入预先训练的恶意文件识别模型进行识别。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种恶意文件的识别方法，其特征在于，所述方法包括：

获取待检测文件的操作行为信息；

提取所述操作行为信息的特征信息；

基于预设分类模型的信息量计算所述特征信息的信息增益；

根据所述信息增益从所述特征信息中筛选出有效特征信息；

将所述有效特征信息导入预先训练的恶意文件识别模型进行识别。

2.根据权利要求1所述的方法，其特征在于，所述获取待检测文件的操作行为信息，包括：

加载所述待检测文件；

采集所述待检测文件的接口调用信息，以确定所述待检测文件的操作行为信息。

3.根据权利要求2所述的方法，其特征在于，所述加载所述待检测文件包括：

创建虚拟机；

在所述虚拟机中扫描待检测文件目录；

依次加载所述待检测文件目录下的文件。

4.根据权利要求1所述的方法，其特征在于，在所述提取所述操作行为信息的特征信息之前，所述方法还包括：

对所述操作行为信息进行预处理；以及

所述提取所述操作行为信息的特征信息，包括：

提取预处理后的操作行为信息的特征信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述操作行为信息进行预处理，包括：

将所述操作行为信息进行序列化处理，得到序列化的操作行为信息；以及

所述提取所述操作行为信息的特征信息，包括：

从所述序列化的操作行为信息中提取出多个特征序列，作为所述特征信息。

6.根据权利要求1所述的方法，其特征在于，所述基于预设分类模型的信息量计算所述特征信息的信息增益，包括：

对于每一个所述特征信息，分别计算所述预设分类模型的第一信息量和第二信息量；

将所述第一信息量和所述第二信息量的差值作为所述特征序列的信息增益；

其中，在计算所述第一信息量时，所述预设分类模型的输入特征向量中包含所述特征信息，在计算所述第二信息量时，所述预设分类模型的输入特征向量中不包含所述特征信息。

7.根据权利要求1所述的方法，其特征在于，所述根据所述信息增益从所述特征信息中筛选出有效特征信息包括：

将信息增益大于预设阈值的特征信息作为所述有效特征信息。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

建立恶意文件识别模型的步骤，包括：

采集样本文件的操作行为信息，所述样本文件包括恶意样本文件和正常样本文件；

从所述样本文件的操作行为信息中提取出样本特征信息；

利用机器学习方法，基于所述样本特征信息训练得出所述恶意文件识别模型。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述操作行为信息包括：网络行为信息、注册表行为信息、文件行为信息、进程行为信息、应用程序接口行为信息。

10.一种恶意文件的识别装置，其特征在于，所述装置包括：

获取单元，用于获取待检测文件的操作行为信息；

提取单元，用于提取所述操作行为信息的特征信息；

计算单元，用于基于预设分类模型的信息量计算所述特征信息的信息增益；

筛选单元，用于根据所述信息增益从所述特征信息中筛选出有效特征信息；

识别单元，用于将所述有效特征信息导入预先训练的恶意文件识别模型进行识别。

11.根据权利要求10所述的装置，其特征在于，所述获取单元进一步用于按如下方式获取待检测文件的操作行为信息：

加载所述待检测文件；

12.根据权利要求11所述的装置，其特征在于，所述获取单元进一步用于按如下方式加载所述待检测文件：

创建虚拟机；

在所述虚拟机中扫描待检测文件目录；

依次加载所述待检测文件目录下的文件。

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

预处理单元，用于对所述操作行为信息进行预处理；以及

所述提取单元进一步用于提取预处理后的操作行为信息的特征信息。

14.根据权利要求13所述的装置，其特征在于，所述预处理单元进一步用于按如下方式对所述操作行为信息进行预处理：

所述提取单元进一步用于按如下方式提取所述操作行为信息的特征信息：

15.根据权利要求10所述的装置，其特征在于，所述计算单元用于按如下方式计算所述特征信息的信息增益：

16.根据权利要求10所述的装置，其特征在于，所述筛选单元进一步用于按如下方式从所述特征信息中筛选出有效特征信息：

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

建立单元，用于建立恶意文件识别模型，包括：

样本文件采集子单元，用于采集样本文件的操作行为信息，所述样本文件包括恶意样本文件和正常样本文件；

特征提取子单元，用于从所述样本文件的操作行为信息中提取出样本特征信息；

模型训练子单元，用于利用机器学习方法，基于所述样本特征信息训练得出所述恶意文件识别模型。

18.根据权利要求10-17任一项所述的装置，其特征在于，所述操作行为信息包括：网络行为信息、注册表行为信息、文件行为信息、进程行为信息、应用程序接口行为信息。