CN104572821B

CN104572821B - 一种文件处理方法及装置

Info

Publication number: CN104572821B
Application number: CN201410727332.XA
Authority: CN
Inventors: 许天胜; 黄源超
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2016-12-14
Anticipated expiration: 2034-12-03
Also published as: CN104572821A

Abstract

本发明实施例提供一种文件处理方法及装置，其中的方法可包括：获取待处理的目标文件的代码信息和属性信息；运行所述目标文件的代码信息，并采集所述目标文件的代码信息在运行过程中的界面图像；根据所述目标文件的属性信息，从预设病毒库中查找对应的病毒图像；检测所述界面图像是否与所查找的病毒图像相匹配，若所述界面图像与所查找的病毒图像相匹配，确认所述目标文件为病毒文件。本发明可以基于图像识别技术对目标文件进行安全检测，提升文件处理的准确率和智能性。

Description

一种文件处理方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种文件处理方法及装置。

背景技术

病毒指计算机程序中插入的破坏计算机功能或者数据的代码。随着互联网技术的发展，病毒的形态也发生了相应变化，并越来越多侵入至人们的互联网生活中。目前，常见的病毒通常以低成本开发，入侵诸如即时通信应用、SNS应用等常用文件中，并通过虚假欺诈的图形界面等社会工程学方法，以诱导方式盗取用户信息，这类病毒又被称为社工类病毒。

传统判断文件是否为病毒文件的文件处理方式主要是基于特征码方式，具体为：提取表征病毒文件“身份”标识的二进制码作为病毒特征码，基于该病毒特征码对目标文件进行扫描，比对目标文件的特征码与病毒特征码相匹配，则判断目标文件为病毒文件。然而，上述传统的文件处理方式应用较为局限，如果病毒通过变形、加壳、加花、多态等技术进行变种处理后，则可能出现判断错误，从而降低文件处理的准确率；另外，针对目前常见的社工类病毒，由于是以诱导用户作为目的，其病毒文件的特征码跟正常文件的特征码较为类似，采用上述传统的文件处理方式无法对社工类病毒进行有效监控，从而降低文件处理的智能性。

发明代码信息

本发明实施例提供一种文件处理方法及装置，可以基于图像识别技术对目标文件进行安全检测，提升文件处理的准确率和智能性。

本发明实施例第一方面提供一种文件处理方法，可包括：

获取待处理的目标文件的代码信息和属性信息；

运行所述目标文件的代码信息，并采集所述目标文件的代码信息在运行过程中的界面图像；

根据所述目标文件的属性信息，从预设病毒库中查找对应的病毒图像；

检测所述界面图像是否与所查找的病毒图像相匹配，若所述界面图像与所查找的病毒图像相匹配，确认所述目标文件为病毒文件。

本发明实施例第二方面提供一种文件处理装置，可包括：

获取单元，用于获取待处理的目标文件的代码信息和属性信息；

运行单元，用于运行所述目标文件的代码信息；

采集单元，用于采集所述目标文件的代码信息在运行过程中的界面图像；

查找单元，用于根据所述目标文件的属性信息，从预设病毒库中查找对应的病毒图像；

检测单元，用于检测所述界面图像是否与所查找的病毒图像相匹配；

处理单元，用于若所述界面图像与所查找的病毒图像相匹配，确认所述目标文件为病毒文件。

实施本发明实施例，具有如下有益效果：

本发明实施例中，可采集目标文件的代码信息在运行过程中的界面图像，并基于图像识别技术检测所述界面图像是否与病毒图像相匹配，从而确认目标文件是否为病毒文件，基于图像识别技术可以不受病毒变形技术的影响，且针对现有常见的社工类病毒，能够有效识别诱骗界面，提升文件处理的准确率，同时提升文件处理的智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文件处理方法的流程图；

图2为图1所示的步骤S105的实施例的流程图；

图3为图2所示的步骤s2004的实施例的流程图；

图4为图3所示的步骤s3001的实施例的流程图；

图5为本发明实施例提供的至少一个图像区域的示意图；

图6为图4所示的步骤s4002的实施例的流程图；

图7为本发明实施例提供的一种文件处理装置的结构示意图；

图8为本发明实施例提供的一种检测单元的结构示意图；

图9为本发明实施例提供的一种界面特征计算单元的结构示意图；

图10为本发明实施例提供的一种特征向量计算单元的结构示意图；

图11为本发明实施例提供的一种指纹计算单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的文件处理方案主要是基于图像识别技术，对文件是否为病毒文件进行检测。本发明实施例中，文件可以指能够在诸如Windows、Android等系统中运行的可执行文件，具体包括各种类型的APP文件，例如：即时通信应用、SNS应用、游戏应用等等。

本发明实施例的文件处理方案可以应用于互联网领域的多个场景中，例如：可以应用于对互联网文件库中的文件进行分析处理的场景，如可以对互联网文件库中的各类应用文件的安装包进行检测，保证互联网文件库中的文件安全性；再如：可以应用于对互联网交互过程中的文件进行检测的场景，如用户在采用即时通信应用进行聊天通话时，若存在文件的交互过程，可以对所交互的文件进行检测以保证交互安全性；又如：可以应用于在文件的使用过程中，对所使用的文件进行检测的场景，如用户登录SNS应用过程中，可以对SNS应用进行检测以保证登录安全性，等等。

下面将结合附图1-附图6，对本发明实施例提供的文件处理方法进行详细介绍。需要说明的是，附图1-附图6所示的文件处理方法可以由本发明实施例提供的文件处理装置所执行，该文件处理装置可运行于终端设备或服务器中，其中，终端设备可包括但不限于：PC(Personal Computer，个人计算机)、PAD(平板电脑)、手机、智能手机、笔记本电脑等设备。

请参见图1，为本发明实施例提供的一种文件处理方法的流程图；该方法可包括以下步骤S101-步骤S106。

S101，获取待处理的目标文件的代码信息和属性信息。

所述目标文件可以指能够在诸如Windows、Android等系统中运行的可执行文件，具体包括各种类型的APP文件，例如：所述目标文件可以为即时通信应用，或者，所述目标文件可以为SNS应用，或者，所述目标文件可以为游戏应用等等。其中，所述目标文件的代码信息指用于实现所述目标文件所声明功能的程序代码，例如：若所述目标文件为即时通信应用，则所述目标文件的代码信息为即时通信应用的程序代码，该程序代码可用于实现即时通信应用所声明的诸如登录、聊天、音视频通话等功能。其中，所述目标文件的属性信息指用于描述所述目标文件的特性的信息，可包括但不限于：所述目标文件的标识或所述目标文件所属类别。其中，所述目标文件所属类别可包括但不限于：即时通信类别、SNS类别、游戏类别等等。

本步骤中，可以根据实际的处理需求，获得待处理的目标文件的代码信息和属性信息；例如：若需要对互联网文件库中的文件进行分析处理，则可从所述互联网文件库中选取待处理的目标文件，并获取该目标文件的代码信息和属性信息。再如：若需要对用户指定的文件进行处理时，可接收用户输入的目标文件的代码信息和属性信息。又如：若根据用户的实际需求对交互过程进行安全监测时，可以在交互过程中获取待处理的目标文件的代码信息和属性信息。

S102，运行所述目标文件的代码信息。

本步骤中，可以模拟所述目标文件运行所需的系统环境，并在该系统环境中运行所述目标文件的代码信息；例如：若所述目标文件为即时通信应用XX，其运行所需的系统环境为Android4.0，本步骤则可以模拟出Android4.0的系统环境，将即时通信应用XX的代码信息加载至Android4.0的系统内存中，并运行加载的该即时通信应用XX的代码信息。

S103，采集所述目标文件的代码信息在运行过程中的界面图像。

由于所述目标文件的代码信息在所模拟的系统环境中运行，因此，本步骤中，可以调用所模拟的系统提供的API，截取所述目标文件的代码信息在运行过程中的界面图像；按照步骤S102所示例子，针对在Android4.0的系统环境下运行的即时通信应用XX的代码信息，本步骤可以调用Android4.0所开放的API，通过API截取即时通信应用XX的代码信息在运行过程中的界面图像。

可以理解的是，所述界面图像为所述目标文件的代码信息在运行过程中所实现的各个功能界面，例如：所述界面图像可以为即时通信应用XX的登录功能界面的截图图像，或者，可以为即时通信应用XX的聊天功能界面的截图图像，等等。

S104，根据所述目标文件的属性信息，从预设病毒库中查找对应的病毒图像。

所述预设病毒库可以是依据大量的实验或学习所收录的、各种已确认的病毒文件的属性信息，以及所对应的病毒图像和病毒图像的特征信息。在本发明实施例的一种可行的实施方式中，所述预设病毒库可包括至少一个文件标识，所述至少一个文件标识对应的病毒图像，以及所述至少一个文件标识对应的病毒图像的特征信息。其中，所述文件标识可以指文件的版本号、文件的渠道号等等。

在本发明实施例的另一种可行的实施方式中，所述预设病毒库可包括至少一种文件类别，所述至少一种文件类别对应的病毒图像，以及所述至少一种文件类别对应的病毒图像的特征信息。其中，所述文件类别可包括但不限于：即时通信类别、SNS类别、游戏类别等等。本步骤中，根据所述目标文件的属性信息，可以从预设病毒库中查找对应的病毒图像。

S105，检测所述界面图像是否与所查找的病毒图像相匹配。

本步骤可以基于图像识别技术，检测所述界面图像是否与所查找的病毒图像相匹配。若所述界面图像与所查找的病毒图像相匹配，表明所述目标文件的代码信息在运行过程中出现了病毒图像，进而表明所述目标文件为病毒文件。

S106，若所述界面图像与所查找的病毒图像相匹配，确认所述目标文件为病毒文件。

请参见图2，为图1所示的步骤S105的实施例的流程图；该步骤S105可包括以下步骤s2001-步骤s2006。

s2001，计算所述界面图像的尺寸与所查找的病毒图像的尺寸之间的尺寸差值。

所述界面图像的尺寸指所述界面图像的宽度与高度；所查找的病毒图像的尺寸指所查找的病毒图像的宽度与高度。本步骤中，所述尺寸差值包括宽度差值和高度差值；具体地，可以将所述界面图像的宽度与所查找的病毒图像的宽度进行相减运算，将所述界面图像的高度与所查找的病毒图像的高度进行相减运算，获得尺寸差值。

s2002，判断所述尺寸差值是否位于预设尺寸范围内，若判断结果为是，转入步骤s2003；否则，结束。

所述预设尺寸范围可以根据实际情况进行设定，如可以考虑文件处理装置的实际容错能力，设定所述预设尺寸范围；或者，可以考虑图像识别的准确率和清晰度，设定所述预设尺寸范围，等等。本步骤中，假设设定所述预设尺寸范围包括：预设宽度范围为[-10像素，10像素]及预设高度范围为[-10像素，10像素]，则需要判断宽度差值是否位于所述预设宽度范围内，且需要判断高度差值是否位于所述预设高度范围内。若宽度差值位于所述预设宽度范围内，且高度差值位于所述预设高度范围内，则判断结果为是，可转入步骤s2003。

s2003，从所述预设病毒库中获取所查找的病毒图像的特征信息。

所述预设病毒库可以是依据大量的实验或学习所收录的、各种已确认的病毒文件的属性信息，以及所对应的病毒图像和病毒图像的特征信息。具体实现中，所述预设病毒库可包括至少一个文件标识，所述至少一个文件标识对应的病毒图像，以及所述至少一个文件标识对应的病毒图像的特征信息。其中，所述文件标识可以指文件的版本号、文件的渠道号等等。所述预设病毒库也可包括至少一种文件类别，所述至少一种文件类别对应的病毒图像，以及所述至少一种文件类别对应的病毒图像的特征信息。其中，所述文件类别可包括但不限于：即时通信类别、SNS类别、游戏类别等等。

所查找的病毒图像的特征信息指用于描述所查找到的病毒图像的诸如色彩、大小等特征的信息。所述特征信息可包括三个要素，该三个要素分别为：所查找到的病毒图像的色彩分区的信息，所述色彩分区所包含的像素点数量的信息以及所查找的病毒图像的尺寸信息。

s2004，计算所述界面图像的特征信息。

所述界面图像的特征信息指用于描述所述界面图像的诸如色彩、大小等特征的信息。所述特征信息可以包括三个要素，该三个要素分别为：所述界面图像的色彩分区的信息，所述色彩分区所包含的像素点数量的信息以及所述界面图像的尺寸信息。

s2005，采用相关运算规则计算所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性。

本步骤中，可以采用皮尔逊相关系数计算公式，计算所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性。需要说明的是，所述相关性的取值范围位于[-1,1]，若所述相关性等于-1，表明所述界面图像的特征信息与所查找的病毒图像的特征信息之间完全相反；若所述相关性等于0，表明所述界面图像的特征信息与所查找的病毒图像的特征信息完全不同但并不完全相反；若所述相关性等于1，表示所述界面图像的特征信息与所查找的病毒图像的特征信息之间完全相同；因此，若所述相关性值越大，表明所述界面图像的特征信息与所查找的病毒图像的特征信息越相似。

s2006，若所述相关性大于预设相关阈值，确定所述界面图像与所查找的病毒图像相匹配。

所述预设相关阈值的取值范围位于[-1,1]，所述预设相关阈值可以根据实际情况进行设定，例如：如可以考虑文件处理装置的实际容错能力，设定所述预设相关阈值；等等。若所述相关性大于预设相关阈值，表明所述界面图像与所查找的病毒图像相似，表明所述界面图像与所查找的病毒图像相匹配。

需要说明的是，本步骤的s2001-步骤s2002为可选步骤，即在检测所述界面图像是否与所查找的病毒图像相匹配的过程中，也可以直接执行后续的步骤s2003-步骤s2006，无需执行步骤s2001-步骤s2002。

请参见图3，为图2所示的步骤s2004的实施例的流程图；该步骤s2004可包括以下步骤s3001-步骤s3003。

s3001，计算所述界面图像的特征向量。

所述界面图像的特征向量指用于描述所述界面图像的色彩特征的信息。所述特征向量可以包括两个要素，该两个要素分别为：所述界面图像的色彩分区的信息和所述色彩分区所包含的像素点数量的信息。

s3002，获取所述界面图像的尺寸。

所述界面图像的尺寸指所述界面图像的宽度与高度；本步骤中，可以通过扫描所述界面图像的像素点，获知所述界面图像的尺寸，具体地，可通过扫描所述界面图像的横向像素点，获得所述界面图像的宽度；可通过扫描所述界面图像的纵向像素点，获得所述界面图像的高度。

s3003，将所述界面图像的特征向量与所述界面图像的尺寸进行合并处理，生成所述界面图像的特征信息。

将所述界面图像的特征向量与所述界面图像的尺寸相加以进行合并处理，则可生成所述界面图像的特征信息。

请参见图4，为图3所示的步骤s3001的实施例的流程图；该步骤s3001可包括以下步骤s4001-步骤s4003。

s4001，将所述界面图像分割为至少一个图像区域。

对所述界面图像进行分割，可增加所述界面图像的色彩分布的矢量性，从而可以有效地增加对所述界面图像的识别精度。具体实现中，其分割获得的图像区域越多，则可使用对所述界面图像的识别精度越高，但同时也会增加计算和处理的复杂度，因此，实现应用中，可结合识别精度的需求及处理复杂度的要求，对所述界面图像进行分割，例如：可将所述界面图像分割为2个图像区域，或者，可将所述界面图像分割为4个图像区域。

请一并参见图5，为本发明实施例提供的至少一个图像区域的示意图；图5所示实例中，所述界面图像为即时通信应用的登录界面的截图图像，将所述界面图像分割为4个图像区域，分别表示为图像区域①，图像区域②，图像区域③和图像区域④。

s4002，计算所述至少一个图像区域的指纹。

所述图像区域的指纹指用于描述所述图像区域的色彩分布的信息，即所述图像区域的指纹可以表示所述图像区域的各像素点在色彩空间中的分布情况。按照图5所示实例，需要分别计算图像区域①的指纹，图像区域②的指纹，图像区域③的指纹和图像区域④的指纹。

s4003，将所述至少一个图像区域的指纹进行合并运算，获得所述界面图像的特征向量。

将所述至少一个图像区域的指纹相加以进行合并运算，则可获得所述界面图像的特征向量。按照图5所示实例，本步骤可以将图像区域①的指纹，图像区域②的指纹，图像区域③的指纹和图像区域④的指纹进行相加合并，获得所述界面图像的特征向量。

请参见图6，为图4所示的步骤s4002的实施例的流程图；该步骤s4002可包括以下步骤s5001-步骤s5006。

s5001，依次从所述至少一个图像区域中选取一个图像区域确定为目标图像区域。

按照图5所示实例，本实施例需要依次选取图像区域①、图像区域②、图像区域③和图像区域④确定为目标图像区域，分别计算图像区域①、图像区域②、图像区域③和图像区域④的指纹。

s5002，设置预设数量的色彩分区。

一个色彩分区对应一个色彩值范围。通常，图像的色彩空间可以表示为RGB空间，其中，R、G、B三种原色的取值范围均为[0,255]，则RGB空间总共包含1600万(256的三次方)种色彩值，直接采用RGB空间进行图像指纹的计算，其计算量较大易损伤文件处理装置的性能，因此，为了简化运算过程，本步骤可以设置预设数量的色彩分区，即将RGB空间划分为预设数量的色彩分区。具体地，所述预设数量可以根据文件处理装置的实际运算能力进行设定，所述预设数量优选设置为2的倍数，以保证对RGB空间包含的色彩的平均分配，保证计算准确性。

本发明实施例中，假设所述预设数量为8，即设置8个色彩分区，则该8个色彩分区可表示如下：色彩分区零，对应的取值范围为[0～31]；色彩分区一，对应的取值范围为[32～63]；色彩分区二，对应的取值范围为[64～95]；色彩分区三，对应的取值范围为[96～127]；色彩分区四，对应的取值范围为[128～159]；色彩分区五，对应的取值范围为[160～191]；色彩分区六，对应的取值范围为[192～223]；色彩分区七，对应的取值范围为[224～255]。

s5003，扫描所述目标图像区域的各像素点，获得各像素点的色彩值。

一个像素点对应一个色彩值，该色彩值可采用(R,G,B)进行表示；例如：某像素点的色彩值可表示为(55，12，35)，等等。在本步骤的一种可行的实施方式中，可以依次扫描所述目标图像区域内的每个像素点，获得各个像素点的色彩值。

在本步骤的另一种可行的实施方式中，可以采用插值法扫描所述目标图像区域的各像素点，获得各像素点的色彩值，具体地，可根据文件处理装置的实际运算能力以及计算精度的需求，设置插值法的插值参数，例如：可设置插值法的插值参数为4，则本步骤可以纵横每隔4个像素点进行一次扫描，获得扫描的各像素点的色彩值。可以理解的是，采用插值法的实施方式时，插值参数设置越大，越可以简化运算过程，但同时也在一定程度上影响运算精度，因此，实际应用中可结合文件处理装置的实际运算能力以及运算精度的需求，合理设置插值参数。

s5004，将各像素点的色彩值映射至所述预设数量的色彩分区。

由于一个像素点对应一个色彩值，一个色彩值可采用(R,G,B)进行表示；例如：某像素点的色彩值可表示为(55，12，35)，等等，本步骤则需要将各像素点的色彩值映射至各色彩分区中，以上述例子进行说明，某像素点的色彩值可表示为(55，12，35)，按照步骤s5002所示例子中的8个色彩分区为例，由于55位于色彩分区一，12位于色彩分区零，35位于色彩分区一，则本步骤对该像素点进行映射处理后，该像素点映射后的色彩值可表示为(一区，零区，一区)。

s5005，分别统计每个色彩分区包含的像素点数量。

本步骤中，可以采用下述表一来表示每个色彩分区包含的像素点数量的统计结果。

表一：像素点数量统计表

映射后的色彩值(R，G，B)	像素点数量
		(零区，零区，零区)	2521
(零区，零区，一区)	14
		(零区，零区，二区)	11
(零区，零区，三区)	0
		(零区，零区，四区)	0
(零区，零区，五区)	0
		(零区，零区，六区)	145
(零区，零区，七区)	1444
		(零区，一区，零区)	542
(零区，零区，一区)	0
		……	……

可以理解的是，按照本实施例所示例子，若总共设置8个色彩分区，则上述表一中总共包含512项统计结果。

s5006，根据每个色彩分区包含的像素点数量，构建所述目标图像区域的指纹。

本步骤中，可以采用一个数组向量表示上述表一所示的统计结果，则该数组向量构成所述目标图像区域的指纹，该数组向量的长度为512，且可表示为{2521，14，11，0，0，0，145，1444，542，0，……}。

需要说明的是，采用图6所示的步骤s5001-步骤s5006可以获得各个图像区域的指纹，以本实施例所示例子，可获得图像区域①的指纹为{2521，14，11，0，0，0，……}共512位；图像区域②的指纹{522，0，125，0，0，0，……}共512位；图像区域③的指纹{561，0，0，54，0，11，……}共512位；以及图像区域④的指纹{12，0，0，545，45，0，0，……}共512位。采用图5所示的步骤s4003，对上述4个图像区域的指纹进行合并运算，可获得所述界面图像的特征向量为{2521，14，11，0，0，0，……，522，0，125，0，0，0，……，561，0，0，54，0，11，……，12，0，0，545，45，0，0，……}共512*4＝2048位。进一步，假设所述界面图像的尺寸信息可表示为{290，223}，其中290为所述界面图像的宽度，223为所述界面图像的高度，则采用图3所示的步骤s3003，将所述界面图像的特征向量与所述界面图像的尺寸相加以进行合并处理，则可生成所述界面图像的特征信息为{2521，14，11，0，0，0，……，522，0，125，0，0，0，……，561，0，0，54，0，11，……，12，0，0，545，45，0，0，……，290，223}共2048+2＝2050位。

下面将结合附图7-附图11，对本发明实施例提供的文件处理装置进行详细介绍。需要说明的是，该文件处理装置可运行于终端设备或服务器中以执行上述图1-图6所示的方法，其中，终端设备可包括但不限于：PC(Personal Computer，个人计算机)、PAD(平板电脑)、手机、智能手机、笔记本电脑等设备。

请参见图7，为本发明实施例提供的一种文件处理装置的结构示意图；该装置可包括：获取单元101、运行单元102、采集单元103、查找单元104、检测单元105和处理单元106。

获取单元101，用于获取待处理的目标文件的代码信息和属性信息。

所述获取单元101可以根据实际的处理需求，获得待处理的目标文件的代码信息和属性信息；例如：若需要对互联网文件库中的文件进行分析处理，则可从所述互联网文件库中选取待处理的目标文件，并获取该目标文件的代码信息和属性信息。再如：若需要对用户指定的文件进行处理时，可接收用户输入的目标文件的代码信息和属性信息。又如：若根据用户的实际需求对交互过程进行安全监测时，可以在交互过程中获取待处理的目标文件的代码信息和属性信息。

运行单元102，用于运行所述目标文件的代码信息。

所述运行单元102可以模拟所述目标文件运行所需的系统环境，并在该系统环境中运行所述目标文件的代码信息；例如：若所述目标文件为即时通信应用XX，其运行所需的系统环境为Android4.0，所述运行单元102则可以模拟出Android4.0的系统环境，将即时通信应用XX的代码信息加载至Android4.0的系统内存中，并运行加载的该即时通信应用XX的代码信息。

采集单元103，用于采集所述目标文件的代码信息在运行过程中的界面图像。

由于所述目标文件的代码信息在所模拟的系统环境中运行，因此，所述采集单元103可以调用所模拟的系统提供的API，截取所述目标文件的代码信息在运行过程中的界面图像；按照本实施例所示例子，针对在Android4.0的系统环境下运行的即时通信应用XX的代码信息，所述采集单元103可以调用Android4.0所开放的API，通过API截取即时通信应用XX的代码信息在运行过程中的界面图像。

查找单元104，用于根据所述目标文件的属性信息，从预设病毒库中查找对应的病毒图像。

在本发明实施例的另一种可行的实施方式中，所述预设病毒库可包括至少一种文件类别，所述至少一种文件类别对应的病毒图像，以及所述至少一种文件类别对应的病毒图像的特征信息。其中，所述文件类别可包括但不限于：即时通信类别、SNS类别、游戏类别等等。所述查找单元104根据所述目标文件的属性信息，可以从预设病毒库中查找对应的病毒图像。

检测单元105，用于检测所述界面图像是否与所查找的病毒图像相匹配。

检测单元105可以基于图像识别技术，检测所述界面图像是否与所查找的病毒图像相匹配。若所述界面图像与所查找的病毒图像相匹配，表明所述目标文件的代码信息在运行过程中出现了病毒图像，进而表明所述目标文件为病毒文件。

处理单元106，用于若所述界面图像与所查找的病毒图像相匹配，确认所述目标文件为病毒文件。

请参见图8，为本发明实施例提供的一种检测单元的结构示意图；该检测单元105可包括：尺寸差值计算单元1101、判断单元1102、病毒特征获取单元1103、界面特征计算单元1104、相关计算单元1105和匹配确定单元1106。

尺寸差值计算单元1101，计算所述界面图像的尺寸与所查找的病毒图像的尺寸之间的尺寸差值。

所述界面图像的尺寸指所述界面图像的宽度与高度；所查找的病毒图像的尺寸指所查找的病毒图像的宽度与高度。所述尺寸差值包括宽度差值和高度差值；具体地，所述尺寸差值计算单元1101可以将所述界面图像的宽度与所查找的病毒图像的宽度进行相减运算，将所述界面图像的高度与所查找的病毒图像的高度进行相减运算，获得尺寸差值。

判断单元1102，用于判断所述尺寸差值是否位于预设尺寸范围内，若所述尺寸差值位于所述预设尺寸范围内，则通知所述病毒特征获取单元从所述预设病毒库中获取所查找的病毒图像的特征信息。

所述预设尺寸范围可以根据实际情况进行设定，如可以考虑文件处理装置的实际容错能力，设定所述预设尺寸范围；或者，可以考虑图像识别的准确率和清晰度，设定所述预设尺寸范围，等等。假设设定所述预设尺寸范围包括：预设宽度范围为[-10像素，10像素]及预设高度范围为[-10像素，10像素]，则所述判断单元1102需要判断宽度差值是否位于所述预设宽度范围内，且需要判断高度差值是否位于所述预设高度范围内。若宽度差值位于所述预设宽度范围内，且高度差值位于所述预设高度范围内，则确认所述尺寸差值位于所述预设尺寸范围内。

需要说明的是，本实施例的尺寸差值计算单元1101和判断单元1102为可选单元；可以根据实际需要对该两个单元进行选用。

病毒特征获取单元1103，用于从所述预设病毒库中获取所查找的病毒图像的特征信息。

界面特征计算单元1104，用于计算所述界面图像的特征信息。

相关计算单元1105，用于采用相关运算规则计算所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性。

所述相关计算单元1105可以采用皮尔逊相关系数计算公式，计算所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性。需要说明的是，所述相关性的取值范围位于[-1,1]，若所述相关性等于-1，表明所述界面图像的特征信息与所查找的病毒图像的特征信息之间完全相反；若所述相关性等于0，表明所述界面图像的特征信息与所查找的病毒图像的特征信息完全不同但并不完全相反；若所述相关性等于1，表示所述界面图像的特征信息与所查找的病毒图像的特征信息之间完全相同；因此，若所述相关性值越大，表明所述界面图像的特征信息与所查找的病毒图像的特征信息越相似。

匹配确定单元1106，用于若所述相关性大于预设相关阈值，确定所述界面图像与所查找的病毒图像相匹配。

请参见图9，为本发明实施例提供的一种界面特征计算单元的结构示意图；该界面特征计算单元1104可包括：特征向量计算单元2101、尺寸获取单元2102和界面特征生成单元2103。

特征向量计算单元2101，用于计算所述界面图像的特征向量。

尺寸获取单元2102，用于获取所述界面图像的尺寸。

所述界面图像的尺寸指所述界面图像的宽度与高度；所述尺寸获取单元2102可以通过扫描所述界面图像的像素点，获知所述界面图像的尺寸，具体地，可通过扫描所述界面图像的横向像素点，获得所述界面图像的宽度；可通过扫描所述界面图像的纵向像素点，获得所述界面图像的高度。

界面特征生成单元2103，用于将所述界面图像的特征向量与所述界面图像的尺寸进行合并处理，生成所述界面图像的特征信息。

所述界面特征生成单元2103将所述界面图像的特征向量与所述界面图像的尺寸相加以进行合并处理，则可生成所述界面图像的特征信息。

请参见图10，为本发明实施例提供的一种特征向量计算单元的结构示意图；该特征向量计算单元2101可包括：图像分割单元3101、指纹计算单元3102和特征向量生成单元3103。

图像分割单元3101，用于将所述界面图像分割为至少一个图像区域。

请一并参见图5，所述界面图像为即时通信应用的登录界面的截图图像，所述图像分割单元3101将所述界面图像分割为4个图像区域，分别表示为图像区域①，图像区域②，图像区域③和图像区域④。

指纹计算单元3102，用于计算所述至少一个图像区域的指纹。

所述图像区域的指纹指用于描述所述图像区域的色彩分布的信息，即所述图像区域的指纹可以表示所述图像区域的各像素点在色彩空间中的分布情况。按照图5所示实例，所述指纹计算单元3102需要分别计算图像区域①的指纹，图像区域②的指纹，图像区域③的指纹和图像区域④的指纹。

特征向量生成单元3103，用于将所述至少一个图像区域的指纹进行合并运算，获得所述界面图像的特征向量。

将所述至少一个图像区域的指纹相加以进行合并运算，则可获得所述界面图像的特征向量。按照图5所示实例，所述特征向量生成单元3103可以将图像区域①的指纹，图像区域②的指纹，图像区域③的指纹和图像区域④的指纹进行相加合并，获得所述界面图像的特征向量。

请参见图11，为本发明实施例提供的一种指纹计算单元的结构示意图；该指纹计算单元3102可包括：目标区域选取单元4101、色彩分区设置单元4102、像素扫描单元4103、像素分布确定单元4104、统计单元4106和构建单元4106。

目标区域选取单元4101，用于依次从所述至少一个图像区域中选取一个图像区域确定为目标图像区域。

色彩分区设置单元4102，用于设置预设数量的色彩分区，一个色彩分区对应一个色彩值范围。

一个色彩分区对应一个色彩值范围。通常，图像的色彩空间可以表示为RGB空间，其中，R、G、B三种原色的取值范围均为[0,255]，则RGB空间总共包含1600万(256的三次方)种色彩值，直接采用RGB空间进行图像指纹的计算，其计算量较大易损伤文件处理装置的性能，因此，为了简化运算过程，色彩分区设置单元4102可以设置预设数量的色彩分区，即将RGB空间划分为预设数量的色彩分区。具体地，所述预设数量可以根据文件处理装置的实际运算能力进行设定，所述预设数量优选设置为2的倍数，以保证对RGB空间包含的色彩的平均分配，保证计算准确性。

像素扫描单元4103，用于扫描所述目标图像区域的各像素点，获得各像素点的色彩值。

一个像素点对应一个色彩值，该色彩值可采用(R,G,B)进行表示；例如：某像素点的色彩值可表示为(55，12，35)，等等。在本实施例的一种可行的实施方式中，所述像素扫描单元4103可以依次扫描所述目标图像区域内的每个像素点，获得各个像素点的色彩值。

在本实施例的另一种可行的实施方式中，所述像素扫描单元4103可以采用插值法扫描所述目标图像区域的各像素点，获得各像素点的色彩值，具体地，可根据文件处理装置的实际运算能力以及计算精度的需求，设置插值法的插值参数，例如：可设置插值法的插值参数为4，则所述像素扫描单元4103可以纵横每隔4个像素点进行一次扫描，获得扫描的各像素点的色彩值。可以理解的是，采用插值法的实施方式时，插值参数设置越大，越可以简化运算过程，但同时也在一定程度上影响运算精度，因此，实际应用中可结合文件处理装置的实际运算能力以及运算精度的需求，合理设置插值参数。

像素分布单元4104，用于将各像素点的色彩值映射至所述预设数量的色彩分区。

由于一个像素点对应一个色彩值，一个色彩值可采用(R,G,B)进行表示；例如：某像素点的色彩值可表示为(55，12，35)，等等，所述像素分布单元4104需要将各像素点的色彩值映射至各色彩分区中，以上述例子进行说明，某像素点的色彩值可表示为(55，12，35)，按照本实施例所示例子中的8个色彩分区为例，由于55位于色彩分区一，12位于色彩分区零，35位于色彩分区一，则所述像素分布单元4104对该像素点进行映射处理后，该像素点映射后的色彩值可表示为(一区，零区，一区)。

统计单元4105，用于分别统计每个色彩分区包含的像素点数量。

所述统计单元4105可以采用图6所示的表一来表示每个色彩分区包含的像素点数量的统计结果。

构建单元4106，用于根据每个色彩分区包含的像素点数量，构建所述目标图像区域的指纹。

所述构建单元4106可以采用一个数组向量表示上述表一所示的统计结果，则该数组向量构成所述目标图像区域的指纹，该数组向量的长度为512，且可表示为{2521，14，11，0，0，0，145，1444，542，0，……}。

需要说明的是，采用图11所示的指纹计算单元3102所包含的各个单元可以获得各个图像区域的指纹，以本实施例所示例子，可获得图像区域①的指纹为{2521，14，11，0，0，0，……}共512位；图像区域②的指纹{522，0，125，0，0，0，……}共512位；图像区域③的指纹{561，0，0，54，0，11，……}共512位；以及图像区域④的指纹{12，0，0，545，45，0，0，……}共512位。采用图10所示的特征向量生成单元3103，对上述4个图像区域的指纹进行合并运算，可获得所述界面图像的特征向量为{2521，14，11，0，0，0，……，522，0，125，0，0，0，……，561，0，0，54，0，11，……，12，0，0，545，45，0，0，……}共512*4＝2048位。进一步，假设所述界面图像的尺寸信息可表示为{290，223}，其中290为所述界面图像的宽度，223为所述界面图像的高度，则采用图9所示的界面特征生成单元2103，将所述界面图像的特征向量与所述界面图像的尺寸相加以进行合并处理，则可生成所述界面图像的特征信息为{2521，14，11，0，0，0，……，522，0，125，0，0，0，……，561，0，0，54，0，11，……，12，0，0，545，45，0，0，……，290，223}共2048+2＝2050位。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文件处理方法，其特征在于，包括：

获取待处理的目标文件的代码信息和属性信息；

检测所述界面图像是否与所查找的病毒图像相匹配，包括：判断所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性是否大于预设相关阈值，若大于则相匹配；

若所述界面图像与所查找的病毒图像相匹配，确认所述目标文件为病毒文件。

2.如权利要求1所述的方法，其特征在于，所述目标文件的属性信息包括：所述目标文件的标识或所述目标文件所属类别；

所述预设病毒库包括至少一个文件标识，所述至少一个文件标识对应的病毒图像，以及所述至少一个文件标识对应的病毒图像的特征信息；或者，

所述预设病毒库包括至少一种文件类别，所述至少一种文件类别对应的病毒图像，以及所述至少一种文件类别对应的病毒图像的特征信息。

3.如权利要求1或2所述的方法，其特征在于，所述检测所述界面图像是否与所查找的病毒图像相匹配，包括：

从所述预设病毒库中获取所查找的病毒图像的特征信息；

计算所述界面图像的特征信息；

采用相关运算规则计算所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性；

若所述相关性大于预设相关阈值，确定所述界面图像与所查找的病毒图像相匹配。

4.如权利要求3所述的方法，其特征在于，所述计算所述界面图像的特征信息，包括：

计算所述界面图像的特征向量；

获取所述界面图像的尺寸；

将所述界面图像的特征向量与所述界面图像的尺寸进行合并处理，生成所述界面图像的特征信息。

5.如权利要求4所述的方法，其特征在于，所述计算所述界面图像的特征向量，包括：

将所述界面图像分割为至少一个图像区域；

计算所述至少一个图像区域的指纹；

将所述至少一个图像区域的指纹进行合并运算，获得所述界面图像的特征向量。

6.如权利要求5所述的方法，其特征在于，所述计算所述至少一个图像区域的指纹，包括：

依次从所述至少一个图像区域中选取一个图像区域确定为目标图像区域；

设置预设数量的色彩分区，一个色彩分区对应一个色彩值范围；

扫描所述目标图像区域的各像素点，获得各像素点的色彩值；

将各像素点的色彩值映射至所述预设数量的色彩分区；

分别统计每个色彩分区包含的像素点数量；

根据每个色彩分区包含的像素点数量，构建所述目标图像区域的指纹。

7.如权利要求3所述的方法，其特征在于，所述从所述预设病毒库中获取所查找的病毒图像的特征信息之前，还包括：

计算所述界面图像的尺寸与所查找的病毒图像的尺寸之间的尺寸差值；

判断所述尺寸差值是否位于预设尺寸范围内，若所述尺寸差值位于所述预设尺寸范围内，则执行从所述预设病毒库中获取所查找的病毒图像的特征信息的步骤。

8.一种文件处理装置，其特征在于，包括：

运行单元，用于运行所述目标文件的代码信息；

检测单元，用于检测所述界面图像是否与所查找的病毒图像相匹配，包括：判断所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性是否大于预设相关阈值，若大于则相匹配；

9.如权利要求8所述的装置，其特征在于，所述目标文件的属性信息包括：所述目标文件的标识或所述目标文件所属类别；

10.如权利要求8或9所述的装置，其特征在于，所述检测单元包括：

病毒特征获取单元，用于从所述预设病毒库中获取所查找的病毒图像的特征信息；

界面特征计算单元，用于计算所述界面图像的特征信息；

相关计算单元，用于采用相关运算规则计算所述界面图像的特征信息与所查找的病毒图像的特征信息之间的相关性；

匹配确定单元，用于若所述相关性大于预设相关阈值，确定所述界面图像与所查找的病毒图像相匹配。

11.如权利要求10所述的装置，其特征在于，所述界面特征计算单元包括：

特征向量计算单元，用于计算所述界面图像的特征向量；

尺寸获取单元，用于获取所述界面图像的尺寸；

界面特征生成单元，用于将所述界面图像的特征向量与所述界面图像的尺寸进行合并处理，生成所述界面图像的特征信息。

12.如权利要求11所述的装置，其特征在于，所述特征向量计算单元包括：

图像分割单元，用于将所述界面图像分割为至少一个图像区域；

指纹计算单元，用于计算所述至少一个图像区域的指纹；

特征向量生成单元，用于将所述至少一个图像区域的指纹进行合并运算，获得所述界面图像的特征向量。

13.如权利要求12所述的装置，其特征在于，所述指纹计算单元包括：

目标区域选取单元，用于依次从所述至少一个图像区域中选取一个图像区域确定为目标图像区域；

色彩分区设置单元，用于设置预设数量的色彩分区，一个色彩分区对应一个色彩值范围；

像素扫描单元，用于扫描所述目标图像区域的各像素点，获得各像素点的色彩值；

像素分布单元，用于将各像素点的色彩值映射至所述预设数量的色彩分区；

统计单元，用于分别统计每个色彩分区包含的像素点数量；

构建单元，用于根据每个色彩分区包含的像素点数量，构建所述目标图像区域的指纹。

14.如权利要求10所述的装置，其特征在于，所述检测单元还包括：

尺寸差值计算单元，计算所述界面图像的尺寸与所查找的病毒图像的尺寸之间的尺寸差值；

判断单元，用于判断所述尺寸差值是否位于预设尺寸范围内，若所述尺寸差值位于所述预设尺寸范围内，则通知所述病毒特征获取单元从所述预设病毒库中获取所查找的病毒图像的特征信息。