CN107665307A

CN107665307A - 一种应用识别方法、装置、电子设备以及存储介质

Info

Publication number: CN107665307A
Application number: CN201710827176.8A
Authority: CN
Inventors: 黄献德
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2018-02-06

Abstract

本发明实施例公开了一种应用识别方法、装置、电子设备以及存储介质，所述方法包括：获取目标应用中的字节码，根据所述字节码生成目标彩色图片；将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别；若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用；若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用。采用本发明，可节省人工识别应用的资源消耗，提高应用识别的效率。

Description

一种应用识别方法、装置、电子设备以及存储介质

技术领域

本发明涉及计算机应用程序领域，尤其涉及一种应用识别方法、装置、电子设备以及存储介质。

背景技术

国际数据资讯报告指出，全世界有8成以上的智能电子设备都采用安卓系统，安卓系统的优点在于其开放性，使用者可自由地从官方应用商店或者第三方应用市集下载应用并安装于自己的电子设备中，但正因为其开放性，恶意应用也更加容易散播，恶意应用以破坏系统、隐私窃取、恶意扣费以及耗费流量为目的，主要分为木马，后门，蠕虫，僵尸网络，攻击性广告，间谍软件等。研究机构指出，恶意应用的数量自2005年以每年约2千万的数量增长，截止到2016年底恶意应用的数量已经超过6亿。

现有的应用识别方法主要是通过搜集相关恶意应用，并依赖人工分析恶意应用的源码并提取特征来进行应用的识别与过滤，但是恶意应用的变异速度快、增长数量大，通过人工提取特征的方法存在滞后性，即特征的更新滞后于新恶意应用的更新。

上述可见，根据人工提取特征的应用识别方法效率低下，难以做到及时、高效地识别电子设备中的应用的安全性。

发明内容

本发明实施例提供了一种应用识别方法、装置、电子设备以及存储介质，解决了如何及时、高效地识别应用安全性的问题。

本发明实施例第一方面提供了一种应用识别方法，包括：

获取目标应用中的字节码，根据所述字节码生成目标彩色图片；

将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别；

若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用；

若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用。

其中，所述获取目标应用中的字节码，根据所述字节码生成目标彩色图片，包括：

解压所述目标应用，获取所述目标应用中的字节码；

将所述字节码划分为多个长度相等的单位字节码；

将各单位字节码分别确定为对应的颜色码，并为所述各单位字节码分别设置对应的像素点，并将所述颜色码对应的颜色值分别映射到对应的像素点，得到包含所述各单位字节码分别对应的像素点的目标彩色图片。

其中，还包括：

获取应用样本的样本字节码，根据所述样本字节码生成样本彩色图片，并为所述应用样本设置对应的样本标签信息，所述样本标签信息用于标记所述应用样本的类别；

根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建所述卷积神经网络模型。

其中，所述根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建所述卷积神经网络模型之前，还包括：

检测所述样本彩色图片的尺寸；

若所述样本彩色图片的尺寸不等于预设的图片尺寸阈值，将所述样本彩色图片的尺寸调整为所述图片尺寸阈值。

其中，所述将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，包括：

将所述目标彩色图片输入所述卷积神经网络模型中；

通过卷积运算和池化运算，提取所述目标彩色图片的目标特征；

将所述目标特征与所述卷积神经网络模型中的特征集合进行相似度比较；

在所述特征集合中，获取相似度最大的特征所对应的样本标签信息作为所述目标标签信息。

其中，所述若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用，包括：

当所述目标标签信息为数值信息时，检测所述数值信息的数值；

若所述数值信息的数值小于或等于预设的数值阈值，确定所述目标标签信息为恶意标签类型，并根据所述恶意标签类型确定所述目标应用为恶意应用；

所述若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用，包括：

若所述数值信息的数值大于预设的数值阈值，确定所述目标标签信息为正常标签类型，并根据所述正常标签类型确定所述目标应用为正常应用。

其中，所述卷积神经网络模型包括：一个输入层、至少一个卷积层、至少一个池化层、至少一个开始层和一个输出层。

其中，所述卷积神经网络模型的输出层为分类器，所述分类器的结点数与所述样本标签信息的类别数相同，所述样本标签信息的类别数与所述应用样本的类别数相同。

本发明实施例第二方面提供了一种应用识别装置，包括：

获取生成单元，用于获取目标应用中的字节码，根据所述字节码生成目标彩色图片；

标签获取单元，用于将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别；

第一确定单元，用于若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用；

第二确定单元，用于若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用。

其中，所述获取生成单元，包括：

解压获取子单元，用于解压所述目标应用，获取所述目标应用中的字节码；

划分子单元，用于将所述字节码划分为多个长度相等的单位字节码；

映射子单元，用于将各单位字节码分别确定为对应的颜色码，并为所述各单位字节码分别设置对应的像素点，并将所述颜色码对应的颜色值分别映射到对应的像素点，得到包含所述各单位字节码分别对应的像素点的目标彩色图片。

其中，还包括：

获取生成单元，还用于获取应用样本的样本字节码，根据所述样本字节码生成样本彩色图片，并为所述应用样本设置对应的样本标签信息，所述样本标签信息用于标记所述应用样本的类别；

构建单元，用于根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建所述卷积神经网络模型。

其中，还包括：

检测单元，用于检测所述样本彩色图片的尺寸；

调整单元，用于若所述样本彩色图片的尺寸不等于预设的图片尺寸阈值，将所述样本彩色图片的尺寸调整为所述图片尺寸阈值。

其中，所述标签获取单元，包括：

输入子单元，用于将所述目标彩色图片输入所述卷积神经网络模型中；

提取子单元，用于通过卷积运算和池化运算，提取所述目标彩色图片的目标特征；

比较子单元，用于将所述目标特征与所述卷积神经网络模型中的特征集合进行相似度比较；

第三确定子单元，用于在所述特征集合中，获取相似度最大的特征所对应的样本标签信息作为所述目标标签信息。

其中，

所述检测单元，还用于当目标标签信息为数值信息时，检测所述数值信息的数值；

所述第一确定单元，具体用于若所述数值信息的数值小于或等于预设的数值阈值，确定所述目标标签信息为恶意标签类型，并根据所述恶意标签类型确定所述目标应用为恶意应用；

所述第二确定单元，具体用于若所述数值信息的数值大于预设的数值阈值，确定所述目标标签信息为正常标签类型，并根据所述正常标签类型确定所述目标应用为正常应用。

其中，所述卷积神经网络模型包括：一个输入层、至少一个卷积层、至少一个池化层、至少一个开始层和一个输出层；

本发明实施例第三方面提供了一种电子设备，包括：处理器和存储器，其中，所述存储器用于存储可执行程序代码，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行代码对应的程序，用于执行本发明实施例第一方面中的方法。

本发明实施例第四方面提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述处理器执行所述程序指令时执行本发明实施例第一方面中的方法。

本发明实施例第五方面提供了一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，执行本发明实施例第一方面中的方法。

由上可见，本发明实施例首先通过获取目标应用中的字节码，根据字节码生成目标彩色图片；将目标彩色图片输入训练完毕的卷积神经网络模型中，用于获取与目标彩色图片相匹配的目标标签信息；通过判断目标标签信息属于恶意标签类型或者正常标签类型，确定与目标标签信息对应的目标应用是恶意应用或者正常应用。通过将应用转换为彩色图片，并在卷积神经网络模型中获取与彩色图片相匹配的标签信息，进而根据标签信息识别应用的类型，节省人工识别应用的资源消耗，提高应用识别的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种应用识别方法的流程示意图；

图2是本发明实施例提供的一种生成彩色图片的流程示意图；

图2a是本发明实施例提供的由字节码生成彩色图片的示意图；

图3是本发明实施例提供的一种获取目标标签信息的流程示意图；

图4是本发明实施例提供的一种确定标签类型的流程示意图；

图5是本发明实施例提供的另一种应用识别方法的流程示意图；

图6是本发明实施例提供的一种应用识别装置的结构示意图；

图7是本发明实施例提供的一种获取生成单元的结构示意图；

图8是本发明实施例提供的一种标签获取单元的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例中提及的应用识别方法的执行依赖于计算机程序，可运行于冯·若依曼体系的计算机系统之上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。该计算机系统可以是个人电脑、平板电脑、笔记本电脑、智能手机等终端设备。

以下分别进行详细说明。

请参见图1，是本发明实施例提供的一种应用识别方法的流程示意图，如图1所示，所述应用识别方法至少包括：

步骤S101，获取目标应用中的字节码，根据所述字节码生成目标彩色图片；

具体的，电子设备获取待识别的目标应用中字节码文件中的字节码，可以将字节码划分为多个单位字节码，每一个单位字节码对应图片的一个像素点，将单位字节码对应颜色码和颜色值，并将对应的颜色值映射到图片的像素点上生成一幅彩色图片，颜色值是红绿蓝颜色模型中分别对应红绿蓝三个分量的一组数值，一组颜色值对应一种颜色，例如颜色值为(135，206，235)对应的颜色是天蓝色，颜色值与颜色之间的对应关系可以通过查找颜色对照表找到。

其中，电子设备包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、POS(Point Of Sales，销售点)机、可穿戴设备(例如智能手表、智能手环等)或其他可安装部署应用程序的电子设备。

其中，字节码是存储在应用的字节码文件中，并用于表示应用的所有指令。

其中，像素点是组成目标彩色图片的基本单元要素，例如一张640×480的图片，表示这张图片在每一个长度的方向上都有640个像素点，而每一个宽度方向上都480个像素点，总数就是640×480＝307200个像素点。

步骤S102，将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别；

具体的，将获取的目标彩色图片输入卷积神经网络模型中的输入层，通过卷积计算和池化计算，在卷积神经网络模型的输出层获取与目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别。例如，目标标签信息为0标记所述目标应用的类别为恶意类型；目标标签信息为1标记所述目标应用的类别为正常类型。

其中，卷积神经网络模型包括：一个输入层、至少一个卷积层、至少一个池化层、至少一个开始层和一个输出层

其中，目标标签信息可以是数值信息也可以是其他具有标识区别意义的字符信息。

步骤S103，若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用；

具体的，若获取到的目标标签信息属于恶意标签类型，确定与目标标签所对应的目标应用是恶意应用。

其中，标签类型和标签信息之间有一个预设的对应关系，例如，标签信息为0-1之间的小数，若标签信息大于0.5，确定该标签属于正常标签类型；若标签小于或等于0.5，确定该标签属于恶意标签类型。

其中，恶意应用是应用中包含有木马、后门、蠕虫等程序指令，以破坏系统、隐私窃取、恶意扣费以及耗费流量为目的应用。

步骤S104，若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用。

具体的，若获取到的目标标签信息属于正常标签类型，确定与目标标签所对应的目标应用是正常应用。

正常应用是不会对用户的网络安全产生任何威胁的应用，例如，相机应用、闹钟应用等。

进一步地，请参见图2，图2是本发明实施例提供的一种生成彩色图片的流程示意图。如图2所示，生成彩色图片的具体过程包括如下步骤S201-步骤S203，且步骤S201-步骤S203为图1所对应实施例中步骤S101的一个具体实施例：

步骤S201，解压所述目标应用，获取所述目标应用中的字节码；

具体的，将目标应用的后缀名由APK(AndroidPackage，安卓安装包)改为ZIP(ZIP，压缩)或者RAR(Roshal ARchive，数据压缩)或者其余的在电子设备上可以打开的压缩文件形式，解压后的应用文件夹包括签名信息文件夹META-INF和资源文件夹res，以及程序全局配置文件AndroidManifest.xml、字节码文件classes.dex、二进制资源文件resources.arsc，获取字节码文件classes.dex中的字节码，该字节码为16进制字节码。

步骤S202，将所述字节码划分为多个长度相等的单位字节码；

具体的，将获取到的字节码文件classes.dex中的字节码，划分为多个长度相等的单位字节码，例如，按每6位字节码划分为1个单位字节码。划分后的每一个单位字节码都对应目标彩色图片的一个像素点，目标彩色图片的长宽比例以及单位字节码和目标彩色图片的像素点的对应规则均不做限定，例如，目标彩色图片的长宽比例可以为1:1或者其他长宽比例，单位字节码和目标彩色图片的像素点的对应规则可以是单位字节码依次对应目标彩色图片的所有像素点，或者单位字节码间隔固定距离对应目标彩色图片的像素点。

步骤S203，将各单位字节码分别确定为对应的颜色码，并为所述各单位字节码分别设置对应的像素点，并将所述颜色码对应的颜色值分别映射到对应的像素点，得到包含所述各单位字节码分别对应的像素点的目标彩色图片。

具体的，由于在字节码文件classes.dex中，划分后的单位字节码为16进制，而颜色码也为16进制，因而可以直接将单位字节码确定为颜色码，得到颜色码后对应颜色值并映射到目标彩色图片的像素点上，每一个单位字节码都对应目标彩色图片的一个像素点，生成与目标应用对应的目标彩色图片。其中，颜色码是用16进制数值表示颜色的码，颜色值是红绿蓝颜色模型中分别对应红绿蓝三个分量的一组数值，例如，16进制的单位字节码为FFB6C1，颜色码也为FFB6C1，对应的一组颜色值为(255，182，193)，视觉上的颜色为浅粉色，颜色码、颜色值以及颜色之间的对应关系可以通过查找颜色对照表找到。

进一步地，请参见图2a，图2a是本发明实施例提供的由字节码生成彩色图片的示意图。如图2a所示，获取字节码文件中的字节码EE82EE4B0082228B22FF4500，以6个字节码为单位，划分出4个单位字节码EE82EE、4B0082、228B22和FF4500，也就是4个颜色码EE82EE、4B0082、228B22和FF4500；颜色码EE82EE对应一组颜色值(238，130，238)，颜色码4B0082对应一组颜色值(75，0，130)，颜色码228B22对应一组颜色值(34，139，34)，颜色码FF4500对应一组颜色值(255，69，0)；颜色值(238，130，238)在视觉上的颜色为紫罗兰，颜色值(75，0，130)在视觉上的颜色为靛青，颜色值(34，139，34)在视觉上的颜色为森林绿，颜色值(255，69，0)在视觉上的颜色为橙红，将紫罗兰填充至彩色图片的像素点A；将靛青填充至彩色图片的像素点B；将森林绿填充至彩色图片的像素点C；将橙红填充至彩色图片的像素点D，合成一幅彩色图片。

进一步地，请参见图3，图3是本发明实施例提供的一种获取目标标签信息的流程示意图。如图3所示，获取目标标签信息的具体过程包括如下步骤S301-步骤S304，且步骤S301-步骤S304为图1所对应实施例中步骤S102的一个具体实施例：

步骤S301，将所述目标彩色图片输入所述卷积神经网络模型中；

具体的，将由目标应用生成的目标彩色图片输入卷积神经网络模型中的输入层，所述卷积神经网络包括一个输入层、六个卷积层、两个池化层、三个开始层和一个输出层，可以理解的是，所述卷积神经网络模型已经提前构建完成。输入层的大小为输入目标彩色图片的尺寸大小，六个卷积层的大小分别为299×299，149×149，147×147，73×73，71×71，35×35，两个池化层的大小分别为147×147，8×8，三个开始层的大小分别为35×35，17×17，8×8。

步骤S302，通过卷积运算和池化运算，提取所述目标彩色图片的目标特征；

具体的，当目标彩色图片输入至卷积神经网络的输出层后，首先随机选取目标彩色图片中的一小块作为样本，并从这个小样本中学习到一些特征，然后利用这个样本作为一个窗口依次滑过目标彩色图片的所有像素区域，也就是说，从样本中学习到的特征跟目标彩色图片做卷积，从而获得目标彩色图片不同位置上最显著的特征。在做完卷积运算后，已经提取到目标彩色图片的特征，但仅仅通过卷积运算提取的特征数量大，为了减少计算量，还需进行池化运算，也就是对提取的特征进行聚合统计，这些统计特征的数量级要远远低于提取到的特征，同时还会提高分类效果，常用的池化方法主要包括平均池化运算和最大池化运算。平均池化运算是在一个特征集合里计算一个平均特征作为该集合的特征；最大池化运算是在一个特征集合里提取最大的特征作为该集合的特征。通过卷积运算和池化运算，可以提取出目标彩色图片最显著的目标特征，同时该目标特征的数量少。

步骤S303，将所述目标特征与所述卷积神经网络模型中的特征集合进行相似度比较；

具体的，训练好的卷积神经网络模型的输出层是一个分类器，所述分类器的结点数与所述样本标签信息的类别数相同，所述样本标签信息的类别数与所述应用样本的类别数相同，该分类器包括每一种类别所对应的应用样本提取出来的特征集合，有多少个样本标签信息类别就有多少个特征集合。当提取目标彩色图片的目标特征后，将目标特征和卷积神经网络模型中的输出层的特征集合进行相似度比较，相似度可以采用距离度量的方式，度量方式包括：欧式距离度量方式、马氏距离度量方式或者汉明距离度量方式。

步骤S304，在所述特征集合中，获取相似度最大的特征所对应的样本标签信息作为目标彩色图片的目标标签信息。

具体的，当目标特征和卷积神经网络模型中的特征集合进行比较后，获取相似度最大的特征所对应的样本标签信息，并将获取到的样本标签信息确定为目标彩色图片的目标标签信息，用于判断目标应用的类别。例如，卷积神经网络模型中的输出层有3个特征集合，特征集合A对应样本标签信息为0.1的应用样本中提取的特征；特征集合B对应样本标签信息为0.5的应用样本中提取的特征；特征集合C对应样本标签信息为1的应用样本中提取的特征，提取的目标特征为d，将目标特征d与特征集合A、B、C中的特征进行距离度量，若目标特征为d和特征集合B中的特征的距离最小，则确认目标彩色图片的目标标签信息为特征集合B所对应的样本标签信息，也就是说目标彩色图片的目标标签信息为0.5。

进一步地，请参见图4，图4是本发明实施例提供的一种确定标签类型的流程示意图。如图4所示，确定标签类型的具体过程包括如下步骤S401-步骤S404，且步骤S401-步骤S404为图1所对应实施例中步骤S103-步骤S104的一个具体实施例：

步骤S401，当目标标签信息为数值信息时，检测所述数值信息的数值；

具体的，当目标标签信息为数值信息的情况下，检测数值信息的数值大小，该目标标签信息用于表示对应目标应用的类别，而数值的大小表示对应目标应用的对用户的网络安全威胁程度，数值越大对应的目标应用的安全性越高，例如，目标标签信息为0表示对应目标应用的类别为应用类别A，该应用类别A对用户的网络安全产生最大的威胁，例如能够窃取用户的支付密码；目标标签信息为0.5表示对应目标应用的类别为应用类别B，该应用类别B对用户的网络安全产生威胁程度较低，例如只能够窃取用户的相册中的相片；目标标签信息为1表示对应目标应用的类别为应用类别C，该应用类别C对用户的网络安全不会产生任何威胁，即该应用不会给用户产生任何损失。

步骤S402，判断所述数值信息的数值是否大于预设的数值阈值；

具体的，检测完成数值信息的数值大小后，判断检测的数值是否大于预设的数值阈值，若检测的数值大于预设的数值阈值，则执行步骤S403；若检测的数值小于或者等于预设的数值阈值，则执行步骤S404。例如，检测的数值信息的数值为0.6，预设的数值阈值为0.3，则检测的数值信息的数值大于预设的数值阈值，执行步骤S403；检测的数值信息的数值为0.1，预设的数值阈值为0.3，则检测的数值信息的数值小于预设的数值阈值，执行步骤S404。由于每一位用户对应用的恶意行为忍受阈值不尽相同，预设定数值阈值对应用户的忍受阈值。

步骤S403，确定所述目标标签信息为正常标签类型，并根据所述正常标签类型确定所述目标应用为正常应用；

具体的，若检测的数值信息的数值大于预设的数值阈值，确定目标标签信息为正常标签类型同时确定对应的目标应用是正常应用，例如，检测的数值信息的数值为0.6，预设的数值阈值为0.3，检测的数值信息的数值大于预设的数值阈值，则确定目标标签信息属于正常标签类型，对应的目标应用是正常应用。

步骤S404，确定所述目标标签信息为恶意标签类型，并根据所述恶意标签类型确定所述目标应用为恶意应用。

具体的，若检测的数值信息的数值小于或者等于预设的数值阈值，确定目标标签信息为恶意标签类型同时确定对应的目标应用是恶意应用，例如，检测的数值信息的数值为0.6，预设的数值阈值为0.8，检测的数值信息的数值小于预设的数值阈值，则确定目标标签信息属于恶意标签类型，对应的目标应用是恶意应用。

本发明实施例首先通过获取目标应用中的字节码，根据字节码生成目标彩色图片；将目标彩色图片输入训练完毕的卷积神经网络模型中的输入层，在卷积神经网络的输出层，获取与目标彩色图片相匹配的目标标签信息，目标标签信息用于表示对应目标应用的类别；通过判断目标标签信息属于恶意标签类型或者正常标签类型，进而确定与目标标签信息对应的目标应用是恶意应用或者正常应用。采用本发明，通过将应用转换为彩色图片，并在卷积神经网络模型中获取与彩色图片相匹配的标签信息，进而根据标签信息自动识别应用的类型，不需人工参与，节省人工识别应用的资源消耗，提高应用识别的效率。

进一步地，请参见图5，是本发明实施例提供的另一种应用识别方法的流程示意图。如图5所示，所述应用识别方法至少包括：

步骤S501，获取应用样本的样本字节码，根据所述样本字节码生成样本彩色图片，并为所述应用样本设置对应的样本标签信息，所述样本标签信息用于标记应用样本的类别；

具体的，将目标应用的后缀名由APK(AndroidPackage，安卓安装包)改为ZIP(ZIP，压缩)或者RAR(Roshal ARchive，数据压缩)或者其余的在电子设备上可以打开的压缩文件形式，解压后的应用文件夹包括签名信息文件夹META-INF和资源文件夹res，以及程序全局配置文件AndroidManifest.xml、字节码文件classes.dex、二进制资源文件resources.arsc，获取字节码文件classes.dex中的字节码，该字节码为16进制字节码；将获取到的字节码文件classes.dex中的字节码，划分为多个长度相等的单位字节码，例如，按每8位字节码划分为1个单位字节码，其中划分后的每一个单位字节码都对应样本彩色图片的一个像素点，样本彩色图片的长宽比例和单位字节码与像素点的对应规则均不做限定，由于在字节码文件classes.dex中划分的单位字节码为16进制，而颜色码也为16进制，可以直接将单位字节码确定为颜色码，得到颜色码后对应颜色值并映射到样本彩色图片的像素点上，得到与应用样本对应的样本彩色图片。其中，颜色码是用16进制数表示颜色的码，颜色值是红绿蓝颜色模型中分别对应红绿蓝三个分量的一组数值，例如，16进制的单位字节码为40E0D0，颜色码也为40E0D0，颜色码对应的一组颜色值为(64，224，208)，对应的视觉颜色为宝石绿，颜色码、颜色值以及颜色之间的对应关系可以通过查找颜色对照表找到。将应用样本转换为样本彩色图片后，为样本彩色图片设置对应应用样本的样本标签信息，该样本标签信息用于标记对应应用样本的类别，一种样本标签信息类别对应一种应用样本类别。例如，样本标签信息为0.1，对应应用样本的类别为应用中包含木马程序A的应用；样本标签信息为0.2，对应应用样本的类别为应用中包含木马程序B的应用；样本标签信息为0.3，对应应用样本的类别为应用中包含木马程序C的应用。

步骤S502，检测所述样本彩色图片的尺寸；

具体的，获取了带有样本标签信息的样本彩色图片后，检测样本彩色图片的尺寸，也就是样本彩色图片的大小，可以理解的是，样本彩色图片是一个矩形，那么样本彩色图片的尺寸包括样本彩色图片的长和样本彩色图片的宽。

步骤S503，判断所述样本彩色图片的尺寸是否等于预设的图片尺寸阈值；

具体的，获取了样本彩色图片的尺寸后，判断样本彩色图片的尺寸是否等于预设的图片尺寸阈值，需要说明的是，因为样本彩色图片的尺寸包括样本彩色图片的长和样本彩色图片的宽，那么预设的图片尺寸阈值也包括预设的图片的长度阈值和预设的图片的宽度阈值。若样本彩色图片的长和宽均满足预设的图片的长度阈值和宽度阈值，执行步骤S505；或者样本彩色图片的长或宽之其一不满足预设的图片的长度阈值和宽度阈值，或者样本彩色图片的长和宽均不满足预设的图片的长度阈值和宽度阈值，执行步骤S504。

步骤S504，将所述样本彩色图片的尺寸调整为所述图片尺寸阈值；

具体的，当样本彩色图片的尺寸不等于预设的图片尺寸阈值的情况下，若样本彩色图片的尺寸小于预设的图片尺寸阈值，放大样本彩色图片的尺寸直至等于图片尺寸阈值；若样本彩色图片的尺寸大于预设的图片尺寸阈值，缩小样本彩色图片的尺寸直至等于图片尺寸阈值。

步骤S505，根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建卷积神经网络模型；

具体的，将样本彩色图片的尺寸调整至等于预设的图片尺寸阈值后，同时每一张样本彩色图片都有样本标签信息，相同的样本标签信息为一类，以类为单位，多种样本彩色图片的类别输入卷积神经网络的输入层，构建卷积神经网络模型，卷积神经网络包括一个输入层、六个卷积层、两个池化层、三个开始层和一个输出层，输入层的大小为输入目标彩色图片的尺寸大小，六个卷积层的大小分别为299×299，149×149，147×147，73×73，71×71，35×35，两个池化层的大小分别为147×147，8×8，三个开始层的大小分别为35×35，17×17，8×8。当样本彩色图片输入至卷积神经网络的输入层后，首先随机选取样本彩色图片中的一小块作为样本，并从这个小样本中学习到一些特征，然后利用这个样本作为一个窗口依次滑过样本彩色图片的所有像素区域，也就是说，从样本中学习到的特征跟样本彩色图片做卷积，从而获得样本彩色图片不同位置上最显著的特征。在做完卷积运算后，已经提取到样本彩色图片的特征，但仅仅通过卷积运算提取的特征数量大，为了减少计算量，还需进行池化运算，也就是对提取的特征进行聚合统计，这些统计特征的数量级要远远低于提取到的特征，同时还会提高分类效果，常用的池化方法主要包括平均池化运算和最大池化运算。平均池化运算是在一个特征集合里计算平均特征作为该集合的特征；最大池化运算是在一个特征集合里提取最大的特征作为该集合的特征。通过卷积运算和池化运算，可以提取出样本彩色图片最显著的样本特征，同时该样本特征的数量少。

在卷积神经网络的输出层是一个分类器，因为输入的样本彩色图片是带有样本标签信息，且以相同的样本标签信息为一类输入构建卷积神经网络模型的，因此该分类器的结点数与所述样本标签信息的类别数相同，同时样本标签信息的类别数与应用样本的类别数也相同，也就是说，输入的样本彩色图片有多少个类在构建完成卷积神经网络模型的输出层的就有多少的结点。例如，样本标签信息为0.1的样本彩色图片有A、B、C，样本标签信息为0.2的样本彩色图片有D、E、F，样本标签信息为0.3的样本彩色图片有G、H、I，根据带有样本标签信息的彩色图片A、B、C、D、E、F、G、H、I，通过卷积运算和池化预算构建的卷积神经网络模型，该模型的输出层的分类器对应样本标签类别有3个结点，分别对应样本标签信息0.1、0.2、0.3，同时3个结点还对应3个特征集合K1，K2，K3，特征集合K1是从样本彩色图片A、B、C中提取出来的特征；特征集合K2是从样本彩色图片D、E、F中提取出来的特征；特征集合K3是从样本彩色图片G、H、I中提取出来的特征。

步骤S506，获取目标应用中的字节码，根据所述字节码生成目标彩色图片；

步骤S507，将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别；

步骤S508，若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用；

步骤S509，若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用。

其中，步骤S506-步骤S509的具体实现方法可参见上述图1所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。

进一步地，请参见图6，图6是本发明实施例提供的一种应用识别装置的结构示意图。如图6所示，所述应用识别装置1可应用于上述图1所对应实施例中的电子设备，所述应用识别装置1包括：获取生成单元10，标签获取单元20，第一确定单元30，第二确定单元40，构建单元50，检测单元60，调整单元70；

获取生成单元10，用于获取目标应用中的字节码，根据所述字节码生成目标彩色图片；

获取生成单元10，还用于获取应用样本的样本字节码，根据所述样本字节码生成样本彩色图片，并为所述应用样本设置对应的样本标签信息，所述样本标签信息用于标记所述应用样本的类别；

标签获取单元20，用于将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取所述与目标彩色图片相匹配的目标标签信息，所述目标标签信息用于标记所述目标应用的类别；

第一确定单元30，用于若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用；

第二确定单元40，用于若所述目标标签信息属于正常标签类型，则确定所述目标应用为正常应用；

构建单元50，用于根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建所述卷积神经网络模型；

检测单元60，用于检测所述样本彩色图片的尺寸；

调整单元70，用于若所述样本彩色图片的尺寸不等于预设的图片尺寸阈值，将所述样本彩色图片的尺寸调整为所述图片尺寸阈值；

其中，检测单元60，还用于当所述目标标签信息为数值信息时，检测所述数值信息的数值；

则第一确定单元30，具体用于若所述数值信息的数值小于或等于预设的数值阈值，确定所述目标标签信息为恶意标签类型，并根据所述恶意标签类型确定所述目标应用为恶意应用；

则第二确定单元40，具体用于若所述数值信息的数值大于预设的数值阈值，确定所述目标标签信息为正常标签类型，并根据所述正常标签类型确定所述目标应用为正常应用；

其中，获取生成单元10，标签获取单元20，第一确定单元30，第二确定单元40，构建单元50，检测单元60，调整单元70的具体实现方式可参见上述图4所对应实施例中对步骤S401-步骤S404的描述，和上述图5所对应实施例中对步骤S501-步骤S509的描述，这里将不再继续进行赘述。

进一步地，请参见图7，图7是本发明实施例提供的一种获取生成单元的结构示意图。如图7所示，所述获取生成单元10可以包括：解压获取子单元101，划分子单元102，映射子单元103；

解压获取子单元101，用于解压所述目标应用，获取所述目标应用中的字节码；

划分子单元102，用于将所述字节码划分为多个长度相等的单位字节码；

映射子单元103，用于将各单位字节码分别确定为对应的颜色码，并为所述各单位字节码分别设置对应的像素点，并将所述颜色码对应的颜色值分别映射到对应的像素点，得到包含所述各单位字节码分别对应的像素点的目标彩色图片。

其中，所述解压获取子单元101，划分子单元102，映射子单元103的具体实现方式可参见上述图2所对应实施例中对步骤S201-步骤S203的描述，这里将不再继续进行赘述。

进一步地，请参见图8，图8是本发明实施例提供的一种标签获取单元的结构示意图。如图8所示，所述标签获取生成单元20可以包括：输入子单元201，提取子单元202，比较子单元203，第三确定子单元204；

输入子单元201，用于将所述目标彩色图片输入所述卷积神经网络模型中；

提取子单元202，用于通过卷积运算和池化运算，提取所述目标彩色图片的目标特征；

比较子单元203，用于将所述目标特征与所述卷积神经网络模型中的特征集合进行相似度比较；

第三确定子单元204，用于在所述特征集合中，获取相似度最大的特征所对应的样本标签信息作为所述目标标签信息。

其中，输入子单元201，提取子单元202，比较子单元203，第三确定子单元204的具体实现方式可参见上述图3所对应实施例中对步骤S301-步骤S304的描述，这里将不再继续进行赘述。

进一步地，请参见图9，是本发明实施例提供的一种电子设备的结构示意图。如图9所示，所述电子设备1000可以为上述图1所对应实施例中的电子设备，所述电子设备1000可以包括：处理器1002和存储器1005，进一步地，所述电子设备1000还可以包括：至少一个网络接口1004、用户接口1003和通信总线1001。其中，通信总线1001用于实现这些组件之间的连接通信。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选的，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

在图9所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输出的数据；而处理器1002可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，所述处理器1002在执行所述获取目标应用中的字节码，根据所述字节码生成目标彩色图片，具体执行以下步骤：

解压所述目标应用，获取所述目标应用中的字节码；

将所述字节码划分为多个长度相等的单位字节码；

在一个实施例中，所述处理器1002还执行以下步骤：

获取应用样本的样本字节码，根据所述样本字节码生成样本彩色图片，并为所述应用样本设置对应的样本标签信息，所述样本标签信息用于标记应用样本的类别；

在一个实施例中，所述处理器1002在执行所述根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建所述卷积神经网络模型之前，还执行以下步骤：

检测所述样本彩色图片的尺寸；

在一个实施例中，所述处理器1002在执行所述将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，具体执行以下步骤：

将所述目标彩色图片输入所述卷积神经网络模型中；

在一个实施例中，所述处理器1002还执行以下步骤：

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的应用识别装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1或图5所对应实施例中对所述应用识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，能够执行前文图1或图5所对应实施例中对所述应用识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种应用识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标应用中的字节码，根据所述字节码生成目标彩色图片，包括：

解压所述目标应用，获取所述目标应用中的字节码；

将所述字节码划分为多个长度相等的单位字节码；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利3所述的方法，其特征在于，所述根据所述样本彩色图片与所述样本标签信息之间的映射关系，构建所述卷积神经网络模型之前，还包括：

检测所述样本彩色图片的尺寸；

5.根据权利要求3所述的方法，其特征在于，所述将所述目标彩色图片输入卷积神经网络模型中，在所述卷积神经网络模型中获取与所述目标彩色图片相匹配的目标标签信息，包括：

将所述目标彩色图片输入所述卷积神经网络模型中；

6.根据权利要求1所述的方法，其特征在于，所述若所述目标标签信息属于恶意标签类型，则确定所述目标应用为恶意应用，包括：

7.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型包括：一个输入层、至少一个卷积层、至少一个池化层、至少一个开始层和一个输出层。

8.一种应用识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器和处理器，其中，所述存储器用于存储可执行程序代码，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行代码对应的程序，用于执行权利要求1-7任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述处理器执行所述程序指令时执行如权利要求1-7任一项所述的方法。