CN103106365B

CN103106365B - 一种移动终端上的恶意应用软件的检测方法

Info

Publication number: CN103106365B
Application number: CN201310029515.XA
Authority: CN
Inventors: 赖英旭; 乔静静; 杨震; 刘静; 李健; 徐壮壮; 吴敬征; 武志飞
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2013-01-25
Filing date: 2013-01-25
Publication date: 2015-11-25
Anticipated expiration: 2033-01-25
Also published as: CN103106365A

Abstract

一种移动终端上的恶意应用软件的检测方法用于手机信息安全领域，其特征在于：首先，采用放回的抽样方法从正常的应用下载软件中独立的抽取多个样本子集，每次随机抽取的样本数量与恶意的应用下载软件的数量相同。这些子集分别与恶意的应用下载软件结合，组成一系列新的训练样本子集；之后，解压新的训练样本子集中的各个样本文件，读取可执行文件和配置文件的内容，进而采用特征选择算法抽取能够代表样本文件的特征，得到特征子集；紧接着，选取在所有特征子集均出现的特征组合得到最终的特征集；然后对训练样本集中的样本重新训练，得到特征向量；最后，通过贝叶斯等分类算法进行分类，检测恶意应用软件。

Description

一种移动终端上的恶意应用软件的检测方法

技术领域：

本发明针对应用软件类别分布不均衡情况，采用重复抽样方法提高了对恶意应用软件的识别能力，避免用户手机遭受恶意应用软件的攻击。属于信息安全领域。

背景技术：

手机恶意应用软件可能会导致用户手机死机、关机、资料被删、向外发送垃圾邮件、拨打电话等，甚至还会损毁SIM卡、芯片等硬件。随着Android开放式操作系统的出现，用户可自行安装、添加应用程序，将造成该平台恶意应用软件数量呈爆炸式增长。

目前恶意应用软件检测方案主要有，基于特征代码的检测方案和基于行为的检测方案。基于特征代码的检测方案，通过抽取正常或恶意应用软件的代码特征来判断是否为恶意文件。基于行为的检测方案则是通过监视正常或恶意应用软件的行为或获取系统调用的函数序列，结合已知的恶意行为模式进行匹配，判断是否含有恶意行为。与基于行为的检测方案相比，基于特征代码的检测方案能耗更低，风险性更小，对实时性要求更低。在Android系统中广泛采用基于特征代码的检测方案，即静态分析方法检测恶意应用软件。静态分析方法需要运用机器学习算法对训练样本进行学习。但是由于信息安全法律约束，个人通过公开渠道获取大规模的恶意应用软件样本十分困难，缺乏足够的恶意应用软件样本。很多研究人员采用替代方案或者自行开发的方式来研究Android系统中的未知恶意应用软件。Shabtai等人利用机器学习方法对Android平台上的游戏和工具程序进行分类来评估对恶意程序的检测能力；BoSe等人通过自行开发恶意应用软件（提供了5种恶意应用软件）用于检测。检测结果的可靠性有待评估。

考虑到由于收集到的正常应用软件比恶意应用软件多，造成类别分布不均衡，当采用机器学习方法，使得分类器性能的大幅度下降，表现为小类别样本的识别率远低于大类别。而在实际的应用中，人们往往关注的是少数类的样本是否被正确识别，因此在该应用环境中，类别分布不均衡问题成为一个必须要考虑的问题。

发明内容：

本发明的目的在于尽量避免由于数据集不均衡造成的分类器性能下降的问题，提供一种在尽量不降低分类精度的前提下，有效地检测未知恶意应用软件的方法。在给出具体步骤之前，先给出相关定义：

定义1：数据集分布不均衡是指正常训练样本集中的样本数量要多于恶意训练样本集中的样本，至少为恶意训练样本数量的10倍；

定义2：数据集比例是指正常训练样本集与恶意训练样本集中的样本的数量之比；

定义3：放回抽样是指从训练样本集中随机抽取一定数量的样本，进行训练，并将每次被抽到的样本放回到训练样本集中，再进行下次抽样；

定义4：采用特征选择算法选取对分类贡献大的字符串作为特征，字符串是文件的重要组成部分，能够在一定程度上有效地表达文件；特征选择算法是去除表现力不强的字符串，筛选出针对恶意软件文件的特征项集合；

定义5：CHI方法是一种常用的特征选择算法，通过计算特征t与类别C_{i(i＝1,2...)}的相关程度来进行特征选择过程。CHI公式如下的相关性：

CHI (t, C_{i}) = \frac{n [P (t, C_{i}) \times P (\overset{&OverBar;}{t}, \overset{&OverBar;}{C_{i}}) - P (t, \overset{&OverBar;}{C_{i}}) \times P {(\overline{t}, C_{i})]}^{2}}{P (t) \times P (C_{i}) \times P (\overset{&OverBar;}{t}) \times P (\overset{&OverBar;}{C_{i}})}

其中，n为训练样本子集中的样本数；P(t,C_i)为训练样本子集中出现特征t并且属于类别C_i的样本出现的概率；为训练样本子集中出现特征t并且不属于类别C_i的样本出现的概率；是训练样本子集中属于类别C_i但不包含特征t的样本出现的概率；是训练样本子集中既不包含特征t并且不属于类别C_i的样本出现的概率；P(t)表示训练样本子集中包含特征t的样本的概率；表示训练样本子集中不包含特征t的样本的概率；P(C_i)表示属于C_i类别的样本在训练样本子集中出现的概率；是训练样本子集中不属于C_i类别的样本的概率；

定义6：采用朴素贝叶斯分类方法对未知文件进行分类。文件由属性值的合取来描述，假设文件F由其特征的合取来描述，即F＝<t₁,t₂，…,t_n>，根据朴素贝叶斯公式可得：

P (C_{i} | F) &Proportional; P (C_{i}) * Π_{k = 1}^{K} P (t_{K} | C_{i}) (k = 1,2, \cdot \cdot \cdot K)

其中P(C_i)表示属于C_i类别的样本在训练样本集中出现的概率；P(t_k|C_i)表示在属于C_i类别的条件下出现特征t_k的样本的概率；

本发明的特征在于是在计算机中一次按以下步骤实现的：

步骤(1)、利用杀毒软件对手机的应用软件进行分类

从网络上搜集手机应用的下载软件，分别利用卡巴斯基杀毒软件、网秦在线安全检测软件、360手机安全检测软件以及安全侠在线检测软件共四款杀毒软件对手机上的应用下载软件进行检测，得到正常应用软件和恶意应用软件两种类型；从中选取4份正常应用软件作为正常训练样本集，选取4份恶意应用软件作为恶意训练样本集，余下的一份正常应用软件作为正常测试样本集，余下的一份恶意应用软件作为恶意测试样本集；

步骤（2）、按以下步骤利用相关性CHI算法从正常、恶意训练样本集中每个训练样本中提取共有的字符串信息作为特征集中的特征

步骤（2.1）按以下步骤生成S个训练样本子集，利用所述的相关性CHI算法得到S个特征子集，S是对所述训练样本子集进行放回抽样的次数；

步骤（2.1.1）从步骤(1)中所述的正常应用软件中随机抽取n₁个样本构成正常训练样本子集，从所述的恶意应用软件中随机抽取n₂个样本构成恶意训练样本子集，n₁＝n₂，两者组合成一个新的训练样本子集，有n₁+n₂个样本；

步骤（2.1.2）对所述新的训练样本子集中的每个训练样本进行解压缩，从可执行文件中获取应用程序所需调用的系统库函数和该系统库函数所属的类名称，以及两者所对应的字符串信息，从配置文件中获得应用程序向系统申请的访问权限所对应的字符串信息，各除去重复的字符串信息后，得到各自惟一的字符串信息，经过拼合后，用N表示字符串信息的总数；

步骤（2.1.3）统计步骤（2.1.2）中两种字符串信息拼合成后的N个字符串信息t在所述正常训练样本子集中共同出现的样本数m₁，以及在所述恶意样本中集中共同出现的样本数m₂，其中t简称为特征；

步骤（2.1.4）按以下公式分别计算相关性

步骤（2.1.4.1）按以下公式计算所述字符串信息t与正常类别C₁的相关性，用CHI(t,C₁)表示：

CHI (t, C_{1}) = \frac{n [P (t, C_{1}) \times P (\overset{&OverBar;}{t}, C_{2}) - P (t, C_{2}) \times P {(\overline{t}, C_{1})]}^{2}}{P (t) \times P (C_{1}) \times P (\overset{&OverBar;}{t}) \times P (C_{2})}

其中，n为步骤(2.1.1)中训练样本子集中的样本数，n＝n₁+n₂；P(t,C_i)为所述训练样本子集中出现特征t并且出现在类别C_i的样本子集中的概率，i＝1,2，C₁类别即步骤(2.1.3)中所述正常训练样本子集简称正常类别，C₂类别即恶意训练样本子集简称恶意类别，其中：

P (t, C_{1}) = \frac{m_{1}}{n_{1} + n_{2}},

P (t, C_{2}) = \frac{m_{2}}{n_{1} + n_{2}};

为所述训

练样本子集中出现特征t并且不出现在类别C_i中的样本的概率，其中：

P (t, \overset{&OverBar;}{C_{1}}) = P (t, C_{2}),

P (t, \overset{&OverBar;}{C_{2}}) = P (t, C_{1});

为所述训练样本子集中属于类别C_i但不包含特征t的样本的出现概率，其中：

P (\overset{&OverBar;}{t}, C_{1}) = \frac{n_{1} - m_{1}}{n_{1} + n_{2}},

P (t, C_{2}) = \frac{n_{2} - m_{2}}{n_{1} + n_{2}};

为所述训练样本子集中既不包含特征t又不属于类别C_i的样本出现的概率，其中： P(t)为所述训练样本子集中包含特征t的样本的出现概率，为所述训练样本子集中不包含特征t的样本的出现概率，P(C_i)为所述训练样本子集中属于类别C_i的样本出现的概率，为所述训练样本子集中不属于类别C_i的

样本的出现概率，其中：

P \overset{&OverBar;}{(C_{1})} = P (C_{2}) = \frac{n_{2}}{n_{1} + n_{2}},

P (\overset{&OverBar;}{C_{2}}) = P (C_{1}) = \frac{n_{1}}{n_{1} + n_{2}},

因而，

CHI (t, C_{1}) = \frac{(n_{1} + n_{2}) {[\frac{m_{1}}{(n_{1} + n_{2})} \times \frac{(n_{2} - m_{2})}{(n_{1} + n_{2})} - \frac{m_{2}}{(n_{1} + n_{2})} \times \frac{(n_{1} - m_{1})}{(n_{1} + n_{2})}]}^{2}}{\frac{(m_{1} + m_{2})}{(n_{1} + n_{2})} \times \frac{n_{1}}{(n_{1} + n_{2})} \times \frac{((n_{1} + n_{2}) - (m_{1} + m_{2}))}{(n_{1} + n_{2})} \times \frac{n_{2}}{(n_{1} + n_{2})}};

步骤（2.1.4.2）按以下公式计算所述字符串信息t与恶意类别C₂的相关性，用CHI(t,C₂)表示：

CHI (t, C_{2}) = \frac{(n_{1} + n_{2}) {[\frac{m_{2}}{(n_{1} + n_{2})} \times \frac{(n_{1} - m_{1})}{(n_{1} + n_{2})} - \frac{m_{1}}{(n_{1} + n_{2})} \times \frac{(n_{2} - m_{2})}{(n_{1} + n_{2})}]}^{2}}{\frac{(m_{1} + m_{2})}{(n_{1} + n_{2})} \times \frac{n_{2}}{(n_{1} + n_{2})} \times \frac{((n_{1} + n_{2}) - (m_{1} + m_{2}))}{(n_{1} + n_{2})} \times \frac{n_{1}}{(n_{1} + n_{2})}};

步骤（2.1.5）按以下步骤构造特征子集

步骤（2.1.5.1）对步骤（2.1.4.1）得到的CHI(t,C₁)值由大到小排序，顺序选取N/2个字符串信息作为正常训练样本的特征；

步骤（2.1.5.2）对步骤（2.1.4.2）得到的CHI(t,C₂)值由大到小排序，顺序选取N/2个与步骤（2.1.5.1）所选取的N/2个字符串信息不同的字符串信息作为恶意训练样本的特征；

步骤（2.1.5.3）把步骤（2.1.5.1）得到的N/2个正常训练样本的特征与从步骤（2.1.5.2）得到的N/2个恶意训练样本的特征合并得到N个字符串信息，作为特征选入特征子集；

步骤（2.1.6）把步骤（2.1.1）得到的正常训练样本子集放回到步骤（2.1.1）所述的正常训练样本集中；

步骤（2.1.7）重复操作步骤（2.1.1-2.1.6）S次，进行S次随机抽样，得到S个训练样本子集以及对应的S个特征子集，S是步骤（1）中所述的正常应用软件与恶意应用软件之间的数量比，设定S=20；

步骤（2.2）把步骤（2.1.7）中得到的S个特征子集中均出现的特征组成最终的特征集中的特征

步骤（3）、统计步骤（2.1.6）得到的各个特征t在所述的正常训练样本集中出现的样本数n(t,C₁)，以及在所述恶意训练样本集中出现的样本数n(t,C₂)

步骤（4）、把步骤（3）中得到的n(t,C₁)、n(t,C₂)和所述正常训练样本集中的样本数n(C₁)、恶意训练样本集中的样本数n(C₂)保存

步骤（5）、按以下步骤对步骤（1）中所述的从网络上搜集的手机应用下载软件中的测试软件进行分类检测验证，所述测试软件包括所述的一个恶意测试样本集

步骤（5.1）计算属于类别C_i的样本在训练样本集中出现的概率：

P (C_{1}) = \frac{n (C_{1})}{n (C_{1}) + n (C_{2})},

P (C_{2}) = \frac{n (C_{2})}{n (C_{1}) + n (C_{2})};

步骤（5.2）计算特征t_k所在类别的条件概率P(t_k|C_i)，是指类别C_i中出现特征t_k的样本在类别C_i的样本集中出现的概率：

P (t_{k} | C_{1}) = \frac{n (t_{k} | C_{1})}{n (C_{1})},

(t_{k} | C_{2}) = \frac{n (t_{k} | C_{2})}{n (C_{2})};

步骤（5.3）计算所述测试软件属于正常类别C₁的概率P(C₁|F),F为特征t_k的集合，k＝1,2…K，

P (C_{1} | F) &Proportional; P (C_{1}) * Π_{k = 1}^{K} P (t_{k} | C_{1});

步骤（5.4）计算所述测试软件属于恶意类别C₂的概率P(C₂|F),F为特征t_k的集合，k＝1,2...K，

P (C_{2} | F) &Proportional; P (C_{2}) * Π_{k = 1}^{K} P (t_{k} | C_{2});

步骤（5.5）对步骤（5.3）和步骤（5.4）得到的P(C₁|F)和P(C₂|F)进行比较，选取概率值较大者作为验证测试软件的类别，给出提示。

本发明方法能够应用在资源有限的移动系统中的未知恶意应用软件检测的环境中。优点如下：

1.采用静态分析检测方法，从应用程序中抽取特征，不需要运行程序，能耗小，风险性更小。

2.通过放回抽样方法，重复抽样的方法减弱了大类样本对整个训练集的影响，提高了对小类样本的识别能力。

3.选取特征子集中均存在的特征，既保留具有较强类别区分能力的特征，同时降低特征集维数。

附图说明

图1是本发明实现不均衡数据集上应用下载恶意应用软件的检测方法的流程图。

具体实施方式

数据集不均衡指训练样本集中正常和恶意训练样本的数量存在数量级的差距，在本发明中规定当正常训练软件中的软件数量至少为恶意训练软件中的软件数量的10倍时，才被认可为不均衡数据集。

以Android平台为例，介绍本发明包含的步骤：

步骤(1)、利用杀毒软件对手机的应用软件进行分类

从网络上搜集手机应用的下载软件，分别利用卡巴斯基杀毒软件、网秦在线安全检测软件、360手机安全检测软件以及安全侠在线检测软件共四款杀毒软件对手机上的应用下载软件进行检测，得到2000个正常应用软件和100个恶意应用软件；从中选取1600个正常应用软件作为正常训练样本集，选取80个恶意应用软件作为恶意训练样本集，余下的400个正常应用软件作为正常测试样本集，余下的20个恶意应用软件作为恶意测试样本集；

步骤（2.1）按以下步骤生成20个训练样本子集，利用所述的相关性CHI算法得到20个特征子集

步骤（2.1.1）从步骤(1)中所述的正常应用软件中随机抽取80个样本构成正常训练样本子集，从所述的恶意应用软件中随机抽取80个样本构成恶意训练样本子集，两者组合成一个新的训练样本子集，有160个样本；

步骤（2.1.2）对所述新的训练样本子集中的每个训练样本进行解压缩，从可执行文件中获取应用程序所需调用的系统库函数和该系统库函数所属的类名称，以及两者所对应的字符串信息，从配置文件中获得应用程序向系统申请的访问权限所对应的字符串信息，各除去重复的字符串信息后，得到各自惟一的字符串信息，用N表示字符串信息的总数；

以软件样本“365日历”为例，第一步：对该样本进行解压缩，可看到其包含META-INF目录、res目录、assets目录、classes.dex文件、AndroidManifest.xml文件以及resources.arsc文件；从中读取classes.dex可执行文件和AndroidManifest.xml配置文件的内容；第二步：从classes.dex可执行文件抽取应用程序需要调用的系统库函数以及库函数所属的类名称等字符串信息；第三步：从AndroidManifest.xml文件从获得应用程序向系统申请的访问权限信息；第四步：去除重复的字符串信息，保证得到的字符串信息的唯一出现；最后：统计所有字符串信息出现在正常训练样本子集中的样本数，以及在恶意训练样本子集中出现的样本数，例如：得到字符串“getRunningServices”在4个正常训练样本中出现，在46个恶意训练样本中出现；

步骤（2.1.3）已知训练样本子集中正常训练样本数(80)和恶意训练样本数(80)，根据字符串信息在正常、恶意训练样本子集中出现的样本数，利用公式CHI(t,C₁)计算上面得到的每个字符串信息t与正常类别(C₁)的相关性，CHI(t,C₂)计算字符串信息t与恶意类别(C₂)的相关性，以步骤（2.1.2）中的软件样本“365日历”中的字符串“getRunningServices”为例：

CHI (t, C_{1}) = \frac{n [P (t, C_{1}) \times P (\overset{&OverBar;}{t}, C_{2}) - P (t, C_{2}) \times {(\overset{&OverBar;}{t}, C_{1})]}^{2}}{P (t) \times P (C_{1}) \times P (\overset{&OverBar;}{t}) \times P (C_{2})} = \frac{160 * {[\frac{4}{160} \times \frac{34}{160} - \frac{46}{160} \times \frac{76}{160}]}^{2}}{\frac{50}{160} \times \frac{80}{160} \times \frac{80}{160} \times \frac{(160 - 50)}{160}}

CHI (t, C_{2}) = \frac{n [P (t, C_{2}) \times P (\overset{&OverBar;}{t}, C_{1}) - P (t, C_{1}) \times {(\overset{&OverBar;}{t}, C_{2})]}^{2}}{P (t) \times P (C_{1}) \times P (\overset{&OverBar;}{t}) \times P (C_{2})} = \frac{160 * {[\frac{46}{160} \times \frac{76}{160} - \frac{4}{160} \times \frac{34}{160}]}^{2}}{\frac{50}{160} \times \frac{80}{160} \times \frac{80}{160} \times \frac{(160 - 50)}{160}};

步骤（2.1.4）按以下步骤构造特征子集

步骤（2.1.4.1）对步骤（2.1.4.1）得到的CHI(t,C₁)值由大到小排序，顺序选取N/2个字符串信息作为正常训练样本的特征；

步骤（2.1.4.2）对步骤（2.1.4.2）得到的CHI(t,C₂)值由大到小排序，顺序选取N/2个与步骤（2.1.4.1）所选取的N/2个字符串信息不同的字符串信息作为恶意训练样本的特征；

步骤（2.1.4.3）把步骤（2.1.4.1）得到的N/2个正常训练样本的特征与从步骤（2.1.4.2）得到的N/2个恶意训练样本的特征合并得到N个字符串信息，作为特征选入特征子集；

步骤（2.1.5）把步骤（2.1.1）得到的正常训练样本子集放回到步骤（2.1.1）所述的正常训练样本集中；

步骤（2.1.6）重复操作步骤（2.1.1-2.1.5）20次，进行20次随机抽样，得到20个训练样本子集以及对应的20个特征子集；

步骤（2.2）把步骤（2.1.6）中得到的20个特征子集中均出现的特征组成最终的特征集中的特征；

步骤（3）：统计步骤（2.1.6）得到的各个特征t在所述的正常训练样本集中出现的样本数n(t,C₁)，以及在所述恶意训练样本集中出现的样本数n(t,C₂)

假定步骤（2.1.3）中的字符串信息“getRunningServices”在20个特征子集中均出现，作为特征集中的特征，得到字符串“getRunningServices”在1600个正常训练样本中出现，在46个恶意训练样本中出现；

步骤（4）：把步骤（3）中得到的n(t,C₁)、n(t,C₂)和所述正常训练样本集中的样本数n(C₁)＝1600、恶意训练样本集中的样本数n(C₂)＝80保存

步骤（5）：按以下步骤对步骤（1）中所述的从网络上搜集的手机应用下载软件中的测试软件进行分类检测验证，所述测试软件包括所述的一个恶意测试样本集

P (C_{1}) = \frac{n (C_{1})}{n (C_{1}) + n (C_{2})},

P (C_{2}) = \frac{n (C_{2})}{n (C_{1}) + n (C_{2})};

P (t_{k} | C_{1}) = \frac{n (t_{k}, C_{1})}{n (C_{1})},

P (t_{k} | C_{2}) = \frac{n (t_{k}, C_{2})}{n (C_{2})};

步骤（5.3）计算所述测试软件属于正常类别C₁的概率P(C₁|F),F为特征t_k的集合，k＝1，2…K，

P (C_{1} | F) &Proportional; P (C_{1}) * Π_{k = 1}^{K} P (t_{k} | C_{1});

步骤（5.4）计算所述测试软件属于恶意类别C₂的概率P(C₂|F),F为特征t_k的集合，k＝1，2...K，

P (C_{2} | F) &Proportional; P (C_{2}) * Π_{k = 1}^{K} P (t_{k} | C_{2});

步骤（5.5）对步骤（5.3）和步骤（5.4）得到的P(C₁|F)和P(C₂|F)进行比较，选取概率值较大者作为验证测试软件的类别，给出提示；

假定一个待测样本，得到的字符串信息与特征集中的所有特征匹配成功的只有字符串信息“getRunningServices”，则可知步骤（5.3）中的k＝1，该字符串属于正常类别的概率是属于恶意类别的概率是正常类别概率是恶意类别概率是因此可以知道该样本属于正常类别的概率是该样本属于正常类别的概率是比较可以知道属于正常类别的概率更大，因此该样本属于正常样本。

Claims

1.一种移动终端上的恶意应用软件的检测方法，其特征在于是在计算机中依次按以下步骤实现的：

步骤(1)、利用杀毒软件对手机的应用软件进行分类

从网络上搜集手机应用的下载软件，分别利用卡巴斯基杀毒软件、网秦在线安全检测软件、360手机安全检测软件以及安全侠在线检测软件共四款杀毒软件对手机上的应用下载软件进行检测，得到正常应用软件和恶意应用软件两种类型；从正常应用软件中按比例选取4份正常应用软件作为正常训练样本集，余下的一份正常应用软件作为正常测试样本集，从恶意应用软件中按比例选取4份恶意应用软件作为恶意训练样本集，余下的一份恶意应用软件作为恶意测试样本集；

步骤(2)、按以下步骤利用相关性CHI算法从正常、恶意训练样本集中每个训练样本中提取共有的字符串信息作为特征集中的特征

步骤(2.1)按以下步骤生成S个训练样本子集，利用所述的相关性CHI算法得到S个特征子集，S是对所述训练样本子集进行放回抽样的次数；

步骤(2.1.1)从步骤(1)中所述的正常应用软件中随机抽取n₁个样本构成正常训练样本子集，从所述的恶意应用软件中随机抽取n₂个样本构成恶意训练样本子集，n₁＝n₂，两者组合成一个新的训练样本子集，有n₁+n₂个样本；

步骤(2.1.2)对所述新的训练样本子集中的每个训练样本进行解压缩，从可执行文件中获取应用程序所需调用的系统库函数和该系统库函数所属的类名称，以及两者所对应的字符串信息，从配置文件中获得应用程序向系统申请的访问权限所对应的字符串信息，各除去重复的字符串信息后，得到各自惟一的字符串信息，经过拼合后，用N表示字符串信息的总数；

步骤(2.1.3)统计步骤(2.1.2)中两种字符串信息拼合成后的N个字符串信息t在所述正常训练样本子集中共同出现的样本数m₁，以及在所述恶意样本子集中共同出现的样本数m₂，其中t简称为特征；

步骤(2.1.4)按以下公式分别计算相关性

步骤(2.1.4.1)按以下公式计算所述字符串信息t与正常类别C₁的相关性，用CHI(t,C₁)表示：

C H I (t, C_{1}) = \frac{n {[P (t, C_{1}) \times P (\overset{&OverBar;}{t}, C_{2}) - P (t, C_{2}) \times P (\overset{&OverBar;}{t}, C_{1})]}^{2}}{P (t) \times P (C_{1}) \times P (\overset{&OverBar;}{t}) \times P (C_{2})}

其中，n为步骤(2.1.1)中训练样本子集中的样本数，n＝n₁+n₂；P(t,C_i)为所述训练样本子集中出现特征t并且出现在类别C_i的样本子集中的概率，i＝1,2，C₁类别即步骤(2.1.3)中所述正常训练样本子集简称正常类别，C₂类别即恶意训练样本子集简称恶意类别，其中：为所述训练样本子集中出现特征t并且不出现在类别C_i中的样本的概率，其中：为所述训练样本子集中属于类别C_i但不包含特征t的样本的出现概率，其中：为所述训练样本子集中既不包含特征t又不属于类别C_i的样本出现的概率，其中：P(t)为所述训练样本子集中包含特征t的样本的出现概率，为所述训练样本子集中不包含特征t的样本的出现概率，P(C_i)为所述训练样本子集中属于类别C_i的样本出现的概率，为所述训练样本子集中不属于类别C_i的样本的出现概率，其中：

P (\overset{&OverBar;}{C_{1}}) = P (C_{2}) = \frac{n_{2}}{n_{1} + n_{2}}, P (\overset{&OverBar;}{C_{2}}) = P (C_{1}) = \frac{n_{1}}{n_{1} + n_{2}},

因而，

C H I (t, C_{1}) = \frac{(n_{1} + n_{2}) {[\frac{m 1}{(n_{1} + n_{2})} \times \frac{(n_{2} - m_{2})}{(n_{1} + n_{2})} - \frac{m_{2}}{(n_{1} + n_{2})} \times \frac{(n_{1} - m_{1})}{(n_{1} + n_{2})}]}^{2}}{\frac{(m_{1} + m_{2})}{(n_{1} + n_{2})} \times \frac{n_{1}}{(n 1 + n_{2})} \times \frac{((n_{1} + n_{2}) - (m_{1} + m_{2}))}{(n_{1} + n_{2})} \times \frac{n_{2}}{(n_{1} + n_{2})}};

步骤(2.1.4.2)按以下公式计算所述字符串信息t与恶意类别C₂的相关性，用CHI(t,C₂)表示：

C H I (t, C_{2}) = \frac{(n_{1} + n_{2}) {[\frac{m_{2}}{(n_{1} + n_{2})} \times \frac{(n_{1} - m_{1})}{(n_{1} + n_{2})} \frac{m 1}{(n_{1} + n_{2})} \times \frac{(n 2 - m_{2})}{(n_{1} + n_{2})}]}^{2}}{\frac{(m_{1} + m_{2})}{(n_{1} + n_{2})} \times \frac{n_{2}}{(n_{1} + n_{2})} \times \frac{((n_{1} + n_{2}) - (m_{1} + m_{2}))}{(n_{1} + n_{2})} \times \frac{n_{1}}{(n_{1} + n_{2})}};

步骤(2.1.5)按以下步骤构造特征子集

步骤(2.1.5.1)对步骤(2.1.4.1)得到的CHI(t,C₁)值由大到小排序，顺序选取N/2个字符串信息作为正常训练样本的特征；

步骤(2.1.5.2)对步骤(2.1.4.2)得到的CHI(t,C₂)值由大到小排序，顺序选取N/2个与步骤(2.1.5.1)所选取的N/2个字符串信息不同的字符串信息作为恶意训练样本的特征；

步骤(2.1.5.3)把步骤(2.1.5.1)得到的N/2个正常训练样本的特征与从步骤(2.1.5.2)得到的N/2个恶意训练样本的特征合并得到N个字符串信息，作为特征选入特征子集；

步骤(2.1.6)把步骤(2.1.1)得到的正常训练样本子集放回到步骤(2.1.1)所述的正常训练样本集中；

步骤(2.1.7)重复操作步骤(2.1.1-2.1.6)S次，进行S次随机抽样，得到S个训练样本子集以及对应的S个特征子集，S是步骤(1)中所述的正常应用软件与恶意应用软件之间的数量比，设定S＝20；

步骤(2.2)把步骤(2.1.7)中得到的S个特征子集中均出现的特征组成最终的特征集中的特征

步骤(3)、统计步骤(2.1.6)得到的各个特征t在所述的正常训练样本集中出现的样本数n(t,C₁)，以及在所述恶意训练样本集中出现的样本数n(t,C₂)

步骤(4)、把步骤(3)中得到的n(t,C₁)、n(t,C₂)和所述正常训练样本集中的样本数n(C₁)、恶意训练样本集中的样本数n(C₂)保存

步骤(5)、按以下步骤对步骤(1)中所述的从网络上搜集的手机应用下载软件中的测试软件进行分类检测验证，所述测试软件包括所述的一个恶意测试样本集

步骤(5.1)计算属于类别C_i的样本在训练样本集中出现的概率：

P (C_{1}) = \frac{n (C_{1})}{n (C_{1}) + n (C_{2})}, P (C_{2}) = \frac{n (C_{2})}{n (C_{1}) + n (C_{2})};

步骤(5.2)计算特征t_k所在类别的条件概率P(t_k|C_i)，是指类别C_i中出现特征t_k的样本在类别C_i的样本集中出现的概率：

步骤(5.3)计算所述测试软件属于正常类别C₁的概率P(C₁|F),F为特征t_k的集合，k＝1,2…K，

P (C_{1} | F) &Proportional; P (C_{1}) * Π_{k = 1}^{K} P (t_{k} | C_{1});

步骤(5.4)计算所述测试软件属于恶意类别C₂的概率P(C₂|F),F为特征t_k的集合，k＝1,2…K，

P (C_{2} | F) &Proportional; P (C_{2}) * Π_{k = 1}^{K} P (t_{k} | C_{2});

步骤(5.5)对步骤(5.3)和步骤(5.4)得到的P(C₁|F)和P(C₂|F)进行比较，选取概率值较大者作为验证测试软件的类别，给出提示。