CN108491719A

CN108491719A - 一种改进朴素贝叶斯算法的安卓恶意程序检测方法

Info

Publication number: CN108491719A
Application number: CN201810214427.XA
Authority: CN
Inventors: 尚凤军; 李雅琳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-04

Abstract

本发明公开了一种改进朴素贝叶斯算法的安卓恶意程序检测方法，与现有技术相比，本发明过属性加权方式对朴素贝叶斯分类算法进行改进，来提高朴素贝叶斯算法的分类性能。通过对不同特征属性进行加权处理，而加权的系数是需要量化的，那么本发明就根据信息增益率求得的权值与互信息求得的权值结合的方式得到新的权值。为了防止其中一种算法得到的权值过大而影响新权值的确定，在各个求得权值后进行了归一化处理，以此来提高加权朴素贝叶斯分类算法的分类性能，进而提高Android应用程序检测模型的准确性。

Description

一种改进朴素贝叶斯算法的安卓恶意程序检测方法

技术领域

本发明涉及电子技术领域，尤其涉及一种改进朴素贝叶斯算法的安卓恶意程序检测方法。

背景技术

分类是数据挖掘中一项重要的核心技术，其目的就是通过学习得到一个目标函数把每一个属性映射到一个预先定义的类标号X，因此可以将分类看作是从数据库到一组类别的映射。

朴素贝叶斯是一种最简单、有效、并使用广泛的分类器，它是基于条件独立性假设展开的，但是由于得到的朴素贝叶斯算法是将这些特征属性对分类的影响是对等的，也就是每个特征属性的权重都是相等的，这是不太符合现实世界的，尤其在对Android应用程序检测中，权重的影响至关重要。

发明内容

本发明的目的就在于在Android应用程序中使用朴素贝叶斯分类算法检测出恶意应用程序和正常应用程序，并为使检测模型更准确，提供一种改进朴素贝叶斯算法的安卓恶意程序检测方法。

本发明通过以下技术方案来实现上述目的：

本发明包括以下步骤：

步骤一：基于信息增益率的权值：

训练样本数据集D的信息熵为：

其中C表示样本所属类别，第m个类别出现的概率是P(C_m)；熵是用来度量数据的不确定性，当熵越大，数据的不确定性越大；

训练样本集D中，第n个属性I_n的信息熵为：

其中，H(D_q)是训练样本子集D_q的信息熵；

由(5),(6)得属性I_n的信息增益为：

Gain(I_n,D)＝H(D)-H(I_n,D) (7)

属性I_n广泛性的分裂信息为：

属性I_n的信息增益率为：

则信息增益率得到的权值G_n：

其中N是训练样本集D中属性个数；

对其归一化得到

步骤二：基于互信息的权值：

设条件属性S和决策属性L的互信息表示为：

可以得到第n个条件属性s_n的权值为：

对其归一化得到

步骤三：加权朴素贝叶斯的权值确定：

由以上所述，得到加权朴素贝叶斯的权重计算,即定义二者的平均值作为新的权值公式：

本发明的有益效果在于：

本发明是一种改进朴素贝叶斯算法的安卓恶意程序检测方法，与现有技术相比，本发明是属性加权方式对朴素贝叶斯分类算法进行改进，来提高朴素贝叶斯算法的分类性能。通过对不同特征属性进行加权处理，而加权的系数是需要量化的，那么本发明就根据信息增益率求得的权值与互信息求得的权值结合的方式得到新的权值。为了防止其中一种算法得到的权值过大而影响新权值的确定，在各个求得权值后进行了归一化处理，以此来提高加权朴素贝叶斯分类算法的分类性能，进而提高Android应用程序检测模型的准确性。

附图说明

图1是本发明的算法流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

如图1所示：朴素贝叶斯分类算法定义：

设X'表示训练样本的属性集合，其中共有N个属性。C表示样本所属的类别集合，其中共有M个类别。首先，计算训练样本集中每个属性在各类别下的条件概率，即P(X′₁|C_m),...,P(X′_n|C_m),...,P(X′_N|C_m)；然后，计算待分类样本在每个类别的后验概率；最后，取后验概率最大的类别作为待分类样本的所属类别。

针对待分类样本X，根据贝叶斯定理可定义：

式中，P(X)对于所有类为常数，因此只需要P(C_m)P(X|C_m)最大即可判断后验概率最大。

朴素贝叶斯算法中，假定各个条件属性相互独立，可以得出如下公式：

因此，待分类样本X属于某一类别只需满足：

根据公式(3)，NBC算法将待分类样本对象归类于后验概率最大的类别，从而完成分类。

对加权朴素贝叶斯算法的研究，常用的加权朴素贝叶斯分类算法的模型为：

其中，ω_n是对应特征属性的权重系数，当相应特征属性的权重越大，其特征属性对分类的影响也就越明显。

基于信息增益率和互信息的加权朴素贝叶斯算法：

基于信息增益率的权值

在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，就是熵。

训练样本数据集D的信息熵为：

其中C表示样本所属类别，第m个类别出现的概率是P(C_m)。熵是用来度量数据的不确定性，当熵越大，数据的不确定性越大。

训练样本集D中，第n个属性I_n的信息熵为：

其中，H(D_q)是训练样本子集D_q的信息熵。

由(5),(6)得属性I_n的信息增益为：

Gain(I_n,D)＝H(D)-H(I_n,D) (7)

属性I_n广泛性的分裂信息为：

属性I_n的信息增益率为：

则信息增益率得到的权值G_n：

其中N是训练样本集D中属性个数。

对其归一化得到

基于互信息的权值

信息论中的互信息是表示某一随机变量相关于其他随机变量变化时的信息量大小，它常用来表示提供的条件属性关于决策属性的信息量的大小。

设条件属性S和决策属性L的互信息表示为：

可以得到第n个条件属性s_n的权值为：

对其归一化得到

加权朴素贝叶斯的权值确定

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种改进朴素贝叶斯算法的安卓恶意程序检测方法，其特征在于，包括以下步骤：

步骤一：基于信息增益率的权值：

训练样本数据集D的信息熵为：

训练样本集D中，第n个属性I_n的信息熵为：

其中，H(D_q)是训练样本子集D_q的信息熵；

由(5),(6)得属性I_n的信息增益为：

Gain(I_n,D)＝H(D)-H(I_n,D) (7)

属性I_n广泛性的分裂信息为：

属性I_n的信息增益率为：

则信息增益率得到的权值G_n：

其中N是训练样本集D中属性个数；

对其归一化得到

步骤二：基于互信息的权值：

设条件属性S和决策属性L的互信息表示为：

可以得到第n个条件属性s_n的权值为：

对其归一化得到

步骤三：加权朴素贝叶斯的权值确定：