CN108491719A - 一种改进朴素贝叶斯算法的安卓恶意程序检测方法 - Google Patents

一种改进朴素贝叶斯算法的安卓恶意程序检测方法 Download PDF

Info

Publication number
CN108491719A
CN108491719A CN201810214427.XA CN201810214427A CN108491719A CN 108491719 A CN108491719 A CN 108491719A CN 201810214427 A CN201810214427 A CN 201810214427A CN 108491719 A CN108491719 A CN 108491719A
Authority
CN
China
Prior art keywords
weights
attribute
algorithm
information
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810214427.XA
Other languages
English (en)
Inventor
尚凤军
李雅琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810214427.XA priority Critical patent/CN108491719A/zh
Publication of CN108491719A publication Critical patent/CN108491719A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种改进朴素贝叶斯算法的安卓恶意程序检测方法,与现有技术相比,本发明过属性加权方式对朴素贝叶斯分类算法进行改进,来提高朴素贝叶斯算法的分类性能。通过对不同特征属性进行加权处理,而加权的系数是需要量化的,那么本发明就根据信息增益率求得的权值与互信息求得的权值结合的方式得到新的权值。为了防止其中一种算法得到的权值过大而影响新权值的确定,在各个求得权值后进行了归一化处理,以此来提高加权朴素贝叶斯分类算法的分类性能,进而提高Android应用程序检测模型的准确性。

Description

一种改进朴素贝叶斯算法的安卓恶意程序检测方法
技术领域
本发明涉及电子技术领域,尤其涉及一种改进朴素贝叶斯算法的安卓恶意程序检测方法。
背景技术
分类是数据挖掘中一项重要的核心技术,其目的就是通过学习得到一个目标函数把每一个属性映射到一个预先定义的类标号X,因此可以将分类看作是从数据库到一组类别的映射。
朴素贝叶斯是一种最简单、有效、并使用广泛的分类器,它是基于条件独立性假设展开的,但是由于得到的朴素贝叶斯算法是将这些特征属性对分类的影响是对等的,也就是每个特征属性的权重都是相等的,这是不太符合现实世界的,尤其在对Android应用程序检测中,权重的影响至关重要。
发明内容
本发明的目的就在于在Android应用程序中使用朴素贝叶斯分类算法检测出恶意应用程序和正常应用程序,并为使检测模型更准确,提供一种改进朴素贝叶斯算法的安卓恶意程序检测方法。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
步骤一:基于信息增益率的权值:
训练样本数据集D的信息熵为:
其中C表示样本所属类别,第m个类别出现的概率是P(Cm);熵是用来度量数据的不确定性,当熵越大,数据的不确定性越大;
训练样本集D中,第n个属性In的信息熵为:
其中,H(Dq)是训练样本子集Dq的信息熵;
由(5),(6)得属性In的信息增益为:
Gain(In,D)=H(D)-H(In,D) (7)
属性In广泛性的分裂信息为:
属性In的信息增益率为:
则信息增益率得到的权值Gn
其中N是训练样本集D中属性个数;
对其归一化得到
步骤二:基于互信息的权值:
设条件属性S和决策属性L的互信息表示为:
可以得到第n个条件属性sn的权值为:
对其归一化得到
步骤三:加权朴素贝叶斯的权值确定:
由以上所述,得到加权朴素贝叶斯的权重计算,即定义二者的平均值作为新的权值公式:
本发明的有益效果在于:
本发明是一种改进朴素贝叶斯算法的安卓恶意程序检测方法,与现有技术相比,本发明是属性加权方式对朴素贝叶斯分类算法进行改进,来提高朴素贝叶斯算法的分类性能。通过对不同特征属性进行加权处理,而加权的系数是需要量化的,那么本发明就根据信息增益率求得的权值与互信息求得的权值结合的方式得到新的权值。为了防止其中一种算法得到的权值过大而影响新权值的确定,在各个求得权值后进行了归一化处理,以此来提高加权朴素贝叶斯分类算法的分类性能,进而提高Android应用程序检测模型的准确性。
附图说明
图1是本发明的算法流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
如图1所示:朴素贝叶斯分类算法定义:
设X'表示训练样本的属性集合,其中共有N个属性。C表示样本所属的类别集合,其中共有M个类别。首先,计算训练样本集中每个属性在各类别下的条件概率,即P(X′1|Cm),...,P(X′n|Cm),...,P(X′N|Cm);然后,计算待分类样本在每个类别的后验概率;最后,取后验概率最大的类别作为待分类样本的所属类别。
针对待分类样本X,根据贝叶斯定理可定义:
式中,P(X)对于所有类为常数,因此只需要P(Cm)P(X|Cm)最大即可判断后验概率最大。
朴素贝叶斯算法中,假定各个条件属性相互独立,可以得出如下公式:
因此,待分类样本X属于某一类别只需满足:
根据公式(3),NBC算法将待分类样本对象归类于后验概率最大的类别,从而完成分类。
对加权朴素贝叶斯算法的研究,常用的加权朴素贝叶斯分类算法的模型为:
其中,ωn是对应特征属性的权重系数,当相应特征属性的权重越大,其特征属性对分类的影响也就越明显。
基于信息增益率和互信息的加权朴素贝叶斯算法:
基于信息增益率的权值
在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。
训练样本数据集D的信息熵为:
其中C表示样本所属类别,第m个类别出现的概率是P(Cm)。熵是用来度量数据的不确定性,当熵越大,数据的不确定性越大。
训练样本集D中,第n个属性In的信息熵为:
其中,H(Dq)是训练样本子集Dq的信息熵。
由(5),(6)得属性In的信息增益为:
Gain(In,D)=H(D)-H(In,D) (7)
属性In广泛性的分裂信息为:
属性In的信息增益率为:
则信息增益率得到的权值Gn
其中N是训练样本集D中属性个数。
对其归一化得到
基于互信息的权值
信息论中的互信息是表示某一随机变量相关于其他随机变量变化时的信息量大小,它常用来表示提供的条件属性关于决策属性的信息量的大小。
设条件属性S和决策属性L的互信息表示为:
可以得到第n个条件属性sn的权值为:
对其归一化得到
加权朴素贝叶斯的权值确定
由以上所述,得到加权朴素贝叶斯的权重计算,即定义二者的平均值作为新的权值公式:
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种改进朴素贝叶斯算法的安卓恶意程序检测方法,其特征在于,包括以下步骤:
步骤一:基于信息增益率的权值:
训练样本数据集D的信息熵为:
其中C表示样本所属类别,第m个类别出现的概率是P(Cm);熵是用来度量数据的不确定性,当熵越大,数据的不确定性越大;
训练样本集D中,第n个属性In的信息熵为:
其中,H(Dq)是训练样本子集Dq的信息熵;
由(5),(6)得属性In的信息增益为:
Gain(In,D)=H(D)-H(In,D) (7)
属性In广泛性的分裂信息为:
属性In的信息增益率为:
则信息增益率得到的权值Gn
其中N是训练样本集D中属性个数;
对其归一化得到
步骤二:基于互信息的权值:
设条件属性S和决策属性L的互信息表示为:
可以得到第n个条件属性sn的权值为:
对其归一化得到
步骤三:加权朴素贝叶斯的权值确定:
由以上所述,得到加权朴素贝叶斯的权重计算,即定义二者的平均值作为新的权值公式:
CN201810214427.XA 2018-03-15 2018-03-15 一种改进朴素贝叶斯算法的安卓恶意程序检测方法 Pending CN108491719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810214427.XA CN108491719A (zh) 2018-03-15 2018-03-15 一种改进朴素贝叶斯算法的安卓恶意程序检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810214427.XA CN108491719A (zh) 2018-03-15 2018-03-15 一种改进朴素贝叶斯算法的安卓恶意程序检测方法

Publications (1)

Publication Number Publication Date
CN108491719A true CN108491719A (zh) 2018-09-04

Family

ID=63339374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810214427.XA Pending CN108491719A (zh) 2018-03-15 2018-03-15 一种改进朴素贝叶斯算法的安卓恶意程序检测方法

Country Status (1)

Country Link
CN (1) CN108491719A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008700A (zh) * 2019-03-20 2019-07-12 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110543904A (zh) * 2019-08-26 2019-12-06 河北航天信息技术有限公司 一种基于贝叶斯的企业风险分类模型构建方法
CN112906786A (zh) * 2021-02-07 2021-06-04 滁州职业技术学院 一种基于朴素贝叶斯模型的数据分类改进方法
CN113378167A (zh) * 2021-06-30 2021-09-10 哈尔滨理工大学 一种基于改进朴素贝叶斯算法和门控循环单元混合的恶意软件检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598825A (zh) * 2015-01-30 2015-05-06 南京邮电大学 一种基于改进贝叶斯算法的安卓恶意软件检测方法
CN104809233A (zh) * 2015-05-12 2015-07-29 中国地质大学(武汉) 一种基于信息增益率的属性加权方法及文本分类方法
CN105426762A (zh) * 2015-12-28 2016-03-23 重庆邮电大学 一种android应用程序恶意性的静态检测方法
CN105872972A (zh) * 2016-04-29 2016-08-17 武汉大学 基于多目标优化的自适应ap选取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598825A (zh) * 2015-01-30 2015-05-06 南京邮电大学 一种基于改进贝叶斯算法的安卓恶意软件检测方法
CN104809233A (zh) * 2015-05-12 2015-07-29 中国地质大学(武汉) 一种基于信息增益率的属性加权方法及文本分类方法
CN105426762A (zh) * 2015-12-28 2016-03-23 重庆邮电大学 一种android应用程序恶意性的静态检测方法
CN105872972A (zh) * 2016-04-29 2016-08-17 武汉大学 基于多目标优化的自适应ap选取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FENGJUN SHANG等: "Android malware detection method based on naive Bayes and permission correlation algorithm", 《CLUSTER COMPUT》 *
徐峻岭等: "基于互信息的无监督特征选择", 《计算机研究与发展》 *
许勐璠等: "基于半监督学习和信息增益率的入侵检测方案", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008700A (zh) * 2019-03-20 2019-07-12 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110008700B (zh) * 2019-03-20 2020-12-22 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110543904A (zh) * 2019-08-26 2019-12-06 河北航天信息技术有限公司 一种基于贝叶斯的企业风险分类模型构建方法
CN112906786A (zh) * 2021-02-07 2021-06-04 滁州职业技术学院 一种基于朴素贝叶斯模型的数据分类改进方法
CN113378167A (zh) * 2021-06-30 2021-09-10 哈尔滨理工大学 一种基于改进朴素贝叶斯算法和门控循环单元混合的恶意软件检测方法

Similar Documents

Publication Publication Date Title
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN108491719A (zh) 一种改进朴素贝叶斯算法的安卓恶意程序检测方法
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN105930723A (zh) 一种基于特征选择的入侵检测方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN107438083B (zh) 一种Android环境下钓鱼网站检测方法及其检测系统
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN108596276A (zh) 基于特征加权的朴素贝叶斯微博用户分类方法
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
CN110175247A (zh) 一种优化基于深度学习的异常检测模型的方法
CN110647916A (zh) 基于卷积神经网络的色情图片识别方法及装置
CN108920446A (zh) 一种工程文本的处理方法
CN112241554A (zh) 基于差分隐私指数机制的模型窃取防御方法和装置
CN109086794A (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN106372237A (zh) 欺诈邮件识别方法及装置
CN105205807B (zh) 基于稀疏自动编码机的遥感图像变化检测方法
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN109121133B (zh) 一种位置隐私保护方法及装置
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN110515836A (zh) 一种面向软件缺陷预测的加权朴素贝叶斯方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904