CN106096413A - 一种基于多特征融合的恶意代码检测方法及系统 - Google Patents
一种基于多特征融合的恶意代码检测方法及系统 Download PDFInfo
- Publication number
- CN106096413A CN106096413A CN201610455269.8A CN201610455269A CN106096413A CN 106096413 A CN106096413 A CN 106096413A CN 201610455269 A CN201610455269 A CN 201610455269A CN 106096413 A CN106096413 A CN 106096413A
- Authority
- CN
- China
- Prior art keywords
- feature
- training
- fusion
- malicious code
- validity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 114
- 238000012360 testing method Methods 0.000 claims abstract description 62
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000012216 screening Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000507 anthelmentic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于多特征融合的恶意代码检测方法及系统,其中,所述检测方法包括:步骤A:提取训练集和测试集中代码序列的N‑gram及变长N‑gram,分别作为训练集基本特征集合及测试集基本特征集合;步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。本发明所提供的检测方法,使得最终得到的融合特征具有更强的鉴别性及鲁棒性,能够更好的分类出恶意代码。
Description
技术领域
本发明涉及恶意代码检测技术领域,尤其涉及的是一种基于多特征融合的恶意代码检测方法及系统。
背景技术
恶意代码(Unwanted Code)是指没有作用却会带来危险的代码, 定义一:恶意代码又称恶意软件。这些软件也可称为广告软件(adware)、间谍软件(spyware)、恶意共享软件(malicious shareware),是指在未明确提示用户或未经用户许可的情况下,在用户计算机或其他终端上安装运行,侵犯用户合法权益的软件,有时也称作流氓软件。定义二:恶意代码是指故意编制或设置的、对网络或系统会产生威胁或潜在威胁的计算机代码,最常见的恶意代码有计算机病毒(简称病毒)、特洛伊木马(简称木马)、计算机蠕虫(简称蠕虫)、后门、逻辑炸弹等。
恶意代码的检测是目前恶意代码防范的重点和难点。恶意代码在实现上可分为两类:一类是基于基础技术的共用,恶意代码开发人员通过重用基础模块实现变种;一类是恶意代码专门针对现有防范技术而设计开发的混淆技术。
恶意代码的检测方法一般分为两大类:基于启发式的方法和基于特征的检测方法。基于启发式的检测方法可检测新恶意代码,但是,启发式规则依赖于分析人员的经验,因此,这种检测方法容易引发高误报率和漏报率。而基于特征的检测方法,是通过简单的模式识别方法来检测恶意代码,一个程序代码的二进制表述序列和某种规则匹配,那么就认为此代码为恶意代码。基于特征检测的恶意代码检测器必须用不同的模式来评测代码,所以这种检测方法通常准确率很高。
因此,基于特征的检测被广泛应到恶意代码检测工具中,是目前恶意代码检测的主流方法。传统的基于特征的恶意代码检测方法,由于需要拟合训练集进行特征选择,而选择出来的特征过分容易出现拟合训练集,导致其在训练集上进行检测效果较好,一旦需要在不同的测试集上进行检测,其分类效果往往不尽如人意。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种鉴别性及鲁棒性强,能够更好的分类出恶意代码的基于多特征融合的恶意代码检测方法及系统。
本发明的技术方案如下:
一种基于多特征融合的恶意代码检测方法,其中,所述基于多特征融合的恶意代码检测方法包括:
步骤A:提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;
步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;
步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;
步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。
所述的基于多特征融合的恶意代码检测方法,其中,所述步骤C具体包括:
步骤C1:针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;
步骤C2:利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;
步骤C3:将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;
步骤C4:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。
所述的基于多特征融合的恶意代码检测方法,其中,所述步骤C4具体包括:
步骤C41:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;
步骤C42:根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。
所述的基于多特征融合的恶意代码检测方法,其中,所述步骤B具体包括:
步骤B1:通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;
步骤B2:通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。
所述的基于多特征融合的恶意代码检测方法,其中,所述步骤B1包括:
步骤B11:计算所有基本特征的信息增益;
步骤B12:根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。
一种基于多特征融合的恶意代码检测系统,其中,所述基于多特征融合的恶意代码检测系统包括:
提取模块,用于提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;
筛选模块,用于通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;
融合模块,用于通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;
检测模块,用于利用融合特征分类器检测所筛选出的测试集有效特征集合。
所述的基于多特征融合的恶意代码检测系统,其中,所述融合模块具体包括:
创建子模块,用于针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;
训练子模块,用于利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;
排序子模块,用于将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;
融合子模块,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。
所述的基于多特征融合的恶意代码检测系统,其中,所述融合子模块具体包括:
训练单元,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;
融合单元,用于根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。
所述的基于多特征融合的恶意代码检测系统,其中,所述筛选模块具体包括:
第一筛选子模块,用于通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;
第二筛选子模块,用于通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。
所述的基于多特征融合的恶意代码检测系统,其中,所述第一筛选子模块具体包括:
计算单元,用于计算所有基本特征的信息增益;
筛选单元,用于根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。
本发明所提供的基于多特征融合的恶意代码检测方法,由于采用了提取训练集及测试集特征,并通过信息增益进行训练集特征进行初步筛选,然后利用Boosting算法进行多特征融合以进行测试集样本检测的方式,使得最终得到的融合特征具有更强的鉴别性及鲁棒性,能够更好的分类出恶意代码。
附图说明
图1是本发明中基于多特征融合的恶意代码检测方法的主要流程示意图;
图2是本发明基于多特征融合的恶意代码检测方法中步骤S100一实施例的N-gram提取示意图;
图3是本发明中基于多特征融合的恶意代码检测系统的结构示意图。
具体实施方式
本发明提供一种基于多特征融合的恶意代码检测方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于多特征融合的恶意代码检测方法,其中,所述基于多特征融合的恶意代码检测方法包括:
S100:提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;
研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体。一般将样本分为独立的三部分:训练集(train set),验证集(validation set)及测试集(test set);其中,训练集用于建立模型,测试集用于检验最终所选择最优模型的性能。
如图2所示,本发明实施例中,代码序列是指代码二进制序列或其他序列,优选为代码二进制序列,在此基础上使用N-gram及变长N-gram滑动窗口提取特征。N-gram可以指连续的N个字节或由一个长度为N的滑动窗口收集的一系列重叠的子字符串,这个窗口每次滑动一个单位长度,优选为后者;例如…10 18 17 21 15 27…,其对应的3-gram为(10 1817),(18 17 21),(17 21 15)及(21 15 27)等等。N-gram可以捕获到一些潜在的其他方法很难准确提取的特征,但N-gram很难同时捕获不同长度的字节序列,若一个有意义的字节序列不是N的倍数时,会产生边缘无匹配,从而造成无法提取该特征。故,本发明同时采用提取变长N-gram的方法弥补N-gram的不足。
变长N-gram也称为段落,是一串有意义的连续字节序列,与N-gram不同,其长度是不固定的,可以避免一个有意义的序列被拆分开来。
在该步骤之前还可以包括步骤:选取一定数量的恶意代码及正常代码作为训练集合。则步骤S100可具体为:由训练集合中提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合
S200:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;
经步骤S100所提取的训练集基本特征集合及测试集基本特征集合包含有很多冗余特征,所以有必要从中选取利于区分代码类型的特征即有效特征。
信息增益也可称为平均互信息量,又称information divergence,informationgain,relative entropy 或者KLIC。利用信息增益筛选特征是通过信息增益值,在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量,即信息增益值,又称为熵。其定义为I(X;Y)=H(X)-H(X/Y),其中,H(X)是X的信息熵,H(X/Y)是一直Y情况下X的条件熵。
S300:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;
Boosting算法是一种用来提高弱分类算法及任意给定学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。其主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。他可以用来提高其他弱分类算法的识别率,也就是将其他的弱分类算法作为基分类算法放于Boosting 框架中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,用该样本子集去训练生成基分类器;每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数 n 后,就可产生 n 个基分类器,然后Boosting框架算法将这 n个基分类器进行加权融合,产生一个最后的结果分类器,在这 n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率。在产生单个的基分类器时可用相同的分类算法,也可用不同的分类算法,优选为使用相同的分类算法。
S400:利用融合特征分类器检测所筛选出的测试集有效特征集合。
综上,本发明步骤可具体为:分别由测试集及训练集中提取基本特征,所述基本特征为N-gram及变长N-gram;从所提取的两组基本特征分别通过信息增益的方法提取有效特征;将由训练集所提取的有效特征通过Boosting算法进行训练并融合;利用最终融合特征检测由测试集中所提取的有效特征;输入检测结果,所输出结果为所检测有效特征是否为恶意代码或是否为正常代码。
本发明所提供的基于多特征融合的恶意代码检测方法,由于采用了提取训练集及测试集特征,并通过信息增益进行训练集特征进行初步筛选,然后利用Boosting算法进行多特征融合以进行测试集样本检测的方式,使得最终得到的融合特征具有更强的鉴别性及鲁棒性,能够更好的分类出恶意代码。
进一步地,所述的基于多特征融合的恶意代码检测方法,其中,所述S300具体包括:
S310:针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。
应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT 学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP 完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。
S320:利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;
该步骤具体包括:提取等数量的带有恶意代码标签及正常代码标签的所有有效特征;分别利用所提取有效特征的训练样本训练其所对应的分类器。
S330:将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;
S340:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。
本发明实施例中,Boosting算法首先对每个样本赋予一个相同的初始权重,然后在此后的迭代过程中不断调整权重。整个过程进行多次迭代,每次迭代首先根据样本的权重构造训练集,权重越大的样本出现在训练集中的概率越高。
进一步地,所述的基于多特征融合的恶意代码检测方法,其中,所述S340具体包括:
S341:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;
权重是一个相对的概念,针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重是要从若干评价指标中分出轻重来,一组评价指标体系相对应的权重组成了权重体系。
该步骤具体为:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练,并调整训练样本的权重,训练得出各个贝叶斯分类器的权重。
S342:根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。
进一步地,所述的基于多特征融合的恶意代码检测方法,其中,所述S200具体包括:
S210:通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;
S220:通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。
进一步地,所述的基于多特征融合的恶意代码检测方法,其中,所述S210包括:
S211:计算所有基本特征的信息增益;
本发明实施例中,基本特征的信息增益定义可以如下公式所示:
其中,C为类别数目,在本发明实施例中取值为2;v(f)表示f出现与否的样本集合,当v(f)取值为1时表示特征f出现在样本中,当v(f)取值为1时表示特征f没有出现在样本中;Pi表示集合S中各类别的比例,qi表示集合Sv(f)中各类别的比例。
S212:根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。
如图3所示,一种基于多特征融合的恶意代码检测系统,其中,所述基于多特征融合的恶意代码检测系统包括:
提取模块100,用于提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合,具体如上所述;
筛选模块200,用于通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合,具体如上所述;
融合模块300,用于通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器,具体如上所述;
检测模块400,用于利用融合特征分类器检测所筛选出的测试集有效特征集合,具体如上所述。
进一步地,所述的基于多特征融合的恶意代码检测系统,其中,所述融合模块具体包括:
创建子模块,用于针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器,具体如上所述;
训练子模块,用于利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器,具体如上所述;
排序子模块,用于将训练后的各个贝叶斯分类器按照正确率从小到大进行排序,具体如上所述;
融合子模块,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合,具体如上所述。
进一步地,所述的基于多特征融合的恶意代码检测系统,其中,所述融合子模块具体包括:
训练单元,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重,具体如上所述;
融合单元,用于根据所得到的权重融合各个贝叶斯分类器所对应的有效特征,具体如上所述。
进一步地,所述的基于多特征融合的恶意代码检测系统,其中,所述筛选模块具体包括:
第一筛选子模块,用于通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合,具体如上所述;
第二筛选子模块,用于通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合,具体如上所述。
进一步地,所述的基于多特征融合的恶意代码检测系统,其中,所述第一筛选子模块具体包括:
计算单元,用于计算所有基本特征的信息增益,具体如上所述;
筛选单元,用于根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征,具体如上所述。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,例如信息增益计算公式等,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于多特征融合的恶意代码检测方法,其特征在于,所述基于多特征融合的恶意代码检测方法包括:
步骤A:提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;
步骤B:通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;
步骤C:通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;
步骤D:利用融合特征分类器检测所筛选出的测试集有效特征集合。
2.根据权利要求1所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤C具体包括:
步骤C1:针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;
步骤C2:利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;
步骤C3:将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;
步骤C4:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。
3.根据权利要求2所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤C4具体包括:
步骤C41:利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;
步骤C42:根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。
4.根据权利要求1所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤B具体包括:
步骤B1:通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;
步骤B2:通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。
5.根据权利要求4所述的基于多特征融合的恶意代码检测方法,其特征在于,所述步骤B1包括:
步骤B11:计算所有基本特征的信息增益;
步骤B12:根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。
6.一种基于多特征融合的恶意代码检测系统,其特征在于,所述基于多特征融合的恶意代码检测系统包括:
提取模块,用于提取训练集和测试集中代码序列的N-gram及变长N-gram,分别作为训练集基本特征集合及测试集基本特征集合;
筛选模块,用于通过信息增益的方式由所提取的训练集基本特征集合及测试集基本特征集合中分别筛选出训练集有效特征集合及测试集有效特征集合;
融合模块,用于通过Boosting算法对所筛选出的训练集有效特征集合进行特征融合以得到融合特征分类器;
检测模块,用于利用融合特征分类器检测所筛选出的测试集有效特征集合。
7.根据权利要求6所述的基于多特征融合的恶意代码检测系统,其特征在于,所述融合模块具体包括:
创建子模块,用于针对训练集有效特征集合中的每个有效特征创建一个贝叶斯分类器;
训练子模块,用于利用带有恶意代码标签及正常代码标签的训练集训练所创建的贝叶斯分类器;
排序子模块,用于将训练后的各个贝叶斯分类器按照正确率从小到大进行排序;
融合子模块,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并进行特征融合。
8.根据权利要求7所述的基于多特征融合的恶意代码检测系统,其特征在于,所述融合子模块具体包括:
训练单元,用于利用Boosting算法根据所排列次序对训练后的贝叶斯分类器进行二次训练并得到各个贝叶斯分类器的权重;
融合单元,用于根据所得到的权重融合各个贝叶斯分类器所对应的有效特征。
9.根据权利要求6所述的基于多特征融合的恶意代码检测系统,其特征在于,所述筛选模块具体包括:
第一筛选子模块,用于通过信息增益的方式由所提取的训练集基本特征集合中筛选出训练集有效特征集合;
第二筛选子模块,用于通过信息增益的方式由所提取的测试集基本特征集合中筛选出测试集有效特征集合。
10.根据权利要求9所述的基于多特征融合的恶意代码检测系统,其特征在于,所述第一筛选子模块具体包括:
计算单元,用于计算所有基本特征的信息增益;
筛选单元,用于根据计算结果将所有基本特征按照递减顺序排列,并选取前若干个基本特征作为有效特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610455269.8A CN106096413B (zh) | 2016-06-21 | 2016-06-21 | 一种基于多特征融合的恶意代码检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610455269.8A CN106096413B (zh) | 2016-06-21 | 2016-06-21 | 一种基于多特征融合的恶意代码检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106096413A true CN106096413A (zh) | 2016-11-09 |
CN106096413B CN106096413B (zh) | 2019-01-29 |
Family
ID=57238786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610455269.8A Active CN106096413B (zh) | 2016-06-21 | 2016-06-21 | 一种基于多特征融合的恶意代码检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096413B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845229A (zh) * | 2016-12-28 | 2017-06-13 | 哈尔滨安天科技股份有限公司 | 一种基于fts模型的病毒特征提取方法及系统 |
CN108537041A (zh) * | 2018-04-04 | 2018-09-14 | 贵州师范学院 | 一种Linux病毒检测方法 |
CN109308413A (zh) * | 2018-11-28 | 2019-02-05 | 杭州复杂美科技有限公司 | 特征提取方法、模型生成方法及恶意代码检测方法 |
CN109858251A (zh) * | 2019-02-26 | 2019-06-07 | 哈尔滨工程大学 | 基于Bagging集成学习算法的恶意代码分类检测方法 |
CN112966272A (zh) * | 2021-03-31 | 2021-06-15 | 国网河南省电力公司电力科学研究院 | 一种基于对抗式网络的物联网Android恶意软件检测方法 |
CN113705619A (zh) * | 2021-08-03 | 2021-11-26 | 广州大学 | 一种恶意流量检测方法、系统、计算机及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100624A1 (en) * | 2005-11-03 | 2007-05-03 | Fuliang Weng | Unified treatment of data-sparseness and data-overfitting in maximum entropy modeling |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
CN102508859A (zh) * | 2011-09-29 | 2012-06-20 | 北京亿赞普网络技术有限公司 | 一种基于网页特征的广告分类方法及装置 |
CN105138913A (zh) * | 2015-07-24 | 2015-12-09 | 四川大学 | 一种基于多视集成学习的恶意软件检测方法 |
-
2016
- 2016-06-21 CN CN201610455269.8A patent/CN106096413B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100624A1 (en) * | 2005-11-03 | 2007-05-03 | Fuliang Weng | Unified treatment of data-sparseness and data-overfitting in maximum entropy modeling |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
CN102508859A (zh) * | 2011-09-29 | 2012-06-20 | 北京亿赞普网络技术有限公司 | 一种基于网页特征的广告分类方法及装置 |
CN105138913A (zh) * | 2015-07-24 | 2015-12-09 | 四川大学 | 一种基于多视集成学习的恶意软件检测方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845229A (zh) * | 2016-12-28 | 2017-06-13 | 哈尔滨安天科技股份有限公司 | 一种基于fts模型的病毒特征提取方法及系统 |
CN106845229B (zh) * | 2016-12-28 | 2019-12-20 | 哈尔滨安天科技集团股份有限公司 | 一种基于fts模型的病毒特征提取方法及系统 |
CN108537041A (zh) * | 2018-04-04 | 2018-09-14 | 贵州师范学院 | 一种Linux病毒检测方法 |
CN108537041B (zh) * | 2018-04-04 | 2021-07-13 | 贵州师范学院 | 一种Linux病毒检测方法 |
CN109308413A (zh) * | 2018-11-28 | 2019-02-05 | 杭州复杂美科技有限公司 | 特征提取方法、模型生成方法及恶意代码检测方法 |
CN109858251A (zh) * | 2019-02-26 | 2019-06-07 | 哈尔滨工程大学 | 基于Bagging集成学习算法的恶意代码分类检测方法 |
CN109858251B (zh) * | 2019-02-26 | 2023-02-10 | 哈尔滨工程大学 | 基于Bagging集成学习算法的恶意代码分类检测方法 |
CN112966272A (zh) * | 2021-03-31 | 2021-06-15 | 国网河南省电力公司电力科学研究院 | 一种基于对抗式网络的物联网Android恶意软件检测方法 |
CN112966272B (zh) * | 2021-03-31 | 2022-09-09 | 国网河南省电力公司电力科学研究院 | 一种基于对抗式网络的物联网Android恶意软件检测方法 |
CN113705619A (zh) * | 2021-08-03 | 2021-11-26 | 广州大学 | 一种恶意流量检测方法、系统、计算机及介质 |
CN113705619B (zh) * | 2021-08-03 | 2023-09-12 | 广州大学 | 一种恶意流量检测方法、系统、计算机及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106096413B (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096413B (zh) | 一种基于多特征融合的恶意代码检测方法及系统 | |
Saini et al. | Oreo: Detection of clones in the twilight zone | |
Ebrahimi et al. | On adversarial examples for character-level neural machine translation | |
US9106689B2 (en) | Intrusion detection using MDL clustering | |
CN109416719A (zh) | 用于确定软件代码中的缺陷和漏洞的方法 | |
Collaris et al. | Instance-level explanations for fraud detection: A case study | |
CN111047173B (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
CN109063478A (zh) | 可移植的可执行文件的病毒检测方法、装置、设备及介质 | |
CN112883378B (zh) | 图嵌入与深度神经网络相融合的安卓恶意软件检测方法 | |
Al-Sheshtawi et al. | Artificial immune clonal selection classification algorithms for classifying malware and benign processes using API call sequences | |
CN107368526A (zh) | 一种数据处理方法及装置 | |
CN110851176A (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
Rokon et al. | Repo2vec: A comprehensive embedding approach for determining repository similarity | |
CN113360906A (zh) | 可解释的基于图嵌入的Android恶意软件自动检测 | |
Katar | Combining multiple techniques for intrusion detection | |
Sharma et al. | Construction of large-scale misinformation labeled datasets from social media discourse using label refinement | |
Ji et al. | Code clone detection with hierarchical attentive graph embedding | |
CN109993391A (zh) | 网络运维任务工单的派发方法、装置、设备及介质 | |
Bountakas et al. | Defense strategies for adversarial machine learning: A survey | |
Ferrag et al. | Securefalcon: The next cyber reasoning system for cyber security | |
Zhang et al. | CPVD: Cross Project Vulnerability Detection Based On Graph Attention Network And Domain Adaptation | |
Kim | Enhancing code clone detection using control flow graphs. | |
Englert et al. | Sensing Higgs boson cascade decays through memory | |
Sotgiu et al. | Explainability-based debugging of machine learning for vulnerability discovery | |
Krishnamurthy et al. | Explaining and interpreting machine learning cad decisions: An ic testing case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200629 Address after: 23 / F, Guangdong hi tech District Patentee after: Shenzhen Konka Holding Group Co., Ltd Address before: 518053 Konka 28 R & D building, twelve hi tech Industrial Zone, Shenzhen hi tech Industrial Park, Guangdong, Nanshan District 23 Patentee before: KONKA GROUP Co.,Ltd. |
|
TR01 | Transfer of patent right |