CN102346829A - 基于集成分类的病毒检测方法 - Google Patents

基于集成分类的病毒检测方法 Download PDF

Info

Publication number
CN102346829A
CN102346829A CN2011102830554A CN201110283055A CN102346829A CN 102346829 A CN102346829 A CN 102346829A CN 2011102830554 A CN2011102830554 A CN 2011102830554A CN 201110283055 A CN201110283055 A CN 201110283055A CN 102346829 A CN102346829 A CN 102346829A
Authority
CN
China
Prior art keywords
feature
training data
sequence
training
virus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102830554A
Other languages
English (en)
Other versions
CN102346829B (zh
Inventor
唐朝伟
张雪臻
杨磊
严鸣
时豪
李超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN 201110283055 priority Critical patent/CN102346829B/zh
Publication of CN102346829A publication Critical patent/CN102346829A/zh
Application granted granted Critical
Publication of CN102346829B publication Critical patent/CN102346829B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于集成分类的病毒检测方法,属于网络安全技术领域。该病毒检测方法由特征提取和集成分类两大模块,其中特征提取采用静态特征提取方法提取病毒的指令序列特征,构成特征集,并选择该特征集中信息增益最大的n个指令序列特征作为优化特征集。集成分类将人工神经网络引入到集成分类算法的构建中,结合AdaBoost算法提出一种新的模式分类器(GRAB)实现对病毒的检测,以达到有效地提高检测准确率,尤其是精确检测未知病毒的目的。通过本发明,可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒。

Description

基于集成分类的病毒检测方法
技术领域
本发明涉及一种病毒检测方法,尤其是一种基于集成分类的病毒检测方法。
背景技术
随着计算机网络尤其是互联网技术的飞速发展,网络成为人类社会最重要的组成部分,是20世纪最杰出的研究成果。而在网络互连程度日益扩大的同时,网络安全问题变得极其重要。所有网络安全事件中,计算机病毒的入侵占有最大比例。病毒数量不断增多,传播日趋广泛,给全球带来了巨大的经济损失。
传统的防病毒技术只能在病毒造成损害之后,通过分析病毒样本、提取特征码、更新病毒特征库来检测病毒。然而,当未知病毒或已知病毒的一个新的变体出现且造成损害之后,该病毒又将被重新分析,以更新特征库中的特征信息。该检测方法具有不可避免的滞后性,病毒的检测技术总是落后于新型病毒的出现。急需能够识别未知病毒的智能检测方法,达到将病毒危害降低到最小的目的。
现有的防病毒技术大多以特征码比对的方法检测计算机病毒,这种检测方法先提取已知病毒样本的特征,并将其特征数据添加到病毒特征库,在病毒检测时通过在病毒特征库中搜索,查找是否存在与之相匹配的病毒特征来发现病毒,其缺点是只能用于检测已知病毒,而对新型及未知的病毒无能为力。近年来许多研究显示运用机器学习可有效地检测未知的恶意代码,其缺点是错误率过高。
发明内容
本发明的目的是提供一种基于集成分类的病毒检测方法,其可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒。
本发明采用的技术方案是这样的:本发明提供一种基于集成分类的病毒检测方法,其包括以下步骤:
S1、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集,按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序,选择所述特征集中信息增益最大的n个指令序列特征作为优化特征集;
S2、以所述优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列                                               
Figure 2011102830554100002DEST_PATH_IMAGE002
,其中各训练数据的期望分类结果表示为
Figure 2011102830554100002DEST_PATH_IMAGE004
,下标i表示训练数据在所述训练数据序列中的位置,将所述训练数据序列
Figure 373274DEST_PATH_IMAGE002
中各组训练数据的权重均初始化为
Figure 2011102830554100002DEST_PATH_IMAGE006
,其中表示第1轮训练后第i组训练数据的权重,i=1,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定;
S3、弱分类器预测获得预测序列:采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出,获得预测序列
Figure 2011102830554100002DEST_PATH_IMAGE010
,设定所述预测序列的表示函数为
Figure 2011102830554100002DEST_PATH_IMAGE012
,其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果;
求取预测误差和
Figure 2011102830554100002DEST_PATH_IMAGE014
:如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果
Figure 703073DEST_PATH_IMAGE012
与期望分类结果
Figure 281297DEST_PATH_IMAGE004
不相等,即如果则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得所述预测序列
Figure 616463DEST_PATH_IMAGE010
的预测误差和,即,其中
Figure 2011102830554100002DEST_PATH_IMAGE020
表示所述训练数据序列经第t轮训练后第i组训练数据的权重,且1≤t≤T,T为大于1的整数;
S4、计算预测序列权重:根据所述预测序列
Figure 237249DEST_PATH_IMAGE010
的预测误差和
Figure 735226DEST_PATH_IMAGE014
计算所述预测序列
Figure 506873DEST_PATH_IMAGE010
的权重
Figure 395195DEST_PATH_IMAGE022
Figure 2011102830554100002DEST_PATH_IMAGE024
,其中1≤t≤T,T为大于1的整数;
S5、获得第t轮训练后第t组弱分类器函数
S6、判断t≥T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7;
S7、根据所述预测序列
Figure 215383DEST_PATH_IMAGE010
的权重
Figure 567867DEST_PATH_IMAGE022
调整第t+1轮训练数据序列中各组训练数据的权重
Figure 2011102830554100002DEST_PATH_IMAGE028
,调整公式为:
Figure 2011102830554100002DEST_PATH_IMAGE030
,其中表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且
Figure 2011102830554100002DEST_PATH_IMAGE032
是归一化因子,为常数;其后重复执行所述步骤S3~S6;
S8、根据各轮训练获得的T组弱分类器函数,由所述T组弱分类器组合获得强分类器F:
Figure 2011102830554100002DEST_PATH_IMAGE034
S9、对待检样本按照步骤S1进行特征提取,根据强分类器F对所述待检样本进行识别,输出检测结果。
所述步骤S1中采用一种改进的N-Gram方法作为静态特征提取方法,提取已知病毒的指令序列特征,该改进的N-Gram方法由以下步骤组成:
S10、将已知病毒和正常程序文件反汇编,获得反汇编指令代码形式的样本文件,去除所有操作数和无关信息;
S11、结合N-Gram方法提取各已知病毒和正常程序的指令序列特征,且向指令序列特征的各特征段均赋予唯一的特征id;
S12、根据特征id和特征段出现的频率信息,生成与所述样本文件对应的特征向量,以表征所述样本文件的特征信息,并且由所述样本文件的特征向量构成特征集。
在所述步骤S11中N-Gram方法采用固定长度为N的N-Gram窗口对去除操作数和无关信息的样本文件滑动分割,所述N-Gram窗口每次滑动一个单位长度,由此获得所述指令序列特征的特征段,其中各特征段的长度为N。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、采用静态特征提取方法提取指令序列特征,相比于提取其他静态特征,指令序列特征更能突显病毒文件的在其内容性和行为性两方面的特点,在表征同族变形病毒有显著优势,比二进制机器码有更好的语义特性,较Windows API calls以及其他动态特征有更高的样本覆盖率,也能更有效率地进行特征提取以及生成特征签名,并且相比于动态特征提取方法,采用静态特征提取方法不仅可以对非可执行病毒程序进行分析,而且其时间开销较小;
2、将GRNN神经网络引入分类算法的构建中,结合AdaBoost算法提出基于集成分类算法GRAB,其取代了单一的分类算法,可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒;
3、静态特征提取方法中选用一种改进的N-Gram方法,在提取指令序列特征之前去除所有的操作数和无关信息,以少量的原始数据获取更多的有效信息,使提取的指令序列特征在表征病毒文件内容与程序行为方面都具有更高的敏锐度;
4、由于诸如N-Gram方法等静态特征提取方法,提取获得的指令序列特征中存在大量不相关或冗余的特征,这使得检测变得越来越困难,本发明采用基于信息增益的特征选取方法对指令序列特征进行优化,从而提高了检测的精度和效率。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的模型示意图;
图2是基于N-Gram的特征提取过程的示意图;
图3是GRAB集成分类模型的示意图;
图4是基于GRAB集成分类方法的流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明将GRNN(Generalization regression neural network,广义回归神经网络)神经网络引入到分类算法的构建中,结合AdaBoost算法提出一种GRAB(Generalization Regression neural network based AdaBoost ,广义回归神经网络AdaBoost)分类模型,在此基础上提出一种智能病毒检测系统CEVDS(Classifier Ensembles based Virus Detection System,基于集成分类的病毒检测系统)系统,其主要由特征提取和集成分类两个模块组成。
如图1所示,该基于集成分类的病毒检测方法包括以下步骤:
第一部分:特征提取
S1、本发明采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集。
在病毒分析中使用的特征提取方法主要有动态提取、静态提取两种。动态提取方式获得的特征能够良好地表示病毒程序的行为特性,在处理加壳、加密病毒时尤其有效,但它只能用于分析可执行文件,而超过60%的病毒并非可执行程序,不能对其进行动态分析。此外,动态特征提取的时间开销巨大。因此,相比于动态特征提取方法,静态特征提取方法不仅可以分析非可执行程序,而且时间开销小,效率高。
在所有静态特征中,指令序列特征更能突显病毒文件在其内容性和行为性两方面的特点,在表征同族变形病毒有显著优势,比二进制机器码有更好的语义特性,较Windows API calls以及其他动态特征有更高的样本覆盖率,也能更有效率地进行特征提取以及生成特征签名。因此,本发明提取指令序列特征来表示样本文件。
在本发明的一个实施例中,采用一种改进的N-Gram方法作为静态特征提取方法,提取已知病毒的指令序列特征。N-Gram方法用于将连续的数据流按固定长度为N的N-Gram窗口滑动分割,收集得到的一系列重叠子串,其中N-Gram窗口每次滑动一个单位长度。如图2所示,对于指令代码片段,比如,xor div or jz inc,其对应的3-Gram为(xor div or)、(div or jz)、(or jz inc)。N-Gram方法可以捕获到一些潜在的其他方法很难准确提取的特征,在恶意代码检测领域,N-Gram是广泛应用的特征提取方法。
如图2所示,该改进的N-Gram方法由以下步骤组成:
S10、将已知病毒和正常程序文件反汇编,获得反汇编指令代码形式的样本文件,去除所有操作数和无关信息,诸如图中所示的“pro near”、“edx,edx”、“ebx”等。由于在开始提取指令序列特征之前就滤去了大量无用信息,基于指令代码的特征以少量的原始数据获取了更多的有效信息,在表征文件内容与程序行为两方面都具有更高的敏锐度。
S11、结合N-Gram方法提取已知病毒和正常程序的指令序列特征,即采用固定长度为N的N-Gram窗口对对去除操作数等无关信息的样本文件滑动分割,该N-Gram窗口每次滑动一个单位长度,从而获得指令序列特征的特征段,其中该特征段的长度为N。指令序列特征不仅反映了样本文件本身的语义内容,样本文件之间指令代码的次序关系也体现出程序在执行过程中可能发生的行为。另外,向指令序列特征的各特征段均赋予唯一的特征id(Identity,地址/编码),以维持所有指令序列特征在不同样本文件中的全局映射。
S12、依据特征id和特征段出现的频率信息,生成与各样本文件对应的特征向量,作为表征该样本文件的特征信息,并且各样本文件的特征向量构成了特征集。
当然,静态特征提取方法除了上述改进的N-Gram方法外,还可以采用其他静态特征提取方法,由于静态特征提取方法在特征提取中属于成熟技术,在此不对其他的静态特征提取方法予以累述。
在上述过程中产生的特征集合非常庞大,样本文件对应的特征向量维数较高,并包含很多冗余特征。在病毒检测中,不相关或冗余的特征使得检测变得越来越困难,为了提高检测的精度和效率,从中选取有利于识别病毒的特征是必要的。特征选择是寻找可以准确描述原始事例的信息量最大的特征的一个过程。在本检测系统中,事例是指病毒和正常程序,候选特征是指长度一定的指令序列。不管是对单指令序列还是多指令序列,所提取出来的特征数量都非常庞大。特征选择的目的就是在这些特征中选择最相关的一组特征,通常这组特征集比原始的特征集小很多,从而获得最满意的分类结果。
本发明按照该特征集中指令序列特征的IG(Information Gain,信息增益)大小对特征集进行排序,选择特征集中信息增益最大的n个指令序列特征作为优化特征集。
IG也被称作平均互信息量,反映了一个特征在分类中的重要性。其定义如下:
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
         (1)                          
其中,
Figure DEST_PATH_IMAGE040
                                (2)
Figure DEST_PATH_IMAGE042
                        (3)
Figure DEST_PATH_IMAGE044
  
Figure DEST_PATH_IMAGE046
                                        (4)
Figure DEST_PATH_IMAGE048
分别为两个离散随机变量,
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
的信息熵;是已知
Figure DEST_PATH_IMAGE056
情况下
Figure 509202DEST_PATH_IMAGE052
的条件熵。式(1)表明,从
Figure 929819DEST_PATH_IMAGE056
中获取关于的平均互信息量
Figure DEST_PATH_IMAGE058
,等于获知
Figure 391204DEST_PATH_IMAGE056
前后,关于
Figure 316435DEST_PATH_IMAGE052
的平均不确定性的消除。
信息增益在机器学习中被作为学习准则,在病毒检测中,信息增益
Figure DEST_PATH_IMAGE060
表示第
Figure DEST_PATH_IMAGE062
个序列指令特征所传递的平均信息量,由式(1)可得:
Figure DEST_PATH_IMAGE064
                              (5)
其中,
Figure DEST_PATH_IMAGE066
是第个特征属性的值,
Figure DEST_PATH_IMAGE068
代表这个特征出现过,表示这个特征没有出现过;表示第
Figure DEST_PATH_IMAGE074
个类别,这里一共有两类:病毒程序和正常程序;
Figure DEST_PATH_IMAGE076
表示在类中,第
Figure 572076DEST_PATH_IMAGE062
个特征值为
Figure 984603DEST_PATH_IMAGE066
的比例;
Figure DEST_PATH_IMAGE078
表示在训练集中第个特征值为
Figure 69551DEST_PATH_IMAGE066
的比例;
Figure DEST_PATH_IMAGE080
表示训练集中类
Figure 259224DEST_PATH_IMAGE072
所占的比例。
由于信息增益越大,代表这个特征对分类越有用,因此本发明选用IG最大的n个指令序列特征作为优化特征集。
第二部分:集成分类
本发明将GRNN神经网络引入到分类算法的构建中,结合AdaBoost算法提出一种GRAB集成分类方法,取代单一的分类方法,更有效地区分病毒与正常程序,特别是达到能够精确检测未知病毒的目的。
AdaBoost算法即自适应的Boosting算法,其思想是利用大量学习能力一般的弱分类器,通过一定方法集成,通过样本训练,构建一个分类能力更强的强分类器。简言之,通过合并许多“弱分类器”的输出以产生有效“投票委员会”的过程。理论证明,只要每个弱分类器的分类能力比随机猜测好,当弱分类器的个数趋于无穷时,强分类器的出错率将趋于零。AdaBoost算法的这一特性对于弥补弱分类器的自身局限性和训练样本的主观选择等不足具有重要意义。
AdaBoost算法的主要步骤为:
(1) 给出弱学习算法和训练集,从训练集中找出m组训练数据,初始化时,指定每组训练数据的权重分别为D1(i)=1/m。
(2) 调用弱学习算法进行T次迭代,每次迭代后,按照训练结果更新训练数据权重,对于训练失败的样本赋予较大的权值,使得下一次迭代更加关注这些样本。弱分类器通过反复迭代得到一个分类函数序列f1,f2,……,fT,每个分类函数f也赋予一个权重,分类效果越好的函数,其权值越大。
(3) 经过T次迭代后,在分类问题中最终的强分类函数F经“投票委员会”产生,即通过迭代权值的投票法产生。利用集成的强分类器可对新样本进行有效判断。
另外,广义回归神经网络(GRNN)是Donald F. Specht在1991年提出的,是径向基函数神经网络的一种,也是一种新颖而有效的前馈式神经网络。GRNN具有很强的非线性映射能力和柔性网络结构以及高度的容错性和鲁棒性,能够根据给定的样本数据逼近其中隐含的映射关系,被广泛应用于函数逼近。这种网络不仅具有全局逼近性质,而且具有最佳逼近性质。GRNN和BP等神经网络都可以用于分类、预测,但GRNN在逼近能力和学习速度上有更强优势,网络最后收敛于样本量积聚较多的优化回归面,并且在样本数据较少时,预测效果也较好。此外,GRNN需要调整的参数只有SPREAD一个,可以更快地分类、预测,具有较大计算优势。
AdaBoost算法本身是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值,然后将每次训练得到的分类器fT组合起来,作为最后的分类器F。AdaBoost在准确度和效率方面都具有很大的优势,使用AdaBoost算法,可以排除一些不必要的特征,并将重点放在关键的特征上。为了提高检测系统的识别精确度,提出一种结合AdaBoost算法提高弱分类器(GRNN)的分类性能和运算效率的网络模型GRAB。GRAB模型即把GRNN作为弱分类器,反复训练GRNN预测样本输出,通过AdaBoost算法得到多个GRNN弱分类器组成的强分类器,GRAB集成分类模型如图3所示。
如图4所述,该GRAB集成分类方法由以下步骤组成:
S2、以特征提取部分获得的优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列
Figure 96730DEST_PATH_IMAGE002
,其中各训练数据的期望分类结果表示为
Figure 662840DEST_PATH_IMAGE004
,下标i表示训练数据在该训练数据序列中的位置,将该训练数据序列中各组训练数据的权重均初始化为
Figure 262766DEST_PATH_IMAGE006
,其中
Figure 649885DEST_PATH_IMAGE008
表示第1轮训练后第i组训练数据的权重,i=1,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定,本发明中输出维数设定为1维;
S3、弱分类器预测获得预测序列:采用训练数据序列训练t个GRNN弱分类器并预测训练数据序列的输出,获得预测序列,设定预测序列的表示函数为
Figure 845035DEST_PATH_IMAGE012
,其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,
Figure 579773DEST_PATH_IMAGE012
表示训练数据序列经第t轮训练后第i组训练数据的预测分类结果;
求取预测误差和
Figure 188609DEST_PATH_IMAGE014
:如果训练数据序列经t轮训练后第i组训练数据的预测分类结果
Figure 362102DEST_PATH_IMAGE012
与期望分类结果
Figure 310466DEST_PATH_IMAGE004
不相等,即如果
Figure 278422DEST_PATH_IMAGE016
则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得预测序列的预测误差和
Figure 23841DEST_PATH_IMAGE014
,即
Figure 889029DEST_PATH_IMAGE018
,其中
Figure 965569DEST_PATH_IMAGE020
表示训练数据序列经第t轮训练后第i组训练数据的权重,且1≤t≤T,T为大于1的整数;
S4、计算预测序列权重
Figure 548997DEST_PATH_IMAGE022
:根据预测序列的预测误差和
Figure 721670DEST_PATH_IMAGE014
计算所述预测序列
Figure 31428DEST_PATH_IMAGE010
的权重
Figure 39836DEST_PATH_IMAGE022
Figure 93242DEST_PATH_IMAGE024
,其中1≤t≤T,T为大于1的整数;
S5、获得第t轮训练后第t组弱分类器函数
Figure 933022DEST_PATH_IMAGE026
S6、判断t≥T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7;
S7、根据所述预测序列
Figure 351365DEST_PATH_IMAGE010
的权重
Figure 643807DEST_PATH_IMAGE022
调整第t+1轮训练数据序列中各组训练数据的权重
Figure 771595DEST_PATH_IMAGE028
,调整公式为:
Figure 465882DEST_PATH_IMAGE030
,其中
Figure 117443DEST_PATH_IMAGE028
表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且
Figure 100442DEST_PATH_IMAGE032
是归一化因子,为常数,用于在权重比例不变的情况下使权重和为1;其后重复执行步骤S3~S6;
S8、根据各轮训练获得的T组弱分类器函数,由T组弱分类器组合获得强分类器F:
Figure 495651DEST_PATH_IMAGE034
S9、对待检样本按照步骤S1进行特征提取,根据强分类器F对待检样本进行识别,输出检测结果。
在验证该病毒检测方法过程中,本发明选用的实验数据集样本总数为386个,其中正常程序样本196个、病毒程序样本190个。所有正常程序样本从首次安装的Windows XP Professional SP3操作系统平台中随机选取。
从实验数据集中随机选取114个正常程序样本、98个病毒程序样本,构成已知类型数据集1(样本总数为212个),用于建立特征集以及测试病毒检测模型对已知病毒的检测性能;其余82个正常程序样本、92个病毒程序样本,构成未知类型数据集2(样本总数为174个),用于测试病毒检测模型对未知病毒的检测性能。
表1 样本数据分布
样本数据集 样本空间 正常程序样本数 病毒程序样本数
实验数据集 386 196 190
数据集1 212 114 98
数据集2 174 82 92
在建立特征集时,已知类型数据集在经过N-Gram特征提取后总共得到指令序列特征101963维,实验中为了测试所采取的特征选择方法性能以及节约开销,通过基于IG的方法进行特征选择,按信息增益大小对特征排序,选择前373维、前282维组成优化特征域做对比实验。
在分类算法方面,选取BP、GRNN两种人工神经网络算法作弱分类器进行对比实验,测试BP、GRNN、以及基于AdaBoost的集成分类模型BPAB、GRAB四种分类算法对病毒样本的检测性能。实验结果以准确率(OA)、检测率(DTR)为检测性能的两个评价指标。
测试病毒检测模型对已知病毒的检测性能结果如表2、表3所示,实验过程中从已知类型数据集(样本总数为212个)随机选取150个样本文件构成训练集,62个样本文件构成测试集。
表2 BP、BPAB检测结果  (%)
特征域维数 BP(OA) BPAB (OA) BPAB (DTR)
282 96.45 96.77 96.43
373 96.13 98.39 97.22
表3 GRNN、GRAB检测结果  (%)
特征域维数 GRNN(OA) GRAB(OA) GRAB (DTR)
282 96.77 96.77 95.83
373 97.74 98.39 96.97
测试病毒检测模型对未知病毒的检测性能结果如表5、表6所示,实验过程中以已知类型数据集(样本总数为212个)作为训练集,未知类型数据集(样本总数为174个)作为测试集。
表4 实验样本数据
  样本空间 训练集 测试集
正常程序 190 98 82
病毒程序 196 114 92
总计 386 212 174
表5 BP、BPAB检测结果  (%)
特征域维数 BP(OA) BPAB (OA) BPAB (DTR)
282 93.45 95.98 93.48
373 93.10 97.70 95.65
表6 GRNN、GRAB检测结果  (%)
特征域维数 GRNN(OA) GRAB(OA) GRAB(DTR)
282 94.02 98.28 97.83
373 95.40 98.85 98.91
由以上实验结果可知,特征域维数为373时各分类器检测性能均优于特征域维数为282时;各集成分类器检测性能优于单个分类器;BP、GRNN的单分类器与集成分类器在进行已知类型病毒检测时性能相当,但BP网络的时间开销远远大于GRNN;GRNN单分类器与集成分类器在进行未知类型病毒检测时优于BP单分类器与集成分类器,具有良好的逼近性。
实验结果表明,该系统的检测性能优于基于单分类器的病毒检测方法,此外,选择指令序列作病毒检测特征,使其在对未知病毒的检测上表现突出,能够准确识别未知病毒。下一步将研究更为有效的集成分类方法,以提高系统的检测性能;采用更大的训练和测试集合,进一步验证系统的性能。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (3)

1.一种基于集成分类的病毒检测方法,其特征在于:由以下步骤组成:
S1、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集,按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序,选择所述特征集中信息增益最大的n个指令序列特征作为优化特征集;
S2、以所述优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列                                               
Figure 2011102830554100001DEST_PATH_IMAGE002
,其中各训练数据的期望分类结果表示为
Figure 2011102830554100001DEST_PATH_IMAGE004
,下标i表示训练数据在所述训练数据序列中的位置,将所述训练数据序列
Figure 675305DEST_PATH_IMAGE002
中各组训练数据的权重均初始化为
Figure 2011102830554100001DEST_PATH_IMAGE006
,其中
Figure 2011102830554100001DEST_PATH_IMAGE008
表示第1轮训练后第i组训练数据的权重,i=1,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定;
S3、弱分类器预测获得预测序列:采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出,获得预测序列
Figure 2011102830554100001DEST_PATH_IMAGE010
,设定所述预测序列的表示函数为
Figure 2011102830554100001DEST_PATH_IMAGE012
,其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,
Figure 426002DEST_PATH_IMAGE012
表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果;
求取预测误差和
Figure DEST_PATH_IMAGE014
:如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果
Figure 205739DEST_PATH_IMAGE012
与期望分类结果
Figure 538632DEST_PATH_IMAGE004
不相等,即如果
Figure DEST_PATH_IMAGE016
则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得所述预测序列
Figure 290687DEST_PATH_IMAGE010
的预测误差和,即
Figure DEST_PATH_IMAGE018
,其中表示所述训练数据序列经第t轮训练后第i组训练数据的权重,且1≤t≤T,T为大于1的整数;
S4、计算预测序列的权重
Figure DEST_PATH_IMAGE022
:根据所述预测序列
Figure 255549DEST_PATH_IMAGE010
的预测误差和
Figure 454449DEST_PATH_IMAGE014
计算所述预测序列的权重
Figure 54375DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
,其中1≤t≤T,T为大于1的整数;
S5、获得第t轮训练后第t组弱分类器函数
Figure DEST_PATH_IMAGE026
S6、判断t≥T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7;
S7、根据所述预测序列
Figure 746387DEST_PATH_IMAGE010
的权重
Figure 483399DEST_PATH_IMAGE022
调整第t+1轮训练数据序列中各组训练数据的权重
Figure DEST_PATH_IMAGE028
,调整公式为:
Figure DEST_PATH_IMAGE030
,其中
Figure 879221DEST_PATH_IMAGE028
表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且
Figure DEST_PATH_IMAGE032
是归一化因子,为常数;其后重复执行所述步骤S3~S6;
S8、根据各轮训练获得的T组弱分类器函数,由所述T组弱分类器组合获得强分类器F:
Figure DEST_PATH_IMAGE034
S9、对待检样本按照步骤S1进行特征提取,根据强分类器F对所述待检样本进行识别,输出检测结果。
2.根据权利要求1所述的基于集成分类的病毒检测方法,其特征在于:所述步骤S1中采用一种改进的N-Gram方法作为静态特征提取方法,提取已知病毒的指令序列特征,该改进的N-Gram方法由以下步骤组成:
S10、将已知病毒和正常程序文件反汇编,获得反汇编指令代码形式的样本文件,去除所有操作数和无关信息;
S11、结合N-Gram方法提取各已知病毒和正常程序的指令序列特征,且向指令序列特征的各特征段均赋予唯一的特征id;
S12、根据特征id和特征段出现的频率信息,生成与所述样本文件对应的特征向量,以表征所述样本文件的特征信息,并且由所述样本文件的特征向量构成特征集。
3.根据权利要求2所述的基于集成分类的病毒检测方法,其特征在于:在所述步骤S11中N-Gram方法采用固定长度为N的N-Gram窗口对去除操作数和无关信息的样本文件滑动分割,所述N-Gram窗口每次滑动一个单位长度,由此获得所述指令序列特征的特征段,其中各特征段的长度为N。
CN 201110283055 2011-09-22 2011-09-22 基于集成分类的病毒检测方法 Expired - Fee Related CN102346829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110283055 CN102346829B (zh) 2011-09-22 2011-09-22 基于集成分类的病毒检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110283055 CN102346829B (zh) 2011-09-22 2011-09-22 基于集成分类的病毒检测方法

Publications (2)

Publication Number Publication Date
CN102346829A true CN102346829A (zh) 2012-02-08
CN102346829B CN102346829B (zh) 2013-09-18

Family

ID=45545498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110283055 Expired - Fee Related CN102346829B (zh) 2011-09-22 2011-09-22 基于集成分类的病毒检测方法

Country Status (1)

Country Link
CN (1) CN102346829B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663296A (zh) * 2012-03-31 2012-09-12 杭州安恒信息技术有限公司 面向网页JavaScript恶意代码的智能检测方法
CN102663286A (zh) * 2012-03-21 2012-09-12 奇智软件(北京)有限公司 一种病毒apk的识别方法及装置
CN102708313A (zh) * 2012-03-08 2012-10-03 珠海市君天电子科技有限公司 针对大文件的病毒检测系统及方法
CN102708320A (zh) * 2012-05-04 2012-10-03 奇智软件(北京)有限公司 一种病毒apk的识别方法及装置
CN102737186A (zh) * 2012-06-26 2012-10-17 腾讯科技(深圳)有限公司 恶意文件识别方法、装置及存储介质
CN103106367A (zh) * 2013-02-06 2013-05-15 重庆大学 一种抗攻击的恶意软件识别方法及系统
CN103530294A (zh) * 2012-07-05 2014-01-22 腾讯科技(深圳)有限公司 一种文件分类方法和装置
CN103559442A (zh) * 2013-10-31 2014-02-05 桂林机床电器有限公司 一种基于逆向技术的恶意程序检测方法及装置
CN103632091A (zh) * 2012-08-21 2014-03-12 腾讯科技(深圳)有限公司 恶意特征提取方法、装置及存储介质
CN104008164A (zh) * 2014-05-29 2014-08-27 华东师范大学 基于广义回归神经网络的短期腹泻病多步预测方法
CN104008333A (zh) * 2013-02-21 2014-08-27 腾讯科技(深圳)有限公司 一种安装包的检测方法和设备
CN104077524A (zh) * 2013-03-25 2014-10-01 腾讯科技(深圳)有限公司 用于病毒鉴定的训练方法和病毒鉴定方法及装置
WO2015024457A1 (en) * 2013-08-22 2015-02-26 Tencent Technology (Shenzhen) Company Limited Method and device for obtaining virus signatures cross-reference to related applications
CN104715199A (zh) * 2012-03-21 2015-06-17 北京奇虎科技有限公司 一种病毒apk的识别方法及装置
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN105138919A (zh) * 2015-09-21 2015-12-09 中国电子科技集团公司第五十八研究所 一种基于条件随机场模型的指令型硬件木马检测方法
CN105160248A (zh) * 2015-07-02 2015-12-16 哈尔滨工程大学 一种基于相关性剪枝神经网络的Xen虚拟机恶意进程识别系统及方法
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN105956469A (zh) * 2016-04-27 2016-09-21 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置
CN106096413A (zh) * 2016-06-21 2016-11-09 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统
CN106250832A (zh) * 2016-07-25 2016-12-21 华南理工大学 一种基于集成卷积神经网络的民族识别方法
CN106778268A (zh) * 2016-11-28 2017-05-31 广东省信息安全测评中心 恶意代码检测方法与系统
CN108537041A (zh) * 2018-04-04 2018-09-14 贵州师范学院 一种Linux病毒检测方法
CN108710797A (zh) * 2018-06-15 2018-10-26 四川大学 一种基于熵信息分布的恶意文档检测方法
CN108881307A (zh) * 2018-08-10 2018-11-23 中国信息安全测评中心 一种面向移动终端的安全性检测方法及装置
CN109063478A (zh) * 2018-07-19 2018-12-21 中国人民解放军61660部队 可移植的可执行文件的病毒检测方法、装置、设备及介质
CN109492396A (zh) * 2018-11-12 2019-03-19 杭州安恒信息技术股份有限公司 基于语义分割的恶意软件基因快速检测方法和装置
CN109492389A (zh) * 2018-10-31 2019-03-19 施勇 一种机器学习自动化行为分析的行为威胁分析方法
CN109711160A (zh) * 2018-11-30 2019-05-03 北京奇虎科技有限公司 应用程序检测方法、装置及神经网络系统
CN109858249A (zh) * 2019-02-18 2019-06-07 暨南大学 移动恶意软件大数据的快速智能比对和安全检测方法
CN109858250A (zh) * 2019-02-20 2019-06-07 哈尔滨工程大学 一种基于级联分类器的安卓恶意代码检测模型方法
CN110008700A (zh) * 2019-03-20 2019-07-12 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN110659483A (zh) * 2018-06-29 2020-01-07 卡巴斯基实验室股份制公司 使用在一个恶意文件上训练的学习模型识别多个恶意文件的系统和方法
CN111259385A (zh) * 2018-11-30 2020-06-09 北京奇虎科技有限公司 应用程序识别方法、装置及神经网络系统
CN111563045A (zh) * 2020-05-11 2020-08-21 西安邮电大学 基于Adaboost模型的并发程序数据竞争语句级检测方法
CN111723208A (zh) * 2020-06-28 2020-09-29 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN112818344A (zh) * 2020-08-17 2021-05-18 北京辰信领创信息技术有限公司 一种运用人工智能算法提高病毒查杀率的方法
CN112818344B (zh) * 2020-08-17 2024-06-04 北京辰信领创信息技术有限公司 一种运用人工智能算法提高病毒查杀率的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129565A (zh) * 2011-03-01 2011-07-20 北京航空航天大学 基于冗余特征消减AdaBoost分类器的物体检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129565A (zh) * 2011-03-01 2011-07-20 北京航空航天大学 基于冗余特征消减AdaBoost分类器的物体检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张波云等: "基于集成神经网络的计算机病毒检测方法", 《计算机工程与应用》 *
郭红刚等: "AdaBoost方法在入侵检测技术上的应用", 《计算机应用》 *

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708313A (zh) * 2012-03-08 2012-10-03 珠海市君天电子科技有限公司 针对大文件的病毒检测系统及方法
CN102708313B (zh) * 2012-03-08 2015-04-22 珠海市君天电子科技有限公司 针对大文件的病毒检测系统及方法
US9619650B2 (en) 2012-03-21 2017-04-11 Beijing Qihoo Technology Company Limited Method and device for identifying virus APK
CN102663286A (zh) * 2012-03-21 2012-09-12 奇智软件(北京)有限公司 一种病毒apk的识别方法及装置
CN102663286B (zh) * 2012-03-21 2015-05-06 北京奇虎科技有限公司 一种病毒apk的识别方法及装置
US10152594B2 (en) 2012-03-21 2018-12-11 Beijing Qihoo Technology Company Limited Method and device for identifying virus APK
CN104715199A (zh) * 2012-03-21 2015-06-17 北京奇虎科技有限公司 一种病毒apk的识别方法及装置
CN102663296B (zh) * 2012-03-31 2015-01-07 杭州安恒信息技术有限公司 面向网页JavaScript恶意代码的智能检测方法
CN102663296A (zh) * 2012-03-31 2012-09-12 杭州安恒信息技术有限公司 面向网页JavaScript恶意代码的智能检测方法
CN102708320A (zh) * 2012-05-04 2012-10-03 奇智软件(北京)有限公司 一种病毒apk的识别方法及装置
CN102737186B (zh) * 2012-06-26 2015-06-17 腾讯科技(深圳)有限公司 恶意文件识别方法、装置及存储介质
CN102737186A (zh) * 2012-06-26 2012-10-17 腾讯科技(深圳)有限公司 恶意文件识别方法、装置及存储介质
CN103530294B (zh) * 2012-07-05 2017-12-22 腾讯科技(深圳)有限公司 一种文件分类方法和装置
CN103530294A (zh) * 2012-07-05 2014-01-22 腾讯科技(深圳)有限公司 一种文件分类方法和装置
CN103632091B (zh) * 2012-08-21 2017-08-25 腾讯科技(深圳)有限公司 恶意特征提取方法、装置及存储介质
CN103632091A (zh) * 2012-08-21 2014-03-12 腾讯科技(深圳)有限公司 恶意特征提取方法、装置及存储介质
CN103106367A (zh) * 2013-02-06 2013-05-15 重庆大学 一种抗攻击的恶意软件识别方法及系统
CN104008333A (zh) * 2013-02-21 2014-08-27 腾讯科技(深圳)有限公司 一种安装包的检测方法和设备
CN104077524B (zh) * 2013-03-25 2018-01-09 腾讯科技(深圳)有限公司 用于病毒鉴定的训练方法和病毒鉴定方法及装置
CN104077524A (zh) * 2013-03-25 2014-10-01 腾讯科技(深圳)有限公司 用于病毒鉴定的训练方法和病毒鉴定方法及装置
US20150135323A1 (en) * 2013-08-22 2015-05-14 Tencent Technology (Shenzhen) Co., Ltd. Method and device for obtaining virus signatures
CN104424435B (zh) * 2013-08-22 2018-12-04 腾讯科技(深圳)有限公司 一种获取病毒特征码的方法及装置
CN104424435A (zh) * 2013-08-22 2015-03-18 腾讯科技(深圳)有限公司 一种获取病毒特征码的方法及装置
US10055584B2 (en) 2013-08-22 2018-08-21 Tencent Technology (Shenzhen) Co., Ltd. Method and device for obtaining virus signatures
WO2015024457A1 (en) * 2013-08-22 2015-02-26 Tencent Technology (Shenzhen) Company Limited Method and device for obtaining virus signatures cross-reference to related applications
US9633205B2 (en) * 2013-08-22 2017-04-25 Tencent Technology (Shenzhen) Co., Ltd. Method and device for obtaining virus signatures
CN103559442A (zh) * 2013-10-31 2014-02-05 桂林机床电器有限公司 一种基于逆向技术的恶意程序检测方法及装置
CN104008164A (zh) * 2014-05-29 2014-08-27 华东师范大学 基于广义回归神经网络的短期腹泻病多步预测方法
CN105160248A (zh) * 2015-07-02 2015-12-16 哈尔滨工程大学 一种基于相关性剪枝神经网络的Xen虚拟机恶意进程识别系统及方法
CN105160248B (zh) * 2015-07-02 2018-04-24 哈尔滨工程大学 一种基于相关性剪枝神经网络的Xen虚拟机恶意进程识别系统及方法
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN105138919B (zh) * 2015-09-21 2017-12-08 中国电子科技集团公司第五十八研究所 一种基于条件随机场模型的指令型硬件木马检测方法
CN105138919A (zh) * 2015-09-21 2015-12-09 中国电子科技集团公司第五十八研究所 一种基于条件随机场模型的指令型硬件木马检测方法
CN105740712B (zh) * 2016-03-09 2018-07-24 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法
CN105956469A (zh) * 2016-04-27 2016-09-21 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置
CN105956469B (zh) * 2016-04-27 2019-04-26 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN106096413A (zh) * 2016-06-21 2016-11-09 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统
CN106096413B (zh) * 2016-06-21 2019-01-29 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统
CN106250832A (zh) * 2016-07-25 2016-12-21 华南理工大学 一种基于集成卷积神经网络的民族识别方法
CN106778268A (zh) * 2016-11-28 2017-05-31 广东省信息安全测评中心 恶意代码检测方法与系统
CN108537041A (zh) * 2018-04-04 2018-09-14 贵州师范学院 一种Linux病毒检测方法
CN108537041B (zh) * 2018-04-04 2021-07-13 贵州师范学院 一种Linux病毒检测方法
CN108710797A (zh) * 2018-06-15 2018-10-26 四川大学 一种基于熵信息分布的恶意文档检测方法
CN110659483A (zh) * 2018-06-29 2020-01-07 卡巴斯基实验室股份制公司 使用在一个恶意文件上训练的学习模型识别多个恶意文件的系统和方法
CN110659483B (zh) * 2018-06-29 2023-04-28 卡巴斯基实验室股份制公司 使用在一个恶意文件上训练的学习模型识别多个恶意文件的系统和方法
CN109063478A (zh) * 2018-07-19 2018-12-21 中国人民解放军61660部队 可移植的可执行文件的病毒检测方法、装置、设备及介质
CN108881307A (zh) * 2018-08-10 2018-11-23 中国信息安全测评中心 一种面向移动终端的安全性检测方法及装置
CN109492389A (zh) * 2018-10-31 2019-03-19 施勇 一种机器学习自动化行为分析的行为威胁分析方法
CN109492389B (zh) * 2018-10-31 2020-08-21 上海境领信息科技有限公司 一种机器学习自动化行为分析的行为威胁分析方法
CN109492396A (zh) * 2018-11-12 2019-03-19 杭州安恒信息技术股份有限公司 基于语义分割的恶意软件基因快速检测方法和装置
CN111259385B (zh) * 2018-11-30 2023-10-31 北京奇虎科技有限公司 应用程序识别方法、装置及神经网络系统
CN111259385A (zh) * 2018-11-30 2020-06-09 北京奇虎科技有限公司 应用程序识别方法、装置及神经网络系统
CN109711160B (zh) * 2018-11-30 2023-10-31 北京奇虎科技有限公司 应用程序检测方法、装置及神经网络系统
CN109711160A (zh) * 2018-11-30 2019-05-03 北京奇虎科技有限公司 应用程序检测方法、装置及神经网络系统
CN109858249B (zh) * 2019-02-18 2020-08-07 暨南大学 移动恶意软件大数据的快速智能比对和安全检测方法
CN109858249A (zh) * 2019-02-18 2019-06-07 暨南大学 移动恶意软件大数据的快速智能比对和安全检测方法
CN109858250A (zh) * 2019-02-20 2019-06-07 哈尔滨工程大学 一种基于级联分类器的安卓恶意代码检测模型方法
CN110008700A (zh) * 2019-03-20 2019-07-12 北京大学 一种基于朴素贝叶斯的安卓恶意应用的检测方法及装置
CN111563045B (zh) * 2020-05-11 2022-11-01 西安邮电大学 基于Adaboost模型的并发程序数据竞争语句级检测方法
CN111563045A (zh) * 2020-05-11 2020-08-21 西安邮电大学 基于Adaboost模型的并发程序数据竞争语句级检测方法
CN111723208B (zh) * 2020-06-28 2023-04-18 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN111723208A (zh) * 2020-06-28 2020-09-29 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN112818344A (zh) * 2020-08-17 2021-05-18 北京辰信领创信息技术有限公司 一种运用人工智能算法提高病毒查杀率的方法
CN112818344B (zh) * 2020-08-17 2024-06-04 北京辰信领创信息技术有限公司 一种运用人工智能算法提高病毒查杀率的方法

Also Published As

Publication number Publication date
CN102346829B (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
CN102346829A (zh) 基于集成分类的病毒检测方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN108898479B (zh) 信用评价模型的构建方法及装置
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN103257957B (zh) 一种基于中文分词的文本相似性识别方法及装置
CN101604363B (zh) 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN110147321A (zh) 一种基于软件网络的缺陷高风险模块的识别方法
JP2012521598A5 (zh)
CN111835707B (zh) 一种基于改进后的支持向量机的恶意程序识别方法
CN102629305A (zh) 一种面向snp数据的特征选择方法
CN103092975A (zh) 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
Lan et al. Position-Aware ListMLE: A Sequential Learning Process for Ranking.
CN109886021A (zh) 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法
Cummins et al. Evolving local and global weighting schemes in information retrieval
CN113505826B (zh) 基于联合特征选择的网络流量异常检测方法
CN105306296A (zh) 一种基于lte信令的数据过滤处理方法
CN109063478A (zh) 可移植的可执行文件的病毒检测方法、装置、设备及介质
Jiang et al. A feature selection method for malware detection
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
Zhang et al. A hybrid feature selection algorithm for classification unbalanced data processsing
CN109933619A (zh) 一种半监督分类预测方法
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
Cummins et al. Evolving general term-weighting schemes for information retrieval: Tests on larger collections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130918

Termination date: 20190922