CN108537041A - 一种Linux病毒检测方法 - Google Patents
一种Linux病毒检测方法 Download PDFInfo
- Publication number
- CN108537041A CN108537041A CN201810299005.7A CN201810299005A CN108537041A CN 108537041 A CN108537041 A CN 108537041A CN 201810299005 A CN201810299005 A CN 201810299005A CN 108537041 A CN108537041 A CN 108537041A
- Authority
- CN
- China
- Prior art keywords
- file
- virus
- base
- measured
- base grader
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/561—Virus type analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Virology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于Linux病毒检测方法,具体包括如下步骤:步骤一:从待测文件中提取出样本特征;步骤二:通过多个不同的基分类器分别对待测文件的样本特征进行检测并生成检测结果;步骤三:对所有基分类器的检测结果进行整合得出待测文件是否为病毒的检测结果。该方法采用多个不同的基分类器对待测文件进行检测,提高了检测的准确性。
Description
技术领域
本发明涉及病毒检测领域,尤其涉及一种Linux病毒检测方法。
背景技术
随着大数据及智能化时代的到来,稳定性好、性能高的Linux操作系统已逐渐成为当下应用主流,随之而来的,针对Linux的各种病毒攻击也越来越频繁。但是由于各种原因,Linux上的病毒检测工具远不如Windows平台上的丰富和有效,而且相关的理论研究也不多。因此,对于Linux病毒检测技术的研究具有较大的现实意义。
目前,最简单直接的病毒检测方案为采用特征提取方法从待测文件中得到样本特征,然后通过某种分类算法进行判断,最后得到检测结果。但这种方案存在不足,单个分类器分类能力是有局限的,其检测准确率不是太高,且容易对特定样本产生过拟合性。
发明内容
本发明的主要目的在于提供一种Linux病毒检测方法,通过采用改进的AdaBoost算法对多个不同的基分类器进行训练进而对病毒进行检测,同时采用了基于D-S证据理论对多个基分类器的检测结果进行整合,提高了病毒检测的准确性。
为达到以上目的,本发明采用的技术方案为:一种基于Linux病毒检测方法,其特征在于,具体包括如下步骤:
步骤一:从待测文件中提取出样本特征;
步骤二:通过多个不同的基分类器分别对待测文件的样本特征进行检测并生成检测结果;
步骤三:对所有基分类器的检测结果进行整合得出待测文件是否为病毒的检测结果。
优选地,步骤二中的多个基分类器用以下步骤进行训练:
步骤1:给定训练样本集:S={(x1,y1),…,(xi,yi),…,(xm,ym)},其中xi是实例样本,xi∈X,yi是类别标志,yi∈Y={-1,+1},当yi=+1时,xi为正常文件,当yi=-1时,xi为病毒,其中i∈{1,2,……,m};
步骤2:对样本权重进行初始化:Dt(i)=1/m,其中t∈{1,2,……,T},T为基分类器的个数;
步骤3:获取基分类器的权重:
a)在当前的样本权重分布Dt下,训练得到基分类器:ht=H(x,y,Dt);
b)计算该基分类器的错误率:
c)计算对正样本的识别正确率:
d)计算得到基分类器的权重:
e)更新样本权重:
其中,Zt为归一化因子;
f)返回到步骤a中对下一个基分类器的权重进行计算,直到T个基分类器的权重全部计算完成。
优选地,在步骤三中,通过以下公式对步骤二中每个基分类器检测的结果进行整合:
优选地,在步骤三中,通过D-S证据理论对步骤二中的检测结果进行整合,整合过程如下:
步骤Ⅰ:计算归一化因子:
其中N表示待测文件为正常文件,表示待测文件为病毒文件,Mt(N)和为每个基分类器的基本概率函数,每个基分类器的基本概率函数为对应的权重值at或者1-at;
步骤Ⅱ:计算待测文件为病毒文件的信任度:
其中,mt为第t个基分类器对命题﹁N的概率分配,mt的值等于at或1-at,具体取哪一个值与对应的基分类器对本次待测文件的判定结果有关;
步骤Ⅲ:将获取的信任度与预先设定的阈值进行比较,当信任度高于阈值时,判断待测文件为病毒文件,否则为正常文件。
优选地,所述阈值可调。
与现有技术相比,本发明具有以下有益效果:
1)该病毒检测方法采用不同的基分类器对待测文件进行检测,通过对每个基分类器的检测结果进行整合并最终判断待测文件是不是病毒,相比于单个基分类器进行检测,检测结果更加准确;
2)该方法采用的多个基分类器的权重不同,这样能够使那些准确度更高的基分类器具有更大的比重,进而增加了检测的准确性;同时,在计算基分类器权重的时候引入了其中是增函数,通过这种方式求得新的基分类器权重,在分类错误率相同的情形下,那些具有更高正样本识别能力的基分类器将被赋予更大的权重;
3)在整合基分类器的检测结果时,引入了D-S证据理论,这样对病毒的检测从简单的“是“与“否”的判断转化为可量化的数值输出,例如当对检测敏感度要求比较高时,可以把病毒判定的阀值调低,从而将更多可疑文件判定为病毒,反之亦然,通过这种方式,使系统更加适用于不同的检测场景。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
实施例一
一种基于Linux病毒检测方法,具体包括如下步骤:
步骤一:从待测文件中提取出样本特征;
步骤二:通过多个基分类器分别对待测文件的样本特征进行检测并生成检测结果;
步骤三:对所有基分类器的检测结果进行整合得到最终检测结果。
步骤一中,可以采用ELF文件的头表信息作为样本特征来源。具体地,ELF(Executable and Linking Format,执行与连接格式)文件格式是Linux操作系统下一种主要的目标文件格式,其属于现有技术,此处不再详述。
步骤二中的基分类器采用BP神经网络分类器,具体地,BP神经网络设置为36x20x12,学习算法为误差反向传播算法,学习率为lr=0.1,最大学习次数为20000次,学习目标误差平方和为Err_goal=10-5,具体地,BP神经网络的原理采用现有技术,此处不再详述。
为了使步骤二中的基分类器的检测结果更加的准确,在检测病毒之前,需要对所有的基分类器进行训练,具体的训练步骤如下:
步骤1:给定训练样本集:S={(x1,y1),…,(xi,yi),…,(xm,ym)},其中xi是实例样本,xi∈X;yi是类别标志,yi∈Y={-1,+1},当yi=+1时,xi为正常文件,当yi=-1时,xi为病毒。
步骤2:对样本权重进行初始化:Dt(i)=1/m。
步骤3:获取基分类器的权重:
a)在当前的样本权重分布Dt下,训练得到基分类器:ht(x)=H(x,y,Dt),其中t∈{1,2,……,T},T为基分类器的个数。
b)计算该基分类器的错误率:
通过ht(xi)≠yi来判断基本分类器的分类结果与样本的实际情况是否一致,当不一致时即为分类错误,将对应的样本的权重计入错误率中。
c)计算对正样本的识别正确率:
在上述公式中,将正样本的权重相加得到正确率。
d)计算得到基分类器的权重:
其中,部分为现有技术中计算基分类器的权重的公式,是φt增函数,其中ξ为一个常数,其取值满足在当次循环中令最小错误率的上界下降。通过这种方式求得新的基分类器权重,在分类错误率相同的情形下,那些具有更高正样本识别能力的基分类器将被赋予更大的权重。
e)更新样本权重:
其中,Zt为归一化因子。
f)返回到步骤a中对下一个基分类器的权重进行计算,直到T个基分类器的权重全部计算完成。
步骤三中,进行整合得到最终检测结果的得到是通过对所有基分类器的检测结果进行带权重投票的加权和方式,用下面公式计算得到:
通过基分类器的权重at与对应的基分类器的检测结果ht相乘,综合考虑了该基分类器的权重与检测结果,使最终的检测结果更加准确。
实施例二
实施例二与实施例一的不同在于步骤三,该实施例中采用D-S证据理论对所有基分类器结果进行整合得到最终检测结果,公式如下:
H(x)=D-Stheory(at,ht(x))。
具体地,得到最终检测结果的过程如下:
步骤Ⅰ:计算归一化因子
其中,上述公式为D-S证据理论计算归一化因子的一般公式,此处对其不再详述。由于病毒检测系统共包括两个基本命题:1)样本为正常文件,记为N;2)样本为病毒,记为且所以命题空间为其中N表示对样本判定为正常文件的信任,﹁N对样本判定为病毒的信任。本发明中描述的病毒检测系统有多个基分类器,每个基分类器可以对基本命题做出判断。对于一个给定的测试样本,每个基分类器都会做出对其类型的判断,即信任其正常文件(N)或者信任其为病毒(﹁N)。式中Mt(At)为第t个基分类器对命题At的基本概率函数,T为基本分类器的个数。上式可变换为:
对于每个基分类器的基本概率函数的定义,本发明将实施例一中步骤3中获取的基分类器的权重at作为对应的基本概率函数。例如两个基分类器m1、m2的权重分别为a1、a2,在一次检测中,它们对待测样本的判断分别为N与﹁N,则它们的基本概率函数定义如表所示(两个基分类器的基本概率分配):
同理,可以对多个基分类器的基本概率函数做出定义。
每一次检测,K值重新计算,与每个基分类器对待测样本判断结果相关,因为判断结果不同,每一个基分类器的基本概率分配是不同的。
步骤Ⅱ:计算待测文件为病毒文件的信任度
对由T个基分类器组成的检测系统,采用Dempster正交合成规则来对命题的基本概率函数进行合成,得到检测系统对该命题的信任度分配:
其中,mt为第t个基分类器对命题﹁N(病毒文件)的概率分配,mt的值等于at或1-at,具体取哪一个值与该基分类器对本次待测文件判定的结果有关。例如:该基分类器对本次待测文件的判定结果是﹁N(病毒文件),则此时mt=at,否则mt=1-at。
步骤Ⅲ:将获取的信任度与预先设定的阈值进行比较,当信任度高于阈值时,判断待测文件为病毒文件,否则为正常文件。并且,所述阈值能够根据需要进行调节,当对病毒的检测灵敏度要求较高时,可以将阈值调低,反之,将阈值调高。
具体地,所述D-S证据理论为现有技术,对于其相关公式的来源以及原理不再详述。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.一种基于Linux病毒检测方法,其特征在于,具体包括如下步骤:
步骤一:从待测文件中提取出样本特征;
步骤二:通过多个不同的基分类器分别对待测文件的样本特征进行检测并生成检测结果;
步骤三:对所有基分类器的检测结果进行整合得出待测文件是否为病毒的检测结果。
2.根据权利要求1所述的一种基于Linux病毒检测方法,其特征在于,步骤二中的多个基分类器用以下步骤进行训练:
步骤1:给定训练样本集:S={(x1,y1),…,(xi,yi),…,(xm,ym)},其中xi是实例样本,xi∈X,yi是类别标志,yi∈Y={-1,+1},当yi=+1时,xi为正常文件,当yi=-1时,xi为病毒,其中i∈{1,2,……,m};
步骤2:对样本权重进行初始化:Dt(i)=1/m,其中t∈{1,2,……,T},T为基分类器的个数;
步骤3:获取基分类器ht=H(x,y,Dt)的权重:
a)计算该基分类器的错误率:
b)计算对正样本的识别正确率:
c)计算得到基分类器的权重:
d)更新样本权重:
其中,Zt为归一化因子;
e)返回到步骤a中对下一个基分类器的权重进行计算,直到T个基分类器的权重全部计算完成。
3.根据权利要求2所述的一种基于Linux病毒检测方法,其特征在于,在步骤三中,通过以下公式对步骤二中每个基分类器检测的结果进行整合:
4.根据权利要求2所述的一种基于Linux病毒检测方法,其特征在于,在步骤三中,通过D-S证据理论对步骤二中的检测结果进行整合,整合过程如下:步骤Ⅰ:计算归一化因子:
其中N表示待测文件为正常文件,表示待测文件为病毒文件,Mt(N)和为每个基分类器的基本概率函数,每个基分类器的基本概率函数为对应的权重值at或者1-at;
步骤Ⅱ:计算待测文件为病毒文件的信任度:
其中,mt为第t个基分类器对命题的概率分配,mt的值等于at或1-at,具体取哪一个值与对应的基分类器对本次待测文件的判定结果有关;
步骤Ⅲ:将获取的信任度与预先设定的阈值进行比较,当信任度高于阈值时,判断待测文件为病毒文件,否则为正常文件。
5.根据权利要求4所述的一种基于Linux病毒检测方法,其特征在于,所述阈值可调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810299005.7A CN108537041B (zh) | 2018-04-04 | 2018-04-04 | 一种Linux病毒检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810299005.7A CN108537041B (zh) | 2018-04-04 | 2018-04-04 | 一种Linux病毒检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108537041A true CN108537041A (zh) | 2018-09-14 |
CN108537041B CN108537041B (zh) | 2021-07-13 |
Family
ID=63481878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810299005.7A Active CN108537041B (zh) | 2018-04-04 | 2018-04-04 | 一种Linux病毒检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108537041B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101060443A (zh) * | 2006-04-17 | 2007-10-24 | 中国科学院自动化研究所 | 基于改进的自适应提升算法的互联网入侵检测方法 |
US20080083034A1 (en) * | 2006-09-29 | 2008-04-03 | Dae Won Kim | Attack classification method for computer network security |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN105160249A (zh) * | 2015-07-02 | 2015-12-16 | 哈尔滨工程大学 | 一种基于改进的神经网络集成的病毒检测方法 |
CN105574547A (zh) * | 2015-12-22 | 2016-05-11 | 北京奇虎科技有限公司 | 适应动态调整基分类器权重的集成学习方法及装置 |
CN105809125A (zh) * | 2016-03-06 | 2016-07-27 | 北京工业大学 | 基于多核心arm平台的人脸识别系统 |
CN106096413A (zh) * | 2016-06-21 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于多特征融合的恶意代码检测方法及系统 |
-
2018
- 2018-04-04 CN CN201810299005.7A patent/CN108537041B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101060443A (zh) * | 2006-04-17 | 2007-10-24 | 中国科学院自动化研究所 | 基于改进的自适应提升算法的互联网入侵检测方法 |
US20080083034A1 (en) * | 2006-09-29 | 2008-04-03 | Dae Won Kim | Attack classification method for computer network security |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
CN104573013A (zh) * | 2015-01-09 | 2015-04-29 | 上海大学 | 结合类别权重的集成学习分类方法 |
CN105160249A (zh) * | 2015-07-02 | 2015-12-16 | 哈尔滨工程大学 | 一种基于改进的神经网络集成的病毒检测方法 |
CN105574547A (zh) * | 2015-12-22 | 2016-05-11 | 北京奇虎科技有限公司 | 适应动态调整基分类器权重的集成学习方法及装置 |
CN105809125A (zh) * | 2016-03-06 | 2016-07-27 | 北京工业大学 | 基于多核心arm平台的人脸识别系统 |
CN106096413A (zh) * | 2016-06-21 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于多特征融合的恶意代码检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
吴子敬等: ""基于反过滤规则集和自动爬虫的XSS漏洞深度挖掘技术"", 《北京理工大学学报》 * |
张宏达等: ""分类器集成差异性研究"", 《系统工程与电子技术》 * |
张贞贞: ""Adaboost算法的改进及应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108537041B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194433B (zh) | 一种基于深度自编码网络的雷达一维距离像目标识别方法 | |
WO2018219016A1 (zh) | 一种人脸检测训练方法、装置及电子设备 | |
US8676740B2 (en) | Attribute estimation system, age estimation system, gender estimation system, age and gender estimation system and attribute estimation method | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN110866287B (zh) | 一种基于权重谱生成对抗样本的点攻击方法 | |
CN103136504B (zh) | 人脸识别方法及装置 | |
CN105205501B (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
CN104680542B (zh) | 基于在线学习的遥感影像变化检测方法 | |
CN106355188A (zh) | 图像检测方法及装置 | |
CN106446890B (zh) | 一种基于窗口打分和超像素分割的候选区域提取方法 | |
US20050286772A1 (en) | Multiple classifier system with voting arbitration | |
CN108647736A (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
CN105095494B (zh) | 一种对分类数据集进行测试的方法 | |
CN111539451B (zh) | 样本数据优化方法、装置、设备及存储介质 | |
CN106250913B (zh) | 一种基于局部典型相关分析的分类器集成车牌识别方法 | |
CN113191359B (zh) | 基于支持与查询样本的小样本目标检测方法与系统 | |
CN102129565A (zh) | 基于冗余特征消减AdaBoost分类器的物体检测方法 | |
CN106951822A (zh) | 一种基于多尺度稀疏保持投影一维距离像融合识别方法 | |
CN110163274A (zh) | 一种基于鬼成像和线性判别分析的物体分类方法 | |
US20200394460A1 (en) | Image analysis device, image analysis method, and image analysis program | |
CN108537041A (zh) | 一种Linux病毒检测方法 | |
CN108268458A (zh) | 一种基于knn算法的半结构化数据分类方法及装置 | |
Graff et al. | Modeling the swift bat trigger algorithm with machine learning | |
Malik et al. | Performance Evaluation of Classification Algorithms for Intrusion Detection on NSL-KDD Using Rapid Miner | |
RU2692420C2 (ru) | Способ идентификации и классификации объектов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |