CN103106367A - 一种抗攻击的恶意软件识别方法及系统 - Google Patents
一种抗攻击的恶意软件识别方法及系统 Download PDFInfo
- Publication number
- CN103106367A CN103106367A CN2013100480837A CN201310048083A CN103106367A CN 103106367 A CN103106367 A CN 103106367A CN 2013100480837 A CN2013100480837 A CN 2013100480837A CN 201310048083 A CN201310048083 A CN 201310048083A CN 103106367 A CN103106367 A CN 103106367A
- Authority
- CN
- China
- Prior art keywords
- software
- recognizer
- vector
- attack
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stored Programmes (AREA)
Abstract
本发明公开了一种抗攻击的恶意软件识别方法及系统,针对现有技术中传统的识别系统容易受到恶意攻击影响的缺陷而发明,本方法包括,设置识别器参数,将软件转化为向量,利用所述识别器识别该软件,输出识别结果,本发明方法和系统能够实现抵抗伪装攻击的恶意软件智能识别,且达到识别性能更加稳定的技术效果。
Description
技术领域
本发明涉及计算机通信技术领域,尤其涉及一种抗攻击的恶意软件识别方法及系统。
背景技术
恶意软件是被插入恶意代码的计算机程序。计算机恶意软件在用户毫不知情的情况下用来破坏计算机系统,销毁重要信息,导致系统无法使用,也可能被用来收集隐私信息,比密码,信用卡账户等,更有甚者用来发布色情等不良信息。随着越来越多的用户通过复杂的计算机快速的连接到互联网,未来这些恶意软件的广泛传播危害巨大。
已经有很多优秀的技术用来检测已有的恶意程序,防病毒软件已经应用得相当成熟,像McAfee,Norton等杀毒软件已经被普遍使用。Dell公司甚至在它所有的计算机系统中都推荐使用Norton杀毒软件。杀毒软件通常是通过已知的模式来检测可执行文件的代码,但是这种方法是有问题的。其中一个很大的缺点就是在检测恶意软件之前,必须有这个恶意软件的样本。也就是说传统的恶意软件识别系统无法识别未知的恶意软件。为了识别未知恶意软件,人们提出了基于统计方法的恶意软件识别方法,但此类方法与系统极易受到恶意攻击,从而无法正常使用。
发明内容
本发明要解决的技术问题是提供一种抗攻击的恶意软件识别方法及系统。
为了解决上述技术问题,本发明提供了抗攻击的恶意软件识别方法,包括,
设置识别器参数,
将软件转化为向量,
利用所述识别器识别该软件,
输出识别结果。
进一步地,所述识别器参数设置具体包括:
所述识别器计算有限攻击成本条件,所述识别器基于二次支持向量算法训练。
进一步地,所述攻击成本为
L(x,x+)=(x+-x)TQ(x+-x)≤γ2
其中,矩阵Q是一个对角矩阵,Qii=qi,γ是所述识别器的参数,x为原程序表示的向量,x+为攻击者用于伪装所述x的向量。
进一步地,所述qi定义为
其中,p(fi|Ds)表示第i个片段出现在恶意软件数据库中的概率,p(fi|Dl)表示第i个片段出现在正常软件数据库中的概率。
进一步地,所述二次支持向量算法为
ys+j(wTxs+j+b)≥1-ξj,j=1,...l
εi≥0,ξj≥0,i=1,...,s,j=1,...l
||w||≤C
其中,s表示训练集合中恶意软件的数目,l表示训练集合中正常软件的数目,ξ、ε、w和b为待求变量,xi为训练集合中第i个程序表示的向量,yi=1表示第i个程序为恶意程序,否则yi=-1;γ和C是常数参数。
本发明提供了抗攻击的恶意软件识别系统,包括:
设置模块,用于设置识别器参数,
转化模块,用于将软件转化为向量,
识别模块,用于利用所述识别器识别该软件,
输出模块,用于输出识别结果。
进一步地,所述设置模块具体包括,
条件计算模块,用于计算有限攻击成本条件,
训练模块,用于计算二次支持向量算法,获得待求变量。
由上可知,本发明方法和系统能够实现抵抗伪装攻击的恶意软件智能识别,且达到识别性能更加稳定的技术效果。
附图说明
图1是本发明一较佳实施例的方法流程图,
图2是本发明另一较佳实施例的方法流程图,
图3是本发明一较佳实施例的结构图,
图4是本发明另一较佳实施例的结构图。
具体实施方式
为使本发明的目的、技术方案、及优点更加清楚明白,下面结合附图对本发明涉及的一种服务功能授权的方法及系统的具体实施实例进行进一步详细描述。
参阅图1,本发明一较佳实施例的方法流程图,
步骤S101,设置识别器参数,
步骤S102,将软件转化为向量,
步骤S103,利用所述识别器识别该软件,
步骤S104,输出识别结果。
本发明首先用N-grams表示法将每个二进制软件程序转化为一个向量表示,然后进行智能识别。在应用于识别未知软件之前,需要对识别器进行训练,训练过程就是利用已有的软件向量数据,包括正常软件与恶意软件数据,计算识别器参数的过程。识别器训练结束后,对于未知软件,即可使用N-grams表示法表示后利用识别器进行识别,判别它是否属于恶意软件。
使用十六进制将每一个可执行文件转换成十六进制的ASCII码格式,然后按顺序,将每N字节组成一个N-grams片段。举个例子,当N=4的时候,字节串ff00ab3e12b3,相应的4-grams就是ff00,f00a,00ab,0ab3,ab3e,b3e1,3e12,e12b,12b3。使用来自所有可执行文件的N-grams,就可以将一个二进制可执行程序转变为一个包含16进制字符的文档。
在本发明中,还需要将一个程序文档表示为一个向量x=[f1,...,fd]。对于用N-gram表示的文档,共有16N种可能出现的片段。统计每一个片段在被表示文档中出现的次数,即可用向量x=[f1,...,fd],(d=16N)表示该二进制程序,其中fi表示第i种片段在被表示程序文档中出现的次数。
参阅图2,本发明另一较佳实施例的方法流程图,步骤S101具体包括,
步骤S201,识别器计算有限攻击成本条件,
步骤S202,识别器基于二次支持向量算法进行训练,获得待求变量。
攻击者可以在不改变程序功能的情况下,通过在程序中增加或减少代码的方式来伪装恶意程序,以便通过智能识别程序的检查。将这种类型的攻击看作是攻击者将原来的程序向量x策略性的改变为。攻击成本函数L可以表示为改变程序代码时增加的成本。考虑到为了不影响恶意程序对攻击者的价值,攻击者可以承受的伪装成本是有限的,因此可以的到下面的有限攻击成本条件:
L(x,x+)=(x+-x)TQ(x+-x)≤γ2 (1)
其中矩阵Q是一个对角矩阵,满足Qii=qi。方程中的变量γ是识别器的参数,一般可以手动设置,而变量了qi表示改变第i个特征造成的损失的权重系数,可以通过贝叶斯Bayes方法进行计算。变量qi表示特定片段对于攻击者的价值。一般来说,在恶意程序中越常出现的片段,对于攻击者的价值就越大。而在正常程序中经常出现的片段则对攻击者没有太多价值。根据这一特点,通过下面的Bayes方法来估计权向量的值
p(fi|Ds)表示第i个片段出现在用N-grams表示恶意程序的库中的概率,p(fi|Dl)表示第i个片段出现在用N-grams表示正常程序的库中的概率。
本发明给出的方法基于二次支持向量机算法,对应于给定的程序向量X,支持向量机使用下面的线性判别函数进行识别
f(x)=wTx+b (3)
当f(x)小于等于零则判决为正常程序,否则判决为恶意邮件。而参数w,b的计算可以通过一个优化问题的学习过程来计算。
给定攻击成本的临界值γ,等式1可以表示垃圾邮件数据x的不可信区域:
Dx={x+|L(x,x+)≤γ2} (4)
攻击者可以通过修改代码来将恶意软件数据X改变为Dx中的任意点x+。为了抵挡这种攻击,可以将所有不可信区域内的向量都判决为恶意软件。这种策略在形式上可以表示为:
注意不可信区域里的每一个点都可以由一个约束函数来表示。上述推导将产生无穷多个约束条件,因此无法引入到可计算的优化问题中。为了减少约束条件的数量,可以将式子5等价表示为:
对于任意向量、w,只要其满足方程6,那么方程5也满足。接下来可以将方程6引入支持向量机优化问题,得到抗攻击支持向量机的训练算法如下:
ys+j(wTxs+j+b)≥1-ξj,j=1,...l
εi≥0,ξj≥0,i=1,...,s,j=1,...l
||w||≤C (7)
其中,w,b,ξ,ε为未知变量,可以通过上面的优化问题求解,s表示恶意程序的数目,l表示正常程序的数目,C和γ是需要手动设置的参数。该优化问题是一个标准的锥规划问题,可以使用普通的凸优化算法,如内积法计算。
经过训练以后,可以得到识别器的参数w,b。基于该训练结果,可以很容易的实现未知邮件的识别。对于一个未知程序,可以使用N-grams法将其表示为向量x。然后使用下面的线性判别函数进行识别
f(x)=wTx+b
当f(x)小于等于零则判决为正常程序,否则判决为恶意程序。
参阅图3,本发明一较佳实施例的结构图,
本识别系统包括设置模块、转化模块、识别模块和输出模块,设置模块,用于设置识别器参数;转化模块,用于将软件转化为向量;识别模块,用于利用所述识别器识别该软件;输出模块,用于输出识别结果。
参阅图4,本发明另一较佳实施例的结构图,设置模块具体包括,条件计算模块,用于计算有限攻击成本条件,训练模块,用于应用二次支持向量算法。
以上具体实施方式仅用于说明本发明,而非用于限定本发明。
Claims (7)
1.一种抗攻击的恶意软件识别方法,其特征在于,包括:
设置识别器参数,
将软件转化为向量,
利用所述识别器识别该软件,
输出识别结果。
2.根据权利要求1所述的方法,其特征在于,所述识别器参数设置具体包括:
所述识别器计算有限攻击成本条件,
所述识别器基于二次支持向量算法训练。
3.根据权利要求2所述的方法,其特征在于,所述攻击成本为
L(x,x+)=(x+-x)TQ(x+-x)≤γ2
其中,矩阵Q是一个对角矩阵,Qii=qi,γ是所述识别器的参数,x为原程序表示的向量,x+为攻击者用于伪装所述x的向量。
4.根据权利要求3所述的方法,其特征在于,所述qi定义为
其中,p(fi|Ds)表示第i个片段出现在恶意软件数据库中的概率,p(fi|Dl)表示第i个片段出现在正常软件数据库中的概率。
5.根据权利要求4所述的方法,其特征在于,所述二次支持向量算法为
ys+j(wTxs+j+b)≥1-ξj,j=1,...l
εi≥0,ξj≥0,i=1,...,s,j=1,...l
||w||≤C
其中,s表示训练集合中恶意软件的数目,l表示训练集合中正常软件的数目,ξ、ε、w和b为待求变量,xi为训练集合中第i个程序表示的向量,yi=1表示第i个程序为恶意程序,否则yi=-1;γ和C是常数参数。
6.一种抗攻击的恶意软件识别系统,其特征在于,包括:
设置模块,用于设置识别器参数,
转化模块,用于将软件转化为向量,
识别模块,用于利用所述识别器识别该软件,
输出模块,用于输出识别结果。
7.根据权利要求6所述的系统,其特征在于,所述设置模块具体包括,
条件计算模块,用于计算有限攻击成本条件,
训练模块,用于应用二次支持向量算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100480837A CN103106367A (zh) | 2013-02-06 | 2013-02-06 | 一种抗攻击的恶意软件识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100480837A CN103106367A (zh) | 2013-02-06 | 2013-02-06 | 一种抗攻击的恶意软件识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103106367A true CN103106367A (zh) | 2013-05-15 |
Family
ID=48314218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100480837A Pending CN103106367A (zh) | 2013-02-06 | 2013-02-06 | 一种抗攻击的恶意软件识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106367A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570401A (zh) * | 2016-12-27 | 2017-04-19 | 哈尔滨安天科技股份有限公司 | 一种基于时间变化的恶意代码检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254992A1 (en) * | 2001-07-30 | 2009-10-08 | Schultz Matthew G | Systems and methods for detection of new malicious executables |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
-
2013
- 2013-02-06 CN CN2013100480837A patent/CN103106367A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254992A1 (en) * | 2001-07-30 | 2009-10-08 | Schultz Matthew G | Systems and methods for detection of new malicious executables |
CN102346829A (zh) * | 2011-09-22 | 2012-02-08 | 重庆大学 | 基于集成分类的病毒检测方法 |
Non-Patent Citations (1)
Title |
---|
XI-CHUAN ZHOU ET AL: "Large margin classification for combating disguise attacks on spam filters", 《JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE C (COMPUTERS & ELECTRONICS)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570401A (zh) * | 2016-12-27 | 2017-04-19 | 哈尔滨安天科技股份有限公司 | 一种基于时间变化的恶意代码检测方法及系统 |
CN106570401B (zh) * | 2016-12-27 | 2019-07-26 | 哈尔滨安天科技股份有限公司 | 一种基于时间变化的恶意代码检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Norouzi et al. | A data mining classification approach for behavioral malware detection | |
CN110941716B (zh) | 一种基于深度学习的信息安全知识图谱的自动构建方法 | |
CN107786369B (zh) | 基于irt层次分析和lstm的电力通信网络安全态势感知和预测方法 | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN109450845B (zh) | 一种基于深度神经网络的算法生成恶意域名检测方法 | |
RU2708356C1 (ru) | Система и способ двухэтапной классификации файлов | |
CN104809069A (zh) | 一种基于集成神经网络的源代码漏洞检测方法 | |
CN105046152B (zh) | 基于函数调用图指纹的恶意软件检测方法 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
KR101858620B1 (ko) | 기계 학습을 이용한 자바스크립트 분석 장치 및 방법 | |
CN112288025B (zh) | 基于树结构的异常案件识别方法、装置、设备及存储介质 | |
CN111062036A (zh) | 恶意软件识别模型构建、识别方法及介质和设备 | |
CN110321430B (zh) | 域名识别和域名识别模型生成方法、装置及存储介质 | |
CN111680480A (zh) | 基于模板的作业批改方法、装置、计算机设备及存储介质 | |
Bakhshinejad et al. | Parallel‐CNN network for malware detection | |
CN112686301A (zh) | 基于交叉验证的数据标注方法及相关设备 | |
CN113807728A (zh) | 基于神经网络的绩效考核方法、装置、设备及存储介质 | |
CN107045439A (zh) | 基于安全需求模板的软件安全需求获取系统及方法 | |
Feng et al. | Hrs: A hybrid framework for malware detection | |
CN110008980B (zh) | 识别模型生成方法、识别方法、装置、设备及存储介质 | |
CN103106367A (zh) | 一种抗攻击的恶意软件识别方法及系统 | |
CN102984176B (zh) | 一种垃圾邮件的识别方法及系统 | |
CN108133229A (zh) | 一种安卓apk文件的分类加密方法及系统 | |
Šuster et al. | Analysis of predictive performance and reliability of classifiers for quality assessment of medical evidence revealed important variation by medical area | |
CN115099875A (zh) | 基于决策树模型的数据分类方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130515 |