CN103106367A

CN103106367A - 一种抗攻击的恶意软件识别方法及系统

Info

Publication number: CN103106367A
Application number: CN2013100480837A
Authority: CN
Inventors: 周喜川; 吴玉成; 严超; 胡盛东
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2013-02-06
Filing date: 2013-02-06
Publication date: 2013-05-15

Abstract

本发明公开了一种抗攻击的恶意软件识别方法及系统，针对现有技术中传统的识别系统容易受到恶意攻击影响的缺陷而发明，本方法包括，设置识别器参数，将软件转化为向量，利用所述识别器识别该软件，输出识别结果，本发明方法和系统能够实现抵抗伪装攻击的恶意软件智能识别，且达到识别性能更加稳定的技术效果。

Description

一种抗攻击的恶意软件识别方法及系统

技术领域

本发明涉及计算机通信技术领域，尤其涉及一种抗攻击的恶意软件识别方法及系统。

背景技术

恶意软件是被插入恶意代码的计算机程序。计算机恶意软件在用户毫不知情的情况下用来破坏计算机系统，销毁重要信息，导致系统无法使用，也可能被用来收集隐私信息，比密码，信用卡账户等，更有甚者用来发布色情等不良信息。随着越来越多的用户通过复杂的计算机快速的连接到互联网，未来这些恶意软件的广泛传播危害巨大。

已经有很多优秀的技术用来检测已有的恶意程序，防病毒软件已经应用得相当成熟，像McAfee，Norton等杀毒软件已经被普遍使用。Dell公司甚至在它所有的计算机系统中都推荐使用Norton杀毒软件。杀毒软件通常是通过已知的模式来检测可执行文件的代码，但是这种方法是有问题的。其中一个很大的缺点就是在检测恶意软件之前，必须有这个恶意软件的样本。也就是说传统的恶意软件识别系统无法识别未知的恶意软件。为了识别未知恶意软件，人们提出了基于统计方法的恶意软件识别方法，但此类方法与系统极易受到恶意攻击，从而无法正常使用。

发明内容

本发明要解决的技术问题是提供一种抗攻击的恶意软件识别方法及系统。

为了解决上述技术问题，本发明提供了抗攻击的恶意软件识别方法，包括，

设置识别器参数，

将软件转化为向量，

利用所述识别器识别该软件，

输出识别结果。

进一步地，所述识别器参数设置具体包括：

所述识别器计算有限攻击成本条件，所述识别器基于二次支持向量算法训练。

进一步地，所述攻击成本为

L(x,x⁺)=(x⁺-x)^TQ(x⁺-x)≤γ²

其中，矩阵Q是一个对角矩阵，Q_ii=q_i，γ是所述识别器的参数，x为原程序表示的向量，x⁺为攻击者用于伪装所述x的向量。

进一步地，所述q_i定义为

q_{i} = \frac{p (f_{i} | D_{s})}{p (f_{i} | D_{s}) + p (f_{i} | D_{l})}

其中，p(f_i|D_s)表示第i个片段出现在恶意软件数据库中的概率，p(f_i|D_l)表示第i个片段出现在正常软件数据库中的概率。

进一步地，所述二次支持向量算法为

\min_{w, b, ξ, ϵ} Σ_{i = 1}^{s} ϵ_{i} + Σ_{j = 1}^{l} ξ_{j}

s . t . y_{i} (w^{T} x_{i} + b) &GreaterEqual; 1 - ϵ_{i} + γ | | Q^{- \frac{1}{2}} w | |, i = 1, . . ., s

y_s+j(w^Tx_s+j+b)≥1-ξ_j,j=1,...l

ε_i≥0,ξ_j≥0,i=1,...,s,j=1,...l

||w||≤C

其中，s表示训练集合中恶意软件的数目，l表示训练集合中正常软件的数目，ξ、ε、w和b为待求变量，x_i为训练集合中第i个程序表示的向量，y_i=1表示第i个程序为恶意程序，否则y_i=-1；γ和C是常数参数。

本发明提供了抗攻击的恶意软件识别系统，包括：

设置模块，用于设置识别器参数，

转化模块，用于将软件转化为向量，

识别模块，用于利用所述识别器识别该软件，

输出模块，用于输出识别结果。

进一步地，所述设置模块具体包括，

条件计算模块，用于计算有限攻击成本条件，

训练模块，用于计算二次支持向量算法，获得待求变量。

由上可知，本发明方法和系统能够实现抵抗伪装攻击的恶意软件智能识别，且达到识别性能更加稳定的技术效果。

附图说明

图1是本发明一较佳实施例的方法流程图，

图2是本发明另一较佳实施例的方法流程图，

图3是本发明一较佳实施例的结构图，

图4是本发明另一较佳实施例的结构图。

具体实施方式

为使本发明的目的、技术方案、及优点更加清楚明白，下面结合附图对本发明涉及的一种服务功能授权的方法及系统的具体实施实例进行进一步详细描述。

参阅图1，本发明一较佳实施例的方法流程图，

步骤S101，设置识别器参数，

步骤S102，将软件转化为向量，

步骤S103，利用所述识别器识别该软件，

步骤S104，输出识别结果。

本发明首先用N-grams表示法将每个二进制软件程序转化为一个向量表示，然后进行智能识别。在应用于识别未知软件之前，需要对识别器进行训练，训练过程就是利用已有的软件向量数据，包括正常软件与恶意软件数据，计算识别器参数的过程。识别器训练结束后，对于未知软件，即可使用N-grams表示法表示后利用识别器进行识别，判别它是否属于恶意软件。

使用十六进制将每一个可执行文件转换成十六进制的ASCII码格式，然后按顺序，将每N字节组成一个N-grams片段。举个例子，当N=4的时候，字节串ff00ab3e12b3，相应的4-grams就是ff00,f00a,00ab,0ab3,ab3e,b3e1,3e12,e12b,12b3。使用来自所有可执行文件的N-grams，就可以将一个二进制可执行程序转变为一个包含16进制字符的文档。

在本发明中，还需要将一个程序文档表示为一个向量x=[f₁,...,f_d]。对于用N-gram表示的文档，共有16^N种可能出现的片段。统计每一个片段在被表示文档中出现的次数，即可用向量x=[f₁,...,f_d],(d=16^N)表示该二进制程序，其中f_i表示第i种片段在被表示程序文档中出现的次数。

参阅图2，本发明另一较佳实施例的方法流程图，步骤S101具体包括，

步骤S201，识别器计算有限攻击成本条件，

步骤S202，识别器基于二次支持向量算法进行训练，获得待求变量。

攻击者可以在不改变程序功能的情况下，通过在程序中增加或减少代码的方式来伪装恶意程序，以便通过智能识别程序的检查。将这种类型的攻击看作是攻击者将原来的程序向量x策略性的改变为。攻击成本函数L可以表示为改变程序代码时增加的成本。考虑到为了不影响恶意程序对攻击者的价值，攻击者可以承受的伪装成本是有限的，因此可以的到下面的有限攻击成本条件：

L(x,x⁺)=(x⁺-x)^TQ(x⁺-x)≤γ² (1)

其中矩阵Q是一个对角矩阵，满足Q_ii=q_i。方程中的变量γ是识别器的参数，一般可以手动设置，而变量了q_i表示改变第i个特征造成的损失的权重系数，可以通过贝叶斯Bayes方法进行计算。变量q_i表示特定片段对于攻击者的价值。一般来说，在恶意程序中越常出现的片段，对于攻击者的价值就越大。而在正常程序中经常出现的片段则对攻击者没有太多价值。根据这一特点，通过下面的Bayes方法来估计权向量的值

q_{i} = \frac{p (f_{i} | D_{s})}{p (f_{i} | D_{s}) + p (f_{i} | D_{l})} - - - (2)

p(f_i|D_s)表示第i个片段出现在用N-grams表示恶意程序的库中的概率，p(f_i|D_l)表示第i个片段出现在用N-grams表示正常程序的库中的概率。

本发明给出的方法基于二次支持向量机算法，对应于给定的程序向量X，支持向量机使用下面的线性判别函数进行识别

f(x)=w^Tx+b (3)

当f(x)小于等于零则判决为正常程序，否则判决为恶意邮件。而参数w，b的计算可以通过一个优化问题的学习过程来计算。

给定攻击成本的临界值γ，等式1可以表示垃圾邮件数据x的不可信区域：

D_x={x⁺|L(x,x⁺)≤γ²} (4)

攻击者可以通过修改代码来将恶意软件数据X改变为D_x中的任意点x⁺。为了抵挡这种攻击，可以将所有不可信区域内的向量都判决为恶意软件。这种策略在形式上可以表示为：

&ForAll; x^{+} &Element; C_{x} &RightArrow; y_{i} (w^{T} x^{+} + b) &GreaterEqual; 1 - - - (5)

注意不可信区域里的每一个点都可以由一个约束函数来表示。上述推导将产生无穷多个约束条件，因此无法引入到可计算的优化问题中。为了减少约束条件的数量，可以将式子5等价表示为：

w^{T} x + b &GreaterEqual; 1 + γ | | Q^{- \frac{1}{2}} w | | - - - (6)

对于任意向量、w，只要其满足方程6，那么方程5也满足。接下来可以将方程6引入支持向量机优化问题，得到抗攻击支持向量机的训练算法如下：

\min_{w, b, ξ, ϵ} Σ_{i = 1}^{s} ϵ_{i} + Σ_{j = 1}^{l} ξ_{j}

s . t . y_{i} (w^{T} x_{i} + b) &GreaterEqual; 1 - ϵ_{i} + γ | | Q^{- \frac{1}{2}} w | |, i = 1, . . ., s

y_s+j(w^Tx_s+j+b)≥1-ξ_j,j=1,...l

ε_i≥0,ξ_j≥0,i=1,...,s,j=1,...l

||w||≤C (7)

其中，w,b,ξ,ε为未知变量，可以通过上面的优化问题求解，s表示恶意程序的数目，l表示正常程序的数目，C和γ是需要手动设置的参数。该优化问题是一个标准的锥规划问题，可以使用普通的凸优化算法，如内积法计算。

经过训练以后，可以得到识别器的参数w,b。基于该训练结果，可以很容易的实现未知邮件的识别。对于一个未知程序，可以使用N-grams法将其表示为向量x。然后使用下面的线性判别函数进行识别

f(x)=w^Tx+b

当f(x)小于等于零则判决为正常程序，否则判决为恶意程序。

参阅图3，本发明一较佳实施例的结构图，

本识别系统包括设置模块、转化模块、识别模块和输出模块，设置模块，用于设置识别器参数；转化模块，用于将软件转化为向量；识别模块，用于利用所述识别器识别该软件；输出模块，用于输出识别结果。

参阅图4，本发明另一较佳实施例的结构图，设置模块具体包括，条件计算模块，用于计算有限攻击成本条件，训练模块，用于应用二次支持向量算法。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

Claims

1.一种抗攻击的恶意软件识别方法，其特征在于，包括：

设置识别器参数，

将软件转化为向量，

利用所述识别器识别该软件，

输出识别结果。

2.根据权利要求1所述的方法，其特征在于，所述识别器参数设置具体包括：

所述识别器计算有限攻击成本条件，

所述识别器基于二次支持向量算法训练。

3.根据权利要求2所述的方法，其特征在于，所述攻击成本为

L(x,x⁺)=(x⁺-x)^TQ(x⁺-x)≤γ²

4.根据权利要求3所述的方法，其特征在于，所述q_i定义为

q_{i} = \frac{p (f_{i} | D_{s})}{p (f_{i} | D_{s}) + p (f_{i} | D_{l})}

5.根据权利要求4所述的方法，其特征在于，所述二次支持向量算法为

\min_{w, b, ξ, ϵ} Σ_{i = 1}^{s} ϵ_{i} + Σ_{j = 1}^{l} ξ_{j}

s . t . y_{i} (w^{T} x_{i} + b) &GreaterEqual; 1 - ϵ_{i} + γ | | Q^{- \frac{1}{2}} w | |, i = 1, . . ., s

y_s+j(w^Tx_s+j+b)≥1-ξ_j,j=1,...l

ε_i≥0,ξ_j≥0,i=1,...,s,j=1,...l

||w||≤C

6.一种抗攻击的恶意软件识别系统，其特征在于，包括：

设置模块，用于设置识别器参数，

转化模块，用于将软件转化为向量，

识别模块，用于利用所述识别器识别该软件，

输出模块，用于输出识别结果。

7.根据权利要求6所述的系统，其特征在于，所述设置模块具体包括，

条件计算模块，用于计算有限攻击成本条件，

训练模块，用于应用二次支持向量算法。