CN101996292B

CN101996292B - 一种基于序列聚类的软件安全特性分析方法

Info

Publication number: CN101996292B
Application number: CN2010105828782A
Authority: CN
Inventors: 胡昌振; 任家东; 王崑声; 蔡斌雷; 吴迪
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2010-12-10
Filing date: 2010-12-10
Publication date: 2012-05-23
Anticipated expiration: 2030-12-10
Also published as: CN101996292A

Abstract

本发明涉及一种基于序列聚类的软件安全特性分析方法，基于软件漏洞逆向分析技术的基础上，收集现有的软件漏洞，预处理软件漏洞，将处理后的软件漏洞程序操作序列存入软件漏洞序列数据库，采用基于序列整体的相似性的聚类算法将软件漏洞序列数据库中软件序列进行分类，存入漏洞知识库，以提高漏洞知识库的质量和软件漏洞的分析效率；将从待测软件中抽取出来的疑似软件漏洞序列进行分析，利用基于编辑距离的相似性度量来衡量序列之间的相似程度，分析出软件漏洞，以提高软件漏洞检测的准确率。

Description

一种基于序列聚类的软件安全特性分析方法

技术领域：

本发明涉及一种软件安全特性分析方法，特别是一种基于序列聚类的软件安全特性分析方法，属于计算机软件安全领域。

背景技术：

随着计算机应用的不断发展，软件已经渗透到国民经济和国防建设的各个领域，软件中存在的任何安全漏洞都严重威胁着生命财产的安全。如何全面、有效、准确的挖掘出软件中的安全漏洞，是解决该问题的根本途径。

近年来，国内外学者对软件安全性问题进行了大量的研究，提出一些挖掘软件漏洞的方法。

Salas提出了一个基于模型的安全漏洞检测框架，因为其它的基于模型的方法忽视了安全漏洞对实施细节是敏感的，Salas通过定义一个三重框架模型自动产生测试用例，用以检测软件中存在的已知的安全漏洞。然而该方法不能对未知类型的潜在安全漏洞进行有效检测。针对软件开发过程中所存在的漏洞，Eichinger通过研究程序执行的调用图和图挖掘算法，提出了一种基于图挖掘和传统特征选择的软件漏洞发掘方法。然而，当图的规模较大时，该方法的效率较低。Johnson等人利用类型限定词方法来检测Linux内核中的用户及内核态指针漏洞，同时扩展了CQUAL的基本特性推理能力用以支持上下文敏感性及更高的结构数据的分析精度。与之类似，Shankar等人利用CQUAL来检测格式化字符串漏洞。但是该类方法存在的最大问题就是缺少对合法性检查的识别机制，同时遗漏了关键的检测点，导致较多的漏报和误报。

Aftersight系统和Memcheck系统是污点追踪和传播技术的典型代表，无需任何程序源代码，在运行时检测当前执行路径中是否存在内存泄露及悬挂指针等漏洞，但是该技术仅能检测出当前执行路径上已经存在的漏洞，不能主动执行并搜索程序中的其他的可执行路径。UQBTng也是一个二进制级别的整数溢出漏洞自动检测的工具，其首先利用逆向编译技术将二进制代码转换为C代码，而后将断点插入在内存分配函数前，再通过CBMC边界模型约束检查器来校验程序属性，并从中挖掘漏洞，但是逆向编译技术本身尚未成熟，进而限制了UQBTng的准确性。IntScope同样是一个二进制级自动挖掘整数溢出漏洞的系统，该系统直接符号化地执行X86代码，同时从中提取和输入相关的约束属性，最后检查和输入数据相关的指令是否可能导致整数溢出漏洞，但是因为其是符号化模拟执行，检测的准确性不高，不能完全准确的模拟真正运行时的环境，致使系统在进行整数溢出检测时的误报率和漏报率较高。

目前，逆向分析技术是软件漏洞分析的一种重要方法，利用已知漏洞信息构建知识库是软件漏洞逆向分析技术的关键步骤，基于所构建的漏洞知识库并结合有效的挖掘算法，定位和分析待测软件中潜在的漏洞。

聚类分析是数据挖掘中的一种重要分析方法，该方法不需要任何先验知识，自动挖掘数据中的隐藏模式，其基本思想就是将数据之间的相似性看成客体之间“距离”远近的一种度量，将距离较近的客体归为一类，这就使得同一类中的客体的相似性很大，不同类中的客体相似性很小。聚类分析的应用十分广泛，比较典型的应用有：在地理信息系统中通过聚类发现特征空间来建立主题索引；空间数据分析，检测并解释空间中的簇；文档分类；通过分析Web日志数据来发现相似的访问模式；电子商务中市场分片和为用户提供个性化服务等。与传统聚类方法不同，序列聚类是针对序列类型数据的一种聚类分析方法，使具有相同或相似功能的序列归为一类，不同类中的序列功能差异性很大。通过对序列数据进行聚类分析，可以挖掘数据中潜在的知识和结构，如对交易序列进行聚类可以对客户群进行划分，制定有针对性的市场广告。

发明内容：

本发明目的在于提供一种基于聚类技术的软件安全特性分析方法，针对高质量的软件漏洞序列集收集困难，影响漏洞知识库质量，以及不合适的相似性度量影响漏洞检测准确率的问题，利用序列聚类技术对软件漏洞序列集进行分析，挖掘软件漏洞模式，以提高漏洞知识库的质量；设计基于编辑距离的相似性度量，以提高漏洞检测准确率。

为了解决上述问题，本发明提出了一种基于聚类技术的软件安全特性分析方法，技术方案如下：

步骤一：收集现有的软件漏洞：对已有软件漏洞检测工具检测到的漏洞进行采集，如栈溢出、堆溢出、整数溢出等。

步骤二：预处理收集的软件漏洞，创建软件漏洞序列数据库：预处理步骤一所收集的漏洞数据，去掉注释、空行、不必要的函数块等冗余信息，并抽象为序列形式录入软件漏洞序列数据库。

软件漏洞序列数据库：包含所收集的软件漏洞产生时的序列，软件漏洞序列数据库是一个三元组<SID，S，VD>的集合，其中SID是软件漏洞序列的标识号，S是软件漏洞序列，VD是软件漏洞序列的漏洞描述，描述漏洞类型以及产生的原因。

步骤三：基于序列聚类技术挖掘软件漏洞模式：利用序列聚类技术对软件漏洞序列数据库进行自动分类，将具有相同或相似特征的漏洞序列分配到同一个簇中，形成一个个软件漏洞模式。

软件漏洞模式：对软件漏洞序列数据库中的漏洞序列进行聚类分析以后，形成一个个的聚类簇，每一个聚类簇代表一个漏洞模式P，并用一个四元组<PID，SET，SC，CNT>表示，其中PID表示聚类簇的标识号，SET表示该漏洞模式中漏洞序列的集合，SC表示漏洞模式的中心序列，CNT表示该漏洞模式中漏洞序列的总条数。

基于序列聚类分析的软件漏洞模式挖掘算法是将步骤二得到的软件漏洞序列数据库采用序列聚类技术进行挖掘，得到软件漏洞模式的具体步骤如下：

①任选K个软件漏洞序列作为初始K个软件漏洞模式中的软件漏洞序列的中心序列；

②根据软件漏洞模式中的软件漏洞序列的中心序列，计算软件漏洞序列数据库中其他软件漏洞序列与K个中心序列的距离，将每个软件漏洞序列分配到与其距离最小的中心序列所对应的软件漏洞模式中；

计算软件漏洞序列与中心序列距离的方法为：利用编辑距离ED作为计算软件漏洞序列之间的距离的函数，编辑距离的基本思想就是以替换、插入和删除三种基本操作来确定两个序列之间的相似程度。两个序列S₁和S₂的编辑距离就是用替换、插入和删除将S₁转化为S₂的最小代价。计算编辑距离的第一步是用递归方程把距离定义为代价函数，每一种基本操作的代价都是1，假设sup(a_i)，ins(a_i)和subs(a_i，b_j)分别代表删除a_i，插入a_i和用b_j代替a_i的相应的代价，则在代价为1的情况下，代价方程为，

sup(a_i)＝1，ins(a_i)＝1，

代价方程F(i，j)(i＝1，2，…；j＝1，2，…)代表了将序列A[a₁，a₂，…，a_i]转变为B[b₁，b₂，…，b_j]所需的代价，F(i，j)可递归的表示为

利用上述代价方程，通过自底向上的求解，即可求得两个序列间的编辑距离ED(A，B)＝F(i，j)。

③运用软件漏洞模式的中心序列的更新算法，重新获取每个软件漏洞模式中的中心序列；

软件漏洞模式的中心序列更新算法为：对软件漏洞模式P_i，我们计算P_i中所有软件漏洞序列之间的标识距离LD(S_i，S_j)，选取与其它软件漏洞序列的标识距离之和最小的序列作为P_i的中心序列，即对于P_i，如果序列S(S∈P_i)，使得

(其中，S′是P_i中的任意序列，且S′≠S)，则S就为软件漏洞模式P_i的中心序列。

其中，标识距离LD(S_i，S_j)定义为：采用E＝{L₁，L₂，…，L_k，…}作为字符集，大小为|E|。S表示一个序列，S由E中的字符组成，其长度为|S|。令V(S)为一个具有|E|维的向量，该向量的每一维与E中的字符是一一对应的，每一维的值是该维所对应的字符在序列S中出现的次数，用V(S)[x]表示字符x在S中出现的次数。两个序列之间的标识距离通过公式(3)计算，

LD (S_{i}, S_{j}) = \max (\underset{x &Element; E}{Σ} I_{x}^{i} (V (S_{i}) [x] - V (S_{j} [x]), \underset{x &Element; E}{Σ} I_{x}^{j} (V (S_{j}) [x] - V (S_{i} [x])) - - - (3)

其中，如果V(S_i)[x]-V(S_j[x]＞0，则

否则如果V(S_j)[x]-V(S_i[x]＞0，则

否则

④重复上述的步骤②～③)，直到聚类的结果不再变化，获得最终的K个软件漏洞模式。

⑤将k个软件漏洞模式存入漏洞知识库。

步骤四：构建软件漏洞知识库：分析步骤三挖掘出的软件漏洞模式，创建漏洞知识库。

步骤五：从待测软件的源程序中抽取待测软件的疑似漏洞序列：分析待测软件的源程序，抽取疑似漏洞程序段，预处理收集的软件漏洞，得到疑似漏洞序列。

步骤六：将步骤五抽取的软件漏洞结合步骤四创建的漏洞知识库进行漏洞检测：首先，通过计算疑似漏洞序列与漏洞知识库中个漏洞模式的中心序列的距离，搜索与疑似漏洞序列最为相近的漏洞模式，如果没有，则该疑似漏洞序列为安全序列，否则，该疑似漏洞序列为安全漏洞，并在与其最相近的漏洞模式中，通过计算相似度，寻找最相近的漏洞序列，并将最相近的序列的漏洞信息作为安全报告输出。

漏洞检测方法是将步骤五提取的待测软件的疑似漏洞序列进行检测和分析，具体步骤如下：

①设判定待测软件的疑似漏洞序列是否为漏洞序列的距离阈值为θ，θ＞0；

②计算待测软件的疑似漏洞序列与K个软件漏洞模式的中心序列的距离，搜索漏洞知识库中与疑似漏洞序列最为相近的漏洞模式。为了降低算法的计算复杂度，利用标识距离进行初始过滤。首先分别计算疑似漏洞序列与K个软件漏洞模式的中心序列的标识距离，获取与疑似漏洞序列有最小标识距离的中心序列，如果疑似漏洞序列与该中心序列的标识距离的大于θ，则疑似漏洞序列为安全序列，否则计算疑似漏洞序列与该中心序列的编辑距离，如果编辑距离大于θ，则该疑似漏洞序列为安全序列，否则，该序列为漏洞序列，且与该中心序列属于同一漏洞模式；

其中，为了降低算法的计算复杂度，利用标识距离进行初始过滤：两条长度分别为m和n的序列，它们之间标识距离计算的时间开销为O(m+n)，而编辑距离计算的时间开销为O(m*n)，可见，计算标识距离比计算编辑距离时间开销小的多，且标识距离是编辑距离的下界，可由如下定理可知：

定理任意两个序列S₁和S₂，一定满足LD(S₁，S₂)≤ED(S₁，S₂)。

③由上述步骤②确定待测软件的疑似漏洞序列所属的软件漏洞模式后，在漏洞模式中继续搜索与其最相似的漏洞序列，通过计算其与漏洞模式中每一个漏洞序列的相似度，来确定最相似的漏洞序列，进一步分析漏洞产生的原因；

疑似漏洞序列与漏洞模式中每一个漏洞序列的相似度为通过公式(4)计算，

Sim (S_{1}, S_{2}) = 1 - \frac{ED (S_{1}, S_{2})}{| S_{1} | + | S_{2} |} - - - (4)

有益效果：

克服目前高质量的软件漏洞数据集收集困难，通过对软件漏洞数据集进行聚类分析，挖掘出潜在的漏洞模式，并以此为基础构建漏洞知识库，以提高漏洞知识库的质量。在对软件漏洞数据集进行挖掘时，无需任何先验知识，自动对软件漏洞数据集进行分类，降低了对所收集的软件漏洞数据集质量的要求。同时，设计了基于序列整体最大相似性的相似性度量，并以此为基础构建检测算法，结合漏洞知识库，实现了对待测软件的疑似漏洞序列的定位和分析。

附图说明：

图1基于聚类技术的软件安全特性分析方法的流程示意图。

具体实施方式：

下面结合具体实施方式对本发明技术方案详细描述。

1.在收集的软件漏洞序列集中任意选取6个漏洞序列，并对其进行预处理后，用以创建软件漏洞序列数据库，如表1所示。

表1软件漏洞序列数据库SVSD

2.利用序列聚类技术挖掘软件漏洞序列数据库中的漏洞模式，具体操作步骤如下，

①设定K值为2，即将SVSD中的漏洞序列分为两个漏洞模式，任选软件漏洞序列数据库中的两个漏洞序列作为漏洞模式的初始中心序列，这里选S₁为漏洞模式P₁的初始中心序列，S₂为漏洞模式P₂的初始中心序列。

②根据公式(1)和公式(2)计算软件漏洞序列数据库中其他漏洞序列即S₃、S₄、S₅、S₆，与中心序列S₁和S₂之间的编辑距离，将S₃、S₄、S₅、S₆分配到与其编辑距离最小的中心序列所在的漏洞模式。表2展示了漏洞序列S₃与S₁之间的编辑距离的计算过程。

表2.S₃与S₁之间的编辑距离表

F(i，j)

-

B

C

E

D

F

C

B

-

F(0，0)

F(0，1)

F(0，2)

F(0，3)

F(0，4)

F(0，5)

F(0，6)

F(0，7)

F(0，8)

B

F(1，0)

F(1，1)

F(1，2)

F(1，3)

F(1，4)

F(1，5)

F(1，6)

F(1，7)

F(1，8)

C

F(2，0)

F(2，1)

F(2，2)

F(2，3)

F(2，4)

F(2，5)

F(2，6)

F(2，7)

F(2，8)

F

F(3，0)

F(3，1)

F(3，2)

F(3，3)

F(3，4)

F(3，5)

F(3，6)

F(3，7)

F(3，8)

D

F(4，0)

F(4，1)

F(4，2)

F(4，3)

F(4，4)

F(4，5)

F(4，6)

F(4，7)

F(4，8)

F

F(5，0)

F(5，1)

F(5，2)

F(5，3)

F(5，4)

F(5，5)

F(5，6)

F(5，7)

F(5，8)

C

F(6，0)

F(6，1)

F(6，2)

F(6，3)

F(6，4)

F(6，5)

F(6，6)

F(6，7)

F(6，8)

B

F(7，0)

F(7，1)

F(7，2)

F(7，3)

F(7，4)

F(7，5)

F(7，6)

F(7，7)

F(7，8)

F(i，j)	-	B	C	E	D	F	F	C	B
										-	0	1	2	3	4	5	6	7	8
B	1	0	1	2	3	4	5	6	7
										C	2	1	0	1	2	3	4	5	6
F	3	2	1	1	2	2	3	4	5
										D	4	3	2	2	1	2	3	4	5
F	5	4	3	3	2	1	2	3	4
										C	6	5	4	4	3	2	2	2	3
B	7	6	5	5	4	3	3	3	2

计算过程示例如下：

F(0，1)＝F(0，0)+ins(B)＝0+1＝1，F(0，2)＝F(0，1)+ins(C)＝1+1＝2，其它F(0，j)可依次计算。

F(1，0)＝F(0，0)+sup(B)＝0+1＝1，F(2，0)＝F(1，0)+sup(C)＝1+1＝2，其它F(i，0)可依次计算。

F (1,1) = \min \{\begin{matrix} F (0,0) + subs (B, B) \\ F (0,1) + \sup (B) \\ F (1,0) + ins (B) \end{matrix} = \{\begin{matrix} 0 + 0 \\ 1 + 1 = 0 \\ 1 + 1 \end{matrix}

F (1,2) = \min \{\begin{matrix} F (0,1) + subs (B, C) \\ F (0,2) + \sup (B) \\ F (1,1) + ins (C) \end{matrix} = \{\begin{matrix} 1 + 1 \\ 2 + 1 = 1 \\ 0 + 1 \end{matrix}

其它F(i，j)可依次计算。

由表2可得，S₃与S₁之间的编辑距离ED(S₃，S₁)＝F(7，8)＝2。同样的计算过程可得ED(S₄，S₁)＝5，ED(S₅，S₁)＝3，ED(S₆，S₁)＝5，ED(S₃，S₂)＝5，ED(S₄，S₂)＝2，ED(S₅，S₂)＝6，ED(S₆，S₂)＝3。根据S₃、S₄、S₅、S₆与中心序列S₁、S₂的编辑距离，可得S₃和S₅分配到S₁所属的漏洞模式P₁，S₄和S₆分配到S₂所属的漏洞模式P₂。

③更新漏洞模式P₁和P₂的中心序列。由SVSD可得字符集E＝{A，B，C，D，E，F}，所以V(S₁)＝(0，2，2，1，1，2)，V(S₂)＝(1，0，2，1，1，0)，V(S₃)＝(0，2，2，1，0，2)，V(S₄)＝(0，1，2，1，0，0)，V(S₅)＝(1，0，2，1，2，2)，V(S₆)＝(0，1，2，1，1，0)。首先，更新P₁的中心序列，计算P₁中的漏洞序列两两之间的标识距离之和。求解过程如下式(5)、(6)、(7)所示，

\underset{S_{i} &Element; P_{1}}{Σ} LD (S_{i}, S_{1}) = LD (S_{1}, S_{3}) + LD (S_{1}, S_{5}) = 1 + 2 = 3 - - - (5)

详细计算过程如下：

LD (S_{1}, S_{3}) = \max (I_{A}^{1} (V (S_{1}) [A] - V (S_{3}) [A]) + . . . + I_{F}^{1} (V (S_{1}) [F] - V (S_{3}) [F]),

I_{A}^{3} (V (S_{3}) [A] - V (S_{1}) [A]) + . . . + I_{F}^{3} (V (S_{3}) [F] - V (S_{1}) [F]))

= \max (0 * (0 - 0) + 0 * (2 - 2) + 0 * (2 - 2) + 0 * (1 - 1) + 1 * (1 - 0) + 0 * (2 - 2),

0 * (0 - 0) + 0 * (2 - 2) + 0 * (2 - 2) + 0 * (1 - 1) + 0 * (0 - 1) + 0 * (2 - 2))

= \max (1,0)

= 1

同理可得LD(S₁，S₅)＝2，

式(6)～(16)可以同理依次计算。

\underset{S_{i} &Element; P_{1}}{Σ} LD (S_{i}, S_{3}) = LD (S_{3}, S_{1}) + LD (S_{3}, S_{5}) = 1 + 3 = 4 - - - (6)

\underset{S_{i} &Element; P_{1}}{Σ} LD (S_{i}, S_{5}) = LD (S_{5}, S_{1}) + LD (S_{5}, S_{3}) = 2 + 3 = 5 - - - (7)

由式(5)、(6)、(7)可得

最小，所以S₁为漏洞模式P₁的中心序列。

同理，更新漏洞模式P₂的中心序列，可得S₆为P₂的中心序列。

\underset{S_{i} &Element; P_{2}}{Σ} LD (S_{i}, S_{2}) = LD (S_{2}, S_{4}) + LD (S_{2}, S_{6}) = 2 + 1 = 3 - - - (6)

\underset{S_{i} &Element; P_{2}}{Σ} LD (S_{i}, S_{4}) = LD (S_{4}, S_{2}) + LD (S_{4}, S_{6}) = 2 + 1 = 3 - - - (9)

\underset{S_{i} &Element; P_{2}}{Σ} LD (S_{i}, S_{6}) = LD (S_{6}, S_{2}) + LD (S_{6}, S_{4}) = 1 + 1 = 2 - - - (10)

漏洞模式P₁中的序列分别为S₁，S₃和S₅，中心序列为S₁；漏洞模式P₂中的序列分别为S₂，S₄和S₆，中心序列为S₆。

④由于漏洞模式P₂中心序列发生了变化，因此以S₁和S₆为新的中心序列重复步骤②，根据公式(1)和公式(2)计算漏洞序列S₂，S₃，S₄，S₅与S₁和S₆的编辑距离，可得ED(S₂，S₁)＝6，ED(S₃，S₁)＝2，ED(S₄，S₁)＝5，ED(S₅，S₁)＝3，ED(S₂，S₆)＝3，ED(S₃，S₆)＝4，ED(S₄，S₆)＝3，ED(S₅，S₆)＝6。根据S₃、S₄、S₅、S₆与中心序列S₁、S₂的编辑距离，可得S₃和S₅分配到S₁所属的漏洞模式P₁，S₂和S₄分配到S₆所属的漏洞模式P₂。

更新P₁的中心序列，求解过程如下式(11)、(12)、(13)所示，

\underset{S_{i} &Element; P_{1}}{Σ} LD (S_{i}, S_{1}) = LD (S_{1}, S_{3}) + LD (S_{1}, S_{5}) = 1 + 2 = 3 - - - (11)

\underset{S_{i} &Element; P_{1}}{Σ} LD (S_{i}, S_{3}) = LD (S_{3}, S_{1}) + LD (S_{3}, S_{5}) = 1 + 3 = 4 - - - (12)

\underset{S_{i} &Element; P_{1}}{Σ} LD (S_{i}, S_{5}) = LD (S_{5}, S_{1}) + LD (S_{5}, S_{3}) = 2 + 3 = 5 - - - (13)

由式(11)、(12)、(13)可得最小，所以S₁为漏洞模式P₁的中心序列。同理，更新漏洞模式P₂的中心序列，可得S₆为P₂的中心序列。

\underset{S_{i} &Element; P_{2}}{Σ} LD (S_{i}, S_{1}) = LD (S_{2}, S_{4}) + LD (S_{2}, S_{6}) = 2 + 1 = 3 - - - (14)

\underset{S_{i} &Element; P_{2}}{Σ} LD (S_{i}, S_{4}) = LD (S_{4}, S_{2}) + LD (S_{4}, S_{6}) = 2 + 1 = 3 - - - (15)

\underset{S_{i} &Element; P_{2}}{Σ} LD (S_{i}, S_{6}) = LD (S_{6}, S_{2}) + LD (S_{6}, S_{4}) = 1 + 1 = 2 - - - (16)

漏洞模式P₁中的序列分别为S₁，S₃和S₅，中心序列为S₁；漏洞模式P₂中的序列分别为S₂，S₄和S₆，中心序列为S₆，漏洞模式没有变化，漏洞挖掘过程结束。

3.基于步骤2挖掘出的漏洞模式P₁和P₂构建漏洞知识库，如表3所示。

表3.漏洞知识库

4.从待测软件中抽取漏洞疑似漏洞序列，本实施方案选取疑似漏洞序列S＝CFDFBCB作为检测样本。

5.对待测软件的疑似漏洞序列S进行检测，具体操作步骤如下。

①通过比较疑似漏洞序列S与漏洞知识库中漏洞模式的中心序列的距离，搜索与S最为相近的漏洞模式，设距离阈值θ＝4。首先，计算疑似漏洞序列S与漏洞模式P₁和P₂的中心序列的标识距离，LD(S，S₁)＝1，LD(S，S₆)＝3，二者均小于θ，且S与P₁的中心序列的标识距离较小，所以继续计算S与P₁的中心序列S₁的编辑距离，计算过程如表4所示。

表4.S与S₁之间的编辑距离表

F(i，j)

-

B

C

E

D

F

C

B

-

F(0，0)

F(0，1)

F(0，2)

F(0，3)

F(0，4)

F(0，5)

F(0，6)

F(0，7)

F(0，8)

C

F(1，0)

F(1，1)

F(1，2)

F(1，3)

F(1，4)

F(1，5)

F(1，6)

F(1，7)

F(1，8)

F

F(2，0)

F(2，1)

F(2，2)

F(2，3)

F(2，4)

F(2，5)

F(2，6)

F(2，7)

F(2，8)

D

F(3，0)

F(3，1)

F(3，2)

F(3，3)

F(3，4)

F(3，5)

F(3，6)

F(3，7)

F(3，8)

F

F(4，0)

F(4，1)

F(4，2)

F(4，3)

F(4，4)

F(4，5)

F(4，6)

F(4，7)

F(4，8)

B

F(5，0)

F(5，1)

F(5，2)

F(5，3)

F(5，4)

F(5，5)

F(5，6)

F(5，7)

F(5，8)

C

F(6，0)

F(6，1)

F(6，2)

F(6，3)

F(6，4)

F(6，5)

F(6，6)

F(6，7)

F(6，8)

B

F(7，0)

F(7，1)

F(7，2)

F(7，3)

F(7，4)

F(7，5)

F(7，6)

F(7，7)

F(7，8)

F(i，j)	-	B	C	E	D	F	F	C	B
										-	0	1	2	3	4	5	6	7	8
C	1	1	1	2	3	4	5	6	7
										F	2	2	2	2	3	3	4	5	6
D	3	3	3	3	2	3	4	5	6
										F	4	4	4	4	3	2	3	4	5
B	5	4	5	5	4	3	3	4	4
										C	6	5	4	5	5	4	4	3	4
B	7	6	5	5	6	5	5	4	3

由表4计算可得S与S₁的编辑距离ED(S，S₁)＝3＜θ，因此，S是漏洞序列，且属于漏洞模式P₁。

②根据公式(4)计算S与P₁中的漏洞序列的相似度，在漏洞模式P₁中搜索与S最相近的漏洞序列。首先，分别计算S与S₁、S₃、S₅的编辑距离，得ED(S，S₁)＝3，ED(S，S₃)＝2，ED(S，S₅)＝5计算S与S₁、S₃、S₅的相似度，如式(17)、(18)、(19)所示，

Sim (S, S_{1}) = 1 - \frac{ED (S, S_{1})}{| S | + | S_{1} |} = 1 - \frac{3}{7 + 8} = 0.8 - - - (17)

Sim (S, S_{3}) = 1 - \frac{ED (S, S_{3})}{| S | + | S_{3} |} = 1 - \frac{2}{7 + 7} = 0.86 - - - (18)

Sim (S, S_{5}) = 1 - \frac{ED (S, S_{5})}{| S | + | S_{5} |} = 1 - \frac{5}{7 + 8} = 0.67 - - - (19)

由上述计算结果可知，S与软件漏洞模式P₁中漏洞序列S₃的相似度最大。

6.将待测软件的疑似漏洞序列最相似的软件漏洞序列S₃所对应的漏洞信息VD作为安全报告输出。

由于待测软件的疑似漏洞序列S与软件漏洞模式P₁中的漏洞序列S₃的相似度最大，进一步从表1软件漏洞序列数据库SVSD中提取S₃所对应的相关漏洞描述VD为来源校验错误，因此，可以判定待测软件的疑似漏洞序列S的漏洞特征为堆溢出，并以安全报告形式输出。

Claims

1.一种基于序列聚类的软件安全特性分析方法，其特征在于：其步骤如下：

步骤一：收集现有的软件漏洞：对已有软件漏洞检测工具检测到的漏洞进行采集；

步骤二：预处理收集的软件漏洞，创建软件漏洞序列数据库：预处理步骤一所收集的漏洞数据，去掉冗余信息，并抽象为序列形式录入软件漏洞序列数据库；

步骤三：基于序列聚类技术挖掘软件漏洞模式：利用序列聚类技术对软件漏洞序列数据库进行自动分类，将具有相似特征的漏洞序列分配到同一个簇中，形成2个或2个以上的软件漏洞模式；

步骤四：构建软件漏洞知识库：分析步骤三挖掘出的2个或者2个以上的软件漏洞模式，创建漏洞知识库；

步骤五：从待测软件的源程序中抽取待测软件的疑似漏洞序列：分析待测软件的源程序，抽取疑似漏洞程序段，预处理收集的疑似软件漏洞，得到疑似漏洞序列；

步骤六：将步骤五抽取的疑似漏洞序列结合步骤四创建的漏洞知识库进行漏洞检测：首先，通过计算疑似漏洞序列与漏洞知识库中各漏洞模式的中心序列的距离，搜索与疑似漏洞序列最为相近的漏洞模式，如果没有，则该疑似漏洞序列为安全序列，否则，该疑似漏洞序列为安全漏洞，并在与其最相近的漏洞模式中，通过计算相似度，寻找最相近的漏洞序列，并将最相近的序列的漏洞信息作为安全报告输出；

所述步骤三中：基于序列聚类技术的软件漏洞模式挖掘是将软件漏洞序列数据库采用序列聚类技术进行挖掘，得到软件漏洞模式的具体步骤如下：

计算软件漏洞序列与中心序列距离的方法为：利用编辑距离ED作为计算软件漏洞序列之间的距离的函数，编辑距离的基本思想就是以替换、插入和删除三种基本操作来确定两个序列之间的相似程度；两个序列S₁和S₂的编辑距离就是用替换、插入和删除将S₁转化为S₂的最小代价；计算编辑距离的第一步是用递归方程把距离定义为代价函数，每一种基本操作的代价都是1，假设sup(a_i)，ins(a_i)和subs(a_i，b_j)分别代表删除a_i，插入a_i和用b_j代替a_i的相应的代价，则在代价为1的情况下，代价方程为，

sup(a_i)＝1，ins(a_i)＝1，

利用上述代价方程，通过自底向上的求解，即可求得两个序列间的编辑距离ED(A，B)＝F(i，j)；

软件漏洞模式的中心序列更新的处理方法为：对软件漏洞模式P_i，计算P_i中所有软件漏洞序列之间的标识距离LD(S_i，S_j)，选取与其它软件漏洞序列的标识距离之和最小的序列作为P_i的中心序列，即对于P_i，如果序列S(S∈P_i)，使得

其中，S′是P_i中的任意序列，且S′≠S，则S就为软件漏洞模式P_i的中心序列；

其中，标识距离LD(S_i，S_j)定义为：采用E＝{L₁，L₂，…，L_k，…}作为字符集，大小为|E|；S表示一个序列，S由E中的字符组成，其长度为|S|；令V(S)为一个具有|E|维的向量，该向量的每一维与E中的字符是一一对应的，每一维的值是该维所对应的字符在序列S中出现的次数，用V(S)[x]表示字符x在S中出现的次数；两个序列之间的标识距离通过公式(3)计算，

LD (S_{i}, S_{j}) = \max (\underset{x &Element; E}{Σ} I_{x}^{i} (V (S_{i}) [x] - V (S_{j} [x]), \underset{x &Element; E}{Σ} I_{x}^{j} (V (S_{j}) [x] - V (S_{i} [x])) - - - (3)

其中，如果V(S_i)[x]-V(S_j[x]＞0，则

否则如果V(S_j)[x]-V(S_i[x]＞0，

否则

④重复上述的步骤②～③，直到聚类的结果不再变化，获得最终的K个软件漏洞模式；

⑤将k个软件漏洞模式存入漏洞知识库；

所述步骤六中：漏洞检测方法是将步骤五提取的待测软件的疑似漏洞序列进行检测和分析，具体步骤如下：

①设θ为判定待测软件的疑似漏洞序列是否为漏洞序列的距离阈值，θ＞0；

②计算待测软件的疑似漏洞序列与K个软件漏洞模式的中心序列的距离，搜索漏洞知识库中与疑似漏洞序列最为相近的漏洞模式，为了降低算法的计算复杂度，利用标识距离进行初始过滤，首先分别计算疑似漏洞序列与K个软件漏洞模式的中心序列的标识距离，获取与疑似漏洞序列有最小标识距离的中心序列，如果疑似漏洞序列与该中心序列的标识距离大于θ，则疑似漏洞序列为安全序列，否则计算疑似漏洞序列与该中心序列的编辑距离，如果编辑距离大于θ，则该疑似漏洞序列为安全序列，否则，该序列为漏洞序列，且与该中心序列属于同一漏洞模式；

所述的为了降低算法的计算复杂度，利用标识距离进行初始过滤：两条长度分别为m和n的序列，它们之间标识距离计算的时间开销为O(m+n)，而编辑距离计算的时间开销为O(m*n)，根据定理：任意两个序列S₁和S₂，一定满足LD(S₁，S₂)≤ED(S₁，S₂)，即标识距离是编辑距离的下界，可见计算标识距离小于计算编辑距离时间开销；

③由上述步骤②确定待测软件的疑似漏洞序列所属的软件漏洞模式后，在漏洞模式中继续搜索与其最相似的漏洞序列，通过计算其与漏洞模式中每一个漏洞序列的相似度，来确定最相似的漏洞序列；

其中，疑似漏洞序列与漏洞模式中每一个漏洞序列的相似度为通过公式(4)计算，

Sim (S_{1}, S_{2}) = 1 - \frac{ED (S_{1}, S_{2})}{| S_{1} | + | S_{2} |} - - - (4)

进一步分析漏洞产生的原因，将最相近的序列的漏洞信息作为安全报告输出。