CN103678855A

CN103678855A - 一种基于多个指标维度复合距离的模型评价方法

Info

Publication number: CN103678855A
Application number: CN201210364282.4A
Authority: CN
Inventors: 李千目; 魏士祥; 侯君; 王永利; 茅海雁; 刘振; 李嘉
Original assignee: Wuxi Nanligong Technology Development Co Ltd
Current assignee: Wuxi Nanligong Technology Development Co Ltd
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2014-03-26

Abstract

本发明公开了一种基于多个指标维度复合距离的模型评价方法，该方法首先分析已经存在的许多种信息系统风险评估模型，从中提取出各种信息指标。根据从信息系统中收集到的数据，并且将参数归一化，根据指标的维度计算向量长度，最终得到复合距离。本发明能够根据收集的数据准确的对于风险分析模型给出客观的评估，可以帮助人们更加准确的预测风险的发生，防范未来可能发生的错误。

Description

一种基于多个指标维度复合距离的模型评价方法

技术领域

本发明涉及信息系统安全领域，尤其是对于信息系统安全模型的评估方法，具体地说是一种基于多个指标维度复合距离的模型评价方法。

背景技术

随着信息化的不断深入，信息技术给人们的日常生活带来了巨大的便利，同时也使得人们面临的信息安全风险越来越高。通过信息系统安全风险评估，可以有效地对安全风险进行控制和预防。

经过几十年的发展，涌现出了各种各样的安全风险定量分析模型，但是由于信息系统的多样性和复杂性，不可能存在一种模型是普遍适用的，不同模型的预测结果之间往往存在不一致。因此，对模型的评价方法显得尤为重要。

安全风险定量分析模型方面，在过去的几十年内国外的研究已经相当的成熟了。Kapil Sharma,Rakesh Garg等人根据距离的方式选择出了部分优秀的模型。如：Generalized-Goel模型，Goel-Okumoto模型等（C.Y.Huang,M.R.Lyu,and S.Y.Kuo.A unified scheme of some non-homogenous Poisson process modelsfor software reliability estimation.IEEE Trans.Softare.Engineering,2003,29(3):261–269）。

在选择安全风险分析模型方面，Kapil Sharma,Rakesh Garg等人提出了基于方式的距离计算方式选择有质量保证的模型，取得了不错的效果。（KapilSharma,Rakesh Garg,C.K.Nagpal,R.K.Garg.Selection of Optimal SoftwareReliability Growth Models Using a Distance Based Approach[J].IEEETransaction on Reliability,2010,59(2):266-275）。

发明内容

本发明的目的是针对目前安全风险分析模型无法统一进行评估的问题，提出一种基于多个指标维度复合距离的模型评价方法，从而实现对软件风险评估模型的估计水平做出相对准确的评估。

本发明的技术方案是：

一种基于多个指标维度复合距离的模型评价方法，它包括：

对信息系统的缺陷数据进行预处理的步骤；

对待评价的安全风险分析模型进行估计的步骤；

为众多模型选择关联性很小的指标并划定可行域；

参数归一，并计算得出理论值归一化后的各指标值Yi，从而对选择的模型做出判断。

本发明的具体步骤如下：

第一步，对于信息系统的缺陷数据进行预处理，剔除掉具有重复影响的数据，剩下的作为有效数据；（注：收集到的信息系统的数据包含了出现缺陷的时间和出现缺陷的总个数。信息系统的缺陷数据中，有些缺陷具有连带效应，比如第一个缺陷问题的出现从而导致了第二个问题的出现。这样的话，某些数据可能引起多个测试维度失效，那么必须在数据预处理阶段把这些数据给区别出来。经过这个阶段的筛选后，数据是有效的。）

第二步，建立各模型的参数表得到各模型的均值函数，将前述有效数据代入参与测评的各安全风险分析模型中采用最小二乘法进行估计计算，得到风险分析模型均值函数中涉及的参数（a、b、c、k、β等）；根据这些参数值，分别建立以时间t为未知量的函数，各函数值均为对应模型缺陷累计值的预测值，函数为各模型的均值函数；

第三步，根据待评价的模型，建立模型的评价指标参数表，为待评价的模型选择若干个关联性小的指标并划定各评价指标的可行域，各评价指标值的上界为Amax,下界为Amin；

第四步，利用第二步中得到的风险分析模型均值函数μ(t)，将第一步的信息系统的缺陷数据中的时间作为参数，代入各均值函数中经过计算得到各风险分析模型的函数值即估计的缺陷个数μ(t)，并利用评价指标参数表中的数学公式计算出各个模型的各评价指标参数的值Aactual；

第五步，根据第三步选择的指标X₁,X₂......X_n，将各指标值Aactual进行归一化，

得到各指标归一化后的数值Yi根据选择出来的各指标的意义，

对于指标值越大，模型越好的度量指标：Y=(A_max-A_actual)/(A_max-A_min)

对于指标值越小，模型越好的度量指标：Y=(A_acal-A_min)/(A_max-A_min)

第六步，根据上面步骤归一化后的各指标值Yi计算复合距离：

利用公式：

这样δ的值越小说明模型越优异。

本发明的有益效果：

本发明的显著优点如下：（1）选择多样的风险评估模型作为实验模型，提高了评估办法的精准度。（2）采用基于多维指标的复合距离的方法，综合考虑了模型的许多方面，能够根据数据选择到最优的风险评估模型。

附图说明

图1是最优模型的数学概念示意。

图2是数据集中缺陷类型统计信息。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1所示，第一步，对于信息系统的缺陷数据进行预处理，剔除掉具有重复影响的数据，剩下的作为有效数据；（注：收集到的信息系统的数据包含了出现缺陷的时间和出现缺陷的总个数。信息系统的缺陷数据中，有些缺陷具有连带效应，比如第一个缺陷问题的出现从而导致了第二个问题的出现。这样的话，某些数据可能引起多个测试维度失效，那么必须在数据预处理阶段把这些数据给区别出来。经过这个阶段的筛选后，数据是有效的。）

表1有效数据表

天数	缺陷个数	天数	缺陷个数
				10	38	64	713
19	111	71	853
				27	198	80	937
36	337	86	1000
				44	402	93	1130
51	546	100	1207

表2风险分析模型

表3参数估计表

模型名字	参数值
		Generalized-Goel	a=1970.70，b=4.89E-04，c=1.64
Goel-Okumoto	a=2125.65，b=6.61E-03
		Compert	a=443.89，b=-2.13E-02，k=0.36
Inflection S-Shaped	a=1515.91，b=3.66E-02，β=9.56
		Logistic Growth	a=1311.25，b=5.12E-02，k=21.7
Modifed-Duane	a=3.05E08，b=5.67E08，c=21.71
		Musa-Okumoto	a=6129.32，b=1.97E-03
Delay Shaped	a=2147.38，b=1.86E-02

表4评价指标参数表

表5各个模型的指标值Aactual

模型名字	MAE	AE	PRR
				Generalized-Goel	11.1323	3.834	50.9016
Goel-OKumoto	96.4543	60.1544	2.81E+03
				Compert	77.5218	224.1695	1.17E+03
Inflection S-Shaped	13.2174	12.4261	163.9799
				Logistic Growth	24.1358	80.0162	336.8538
Modified-Duane	59.7179	44.1725	2.55E+03
				Musa-Okumoto	69.7257	48.8289	2.75E+03
Delay Shaped	12.0149	5.2164	192.0539

第五步，根据第三步选择的指标X₁,X₂......X_n，将各指标值Aactual进行归一化，得到各指标归一化后的数值Yi根据选择出来的各指标的意义，对于指标值越大，模型越好的度量指标：Y=(A_max-A_actual)/(A_max-A_min)对于指标值越小，模型越好的度量指标：Y=(A_acal-A_min)/(A_max-A_min)

表6归一化后的指标值

模型名字	AMAE	AAE	APRR	δ	Rank
						Generalized-Goel	0	0	0	0	1
Goel-Okumoto	1	0.255612	1	1.437128	8
						Compert	0.778105	1	0.405984	1.330515	7
Inflection	0.024438	0.038996	0.040913	0.061577	3
						Logistic Growth	0.152405	0.345755	0.10346	0.391763	4
Modified-Duane	0.569438	0.183078	0.902855	1.083016	5
						Musa-Okumoto	0.686733	0.204211	0.977459	1.211912	6
Delay Shaped	0.010344	0.006274	0.05107	0.052483	2

利用公式：

这样δ的值越小说明模型越优异。

表7复合有效距离表

模型名字	δ	Rank
			Generalized-Goel	0	1
Goel-Okumoto	1.437128	8
			Compert	1.330515	7
Inflection	0.061577	3
			Logistic Growth	0.391763	4
Modified-Duane	1.083016	5
			Musa-Okumoto	1.211912	6
Delay Shaped	0.052483	2

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种基于多个指标维度复合距离的模型评价方法，其特征是它包括：

对信息系统的缺陷数据进行预处理的步骤；

对待评价的安全风险分析模型进行估计的步骤；

为众多模型选择关联性很小的评价指标并划定可行域；

对各模型的各评价指标的参数归一，并计算得出理论值归一化后的各指标值Yi，计算各指标值Yi的复合距离，各模型中，复合距离与模型优异程度成反比即模型的指标复合距离越小，模型越好。

2.根据权利要求1所述的基于多个指标维度复合距离的模型评价方法，其特征是具体步骤如下：

第一步，对于信息系统的缺陷数据进行预处理，剔除掉具有重复影响的数据，剩下的作为有效数据；

第二步，建立各模型的参数表得到各模型的均值函数，将前述有效数据代入参与测评的各安全风险分析模型中采用最小二乘法进行估计计算，得到风险分析模型均值函数中涉及的参数；根据上述参数值，分别建立以时间t为未知量的函数μ(t)，各函数值均为对应模型缺陷累计值的预测值，函数为各模型的均值函数；

第四步，利用第二步中得到的风险分析模型均值函数μ(t)，将第一步的信息系统的缺陷数据中的时间作为参数，代入各均值函数中经过计算得到各风险分析模型的函数值即估计的缺陷个数μ(t)，并利用评价指标参数表中的各评价指标的数学公式计算出各个模型的各评价指标参数的值Aactual；

第五步，根据第三步选择的指标X₁,X₂......X_n，将各模型的评价指标值Aactual进行归一化，得到各指标归一化后的数值Yi根据选择出来的各指标的意义，对于指标值越大，模型越好的度量指标：Y=(A_max-A_actual)/(A_max-A_min)对于指标值越小，模型越好的度量指标：Y=(A_acal-A_min)/(A_max-A_min)第六步，根据上面步骤归一化后的任一模型的各指标值Yi计算复合距离：利用公式：这样δ的值越小则模型越优异。