CN102156641A - 一种软件成本置信区间预测方法及系统 - Google Patents

一种软件成本置信区间预测方法及系统 Download PDF

Info

Publication number
CN102156641A
CN102156641A CN2011100998758A CN201110099875A CN102156641A CN 102156641 A CN102156641 A CN 102156641A CN 2011100998758 A CN2011100998758 A CN 2011100998758A CN 201110099875 A CN201110099875 A CN 201110099875A CN 102156641 A CN102156641 A CN 102156641A
Authority
CN
China
Prior art keywords
cost
interval
data
model
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100998758A
Other languages
English (en)
Inventor
杨叶
解浪
杨达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN2011100998758A priority Critical patent/CN102156641A/zh
Publication of CN102156641A publication Critical patent/CN102156641A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种软件成本置信区间预测方法和系统,包括从项目管理数据库获取已知软件项目过程数据和成本信息,按照每一行为一项软件过程数据,经过数据预处理,通过配置项指定各个过程数据和成本信息在第几列,形成数据矩阵X;成本信息形成列向量Y;从X、Y矩阵中抽取数据,输入核心模型模块进行训练;根据输入的X、Y矩阵数据训练出选用模型的参数,并计算出成本的测定值;利用成本测定值和已有成本值,根据置信区间计算方法,得到最终的预测区间。本发明的区间预测方法实验命中率高,实际应用对工作量测定有着极其重要和可信任的指导作用;本发明的系统对研究人员添加新的模型,添加新的区间算法,添加新的模型评测方法极为方便。

Description

一种软件成本置信区间预测方法及系统
技术领域
本发明涉及一种基于软件成本测定,预测出软件成本置信区间的方法和系统,属于计算机软件开发技术领域。
背景技术
软件项目成本的测定对于任何一个公司,组织进行投资决策,资源协调具有非常重要的意义。软件项目可行性分析,成本计划和进度计划以及风险管理等,均建立在各个阶段的成本测定上。因此软件项目的成本测定是软件项目管理研究的重要问题。
目前软件成本测定研究工作主要基于软件成本测定的鼻祖Boehm提出了CoCoMo1和CoCoMoII模型:
effort = a * SIZE b * ( Π i EM i )
effort = a * SIZE b + Σ i = 1 5 SF i * ( Π i 17 EM i )
求解该模型主要使用回归算法获得a和b的值。
在此基础上发展出了一系列cocomo家族的测定方法:COINCOMO,DBA COCOMO,COQUALMO iDAVE,COPLIMO、COPSEMO、CORADMO、COPROMO、COCOTS,COSYSMO,COSOSIMO等。于此同时还有使用cocomo数据,将各类已经成熟的机器学习模型移植过来,如神经网络,SVR,CART,casebase,专家判定法等方法进行软件成本测定。
研究人员和项目管理者最关心的则是,如何选择最适合自己数据的模型?这涉及到一个目前有个研究最热的问题:模型精确度的比较。评测模型的精度指标通常是基于MREmagnitude relative erro,相对误差绝对值),如MMRE(MRE的样本’均值),PRED(N)(averagepercentage of estimates that were within N percent of the actual values,估算结果在实际结果N个百分点内的平均百分比).和std_MRE(MRE的方差)。计算公式如下:
( 1 ) , RE i = predicted i - actual i actual i
MREi=|MREi|
( 2 ) , MMRE = 100 T Σ i T MRE i
( 3 ) , std _ MRE = Σ i T ( MRE i - MMRE ) 2 T
( 4 ) , PRED ( N ) = 100 T Σ i T 1 if MRE i ≤ N 100 0 otherwise
MMRE和PRED均建立在一个测试集上,对于参数确定的模型,不同的测试集导致了不同的MRE的集合,从而导致了MMRE和PRED变化。如果模型在本地进行了校准,得到模型参数,参数本身也具有了随机性,这使得传统的accuracy indicator受到了质疑。
这种问题的本质是数据的随机性,如图8所示。训练数据的方差,造成了模型参数的方差,从而使得模型预估值有了方差,然而在进行评估时,所用来作为依据,所使用的软件成本的实际值也是抽样于同一个数据空间,也具有方差。这两类方差最终一起影响预测值,预测值直接影响了MRE(同样也影响RE)。这个两个方差的估计值同时还引进了偏差的成分(模型偏差和数据偏差)。对预测区间的宽度有影响。实际应用中,区间既要尽可能包含实际值,又要尽可能窄。
在使用模型进行软件成本预测时,表达出这个随机性对模型的实际应用有着非常重要的意义,项目管理者面对一个可信的软件成本预测的区间将比一个值更加有信心。现有的测定模型中,预测出置信区间的方法是基于RE或者MRE集合,建立新的模型,一定程度上解决了软件测定模型精确度比较的问题,但由于新模型的加入,不能体现出测定模型本身的特点,不利于分析模型和改进模型。另外这也是一种过拟合,从结果上看也希望能找到更加窄而且能将真实工作量包含进来的区间。
发明内容
鉴于工作量测定模型应用和评比的重要性和现有方法的局限性,本发明通过基于回归模型,推导出置信区间,在置信区间上进行压缩获得预测区间的方法和系统,使得同样的软件成本测定模型可以用来预估工作量区间。
为了实现本发明的目的,采用的技术方案为:
一种软件成本置信区间预测方法,包括步骤:
1)数据预处理模块从项目管理数据库获取已知软件项目过程数据和成本信息,按照每一行为一项软件过程数据,经过数据预处理,通过配置项指定各个过程数据和成本信息在第几列,形成数据矩阵X;成本信息形成列向量Y;
2)数据抽样模块从矩阵X、Y中抽取数据,按照成本测定模型的配置参数,输入核心模型模块中的一模型,由核心模型模块训练出成本测定模型参数,并根据待测得一行软件过程数据,计算出测定值Y’;
3)区间计算模块调用区间预测算法模块,计算软件成本的置信区间,获得预测区间。
所述步骤1)数据矩阵X每一行包括各个驱动因子和软件规模,其中软件规模的值是经过log运算处理后的值。
所述步骤1)成本信息经过log运算处理后形成列向量Y。
所述步骤2)核心模型模块包括多个成本测定模型,按照以下方法进行模型比较,选定成本测定模型:
4-1)切分数据矩阵X和Y,抽取N对作为训练集合,抽取N对作为测试集合;
4-2)每一对训练集合,使用加reg term的最小二乘,并计算beta估算值的协方差矩阵,获得成本测定模型参数如下:
Figure BDA0000056437770000031
4-3)使用N个测试集合和获得的N对参数
Figure BDA0000056437770000032
Figure BDA0000056437770000033
计算获得N个MMRE,PRED,var(MRE),
4-4)使用比较算法,选取最优一组参数,作为模型参数保存。
所述步骤3)区间预测算法包括基于回归模型的区间预测方法和基于直方图的区间预测方法。
所述基于回归模型的区间预测方法为:计算已有软件成本值Y和测定值Y’之间差值的方差;按照所得的差值的方差计算软件成本的置信区间,获得预测的区间。
所述基于直方图的区间预测方法为:计算已有软件成本值Y和测定值Y’之间的相对误差和相对误差绝对值;在相对误差的直方图上,指定置信度c,截取对称的中间c部分,在相对误差绝对值直方图上截取前c部分,保留边界值p_up和p_down,获得预测的区间。
为了实现本发明的另一目的,采用的技术方案该书如下:
一种软件成本置信区间预测系统,包括:
数据预处理模块,用于从项目管理数据库获取已知软件项目过程数据和成本信息,按照每一行为一项软件过程数据,经过数据预处理,通过配置项指定各个过程数据和成本信息在第几列,形成数据矩阵X;成本信息形成列向量Y;
数据抽样模块:用于从X、Y矩阵中抽取数据,输入核心模型模块进行训练;
核心模型模块:包括不同模型和训练算法,将输入的X、Y矩阵数据训练出选用模型的参数,并计算出成本的测定值;
区间计算模块:利用成本测定值和已有成本值,根据置信区间算法计算最终的预测区间。
进一步,还包括:模型比较模块,用于比较核心模型模块中包括模型的精确度。
进一步,还包括:命中率计算模块:用于计算成本实际值落入预测区间的命中率;图形化显示模块,用于将预测区间以图形化显示。
本发明的优点和技术效果如下:
1)区间预测的工作量值实验命中率高,实际应用对工作量测定有着极其重要和可信任的指导作用;
2)本发明的模块设计清晰,对研究人员添加新的模型,添加新的区间算法,添加新的模型评测方法极为方便。
附图说明
图1为本发明基于不确定性区间预测及模型比较系统框架图;
图2为本发明基于回归的区间预测方法中的模型训练流程图;
图3为本发明基于回归的区间预测方法流程图;
图4a为本发明基于直方图的区间预测方法中的区间训练流程图(相对误差);
图4b为本发明基于直方图的区间预测方法中的区间训练流程图(相对误差绝对值);
图5为本发明基于直方图的区间预测方法流程图;
图6为本发明区间预测方法执行流程图;
图7为本发明模型比较方法执行流程图;
图8为数据随机性说明示意图;
图9为区间预测实验命中率示意图。
具体实施方式
下面将具体说明:基于不确定性区间预测及模型比较的算法和系统。另外本发明实现了两种基于直方图的区间测定方法,作为对比。本发明使用大量采样,获得多个训练集和测试集对,计算对应MMRE和MRE的方差,基于非参数比较方法比较MMRE和var(MRE)的集合,得到两个模型评测结果。
首先说明本发明中的定义:数据矩阵X,每一行为一条数据。每一行包括,驱动因子,项目规模和工作量(成本),通过配置项指定各个项在第几列。
配置项通过文本文件表达,每一行为一个配置项,格式如下:
Name:value_type
其中value_type分为,浮点值(0),标签(1),字符串(2)三种
第一种基于回归模型的区间预测方法包括步骤:
训练模型参数的步骤:
1获得数据矩阵X,Y,按配置项,对相应的项取log运算;
2按照配置参数,设置模型输入数据X,Y;
3按照配置参数,切分数据样本,抽取N对train和test集合;
4遍历岭回归的参数λ,从0.01到0.2,以0.01为步长。对每个λ值,重复第5步和第6步;
5每一对train集合,使用加正则项的最小二乘(岭回归),并计算beta估算值的协方差矩阵,获得参数
Figure BDA0000056437770000061
6使用N个test集合和获得N个参数beta,计算获得N个MMRE,PRED,var(MRE)等indicators;
7使用设置的比较算法,选取最优的λ值,作为模型参数保存;
8使用获取的数据矩阵和选取的λ,训练模型获得参数:
Figure BDA0000056437770000062
Figure BDA0000056437770000063
Figure BDA0000056437770000064
整个预测区间流程:
1、获得数据矩阵,按配置项以及所用模型预处理数据,如使用COCOMO模型,对相应的项取log运算;
2、按照配置参数,设置模型输入数据X,Y;
3、对每条数据,计算
Figure BDA0000056437770000065
的值,表示测定值的方差;
4、对每条数据计算
Figure BDA0000056437770000066
表示预测值和测定值差值的方差;
5、计算预测区间,按照所得
Figure BDA0000056437770000067
计算y的置信区间,再利用预处理转换函数的反函数,将区间的边界值变换,获得预测区间,如本发明的COCOMO模型使用如下计算公式获得预测区间:
[ e y ^ - t 1 - α x T co v ^ ( β ^ ) x , e y ^ + ( e y ^ - e y ^ - t 1 - α x T co v ^ ( β ^ ) x ) ] .
第二种基于直方图的区间预测方法包括步骤:
训练出直方图区间的方法包括:
1、获得数据矩阵,按配置项,对相应的项取log运算;
2、按照配置参数,设置模型输入数据X,Y;
3、使用指定的模型,训练并预测同一份数据;
4、利用预测值和观测值计算re或者MRE集合;
5、在re的直方图上,指定置信度c,截取对称的中间c部分,在MRE直方图上截取前c部分;
6、保留边界值p_up和p_down。
对于新软件项目数据x,获得模型输出y_hat,利用前面保存参数p_up和p_down:得到预测区间如下:
[ ( 1 - p _ dow ) * e y ^ , ( 1 + p _ up ) e y ^ ] .
基于重采样的模型评测方法,其步骤为:
1、抽样,按1∶2比例,切分数据集为(train,test)对,重复200次,获得200个(train,test)集合对(200是有依据的,150到200之间基本趋于稳定)
2、使用这200份集合对,在各个模型上进行训练测试,每个模型均获得size为200的MMRE和PRED30,以及var(MRE)的集合。
3、采用非参检验的方法验证,需要对比的两个模型之间,MMRE和var(MRE)是否有显著差异,给出差异性指标。
参见图1,本发明提供的区间预测和重采样评测的测定系统,包含功能模块为:
数据预处理模块:对不同类型的数据,根据输入参数或者配置文件,初始化数据为标准格式。
数据抽样模块:为不同的实验,按需求进行数据采用,如jack knife,n-fold CV,boostrap三类内置实现,可由用户添加。
核心模型模块:不同模型和训练算法,可支持基本的cocomo回归,基于回归的interval,以及case base等模型,用户可添加新的模型。
区间计算模块:提供三种区间计算方法,基于置信区间的计算结果,计算最终的预测区间;命中率及相关参数计算模块:在区间(interval)实验中,计算interval的命中率以及与interval相关的统计量。
Accuracy indicator(精度指标)生成模块:accuracy indicator计算模块,内置实现MMRE,PRED30,var(MRE),可由用户添加新的indicator。默认为数值型,新的indicator必须定义顺序。
模型比较模块:模型对比,使用indicator和基于indicator的衍生量,利用数据抽样提供的抽样数据集合,进行对比结果的输出,如非参样本集比较的结果。
图形化显示模块,在interval以及模型评测结果,提供图形化显示。
以下详细介绍本发明的方法具有的两大功能。
(一)模型比较
该方法对训练测定模型所用的数据进行重采样,得到N对train和test集合,对需要比较的两个模型分别训练出N份模型参数,对test集合进行预测,并计算得到大小为N的MMRE,var(MRE),PRED(k)集合,使用基于非参比较的方法,对比两个模型在MMRE,var(MRE),PRED(k)差异显著程度。下面本发明分3步来说明模型比较的执行,可以参照图6。
1重采样
因为现实世界的数据分布无法获得,直接使用一份训练集和测试集有很大偏差,jacknife的方法在整个数据集抽样太不均匀和稀疏时不适用。本发明对整个数据集,按固定比例(本发明使用的1∶3),重复抽样获得N对(train,test)集合对。
2indicator集合计算
使用N个train set数据,使用需要对比的两个模型,分别训练N次,得到的模型用对应的N个test集合PREDict,并计算出MMRE,var(MRE),和PRED(k),得到大小为N的三个集合:{MMREi},{var(MRE)i},{PRED(k)i}
3使用非参检验的方法:mann-whitney test计算两个模型在{MMREi},{var(MRE)i},{PRED(k)i}上的差异显著性。输出,给用户参考。默认顺序按照MMRE,var(MRE),PRED(k)来决定两个模型胜出一方。
(二)区间预测
本发明区间计算模块内置实现了三种方法,一种基于回归,必须是回归模型,两种基于直方图。
基于回归的在模型训练时需要计算协方差矩阵,并限定在使用回归类模型。基于直方图的方法不限定模型的结构。
以下分别说明这两类方法。
基于直方图的区间预测
基于直方图的本质是利用模型train上的MRE或者re集合,认为这个集合模型在整个数据空间表现的一个抽样,使用这个MRE或者re的样本集,指定置信度c,来估计MRE和re的置信区间[re_dow,re_up],在预测时使用这个区间和工作量测定值,计算预测区间。本发明将分3步来说明整个训练到预测的执行,参照图4a,图4b,图5,图6。
1、数据预处理,得到X矩阵和Y矩阵
根据模型需要,基于cocomo1回归模型需要对工作量(pm)和软件规模(ize),进行log运算,基于cocomoII模型的需要将规模因子(sf)对应特征变成0.01*sf*log(size),pm和size也需要log运算。目前基于类比(casebase analogy)的方法也需要进行根据数据类型(cocomo81或者cocomoII的数据)进行上述两种转换。Y矩阵为一个列向量,每个元素为一个项目的log(pm);X矩阵为n+1列,m行的矩阵,n为特征数量,cocomo81为16,cocomoII为23。X第一列全是1,第二列是每个项目数据的对应的log(size)。后面,对于cocomo81数据,接下来是15个驱动因子(EM)的值,对于cocomoII,接下来先是5列0.01*sf*log(size),因为有5个规模因子,再是17个驱动因子的值。
2、使用整个数据,调用模型训练的函数,得到模型参数,使用参数,调用Predict函数,得到的输出,进行逆变换(log运算的,则进行指数运算变回),得到最终的工作量测定值集合{effort_hat},使用数据的effort观测值,计算:
re i = effort _ hat - e ffort i effort i mre i = | effort _ hat - efffort i | effort i
根据设定的置信度c,计算p_up和p_down
对于MRE:
p_up=p_down=rek,k=[size({rei})*(1-c)
对于re:
p _ down = re k , k = [ size ( { re i } ) * c 2
p _ up = re k , k = [ size ( { re i } ) * ( 1 - c 2 )
保存p_up和p_down参数。
3、对于需要预测的新数据,进行预处理阶段的变换后,使用模型得到y_hat,进行如下的计算获得预测区间:
[ 1 - p _ dow * e y ^ , ( 1 + p _ up ) e y ^ ]
基于回归的区间预测:
Cocomo类的模型均是以回归为主要的部分建模,而基于直方图的区间预测将区间直接与y相关,而本质上区间是与x相关,从模型的因果关系来看。为了更加充分的利用模型的信息,本发明基于回归来建立区间和x的关系。下面将分6步来说明整个训练和预测区间的执行过程。参照图2,图3,图7;
1、数据预处理
跟基于直方图的方法一样,本发明的使用的数据均是cocomo类的。在回归类模型中,假设转换后(进行log运算还有移项)的数据满足如下的结构:
Y=Xβ+ε其中ε~N(0,σ2)
2、回归获得参数
Figure BDA0000056437770000102
Figure BDA0000056437770000103
使用加reg term的最小二乘(岭回归),设定lambda的范围(0.05到1),步长(0.05),对每个lambda,切分数据位train和test,使用train集合,进行如下的计算:
β ^ = ( X T X + λI ) - 1 X T Y
Figure BDA0000056437770000105
C o ^ v ( β ^ ) = H - 1 ( β ^ )
Figure BDA0000056437770000107
表示Hessian矩阵的逆,其中Hessian矩阵计算方法如下:
H ii = ∂ l ( β ) ∂ β j 2 = 1 σ 2 ( Σ i = 1 m x ij 2 + λ )
H ij = ∂ l ( β ) ∂ β k β j = 1 σ 2 Σ i = 1 m x ij x ik ;
3、对获得的N对(20对)参数,
Figure BDA00000564377700001010
Figure BDA00000564377700001011
使用test集合,得到N个MMRE,var(MRE),PRED(k),按照先比较MMRE,再var(MRE),再PRED(k)的顺序获得最优的lambda参数。重复2中的计算公式,使用全部数据计算参数
Figure BDA00000564377700001012
Figure BDA00000564377700001013
4、对于新数据x,进行预处理阶段的转换后,利用保存的参数
Figure BDA0000056437770000111
计算
Figure BDA0000056437770000112
的值,表示测定值的方差:
σ ^ y ^ = x T C o ^ v ( β ^ ) x ;
5、计算
Figure BDA0000056437770000114
表示预测值和测定值差值的方差,其依赖于y本身的方差和y_hat的方差,利用保存的参数
Figure BDA0000056437770000115
代替y的方差:
σ ^ y - y ^ = σ ^ y 2 + σ ^ y ^ 2
6、计算预测区间:
由于指数变换会讲y较大的部分分布拉长,不均匀的拉长。这样造成上界过高,很大一部分浪费在了小概率上,本发明使用一个小小的截断,利用下界和测定值的距离,来获得上界,得到一个对称的区间。
[ e y ^ - t 1 - α x T co v ^ ( β ^ ) x , e y ^ + ( e y ^ - e y ^ - t 1 - α x T co v ^ ( β ^ ) x ) ]
命中率定义为在一个测试集合中,预估区间包含实际值比例,多个测试集合则取平均值。本发明列举出在一个测试集上的实验结果如图9所示:
其中,横轴的数值1到16是本发明给数据的标号,纵轴是工作量,三角号是本发明的区间,而方块是直方图能获得的最好区间,星形是实际值,加号是预估值。
本发明取的置信度为70%,本发明可以看到仅仅有两个星型落在了三角号表示的区间的外面,命中率为87.5%,大于了预计的置信度。
本发明设置置信度为90%,对N对训练测试集合对进行实验,取命中率的平均值,最终结果>%93,说明本发明的方法在命中率上满足实际需要。而本发明的区间比传统区间要窄,对实际预测很有帮助。
综上,本发明所提出的基于不确定性的区间预测和模型比较方法通过有效的利用软件项目的历史数据,真实的在模型结构上反应出预测结果的不确定性,尽可能精确的显示在区间中;而在模型比较中,利用充分的重采样,将模型在数据上的不确定性反映在最终的indicators集合中,利用统计检验,客观的对比模型的差异性。本发明提供的基于不确定性的区间预测和模型比较系统可以全自动的完成原始数据到预测区间和模型比较结果,也可以根据用户的需求进行新模型的加入,新评估算子的添加和新区间预测的算法添加。
以上对本发明所述的不确定性的区间预测和模型比较的方法和系统进行了详细的说明,但本发明的具体实现形式并不局限于本文档。对于本技术领域的研究人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (10)

1.一种软件成本置信区间预测方法,包括步骤:
1)数据预处理模块从项目管理数据库获取已知软件项目过程数据和成本信息,按照每一行为一项软件过程数据,经过数据预处理,通过配置项指定各个过程数据和成本信息在第几列,形成数据矩阵X;成本信息形成列向量Y;
2)数据抽样模块从矩阵X、Y中抽取数据,按照成本测定模型的配置参数,输入核心模型模块中的一测定模型,由测定模型训练出模型参数,并输入待测的软件过程数据,计算出成本测定值Y’;
3)区间计算模块调用区间预测算法模块,根据测定值Y’和已知成本值Y计算软件成本的置信区间,获得预测区间。
2.如权利要求1所述的预测方法,其特征在于,所述步骤1)数据矩阵X每一行包括各个驱动因子和软件规模,其中软件规模的值是经过log运算处理后的值。
3.如权利要求1所述的预测方法,其特征在于,所述步骤1)成本信息经过log运算处理后形成列向量Y。
4.如权利要求1所述的预测方法,其特征在于,所述步骤2)核心模型模块包括多个成本测定模型,按照以下方法进行模型比较,选定成本测定模型:
4-1)切分数据矩阵X和Y,抽取N对作为训练集合,抽取N对作为测试集合;
4-2)每一对训练集合,使用加正则项的最小二乘,并计算beta估算值的协方差矩阵,获得成本测定模型参数如下:
β ^ , σ ^ 2 C o ^ v ( β ^ ) ;
4-3)使用N个测试集合和获得的N对参数
Figure FDA0000056437760000013
Figure FDA0000056437760000014
计算获得N个MMRE,PRED,var(MRE),
4-4)使用比较算法,选取最优一组参数,作为模型参数保存。
5.如权利要求1所述的预测方法,其特征在于,所述步骤3)区间预测算法包括基于回归模型的区间预测方法和基于直方图的区间预测方法。
6.如权利要求1所述的预测方法,其特征在于,所述基于回归模型的区间预测方法为计算已有软件成本值Y和测定值Y’之间差值的方差;按照所得的差值的方差计算软件成本的置信区间,获得预测的区间。
7.如权利要求1所述的预测方法,其特征在于,所述基于直方图的区间预测方法为:计算已有软件成本值Y和测定值Y’之间的相对误差或者相对误差绝对值;在相对误差的直方图上,指定置信度c,截取对称的中间c部分,在相对误差绝对值直方图上截取前c部分,保留边界值p_up和p_down,获得预测的区间。
8.一种软件成本置信区间预测系统,其特征在于,包括:
数据预处理模块,用于从项目管理数据库获取已知软件项目过程数据和成本信息,按照每一行为一项软件过程数据,经过数据预处理,通过配置项指定各个过程数据和成本信息在第几列,形成数据矩阵X;成本信息形成列向量Y;
数据抽样模块:用于从X、Y矩阵中抽取数据,输入核心模型模块进行训练;
核心模型模块:包括不同模型和训练算法,将输入的X、Y矩阵数据训练出选用模型的参数,并计算出成本的测定值;
区间计算模块:利用成本测定值和已有成本值,根据置信区间算法计算最终的预测区间。
9.如权利要求8所述的系统,其特征在于,还包括:模型比较模块,用于比较核心模型模块中包括模型的精确度。
10.如权利要求8所述的系统,其特征在于,还包括:命中率计算模块:用于计算成本实际值落入预测区间的命中率;图形化显示模块,用于将预测区间以图形化显示。
CN2011100998758A 2011-04-20 2011-04-20 一种软件成本置信区间预测方法及系统 Pending CN102156641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100998758A CN102156641A (zh) 2011-04-20 2011-04-20 一种软件成本置信区间预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100998758A CN102156641A (zh) 2011-04-20 2011-04-20 一种软件成本置信区间预测方法及系统

Publications (1)

Publication Number Publication Date
CN102156641A true CN102156641A (zh) 2011-08-17

Family

ID=44438149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100998758A Pending CN102156641A (zh) 2011-04-20 2011-04-20 一种软件成本置信区间预测方法及系统

Country Status (1)

Country Link
CN (1) CN102156641A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020751A (zh) * 2012-11-21 2013-04-03 广东电网公司信息中心 IPv6环境下应用系统改造工作量的确定方法和系统
CN103036628A (zh) * 2012-12-14 2013-04-10 中国石油大学(华东) 一种超宽带无线信道品质因子估计方法
CN103186711A (zh) * 2012-10-08 2013-07-03 同济大学 基于非正交坐标系下软件成本评估方法
CN107579816A (zh) * 2017-09-06 2018-01-12 中国科学院半导体研究所 基于递归神经网络的密码字典生成方法
CN107833013A (zh) * 2017-10-27 2018-03-23 链家网(北京)科技有限公司 软件开发的工作量预估准确性的自动化统计方法及装置
CN109309652A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种训练模型的方法及装置
CN115166619A (zh) * 2022-05-27 2022-10-11 云南电网有限责任公司 一种智能电能表运行误差监测系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186711A (zh) * 2012-10-08 2013-07-03 同济大学 基于非正交坐标系下软件成本评估方法
CN103186711B (zh) * 2012-10-08 2016-04-20 同济大学 基于非正交坐标系下软件成本评估方法
CN103020751B (zh) * 2012-11-21 2016-04-27 广东电网公司信息中心 IPv6环境下应用系统改造工作量的确定方法和系统
CN103020751A (zh) * 2012-11-21 2013-04-03 广东电网公司信息中心 IPv6环境下应用系统改造工作量的确定方法和系统
CN103036628A (zh) * 2012-12-14 2013-04-10 中国石油大学(华东) 一种超宽带无线信道品质因子估计方法
CN103036628B (zh) * 2012-12-14 2014-10-15 中国石油大学(华东) 一种超宽带无线信道品质因子估计方法
US10867071B2 (en) 2017-07-28 2020-12-15 Advanced New Technologies Co., Ltd. Data security enhancement by model training
US10929558B2 (en) 2017-07-28 2021-02-23 Advanced New Technologies Co., Ltd. Data secruity enhancement by model training
CN109309652A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种训练模型的方法及装置
CN107579816A (zh) * 2017-09-06 2018-01-12 中国科学院半导体研究所 基于递归神经网络的密码字典生成方法
CN107579816B (zh) * 2017-09-06 2020-05-19 中国科学院半导体研究所 基于递归神经网络的密码字典生成方法
CN107833013B (zh) * 2017-10-27 2020-11-13 贝壳找房(北京)科技有限公司 软件开发的工作量预估准确性的自动化统计方法及装置
CN107833013A (zh) * 2017-10-27 2018-03-23 链家网(北京)科技有限公司 软件开发的工作量预估准确性的自动化统计方法及装置
CN115166619A (zh) * 2022-05-27 2022-10-11 云南电网有限责任公司 一种智能电能表运行误差监测系统
CN115166619B (zh) * 2022-05-27 2023-03-10 云南电网有限责任公司 一种智能电能表运行误差监测系统

Similar Documents

Publication Publication Date Title
Pan et al. Data-driven estimation of building energy consumption with multi-source heterogeneous data
CN103257921B (zh) 一种基于改进随机森林算法的软件故障预测系统及其方法
Han et al. Drought forecasting based on the remote sensing data using ARIMA models
CN102156641A (zh) 一种软件成本置信区间预测方法及系统
EP2273431B1 (en) Model determination system
US20110054860A1 (en) Adaptive analytics multidimensional processing system
CN107506941A (zh) 一种基于大数据技术的建筑施工企业信用评价方法和系统
CN106897109A (zh) 基于随机森林回归的虚拟机性能预测方法
D’Agostino et al. Nowcasting business cycles: A Bayesian approach to dynamic heterogeneous factor models
Torgo et al. Package ‘dmwr’
Kang et al. Optimal meter placement for water distribution system state estimation
Umlauf et al. bamlss: a Lego toolbox for flexible Bayesian regression (and beyond)
JP2019537079A (ja) 大規模再生可能エネルギーのデータについて確率モデルを構築する方法
CN107665172A (zh) 一种基于复杂加权软件网络的软件缺陷预测方法
Culley et al. Identifying critical climate conditions for use in scenario-neutral climate impact assessments
CN105427194A (zh) 一种基于随机森林回归的售电量预测方法及装置
Beuchat et al. A robust framework for probabilistic precipitations downscaling from an ensemble of climate predictions applied to Switzerland
Zhang et al. Author impact: Evaluations, predictions, and challenges
Roy et al. Demand forecasting in smart grid using long short-term memory
Ramya et al. Environment change prediction to adapt climate-smart agriculture using big data analytics
Schefzik Combining parametric low‐dimensional ensemble postprocessing with reordering methods
CN117633249B (zh) 面向SDGs空间型监测指标的基本变量构建方法及装置
CN101609411B (zh) 一种基于复杂度的嵌入式软件功耗bp神经网络建模方法
CN101295374A (zh) 一种多因素影响下的油田开发动态定量方法
US20240005259A1 (en) Index modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110817