CN101093445A - 基于软件过程时序数据自动挖掘的多步预测方法和系统 - Google Patents

基于软件过程时序数据自动挖掘的多步预测方法和系统 Download PDF

Info

Publication number
CN101093445A
CN101093445A CN 200710119642 CN200710119642A CN101093445A CN 101093445 A CN101093445 A CN 101093445A CN 200710119642 CN200710119642 CN 200710119642 CN 200710119642 A CN200710119642 A CN 200710119642A CN 101093445 A CN101093445 A CN 101093445A
Authority
CN
China
Prior art keywords
software
sequential data
data
software procedure
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710119642
Other languages
English (en)
Inventor
王永吉
阮利
王青
李明树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN 200710119642 priority Critical patent/CN101093445A/zh
Publication of CN101093445A publication Critical patent/CN101093445A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于软件过程时序数据自动挖掘的多步预测方法和系统,所述方法为对软件过程时序数据采用自回归求和移动平均的方法进行时序数据建模,然后将传统的参数估计问题转换为一种基于最小均方误差估计的最优化约束求解问题,进而基于约束求解优化问题的求解结果进行软件过程时序数据多步预测;所述系统为三层架构模式,包括访问界面层、时序数据分析层、软件过程数据库三层结构;本发明提供了对软件过程的不同层次时序数据进行分析,对软件过程时序数据的趋势预测进行全面分析,有效地刻画了软件过程时序数据特性,为软件过程管理人员提供了有效的可视化的量化决策辅助支持。

Description

基于软件过程时序数据自动挖掘的多步预测方法和系统
技术领域
本发明涉及一种对存储在软件过程管理系统中的时间序列数据的处理方法和系统,特别涉及一种基于软件过程时序数据自动挖掘的多步预测方法和系统,属于计算机软件工程领域。
背景技术
随着科学技术的日益发展,软件产品已经被广泛地应用在人类社会的各个方面,如银行,保险,建筑工程,贸易,通讯,娱乐,教育,交通运输等等。人们的日常生活越来越多的依赖于各种含有软件的电子设备。然而,随着计算机技术的发展,应用软件变得越来越复杂,更加难以开发和维护。软件产品存在缺陷几乎成为不可避免的事实,而这些缺陷又往往对人们的生活甚至生命安全造成严重的危害。因而,越来越多的研究人员和工程人员投身到如何提高软件产品质量的研究和实践之中,量化软件过程管理和改进近年来得到研究和工业界增强的关注,并日渐成为科学化和精确化地进行现代软件过程管理的主要手段。
软件过程通常被定义为“设计、开发、应用和维护软件产品的一组相互关联的活动、方针、组织结构、技术方法、规程以及工作产品。它定义了对软件开发进行组织、管理、度量、支持和改进的途径”。量化软件过程管理技术的一个重要软件支撑平台是软件过程管理系统(尤其是以过程为中心的软件工程环境”(Process-Centered Software Process EngineeringEnvironment,PSEE))。该系统是为实施软件开发活动提供自动化支持的软件系统,是软件组织执行软件过程管理活动的核心工具。现有的研究人员开发了大量的软件过程管理系统,例如:非商业化的原型系统如Adele-Tempo,ALF,Arcadia,CSPL,E3,EPOS,MARVEL,MERLIN,OIKOS,Oz,PEACE,PADM,SPADE,SOCCA等等,也有一些商业化的软件过程管理系统,如:IPSE 2.5,Process Wise,Syner Vision,Process Weaver,以及中科院软件研究所的软件过程管理系统SoftPM等。定量化、规模化、过程化和可控制的软件过程生产的首要前提是基于现有的软件过程管理平台对软件过程的准确度量,分析和控制,进而使管理者能够洞察产品开发过程,掌握项目的进度、开销、产品质量状态等,使整个项目的开发过程处于受控状态,为管理者制定决策提供可量化的依据。另一方面,软件过程固有的随时间不断动态演变的特性使得软件过程管理系统中积累了众多的软件过程时序数据。这些软件过程时序数据中蕴含了大量有关软件过程的诸如发展趋势,周期和模式等能对软件过程管理量化决策提供准确和有效帮助的辅助决策信息,如何有效地对软件过程管理系统中的这些软件时序数据进行分析是量化软件过程管理平台研究中的一个关键问题。
然而软件过程本身具有动态性,不确定性和知识密集型等特征,这些特征使得软件过程时序数据的建模和分析面临诸多困难。最典型的问题表现在:(1)软件过程的动态多变性使得存储在软件过程管理平台中的时序数据结构复杂,从而要求时序数据模型结构具有较强的建模能力;(2)软件组织所承揽的软件项目通常都是不重复的工作,这与制造业批量重复的生产有很大不同。对于软件过程管理系统中的不同的软件项目,由于其涉及的软件技术、应用领域、用户要求以及商业环境不同,其软件开发的过程不尽相同,甚至于完全不同。针对每一个软件项目的开发和生产,都有可能要求相关的软件过程进行必要的变化和调整,软件过程的变更比传统的制造业过程频度更高。从而,软件过程产生的时序数据的模式具有较大的差异性,模式结构多样性(线性结构和非线性结构),这就对相应的软件过程管理系统中的时间序列的建模方法和系统的适应性提出了要求。(3)由于软件更新速度很快并且软件过程的主要执行者是人,软件过程管理平台中的软件过程时序数据通常样本较小,而稳定的时序数据更少:相对于传统的工业过程中的生产设备产生的时序数据,由软件过程开发人员,团队和组织产生的存储于软件过程管理系统中的软件过程时序数据具有小样本,采集频度相对较低(一般为人月,人时,在PSP更细粒度等级推荐为分钟,而制造过程的时序数据甚至可得到秒级),缺失数据造成的不确定性等特点。
由于软件过程具有对人员的严重依赖特性,已知的对软件过程管理系统存储的软件过程时序数据的分析方法主要采用的方案为:软件过程实施人员手工收集过程执行数据,进而分析表格绘制出的趋势图以便分析过程数据的趋势,周期等特性。这些方法在实际应用时存在两个主要问题:(1)时间序列模型结构复杂,难以解释,这种依赖于人员经验的手工分析方法,难以适应软件过程数据的复杂性,以及分析的直观性和客观性需求;(2)模型的参数估计不能保证最小均方误差。(3)缺乏一种客观的自动化的从软件过程管理系统中的时序数据进行多步预测的方法。
发明内容
本发明的目的是针对上述问题,充分利用自回归求和移动平均及最小均方误差估计方法在软件过程时序数据分析中的优势,提供一种对软件过程管理系统的时序数据库中的时序数据进行挖掘以进行多步预测的方法和系统,针对系统中软件过程时序数据的特点实现软件过程的量化自动化分析和监控。发明构思为:所述方法从软件过程管理系统的时序数据库自动提取软件过程时序数据,对软件过程时序数据采用自回归求和移动平均的方法建立时序数据的自回归求和移动平均(ARIMA)模型,然后将ARIMA参数估计建模成一种确保最小均方误差估计的最优化约束求解问题,进而求解该优化问题,将该约束求解优化问题求解出的参数结果代入ARIMA模型,得到ARIMAmmse模型,然后利用所建立的ARIMAmmse模型进行软件过程时序数据的周期,趋势和异常等特性分析。所述的系统根据所提供的方法实现了从软件过程管理系统中自动提取软件过程时序数据,基于自回归求和移动平均的时序数据建模,基于最小均方误差的参数估计,对软件过程时序数据的趋势等特性的分析,为量化软件过程管理提供了决策支持。
为实现上述发明目的,基于软件过程时序数据自动挖掘的多步预测系统采用下述的技术方案:
一种基于软件过程时序数据自动挖掘的多步预测系统,包括数据分析层和软件过程时序数据库层,其特征在于
所述软件过程时序数据库存储软件过程管理系统的软件过程时序数据;
所述数据分析层包括
一软件过程时序数据提取器,用于自动从所述软件过程时序数据库提取软件过程时序数据;
一软件过程时序数据稳定性分析器,用于判断软件过程时序数据的稳定性;
一软件过程时序数据差分器,用于对软件过程时序数据进行多阶差分,直至稳定性分析器判定差分后的软件过程时序数据稳定;
一自回归阶数识别器,用于识别软件过程时序数据的自回归阶数;
一移动平均阶数识别器,用于识别软件过程时序数据的移动平均阶数;
一参数估计器,用于采用基于确保最小均方误差的参数估计方法估计软件过程时序数据的自回归系数和移动平均系数;
一时序数据趋势分析器,用于根据ARIMAmmse模型计算时序数据的多步预测值。
所述系统还包括一访问界面层,包括
一软件过程时序数据流览界面,用于显示提取的软件过程时数据;
一软件过程时序数据输入界面,用于输入软件过程时序数据;
一软件过程时序数据更新界面,用于修改软件过程时序数据;
一软件过程时序数据删除界面,用于删除软件过程时序数据;
一软件过程时序数据趋势预测界面,用于显示软件过程时序数据的多步预测值;
一软件过程时序数据相关性/自相关性分析界面,用于对偏自相关图/自相关图进行分析。
所述软件过程时序数据库选自个体软件过程时序数据库,小组软件过程时序数据库或组织软件过程时序数据库。
一种基于软件过程时序数据自动挖掘的多步预测方法,其步骤包括
1)调用软件过程时序数据提取器,从软件过程管理系统中提取软件过程时序数据;
2)调用软件过程时序数据差分器,对从步骤1)中得到的软件过程时序数据进行多阶差分,直至得到稳定的软件过程时序数据,并记录此时的差分阶数;
3)调用自回归阶数识别器和移动平均阶数识别器,识别软件过程时序数据的自回归阶数和移动平均阶数;
4)调用参数估计器,采用基于确保最小均方误差的参数估计方法估计自回归系数和移动平均系数;
5)根据上述差分阶数,自回归阶数,移动平均阶数,自回归系数和移动平均系数得到该软件过程时序数据的ARIMAmmse模型;
6)根据上述模型得到该软件过程时序数据的多步预测值。
所述的方法对从软件过程管理系统中提取的软件过程数据做取对数操作,得到归一化的软件过程时序数据。
所述的方法采用游程检验方法对软件过程时序数据的稳定性进行判断。
所述软件过程时序数据取自个体软件过程时序数据库,小组软件过程时序数据库,或组织软件过程时序数据库。
本发明的技术效果在于:(1)在数据层,融合现代软件过程全面质量管理的理念,对软件过程的不同层次(个体软件过程(PSP),小组软件过程(TSP),组织软件过程(CMM))时序数据进行分析;(2)对软件过程时序数据的趋势预测进行全面分析;(3)采用的自回归求和移动平均及最小均方误差的时序数据分析方法能有效刻画软件过程时序数据特性;(4)自动和图表化的时序数据趋势和周期显示和预测功能,为软件过程管理人员提供了有效的可视化的量化决策辅助支持。
附图说明
图1本发明系统结构示意图;
图2本发明方法流程图;
图3软件过程时序分析用户使用图;
图4自回归系数图;
图5预测结果的趋势图。
具体实施方式
下面结合附图,以针对个体软件过程层面(如图1)的软件过程生产率时序数据的分析为实例,对本发明作进一步的说明,但不构成对本发明的限制。
一种基于软件过程时序数据自动挖掘的多步预测系统,其采用当前流行的三层架构模式,具体实现如图1所示,其主要包括访问界面层、时序数据分析层、软件过程数据库三层结构。其中所述访问界面层主要实现了对用户的输入和向用户输出的处理;其中所述时序数据分析层主要负责处理整个系统的业务逻辑;其中所述的软件过程数据库层主要负责软件过程管理系统中软件过程任务相关的数据存储和检索。所采用的访问界面层/时序数据分析层/软件过程数据库三层结构将整个系统的表现层和业务逻辑进行合理划分,保障了系统较强的可扩展性和重用性,具体实现包括:
A.访问界面层包括时序数据维护界面区和时序数据分析结果界面区两大功能区。时序数据维护界面区主要实现了对时间序列数据的维护(包括浏览,输入,更新和删除等操作)。时序数据分析结果界面区主要实现了时序分析结果的展示(包括趋势预测结果,相关性/自相关性分析等)。
其中时序数据维护界面区包括:
A1:软件过程时序数据浏览界面;
A2:软件过程时序数据输入界面;
A3:软件过程时序数据更新界面;
A4:软件过程时序数据删除界面;
时序数据分析结果界面区包括:
A5:软件过程时序数据趋势预测界面;
A6:软件过程时序数据相关性/自相关性分析界面。该界面对偏自相关图/自相关图进行分析。
B.时序数据分析层。包括,软件过程时序数据提取器,时序数据稳定性分析器,时序数据差分器,自回归阶数识别器,移动平均阶数识别器、参数估计器、时序数据趋势分析器。
所述时序数据分析层的功能模块分别包含如下功能:
B1软件过程时序数据提取器,本提取器从软件过程管理系统的数据库中自动提取时序数据。提取的数据包括但不限于数据库中的时间,生产率,缺陷数等字段存储的数据。其中时间字段是必须提取的字段。
B2时序数据稳定性分析器,其中时序数据稳定性规则为:“提取软件过程样本数据,判断其顺序没有明显的趋势,则该数据为平稳的,否则为非稳定的”。分析器为本层其它分析器提供了经稳定性加工过滤后的时序数据。本分析器采用一种游程检验算法来判断软件过程时间序列的稳定性。
定义1软件过程时序数据X={x(1),x(2),...,x(t),...,x(n)}。
定义2
Figure A20071011964200091
为X的均值。
定义3N1为X中 x i ≥ x ‾ 的总数。
定义4N2为X中 x ‾ ≥ x i 的总数。
定义5r为游程数。
所采用的游程检验算法的基本思想:为对于显著水平α=0.05的双边检验,查询现有的游程概率分布表为α/2=0.25时的上限ru和rl。如果r在界限内,则接受原假设,否则拒绝原假设。
B3.时序数据差分器。该模块利用Box-Jennis提出的差分算法,将输入的软件过程时间序列数据进行差分运算并识别出时序数据的差分阶数d。所采用的Box-Jennis的差分算法伪码描述所下示。
算法:时序数据差分算法
输入:软件过程时序数据X={x(1),x(2),...,x(t),...,x(n))。
输出:差分后时序数据Y={y(1),y(2),...,y(t),...,y(n-1))
1.For i=1 to(n-1)do
2.Y(i)=x(i+1)-x(i);
3.End For
4.Return Y.
定义6Δ是前向差分算子,Δy(t)=y(t+1)-y(t)。用Δ作为本时序差分器的数学表达。
本差分器在每次差分后分析自回归系数图(如图4)并计算和判定出即将建立的时序数据模型的差分阶数。差分阶数d的识别算法规则包括:
规则1自回归系数显著地降低到0的阶数为差分阶数d。
规则2如果时间序列1阶自回归系数小于或等于0,对该序列进行更高一阶差分,差分阶数d加1。
规则3自回归系数的最优阶数d=标准偏差取最小值。
B4自回归阶数识别器。本识别器采用自回归阶数(P)识别算法识别时序数据的自回归系数。自回归阶数p的识别算法的规则包括:
规则4如果时间序列的偏自相关图表现出一个尖锐突变或者1阶自相关系数为正,则p+1。
规则5偏自相关图突变时,停止循环增加p,返回当前计数p值(自回归项数)。
B5移动平均阶数识别器。本识别器调用移动平均阶数(q)识别算法识别移动平均阶数。移动平均阶数模块识别q的算法规则包括:
规则6如果时间序列的自相关图表现出一个尖锐突变或者1阶自相关系数为负,则q+1;
规则7自相关图突变时,停止循环增加q,返回当前计数q值(移动平均项数)。
B6参数估计器。本估计器采用自回归求和移动平均和确保最小均方误差的算法估算所建立的ARIMA模型(模型具体结构参见书籍:George E.P.Box etc,Time Series Analysis:Forecasting and Control 2nd ed.San Francisco,CA:Holden-Day,1970.)的自回归参数{φ1,φ2,...,φp}和移动平均参数{θ1,θ2,...,θq},将上述参数带入ARIMA模型后得到自回归求和移动平均和确保最小均方误差模型(ARIMAmmse)。ARIMAmmse模型所用算法的基本思想为:由于本发明的目的是保持预测结果取得最小均方误差,故本算法将对所建立的ARIMA模型(Φp(B)Δdy(t)=θq(B)α(t))进行参数估计的问题建模为一个基于最小均方误差(MMSE)的约束优化问题。核心是将最小均方误差(MMSE)作为约束优化模型的一个目标函数,而将已建立的ARIMA模型作为约束优化模型的一个约束,进而通过求解约束优化问题得到ARIMA的参数。由于该问题是以MMSE作为优化目标,从而求解出的ARIMA的参数必然满足了最小均方误差这个目标。确保最小均方误差的参数估计约束优化求解为:
min v = ( Σ t = 1 T [ A ( t ) - avg ] 2 ) / ( T - 1 )
s . t . A ( t ) = y ′ ( t ) - y ( t ) avg = ( Σ t = 1 T A ( t ) ) / T y ′ ( t ) = Σ i = 1 p φ i ′ y ( t - i ) + Σ j = 1 q θ j ′ α ′ ( t - j ) .
其中v指代最小均方误。优化目标为最小化v. y ′ ( t ) = Σ i = 1 p φ i ′ y ( t - i ) + Σ j = 1 q θ j ′ α ′ ( t-j ) 是所建立的ARIMA模型,是一个约束条件。y′(t)指代对软件生产率y(t)的预测值。avg指代预测误差的均值。α′(t)是对白噪音的估计值。利用最小均方误差(MMSE)对ARIMA模型进行求解得到自回归参数{φ1,φ2,...,φp}和移动平均参数{θ1,θ2,...,θq}。
B7时序数据趋势分析器。时序数据趋势分析器调用时序趋势分析算法进行软件过程时序数据的趋势分析。时序趋势分析算法的基本步骤包括:
(1)调用用自回归阶数识别器识别出时序数据的自回归阶数p;
(2)调用移动平均阶数识别器识别出时序数据的移动平均阶数q。
(3)基于所计算出的差分阶数d,自回归阶数p,移动平均阶数q,建立起时序数据的自回归求和移动平均(ARIMA)模型:Φp(B)Δdy(t)=θq(B)α(t),其中Φp=1-φ1B-φ2B2-...-φpBp,Θq=1-θ1B-θ2B2-...-θqBq,Δdy(t)=w(t),w(t)=y(t)-y(t-1)。B是后向偏移算子,Bw(t)=w(t-1),Δ是前向差分,Φp(θq)是第p(q)阶的系数。
(4)再次扫描时序数据Y,调用参数估计器对自回归系数和移动平均系数进行估计。
(5)在参数估计器完成参数估计后,本分析器成功建立了时序数据Y的ARIMAmmse模型并可以用于多步预测。本分析器此时调用原始的时序数据和所建立的Φp(B)Δdy(t)=θq(B)α(t)时序模型预测未来的多步值。
C.软件过程数据库层。该层主要包括软件过程个体层次数据,软件过程小组层次数据以及软件过程组织层次数据。其中,所述软件过程数据库层的三个部分分别存储如下的内容:
C1.软件过程个体层次数据库:存储软件过程中个体(如程序员,项目经理,质量保证人员)的执行数据(如生产率、代码行,所负责任务的缺陷等)。个体层次数据库依据个人软件过程(PSP)定制的模板和表格进行设计。
C2.软件过程小组层次数据库:存储过程中各小组(如项目组,QA组等)的执行数据(如,小组的生产率,工作量等)。本小组层次数据库主要负责存储反映小组层次过程执行情况的数据,参照小组软件过程(TSP)进行设计。
C3.软件过程组织层次数据库:存储软件过程中反映组织层次任务执行性能的数据(如组织生产率,组织过程执行情况),组织层次数据库主要负责存储反映组织层次过程项目执行情况的数据,参照能力成熟度模型(CMM)中的模板进行设计。
一种基于软件过程时序数据自动挖掘的多步预测方法,其流程(如图2)为:
S1:提取软件过程时序数据:从软件过程数据库层(C)中的个体软件过程库C1提取出生产率时间序列X={x(1),x(2),...,x(t),...,x(n)})。所述的软件过程个体(如:程序员)历史生产率(P)基本定义为:P=Size/Effort。其中Size是个体所负责的开发任务的工作产品程序代码行(单位为:LOC)。Effort为个体所负责的开发任务的工作量(单位为:人时PH)。其中x(t)为从个体软件过程数据中提取出的开发人员生产率时序数据。由于时间序列分析技术的基本假设为数据样本满足正体分布,从而本发明系统首先采取对时间序列数据取对数的方法以对其进行归一化处理,系统处理后得到Y=lnX={lnx(1),lnx(2),..,lnx(t),...,lnx(n)}.所提取出的数据实例X={x(1),x(2),...,x(t),...,x(n)})如下所示:
PrN.  OBP  PrN.  OBP
 1  0.5585  11  0.7578
 2  0.3902  12  0.9878
 3  0.8792  13  0.6566
 4  0.8828  14  0.7807
 5  0.8140  15  0.6544
 6  0.6247  16  0.6094
 7  0.7781  17  1.0588
 8  0.6022  18  0.7130
 9  0.8554  19  0.5100
 10  0.6347  20  0.4500
其中OBP为观察的软件生产率数据值x(t)(t=1,...,20)。
S2:识别差分阶数d。将S1得到的时序数据Y输入B3(时序数据差分器)进行多阶差分(y’(t)=y(t)-y(t-1)),将每次得到的差分后的时序数据输入B2(时序数据稳定性分析器)中执行稳定性判断。如果B1判定该差分序列不稳定则继续差分,否则停止差分并输出本次的差分阶数D和当前稳定的时间序列。在输出差分阶数后,调用自回归阶数识别器计算自回归系数,分析自回归系数图(如图4)确定当前数据稳定时的阶数作为即将建立的时序数据模型的差分阶数。由于差分阶数的判定规则为:自回归系数显著地降低到0的阶数为差分阶数。在本实例中图4中自回归系数在为1时显著地降为0,故差分阶数为1。
S3:识别自回归阶数p和移动平均阶数q。调用自回归阶数识别器识别出时序数据的自回归阶数p,然后调用移动平均阶数识别器识别出时序数据的移动平均阶数q。至此,建立的软件过程时序数据{y(t)}(t=1,..,T)的ARIM(p,d,q)A模型为ARIMA(0,1,1):
Φp(B)Δdy(t)=θq(B)α(t),
S4:估计ARIMA模型参数。调用参数估计器,运用基于确保最小均方误差的算法来估计参数(自回归系数和移动平均系数)。至此基于所计算出的差分阶数d,自回归阶数和移动平均阶数,建立模型(Φp(B)Δdy(t)=θq(B)α(t))。
所建立的参数估计约束优化模型为:
min v = ( Σ t = 1 T [ A ( t ) - avg ] 2 ) / ( T - 1 )
s . t . A ( t ) - y ′ ( t ) - y ( t ) avg = ( Σ t = 1 T A ( t ) ) / T y ′ ( t ) = Σ i = 1 p φ i ′ y ( t - i ) + Σ j = 1 q θ j ′ α ′ ( t - j ) .
其中v指代最小均方误。优化目标为最小化v. y ′ ( t ) = Σ i = 1 p φ i ′ y ( t - i ) + Σ j = 1 q θ j ′ α ′ ( t-j ) 是S3步所建立的ARIMA模型,是一个约束条件。y′(t)指代对软件生产率y(t)的预测值。avg指代预测误差的均值。α′(t)是对白噪音的估计值。
S5:预测软件过程时序数据未来趋势。本分析器调用时序数据趋势分析器进行时序的未来值预测。主要功能包括调用时序数据Y=lnX={1nx(1),lnx(2),..,lnx(t),...,lnx(n)}和建立的Φp(B)Δdy(t)=θq(B)α(t)时序模型预测出未来值y(t+1),y(t+k),k为步长为k的预测值。本实例得到y′(t)=λy(t-1)+y′(t-1)(1-λ),基于此模型对时序数据进行单步预测。最后系统得到的预测序列结果如下所示:
PrN. ARIMAmmse  PrN. ARIMAmmse
 1  0.5586  11  0.6922
 2  0.3381  12  0.7320
 3  0.3702  13  0.8868
 4  0.6783  14  0.7474
 5  0.8021  15  0.7676
 6  0.8093  16  0.6991
 7  0.6976  17  0.6448
 8  0.7464  18  0.8954
 9  0.6652  19  0.7832
 10  0.7803  20  0.6178
其中ARIMAmmse为预测的软件生产率数值。在所发明的时序数据分析系统中的预测结果的趋势图为图5所示。其中OBP为实际观察到的软件生产率时序数据值。ARIMAmmse为采用本专利预测时序生产率数值。UI为该预测值的误差上区间。LI为该预测误差的误差下区间。
上述实施例中既包含了对本发明系统的描述,本领域的技术人员应能理解,软件过程时序数据分析的过程也包含在其中,依照本实施例,本领域的技术人员可以很容易地实现基于自回归求和移动平均的软件生产率时序数据分析。

Claims (7)

1.一种基于软件过程时序数据自动挖掘的多步预测方法,其步骤包括
1)调用软件过程时序数据提取器,从软件过程管理系统中自动提取软件过程时序数据;
2)对上述软件过程时序数据调用时序数据差分器进行多阶差分,直至得到稳定的软件过程时序数据,并记录此时的差分阶数;
3)调用自回归阶数识别器和移动平均阶数识别器计算软件过程时序数据的自回归阶数和移动平均阶数;
4)调用参数估计器,采用基于确保最小均方误差的参数估计方法估计自回归系数和移动平均系数;
5)根据上述差分阶数,自回归阶数,移动平均阶数,自回归系数和移动平均系数得到该软件过程时序数据的ARIMAmmse模型;
6)根据上述模型得到该软件过程时序数据的多步预测值。
2.如权利要求1所述的方法,其特征在于将从软件过程管理系统中提取的软件过程数据做取对数操作,得到归一化的软件过程时序数据。
3.如权利要求1所述的方法,其特征在于采用游程检验方法对软件过程时序数据的稳定性进行判断。
4.如权利要求1所述的方法,其特征在于所述软件过程时序数据取自个体软件过程时序数据库,小组软件过程时序数据库,或组织软件过程时序数据库。
5.一种基于软件过程时序数据自动挖掘的多步预测系统,包括数据分析层和软件过程时序数据库层,其特征在于
所述软件过程时序数据库存储软件过程管理系统的软件过程时序数据;
所述数据分析层包括
一软件过程时序数据提取器,用于从所述软件过程时序数据库提取软件过程时序数据;
一软件过程时序数据稳定性分析器,用于判断软件过程时序数据的稳定性;
一软件过程时序数据差分器,用于对软件过程时序数据进行多阶差分,直至稳定性分析器判定差分后的软件过程时序数据稳定;
一自回归阶数识别器,用于识别软件过程时序数据的自回归阶数;
一移动平均阶数识别器,用于识别软件过程时序数据的移动平均阶数;
一参数估计器,用于采用确保最小均方误差的参数估计方法估计软件过程时序数据的自回归系数和移动平均系数;
一软件过程时序数据趋势分析器,用于根据ARIMAmmse模型计算时序数据的多步预测值。
6.如权利要求5所述的系统,其特征在于还包括一访问界面层,包括
一软件过程时序数据流览界面,用于显示提取的软件过程时数据;
一软件过程时序数据输入界面,用于输入软件过程时序数据;
一软件过程时序数据更新界面,用于修改软件过程时序数据;
一软件过程时序数据删除界面,用于删除软件过程时序数据;
一软件过程时序数据趋势预测界面,用于显示软件过程时序数据的多步预测值;
一软件过程时序数据相关性/自相关性分析界面,用于对偏自相关图/自相关图进行分析。
7.如权利要求5所述的系统,其特征在于所述软件过程时序数据库选自个体软件过程时序数据库,小组软件过程时序数据库或组织软件过程时序数据库。
CN 200710119642 2007-07-27 2007-07-27 基于软件过程时序数据自动挖掘的多步预测方法和系统 Pending CN101093445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710119642 CN101093445A (zh) 2007-07-27 2007-07-27 基于软件过程时序数据自动挖掘的多步预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710119642 CN101093445A (zh) 2007-07-27 2007-07-27 基于软件过程时序数据自动挖掘的多步预测方法和系统

Publications (1)

Publication Number Publication Date
CN101093445A true CN101093445A (zh) 2007-12-26

Family

ID=38991723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710119642 Pending CN101093445A (zh) 2007-07-27 2007-07-27 基于软件过程时序数据自动挖掘的多步预测方法和系统

Country Status (1)

Country Link
CN (1) CN101093445A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902574A (zh) * 2012-09-24 2013-01-30 东软集团股份有限公司 一种多信息流节点的协同处理方法及装置
CN103930912A (zh) * 2011-11-08 2014-07-16 国际商业机器公司 时序数据分析方法、系统和计算机程序
CN105243393A (zh) * 2015-10-27 2016-01-13 长春工业大学 一种基于特征的复杂机电系统故障预报方法
CN107918660A (zh) * 2017-11-21 2018-04-17 清华大学 基于多阶差分网络的高频时序数据处理方法
CN108803538A (zh) * 2018-07-31 2018-11-13 山东超越数控电子股份有限公司 一种基于时序数据库的工厂监测系统与方法
CN110362365A (zh) * 2018-03-26 2019-10-22 吕纪竹 一种实时预测流数据变化趋势的方法
CN111639270A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种基于时间序列预测与层次分析的路线规划方法
CN111881058A (zh) * 2020-08-07 2020-11-03 北京神舟航天软件技术有限公司 一种软件工程质量预测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930912A (zh) * 2011-11-08 2014-07-16 国际商业机器公司 时序数据分析方法、系统和计算机程序
CN102902574A (zh) * 2012-09-24 2013-01-30 东软集团股份有限公司 一种多信息流节点的协同处理方法及装置
CN102902574B (zh) * 2012-09-24 2015-03-25 东软集团股份有限公司 一种多信息流节点的协同处理方法及装置
CN105243393A (zh) * 2015-10-27 2016-01-13 长春工业大学 一种基于特征的复杂机电系统故障预报方法
CN107918660A (zh) * 2017-11-21 2018-04-17 清华大学 基于多阶差分网络的高频时序数据处理方法
CN110362365A (zh) * 2018-03-26 2019-10-22 吕纪竹 一种实时预测流数据变化趋势的方法
CN110362365B (zh) * 2018-03-26 2024-02-13 吕纪竹 一种实时预测流数据变化趋势的方法
CN108803538A (zh) * 2018-07-31 2018-11-13 山东超越数控电子股份有限公司 一种基于时序数据库的工厂监测系统与方法
CN111639270A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种基于时间序列预测与层次分析的路线规划方法
CN111881058A (zh) * 2020-08-07 2020-11-03 北京神舟航天软件技术有限公司 一种软件工程质量预测方法
CN111881058B (zh) * 2020-08-07 2023-09-22 北京神舟航天软件技术有限公司 一种软件工程质量预测方法

Similar Documents

Publication Publication Date Title
CN101093445A (zh) 基于软件过程时序数据自动挖掘的多步预测方法和系统
Nord et al. In search of a metric for managing architectural technical debt
Grosfeld-Nir et al. Multiple lotsizing in production to order with random yields: Review of recent advances
US7272817B1 (en) Method and apparatus for modeling a business process to facilitate evaluation of driving metrics
CN114037311B (zh) 一种信息系统工程监理项目风险评估方法
EP3188096A1 (en) Data analysis for predictive scheduling optimization for product production
CN110019401A (zh) 件量预测方法、装置、设备及其存储介质
CN109961248A (zh) 运单投诉预测方法、装置、设备及其存储介质
CN111401801B (zh) 一种确定目标物品仓库分散化存储的处理系统、方法
US20140365403A1 (en) Guided event prediction
Gohar et al. Identifying and evaluating risks of construction projects in fuzzy environment: a case study in Iranian construction industry
Strang Importance of verifying queue model assumptions before planning with simulation software
CN110059052A (zh) 一种炼化调度案例管理方法及计算机可读存储介质
Balaban et al. Business process performance management: Theoretical and methodological approach and implementation
CN106407305A (zh) 一种数据挖掘系统和方法
CN104715348A (zh) 综合商业智能分析方法及系统
CN103761618A (zh) 一种电网科技项目控制方法及系统
US20130110473A1 (en) Method and system for solution of models
CN116843378A (zh) 一种基于深度学习的五金配件供应预测方法及系统
Maniezzo et al. Stochastic premarshalling of block stacking warehouses
CN100517225C (zh) 自动挖掘软件过程任务仓库中的高性能任务的方法和系统
US20090157448A1 (en) System and methods for process analysis, simulation, and optimization based on activity-based cost information
Khalili-Damghani et al. Measuring efficiency of just in time implementation using a fuzzy data envelopment analysis approach: real case of Iranian dairy industries
CN113779391B (zh) 基于建模的智能锁开锁推荐方法、系统、装置及存储介质
CN110163470A (zh) 事件评估方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication