CN113742248A - 一种基于项目测量数据进行组织过程预测的方法及系统 - Google Patents

一种基于项目测量数据进行组织过程预测的方法及系统 Download PDF

Info

Publication number
CN113742248A
CN113742248A CN202111285639.5A CN202111285639A CN113742248A CN 113742248 A CN113742248 A CN 113742248A CN 202111285639 A CN202111285639 A CN 202111285639A CN 113742248 A CN113742248 A CN 113742248A
Authority
CN
China
Prior art keywords
model
project
prediction
measurement
measurement data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111285639.5A
Other languages
English (en)
Inventor
何景文
张瑾茹
赵亚舟
雒乐
邵朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Keyware Co ltd
Original Assignee
Beijing Keyware Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Keyware Co ltd filed Critical Beijing Keyware Co ltd
Priority to CN202111285639.5A priority Critical patent/CN113742248A/zh
Publication of CN113742248A publication Critical patent/CN113742248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于项目测量数据进行组织过程预测的方法及系统。其中所述方法包括:收集数据:收集已完成项目的测量数据,在所述测量数据找出与组织过程有关的测量项;建立预测模型:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;检查验证:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;模型修正:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;报告预测结论:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。

Description

一种基于项目测量数据进行组织过程预测的方法及系统
技术领域
本发明涉及项目预测分析技术领域,尤其是涉及一种基于项目测量数据进行组织过程预测的方法及系统。
背景技术
随着技术的进步和软件应用领域的拓宽,对软件的需求不断增长,更大规模、更健壮、更可靠的软件成为人们追求的目标,软件开发者越来越多的碰到诸如需求变更频繁、项目进度延期、成本失控、产品质量等情况。因此,对软件开发管理的要求也越高,必须有对软件开发过程的精确的、可预测的、可重复的控制,于是预测分析被引入软件组织中,以获得对开发过程的量化和洞察。这对于更好的理解开发过程、标识存在的问题和改进的时机十分重要。只有当一个组织能够对其生产的产品能够做出预测和承诺,那样组织才算成功的。
预测分析技术是一类数据分析,目的是根据历史数据和分析技术(如统计建模和机器学习)对未来结果进行预测。预测分析科学可以以很高的精度形成对未来的见解。借助先进的预测分析工具和模型,任何组织现在都可以利用过去和当前数据来可靠地预测未来几毫秒、几天或几年的趋势和行为。
项目在开发过程中会存在很多风险,这些风险可能会影响到项目的开发进度;需求的变动、人员的流动、范围、质量因素对进度的影响等;为了确保项目能够顺利进行,尽量规避风险,进行组织过程预测就显得极为重要。
因此,如何利用项目测量数据进行组织过程预测,是本领域技术人员目前需要解决的技术问题。为解决上述问题,本发明提供了一种基于项目测量数据进行组织过程预测技术,能够实现由项目测量数据预测组织过程,能够有效的规避组织风险。
发明内容
本发明的目的在于提供一种基于项目测量数据进行组织过程预测的方法及系统,以解决现有技术中存在的技术问题。
本发明第一方面提供了一种基于项目测量数据进行组织过程预测的方法,包括:
S1:收集数据:收集已完成项目的测量数据,在所述测量数据找出与组织过程有关的测量项;
S2:建立预测模型:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
S3:检查验证:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
S4:模型修正:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
S5:报告预测结论:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
在一些实施例中,所述测量数据包括:项目工作量、阶段工作量、项目实际规模、项目进度偏差、工作量偏差、项目平均生产率、项目缺陷数、项目风险数、风险占比、不符合项数量、不符合项关闭率、测试缺陷密度、需求变更数。
在一些实施例中,所述与组织过程有关的测量项包括:项目工作量、阶段工作量、项目实际规模、工作量偏差、项目平均生产率、风险占比、不符合项数量。
在一些实施例中,所述预测模型为多元线性回归预测模型。
在一些实施例中,为了便于进行模型参数估计,对多元线性回归预测模型进行了多种假设,包括:零均值假定、正态性假定、同方差和无自相关假定、无序列相关假定和无多重共线性假定。
在一些实施例中,所述多元线性回归预测模型的参数估计方法为最小二乘法。
本发明第二方面提供了一种基于项目测量数据进行组织过程预测的系统,包括:
数据收集模块、预测模型建模模块、检查验证模块、模型修正模块和报告预测模块;
所述数据收集模块:收集已完成项目的测量数据,在所述测量数据找出与组织过程有关的测量项;
所述预测模型建模模块:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
所述检查验证模块:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
所述模型修正模块:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
所述报告预测模块:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
在一些实施例中,所述预测模型为多元线性回归预测模型。
在一些实施例中,为了便于进行模型参数估计,对多元线性回归预测模型进行了多种假设,包括:零均值假定、正态性假定、同方差和无自相关假定、无序列相关假定和无多重共线性假定。
在一些实施例中,所述多元线性回归预测模型的参数估计方法为最小二乘法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本方法利用多元线性回归模型,对所收集的项目测量数据进行整理分析、建模找出影响组织过程的测量指标,由此可见本发明达到了利用项目测量数据进行组织过程预测的目的。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施方案示出的一种基于项目测量数据进行组织过程预测的方法流程图;
图2为根据本发明实施方案示出的基于项目测量数据进行组织过程预测的方法的多元线性回归模型建立流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1和图2所示,本发明第一方面提供了一种基于项目测量数据进行组织过程预测的方法,所述方法包括:
S1:收集数据:收集已完成项目的测量数据,使用列表、柱状图、折线图、饼图等方式对收集到的数据进行分析整理,在所述测量数据找出与组织过程有关的测量项;
S2:建立预测模型:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
S3:检查验证:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
S4:模型修正:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
S5:报告预测结论:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
在一些实施例中,具体地,所述测量数据包括:项目工作量、阶段工作量、项目实际规模、项目进度偏差、工作量偏差、项目平均生产率、项目缺陷数、项目风险数、风险占比、不符合项数量、不符合项关闭率、测试缺陷密度、需求变更数。
其中,所述与组织过程有关的测量项包括:项目工作量、阶段工作量、项目实际规模、工作量偏差、项目平均生产率、风险占比、不符合项数量。
在一些实施例中,进一步,所述预测模型为多元线性回归预测模型,使用多元线性回归预测模型对项目测量指标进行分析预测,可对组织过程文件定义的过程进行定性分析,结合项目测量数据进行定量分析,获取关键过程指标信息,形成可量化的关键过程定义度量数据集。
根据上述方法,进一步,在建立多元回归的预测模型之前,从多元线性回归模型的一般形式、模型的基本假设、多元线性回归方程三个方面分析了解多元回归的预测模型;为了便于进行模型参数估计,对多元线性回归预测模型进行了多种假设,包括:零均值假定、正态性假定、同方差和无自相关假定、无序列相关假定和无多重共线性假定。
其中,在一些实施例中,所述多元线性回归预测模型的参数估计方法为最小二乘法。
在一些实施例中,模型检验分为四种方式,回归方程的拟合优度检验:拟合优度一般用于检验样本回归直线对观测值的拟合度;回归方程的整体显著性检验:在一元线性回归中,回归系数显著性检验t检验与回归方程显著性检验的F检验是等价的,但是在多元线性回归中,就不等价了。F检验显著是说明对自变量x整体的线性回归效果显著的,但不等于y对于每一个自变量x的效果都显著;反之也不成立;回归系数的显著性检验:在多元线性回归中,回归方程显著并不意味着每个自变量对因变量y的影响都是显著的,因此需要对每个回归系数进行显著性检验;残差分析:一个估计回归方程可能有较高的判定系数,也可能通过显著性检验,但是并不能说就是一个好模型,因为这些都是建立在模型假设基础上的,如果最初模型假设不真实,就要用残差分析验证。
通过模型检验发现预测的指标都可以影响到组织过程,说明模型是正确的,这时候无须对模型进行修正。
本方法利用多元线性回归模型,对所收集的项目测量数据进行整理分析、建模找出影响组织过程的测量指标,由此可见本发明达到了利用项目测量数据进行组织过程预测的目的。
实施例2:
本发明第二方面提供了一种基于项目测量数据进行组织过程预测的系统,所述系统包括:
数据收集模块、预测模型建模模块、检查验证模块、模型修正模块和报告预测模块;
所述数据收集模块:收集已完成项目的测量数据,在所述测量数据找出与组织过程有关的测量项;
所述预测模型建模模块:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
所述检查验证模块:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
所述模型修正模块:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
所述报告预测模块:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
在一些实施例中,具体地,所述预测模型为多元线性回归预测模型。
为了便于进行模型参数估计,在一些实施例中,对多元线性回归预测模型进行了多种假设,包括:零均值假定、正态性假定、同方差和无自相关假定、无序列相关假定和无多重共线性假定。
根据上述方法,进一步,所述多元线性回归预测模型的参数估计方法为最小二乘法。
实施例3:
根据实施例1所述的一种基于项目测量数据进行组织过程预测的方法,在一些具体的项目中实施和应用本方法,具体如下:
S1:收集数据:收集已完成项目的测量数据,使用列表、柱状图、折线图、饼图等方式对收集到的数据进行分析整理,在所述测量数据找出与组织过程有关的测量项;
在一些具体的项目和实施例中,收集已有项目的测量指标数据,下面列出18个项目级的测量指标数据。
1) 需求变更率
测量目标:分析与衡量项目需求的稳定程度,并评价客户的成熟度以及单位挖掘或理解用户需求的能力。
测量函数:需求数量变更率=累计需求变更数/需求总数量 * 100
基本测量及收集时间:
新增需求的数量:每个阶段收集
删除需求的数量:每个阶段收集
修改需求的数量:每个阶段收集
累计需求变更数:每个阶段收集
需求总数量:需求跟踪表建立完毕
2) 规模估算变化率
测量目标:分析与衡量本次规模估算与前次规模估算之间的偏差,提高规模估算的准确度
测量函数:规模偏差率=(本次规模估算-前次规模估算)/前次规模估算 * 100
基本测量及收集时间:
估算规模:每次估算时
合同规模:项目立项时
前次规模估算:每次估算时
3) 规模偏差率
测量目标:分析与衡量进行项目规模估算的准确度
测量函数:规模偏差率=(项目实际规模-第一次估算规模)/第一次估算规模 *100
基本测量及收集时间:
第一次估算规模:首次估算结束时
项目实际规模:验收测试结束时
4) 进度偏差率
测量目标:监控项目的进展状况,衡量项目进度估算的准确度,评价单位按时交付以及结合客户对项目的进度满意情况,来了解用户对延期提交产品的接受程度,度量过程改进效果
测量函数:进度偏差率=(实际周期-计划周期)/计划周期 * 100
基本测量及收集时间:
计划开始时间:每个阶段总结前
计划完成时间:每个阶段总结前
实际开始时间:每个阶段总结前
实际完成时间:每个阶段总结前
计划周期:每个阶段总结前
实际周期:每个阶段总结前
计划周期累计:每个阶段总结前
实际周期累计:每个阶段总结前
周期偏差:每个阶段总结前
项目结束日期:验收测试结束时
最终版计划中的项目验收结束日期:最终版计划完成时
进度推迟天数:每个阶段总结前
5) 交付偏差率
测量目标:衡量产品交付日期状况、评价单位按时交付以及结合用户对项目的进度满意情况,了解用户对延期提交产品的接受程度,度量改进效果
测量函数:交付偏差率=(实际交付日期-计划交付日期)/(计划交付日期-项目启动日期)* 100
基本测量及收集时间:
最终版计划中的交付日期:最终版计划完成时
实际交付日期:实际交付时
项目启动日期:项目启动时
6) 工作量偏差率
测量目标:分析、衡量工作量估算的准确度
测量函数:工作量偏差率=(实际工作量-计划工作量)/计划工作量 * 100
基本测量及收集时间:
计划工作量:项目计划阶段
实际工作量:阶段总结前
7) 工作量分布比率
测量目标:分析、衡量各种工作量在项目中所占的比率,为以后项目工作量的估算提供参考
测量函数:工作量分布比率=各类工作实际工作量/实际总工作量 * 100
基本测量及收集时间:
开发阶段实际工作量:阶段总结前
管理类实际工作量:阶段总结前
返工实际工作量:阶段总结前
客户验收实际工作量:阶段总结前
评审修改实际工作量:阶段总结前
实际总工作量:阶段总结前
8) 引入阶段缺陷比率
测量目标:分析、衡量引入阶段缺陷在项目缺陷中的分布,寻找工作质量的改进点
测量函数:引入阶段缺陷比率=某引入阶段缺陷数/项目总缺陷数 * 100
基本测量及收集时间:
某引入阶段缺陷数:阶段总结时
项目总缺陷数:阶段总结时
9) 引入阶段缺陷截获率
测量目标:分析、衡量各阶段发现问题的能力,寻找加强某个阶段的改进点
测量函数:引入阶段缺陷截获率=某引入阶段在该阶段的发现缺陷数/该引入阶段引入的缺陷数合计 * 100
基本测量及收集时间:
某引入阶段在该阶段的发现缺陷数:阶段总结时
该引入阶段引入的缺陷数合计:阶段总结时
10) 阶段缺陷发现比率
测量目标:判断各个阶段的缺陷分布情况,寻找改进点
测量函数:阶段缺陷发现比率=某阶段发现的缺陷数/项目缺陷总数 * 100
基本测量及收集时间:
某阶段发现的缺陷数:阶段总结时
项目缺陷总数:阶段总结时
11) 缺陷严重程度比率
测量目标:判断不同程度的缺陷类型在缺陷中的分布情况,寻找改进点
测量函数:缺陷严重程度比率=某类严重程度缺陷数/项目缺陷总数 * 100
基本测量及收集时间:
某类严重程度缺陷数:阶段总结时
项目缺陷总数:阶段总结时
12) 缺陷类型比率
测量目标:判断不同类型缺陷的分布情况,寻找改进点
测量函数:缺陷类型比率=某类型缺陷数/项目缺陷总数 * 100
基本测量及收集时间:
某类型缺陷数:阶段总结时
项目缺陷总数:阶段总结时
13) 缺陷原因比率
测量目标:判断产生缺陷的不同原因的分布情况,寻找改进点
测量函数:缺陷原因比率=某原因的类型缺陷数/项目缺陷总数 * 100
基本测量及收集时间:
某原因的类型缺陷数:阶段总结时
项目缺陷总数:阶段总结时
14) 缺陷发现场所比率
测量目标:判断发现缺陷的不同场所的分布情况,寻找改进点
测量函数:缺陷发现场所比率=某发现场所的缺陷数/项目缺陷总数 * 100
基本测量及收集时间:
某发现场所的缺陷数:阶段总结时
项目缺陷总数:阶段总结时
15)测试缺陷密度
测量目标:分析、衡量编码阶段的实际质量状况,及时调整解决措施
测量函数:测试缺陷密度=模块缺陷数/模块实际规模
基本测量及收集时间:
模块缺陷数:测试结束时
模块实际规模:测试结束时
16)交付后缺陷密度
测量目标:分析、衡量产品交付后的产品质量,及时调整解决措施
测量函数:交付后缺陷密度=交付后发现的缺陷数/产品的实际规模
基本测量及收集时间:
交付后发现的缺陷数:产品交付后
产品的实际规模:产品交付后
分析方法:交付后缺陷变化图(阈值图)
说明:分析每次交付或每个产品交付后的缺陷密度,提高产品交付质量
17)测试密度
测量目标:分析、衡量测试是否充分,不断提高测试质量
测量函数:测试密度=模块测试项目数/模块实际规模
基本测量及收集时间:
模块测试项目数:测试结束时
模块实际规模:测试结束时
18)编码及单元测试阶段生产率
测量目标:分析、衡量项目软件开发的生产效率
测量函数:编码及单元测试阶段生产率=模块实际规模(代码行)/该模块编码任务工作量
基本测量及收集时间:
模块实际规模(代码行):模块编码、单元测试结束时
该模块编码任务工作量:模块编码、单元测试结束时
S2:建立预测模型:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
在一些实施例中,多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,…,Xp之间的相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。多元线性回归分析作为一种较为科学的方法,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的具体影响程度。
多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。
1.多元线性回归模型的一般形式
设随机变量y与一般变量
Figure DEST_PATH_IMAGE001
线性回归模型为
Figure 909400DEST_PATH_IMAGE002
模型中Y为被解释变量(组织过程),而
Figure 918814DEST_PATH_IMAGE001
是p个可以精确测量并可控制的一般变量,称为解释变量(测量指标)。p=1时,上式即为一元线性回归模型,p大于2时,上式称为多元线性回归模型。因变量Y由两部分决定:一部分是误差项随机变量
Figure DEST_PATH_IMAGE003
,另一部分是p个自变量的线性函数
Figure 982585DEST_PATH_IMAGE004
。其中,
Figure DEST_PATH_IMAGE005
是p+1个未知参数,
Figure 306118DEST_PATH_IMAGE006
称为回归常数,
Figure DEST_PATH_IMAGE007
称为偏回归系数,它们决定了因变量Y与自变量
Figure 99631DEST_PATH_IMAGE008
的线性关系的具体形式。
Figure DEST_PATH_IMAGE009
是随机误差。
对一个实际问题,如果n组观察数据
Figure 217629DEST_PATH_IMAGE010
,i=1,2,…,n,则线性回归模型可表示为
Figure DEST_PATH_IMAGE011
,i=1,2,…,n
Figure 719761DEST_PATH_IMAGE012
写成矩阵形式为
Figure DEST_PATH_IMAGE013
其中
Figure DEST_PATH_IMAGE015
Figure 502778DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
矩阵
Figure 150797DEST_PATH_IMAGE019
是n(p+1)矩阵,称
Figure DEST_PATH_IMAGE020
为回归设计矩阵或资料矩阵。
2.模型的基本假设
为了便于进行模型参数估计,对线性回归方程进行了如下假设。
零均值假定。即
Figure 519591DEST_PATH_IMAGE021
正态性假定。即
Figure DEST_PATH_IMAGE022
同方差和无自相关假定。即
Figure 823533DEST_PATH_IMAGE023
无序列相关假定(随机项与解释变量不相关)。即
Figure DEST_PATH_IMAGE024
无多重共线性假定。
解释变量
Figure 410241DEST_PATH_IMAGE025
是确定性变量,不是随机变量且
Figure DEST_PATH_IMAGE026
满足
Figure 116029DEST_PATH_IMAGE027
要求。表明设计矩阵的自变量列之间不相关,样本容量的个数应大于解释变量的个数,
Figure 372567DEST_PATH_IMAGE020
是一满秩矩阵。
3.多元线性回归方程
在多元线性回归模型基本假设的基础上,对两边取数学期望,可得y的期望函数为
Figure DEST_PATH_IMAGE028
(i=1,2,…,n )
该方程为多元线性方程为理论回归方程。方程中,参数都是未知的,因此就需要利用样本观测值法去估计他们,如果可以得到参数估计值,则得到多元线性样本回归预测方程
Figure DEST_PATH_IMAGE030
其中
Figure 22860DEST_PATH_IMAGE031
是对参数
Figure DEST_PATH_IMAGE032
的估计。有样本回归方程得到的预测值的估计值
Figure 419118DEST_PATH_IMAGE033
与实际观测值
Figure 120358DEST_PATH_IMAGE034
之间通常会存在一定的偏差,这一偏差称为残差,记为
Figure DEST_PATH_IMAGE035
a)多元线性回归统计预测模型的建立
多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响相对重要性以及测定最优多元线性回归方程的偏离度等。
研究在线性相关条件下,两个或两个以上自变量与一个因变量的数量变化关系,称为多元线形回归分析,求得的数学公式称为多元线形回归模型,多元线形回归模型是一元线形回归模型的扩展。
1.多元回归的预测模型
设因变量y与自变量x1,x2,…,xm-1共有n组实际观测数据,如下表所示。
表1 观测数据表
Figure DEST_PATH_IMAGE037
y是一个可观测的随机变量,它受到m-1个非随机因素x1,x2,…,xm-1和
Figure 141272DEST_PATH_IMAGE038
随机因素的影响。若y与x1,x2,…,xm-1有如下线性关系
Figure DEST_PATH_IMAGE039
其中y为因变量x1,x2,…,xm-1为自变量,
Figure 810020DEST_PATH_IMAGE040
是m个未知参数;
Figure DEST_PATH_IMAGE041
是均值为零,方差为
Figure 207372DEST_PATH_IMAGE042
的不可观测的随机变量,称为误差项,并通常假定
Figure DEST_PATH_IMAGE043
。对于n(n≥p)次独立观测,得到n组数据(样本):
Figure 600002DEST_PATH_IMAGE044
其中
Figure DEST_PATH_IMAGE045
是相互独立的,且服从
Figure 198342DEST_PATH_IMAGE046
分布。
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE049
Figure 151124DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
则 (3.8) 式用矩阵形式表示为:
Figure 696375DEST_PATH_IMAGE052
2.模型参数的估计
回归理论模型确定后,利用收集、整理的样本数据对模型的未知参数给出估计。未知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。
Figure DEST_PATH_IMAGE053
分别是参数
Figure 27999DEST_PATH_IMAGE054
的最小二乘估计,则y的观测值可表示为:
Figure DEST_PATH_IMAGE055
Figure 672607DEST_PATH_IMAGE056
其中k=1,2,…,N。
Figure DEST_PATH_IMAGE057
是误差
Figure 259489DEST_PATH_IMAGE058
的估计值,又令
Figure DEST_PATH_IMAGE059
Figure 795382DEST_PATH_IMAGE060
的估计值,有:
Figure DEST_PATH_IMAGE061
上式为观测值
Figure 184775DEST_PATH_IMAGE062
的回归拟合值,简称回归值或拟合值。相应的,称向量
Figure DEST_PATH_IMAGE063
为因变量向量
Figure 983972DEST_PATH_IMAGE064
的回归值。
根据最小二乘法
Figure DEST_PATH_IMAGE065
应使得全部观测值
Figure 521133DEST_PATH_IMAGE066
与回归值
Figure DEST_PATH_IMAGE067
的偏差平方和Q达到最小。Q是未知参数向量的非负二次函数,Q反映了在n次观察中总的误差程度,Q越小越好。即:
Figure DEST_PATH_IMAGE069
有最小值。由于Q是
Figure 815977DEST_PATH_IMAGE070
的非负二次式,最小值一定存在。根据数学分析的极值原理
Figure 731981DEST_PATH_IMAGE070
应满足下述方程组:
Figure 515129DEST_PATH_IMAGE071
称为正规方程组,将
Figure 133061DEST_PATH_IMAGE073
代入上式整理得:
Figure DEST_PATH_IMAGE074
显然正规方程组的系数矩阵是对称矩阵。令
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE080
则上式可以写为矩阵形式的方程
Figure 400969DEST_PATH_IMAGE081
Figure DEST_PATH_IMAGE082
假设系数矩阵A满秩,求解上述矩阵方程得回归系数β的最小二乘法估计为:
Figure 358430DEST_PATH_IMAGE083
即为回归系数β的最小二乘法估计。
S3:检查验证:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
在一些实施例中,当模型的未知参数估计出来后,初步建立了一个回归模型,但是这个模型是否真正揭示了被解释变量和解释变量之间的关系,在根据因变量与多个自变量的实际观测数据建立多元线性回归方程之前,因变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程之后,还必须对因变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。
1)回归方程的拟合优度检验
拟合优度一般用于检验样本回归直线对观测值得拟合度。在一元线性回归方程中,用判定系数R2衡量估计方程对样本对观测值的拟合程度;在多元线性回归方程中,同样也可以。即SST=SSR+SSE,
其中
Figure DEST_PATH_IMAGE084
为总离差平方和,
Figure 521601DEST_PATH_IMAGE085
为回归平方和,它是反映回归效果的参数,
Figure DEST_PATH_IMAGE086
为残差平方和。式中:
Figure 564512DEST_PATH_IMAGE087
为第i个样本点
Figure DEST_PATH_IMAGE088
上的回归值。式中:
Figure 793368DEST_PATH_IMAGE089
为y的样本平均值。
判定系数R2指因变量y的总变差中能由自由变量所解释的那部分变差的比重,即数学模型为
Figure DEST_PATH_IMAGE090
Figure 261127DEST_PATH_IMAGE091
的值越接近于1,表明回归方程对实际观测值的拟合度效果越好,相反
Figure 730286DEST_PATH_IMAGE091
越接近0,拟合效果越差。
2)回归方程的整体显著性检验
在一元线性回归中,回归系数显著性检验t检验与回归方程显著性检验的F检验是等价的,但是在多元线性回归中,就不等价了。F检验显著是说明对自变量x整体的线性回归效果显著的,但不等于y对于每一个自变量x的效果都显著;反之也不成立。
3)回归系数的显著性检验
在多元线性回归中,回归方程显著并不意味着每个自变量对因变量y的影响都是显著的,因此需要对每个回归系数进行显著性检验。假设
Figure DEST_PATH_IMAGE092
,检验统计量t为
Figure 916286DEST_PATH_IMAGE093
Figure 761882DEST_PATH_IMAGE095
在回归效果差的情况下,根据
Figure DEST_PATH_IMAGE096
大小采用后退法依次剔除
Figure 343867DEST_PATH_IMAGE097
对应的不显著自变量,用剩余的显著因素进行最后一次回归。
4)残差分析
一个估计回归方程可能有较高的判定系数,也可能通过显著性检验,但是并不能说就是一个好模型,因为这些都是建立在模型假设基础上的,如果最初模型假设不真实,就要用残差分析验证。
DW检验的基本思想:如果存在正相关,那么残差的相邻值彼此之间应当比较接近,分子项就会较小,进而DW值也会比较小;如果存在负相关,就相反。检验统计量DW的表达式为
Figure DEST_PATH_IMAGE098
数学上推导出DW取值[0,4],其中t代表了时间,残差是按照时间顺序收集的。
在一些实施例中,多元线性回归统计预测计算模型参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等,其预测模型的计算步骤如下:
第1步 数据输入。在SPSS的数据编辑窗口中输入表1中的数据,如果是已编辑好的数据,可以直接将数据粘贴到SPSS数据编辑窗口。
第2步 确定分析方法。在“Analyze”菜单“Regression”(回归分析)中选择“Linear”(线性)命令,进入弹出的“Linear Regression”(线性回归)对话框,从对话框左侧的变量列表中点击标记变量y,然后,单击“Dependent”(因变量)框左边的按钮,将变量y添加到因变量框中;同样的方法,将自变量添加到“Independent”(自变量)框中。
(1)设定多元线性回归分析自变量的筛选方法。
(2)设置变量筛选的条件。
(3)确定作图的标志变量
(4)加权最小二乘法。
(5)选择输出项。
(6)分析结果的保存设置
(7)自变量筛选参数及剔除变量的处理设定。
第3步 完成回归分析。完成上述过程后,单击“OK”按钮,即可得到SPSS的多元回归预测结果。
预测结果可以得出组织过程受项目测量指标的影响程度,由此可以得出项目测量数据能够预测组织过程。
S4:模型修正:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
S5:报告预测结论:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于项目测量数据进行组织过程预测的方法,其特征在于,所述方法包括:
S1:收集数据:收集已完成项目的测量数据,在所述测量数据找出与组织过程有关的测量项;
S2:建立预测模型:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
S3:检查验证:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
S4:模型修正:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
S5:报告预测结论:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
2.根据权利要求1所述的一种基于项目测量数据进行组织过程预测的方法,其特征在于,所述测量数据包括:项目工作量、阶段工作量、项目实际规模、项目进度偏差、工作量偏差、项目平均生产率、项目缺陷数、项目风险数、风险占比、不符合项数量、不符合项关闭率、测试缺陷密度、需求变更数。
3.根据权利要求2所述的一种基于项目测量数据进行组织过程预测的方法,其特征在于,所述与组织过程有关的测量项包括:项目工作量、阶段工作量、项目实际规模、工作量偏差、项目平均生产率、风险占比、不符合项数量。
4.根据权利要求1所述的一种基于项目测量数据进行组织过程预测的方法,其特征在于,所述预测模型为多元线性回归预测模型。
5.根据权利要求4所述的一种基于项目测量数据进行组织过程预测的方法,其特征在于,为了便于进行模型参数估计,对多元线性回归预测模型进行了多种假设,包括:零均值假定、正态性假定、同方差和无自相关假定、无序列相关假定和无多重共线性假定。
6.根据权利要求5所述的一种基于项目测量数据进行组织过程预测的方法,其特征在于,所述多元线性回归预测模型的参数估计方法为最小二乘法。
7.一种基于项目测量数据进行组织过程预测的系统,其特征在于,所述系统包括:数据收集模块、预测模型建模模块、检查验证模块、模型修正模块和报告预测模块;
所述数据收集模块:收集已完成项目的测量数据,在所述测量数据找出与组织过程有关的测量项;
所述预测模型建模模块:应用所述与组织过程有关的测量项建立预测组织过程的预测模型;
所述检查验证模块:应用拟合优度检验、回归方程的整体显著性检验、回归系数的显著性检验、残差分析四种方式对模型进行检查验证;
所述模型修正模块:根据模型检验验证的结果对影响组织过程的测量项进行调整,去掉对组织过程无影响的测量项;
所述报告预测模块:根据模型修正后的结果和预测得出最终结论,给出项目测量数据能否够预测组织过程。
8.根据权利要求7所述的一种基于项目测量数据进行组织过程预测的系统,其特征在于,所述预测模型为多元线性回归预测模型。
9.根据权利要求8所述的一种基于项目测量数据进行组织过程预测的系统,其特征在于,为了便于进行模型参数估计,对多元线性回归预测模型进行了多种假设,包括:零均值假定、正态性假定、同方差和无自相关假定、无序列相关假定和无多重共线性假定。
10.根据权利要求9所述的一种基于项目测量数据进行组织过程预测的系统,其特征在于,所述多元线性回归预测模型的参数估计方法为最小二乘法。
CN202111285639.5A 2021-11-02 2021-11-02 一种基于项目测量数据进行组织过程预测的方法及系统 Pending CN113742248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111285639.5A CN113742248A (zh) 2021-11-02 2021-11-02 一种基于项目测量数据进行组织过程预测的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111285639.5A CN113742248A (zh) 2021-11-02 2021-11-02 一种基于项目测量数据进行组织过程预测的方法及系统

Publications (1)

Publication Number Publication Date
CN113742248A true CN113742248A (zh) 2021-12-03

Family

ID=78727152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111285639.5A Pending CN113742248A (zh) 2021-11-02 2021-11-02 一种基于项目测量数据进行组织过程预测的方法及系统

Country Status (1)

Country Link
CN (1) CN113742248A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707746A (zh) * 2022-04-20 2022-07-05 江苏苏宁银行股份有限公司 一种软件研发效率预测模型的构建方法
CN117670888A (zh) * 2024-02-01 2024-03-08 天津滨海雷克斯激光科技发展有限公司 管道内壁缺陷检测方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707746A (zh) * 2022-04-20 2022-07-05 江苏苏宁银行股份有限公司 一种软件研发效率预测模型的构建方法
CN117670888A (zh) * 2024-02-01 2024-03-08 天津滨海雷克斯激光科技发展有限公司 管道内壁缺陷检测方法、装置、设备及介质
CN117670888B (zh) * 2024-02-01 2024-05-17 天津滨海雷克斯激光科技发展有限公司 管道内壁缺陷检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Li et al. A metamodel-based Monte Carlo simulation approach for responsive production planning of manufacturing systems
CN113742248A (zh) 一种基于项目测量数据进行组织过程预测的方法及系统
CN107957929A (zh) 一种基于主题模型的软件缺陷报告修复人员分配方法
CN101118422A (zh) 半导体制造的虚拟量测预估与建立预估模型的方法与系统
Lee et al. Designing acceptance sampling plans based on the lifetime performance index under gamma distribution
CN113793057A (zh) 一种基于回归分析模型的建筑招投标数据生成方法
Meritxell et al. On the evaluation, management and improvement of data quality in streaming time series
CN112184415A (zh) 数据处理方法、装置、电子设备和存储介质
TWI427487B (zh) 工件抽樣檢驗的方法及其電腦程式產品
CN115935283B (zh) 一种基于多元非线性因果分析的干旱成因溯源方法
CN116957534A (zh) 一种预测智能电表更换数量的方法
Ali Forecasting Analysis of Share Price Index in Construction Companies Registered in Indonesia Stock Exchange 2015-2019
Seifi et al. Designing different sampling plans based on process capability index
Mercy et al. Application of vector autoregressive (var) process in modelling reshaped seasonal univariate time series
Wärmefjord et al. An investigation of the effect of sample size on geometrical inspection point reduction using cluster analysis
CN117076454B (zh) 一种工程质量验收表单数据结构化存储方法及系统
Ramaswamy et al. An approach to predict software project success by cascading clustering and classification
Kovářík et al. The effect of autocorrelation on control charts performance and process capability indices calculation
CN117949886B (zh) 互感器校验仪智能调控方法、系统、电子设备及存储介质
CN116957306B (zh) 基于资源协同互动的用户侧响应潜力评估方法及系统
IBRAHIM et al. A Study on Extension of Double Acceptance Sampling Plans Based on Truncated Life Tests on The Inverse Rayleigh Distribution
AU2021101709A4 (en) Assessment on transboundary watershed environmental efficiency with ecological compensation in presence of missing data
He et al. Software component reliability evaluation method based on characteristic parameters
Saariniemi Case-study: Twitter data analysis by linear regression modelling
Zong et al. Evaluate Software Quality by Learning from Historical Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211203