CN111667107B

CN111667107B - 基于梯度随机森林的研发管控问题预测方法及装置

Info

Publication number: CN111667107B
Application number: CN202010473556.8A
Authority: CN
Inventors: 朱华颖; 王拯; 程孝侠; 杨帆
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2024-05-14
Anticipated expiration: 2040-05-29
Also published as: CN111667107A

Abstract

本发明提供了一种基于梯度随机森林的研发管控问题预测方法及装置，基于梯度随机森林的研发管控问题预测方法包括：获取研发项目数据以及研发团队成员数据；根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。本发明可以预测出当前研发过程中可能产生的问题，进而为质量风险识别、测试完备性风险识别提供依据。

Description

基于梯度随机森林的研发管控问题预测方法及装置

技术领域

本发明涉及人工智能算法应用技术领域，特别是涉及一种基于梯度随机森林的研发管控问题预测方法及装置。

背景技术

目前优质产品的开发日益成为企业成功经营的核心，持续推出优质的产品将使企业立于不败之地，而卓有成效的产品研发取决于优秀的研发管理。研发团队是研发管理中的主要机构，好的团队会大大缩短产品交付时间，相对差的团队在产品研发过程中会导致一些莫名其妙、看似荒唐但是造成实际上无法挽回的严重损失，并延长产品的交付时间，产品的质量也无法保障。特别是研发团队由于人员的流动，团队成员来自不同的背景，具有不同的专业指数等原因，对于管理者来说，这是一个较难以解决的问题。如何打破团队成员之间的信息和观念的“壁垒”，构建一支优秀的、高效率的团队，除了需要团队成员沟通交流、明确责任、协调进度之外，如何让团队在研发管理过程中能够对未来具有可预见性的功能，从而及时规避可能出现的问题是目前亟需解决的问题。

发明内容

针对现有技术中的问题，本发明提供的基于梯度随机森林的研发管控问题预测方法及装置，可以预测出当前研发过程中可能产生的问题，进而为质量风险识别、测试完备性风险识别提供依据。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种基于梯度随机森林的研发管控问题预测方法，包括：

获取研发项目数据以及研发团队成员数据；

根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。

一实施例中，所述研发项目数据包括：研发过程发现的问题、项目规模、项目的需求数量、开发测试的周期、设计时间以及编码时间；

所述研发团队成员数据包括：学历、职级、工作年限、性别以及年龄。

一实施例中，生成梯度随机模型的步骤包括：

根据所述研发项目数据以及研发团队成员数据选取特征值；

利用梯度提升决策树算法对多个特征值进行关联性排序；

利用梯度提升随机森林算法，根据关联性排序后的特征值建立所述梯度随机模型。

一实施例中，所述根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题，包括：

以所述研发过程发现的问题为所述梯度随机模型的目标值，根据利用所述研发项目数据、所述研发团队成员数据及预先建立的梯度随机模型预测研发管控问题。

第二方面，本发明提供一种基于梯度随机森林的研发管控问题预测装置，包括：

数据获取单元，用于获取研发项目数据以及研发团队成员数据；

问题预测单元，用于根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。

一实施例中，基于梯度随机森林的研发管控问题预测装置还包括模型生成单元，用于生成梯度随机模型，所述模型生成单元包括：

特征值选取模块，用于根据所述研发项目数据以及研发团队成员数据选取特征值；

利特征值排序模块，用于用梯度提升决策树算法对多个特征值进行关联性排序；

模型建立模块，用于利用梯度提升随机森林算法，根据关联性排序后的特征值建立所述梯度随机模型。

一实施例中，所述问题预测单元具体用于以所述研发过程发现的问题为所述梯度随机模型的目标值，根据利用所述研发项目数据、所述研发团队成员数据及预先建立的梯度随机模型预测研发管控问题。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现基于梯度随机森林的研发管控问题预测方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现基于梯度随机森林的研发管控问题预测方法的步骤。

从上述描述可知，本发明实施例提供的基于梯度随机森林的研发管控问题预测方法及装置，首先获取研发项目数据以及研发团队成员数据，接着，根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。本发明提供的基于梯度随机森林的研发管控问题预测方法及装置，可以预测出当前研发过程中可能产生的问题，进而为质量风险识别、测试完备性风险识别提供依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例中基于梯度随机森林的研发管控问题预测方法流程示意图一；

图2为本发明的实施例中研发项目数据以及研发团队成员数据组成示意图；

图3为本发明的实施例中基于梯度随机森林的研发管控问题预测方法流程示意图二；

图4为本发明的实施例中步骤300的流程示意图；

图5为本发明的实施例中步骤200的流程示意图；

图6为本发明的具体应用实例中基于梯度随机森林的研发管控问题预测方法的流程示意图；

图7为本发明的具体应用实例中步骤S1的流程示意图；

图8为本发明的实施例中基于梯度随机森林的研发管控问题预测装置的结构框图一；

图9为本发明的实施例中基于梯度随机森林的研发管控问题预测装置的结构框图二；

图10为本发明的实施例中模型生成单元的结构框图；

图11为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供一种基于梯度随机森林的研发管控问题预测方法的具体实施方式，参见图1，该方法具体包括如下内容：

步骤100：获取研发项目数据以及研发团队成员数据。

可以理解的是，步骤100中的研发项目数据以及研发团队成员数据均是指当前的研发项目数据以及当前的研发团队成员数据，具体地，团队成员信息包括学历、职级、工作年限、性别、年龄等信息，项目信息包括项目研发过程发现的问题、项目规模、项目的需求数量、开发测试的周期、设计时间、编码时间等。以上数据以文本形式存储在磁盘文件中。

步骤200：根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。

具体地，将当前的研发项目数据以及当前的研发团队成员数据输入至由历史研发项目数据以及历史研发团队成员数据训练而成的梯度随机模型中，以达到预测当前研发项目在研发过程中所遇到的问题。

从上述描述可知，本发明实施例提供的基于梯度随机森林的研发管控问题预测方法，首先获取研发项目数据以及研发团队成员数据，接着，根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。本发明提供的基于梯度随机森林的研发管控问题预测方法，可以预测出当前研发过程中可能产生的问题，进而为质量风险识别、测试完备性风险识别提供依据。

一实施例中，参见图2，研发项目数据包括：研发过程发现的问题、项目规模、项目的需求数量、开发测试的周期、设计时间以及编码时间；

研发团队成员数据包括：学历、职级、工作年限、性别以及年龄。

一实施例中，参见图3，基于梯度随机森林的研发管控问题预测方法还包括：

步骤300：生成梯度随机模型。进一步地，参见图4，步骤300包括：

步骤301：根据所述研发项目数据以及研发团队成员数据选取特征值。

具体地，根据研发项目数据中的研发过程发现的问题、项目规模、项目的需求数量、开发测试的周期、设计时间、编码时间以及发团队成员数据中的学历、职级、工作年限、性别、年龄，进行特征值相关性分析，优选地，采用散点矩阵图来找出特征之间的相关性，对于散点矩阵图中数据呈对角关系的特征只保留其中的一个，另外散点矩阵图还可以直观地看到每个特征值的数据分布状况。通过步骤300可以筛选出研发项目数据以及研发团队成员数据中与研发过程中所遇到的问题密切相关的参数(特征值)。

步骤302：利用梯度提升决策树算法对多个特征值进行关联性排序。

GBDT(Gradient Boosting Decision Tree)梯度提升决策树算法是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案，需要指数的出是，步骤302中的决策树均是回归树，而不是分类树。可以理解的是，利用梯度提升决策树算法可以为各个特征值进行重要性排名。

步骤303：利用梯度提升随机森林算法，根据关联性排序后的特征值建立所述梯度随机模型。

具体地，先用一个初始值来学习一棵决策树，叶子处可以得到预测的值，以及预测之后的残差，然后后面的决策树就要基于前面决策树的残差来学习，直到预测值和真实值的残差为零。最后对于测试样本的预测值，就是前面许多棵决策树预测值的累加。接着，利用随机组合的方式构建出决策树，形成森林，在决策的时候森林中的每棵树都进行投票，共同决定。另外，步骤303的有益效果如下：1)可以灵活处理各种类型的数据，包括连续值和离散值。2)在相对少的调参时间情况下，预测的准备率也可以比较高。3使用一些健壮的损失函数，对异常值的鲁棒性非常强。

一实施例中，参见图5，步骤200包括：

步骤201：以所述研发过程发现的问题为所述梯度随机模型的目标值，根据利用所述研发项目数据、所述研发团队成员数据及预先建立的梯度随机模型预测研发管控问题。

为进一步地说明本方案，本发明以某银行的中心TCMB、研发部大数据平台等大量基础数据为例，针对开发、测试等人员的项目参与行为及效果，作为质量、风险管控的特征值依据，基于人工智能模型对研发过程中的指标进行评估预测，提前发现风险并进行预警，用以优化研发管理过程，并提高提高质量及效能。本具体应用实例具体包括如下内容，参见图6。

S1：原始数据预处理。

进一步地，参见图7，步骤S1包括：

S11：获取去除/补全缺失数据。

根据团队成员信息、项目信息数据，查看特征值的缺失比例，对于缺失比例高于10％的特征数据去除字段，对于缺失比例低于10％的特征数据如项目规模做均值补全处理。

S12：:去除/修改格式数据错误数据。

根据团队成员信息、项目信息数据，对于时间、日期、数值、半全角等格式问题，直接将数据转换为统一格式，对于数据头部、尾部出现空格或者其他字符问题，以半自动化并加半人工方式查找，并去除不需要的字段。

S13：去除/修改逻辑错误数据。

根据团队成员信息、项目信息数据，通过简单的逻辑推理和经验判断，构造组合字段，如对项目规模和问题构成的缺陷密度明显偏大的问题进行去除或者修改。

S14：去除不需要的数据。

根据团队成员信息、项目信息数据共30字段，首先去除一部分根据经验判断不重要的字段，做模型的初步处理，以加快模型的构建速度，同事要对原始数据做备份处理。

S2：特征值选取。

根据本发明采用的团队成员信息、项目信息数据，进行特征值相关性分析，这里采用散点矩阵图来找出特征之间的相关性，对于散点矩阵图中数据呈对角关系的特征只保留其中的一个，另外散点矩阵图还可以直观地看到每个特征值的数据分布状况。接着，采用梯度提升决策树算法对特征值进行排序。该算法可以模型输出可以为各个特征值进行重要性排名，且在创建随机森林时对于迭代误差采用无偏估计，模型的泛化能力比较强。另外模型训练速度训练数据为2W时，数据加载到到训练结束，运行速度为54秒，训练速度较快。除此之外，根据数据处理模块可以发现，模型的数据集极不均衡，目标问题在50以上的占据10％，在50以下占据90％，而随机森林算法可以很好地平衡误差。

S3：生成梯度随机模型。

由于目标值为连续型数据，因此通过迭代多棵回归树共同决策，损失函数采用平方误差，其中每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树，其中残差为真实值和预测值的差值，梯度提升树是整个迭代过程生成的回归树的累加。除此之外，还应该提供预测接口给实际应用来使用。

对想要预测的数据根据版本或者项目信息等进行筛选，再调用提供的预测接口，得到预测结果，并把预测结果保存在数据库中，还要提供预测结果的查询接口，查询接口应该包括版本、项目等条件，供应用的其他模块使用。

S4：根据研发项目数据、研发团队成员数据及预先建立的梯度随机模型预测研发管控问题。

本发明将机器学习算法运用到研发管理过程中，采用机器学习中的梯度随机森林算法，对团队成员的信息以及团队成员参与的历史项目信息数据，进行属性选择和模型训练，得到团队属性权重，然后用已经训练好的模型对新的团队数据进行模型预测，从而对团队中可能出现的问题进行及时预警，及时采取措施，保障产品质量。另外，本发明针对开发、测试等人员的项目参与行为及效果，作为质量、风险管控的特征值依据，基于人工智能模型对研发过程中的指标进行评估预测，提前发现风险并进行预警，用以优化研发管理过程，提高质量及效能。

进一步地，本发明打破团队成员之间的信息和观念的“壁垒”，为如何构建一支优秀的、高效率的团队提供了一个新的思路(除了需要团队成员沟通交流、明确责任、协调进度之外，如何让团队在研发管理过程中能够对未来具有可预见性的功能)，从而及时规避可能出现的问题，将机器学习算法运用到研发管理过程中，在问题预测、项目风险预测等领域实现提前预警，以便团队及时采取措施，保障研发效能。

基于同一发明构思，本申请实施例还提供了基于梯度随机森林的研发管控问题预测装置，可以用于实现上述实施例所描述的方法，如下面的实施例。由于基于梯度随机森林的研发管控问题预测装置解决问题的原理与基于梯度随机森林的研发管控问题预测方法相似，因此基于梯度随机森林的研发管控问题预测装置的实施可以参见基于梯度随机森林的研发管控问题预测方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现基于梯度随机森林的研发管控问题预测方法的基于梯度随机森林的研发管控问题预测装置的具体实施方式，参见图8，基于梯度随机森林的研发管控问题预测装置具体包括如下内容：

数据获取单元10，用于获取研发项目数据以及研发团队成员数据；

问题预测单元20，用于根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。

一实施例中，参见图9，基于梯度随机森林的研发管控问题预测装置还包括模型生成单元30，用于生成梯度随机模型，参见图10，所述模型生成单元30包括：

特征值选取模块301，用于根据所述研发项目数据以及研发团队成员数据选取特征值；

利特征值排序模块302，用于用梯度提升决策树算法对多个特征值进行关联性排序；

模型建立模块303，用于利用梯度提升随机森林算法，根据关联性排序后的特征值建立所述梯度随机模型。

一实施例中，所述问题预测单元20具体用于以所述研发过程发现的问题为所述梯度随机模型的目标值，根据利用所述研发项目数据、所述研发团队成员数据及预先建立的梯度随机模型预测研发管控问题。

从上述描述可知，本发明实施例提供的基于梯度随机森林的研发管控问题预测装置，首先获取研发项目数据以及研发团队成员数据，接着，根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题。本发明提供的基于梯度随机森林的研发管控问题预测装置，可以预测出当前研发过程中可能产生的问题，进而为质量风险识别、测试完备性风险识别提供依据。

本申请的实施例还提供能够实现上述实施例中的基于梯度随机森林的研发管控问题预测方法中全部步骤的一种电子设备的具体实施方式，参见图11，电子设备具体包括如下内容：

处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204；

其中，处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信；通信接口1203用于实现服务器端设备、计算单元以及客户端设备等相关设备之间的信息传输。

处理器1201用于调用存储器1202中的计算机程序，处理器执行计算机程序时实现上述实施例中的基于梯度随机森林的研发管控问题预测方法中的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

步骤100：获取研发项目数据以及研发团队成员数据。

本申请的实施例还提供能够实现上述实施例中的基于梯度随机森林的研发管控问题预测方法中全部步骤的一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的基于梯度随机森林的研发管控问题预测方法的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

步骤100：获取研发项目数据以及研发团队成员数据。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于梯度随机森林的研发管控问题预测方法，其特征在于，包括：

获取研发项目数据以及研发团队成员数据；所述研发项目数据以及研发团队成员数据均是指当前的研发项目数据以及当前的研发团队成员数据；所述研发团队成员数据包括：学历、职级、工作年限、性别以及年龄；

根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题；

生成梯度随机模型的步骤包括：

根据所述研发项目数据以及研发团队成员数据选取特征值；

所述根据所述研发项目数据以及研发团队成员数据选取特征值，包括：

采用散点矩阵图来确定特征之间的相关性，对于散点矩阵图中数据呈对角关系的特征只保留其中的一个；

筛选出研发项目数据以及研发团队成员数据中与研发过程中所遇到的问题密切相关的特征值。

2.根据权利要求1所述的研发管控问题预测方法，其特征在于，所述研发项目数据包括：研发过程发现的问题、项目规模、项目的需求数量、开发测试的周期、设计时间以及编码时间。

3.根据权利要求2所述的研发管控问题预测方法，其特征在于，生成梯度随机模型的步骤还包括：

利用梯度提升决策树算法对多个特征值进行关联性排序；

4.根据权利要求2所述的研发管控问题预测方法，其特征在于，所述根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题，包括：

5.一种基于梯度随机森林的研发管控问题预测装置，其特征在于，包括：

数据获取单元，用于获取研发项目数据以及研发团队成员数据；研发项目数据以及研发团队成员数据均是指当前的研发项目数据以及当前的研发团队成员数据；所述研发团队成员数据包括：学历、职级、工作年限、性别以及年龄；

问题预测单元，用于根据所述研发项目数据、所述研发团队成员数据及预先生成的梯度随机模型预测研发管控问题；

模型生成单元，用于生成梯度随机模型，所述模型生成单元包括：

所述特征值选取模块具体用于：

6.根据权利要求5所述的研发管控问题预测装置，其特征在于，所述研发项目数据包括：研发过程发现的问题、项目规模、项目的需求数量、开发测试的周期、设计时间以及编码时间。

7.根据权利要求6所述的研发管控问题预测装置，其特征在于，所述模型生成单元还包括：

特征值排序模块，用于用梯度提升决策树算法对多个特征值进行关联性排序；

8.根据权利要求6所述的研发管控问题预测装置，其特征在于，所述问题预测单元具体用于以所述研发过程发现的问题为所述梯度随机模型的目标值，根据利用所述研发项目数据、所述研发团队成员数据及预先建立的梯度随机模型预测研发管控问题。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述基于梯度随机森林的研发管控问题预测方法的步骤。