CN116225453B

CN116225453B - 一种增量式需求跟踪性链接恢复方法

Info

Publication number: CN116225453B
Application number: CN202310260494.6A
Authority: CN
Inventors: 彭涛; 佘堃; 于钥; 刘书舟; 陈建谟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-11-10
Anticipated expiration: 2043-03-16
Also published as: CN116225453A

Abstract

本发明涉及软件开发技术领域，具体涉及一种增量式需求跟踪性链接恢复方法，基于深度学习技术和GPT网络对原始需求文档进行动态生成，得到伪数据；对所述伪数据加以权重，得到二次伪数据；将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态，该方法相较于传统的信息检索方法，具备更高的恢复准确性和泛化性，同时相比较于采用端到端训练的深度学习方法，该方法采用数据增强和增量训练的方式，对数据集规模要求低，更容易在落地实现，解决现有跟踪性链接恢复方法准确率还是较低的问题。

Description

一种增量式需求跟踪性链接恢复方法

技术领域

本发明涉及软件开发技术领域，尤其涉及一种增量式需求跟踪性链接恢复方法。

背景技术

跟踪能力链是指一对软件制品之间的特定关系，其中一个制品为源制品，另一个制品为目标制品，它记录了制品之间存在的各种依赖性、影响、因果关系等，方向可以为单向也可以为双向，链的方向仅作为时间顺序或因果关系的指示，通常可以在两个方向上同时建立跟踪能力链。

目前大部分软件跟踪的研究集中在跟踪能力链，这主要是因为制品之间的各种跟踪能力链有助于软件开发人员理解、高效开发和有效管理系统。

现有跟踪性链接恢复方法，基于约束的修剪来恢复跟踪链接(ConPOS)，ConPOS使用主要的POS(Parts Of Speech)类别，并将约束应用于恢复的跟踪链接以作为过滤过程进行修剪，用于提高基于IR的技术的有效性，它集成了CLM与词性标注方法，ConPOS首先标记需求的所有位置，分别使用VSM和Jensen-Shannon模型两种IR技术恢复给定需求和代码文件之间的跟踪能力链，然后根据基于约束的剪枝策略识别出假阳性跟踪链接，并将其剔除，但现有跟踪性链接恢复方法，准确率还是较低。

发明内容

本发明的目的在于提供一种增量式需求跟踪性链接恢复方法，旨在解决现有跟踪性链接恢复方法准确率还是较低的问题。

为实现上述目的，本发明提供了一种增量式需求跟踪性链接恢复方法，包括以下步骤：

基于深度学习技术和GPT网络对原始需求文档进行动态生成，得到伪数据；

对所述伪数据加以权重，得到二次伪数据；

将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态。

其中，所述需求跟踪性链接恢复分类器采用预训练的BERT网络。

其中，所述需求跟踪链接恢复分类器进行模型训练时，用户可以提供或者不提供数据集进行训练，只在模型初始阶段提供数据集用于训练模型。

其中，所述将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态的具体方式：

将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器，得到训练数据；

所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练，得到分类器初始状态。

其中，所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练，得到分类器初始状态的具体方式：

所述需求跟踪链接恢复分类器基于所述训练数据使用预训练的模型进行跟踪链接自动恢复，得到预测结果；

对所述预测结果进行人工修正，得到修正结果；

采用增量式训练方法对所述修正结果进行训练，得到分类器初始状态。

其中，所述对所述预测结果进行人工修正，得到修正结果的具体方式：

用户录入需求文档，并选择需要建立跟踪性链接关系的两个需求文档，得到选择文档；

所述求跟踪链接恢复分类器基于所述选择文档进行跟踪链接自动恢复，得到恢复结果；

用户通过用户界面对所述恢复结果进行修正，得到所述修正结果。

其中，所述增量式训练方法的过程通过指定计划后台自动完成。

本发明的一种增量式需求跟踪性链接恢复方法，基于深度学习技术和GPT网络对原始需求文档进行动态生成，得到伪数据；对所述伪数据加以权重，得到二次伪数据；将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态，该方法相较于传统的信息检索方法，具备更高的恢复准确性和泛化性，同时相比较于采用端到端训练的深度学习方法，该方法采用数据增强和增量训练的方式，对数据集规模要求低，更容易在落地实现，解决现有跟踪性链接恢复方法准确率还是较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是使用GPT数据生成器生成伪数据进行数据增强流程图。

图2是增量训练流程图。

图3是本发明提供的一种增量式需求跟踪性链接恢复方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图3，本发明提供一种增量式需求跟踪性链接恢复方法，包括以下步骤：

S1基于深度学习技术和GPT网络对原始需求文档进行动态生成，得到伪数据；

具体的，利用深度学习技术为基础，采用GPT网络对原始的需求文档进行动态生成，产生一批伪数据。

S2对所述伪数据加以权重，得到二次伪数据；

具体的，将这些所述伪数据加以一定权重生成所述二次伪数据。

S3将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态。

具体的，使用的是预训练的模型进行跟踪链接自动恢复，相比较于使用LSTM等网络，使用BERT网络可以不需要大量数据训练就直接使用，避免了需要手动进行初始训练的过程，用户可以采用少量数据甚至不需要初始数据就可以进行需求跟踪链接的自动恢复，只需要使用少量数据利用数据生成器生成伪数据进行小样本学习以初始化整个分类器，在后续的使用过程中，可以根据用户需求使用少量数据或者不进行伪数据生成步骤。

具体方式：

S31将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器，得到训练数据；

S32所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练，得到分类器初始状态。

具体方式：

S321所述需求跟踪链接恢复分类器基于所述训练数据使用预训练的模型进行跟踪链接自动恢复，得到预测结果；

S322对所述预测结果进行人工修正，得到修正结果；

具体方式：

S3221用户录入需求文档，并选择需要建立跟踪性链接关系的两个需求文档，得到选择文档；

S3222所述求跟踪链接恢复分类器基于所述选择文档进行跟踪链接自动恢复，得到恢复结果；

S3223用户通过用户界面对所述恢复结果进行修正，得到所述修正结果。

S323采用增量式训练方法对所述修正结果进行训练，得到分类器初始状态。

具体的，整个增量式训练过程通过指定计划后台自动完成，基本不需要用户介入，使用默认的或者自定义的增量式训练计划进行模型迭代训练，不需要用户参与，在用户使用过程中，整个系统的用户体验自动的得到更新。用户在使用该跟踪链接恢复方法进行跟踪链接自动建立后，需要对自动生成的需求跟踪链接进行人工修正，修正后的数据可以被认为是正确的跟踪链接数据，该数据使用增量式的训练方式在后台自动训练模型并更新权重，随着权重迭代过程该系统进行跟踪链接恢复会更加准确。

以上所揭露的仅为本发明一种增量式需求跟踪性链接恢复方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种增量式需求跟踪性链接恢复方法，其特征在于，包括以下步骤：

对所述伪数据加以权重，得到二次伪数据；

将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态；

所述将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练，得到分类器初始状态的具体方式：

所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练，得到分类器初始状态；

所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练，得到分类器初始状态的具体方式：

对所述预测结果进行人工修正，得到修正结果；

2.如权利要求1所述的一种增量式需求跟踪性链接恢复方法，其特征在于，

所述需求跟踪性链接恢复分类器采用预训练的BERT网络。

3.如权利要求1所述的一种增量式需求跟踪性链接恢复方法，其特征在于，

所述需求跟踪链接恢复分类器进行模型训练时，用户可以提供或者不提供数据集进行训练，只在模型初始阶段提供数据集用于训练模型。

4.如权利要求1所述的一种增量式需求跟踪性链接恢复方法，其特征在于，

所述对所述预测结果进行人工修正，得到修正结果的具体方式：