CN116225453B - 一种增量式需求跟踪性链接恢复方法 - Google Patents

一种增量式需求跟踪性链接恢复方法 Download PDF

Info

Publication number
CN116225453B
CN116225453B CN202310260494.6A CN202310260494A CN116225453B CN 116225453 B CN116225453 B CN 116225453B CN 202310260494 A CN202310260494 A CN 202310260494A CN 116225453 B CN116225453 B CN 116225453B
Authority
CN
China
Prior art keywords
classifier
data
demand
training
link recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310260494.6A
Other languages
English (en)
Other versions
CN116225453A (zh
Inventor
彭涛
佘堃
于钥
刘书舟
陈建谟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202310260494.6A priority Critical patent/CN116225453B/zh
Publication of CN116225453A publication Critical patent/CN116225453A/zh
Application granted granted Critical
Publication of CN116225453B publication Critical patent/CN116225453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/48Incremental compilation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/10Requirements analysis; Specification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及软件开发技术领域,具体涉及一种增量式需求跟踪性链接恢复方法,基于深度学习技术和GPT网络对原始需求文档进行动态生成,得到伪数据;对所述伪数据加以权重,得到二次伪数据;将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态,该方法相较于传统的信息检索方法,具备更高的恢复准确性和泛化性,同时相比较于采用端到端训练的深度学习方法,该方法采用数据增强和增量训练的方式,对数据集规模要求低,更容易在落地实现,解决现有跟踪性链接恢复方法准确率还是较低的问题。

Description

一种增量式需求跟踪性链接恢复方法
技术领域
本发明涉及软件开发技术领域,尤其涉及一种增量式需求跟踪性链接恢复方法。
背景技术
跟踪能力链是指一对软件制品之间的特定关系,其中一个制品为源制品,另一个制品为目标制品,它记录了制品之间存在的各种依赖性、影响、因果关系等,方向可以为单向也可以为双向,链的方向仅作为时间顺序或因果关系的指示,通常可以在两个方向上同时建立跟踪能力链。
目前大部分软件跟踪的研究集中在跟踪能力链,这主要是因为制品之间的各种跟踪能力链有助于软件开发人员理解、高效开发和有效管理系统。
现有跟踪性链接恢复方法,基于约束的修剪来恢复跟踪链接(ConPOS),ConPOS使用主要的POS(Parts Of Speech)类别,并将约束应用于恢复的跟踪链接以作为过滤过程进行修剪,用于提高基于IR的技术的有效性,它集成了CLM与词性标注方法,ConPOS首先标记需求的所有位置,分别使用VSM和Jensen-Shannon模型两种IR技术恢复给定需求和代码文件之间的跟踪能力链,然后根据基于约束的剪枝策略识别出假阳性跟踪链接,并将其剔除,但现有跟踪性链接恢复方法,准确率还是较低。
发明内容
本发明的目的在于提供一种增量式需求跟踪性链接恢复方法,旨在解决现有跟踪性链接恢复方法准确率还是较低的问题。
为实现上述目的,本发明提供了一种增量式需求跟踪性链接恢复方法,包括以下步骤:
基于深度学习技术和GPT网络对原始需求文档进行动态生成,得到伪数据;
对所述伪数据加以权重,得到二次伪数据;
将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态。
其中,所述需求跟踪性链接恢复分类器采用预训练的BERT网络。
其中,所述需求跟踪链接恢复分类器进行模型训练时,用户可以提供或者不提供数据集进行训练,只在模型初始阶段提供数据集用于训练模型。
其中,所述将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态的具体方式:
将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器,得到训练数据;
所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练,得到分类器初始状态。
其中,所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练,得到分类器初始状态的具体方式:
所述需求跟踪链接恢复分类器基于所述训练数据使用预训练的模型进行跟踪链接自动恢复,得到预测结果;
对所述预测结果进行人工修正,得到修正结果;
采用增量式训练方法对所述修正结果进行训练,得到分类器初始状态。
其中,所述对所述预测结果进行人工修正,得到修正结果的具体方式:
用户录入需求文档,并选择需要建立跟踪性链接关系的两个需求文档,得到选择文档;
所述求跟踪链接恢复分类器基于所述选择文档进行跟踪链接自动恢复,得到恢复结果;
用户通过用户界面对所述恢复结果进行修正,得到所述修正结果。
其中,所述增量式训练方法的过程通过指定计划后台自动完成。
本发明的一种增量式需求跟踪性链接恢复方法,基于深度学习技术和GPT网络对原始需求文档进行动态生成,得到伪数据;对所述伪数据加以权重,得到二次伪数据;将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态,该方法相较于传统的信息检索方法,具备更高的恢复准确性和泛化性,同时相比较于采用端到端训练的深度学习方法,该方法采用数据增强和增量训练的方式,对数据集规模要求低,更容易在落地实现,解决现有跟踪性链接恢复方法准确率还是较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是使用GPT数据生成器生成伪数据进行数据增强流程图。
图2是增量训练流程图。
图3是本发明提供的一种增量式需求跟踪性链接恢复方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图3,本发明提供一种增量式需求跟踪性链接恢复方法,包括以下步骤:
S1基于深度学习技术和GPT网络对原始需求文档进行动态生成,得到伪数据;
具体的,利用深度学习技术为基础,采用GPT网络对原始的需求文档进行动态生成,产生一批伪数据。
S2对所述伪数据加以权重,得到二次伪数据;
具体的,将这些所述伪数据加以一定权重生成所述二次伪数据。
S3将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态。
具体的,使用的是预训练的模型进行跟踪链接自动恢复,相比较于使用LSTM等网络,使用BERT网络可以不需要大量数据训练就直接使用,避免了需要手动进行初始训练的过程,用户可以采用少量数据甚至不需要初始数据就可以进行需求跟踪链接的自动恢复,只需要使用少量数据利用数据生成器生成伪数据进行小样本学习以初始化整个分类器,在后续的使用过程中,可以根据用户需求使用少量数据或者不进行伪数据生成步骤。
具体方式:
S31将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器,得到训练数据;
S32所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练,得到分类器初始状态。
具体方式:
S321所述需求跟踪链接恢复分类器基于所述训练数据使用预训练的模型进行跟踪链接自动恢复,得到预测结果;
S322对所述预测结果进行人工修正,得到修正结果;
具体方式:
S3221用户录入需求文档,并选择需要建立跟踪性链接关系的两个需求文档,得到选择文档;
S3222所述求跟踪链接恢复分类器基于所述选择文档进行跟踪链接自动恢复,得到恢复结果;
S3223用户通过用户界面对所述恢复结果进行修正,得到所述修正结果。
S323采用增量式训练方法对所述修正结果进行训练,得到分类器初始状态。
具体的,整个增量式训练过程通过指定计划后台自动完成,基本不需要用户介入,使用默认的或者自定义的增量式训练计划进行模型迭代训练,不需要用户参与,在用户使用过程中,整个系统的用户体验自动的得到更新。用户在使用该跟踪链接恢复方法进行跟踪链接自动建立后,需要对自动生成的需求跟踪链接进行人工修正,修正后的数据可以被认为是正确的跟踪链接数据,该数据使用增量式的训练方式在后台自动训练模型并更新权重,随着权重迭代过程该系统进行跟踪链接恢复会更加准确。
以上所揭露的仅为本发明一种增量式需求跟踪性链接恢复方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (4)

1.一种增量式需求跟踪性链接恢复方法,其特征在于,包括以下步骤:
基于深度学习技术和GPT网络对原始需求文档进行动态生成,得到伪数据;
对所述伪数据加以权重,得到二次伪数据;
将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态;
所述将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器进行模型训练,得到分类器初始状态的具体方式:
将所述二次伪数据和真实数据一起送入需求跟踪链接恢复分类器,得到训练数据;
所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练,得到分类器初始状态;
所述需求跟踪链接恢复分类器基于所述训练数据进行模型训练,得到分类器初始状态的具体方式:
所述需求跟踪链接恢复分类器基于所述训练数据使用预训练的模型进行跟踪链接自动恢复,得到预测结果;
对所述预测结果进行人工修正,得到修正结果;
采用增量式训练方法对所述修正结果进行训练,得到分类器初始状态。
2.如权利要求1所述的一种增量式需求跟踪性链接恢复方法,其特征在于,
所述需求跟踪性链接恢复分类器采用预训练的BERT网络。
3.如权利要求1所述的一种增量式需求跟踪性链接恢复方法,其特征在于,
所述需求跟踪链接恢复分类器进行模型训练时,用户可以提供或者不提供数据集进行训练,只在模型初始阶段提供数据集用于训练模型。
4.如权利要求1所述的一种增量式需求跟踪性链接恢复方法,其特征在于,
所述对所述预测结果进行人工修正,得到修正结果的具体方式:
用户录入需求文档,并选择需要建立跟踪性链接关系的两个需求文档,得到选择文档;
所述求跟踪链接恢复分类器基于所述选择文档进行跟踪链接自动恢复,得到恢复结果;
用户通过用户界面对所述恢复结果进行修正,得到所述修正结果。
CN202310260494.6A 2023-03-16 2023-03-16 一种增量式需求跟踪性链接恢复方法 Active CN116225453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310260494.6A CN116225453B (zh) 2023-03-16 2023-03-16 一种增量式需求跟踪性链接恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310260494.6A CN116225453B (zh) 2023-03-16 2023-03-16 一种增量式需求跟踪性链接恢复方法

Publications (2)

Publication Number Publication Date
CN116225453A CN116225453A (zh) 2023-06-06
CN116225453B true CN116225453B (zh) 2023-11-10

Family

ID=86573073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310260494.6A Active CN116225453B (zh) 2023-03-16 2023-03-16 一种增量式需求跟踪性链接恢复方法

Country Status (1)

Country Link
CN (1) CN116225453B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011461A (zh) * 2021-02-19 2021-06-22 中国科学院软件研究所 通过知识学习增强基于分类的软件需求跟踪链接恢复方法及电子装置
CN113852693A (zh) * 2021-09-26 2021-12-28 北京邮电大学 一种边缘计算服务的迁移方法
US11249655B1 (en) * 2020-12-07 2022-02-15 Rubrik, Inc. Data resychronization methods and systems in continuous data protection
CN114691147A (zh) * 2022-03-29 2022-07-01 浙江工商大学 基于代码所有权信息和深度学习的软件跟踪能力链恢复方法
CN114816497A (zh) * 2022-04-18 2022-07-29 南京航空航天大学 基于bert预训练模型的链接生成方法
CN115237427A (zh) * 2022-08-12 2022-10-25 浙江工商大学 一种软件跟踪能力链智能恢复方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949377B2 (en) * 2008-05-21 2015-02-03 The Delfin Project, Inc. Management system for a conversational system
US10860294B2 (en) * 2019-01-25 2020-12-08 Rockwell Collins, Inc. Requirements tracing precision validation tool

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11249655B1 (en) * 2020-12-07 2022-02-15 Rubrik, Inc. Data resychronization methods and systems in continuous data protection
CN113011461A (zh) * 2021-02-19 2021-06-22 中国科学院软件研究所 通过知识学习增强基于分类的软件需求跟踪链接恢复方法及电子装置
CN113852693A (zh) * 2021-09-26 2021-12-28 北京邮电大学 一种边缘计算服务的迁移方法
CN114691147A (zh) * 2022-03-29 2022-07-01 浙江工商大学 基于代码所有权信息和深度学习的软件跟踪能力链恢复方法
CN114816497A (zh) * 2022-04-18 2022-07-29 南京航空航天大学 基于bert预训练模型的链接生成方法
CN115237427A (zh) * 2022-08-12 2022-10-25 浙江工商大学 一种软件跟踪能力链智能恢复方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An improved approach based on balanced keyword weight to traceability recovery;Xinye Wang等;《IOP Conference Series: Materials Science and Engineering》;第569卷(第5期);第1-6页 *
Trace link recovery using semantic relation graphs and spreading activation;Aaron Schlutter;《2020 IEEE 28th International Requirements Engineering Conference (RE)》;第20-31页 *
Using Consensual Biterms from Text Structures of Requirements and Code to Improve IR-Based Traceability Recovery;Hui Gao等;《 Proceedings of the 37th IEEE/ACM International Conference on Automated Software Engineering》;第1-13页 *
基于FP-Tree模型的频繁轨迹模式挖掘方法;牛新征等;《电子科技大学学报》;第45卷(第1期);第86-90页 *
基于图挖掘扩展学习的增强需求跟踪恢复方法;陈磊等;《计算机研究与发展》;第58卷(第4期);第777-793页 *

Also Published As

Publication number Publication date
CN116225453A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110309706B (zh) 人脸关键点检测方法、装置、计算机设备及存储介质
CN105654945A (zh) 一种语言模型的训练方法及装置、设备
CN114816497B (zh) 基于bert预训练模型的链接生成方法
CN106951512A (zh) 一种基于混合编码网络的端到端对话控制方法
CN105786980A (zh) 对描述同一实体的不同实例进行合并的方法、装置及设备
CN105139864A (zh) 语音识别方法和装置
CN110442514B (zh) 基于学习算法实现缺陷修复推荐的方法
US20230222325A1 (en) Binary neural network model training method and system, and image processing method and system
CN114037653B (zh) 基于二阶段知识蒸馏的工业机器视觉缺陷检测方法和系统
US20230401390A1 (en) Automatic concrete dam defect image description generation method based on graph attention network
CN108446230B (zh) 一种面向WebDriver的Java测试代码质量评判方法
KR20190089615A (ko) 버그 정정 시스템 및 버그 정정 방법
CN114581613A (zh) 一种基于轨迹约束的人体模型姿态和形状优化方法和系统
CN112002303B (zh) 一种基于知识蒸馏的端到端语音合成训练方法及系统
CN118093527B (zh) 一种报告质检方法、装置及电子设备
CN115577362A (zh) 基于源代码和汇编代码跨模态特征增强的漏洞检测方法
CN110866172B (zh) 一种面向区块链系统的数据分析方法
CN116225453B (zh) 一种增量式需求跟踪性链接恢复方法
CN118038052A (zh) 一种基于多模态扩散模型的抗差异医学图像分割方法
CN111105364B (zh) 一种基于秩一分解和神经网络的图像复原方法
CN116501899A (zh) 基于扩散模型的事件骨架图生成方法、系统、终端及介质
CN116186506A (zh) 基于bert预训练模型的可访问性问题报告的自动识别方法
CN114860877B (zh) 一种基于知识图谱关系预测的问题链生成方法及系统
CN105786787A (zh) 基于Java的高效PDF报表测试方法
CN114648679A (zh) 神经网络训练、目标检测的方法及装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant