CN111124366A

CN111124366A - 一种基于信息检索的需求追踪恢复方法

Info

Publication number: CN111124366A
Application number: CN201911333727.0A
Authority: CN
Inventors: 沈国华; 汪海娟; 黄志球; 陈凯
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-08
Anticipated expiration: 2039-12-23
Also published as: CN111124366B

Abstract

本发明公开了一种基于信息检索的需求追踪恢复方法，属于信息安全技术领域，包括使用IR方法来创建候选链接，然后，对目标制品的附加链接应用一个“bonus”，最后这些目标制品通过语义关系连接起来，解决了传统技术中IR方法不精确的问题，有效提升自动恢复追踪关系的模型性能，在基于信心检索的基础上，增加考虑额外信息，即目标制品间的语义关系，对原始的候选列表进行重排序，将正确追踪链排名上提，减少分析误报。

Description

一种基于信息检索的需求追踪恢复方法

技术领域

本发明属于大数据技术领域，涉及一种基于信息检索的需求追踪恢复方法。

背景技术

需求追踪(RT)，定义为“描述并遵循一个需求的生命周期的能力，无论是向前还是向后(即，从它的起源，通过它的开发和规范，到它随后的部署和使用，并通过在这些阶段中的任何一个持续的需求和迭代阶段)”。可追踪链接恢复(Traceability Links Recovery,TLR)是RT的一个研究方向，它是一项软件工程任务，处理软件制品之间的依赖关系和关系的识别与理解。需求追踪作为软件过程管理中的一个重要环节，在保障系统质量、应对需求变更方面发挥着重要作用。利用需求追踪，软件开发人员可以发现制品之间的依赖关系、评估需求覆盖率及计算需求变更的影响。由于需求追踪一方面致力于帮助软件开发人员进行追踪分析，确定是否所有的低层元素(如设计、源代码)都有与之对应的需求；另一方面，可以用于完整性分析和测试覆盖率评估，以明确是否所有需求都被实现并进行了相应的测试。故而成为需求工程的一个重要研究方向。

随着软件系统的规模的增大和复杂性的日益增长，手动恢复和维护追踪关系费时费力，自然地，一些用于自动恢复和维护追踪关系的技术日益受到关注，其中以基于信息检索技术为主。使用信息检索的优势在于，能够通过文本分析自动恢复追踪关系，对于解决传统需求追踪问题中所面临的人工工作量大、维护困难、容易出错等问题有极大帮助。然而，基于信息检索方法的基本问题是相似性计算(即文本相似度)是基于两种制品间关键字的匹配程度，如果两个制品之间(例如,需求和源代码)是异构的,他们可能不共享一个共同的词汇，同义词，或语言结构，信息检索将会错过追踪这条链。作为需求追踪领域中的一种自动追踪方法，近年来针对基于IR的问题进行了大量的研究。例如，使用诸如利用同义词库、项目术语表、短语、关键短语和重构等策略来减少术语不一致或文本制品中缺少、错位和重复符号所造成的不利影响。然而，不精确仍然是在实践中使用IR进行可追踪链接恢复的主要障碍。

发明内容

本发明的目的是提供一种基于信息检索的需求追踪恢复方法，解决了传统技术中IR方法不精确的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于信息检索的需求追踪恢复方法，包括如下步骤：

步骤1：建立IR模块、域模块、语义关系模块和输出模块，IR模块用于从互联网中获取原始数据；

步骤2：对IR模块获取到的原始数据进行预处理，将其处理为能够支持使用单词嵌入来计算目标制品之间的相似性的预处理数据；

步骤3：利用基于IR的向量空间模型算法VSM，计算源制品和目标制品的相似度值，生成候选追踪链；

步骤4：设定源制品为R_i，域模块为源制品Ri生成一个原始候选列表cl；

在原始候选列表cl中，通过基于IR的可追踪性恢复方法添加源制品Ri的目标制品；

根据目标制品与源制品的相似度值，将目标制品从高到低排序；

步骤5：裁剪排序后的原始候选列表cl中的前k1％的数据，构成需求域，其中k1为正整数；

步骤6：设定目标制品为Tj，语义关系模块通过词嵌入方法，得到相似值从高到低的语义关系列表sl；

步骤7：裁剪语义关系列表sl中的前k2％的数据，构成目标制品语义关系相互依赖图SRTG；

步骤8：对于源制品Ri，需求域内部的目标制品Tj被直接添加到一个候选列表中；

对于需求域外部的目标制品Tj，判断其是否在目标制品语义关系相互依赖图SRTG中：是，则增加一个“bonus”值进行重新排序，生成一个新的候选列表；否，则舍弃；

步骤9：根据步骤8中生成的新的候选列表，对需求域外部的目标制品进行重新排序；

步骤10：所述新的候选列表即位对原始候选列表的重新排序，输出模块输出所述新的候选列表。

优选的，所述IR模块、域模块、语义关系模块和输出模块均部署在分布式服务器集群中。

优选的，在执行步骤6到步骤8时，设定G(T,E)表示目标制品Tj间的关系图，其中T＝{t1,…tn}为目标制品集合，E＝{ti,tj}用边来表示ti与tj之间有关系；

设定S＝{s1,…,sn}表示源制品的集合，设定List＝{s,t}为使用IR方法计算出的候选链接列表，其中s∈S，t∈T；

在目标制品语义关系相互依赖图SRTG中，如果目标制品T_j和源制品之间有链接，几个在语义上与目标制品T_j最相似的目标制品将被给予额外的“bonus”，即与源制品之间的相似值将被重新计算以使这些目标制品更易被追踪。

本发明所述的一种基于信息检索的需求追踪恢复方法，解决了传统技术中IR方法不精确的问题，有效提升自动恢复追踪关系的模型性能，在基于信心检索的基础上，增加考虑额外信息，即目标制品间的语义关系，对原始的候选列表进行重排序，将正确追踪链排名上提，减少分析误报。

附图说明

图1为本发明的总流程图；

图2为本发明的需求追踪和需求域的示意图；

图3为本发明的SRTG示例图。

具体实施方式

来自相同需求的目标制品(例如用例和用例)之间存在关联关系。对于一些文本制品具有某种形式的结构，例如源代码和用例，实现相同需求的源代码之间存在继承和聚合关系，实现相同需求的用例之间存在泛化和包含关系。

所有这些文本类型的目标制品都可以通过预处理将其转化为自然的文本形式，而且，目标制品之间的关系没有随着预处理而消失。

将仍然存在于各种类型的目标制品之间的关联统称为语义关系，在实现相同需求的目标制品之间存在语义关系。如何发现和利用目标制品的语义关系称为基于SRT的方法，用来增强需求追踪任务。嵌入(也称为分布式表示)是一种学习实体(如单词、句子和图像)的向量表示的技术，其中相似的实体具有彼此相近的向量。具有相似上下文的单词具有相似的含义和相似的向量表示。词嵌入技术被广泛用于解决语义匹配问题。将IR技术与词嵌入技术相结合，考虑目标制品之间的语义关系，对IR得到的候选列表进行重新排序，有效地提高了基于IR的需求可追溯性。

信息检索Information Retrieval，简称IR方法，是一种用于计算不同文档之间文本相似性的技术。

如图1-图3所示的一种基于信息检索的需求追踪恢复方法，包括如下步骤：

本实施例中，预处理包括删除停止字，删除不寻常的字，删除标点符号，删除空格等数据处理步骤。

本实施例中，具体使用RETRO.NET工具实现计算源制品和目标制品的相似度值，生成候选追踪链。

本实施例中，选择实验需要的第一个cut percentage，候选列表的前k1％组成需求域的范围。

初始的需求域标识了追踪到给定需求的所有目标制品，即假设与给定需求有正确追踪链的目标制品。

每个外部区域的目标制品(即初始的需求域外部的目标制品)是通过内部区域的目标制品(即初始的需求区域内部的目标制品)和SRTG确定的。

本实施例中，选择实验所需的第二个cut percentage，即语义关系排名列表的前k2％组成针对某个目标制品的目标制品语义关系相互依赖图SRTG。

本发明基于信心检索技术，不仅考虑源制品到目标制品之间的关系，还增加考虑目标制品之间的语义关系。正如我们所知道的，实现同一个需求的目标制品之间是存在关联关系的，如代码之间的继承和依赖关系、用例之间的包含、泛化和扩展关系。这些关系在目标制品被预处理成文本制品之后依然存在，此时称统称这种关系为语义关系。增加考虑这些语义关系，可以为需求追踪提供支持。如，当目标制品T1和T2之间存在语义关系，利用信心检索得出R1与T1有追踪关系，那么可以假设R1到T2之间也有追踪关系，这样做的话，可以提升正确追踪链在候选列表中的排名，省去检查大量误报的人工成本。

Claims

1.一种基于信息检索的需求追踪恢复方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于信息检索的需求追踪恢复方法，其特征在于：所述IR模块、域模块、语义关系模块和输出模块均部署在分布式服务器集群中。

3.如权利要求1所述的一种基于信息检索的需求追踪恢复方法，其特征在于：在执行步骤6到步骤8时，设定G(T,E)表示目标制品Tj间的关系图，其中T＝{t1,…tn}为目标制品集合，E＝{ti,tj}用边来表示ti与tj之间有关系；