CN111460401A

CN111460401A - 结合软件制品过程信息和文本相似度的制品自动追踪方法

Info

Publication number: CN111460401A
Application number: CN202010431048.3A
Authority: CN
Inventors: 张甜甜; 张贺; 荣国平; 邵栋; 董黎明; 叶戴林子; 谢妃梅
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-07-28
Anticipated expiration: 2040-05-20
Also published as: CN111460401B

Abstract

本发明属于计算机技术领域，具体涉及一种结合软件制品过程信息和文本相似度的制品自动追踪方法，包括：选择制品，挖掘待关联制品间的追踪关系，划分显隐式追踪关系；抽取待关联制品的过程信息；计算待关联制品间的文本相似度；为显式追踪关系的制品选定过程特征及关系结果标签；隐式追踪关系的制品间的追踪关系人工打标签，并借助中间制品增加相关特征；预处理数据，获取样本集，选择机器学习分类算法，训练模型，预测制品间是否存在追踪关系。本发明从过程数据出发，解决了信息检索方法受限于文本质量以及词汇失配的问题，且可以追踪多种制品间的追踪关系。本发明相较于传统依赖文本相似度的信息检索方法，精确率和召回率均有大幅度提升。

Description

结合软件制品过程信息和文本相似度的制品自动追踪方法

技术领域

本发明属于计算机技术领域，具体涉及一种结合软件制品过程信息和文本相似度的制品自动追踪方法。

背景技术

软件可追踪性是一种将软件制品与其他制品关联起来，并使用制品关系网络解析软件产品和开发问题的能力。软件可追踪性研究的主要目标是构建各种制品间的追踪关系，称为追踪链接，通过追踪关系可以减轻软件维护难度，保障软件安全性，帮助利益相关人员了解此类制品以及与其关联的制品，挖掘更多信息。制品间的追踪链接一般为项目参与者心中的隐式信息，由于人工记录链接成本较高，且对于项目参与者来说，追踪链接带来的收益不够突出，故在软件开发过程中制品相应的链接并没有被直接记录。但随着可追踪性在保障关键安全系统正确性和支持软件维护工作中地位的提高，同时作为软件可信、过程可信的重要属性，构建和恢复制品间的追踪链接成为当下的研究热点。因此出现了一些半自动化的方法用以恢复制品间的链接，致力于减少人力成本。

目前，主流方法借助信息检索模型，根据文本相似度生成潜在追踪链接的排名列表，用以构建需求和源代码间的追踪关系。但是该方法完全受限于制品的文本质量，由于词汇失配，代码元素命名不规范等低质量文本内容，存在召回率和精确率不能两全的问题。

发明内容

本发明的目的在于：针对现有方法的不足，本发明的目的是提供一种结合软件制品过程信息和文本相似度的多制品自动追踪方法。

为实现上述目的，本发明的技术方案是：提供一种结合软件制品过程信息和文本相似度的制品自动追踪方法，包括以下步骤：

S1：选择待关联软件制品，挖掘软件制品间是否存在追踪链接，确定软件制品间的追踪关系类型，所述追踪关系类型具体分为显式追踪关系和隐式追踪关系；

S2：从目标软件资源库中抽取待关联软件制品的过程信息相关字段，包括制品状态、文本描述信息、不同状态下的时间、相关负责人员；

S3：计算待关联软件制品间的文本相似度；

S4：对于显式追踪关系的软件制品，从过程信息中提取时间、人员和已关联链接特征，并确定结果标签。

S5：对于隐式追踪关系的软件制品，借助过程中的中间制品作为媒介，增加时间、人员、文件特征，判定待关联软件制品间是否存在追踪关系。

S6：预处理数据，获得样本集，将样本集分为训练集和测试集，训练二分类模型，预测软件制品间是否存在追踪关系；

命名待关联的软件制品为制品A和制品B，制品A的集合表示为Set_A＝{a₁,a₂,a₃,…,a_n}，其中a_i表示具体的制品，制品B的集合表示为Set_B＝{b₁,b₂,b₃,…,b_n}，其中b_i表示具体的制品。

优选地，所述S1包含以下步骤：

S1-1：选择待关联制品A和制品B，挖掘制品间是否存在追踪链接，确定制品间的追踪关系类型；

若产生制品A的软件活动与产生制品B的软件活动在过程上相邻，制品A的过程信息中包含与制品B直接关联的字段，则制品之间存在显式追踪关系；

若产生制品A的软件活动与产生制品B的软件活动在过程上不相邻，且制品A的过程信息中并不包含与制品B直接关联的字段，则制品之间存在隐式追踪关系。

优选地，所述S2包含以下步骤：

S2-1：获取软件制品A过程信息数据，从软件资源库中获取制品A涉及到的人员、时间、文本描述及过程状态相关数据；

S2-2：获取软件制品B过程信息数据，从软件资源库中获取制品A涉及到的人员、时间、文本描述及过程状态相关数据。

优选地，所述S3包含以下步骤：

S3-1：制品A和制品B的文本描述信息分别被视为一个文档，对其进行文本预处理，预处理包括删除不规范文本记录和去除停用词；

S3-2：基于VSM模型，所述VSM模型表示空间向量模型，计算制品A和制品B的文本相似度，将制品A和制品B的文本描述用向量a，b表示，向量中的每个维度对应一个词项在文档中的权重，每个词项权重的计算方法为TF-IDF法，TF-IDF法表示词频-逆词频法，其中，向量a＝(w₁₁,w₁₂,···,w_1n)，向量b＝(w₂₁,w₂₂,···,w_2n)，w_ij为词项的权重；利用余弦距离计算向量a，b之间的余弦相似度：

制品A和制品B的文本相似度可表述为sim(des(A)，des(B))，des(A)和des(B)表示制品A和制品B的文本描述字段，θ为向量a，b之间的夹角。

优选地，所述S4包含以下步骤：

S4-1：挖掘显式追踪关系制品间的时间特征，首先确定制品A和制品B的生命周期关系，一般分为周期包含、周期交叉和周期并列；对比制品A和制品B的创建时间和结束时间，得到时间特征；

S4-2：挖掘人员特征，挖掘制品A和制品B的相关负责人的联系，包括同时参与制品A和制品B对应的软件活动的人员；

S4-3：挖掘已链接记录特征，显式追踪关系制品间存在已链接的记录，挖掘待关联制品和已链接记录之间的关系，提取特征；

其中，待追踪具体制品a_i与具体制品b_i，时间上在具体制品b_i之前且与具体制品a_i已链接的B类制品集合作为L_pre，L_p为集合中时间与b_i相隔最近的具体制品，计算具体制品b_i与L_p的文件重合度N_f＝overlap(file(b_i)，file(L_p))、文本相似度N_t＝sim(des(b_i)，des(L_p))；

其中计算文件重合度的公式为：

overlap(file(a_i)，file(b_i))＝(file(a_i)∩file(b_i))/(file(a_i)∪file(b_i))

file(a_i)为具体制品a_i涉及到的文件集合，file(b_i)为具体制品b_i涉及到的文件集合，file(a_i)∩file(b_i)为两个集合的交集，file(a_i)∪file(b_i)为两个集合的并集；

待追踪具体制品a_i与具体制品b_i，时间上在b_i之后且与具体制品a_i已链接的B类制品集合作为L_next，L_n为集合中时间上与具体制品b_i相隔最近的具体制品，计算具体制品b_i与L_n的文件重合度N_f＝overlap(file(b_i)，file(L_n))、文本相似度N_t＝sim(des(b_i)，des(L_n))；

S4-4：挖掘制品A和制品B之间的结果标签，若具体制品a_i可以关联到具体制品b_i，则a_i和b_i之间存在追踪关系，为正样本，否则为负样本。

优选地，所述S5包括以下步骤：

S5-1：选取中间制品C，作为制品A和制品B的媒介制品；

S5-2：获取制品A和制品B的时间特征、人员特征和文本特征；

S5-3：依据制品C，增加制品A和制品B间与制品C的相关特征，计算文件重合度和人员重合度；

S5-4：研究人员和项目参与者交叉判定制品A和制品B之间是否存在链接，存在则为正样本，否则为负样本。

优选地，所述S6包括以下步骤：

S6-1：数据预处理，对获取到的特征进行预处理，包括异常值、缺失值、数据规范化、离散特征处理；

S6-2：选用随机森林算法，按照训练集和测试集8：2的比例划分数据，以过采样的方法均衡训练集，用以训练模型；

S6-3：追踪关系预测，利用训练的模型预测待关联的链接。

本发明的有益效果：

与传统的信息检索模型相比，该方法应用了文本相似度作为其中一个特征，挖掘了多源软件资源库数据，并增加了软件制品过程相关特征，提高了特征的丰富度，同时减少了词汇失配、语言不统一、过多依赖于高质量文本等问题对预测结果带来的负面影响。该方法相较于传统的基于文本相似度的信息检索方法，准确率和召回率显著提高，且不局限于需求和源代码之间的追踪，可支持构建其他多制品间的追踪关系。

附图说明

图1为一种结合软件制品过程信息和文本相似度的制品自动追踪方法的流程示意图。

图2为实施例中数据的处理过程示意图。

图3为模型的训练过程示意图。

图4为制品间生命周期关系示例图。

图5为制品显隐式追踪关系示例图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

请参阅图1至图5所示，本发明提供了一种结合软件制品过程信息和文本相似度的制品自动追踪方法，包括以下步骤：

S3：计算待关联软件制品间的文本相似度；

S5：对于隐式追踪关系的软件制品，借助过程中的中间制品作为媒介，增加时间、人员、文件重合特征，判定待关联软件制品间是否存在追踪关系。

所述S1包含以下步骤：

所述S2包含以下步骤：

所述S3包含以下步骤：

S3-2：基于VSM模型，所述VSM模型表示向量空间模型，计算制品A和制品B的文本相似度，将制品A和制品B的文本描述用向量a，b表示，向量中的每个维度对应一个词项在文档中的权重，每个词项权重的计算方法为TF-IDF法，TF-IDF法表示词频-逆词频法，其中，向量a＝(w₁₁,w₁₂,···,w_1n)，向量b＝(w₂₁,w₂₂,···,w_2n)，w_ij为词项的权重；利用余弦距离计算向量a，b之间的余弦相似度：

所述S4包含以下步骤：

S4-3：挖掘已链接特征，显式追踪关系制品间存在已链接的记录，挖掘待关联制品和已链接记录之间的关系，提取特征；

其中，待追踪具体制品a_i与具体制品b_i，时间上在b_i之前且与具体制品a_i已链接的B类制品集合作为L_pre，L_p为集合中时间具体制品b_i相隔最近的具体制品，计算具体制品b_i与L_p的文件重合度N_f＝overlap(file(b_i)，file(L_p))、文本相似度N_t＝sim(des(b_i)，des(L_p))；

其中计算文件重合度的公式为：

待追踪具体制品a_i与具体制品b_i，时间上在b_i之后且与具体制品a_i已链接的B类制品集合作为L_next，L_n为集合中时间与具体制品b_i相隔最近的具体制品，计算具体制品b_i与L_n的文件重合度N_f＝overlap(file(b_i)，file(L_n))、文本相似度N_t＝sim(des(b_i)，des(L_n))；

所述S5包括以下步骤：

S5-1：选取中间制品C，作为制品A和制品B的媒介制品；

S5-2：获取制品A和制品B的时间特征、人员特征和文本特征；

所述S6包括以下步骤：

S6-3：追踪关系预测，利用训练的模型预测待关联的链接。

实施例中将选取具体的制品，详细叙述追踪构建过程。对于显式追踪关系，实施例一中以需求和代码提交的追踪为例。对于隐式追踪关系，实施例二中以需求和缺陷的追踪为例。

实施例一

本实施例中，主要描述的是显式追踪关系制品的追踪过程，以需求和代码提交为例。需求是软件制品中最为重要的制品，代码提交是代码变动的主要形式，可一定程度上代表代码制品。在实践中，开发人员在代码提交时，会手动填入关联的需求编号或修复的缺陷编号，由此可以从代码提交中定位到需求，即挖掘到已存在的追踪关系。且在需求设计完成后，进入编译过程，两类制品在过程上相邻，为显式追踪关系。但目前大多项目中的需求与代码提交记录间的追踪率参差不齐，仍存在部分需求和代码提交记录间无关联的情况。本实施例通过挖掘企业项目中的数据，选择已链接的记录作为样本集，构建模型，预测追踪关系。

步骤1：挖掘需求和代码提交的追踪关系。

代码提交中的描述信息中包含需求的编号，可由此定位到具体的需求，故需求与代码提交间为显式追踪关系。但因为不是每个需求都被追踪，在选取的企业项目中，需求在代码提交中的追踪率参差不齐，40％～80％不等。

步骤2：从软件资源库中，获取需求和代码提交的过程数据。

需求的生命周期会持续一段时间，从需求的创建、分析、排期、实现、验证直到需求的完成。软件资源库中所记录的过程信息包括需求的时间信息：创建时间和关闭时间；人员信息：需求的创建人员、开发人员、测试人员；需求的文本描述：标题和具体描述。资源库中需求的过程数据并不局限于表1中的数据。表1只涉及本方法所抽取的需求过程数据。

表1

字段名称	具体描述
		R_id	需求编号，定位唯一需求记录
R_title	需求的标题
		R_des	需求的文本描述
R_userid	需求的创建者，一般为需求的设计者
		R_createTime	需求的创建时间，一般在版本开始之初
R_closeTime	需求的关闭时间，一般在版本上线之前
		R_developer	需求的开发人员
R_tester	需求的测试人员
		R_version	需求所属版本
R_status	需求状态：评估、开发、测试、已完成

代码提交是代码变动的主要体现方式，且因为代码提交可以定位到每次更改的变动文件，可一定程度上代表代码制品。另外，在国内，软件开发中大部分的制品文档及代码提交信息都以中文为主，选择代码提交可一定程度规避源代码和制品间因语言差异和语义不一致带来的文本失配问题。代码提交会涉及到提交人员、提交时间、提交描述、增加和删除的代码行以及修改的文件，其中修改的文件一般为多个。表2为资源库中代码提交的相关过程数据。

表2

字段	具体描述
		C_id	代码提交编号，定位唯一commit
C_userid	提交者，即开发人员
		C_commitTime	commit提交时间
C_des	commit文本描述，改动说明
		C_deletions	该commit删除的代码行
C_additions	该commit增加的代码行
		C_number	该commit关联的需求、缺陷等
File_name	文件名称，即代码提交修改到的文件

步骤3：文本相似度计算。

文档d分词、去除停用词后，可由其包含的词项表示，d＝{t₁,t₂,t₃,…,t_n}，每个词项t_k按照一定的原则被赋予权重w_k，表示词项在文档中的重要程度。

每一个词项权重w_k的计算方法TF-IDF。

tfidf_i,j＝tf_i,j×idf_i

其中tf_i,j指的是词项在文档d_j中的出现频率，其中分子n_i,j为词项t_i在文档d_j中的出现次数，分母指的是文档d_j所有词项的次数之和；idf_i，表示词项t_i的逆文本频率，分子|D|表示文档总数，分母表示包含词项t_i的文档数目。

D1和D2为两个文档的空间向量表示，D1＝{w₁₁,w₁₂,…,w_1k}，D2＝{w₂₁,w₂₂,…,w_2k}，计算D1和D2的余弦相似度，可得到文档d1和d2的文本相似度。

用sim(d1,d2)表示两个文档d1和d2的计算过程，包含文本预处理、向量化和余弦距离计算，可达到文档d1和文档d2的文本相似度值。

des(C)和des(R)分别为代码提交和需求的文本描述，故需求和代码提交的文本相似度为sim(des(C),des(R))，作为文本特征。

步骤4，从需求和代码提交的过程信息中提取时间、人员、其他类型特征。

人员特征：需求的开发人员应为关联到此需求的代码提交的作者。RC₁代码提交者，RC₂为需求的开发人员，若RC₁＝RC₂，则RC₃＝1，否则RC₃＝0。

时间特征：代码的提交时间应在需求的生命周期内。RC₄为代码提交与需求创建时间差，RC₅为需求关闭时间与代码提交的时间差，若RC₄与RC₅都大于等0，则RC₆＝1，否则RC₆＝0。

其他特征：已链接到同一需求的先前提交相关特征。将已链接到此需求的commit作为集合C_pre，集合C_pre中代码的提交时间均小于C，C_p＝maxtime(C_pre)，RC₇＝commitTime(C)-commitTime(C_p)。

两次代码提交的文件重合度。其中，file_C为代码提交C修改的文件集合，file_C_p为代码提交C_p修改的文件集合，RC₈＝overlap(file_C,file_C_p)，RC₉＝userid(C_p)。

对于已链接到此需求的commit作为集合C_next，且C_next的提交时间均大于C，C_n＝mintime(C_next)，RC₁₀＝commitTime(C)-commitTime(C_n)，RC₁₁＝overlap(file_C,file_C_n)，RC12＝userid(C_n)。

在代码提交时，该项目开发进行中的需求数量，RC₁₃＝R{open}。

已链接到此需求的代码提交数量，RC₁₄＝C{linked}

表3为需求和代码提交的特征汇总。

表3

特征	特征值
		RC<sub>1</sub>	userid(C)
RC<sub>2</sub>	userid(R)
		RC<sub>3</sub>	0/1
RC<sub>4</sub>	commitTime(C)-createTime(R)
		RC<sub>5</sub>	closeTime(R)-commitTime(C)
RC<sub>6</sub>	0/1
		RC<sub>7</sub>	commitTime(C)-commitTime(C<sub>p</sub>)
RC<sub>8</sub>	overlap(file_C,file_C<sub>p</sub>)
		RC<sub>9</sub>	userid(C<sub>p</sub>)
RC<sub>10</sub>	commitTime(C)-commitTime(C<sub>n</sub>)
		RC<sub>11</sub>	overlap(file_C,file_C<sub>n</sub>)
RC<sub>12</sub>	userid(C<sub>n</sub>)
		RC<sub>13</sub>	R{open}
RC<sub>14</sub>	C{linked}
		RC<sub>15</sub>	sim(des(C),des(R))

确定结果标签，代码提交时开发人员一般会在C_number字段中填入涉及的需求编号，若代码提交信息中存在某个需求编号，则其追踪关系作为正样本，否则作为负样本。

步骤5，为隐式追踪关系制品的特征提取，此处不涉及。

步骤6，获取样本数据，训练模型。

将获取到的样本按照8：2的比例进行分割，其中样本数据集存在着不平衡问题，采取过采样方法对训练集进行均衡。采样多次，最终取随机森林模型的平均结果。其中附图3为模型的训练过程。

随机森林是一种由决策树扩展而来的集成机器学习算法，通过综合多棵决策树降低单一决策树中的过拟合问题，提高分类效果。

本实施例中选取了5个工业项目，表4为需求和代码提交追踪关系恢复的精确率和召回率。

表4

项目	F1	P	R
				P1	073	0.77	0.70
P2	0.68	0.73	0.64
				P3	0.87	0.87	0.87
P4	0.66	0.74	0.59
				P5	0.83	0.88	0.78

实施例二

本实施例中为隐式追踪关系制品的追踪过程，以需求和缺陷的追踪为例，并选取代码提交为媒介制品，增加过程特征。需求的设计和缺陷的修复活动在过程上不相邻，且数据上不存在直接可追踪的记录。研究人员和项目参与者交叉判定制品间的追踪关系作为样本集，训练模型，恢复制品间的追踪关系。

步骤1，挖掘需求和缺陷的追踪关系。

缺陷的过程数据中，不存在可以直接定位需求的数据。需求的过程数据中不包含可以直接定位缺陷的数据。需求和缺陷不存在已链接的追踪关系，且在制品生产过程上，需求和缺陷不相邻(参见附图5)，故为隐式追踪关系制品。

步骤2，从软件资源库中获取需求和缺陷的过程数据。

缺陷自创建到关闭会经历缺陷提交，定位，修复，验证等几个状态。缺陷追踪系统中会包含人员信息：提交人员和修复人员；时间信息：缺陷的创建时间、修复时间、关闭时间；以及缺陷的文本描述。注缺陷追踪系统中所记录的数据包括但不局限于表5。表5只涉及该方法所抽取的部分缺陷过程信息。

表5

步骤3，计算需求和缺陷文本描述的相似度。文本相似度的计算过程和实施例一中相同，需求和缺陷文本相似度sim(des(R)，des(B))，作为本文特征。

步骤4为显式追踪关系制品的特征提取，此处不涉及。

步骤5，选取中间制品，增加特征。一般情况下，缺陷会被分配给负责此需求的开发人员，以减少代码阅读理解成本。进一步，如果需求和缺陷之间存在追踪关系，两种制品对应的代码提交的源文件会存在高重叠度。

选取代码提交为中间制品，从人员、时间、代码提交重合度等提取需求和缺陷的特征。

人员特征：一般需求的开发人员应与缺陷的修复人员高度重合。RBC₁为需求的开发人员，RBC₂是缺陷的修复人员，若RBC₁＝RBC₂，则RBC₃＝1，否则RBC₃＝0。此处的相关人员为主要负责人，不与RBC₇的人员集合冲突。

时间特征：缺陷的生命周期应在需求的生命周期内。RBC₄为缺陷与需求创建时间的时间差，RBC₅为需求与缺陷的关闭时间的时间差，若RBC₄和RBC₅都大于等于0，则RBC₆＝1，否则RBC₆＝0。

代码提交重合特征：需求和缺陷在代码提交人员的重合度。RBC₇＝overlap(committer(R)，committer(B))，其中committer(R)为需求开发人员集合，committer(B)为缺陷修复人员集合。

一次代码提交会修改多个源文件，而缺陷修复大多是在原有功能基础上的修改维护，如果需求和缺陷存在追踪关系，则所修改源文件存在高度重合，RBC₈＝overlap(file(R),file(B))。其中file(R)为需求开发修改的文件集合，file(B)为缺陷修复修改的文件集合。

表6为需求和缺陷关联的过程特征汇总。

表6

特征	特征值
		RBC<sub>1</sub>	developer(R)
RBC<sub>2</sub>	developer(B)
		RBC<sub>3</sub>	0/1
RBC<sub>4</sub>	createTime(B)-createTime(R)
		RBC<sub>5</sub>	closeTime(R)-closeTime(B)
RBC<sub>6</sub>	0/1
		RBC<sub>7</sub>	overlap(committer(R),committer(B))
RBC<sub>8</sub>	overlap(file(R),file(B))
		RBC<sub>9</sub>	sim(des(R),des(B))

研究人员和项目参与者手动关联并交叉确认需求和缺陷间的追踪关系，以构建样本数据。制品间存在追踪关系为正样本，否则为负样本。

步骤6，划分样本数据，训练模型。将获取到的样本按照8：2的比例进行分割，其中样本数据集存在着不平衡问题，采取过采样方法对训练集进行均衡。采样多次，最终取随机森林模型的平均结果。

本实施例中，选取了5个工业项目，分类器使用随机森林模型。表7需为求和缺陷关联时每个项目的精确率和召回率。

表7

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，包括以下步骤：

S3：计算待关联软件制品间的文本相似度；

S5：对于隐式追踪关系的软件制品，借助过程中的中间制品作为媒介，增加人员、时间和文件特征，判定待关联软件制品间是否存在追踪关系。

2.根据权利要求1所述的结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，所述S1包含以下步骤：

3.根据权利要求1所述的结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，所述S2包含以下步骤：

4.根据权利要求1所述的结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，所述S3包含以下步骤：

S3-2：基于VSM模型，所述VSM模型为空间向量模型，计算制品A和制品B的文本相似度，将制品A和制品B的文本描述用向量a，b表示，向量中的每个维度对应一个词项在文档中的权重，每个词项权重的计算方法为TF-IDF法，其中，向量a＝(w₁₁,w₁₂,···,w_1n)，向量b＝(w₂₁,w₂₂,···,w_2n)，w_ij为词项的权重；利用余弦距离计算向量a，b之间的余弦相似度：

5.根据权利要求1所述的结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，所述S4包含以下步骤：

其中，待追踪具体制品a_i与具体制品b_i，时间上在具体制品b_i之前且与具体制品a_i已链接的B类制品集合作为L_pre，L_p为集合中时间与具体制品b_i相隔最近的具体制品，计算具体制品b_i与L_p的文件重合度N_f＝overlap(file(b_i)，file(L_p))、文本相似度N_t＝sim(des(b_i)，des(L_p))；

其中计算文件重合度的公式为：

待追踪具体制品a_i与具体制品b_i，时间上在具体制品b_i之后且与具体制品a_i已链接的B类制品集合作为L_next，L_n为集合中时间与具体制品b_i相隔最近的具体制品，计算具体制品b_i与L_n的文件重合度N_f＝overlap(file(b_i)，file(L_n))、文本相似度N_t＝sim(des(b_i)，des(L_n))；

6.根据权利要求1所述的结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，所述S5包括以下步骤：

S5-1：选取中间制品C，作为制品A和制品B的媒介制品；

S5-2：获取制品A和制品B的时间特征、人员特征和文本特征；

7.根据权利要求1所述的结合软件制品过程信息和文本相似度的制品自动追踪方法，其特征在于，所述S6包括以下步骤：

S6-3：追踪关系预测，利用训练的模型预测待关联的链接。