CN113791757B

CN113791757B - 软件需求和代码映射方法及系统

Info

Publication number: CN113791757B
Application number: CN202110796925.1A
Authority: CN
Inventors: 宫云战; 戴鹏; 王雅文; 金大海
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-08-22
Anticipated expiration: 2041-07-14
Also published as: CN113791757A

Abstract

本发明提供一种软件需求和代码映射方法及系统，方法包括：基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，所述源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；基于所述需求文本语义向量和所述源代码特征向量的相似度，确定所述软件需求和代码的映射关系。能够有效建立起从软件的需求到代码间的映射，利用此映射，提高相关的软件活动效率和质量。

Description

软件需求和代码映射方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种软件需求和代码映射方法及系统。

背景技术

软件质量与效率是软件开发活动两个最重要的技术指标，但严重受制于目前软件过程中各个环节的独立性。软件需求更改、代码更改、软件重用和软件测试等是软件工程的重要活动，它们都涉及软件需求与代码之间的映射关系。

软件需求文档、设计文档、代码文档和测试用例文档是软件过程的中间产品，目前国内外绝大多数软件系统，这些文档相互之间没有关系，在进行修改时，人为的将对应的文件统一修改，这给软件需求或代码的更改、软件的维护带来极大的不便。

因此，如何提供一种软件需求和代码映射方法及系统，建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量，成为亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种软件需求和代码映射方法及系统，至少现有技术中无法实现软件需求和代码的映射关联，导致相关的软件活动效率低下和质量差的技术问题。

提供一种软件需求和代码映射方法，包括：

基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；

基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，所述源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；

基于所述需求文本语义向量和所述源代码特征向量的相似度，确定所述软件需求和代码的映射关系。

本发明还提供一种软件需求和代码映射系统，包括：需求特征确定单元、代码特征确定单元和相似度确定单元；

所述需求特征确定单元，用于基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；

所述代码特征确定单元，用于基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，所述源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；

所述相似度确定单元，用于基于所述需求文本语义向量和所述源代码特征向量的相似度，确定所述软件需求和代码的映射关系。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述软件需求和代码映射方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述软件需求和代码映射方法的步骤。

本发明提供的软件需求和代码映射方法及系统，确定包含源代码文本语义信息和源代码功能语义信息的源代码特性向量，以及需求文档的需求文本语义向量，根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的软件需求和代码映射方法流程图；

图2为本发明提供的软件需求和代码映射方法流程示意图；

图3为本发明提供的建立面向软件工程领域词嵌入模型的流程示意图；

图4为本发明提供的提取需求与源代码文本语义信息的流程示意图；

图5为本发明提供的提取源代码功能语义信息的流程示意图；

图6为本发明提供的Tree-LSTM神经网络单元结构示意图；

图7为本发明提供的图神经网络模型工作原理示意图；

图8为本发明提供的软件需求和代码映射系统结构示意图；

图9为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

频繁的需求与代码更改是软件开发不可或缺的、软件的重用、软件的影响域分析、软件测试等都需要建立起从软件的需求到代码间的一种映射，利用此映射，可以有效提高相关的软件活动效率和质量。

近些年来，人工智能技术的发展为此技术提供了可能。通过优化神经网机器学习模型，利用词嵌入算法，可将需求文档、代码转变成特征向量集；通过多种神经网络(循环神经网络、最大池神经网络、注意力机制神经网络等)的学习算法，可将特征向量进行融合；利用神经网络将控制流图特征、抽象语法树特征转变成特征向量，并基于代码语义库，以便能很好的理解代码的语义。通过向量的比较、代码语义，以建立其从需求到代码准确的映射。基于现有的面向领域的中英文词库、代码语义库，通过大量的工程实验，以验证计算方法的准确性和有效性。

图1为本发明提供的软件需求和代码映射方法流程图，如图1所示，本发明实施例提供一种软件需求和代码映射方法，包括：

步骤S1，基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；

步骤S2，基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；

步骤S3，基于需求文本语义向量和源代码特征向量的相似度，确定软件需求和代码的映射关系。

需要说明的是，上述方法的执行主体可以是计算机设备。

具体的，图2为本发明提供的软件需求和代码映射方法流程示意图2所示，由于需求文档中包含的信息可能存在许多连词和助词等没有包含具体文本语义信息的词，在对需求文档进行处理之前，可以将无意义的词进行剔除，提取需求文档中包含文本语义信息的词，句子等内容，并确定需求文档词向量。

需求文档词向量可记为：

E_(n)＝e₁，e₂……e_n＝embedding(words in requirment)

其中，words in requirment表示需求文档中的词汇，embedding表示需求文档的词嵌入模型，e₁，e₂……e_n是这些词汇经过词嵌入模型编码后得到的词向量。

同理，将源代码文件中无意义的信息进行剔除，提取源代码文件中包含文本语义信息的文件名、函数名、注释、语句、变量、常量和api接口等内容，并确定源代码文本词向量。

源代码文本词向量可记为：

E′_(n)＝e′₁，e′₂……e′_n＝embedding(words in requirment)

其中，words in code表示源代码文本中的词汇，其中以驼峰或下划线的方式命名的变量名，函数名等或被拆分成多个词汇。embedding表示源代码的词嵌入模型，e′₁，e′₂……e′_n是这些词汇经过词嵌入模型编码后得到的词向量。

在步骤S1中，基于需求文档确定需求文档词向量E(n)，根据需求文档语义特征提取模型，利用神经网络将其融合为一个代表需求文本语义的向量，确定需求文本语义向量。

需求文本语义向量可记为：

其中，h₁，h₂，…h_n代表经过需求文档中词汇的词向量。代表经过神经网络训练后这些词向量的权重系数。b是神经网络的偏置项。

可以理解的是，由于源代码涉及循环、选择和跳转等多种语句，仅顺序的提取源代码的文本语义信息并不足以反应源代码的特征，因此，需要在源代码文本语义信息的基础上，结合源代码功能语义信息，共同反映源代码的特征信息。

在步骤S2中，基于源代码文本确定源代码文本词向量E′_(n)，根据源代码特征提取模型，确定源代码特征向量其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息。

可以理解的是，在利用需求文档语义特征提取模型和源代码特征提取模型之前，还需要对模型进行训练，模型训练时所使用的具体方法和模型的具体结构可根据实际需求进行调整，本发明对此不做限定。

在确定需求文本语义向量和源代码特征向量/>之后，在步骤S3中，计算/>和/>的相似度，根据相似度的大小，确定软件需求和代码的映射关系。

例如：根据余弦相似度公式计算需求文本语义向量和源代码特征向量相似度的相似度：

余弦相似度公式：

其中，m，n分别表示要比较的两个特征向量，m_i和n_i分别表示两个特征向量的分量。

需要说明的是，在本发明中，计算需求文本语义向量和源代码特征向量相似度的方法除了余弦相似度外，还可使用计算欧式距离和曼哈顿距离等方法。在本发明实际应用过程中，相似度计算方法，均可根据实际情况进行调整，本发明对此不做限定。

可以理解的是，可以基于本发明提供的软件需求和代码映射方法构建软件需求和代码映射数据库，在确定软件需求的条件下，根据映射关系查找相对应的代码，或者在确定代码的条件下，根据映射关系查找相对应的软件需求。本发明具体的应用方法可根据实际需求进行调整，本发明对此不做限定。

本发明提供的软件需求和代码映射方法，确定包含源代码文本语义信息和源代码功能语义信息的源代码特性向量，以及需求文档的需求文本语义向量，根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

可选的，根据本发明提供的一种软件需求和代码映射方法，基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量，具体包括：

基于需求文档，根据需求文档词嵌入模型，确定需求文档词向量；

基于需求文档词向量，根据需求文档语义特征提取模型，确定需求文本语义向量。

具体的，基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量，具体包括：

基于需求文档，根据预先训练好的需求文档词嵌入模型，确定需求文档词向量；

基于需求文档词向量，根据需求文档语义特征提取模型，确定需求文本语义特征。

图3为本发明提供的建立面向软件工程领域词嵌入模型的流程示意图，如图3所示，可以理解的是，在确定需求文本和源代码文本的特征信息时，需要应用需求文档词嵌入模型和源代码词嵌入模型，在此之前，还需要训练需求文档词嵌入模型和源代码词嵌入模型。

可以理解的是，由于需求文档和源代码中均包含一些并没有实际意义的词，为了便于模型的训练和特征的识别，需要使用分词工具，去除需求文档和源代码中的停用词后作为词嵌入模型的输入。

由于在书写软件需求文档时，所应用的语言不限于单一类别，以同时使用中文和英文为例，在训练需求文档词嵌入模型时，需要收集面向软件工程领域的中文词汇和面向软件工程领域的英文词汇构建需求词库，并建立面向软件工程中英文词库以及它们之间的对应关系。

基于词嵌入算法，构建需求文档词嵌入模型，利用上述需求词库以及中英文词语之间的对应关系训练需求文档词嵌入模型，并验证词嵌入模型的效果。可以理解的是，在上述例子中，需求词库中包含中文词汇和英文词汇，除此之外，还可根据本发明的应用场景调整词库中包含的语言类型，本发明对此不做限定。

此外，目前软件工程的词库中几乎没有中文的软件工程领域词库，同样需要收集实际软件工程项目如航空航天、医疗卫生和金融等，并提取其中的专业词汇与专业术语进行详细的补充。由于软件工程中的专有词汇会不断增加，因此本发明中的词库会随着软件工程词库的增长而不断收纳新的词汇。

在训练源代码词嵌入模型时，软件的源文件中需要去除了构建配置，二进制文件，项目描述，数据描述等文件，也无需考虑来自第三方的文件，比如各种库文件。根据大量的源文件确定源代码数据库。

基于词嵌入算法，构建源代码词嵌入模型，利用上述源代码数据库训练源代码词嵌入模型，并验证词嵌入模型的效果。

可以理解的是，以构建适用于软件工程中需求与源代码的词嵌入模型为例，对本发明进行说明。

本发明的词嵌入模型以任意一个单词w_k作为输入，并经过训练，如果w_k出现在了单词w_t的上下文中，那么预测概率为1，否则为0。训练公式如下：

其中，在给定任意一个单词w_k的情况下，其向量表示W_k作为w_tLogistic回归模型中的参数，即为w_k的特征向量。

在训练过程中如果w_k在w_t的上下文下，则认为它是一个W₊。任何其他词都可以作为一个W_{_}。上下文C_t通常定义为一个以当前单词w_t为中心的固定大小的窗口。(有噪声的)否定例N_t的集合是通过从领域词汇中随机抽取固定数量的单词来构建的，针对上下文C_t中的每个单词。

当训练包含T个单词的句子序列时，该使用随机梯度下降来最小化如下方程所示的对数似然目标函数J(W)。

损失函数如下：

进一步，可以理解的是，提取源代码文本语义时的输入包括代码中的注释，类属性(这里定义为从源码中提取的包括类名，全局变量，函数名)和函数内的局部变量名。

本发明采用改进后的基于注意力机制的长短时记忆神经网络(Attention-basedLSTM)来处理需求和源代码中的注释语句。因为这些文本是用自然语言描述的连续语句，十分适合使用Attention-based LSTM提取其中的语义信息。

每个LSTM单元包含了一个输入门，一个输出门，一个遗忘门，他们的计算公式分别如下所示。

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

其中，x_t代表该记忆单元的输入，h_t-1代表上一个记忆单元的输出，W_i，W_o，W_f分别代表输入门，输出门，遗忘门中输入x_t的权重。U_i，U_o，U_f则分别代表输入门，输出门，遗忘门中上一个记忆单元输出h_t-1的权重。b_i，b_o，b_f分别代表输入门，输出门，遗忘门中的偏置项。σ是神经网络的激活函数。

除此之外，LSTM单元还包括一个记忆候选向量和记忆单元c_t。记忆候选向量/>由一个双曲正切函数控制。记忆单元则是由通过输入门的候选向量/>与上一个记忆单元c_t-1通过遗忘门的和得到的。⊙是Hadamard(哈达玛)乘积，表示对应位置元素相乘。

h_t＝o_t⊙tanh(c_t)

LSTM模型(long-short term memory，长短期记忆模型)中，以最后一个LSTM单元的输出作为整个句子经过神经网络的输出结果。Attention机制是通过保留每个LSTM单元对输入序列的中间输出结果，然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。公式如下所示：

α＝softmax(ω^Tc)

其中，是LSTM中每个神经单元的输出，tanh是双曲正切函数，softmax函数是归一化指数函数，用于逻辑回归模型。

需要说明的是，上述模型的训练方法仅作为一个具体的例子对本发明进行说明，在本发明实际应用过程中，模型训练时所使用的具体方法和模型的具体结构可根据实际需求进行调整，本发明对此不做限定。

进一步，在确定词嵌入模型之后，还可以进行模型准确性的判断，根据准确性不断调整模型进行优化。

基于公式，

用对数似然损失函数计算词嵌入模型的准确性，其中，x为输入变量y为输出变量，N为输入样本量，y_i是一个0，1的指标，为模型输出正确类别的概率。

本发明提供的软件需求和代码映射方法，通过基于训练好的需求文档词嵌入模型和源代码词嵌入模型，分别处理需求文档和源代码文档，确定需求文档词向量和源代码文本词向量，根据词嵌入模型提取需求文档和源代码的词向量特征，准确的描述需求文档和源文件中所包含的词向量信息。

可选的，根据本发明提供的一种软件需求和代码映射方法，源代码特征提取模型包括：源代码词嵌入模型、源代码文本语义特征提取模型和功能语义特征提取模型；

基于源代码文本，根据源代码特征提取模型，确定源代码特征向量，具体包括：

基于源代码文本，根据源代码词嵌入模型，确定源代码文本词向量；

基于源代码文本词向量，根据源代码文本语义特征提取模型，确定源代码文本语义向量；

基于源代码文本，根据功能语义特征提取模型和源代码词嵌入模型，确定源代码功能语义向量；

基于源代码文本语义向量和源代码功能语义向量，确定源代码特征向量。

具体的，由于在确定源代码的特征信息时，需要确定源代码文本语义信息和源代码功能语义信息。对应的，源代码特征提取模型包括：源代码词嵌入模型、源代码文本语义特征提取模型和功能语义特征提取模型。分别提取上述两类特征信息。

基于源代码文本，根据预先训练好的源代码词嵌入模型，确定源代码文本词向量E′_(n)。可以理解的是，建立源代码词嵌入模型的方法在上文中以进行详细说明，在此不再赘述。

基于源代码文本词向量E′_(n)，根据源代码文本语义特征提取模型，确定源代码文本语义向量。以提取的源代码文本词向量E′_(n)为基础，利用神经网络将其融合为一个代表需求文本语义的向量，即源代码文本语义向量。

源代码文本语义向量为：

其中，h′₁，h′₂，…h′_n代表经过源代码文件中词汇的词向量。代表经过神经网络训练后这些词向量的权重系数。b′是神经网络的偏置项。

基于源代码文本，根据功能语义特征提取模型和源代码词嵌入模型，确定源代码功能语义向量。可以理解的是，源代码功能语义向量包含了源代码在执行时所能实现的功能信息。源代码词嵌入模型用于将源代码词汇转换为语义向量。

基于源代码文本语义向量和源代码功能语义向量，将两个类型的特征进行结合，确定源代码特征向量

可以理解的是，在应用源代码词嵌入模型、源代码文本语义特征提取模型和功能语义特征提取模型之前，还包括训练源代码词嵌入模型、源代码文本语义特征提取模型和功能语义特征提取模型，具体的模型的训练方法和模型的具体结构可根据实际情况进行设置，本发明对此不做限定。

图4为本发明提供的提取需求与源代码文本语义信息的流程示意图，如图4所示，由于本发明构建映射关系的基础在于需求文档的特征和源代码特征的相似性，确定需求文档和源代码的文本语义向量(需求文本语义向量和源代码文本语义向量)之后，还可以基于相似性计算，确定语义向量之间的关联关系，基于该关联关系是否准确匹配，对模型进行优化。

可以理解的是，由于本发明根据需求文档以及源代码编码后的特征向量之间的相似度来建立映射链接，对于一条需求选择与其相似度最高的k个源代码文件，验证其中存在映射关系的个数，从而判断提取语义信息模型的准确性。

在确定源代码特征向量之后，可以计算向量融合模型的准确性，根据准确性的数值，不断调整模型进行优化。

向量融合模型的准确性计算公式：

其中，TOP(k)表示与一条需求相似度最高的k个源代码文件。right是其中存在映射关系的文件个数。模型的准确性与RS、CS、E、NNT、NNS、NNC有关，其中，RS，CS分别代表需求与源代码编写的规范性，E代表词嵌入模型的准确性，NNT，NNS，NNC分别代表提取文本语义信息中的特征向量融合神经网络的类型，结构以及它们之间的连接关系。f_T则是这些影响因素与映射链接精确性之间的系数

此外，在将需求和代码进行映射联系之后，还可以计算需求与代码映射链接精确性根据准确性的数值，调整需求和代码之间的映射关系。

需求与代码映射链接精确性公式：

验证需求与代码映射链接精确性的判定方法与向量融合的判定方法相似，然而影响因素却存在差异。

其中，TOP(k)表示与一条需求相似度最高的k个源代码文件。right是其中存在映射关系的文件个数。RS，CS分别代表需求与源代码编写的规范性，WC代表收集的软件工程领域中英文专有词汇收集的完整度，E代表词嵌入模型的准确性，TS，FS分别代表提取需求与源代码文本语义信息模型以及程序功能语义信息模型的准确性。f_P则是这些影响因素与映射链接精确性之间的系数

本发明提供的软件需求和代码映射方法，源代码特征提取模型包括：源代码词嵌入模型、源代码文本语义特征提取模型和功能语义特征提取模型，通过源代码文本语义特征提取模型提取源代码的文本语义信息，通过功能语义特征提取模型提取源代码的功能语义信息，基于源代码文本语义信息和源代码功能语义信息的能够准确地反映源代码的特征，有效的提高了对源代码的识别能力。根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

可选的，根据本发明提供的一种软件需求和代码映射方法，功能语义特征提取模型包括：信息提取层、功能语义提取层、全局信息确定层和特征融合层；

基于源代码文本，根据功能语义特征提取模型和源代码词嵌入模型，确定源代码功能语义向量，具体包括：

将源代码文本输入信息提取层中，根据信息提取层，根据源代码词嵌入模型，确定抽象语法树特征、路径特征集和控制流图特征；

将抽象语法树特征和路径特征集输入功能语义提取层中，根据功能语义提取层，确定源代码功能语义特征；

将控制流图特征输入全局信息确定层中，根据全局信息确定层，确定源代码全局语义信息；

将源代码功能语义特征和源代码功能语义信息输入特征融合层中，根据特征融合层，确定源代码功能语义向量。

具体的，图5为本发明提供的提取源代码功能语义信息的流程示意图，如图5所示，功能语义特征提取模型包括：信息提取层、功能语义提取层、全局信息确定层和特征融合层。

基于源代码文本词向量，根据功能语义特征提取模型，确定源代码功能语义向量，具体包括：

将源代码文本词向量输入信息提取层中，提取源代码的抽象语法树(abstractsyntax code，AST)、路径集和控制流图(Control Flow Graph，CFG)。根据源代码词嵌入模型，分别将抽象语法树、路径集和控制流图中的语义信息转换为语义向量，将抽象语法树、路径集和控制流图经过词嵌入模型编码，确定抽象语法树特征、路径特征集和控制流图特征。

可以理解的是，抽象语法树是源代码的抽象语法结构的树状表示，树上的每个节点都表示源代码中的一种结构。路径集包含了源代码中所有的支路，控制流图为源代码程序的抽象表现。

将抽象语法树特征和路径特征集输入功能语义提取层中，根据功能语义提取层，根据抽象语法树特征与路径特征集中路径相对应，能够有效确定与抽象语法树特征中与路径相关节点的信息，确定源代码功能语义特征。可以理解的是，该源代码功能语义特征为局部的特征信息，仅与路径相关，无法反应全局特征。

将控制流图特征输入全局信息确定层中，根据全局信息确定层，确定源代码全局语义信息。可以理解的是，控制流图特征是代码的抽象表示，确定的源代码全局语义信息能够反映源代码的全局特征。

将源代码功能语义特征和源代码功能语义信息输入特征融合层中，根据特征融合层，将两特征进行组合，确定源代码功能语义向量。

可以理解的是，在应用功能语义特征提取模型之前，还需要训练功能语义特征提取模型，具体的训练方法和模型的具体结构可根据实际情况进行设置，本发明对此不做限定。

进一步，在训练功能语义特征提取模型时，可以根据一下公式计算功能语义特征提取模型的准确性，根据准确性的数值，不断调整模型进行优化。

模型的准确性Precision(FS)用交叉熵损失函数L_CrossEntropy来计算。其中，N为输入样本量，M为功能类别的数量，对每一个样本i，模型给出属于该样本在类别c上的概率p_ic，y_ic为二值指示变量(0或1)，若模型预测样本i的类别c与实际标签一致，则y_ic为1，否则为0。

进一步地，损失函数可简化为模型赋予真实标签概率p_true的负对数，当模型赋予真实标签的概率趋于1时，损失函数接近于零。概率越接近于0，损失越大。

本发明根据词嵌入模型准确性判定、文本语义信息提取中的向量融合模型准确性判定、功能语义特征提取模型准确性判定以及最终建立的映射关系的准确性判定4个公式验证模型的准确性并不断调整模型的结构，保证需求和代码映射的准确性。

本发明提供的软件需求和代码映射方法，根据功能语义特征提取模型的信息提取层、功能语义提取层、全局信息确定层和特征融合层，分别确定源代码的局部特征和全局特征，结合局部特征和全局特征确定源代码功能语义向量，有效的提高了对源代码的识别能力。根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

可选的，根据本发明提供的一种软件需求和代码映射方法，将抽象语法树特征和路径特征集输入功能语义提取层中，根据功能语义提取层，确定源代码功能语义特征，具体包括：

将抽象语法树特征和路径特征集输入功能语义提取层中；

基于功能语义提取层，根据预设拆分规则，将抽象语法树特征拆分为若干子语法树特征；

基于子语法树特征和路径特征集，确定源代码功能语义特征。

具体的，将抽象语法树特征和路径特征集输入功能语义提取层中，根据功能语义提取层，确定源代码功能语义特征，具体包括：

将抽象语法树特征和路径特征集输入功能语义提取层中；

基于功能语义提取层，根据预设拆分规则，将抽象语法树特征拆分为一系列若干子语法树特征。

需要说明的是，基于预设拆分规则拆分抽象语法树特征是基于代码的属性特性和结构特性进行拆分的，由于源代码中不同的功能语句中可能还包含有功能语句(例如：选择语句中嵌套循环语句)，再进行拆分时，可仅拆一层，或者是在此基础上再次对第二层进行拆分。具体的拆分规则(拆分的层级和子语法树特征的大小等)可根据实际情况进行调整，本发明对此不做限定。

基于子语法树特征和路径特征集，将所有子语法树特征和路径特征集中路径相对应，能够有效确定与子语法树特征中与路径相关节点的信息，确定源代码功能语义特征。

可以理解的是，由于源代码的输入和输出之间可能存在多个分支，因此，路径特征集中包括至少一条路径，在确定源代码功能语义特征时，可以在路径特征集中确定一条路径作为目标路径，仅确定该路径对应的局部特征。

需要说明的是，在路径特征集中确定目标路径的方法可以是随机选择，或者选择最短、最长、分支最少的路径等选择方法，可根据实际需求设置，本发明对此不做限定。

本发明提供的软件需求和代码映射方法，将抽象语法树特征拆分为若干子语法树特征，基于子语法树特征和路径特征集确定源代码功能语义特征，由于子语法树特征无法确定全局特征，源代码功能语义特征反映了源代码中与路径相关的局部特征，有效的提高了对源代码的识别能力。根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

可选的，根据本发明提供的一种软件需求和代码映射方法，基于子语法树特征和路径特征集，确定源代码功能语义特征，具体包括：

基于子语法树特征，确定子语法树特征中的所有节点的节点向量；

基于路径特征集和节点向量，确定源代码功能语义特征。

具体的，基于子语法树特征和路径特征集，确定源代码功能语义特征，具体包括：

基于子语法树特征，确定子语法树特征中的所有节点，并将节点编码为token向量，将token向量映射成实值向量，确定节点向量。

基于路径特征集和节点向量，将路径特征集中的对应的节点向量进行融合，确定源代码功能语义特征。

以最大池(Max-pooling)神经网络，Tree-LSTM神经网络提取源代码功能语义特征为例，对本发明进行解释说明。

将源代码中的类属性(定义为从源码中提取的包括类名，全局变量，函数名)和函数内的局部变量名，以驼峰或下划线命名方式进行拆分，拆分后得到的词汇并不是连续的语句，因此并不适合使用Attention-based LSTM对他们经过词嵌入的分布式向量进行处理。

本发明使用最大池(Max-Pooling)神经网络提取它们中的语义信息。当向量集通过Max-Pooling网络后，输出每一个特征的最大值h_m。

由此可知，最大池网络最适合提取文件名，函数名，变量名等不存在上下文信息的词汇对应的文本语义信息。

因此，利用Attention-based LSTM以及Max-Pooling网络对需求以及源代码中的各个部分提取其中的语义信息。

确定源代码文本语义信息后，基于Tree-LSTM神经网络(树形-长短期记忆网络)确定源代码功能语义特征。

Tree-LSTM神经网络中每个LSTM单元包含一个输入门、一个存储单元和一个输出门。传统的LSTM根据先前的隐藏状态h_t-1、先前的单元状态c_t-1和当前顺序输入x_t生成新的隐藏和单元状态。

图6为本发明提供的Tree-LSTM神经网络单元结构示意图，如图6所示，在基于子节点总和的Tree-LSTM中，组件节点状态是根据其子节点在树中的状态生成的，内部门(即输入、输出和中间单元状态)将使用组件节点的子节点隐藏状态的总和进行更新，利用该隐藏状态，节点的输入，中间以及输出状态如下公式所示：

f_jk＝σ(W^(f)x_j+U^fh_k+b^(f))

/>

h_j＝o_j⊙tanh(c_j)

其中，C(j)为节点j的子节点，对应到抽象语法树特征中，即为某节点的所有子节点。

W⁽ⁱ⁾，W^(f)，W^(o)，W^(u)，Uⁱ，U^f，U^o，U^u，b⁽ⁱ⁾，b^(f)，b^(o)，b^(u)为需要被学习的参数。最后得到的h_j为该节点进行神经网络后的特征向量。

需要说明的是，上述以最大池(Max-pooling)神经网络，Tree-LSTM神经网络提取源代码功能语义特征的方法仅作为一个具体的例子对本发明进行说明，除此之外，还可使用其他的模型结构，本发明对此不做限定。

本发明提供的软件需求和代码映射方法，通过将抽象语法树特征拆分为多个子语法树特征，基于子语法树特征中节点向量和路径特征集源代码功能语义特征，更精确的提取了源代码的局部特征，有效的进一步提高了对源代码的识别能力。根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

可选的，根据本发明提供的一种软件需求和代码映射方法，将控制流图特征输入全局信息确定层中，根据全局信息确定层，确定源代码全局语义信息，具体包括：

将控制流图特征输入全局信息确定层中；

基于全局信息确定层，根据控制流图特征，确定所有节点的局部邻居信息；

基于所有节点的局部邻居信息和控制流图特征，确定源代码全局语义信息。

具体的，将控制流图特征输入全局信息确定层中，根据全局信息确定层，确定源代码全局语义信息，具体包括：

将控制流图特征输入全局信息确定层中，基于全局信息确定层，根据控制流图特征，获取源代码中所有节点的局部邻居信息。局部邻居信息即表示当前节点与相邻节点之间的关系。

将所有节点的局部邻居信息和控制流图特征组合在一个联合数据结构中，确定源代码全局语义信息。

进一步，可以理解的是，由于源代码所有的路径中可能出现无法输出结果的路径，即控制流图特征中包括可达路径和不可达路径，在确定源代码全局语义信息时，可以对控制流图特征中的路径进行过滤，仅保留可达路径对应的信息，确定源代码全局语义信息。

其次，由于控制流图特征中所有的节点对全局的贡献能力不同，在进行模型训练时，还可以利用神经网络中的注意力机制学习控制流图特征中的各节点的全局注意得分(进一步提高特征提取的准确性)。

本发明采用图神经网络(GNN)编码控制流图特征中的语义信息(全局信息)。图7为本发明提供的图神经网络模型工作原理示意图，GNN总体架构如图7所示，GNN的目标是学习每个包含其邻域信息的节点的状态嵌入，有时是学习整个图的嵌入。GNN模型适合于通用框架消息传递神经网络(MPNN)。

GNN包括两个阶段：消息传递和读取。假设有一个图G＝(V，E)其中V是顶点的集合，E是边的集合。G中的每个节点保留一个状态h，并为每条边分配一个嵌入状态e。

消息传递步骤通过以下方式更新节点的状态：

h_i ^(t+1)＝f_update(h_i ^(t)，m_i)

其中，f_message是消息函数，f_update是顶点更新函数，f_aggregate是的聚合函数。m_j→i和m_i可以看作是一个聚合器，其中每个节点从它的邻居节点收集信息。h_i ^(t+1)是更新器，更新所有节点的隐藏状态。在消息传递阶段，上面的更新过程运行T个步骤。

在最终表示阶段，模型用函数f_R来计算整个图形的特征向量表示：h_G＝f_R({h_i ^T|i∈V})

需要说明的是，上述以图神经网络(GNN)编码控制流图特征中的语义信息的方法仅作为一个具体的例子对本发明进行说明，除此之外，还可使用其他的模型结构，本发明对此不做限定。

本发明提供的软件需求和代码映射方法，通过控制流图特征提取源代码的全局特征，结合局部特征和全局特征确定源代码功能语义向量，有效的提高了对源代码的识别能力。根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，建立软件中不同形态文件之间的映射关系，为软件人员提供一种新的工具，有效提高相关的软件活动效率和质量。

下面结合具体实例对本发明做进一步说明：

SwitchYard是一个开源的轻量级的服务交付框架，提供完整的开发、发布和管理面向服务应用程序的全生命周期。首先从世界上最大的代码托管平台GitHub上下载其需求以及源码。之后将SwitchYard的需求以及源码经过预处理(去除需求中的连词，介词等以及源代码中构建配置，二进制文件，项目描述，数据描述等)。最后将这些需求以及源代码经过本发明的工具生成各自的特征向量。

其中，有一条需求为“Define the various configuration parametersrequired by the SOAP gateway to provide and consume a service.At this point，we can stick with the basic configuration to consume and provide a SOAP-basedweb service.”该条需求对应的特征向量如下，该向量是一个512维的空间向量。

需求空间向量为：

[0.10515048 0.11615929 0.12640095 0.07063103 0.10334915 0.130736590.11408362 0.12997395 0.12891303 0.1292508 0.13104829 0.12664136 0.100065730.10855305 0.12798485 0.09018414 0.13000922 0.11905037......0.131748620.12080269 0.12544681 0.13074669 0.04665744 0.1234728 0.10245915 0.114463980.1158184 0.12313773 0.13249686 0.09409612 0.12071036 0.13049617 0.127773090.07450321 0.12486064 0.07977229 0.12690648 0.12889607 0.12293468 0.1309040.09915127 0.12964463 0.1301892 0.12579775]

将所有代码文件对应的空间向量(512维)与该向量计算它们之间的相似度。在所有代码文件生成的空间向量中，以下源代码空间向量与上述需求空间向量之间的相似度最高，为0.6547193。

源代码空间向量为：

[0.10655024 0.1323362 0.12882155 0.13384555 0.12729985 0.131701990.12950401 0.13155615 0.12127218 0.1292508 0.12186828 0.10801543 0.128895940.1303077 0.10410306 0.12859169 0.12659349 0.12870887 0.13174862 0.103147440.1127788 0.11487558 0.12913778 0.13241331......0.12465679 0.129407760.11710706 0.13337903 0.10071062 0.12919688 0.12699024 0.1325534 0.130351780.12872809 0.11351611 0.13123164 0.12690648 0.12582329 0.1300416 0.096213550.13136524 0.11978611 0.12701505 0.08593945]

确定上述源代码空间向量对应的代码文件为：

soap/src/main/java/org/switchyard/component/soap/config/model/SOAPBindingModel.java。

经过人工确认，该源代码文件确实与这条需求之间存在映射链接。通过实际项目验证了本发明可以通过比较需求与代码文件生成的空间向量之间的相似度来建立它们之间的映射关系。

需要说明的是，上述方法仅作为一个具体的例子对本发明进行说明，除此之外，在本发明具体应用时，应用的具体方法可根据实际情况进行调整，本发明对此不做限定。

图8为本发明提供的软件需求和代码映射系统结构示意图，如图8所示，本发明还提供一种软件需求和代码映射系统，包括：需求特征确定单元810、代码特征确定单元820和相似度确定单元830；

需求特征确定单元810，用于基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；

代码特征确定单元820，用于基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；

相似度确定单元830，用于基于需求文本语义向量和源代码特征向量的相似度，确定软件需求和代码的映射关系。

图2为本发明提供的软件需求和代码映射方法流程示意图2所示，由于需求文档中包含的信息可能存在许多连词和助词等没有包含具体文本语义信息的词，在对需求文档进行处理之前，可以将无意义的词进行剔除，提取需求文档中包含文本语义信息的词，句子等内容，并确定需求文档词向量。

需求文档词向量可记为：

E_(n)＝e₁，e₂……e_n＝embedding(words in requirment)

同理，将源代码文件中无意义的信息进行剔除，提取源代码文件中包含文本语义信息的文件名，函数名，注释，语句，变量，常量，api接口等内容，并确定源代码文本词向量。

源代码文本词向量可记为：

E′_(n)＝e′₁，e′₂……e′_n＝embedding(words in requirment)

需求特征确定单元810，用于基于需求文档确定需求文档词向量E_(n)，根据需求文档语义特征提取模型，利用神经网络将其融合为一个代表需求文本语义的向量，确定需求文本语义向量。

需求文本语义向量可记为：

代码特征确定单元820，用于基于源代码文本确定源代码文本词向量E′_(n)，根据源代码特征提取模型，确定源代码特征向量其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息。

在确定需求文本语义向量和源代码特征向量/>之后，相似度确定单元830，用于计算/>和/>均相似度，根据相似度的大小，确定软件需求和代码的映射关系。

余弦相似度公式：

本发明提供的软件需求和代码映射系统，确定包含源代码文本语义信息和源代码功能语义信息的源代码特性向量，以及需求文档的需求文本语义向量，根据需求文本语义向量和源代码特征向量的相似度建立起从软件的需求到代码间的映射，利用此映射，有效提高相关的软件活动效率和质量。

需要说明的是，本发明提供的软件需求和代码映射系统用于执行上述软件需求和代码映射方法，其具体的实施方式与方法实施方式一致，在此不再赘述。

图9为本发明提供的软件需求和代码映射系统结构示意图，如图9所示，该电子设备可以包括：处理器(processor)901、通信接口(Communications Interface)902、存储器(memory)903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。处理器901可以调用存储器903中的逻辑指令，以执行软件需求和代码映射方法，该方法包括：基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；基于需求文本语义向量和源代码特征向量的相似度，确定软件需求和代码的映射关系。

此外，上述的存储器904中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的软件需求和代码映射方法，该方法包括：基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；基于需求文本语义向量和源代码特征向量的相似度，确定软件需求和代码的映射关系。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的软件需求和代码映射方法，该方法包括：基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量；基于源代码文本，根据源代码特征提取模型，确定源代码特征向量；其中，源代码特征向量包括：源代码文本语义信息和源代码功能语义信息；基于需求文本语义向量和源代码特征向量的相似度，确定软件需求和代码的映射关系。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种软件需求和代码映射方法，其特征在于，包括：

基于所述需求文本语义向量和所述源代码特征向量的相似度，确定所述软件需求和代码的映射关系；

所述源代码特征提取模型包括：源代码词嵌入模型、源代码文本语义特征提取模型和功能语义特征提取模型；

所述基于源代码文本，根据源代码特征提取模型，确定源代码特征向量，具体包括：

基于源代码文本，根据源代码词嵌入模型，确定所述源代码文本词向量；

基于所述源代码文本词向量，根据所述源代码文本语义特征提取模型，确定源代码文本语义向量；

基于所述源代码文本，根据所述功能语义特征提取模型和所述源代码词嵌入模型，确定源代码功能语义向量；

基于所述源代码文本语义向量和所述源代码功能语义向量，确定源代码特征向量；

所述功能语义特征提取模型包括：信息提取层、功能语义提取层、全局信息确定层和特征融合层；

所述基于所述源代码文本，根据所述功能语义特征提取模型和所述源代码词嵌入模型，确定源代码功能语义向量，具体包括：

将所述源代码文本输入所述信息提取层中，根据所述信息提取层，根据源代码词嵌入模型，确定抽象语法树特征、路径特征集和控制流图特征；

将所述抽象语法树特征和所述路径特征集输入所述功能语义提取层中，根据所述功能语义提取层，确定源代码功能语义特征；

将所述控制流图特征输入所述全局信息确定层中，根据所述全局信息确定层，确定源代码全局语义信息；

将所述源代码功能语义特征和所述源代码全局语义信息输入特征融合层中，根据所述特征融合层，确定所述源代码功能语义向量。

2.根据权利要求1所述的软件需求和代码映射方法，其特征在于，所述基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量，具体包括：

基于需求文档，根据需求文档词嵌入模型，确定所述需求文档词向量；

基于所述需求文档词向量，根据所述需求文档语义特征提取模型，确定所述需求文本语义向量。

3.根据权利要求1所述的软件需求和代码映射方法，其特征在于，所述将所述抽象语法树特征和所述路径特征集输入所述功能语义提取层中，根据所述功能语义提取层，确定源代码功能语义特征，具体包括：

将所述抽象语法树特征和所述路径特征集输入所述功能语义提取层中；

基于所述功能语义提取层，根据预设拆分规则，将所述抽象语法树特征拆分为若干子语法树特征；

基于所述子语法树特征和所述路径特征集，确定源代码功能语义特征。

4.根据权利要求3所述的软件需求和代码映射方法，其特征在于，所述基于所述子语法树特征和所述路径特征集，确定源代码功能语义特征，具体包括：

基于所述子语法树特征，确定所述子语法树特征中的所有节点的节点向量；

基于所述路径特征集和所述节点向量，确定所述源代码功能语义特征。

5.根据权利要求1所述的软件需求和代码映射方法，其特征在于，所述将所述控制流图特征输入所述全局信息确定层中，根据所述全局信息确定层，确定源代码全局语义信息，具体包括：

将所述控制流图特征输入所述全局信息确定层中；

基于所述全局信息确定层，根据所述控制流图特征，确定所有节点的局部邻居信息；

基于所述所有节点的局部邻居信息和所述控制流图特征，确定所述源代码全局语义信息。

6.一种软件需求和代码映射系统，其特征在于，包括：需求特征确定单元、代码特征确定单元和相似度确定单元；

所述相似度确定单元，用于基于所述需求文本语义向量和所述源代码特征向量的相似度，确定所述软件需求和代码的映射关系；

7.根据权利要求6所述的软件需求和代码映射系统，其特征在于，所述基于需求文档，根据需求文档语义特征提取模型，确定需求文本语义向量，具体包括：

8.根据权利要求6所述的软件需求和代码映射系统，其特征在于，所述将所述抽象语法树特征和所述路径特征集输入所述功能语义提取层中，根据所述功能语义提取层，确定源代码功能语义特征，具体包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一项所述的软件需求和代码映射方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述的软件需求和代码映射方法。