CN112817561A

CN112817561A - 软件需求文档的事务类功能点结构化抽取方法及系统

Info

Publication number: CN112817561A
Application number: CN202110142430.7A
Authority: CN
Inventors: 李刚; 谷训刚; 刘一鸣; 周鸣乐; 李敏; 曹生利; 黄小慧; 张雨萌; 郑成鹏; 王玉; 李晓慧
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-18
Anticipated expiration: 2041-02-02
Also published as: CN112817561B

Abstract

本发明公开了软件需求文档的事务类功能点结构化抽取方法及系统，包括：获取目标软件需求文档；对目标软件需求文档进行预处理，得到需求语句数据；将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；将所得到的功能点触发词和功能点论元组合，得到功能点短语；将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值，从而根据输出概率值筛选出目标软件需求文档的功能点短语。

Description

软件需求文档的事务类功能点结构化抽取方法及系统

技术领域

本发明涉及自然语言处理与软件工程分析技术领域，特别是涉及软件需求文档的事务类功能点结构化抽取方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

软件成本估算是通过一套流程或模型对待估算软件项目的开发工作量、工期和成本进行评估的行为，适用于软件项目的预算、招投标、项目计划、变更、结算、审计或交易等各个环节。采用合理的软件成本估算方法，不仅可以提高软件预算的精确度，有利于保障软件开发项目的按时交付，还有助于合理安排和调度研发人员，从而提高软件项目的质量。

对于软件成本估算而言，影响成本最大的因素是软件的规模。目前国际标准以及国内标准所涉及的模型大多基于软件功能点计价方法来对软件规模进行度量，而功能点方法依赖人工估算的方式，工作量十分耗时耗力。随着机器学习、人工智能的兴起，将自然语言处理技术应用到这一问题中，通过构建模型对人工标注过的功能点数据进行学习，并应用于相似领域的功能点识别，从而提供自动化功能点识别的实现思路和技术，这种方式具备一定的可行性。

发明内容

为了解决现有技术的不足，本发明提供了软件需求文档的事务类功能点结构化抽取方法及系统；

第一方面，本发明提供了软件需求文档的事务类功能点结构化抽取方法；

软件需求文档的事务类功能点结构化抽取方法，包括：

获取目标软件需求文档；

对目标软件需求文档进行预处理，得到需求语句数据；

将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；

将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；

将所得到的功能点触发词和功能点论元组合，得到功能点短语；将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值，从而根据输出概率值筛选出目标软件需求文档的功能点短语。

第二方面，本发明提供了软件需求文档的事务类功能点结构化抽取系统；

软件需求文档的事务类功能点结构化抽取系统，包括：

获取模块，其被配置为：获取目标软件需求文档；

预处理模块，其被配置为：对目标软件需求文档进行预处理，得到需求语句数据；

触发词识别模块，其被配置为：将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；

功能点论元识别模块，其被配置为：将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；

输出模块，其被配置为：将所得到的功能点触发词和功能点论元组合，得到功能点短语；将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值，从而根据输出概率值筛选出目标软件需求文档的功能点短语。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本发明还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本发明的有益效果是：

本发明通过BiLSTM+CRF、BERT+BiLSTM+CRF等技术实现对文本特征的抽取，无需人工构建特征来刻画功能点词语及其上下文的特性；

本发明基于事件抽取的方式对功能点进行结构化抽取，通过融合触发词信息来对论元进行抽取，进一步提高预测的准确率；

本发明实现功能点识别的自动化和智能化，能够大幅度降低人工进行功能点识别的工作量，可以快速进行复制应用；

本发明可以极大地降低该方法的进入门槛，有利于推广基于功能点方法的软件规模度量，提高软件成本估算的效率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的步骤流程图；

图2是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的数据集构建流程图；

图3是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点触发词识别模型结构图；

图4是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点论元识别模型结构图；

图5是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点短语构建及识别流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了软件需求文档的事务类功能点结构化抽取方法；

软件需求文档的事务类功能点结构化抽取方法，包括：

S101：获取目标软件需求文档；

S102：对目标软件需求文档进行预处理，得到需求语句数据；

S103：将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；

S104：将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；

S105：将所得到的功能点触发词和功能点论元组合，得到功能点短语；将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值，从而根据输出概率值筛选出目标软件需求文档的功能点短语。

作为一个或多个实施例，所述S102：对目标软件需求文档进行预处理，得到需求语句数据；具体包括：

对目标软件需求文档进行分段、句子分割、去重处理，得到需求语句数据。

作为一个或多个实施例，所述S103：将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；其中，功能点触发词识别模型通过依次连接的第一双向长短时记忆神经网络BiLSTM和第一条件随机场CRF来实现。

作为一个或多个实施例，所述S103：将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；其中，预先训练过的功能点触发词识别模型的具体训练步骤包括：

S1031：构建功能点触发词数据集；

S1032：对功能点触发词数据集利用词向量模型Word2vec进行处理，得到功能点触发词数据集的词向量表示；

S1033：将功能点触发词数据集的词向量表示，输入到第一双向长短时记忆神经网络BiLSTM中，输出每个单字对应的多个类别的概率；

S1034：通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理；

S1035：将归一化处理后的数据，输入到第一条件随机场CRF中，进行上下文的梳理；

S1036：重复S1033-S1035；当达到设定迭代次数后，停止训练，得到预先训练过的功能点触发词识别模型。

进一步地，所述S1031：构建功能点触发词数据集；具体包括：

S10311：通过人工方式和/或预构建的功能点数据库，来识别需求语句中的功能点短语及其类别；

S10312：确定标注规则，将功能点短语拆分成功能点触发词和功能点论元，分别进行数据标注，构建功能点触发词数据集和功能点论元数据集；

其中，功能点触发词，是指描述功能的动作；功能点论元，是指动作的参与对象。

作为一个或多个实施例，所述S103：将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；具体包括：

将需求语句通过词向量模型Word2vec进行词向量构建，得到词向量表示；

将得到的词向量表示输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别。

作为一个或多个实施例，所述S104：将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；其中，功能点论元识别模型的结构包括：依次连接的BERT模型、第二双向长短时记忆神经网络BiLSTM和第二条件随机场CRF来实现。

作为一个或多个实施例，所述S104：将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；其中，预先训练过的功能点论元识别模型的训练步骤包括：

S1041：构建功能点论元数据集；

S1042：将构建的功能点论元数据集，输入到BERT模型中，将词嵌入、段嵌入和位置嵌入结果通过矩阵的加法生成文本表示结果序列；

S1043：将功能点触发词数据集中的功能点触发词的位置信息，通过Transformer位置编码方式进行编码，将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接，得到融合后的输入序列；

S1044：将融合后的输入序列输入到第二双向长短时记忆神经网络BiLSTM中，输出每个单字对应形成的多个类别概率；

S1045：通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理；

S1046：将归一化处理后的数据，输入到第二条件随机场CRF中，进行上下文的梳理；

S1047：重复S1043-S1046；当达到设定迭代次数后，停止训练，得到预先训练过的功能点论元识别模型。

进一步地，所述S1041：构建功能点论元数据集；具体包括：

S10411：通过人工方式和/或预构建的功能点数据库，来识别需求语句中的功能点短语及其类别；

S10412：确定标注规则，将功能点短语拆分成功能点触发词和功能点论元，分别进行数据标注，构建功能点触发词数据集和功能点论元数据集；

作为一个或多个实施例，所述S104：将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；具体包括：

将需求语句数据，输入到BERT模型中，生成文本表示序列；

通过Transformer位置编码方式进行编码，将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接，得到融合后的输入序列；

将融合后的输入序列输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别。

进一步地，所述S105：将所得到的功能点触发词和功能点论元组合，得到功能点短语；是指按照语法规则将所得到的功能点触发词和功能点论元组合，得到功能点短语。

进一步地，所述S105：将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值；其中，语言模型为N-gram语言模型。

进一步地，所述S105：将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值；其中，预先训练过的语言模型训练步骤包括：

构建训练集，所述训练集为已知正确功能点短语和错误功能点短语；

将训练集输入到语言模型中，对语言模型进行训练，得到训练后的语言模型。

进一步地，所述S105：根据输出概率值筛选出目标软件需求文档的功能点短语；选择概率值大于设定阈值的功能点短语，作为目标软件需求文档的功能点短语。

本发明公开了一种软件需求文档的事务类功能点结构化抽取方法，用于软件成本估算中的软件规模自动化度量。本发明基于自然语言处理中事件抽取的思路，将软件需求文档中的功能点描述作为事件来识别，采用了双向长短时记忆神经网络+条件随机场(BiLSTM+CRF)、预训练模型BERT+双向长短时记忆神经网络+条件随机场(BERT+BiLSTM+CRF)分别对功能点触发词(描述功能的动作)和功能点论元(动作的参与对象)进行结构化抽取，然后构建候选功能点短语并通过N-gram语言模型进行筛选，得到最终的功能点短语及类别，通过数据集构建、功能点触发词的识别与分类、功能点论元的识别与分类、功能点短语构建与预测四个过程实现了在软件规模度量中的事务类功能点的结构化抽取，减少人工识别功能点的工作量，有效提高了工作效率。

本发明提出一种基于事件抽取的事务功能点自动识别方法，该方法将事务功能点短语的识别作为自然语言处理中的事件抽取问题，将功能点短语中描述动作的成分(如动词等形式)和参与动作的成分(如名词等形式)作为事件的触发词和论元，先后通过相应的技术方法实现对功能点短语中的触发词和论元的识别和分类，然后完成功能点短语的构建，实现在从用户输入的需求文档到功能点自动化识别和分类，从而在一方面作为人工识别功能点的参考，减少工作量，另一方面在一定程度上减少人工识别过程中容易出现的主观偏差。

本发明提出一种软件需求文档的事务类功能点结构化抽取方法，将需求语句中的功能点看作一个事件的描述，功能点中的动作可以看作事件中的触发词，而被动作执行的对象可以看作事件中的论元。通过事件抽取的思路对功能点进行结构化抽取，识别出功能点触发词和功能点论元，采用语言模型的方法来对构建的功能点短语进行筛选，从而得出最终预测的事务功能点短语和具体类型。下面通过具体实施方式对本发明作进一步说明。

如图1所示，为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的数据集构建流程图。整个方法主要包括四个步骤：训练集构建、功能点触发词识别与分类、功能点论元识别与分类和功能点短语构建与筛选。

步骤1收集并处理需求文本，构建功能点识别数据集。如图2所示，为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的数据集构建流程图。

在获取原始的需求文档后，需要先对原始语料进行如下预处理：

第一步，需求文档分段处理，得到段落级的需求文本数据。

第二步，句子分割。对功能点的抽取是基于句子级，因此需要将文档分割成句子。本发明以“。”、“？”、“！”、“……”作为分隔符将文档进行分割。

第三步，句子筛选。句子分割后，会产生很多无用语句，因此需要对句子进行筛选，去除空句子，过长或过短句子以及重复句子。

第四步，通过人工对需求描述语句进行识别，抽取出对应的功能点短语。

第五步，在标注之前，需要确定标注规则。首先对功能点抽取中的触发词类型和论元类型进行定义，本发明根据事务功能点的特点对功能点触发词和论元的类型进行了定义。

对于功能点触发词，本发明定义了以下3种触发词类型：

a)外部输入(extend input，EI)：如注册、修改、发起等。

b)外部查询(extend query，EO)：如登录、查看、监控等。

c)外部输出(extend out，EO)：如提示、展现、预览等。

对于功能点论元，为了降低方法的复杂度，本发明仅把词分为名词性论元、修饰性论元和非论元三种类型。

第六步，由于中文分词存在触发词抽取问题，本发明对字符进行标注。使用常见的BIEO标注法对训练集进行处理，B_label代表字符为触发词的开始，I_label代表字符为触发词内部，E_label代表字符为触发词结束，O代表字符为非触发词。如例子“展示共享平台的资源目录”，完整的触发词句子标签如下：“展/B_EO”、“示/E_EO”、“共/O”、“享/O”、“平/O”、“台/O”、“的/O”、“资/O”、“源/O”、“目/O”、“录/O”。

同样对于论元的标注也是采用常见的BIEO标注法对字符进行标注，B_entity代表字符为论元的开始，I_entity代表字符为论元的内部，E_entity代表字符为论元的结束，O代表字符为非论元字符。对于例子“展示共享平台的资源目录”，完整的论元句子标签如下：“展/O”、“示/O”、“共/B_adj”、“享/I_adj”、“平/I_adj”、“台/E_adj”、“的/O”、“资/B_noun”、“源/I_noun”、“目/I_noun”、“录/E_noun”。

步骤2构建功能点触发词识别与分类模型，输入数据集进行学习训练。如图3所示，为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点触发词识别模型结构图。

功能点触发词的抽取是基于BiLSTM+CRF的标注模型来实现，使用BiLSTM抽取实体序列信息送入到CRF中进行字符标注。将构建的功能点触发词数据集转化为字符向量来作为整个模型的输入，输出为预测的触发词字符标注序列。

BiLSTM+CRF模型结构主要由输入层、LSTM层以及CRF层组成。输入层是一组由词嵌入构成的词向量序列，通过输入层输入词向量到BiLSTM层中得到隐含层输出h_i∈R_m，BiLSTM函数为：

h_i＝BiLSTM(x_i；θ_seq) (1)

其中x_i为词向量，θ_seq表示参数矩阵，h_i表示BiLSTM的输出。

接着隐含层将向量传递到BiLSTM模型的输出层，从而将m维向量映射到k维向量，k是标签集的大小，最终根据处理后生成整个序列的特征矩阵P：

P＝(p₁,p₂,...,p_n)∈R^n*k(2)

将BiLSTM层中输出的特征矩阵P输入到CRF层进行下一步的分类标注。P_i,j表示为第j个标签中第i个词，通过输入序列x＝{x₁,x₂,....,x_n}，输入序列对应的标签序列y＝{y₁,y₁,...,y_n}，以及CRF状态转移矩阵(k+2)×(k+2)，可以得到整个BiLSTM+CRF模型的得分：

BiLSTM+CRF模型的分数值是由两个部分组成，其中

是CRF模型中相邻的状态转移矩阵分数值，

是BiLSTM模型输出向量的分数值。将分数值s(X,y)归一化后，最后将获得模型的概率公式。

其中，Y(x)表示所有可能的标注序列。

在训练期间，CRF使用对数概率进行正确标签序列的优化，对训练样本{x_i,y_i}有如下公式：

log(P(y|x))＝s(x,y)-log(∑_y'∈Y(x)s(x,y')) (5)

CRF通过使用极大似然估计函数进行标注的预测，公式如下所示：

y^*＝argmax_y'∈Y(x)s(x,y') (6)

最后，通过CRF的全局特征约束得出预测的功能点触发词的字符序列标注。

步骤3构建功能点论元识别与分类模型，输入数据集进行学习训练。如图4所示，为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点论元识别模型结构图。

为了实现功能点论元抽取任务，本发明主要通过结合触发词信息和触发词所在句的句内语义信息来识别功能点论元，采用了一种混合模型的序列标注方法，结合了具有动态词表示能力的BERT，可加入触发词信息编码的BiLSTM，以及具有全局特征约束效果的CRF，以实现对功能点论元的抽取。因此本发明的功能点论元抽取模型可分为三个部分：BERT层、BiLSTM层和CRF层，该模型将构建的功能点论元数据集作为输入，经过BERT层抽取语义信息，在输入到BiLSTM层之前将BERT层输出的表示向量和触发词的位置信息进行融合，然后通过BiLSTM层和CRF层预测出功能点论元的标注序列。

其中BERT层的主要目标是从输入文本中提取出丰富的语义信息。对于输入的文本序列X＝x₁,x₂,...,x_n，BERT将词嵌入、段嵌入和位置嵌入三层嵌入结果直接通过矩阵的加法形成最终嵌入表示，转化为对应的嵌入结果序列Embedding_result＝E₁,E₂,...,E_n，其中，词嵌入的目的是将各个字符转换成具有固定维度的向量；段嵌入用于表示输入文本中对应的词所属的句子，在本发明中只有一个触发词所在句；位置嵌入的主要作用是为BERT中的Transformer添加输入序列的顺序信息。然后通过BERT的特征抽取器Transformer的语义特征抽取，得到最终的文本表示结果序列Text_representation＝T₁,T₂,...,T_n。

在BiLSTM层中主要包括两个功能：融合触发词信息和预测结果。由于功能点论元在需求描述语句中的分布通常围绕着功能点触发词，因此，在输入中融合触发词的位置信息可以为功能点论元的抽取提供有关功能点的句法信息。其中，功能点触发词位置编码采用在Transformer中使用的位置编码方式，在获得已编码的触发词位置向量后，将该向量与BERT层输出的文本表示结果序列Text_representation＝T₁,T₂,...,T_n连接，得到融合后的输入序列作为BiLSTM的输入。之后，BiLSTM分别从正序和逆序两个方向对加入了触发词位置信息的文本进行学习，并将对应的预测标签信息传入到CRF层中。

CRF层在本算法中为句内的全局特征约束方法，主要根据由BERT和BiLSTM提取到的语义和句法特征，形成对整个输入序列的特征约束，并将这种特征约束用于判断BiLSTM所输出的标签预测值中最合理的一组。

步骤4是基于识别的功能点触发词和论元构造功能点短语，通过语言模型进行筛选。如图5所示，为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点短语构建及识别流程图。

经过功能点的触发词和论元的识别与分类，本发明将得到的词进行组合，构建候选的功能点短语，然后将候选功能点短语输入到n-gram语言模型中，经过筛选提取出有效的事务功能点。

本发明采取专门设计事务功能点构建器的方式进行构建：通过遍历构建功能点用词列表中的触发词，如果该触发词在需求文档中的某一句出现，则遍历这句需求语句中的论元词，将得到的触发词和论元按照语法规则进行拼接得到一个事务功能点，同时按照该功能点的触发词类型对功能点进行分类，得到构造的功能点短语和类别。

本发明采取是否符合功能点用于习惯来筛选候选功能点短语，如果构建的功能点的表述方式与历史功能点差距较大，则该功能点很有可能是错误的。具体筛选规则通过构建语言模型的方法来进行实现，使用n-gram语言模型，其函数为:

其中w为构成句子的单位。

通过在历史功能点数据库上训练及优化语言模型，能够准确地量化构建的功能点是否符合用于习惯，模型的输入是功能点短语，语言模型对每个功能点短语输出概率评分值，得分越高，说明输入的短语更加符合用语习惯。

下面以一具体的应用示例阐述本发明。

以政务信息系统为示例，首先收集政务信息化项目领域的需求文档，经过分段、分句、人工识别功能点等操作之后构建功能点触发词数据集D1和功能点论元数据集D2，在数据集D1上训练功能点触发词预测模型BiLSTM+CRF，对于以下一段需求描述：“展示共享平台的资源目录，提供查看资源目录详细信息功能，允许用户精准定位具体部门，查找相应的资源目录”。BiLSTM+CRF预测出可能的功能点触发词为：{展示：EO，查看：EQ，定位：EQ，查找；EQ}，同时在数据集D2基础上结合触发词的信息来训练功能点论元预测模型BERT+BiLSTM+CRF模型，预测出可能的功能点论元为：{展示：资源目录，查看：详细信息，定位：资源目录，查找：资源目录}，再通过组词策略组合为{展示资源目录：EO，查看详细信息：EQ，定位具体部门：EQ，查找资源目录：EQ}，通过语言模型进行筛选，最终得到推荐的功能点短语和其类别。

实施例二

本实施例提供了软件需求文档的事务类功能点结构化抽取系统；

软件需求文档的事务类功能点结构化抽取系统，包括：

获取模块，其被配置为：获取目标软件需求文档；

此处需要说明的是，上述获取模块、预处理模块、触发词识别模块、功能点论元识别模块和输出模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.软件需求文档的事务类功能点结构化抽取方法，其特征是，包括：

获取目标软件需求文档；

对目标软件需求文档进行预处理，得到需求语句数据；

2.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法，其特征是，将需求语句数据，输入到预先训练过的功能点触发词识别模型中，输出识别的功能点触发词及类别；其中，预先训练过的功能点触发词识别模型的具体训练步骤包括：

构建功能点触发词数据集；

对功能点触发词数据集利用词向量模型Word2vec进行处理，得到功能点触发词数据集的词向量表示；

将功能点触发词数据集的词向量表示，输入到第一双向长短时记忆神经网络BiLSTM中，输出每个单字对应的多个类别的概率；

通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理；

将归一化处理后的数据，输入到第一条件随机场CRF中，进行上下文的梳理；

重复上述步骤；当达到设定迭代次数后，停止训练，得到预先训练过的功能点触发词识别模型。

3.如权利要求2所述的软件需求文档的事务类功能点结构化抽取方法，其特征是，构建功能点触发词数据集；具体包括：

通过人工方式和/或预构建的功能点数据库，来识别需求语句中的功能点短语及其类别；

确定标注规则，将功能点短语拆分成功能点触发词和功能点论元，分别进行数据标注，构建功能点触发词数据集和功能点论元数据集；

4.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法，其特征是，将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；其中，预先训练过的功能点论元识别模型的训练步骤包括：

构建功能点论元数据集；

将构建的功能点论元数据集，输入到BERT模型中，将词嵌入、段嵌入和位置嵌入结果通过矩阵的加法生成文本表示结果序列；

将功能点触发词数据集中的功能点触发词的位置信息，通过Transformer位置编码方式进行编码，将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接，得到融合后的输入序列；

将融合后的输入序列输入到第二双向长短时记忆神经网络BiLSTM中，输出每个单字对应形成的多个类别概率；

将归一化处理后的数据，输入到第二条件随机场CRF中，进行上下文的梳理；

重复上述步骤；当达到设定迭代次数后，停止训练，得到预先训练过的功能点论元识别模型。

5.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法，其特征是，将需求语句数据和所得到的功能点触发词，输入到预先训练过的功能点论元识别模型中，输出功能点论元及其类别；具体包括：

将需求语句数据，输入到BERT模型中，生成文本表示序列；

6.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法，其特征是，将所得到的功能点触发词和功能点论元组合，得到功能点短语；是指按照语法规则将所得到的功能点触发词和功能点论元组合，得到功能点短语。

7.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法，其特征是，将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值；其中，语言模型为N-gram语言模型；

或者，

将功能点短语输入到预先训练过的语言模型中，得到各功能点短语的输出概率值；其中，预先训练过的语言模型训练步骤包括：

将训练集输入到语言模型中，对语言模型进行训练，得到训练后的语言模型；

或者，

根据输出概率值筛选出目标软件需求文档的功能点短语；选择概率值大于设定阈值的功能点短语，作为目标软件需求文档的功能点短语。

8.软件需求文档的事务类功能点结构化抽取系统，其特征是，包括：

获取模块，其被配置为：获取目标软件需求文档；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。