CN112101019A

CN112101019A - 一种基于词性标注和组块分析的需求模板符合性检查优化方法

Info

Publication number: CN112101019A
Application number: CN202010804752.9A
Authority: CN
Inventors: 王立松; 曹步展
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-18

Abstract

本发明公开了一种基于词性标注和组块分析的需求模板符合性检查优化方法，构建需求模板，确定需求模板的BNF范式；获取需求，并对需求是否满足需求模板进行人工标注；根据需求模板，对每一条需求进行词性标注以及组块分析，进而对需求是否满足需求模板进行自动标注；将人工标注的结果与自动标注的结果\进行比较，得到对需求文档进行需求模板符合性检查的精度、召回率和F2度量。通过将词性标注和组块分析方法运用到需求模板符合性检查中，提高了需求模板符合性检查的精度以及召回率。

Description

一种基于词性标注和组块分析的需求模板符合性检查优化方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于词性标注和组块分析的需求模板符合性检查优化方法。

背景技术

软件需求通常是用自然语言描述的，自然语言一般易于理解，适用于任何领域的需求描述。尽管如此，自然语言若不加以限制，可能带有歧义，自然语言一般很难自动分析。需求模板提供了一种有效的工具，可以减少自然语言中的歧义，并对自然语言需求进行自动分析。需求模板定义了自然语言需求的格式，比如Rupp模板包括以下部分：(1)起始条件；(2)系统名称；(3)情态动词；(4)系统功能；(5)对象；(6)对象的详细信息。在软件需求中使用模板时，判断一个自然语言需求是否符合模板就显得尤为重要。如果对自然语言需求人工进行模板符合性判断，则非常耗时。在这种情况下，一个自动化的工具，如何通过词性标注、组块分析的方法，抽取自然语言需求中的建模元素，并进行模板符合性检查，能够判断软件需求是否符合模板，并提高其精度和召回率，就成了一个重要的技术问题。

词性标注最简单的方法是将词汇中每个词对应的高频词性作为默认词性，但显然还有选择的余地。目前，主流的分词方法是将句子的词性标注作为一个序列标注问题，应用于词性标注任务中。然而，由于每个英文单词在不同的语境中具有不同的词性，这也将影响到组块分析的结果。组块分析一般的方法是将词性按照一定的语法规则进行组合。然而，仅仅是按照词性对单词进行组合，没有考虑到上下文之间的关系。因此，需要重新考虑词性标注、组块分析的方法。现有的词性标注、组块分析方法，针对大量的非限定性自然语言需求并不适用，因为它们需要较为准确地词性标注、组块分析方法来分析。

在这方面，国外已经有了相关的研究。在对需求文档进行模板符合性检查时，词性标注、组块分析就显得尤为重要。Chetan Arora等人使用Stanford与OpenNLP词性标注工具，MUNPEX、ANNIE与OpenNLP名词组块分析工具以及ANNIE动词组块分析工具，对需求文本进行词性标注、组块分析，并作相应的标记。然后，根据这些标记，能够从自然语言需求中抽取建模元素，如条件、系统名称、情态动词、功能、对象、对象的详细信息等，并根据建模元素判断其是否符合模板。然而，在过去的研究中，词性标注、组块分析都是基于规则的，很难准确地确定词性以及划分组块，没有对整个句子的结构进行分析。因此，针对这些问题，需要一种新的方法来对需求文档进行词性标注、组块分析，以提高建模元素提取的准确率，从而提高需求模板符合性检查的精度、召回率以及F2度量。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于词性标注和组块分析的需求模板符合性检查优化方法，通过将词性标注和组块分析方法运用到需求模板符合性检查中，提高了需求模板符合性检查的精度以及召回率。

为实现上述技术目的，本发明采取的技术方案为：

一种基于词性标注和组块分析的需求模板符合性检查优化方法，包括：

步骤一、构建需求模板，确定需求模板的BNF(Backus Normal Form,巴科斯范式)；

步骤二、获取需求，并对需求是否满足需求模板进行人工标注；

步骤三、根据需求模板，对每一条需求进行词性标注以及组块分析，进而对需求是否满足需求模板进行自动标注；

步骤四、将人工标注的结果与自动标注的结果进行比较，得到对需求文档进行需求模板符合性检查的精度、召回率和F2度量。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤一构建的需求模板为：

<conditional-keyword><sequence-of-tokens><np><vp-starting-with-modal><np><opt-details>；

其中，<conditional-keyword>表示条件关键词，包含if、after、before、as soonas、when、while、in case、at这八个单词及词组；

<sequence-of-tokens>表示条件的token序列；

<np>表示名词短语；

<vp-starting-with-modal>表示以情态动词开头的动词短语；

<opt-details>表示对象的详细信息。

上述的步骤二具体为：

获取需求，并根据模板符合性手动检查协议，人工检查并标注需求是否符合需求模板，需求符合需求模板时，标注为N，需求不符合需求模板时，标注为P。

上述的模板符合性手动检查协议为：

R是被检查是否符合需求模板T的需求；

验证R是一个语法正确的句子，在确定正确性时不考虑标点符号；

验证R使用了可接受的情态动词；

如果R是条件性的，验证条件只出现在需求R的开始，条件符合T描述的结构；

验证<system name>，<object>，以及<whom？>由名词短语填充；

验证<process>由动词短语填充；

若满足上述所有条件，则R符合T；

否则，R不符合T。

上述的步骤三具体为：

根据需求模板，使用PCFG(Probabilistic Context Free Grammar,概率上下文无关文法)方法，进行词性标注以及组块分析，识别出建模元素，并且确定建模元素之间的关系，进而自动检查并自动标注需求是否符合需求模板，需求符合需求模板时，标注为N，需求不符合需求模板时，标注为P。

上述的PCFG方法具体为：

给定上下文无关文法G，以及句子S，通过将树上每一个结点生成其分支节点的概率相乘，计算语法分析树的概率P(T|S,G)；

若一个句子有多棵语法分析树，则依据概率值对所有的语法分析树进行排序；

PCFG使用句法排歧，面对多个分析结果选择概率值最大的语法分析树，即argmax_TP(T|S,G)。

上述的步骤四中，精度Precision、召回率Recall和F2度量F2-measure计算公式为：

其中，假设符合需求模板为反例(N)，不符合需求模板为正例(P)；

真正(TP)＝实际为正例(P)，系统中标注为正例(P)；

真反(FN)＝实际为正例(P)，系统中标注为反例(N)；

假正(FP)＝实际为反例(N)，系统中标注为正例(P)。

上述的步骤四具体为：

将步骤三中得到的自动标注的需求模板符合性检查结果，以(key,value)的形式存入到map中，其中key表示输入的每一条需求，value表示该需求的标注结果(N或者P)；

将TP、FP、FN均设为0，按行读取步骤二中得到的人工标注的需求模板符合性检查结果，每行以英文句号(.)切分，得到一条需求text以及需求的标注结果label(N或者P)，将label1设为map.get(text)；

然后比较label与label1，若都为P，则TP加1；若label为P，label1为N，则FN加1；若label为N，label1为P，则FP加1；

最后，计算Precision、Recall、F2-measure。

本发明具有以下有益效果：

通过构建需求模块及语法树分析，对需求文档进行词性标注、组块分析，进而提取出需求文档中的建模元素，分析各建模元素之间的关系，从而进行需求模板符合性检查，提高模板符合性检查的精度、召回率，从而提高其F2度量。仿真结果证明，该方法能够提高精度、召回率，并且在其中一个数据集上F2度量为1。

附图说明

图1为本发明流程图；

图2为需求模板符合性检查结果示意图；

图3为实施例中选择TemplateComformance(符合模板)标签，标亮的需求；

图4是实施例中选择TemplateNonConformance(不符合模板)标签，标亮的需求；

图5为组块分析部分的流水线配置流程图；

图6为需求模板符合性检查的流水线配置流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明提出了一种基于词性标注和组块分析的需求模板符合性检查优化方法，可应用领域为“战术控制系统”领域以及“病人转移管理”领域的需求描述，针对上述的领域需求模板，对两个领域的需求进行检查，并自动判断其是否符合需求模板。由于需求模板需要包含条件、系统名、过程以及对象，其中条件是不必要的元素，且只能出现在句首，其余元素均为必要元素，并且建模元素之间满足一定的关系，即排列顺序依次为条件、系统名、过程以及对象。

所以在识别用例元素之前，必须对需求文档进行词性标注、组块分析。词性标注是对需求文档中出现的每一个Token标注其词性，组块分析则根据词性划分名词组块以及动词组块。在进行词性标注前，需要对需求文档进行分词、分句操作，分词是指将需求文档分割成若干个Token，分句是指将需求文档分割成若干个句子。根据分词、分句、词性标注以及组块分析的结果，识别出建模元素，其中最重要的为条件、系统名、过程、对象以及细节，使得系统能够自动判断需求文档是否符合模板。将系统自动识别的结果与实际真实的结果相比较，计算出精度、召回率，从而得到一个最优的方法，获得最高的精度、召回率。

本发明的一种基于词性标注和组块分析的需求模板符合性检查优化方法，包括：

步骤一、构建需求模板，确定需求模板的BNF范式；

实施例中，所述步骤一构建的Rupp模板为：

其中，<conditional-keyword>表示条件关键词，包含if、after、before、as soonas、when、while、in case、at这八个单词及词组，当条件关键词出现在句首时，首字母可以大写；

<sequence-of-tokens>表示条件的token序列(不包含条件关键词)；

第一个<np>表示第一个出现在情态动词短语之前的名词短语；

<vp-starting-with-modal>表示以情态动词打头的动词短语，简称情态动词短语；

第二个<np>表示情态动词短语之后的名词短语；

<opt-details>表示第二个<np>之后知道句子末尾的部分。

实施例中，所述步骤二具体为：

获取一定数量的需求，并根据模板符合性手动检查协议，人工检查并标注需求是否符合需求模板，需求符合需求模板时，标注为N，需求不符合需求模板时，标注为P。

实施例中，所述模板符合性手动检查协议为：

R是被检查是否符合需求模板T的需求；

验证R使用了可接受的情态动词；

验证<system name>，<object>，以及<whom？>由名词短语填充；

验证<process>由动词短语填充；

若满足上述所有条件，则R符合T；

否则，R不符合T。

实施例中，所述步骤三中，使用OpenNLP Parser进行语法树分析，OpenNLP Parser采用PCFG算法进行句法分析。

首先，定义一个五元组(X,V,S,R,P)；

其中X表示终结符集；V表示非终结符集；S表示文法的开始符号，其包含与V，即S∈V；R是有序偶对(α,β)的集合，也就是产生的规则集；P代表每个产生规则的统计概率。

将PCFG写成如下的形式：

形式：A→α,P

约束：∑_αP(A→α)

给定句子S，得到n个句法树，计算两棵句法树的概率P(T1),P(T2)...P(Tn)，选择概率值最大的句法树argmax_TP(T|S,G)，作为句法分析的结果。

根据上述所选择的句法分析结果，提取出其中的词性以及名词组块、动词组块。

步骤三具体为：

根据需求模板，使用PCFG方法，进行词性标注以及组块分析，识别出建模元素，并且确定建模元素之间的关系，进而自动检查并自动标注需求是否符合需求模板，需求符合需求模板时，标注为N，需求不符合需求模板时，标注为P。

实施例中，所述PCFG方法具体为：

根据需求模板及词性标注、组块分析结果，识别出建模元素，并根据建模元素之间的关系，判断需求文档中的每一条需求是否符合需求模板。如图2所示，右侧是对需求文档进行自然语言处理得到的一些标签，在标签前的复选框中打勾，可以在需求文本中将带有该标签的需求标亮。比如选择TemplateComformance(符合模板)标签，标亮的需求如图3所示；选择TemplateNonConformance(不符合模板)标签，标亮的需求如图4所示。。

实施例中，所述步骤四具体为：

最后，计算Precision、Recall、F2-measure。

如图5所示，本发明方法改进了组块分析中的流水线配置，在精度和召回率上均有所提升，从而使f2度量也得以提升，但任然存在问题，还需要人工进行判断修正。为了验证本文方法改进的效果，分别在在tcs数据集、BILT数据集上进行了对比试验，数据集分别有202、45条需求。原有方法是使用OpenNLP的词性标注方法，改进的方法有三种，三种方法均使用OpenNLP Parser进行语法分析，第一种方法提取出需求句子中的词性；第二种提取出需求句子中的名词组块；第三种方法是提取出需求句子中的词性以及名词组块。然后对图5得到的标注好的需求文档进行模板符合性检查，流程如图6所示。将三种方法得到的模板一致性检查结果与人工标注的结果进行对比，本文采用精度(Precision)、召回率(Recall)和F2度量(F2-measure)指标来评估模板一致性检查的效果，定义如下：

假设符合需求模板为反例(N)，不符合需求模板为正例(P)；

真正(TP)＝实际为正例(P)，系统中标注为正例(P)；

真反(FN)＝实际为正例(P)，系统中标注为反例(N)；

假正(FP)＝实际为反例(N)，系统中标注为正例(P)；

以tcs系统的需求文档为例，对其进行符合性检查，可以看出本发明较为正确地判断了文档是否符合需求模板，且结果较为理想。

实验结果如表1所示：

表1两种方法对比结果

分析实验结果，可以发现，改进的方法在精度、召回率上比原有方法均有所提升，且在召回率上，比精度更令人满意，召回率的平均值分别为0.96、1，这表明在tcs需求文档中，大多数不符合规范的需求均能被识别出来。精度的平均值分别为0.81、1，表明，该方法在tcs需求文档中，还有较多一部分符合规范的需求被识别为不符合规范，还需进一步完善规则，在组块分析部分进行进一步改进。精度低的原因主要有以下几个方面：

1)词性标注可能存在某些错误。

2)动词组块功能并不是很完善，不适用于所有的需求。

3)抽取规则并不是很完善，需求文本中有些符合模板的部分不能有效地抽取。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，包括：

步骤一、构建需求模板，确定需求模板的BNF范式；

2.根据权利要求1所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述步骤一构建的需求模板为：

其中，<conditional-keyword>表示条件关键词，包含if、after、before、as soon as、when、while、in case、at这八个单词及词组；

<sequence-of-tokens>表示条件的token序列；

<np>表示名词短语；

<vp-starting-with-modal>表示以情态动词开头的动词短语；

<opt-details>表示对象的详细信息。

3.根据权利要求1所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述步骤二具体为：

4.根据权利要求3所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述模板符合性手动检查协议为：

R是被检查是否符合需求模板T的需求；

验证R使用了可接受的情态动词；

验证<system name>，<object>，以及<whom？>由名词短语填充；

验证<process>由动词短语填充；

若满足上述所有条件，则R符合T；

否则，R不符合T。

5.根据权利要求1所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述步骤三具体为：

6.根据权利要求5所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述PCFG方法具体为：

PCFG使用句法排歧，面对多个分析结果选择概率值最大的语法分析树，即argmax_T P(T|S,G)。

7.根据权利要求1所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述步骤四中，精度Precision、召回率Recall和F2度量F2-measure计算公式为：

真正(TP)＝实际为正例(P)，系统中标注为正例(P)；

真反(FN)＝实际为正例(P)，系统中标注为反例(N)；

假正(FP)＝实际为反例(N)，系统中标注为正例(P)。

8.根据权利要求7所述的一种基于词性标注和组块分析的需求模板符合性检查优化方法，其特征在于，所述步骤四具体为：

最后，计算Precision、Recall、F2-measure。