CN111158641A

CN111158641A - 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置

Info

Publication number: CN111158641A
Application number: CN201911408326.7A
Authority: CN
Inventors: 石琳; 李明阳; 王青
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15
Anticipated expiration: 2039-12-31
Also published as: CN111158641B

Abstract

本发明公开了一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置，包括采集用于提取功能点的需求文本，对所述需求文本进行条目化获取第一匹配数据集，并将所述第一匹配数据集进行中文分词，得到第二匹配数据集；将提取的所述第二匹配数据集的特征送入词分类模型，得到若干功能点词语；将若干所述功能点词语组成的若干功能点短语输入语言模型，得到各功能点短语的输出概率评分值，获取所述需求文本的事务类功能点。本发明无需人工构建字典词库，无需人工配置识别规则，提出了六个维度的16个特征来刻画功能点词语及其上下文的特性，实现了事务点识别的全过程自动化，提高估算的准确性和稳定性。

Description

一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置

技术领域

本发明属于计算机技术领域，尤其涉及一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置。

背景技术

随着软件要求、地位和费用不断提高，长期以来，如何度量和评估软件研发项目的成本一直是产业界的难题。目前我国采用国际流行的软件功能点计价方法，使用“功能点”对软件系统所提供的服务进行度量，能够在项目早期分析并估计软件系统的规模、所需的资源和工作量、以及研制进度和预算，对量化管理研制项目非常有益。但功能点方法依赖人工估算的方式，虽然有研究通过人工构建字典词库和制定识别规则实现部分功能点的识别，但整个过程需大量的人工成本参与，而且人工制定的规则无法灵活适应于不同的应用领域，而且中文自然语言存在不规范、灵活性高的问题，当代表功能项的词语在需求文本中不连续出现时，识别规则无法适用，已经无法满足日益膨胀的需求。

例如中国专利申请CN109271201A公布了一种智能功能点识别的软件计价系统，其通过构建字典词库和制定识别规则，采用自然语言识别方法对文件中的用户功能进行识别。但该专利申请一方面构建字典词库时，不仅需花费大量人工成本，而且增加对专家个人经验的依赖，另一方面其识别规则仅根据主语前词汇或谓语是什么词作为识别规则，无法克服从描述不规范、灵活度高的中文自然语言描述的需求中智能识别事务功能点的难题。

从自然语言描述的需求文本中识别事务功能点是大部分功能点估算方法的基础，也是一项复杂且耗时的任务。而自然语言理解、人工智能技术的发展，为缓解这一问题，提供自动化的支持和解决方案提供的途径。本发明通过对自然语言描述的需求文档的理解，挖掘有价值的数据、建模专家经验、构建估算知识，以语义分析和文本挖掘技术为基础，自动提取出事务功能。通过对功能点自动识别的研究，可以减低估算的人工成本、提高估算特别是审计的效率；估算的智能化方法还可以降低对专家个人经验的依赖，减少个人偏见而导致的估算质量偏差，提高估算的准确性和稳定性。

发明内容

针对上述问题，本发明提出的一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置，目的在于解决从大量繁杂冗余的需求描述中快速、准确提取事务功能点，减少人工工作量及人工干预，采取结合自然语言处理、文本挖掘、机器学习等技术，并在目标历史功能点库上进行模型的训练及优化，以克服需求描述的灵活性、不规范等问题。

一种基于语义分析和文本挖掘的事务类功能点自动识别方法，其步骤包括：

1)采集用于提取功能点的需求文本，对所述需求文本进行条目化获取第一匹配数据集，并将所述第一匹配数据集进行中文分词，得到第二匹配数据集；

2)将提取的所述第二匹配数据集的特征送入词分类模型，得到若干功能点词语；

3)将若干所述功能点词语组成的若干功能点短语输入语言模型，得到各功能点短语的输出概率评分值，获取所述需求文本的事务类功能点。

进一步地，使用新词发现方法进行所述中文分词，其步骤包括：

1)通过互信息分别衡量短语内部聚合程度与邻词的丰富程度，自动计算可能的新词，并经领域专家确认所述新词；

2)将确认后的新词，送入领域术语库；

3)将所述第一匹配数据集与所述领域术语库内的所述新词进行匹配。

进一步地，所述第二匹配数据集的特征维度包括词语在句中位置、词语出现频率、词语历史信息、词语词性、词语重要性分析指标、文本挖掘词图评价指标。

进一步地，所述词分类模型构建的过程包括：

1)采集用于提取功能点的样本需求文本，对所述样本需求文本进行条目化获取样本第一匹配数据集，并将所述样本第一匹配数据集进行中文分词，得到样本第二匹配数据集；

2)提取所述样本第二匹配数据集的样本特征，并将所述样本特征进行机器分类模型训练，获取词分类模型。

进一步地，所述功能点词语通过对所述词分类模型的所有预测结果进行投票，对投票结果使用一票入选方法得到；所述功能点短语是通过若干所述功能点词语的语义学特性，并基于启发式规则组成。所述语义学特性包括所述功能点词语在所述需求文本中的词性、依存关系。

进一步地，所述语言模型的构建过程包括：

2)将提取的所述样本第二匹配数据集的特征送入词分类模型，得到若干样本功能点词语；

3)将若干所述样本功能点词语组成的若干样本功能点短语输入n-gram语言模型进行训练，得到各样本功能点短语的输出概率评分值。

进一步地，将所述候选功能点输入词嵌入模型对各候选功能点进行语义相似度计算，以去除重复的候选功能点；所述词嵌入模型的构建过程包括：

1)将所述需求文本输入word2vec模型；

2)根据所述需求文本中词的上下文词与正则化系数进行训练，得到所述词嵌入模型。

进一步地，将所述事务功能点送入分类模型，获取事务类功能点的事务类型；所述分类模型的构建步骤包括：

1)采集用于提取功能点的样本需求文本，对所述样本需求文本进行条目化及中文分词，得到样本第二匹配数据；

2)提取所述样本第二匹配数据的样本特征，并将所述样本特征送入词分类模型，得到若干样本功能点词语；

3)将若干所述样本功能点词语组成的若干样本功能点短语输入语言模型，得到各样本功能点短语的输出概率评分值，并根据各所述输出概率评分值得到所述样本需求文本的样本事务类功能点。

4)获取样本事务功能点的样本事务类型，并将所述样本事务类型进行机器分类模型训练，获取所述分类模型。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行上述方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述方法。

与现有技术相比，本发明的优点在于：

本发明更完整的实现了功能点识别的自动化和智能化。

本发明无需人工构建字典词库，通过引入新词发现技术实现领域字典词库的自动构建。

本发明提出了六个维度的16个特征来刻画功能点词语及其上下文的特性，并采用机器学习技术自动建模功能点识别规则，再结合启发式规则和事务功能文本分类模型。

本发明无需人工配置识别规则，克服了从描述不规范、灵活度高的中文自然语言描述的需求中智能识别事务功能点的难题，并具有跨领域自适应能力，实现了事务点识别的全过程自动化，以达到从较大规模的需求文本中快速而准确的识别出事务类功能点、减低估算的人工成本、提高估算和审计的效率；降低对专家个人经验的依赖，提高估算的准确性和稳定性。

附图说明

图1示出了本发明事务类功能点自动识别方法框架图。

图2示出了本发明需求预处理的流程图。

图3示出了本发明训练词预测模型的流程图。

图4示出了本发明事务功能点评分及分类的流程图。

具体实施方式

尽管为说明本发明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

本发明提出了一种事务类功能点自动识别方法，通过语义分析和自然语言处理技术，提炼需求文本中词语的多项特征值，并构建事务功能词语预测模型，采用启发式规则融合语言模型技术，得到可读性高的事务功能文本描述，再通过文本分类技术，预测事务功能的具体类型。本发明提供了支从需求文本提取事务功能的全流程自动化方案。下面通过具体实施方式对本发明作进一步说明。

如图1所示，为本发明事务类功能点自动识别方法框架图。包括五个主要步骤：需求预处理、提取词语特征、训练词语分类模型、构建功能点、功能点评分及分类：

步骤1采集并预处理用于提取功能点的需求文本。如图2所示，为本发明需求预处理的流程图。首先，采集用于提取功能点的需求文档，文档格式为doc或docx，通过文档解析功能，提取出需求文档的各级标题以及对应的正文文本，利用标题等级构建出文档的结构图，定义标题模板T为：

T＝[.*((功能)|(需求)).*]

选取标题与标题模板T匹配的正文部分，按照段落进行切分，将每一个段落识别为一条需求，遍历全部的需求文档，将得到条目化后的需求列表R₁，其中r_i中为一项自需求文档中切分出的需求条目：

R₁＝{r₁,r₂,…,r_n}

在R₁的基础上，构建一个“需求-功能点”匹配数据集RF₁＝{<r_i,f_i>}，其中f_i为需求条目r_i对应的全部功能点文本内容，f_i数由一个或多个功能点文本组成，即f_i＝<p₁,p₂,…,p_n>，其中p_i为一个功能点文本数据，具体示例如下：

r₁＝“作为质量控制员，我想要新增不符合项信息界面，以满足实际业务需要。”

f_i＝“<不符合项添加,不符合项查看>”

在RF₁的基础上，对r_i,f_i中的中文文本进行分词。在分词时，本发明引入了新词发现技术，用于自动构建领域术语库，其中，通过互信息

其中x,y分别是目标词中相邻的字；左右信息熵H＝-∑plog_p，其中p为目标词和左右词共现的概率，分别衡量短语内部聚合程度和邻词的丰富程度来自动计算可能的新词，再经过领域专家确认，录入领域术语库。同时，也支持添加自定义术语，目的在于提高在不同领域中文分词的准确率。将RF₁与所述领域术语库内的所述新词进行匹配，最终，得到分词后的“需求-功能点”匹配数据集RF₂。

步骤2提取匹配数据集RF₂中词语的特征。其中，对RF₂中的分词结果进行特征抽取，用于预测可能会出现在事务功能点中的词。结合待分析需求的文本表述特点，本发明采取以下六个方面，共16个特征用于进行词分类：

(1)词语在句中位置的信息。包括该词在其所在句子中的出现位置等信息。

(2)词语出现频率的信息。包括该词在历史功能点中的出现频数、与该词相似的词在功能点中的出现频数等方面。

(3)词语的历史信息。包括词语是否在历史功能点库中出现过。

(4)词语的词性基本信息。包括词语的词性标注结果、依存关系、该词是否为专有名词等。

(5)词的重要性分析指标。在需求文本上运用关键词提取算法(TextRank、PageRank等)，衡量文本中的各个词的关键程度。

(6)文本挖掘的词图评价指标。通过对需求文本构建词图的方式，依据网络分析理论，计算词语在需求文本的点度中心性、中介中心性、特征向量中心性、接近中心性等指标。

步骤3训练词语分类模型。如图3所示，为本发明的训练词预测模型的流程图。计算RF₂数据集中各个词的16个特征，并且由于RF₂数据集是分词后的“需求-功能点”样本数据，可以通过文本匹配计算出需求中每个分词是否出现实际功能点中，本发明将词是否出现的结果作为预测变量的真值(label)，构建数据集RF₃＝{word}，word＝{f₁,f₂,…,f₁₆,label}。基于此构建一个二分类的随机森林预测模型，预测目标是该词是否会出现在功能点中。基于RF₃构建训练集和测试集，在训练集上训练模型，在测试集上进行验证，最终得到预测模型M。输入计算了特征值的词语，模型M可以预测该词语是否会出现在功能点中。由于需求描述文本中存在重复的词语，但由于其所处上下文不同，重复的词语可能具有不同的特征值，是数据集RF₃中多个独立的元组。模型M预测相同的词语，可能得到的预测结果不同。本发明设计了“一票入选”制对重复的结果进行决策，即对重复的词用M模型进行预测，统计所有的预测结果作为投票结果，当有一个投票结果为预测出现时，则所有重复的词都判定为预测出现。

步骤4功能点构建。将预测会出现在功能点的词进行组合，构建得到候选的功能点。本发明采取专门设计事务功能点构建器的方式进行构建：通过利用预测词语在需求文本中的词性、依存关系等语义学特征，采用启发式构建规则，避免构建出不符合表述的结果，同时确保构建功能点能充分地体现需求，从而提高构建效率及质量。

本发明采取的启发性构建规则如下：

(1)遍历构建功能点用词列表中的动词，如果该动词在需求文本中的某一句出现，则将该动词与该句中的复合名词短语(通过依存关系连接)进行拼接，得到一个事务功能点；

(2)遍历构建功能点用词列表中的名词，如果该名词在需求文本中的某一句出现，则通过依存关系找到该句中其它与该名词相关联的名词，并进行连接，从而得到一个复合名词短语，再通过依存关系找到该句中的核心动词，动词与名词短语拼接得到一个事务功能点；

(3)需求文本中的句子符合某些特殊句式，例如：并列出现的动名词短语，则将这些短语提取出来作为一个事务类功能点。

步骤5功能点评分及分类。如图4所示，为本发明功能点评分及分类的流程图，对构建的事务功能点进行评价，筛选出构建结果中合理的事务功能点作为结果展示。本发明采取的筛选方法为通过判断功能点是否符合用语习惯来确定其是否合理：如果构建的功能点的表述方式与历史功能点差距较大，则该功能点很有可能是错误的。

判断功能点的描述方式是否贴合用语习惯的关键之处在于量化符合程度，本发明采取构建语言模型的方法解决这一问题。其中，本发明使用n-gram语言模型，根据P(w₁,w₂,…,w_n)＝∏P(w_i|w_i-1,…,w_i-n)，其中，P(w₁,w₂,…,w_n)为语句的联合概率也即句子出现的通顺程度，w代表词。通过在历史功能点数据库上训练及优化语言模型，能够准确地量化构建结果是否符合用语习惯，模型的输入是功能点短语，语言模型对每个功能点短语输出概率评分值，得分越高，说明输入的短语更加符合用语习惯，也就是更加通顺。再采用设置阈值或是得分排序的方式，便可以有效地筛选出合理地构建结果，从而实现准确地从需求文本中提取出事务功能点的目的。

另外，本发明通过词嵌入模型计算构建结果之间的语义相似度，采用0.8为阈值，将构建结果中功能点短语进行自动去重，词嵌入模型采用word2vec模型，以需求文本作为输入，通过max∑log(p(w,context(w)))+R(θ)这一目标函数进行优化，其中context(w),p(w,context(w)),R(θ)分别是词w的上下文词、词w与上下文即context(w)的共现概率和正则化系数，训练得到词嵌入模型来对文本进行语义相似度计算。

在构建出事务功能点后，本发明引入了文本分类技术，对事务功能的分类进行自动预测。本发明使用朴素贝叶斯算法，在历史功能点库上进行训练，训练的目标是事务功能的外部输入(EI)，外部输出(EO)，外部查询(EQ)三个分类，训练后得到分类模型N，模型N能够对输入的事务功能自动附加类别信息。最终推荐的事务功能结果中既包含了功能点的文本描述，又包含了分类信息。

下面以一具体应用示例阐述本发明。

以金融领域为示例，首先收集金融领域的需求文本和对应的功能点数据，构建原始配对数据集RF₁，再对文本进行分词得到RF₂，计算各个分词的特征值构建数据集RF₃，在此基础上训练词预测模型M，对于以下一段需求描述：“作为系统管理员，我希望能够添加新的客户信息到系统中，以便于管理客户信息。客户基本信息除备注外均为必填项，联系方式信息应至少包含一种有效联系方式。添加过程中会验证身份证号是否重复，如果重复会提示”。M模型预测出可能出现的词为：{添加，客户，信息}。再通过组词策略组合为“客户信息添加”，通过语言模型进行打分，得分为90.15，高于阈值60，则将该短语作为功能点的文本描述，输入朴素贝叶斯分类模型N，得到分类结果为EI，最终推荐的结果为：客户信息添加【EI】。

Claims

1.一种基于语义分析和文本挖掘的事务类功能点自动识别方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，使用新词发现方法进行所述中文分词，其步骤包括：

2)将确认后的新词，送入领域术语库；

3.如权利要求1所述的方法，其特征在于，所述第二匹配数据集的特征维度包括词语在句中位置、词语出现频率、词语历史信息、词语词性、词语重要性分析指标、文本挖掘词图评价指标。

4.如权利要求1所述的方法，其特征在于，进一步地，所述词分类模型构建的过程包括：

5.如权利要求1所述的方法，其特征在于，所述功能点词语通过对所述词分类模型的所有预测结果进行投票，对投票结果使用一票入选方法得到；所述功能点短语是通过若干所述功能点词语的语义学特性，并基于启发式规则组成。所述语义学特性包括所述功能点词语在所述需求文本中的词性、依存关系。

6.如权利要求1所述的方法，其特征在于，所述语言模型的构建过程包括：

7.如权利要求1所述的方法，其特征在于，将所述候选功能点输入词嵌入模型对各候选功能点进行语义相似度计算，以去除重复的候选功能点；所述词嵌入模型的构建过程包括：

1)将所述需求文本输入word2vec模型；

8.如权利要求1所述的方法，其特征在于，将所述事务功能点送入分类模型，获取事务类功能点的事务类型；所述分类模型的构建步骤包括：

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行权利要求1-8中任一方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-8中任一方法。