CN111274817A

CN111274817A - 一种基于自然语言处理技术的智能化软件成本度量方法

Info

Publication number: CN111274817A
Application number: CN202010048353.4A
Authority: CN
Inventors: 张奎; 任健; 白溥
Original assignee: Beijing Borui Power Technology Co Ltd; Beihang University
Current assignee: Beijing Borui Power Technology Co Ltd; Beihang University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-12

Abstract

本发明公开了一种基于自然语言处理技术的智能化软件成本度量方法。本发明在自然语言处理中，序列处理水平比较好的智能功能点识别的基础上，根据功能点识别在信息化项目成本估算的应用，结合了自然语言处理技术以及深度学习技术，从基础的分词，到双向LSTM模型和CRF模型的结合来解决高准确度的功能点识别技术。

Description

一种基于自然语言处理技术的智能化软件成本度量方法

技术领域

本发明属于软件成本评估(Software Cost Estimation，SCE)领域，特别涉及一种基于自然语言处理技术的智能化软件成本度量方法。

背景技术

SCE主要是指估算软件研发过程中所花费的工作量以及相应的代价，是软件研发过程中一个重要的活动。SCE目前包括多种方法，传统的如专家评估法(ExpertJudgement)，这种方法利用专家对软件研发项目成本的理解，对软件研发项目的成本作出评估，一方面这种方法简单易行，另一方面，对特别复杂的软件研发项目能够作出评估。但是其缺点也很明显，由于过度依赖专家经验，这种方式主观性太强而且很难被标准化。因此，针对SCE来说，构建通用的标准化模型，并在此基础上利用模型进行软件成本评估是SCE领域较为通用的方法。

对于SCE来说，存在两个重要的概念，一个是度量元，另一个则是评估模型。度量元主要解决如何对软件项目进行分解，而评估模型则是在利用度量元进行分解之后，如何通过度量元之间关系的建立对软件研发成本进行评估。目前有多个机构和方法在对软件生命周期的不同阶段以及不同类型的软件进行模型构建和评估。对于度量元来说，存在代码行(Line of Code，LOC)以及功能点(Function Point，FP)等度量单位，而对于如何针对度量元构建度量模型，也存在不同的模型和方法，如1981年Barry Boehem采用LOC以及FP为度量基础提出的COCOMO模型以及后续的COCOMOⅡ模型，以及以FP为度量元的IFPUG、MKⅡ、NESMA和COSMIC，同时针对不同类型的软件，度量模型也会不一样，如NESMA主要针对的是信息系统类的软件，而COSMIC则更多的是针对嵌入式软件。然而，这几种模型都是一种基于FP或LOC的一种方法框架，而不是解决方案，同时这些方法和模型中的调整因子较多，因此，对不同领域软件的评估的模型不能直接应用。

SCE当前主要是以FP和LOC为评估单位，从SCE方法的构成来说，研究主要分为以下几个层面：第一类是针对评估单位的研究，这类研究在Alan Allbrecht和Barry Boehm确立了以FP和LOC为评估单位后，这类研究就相对较少了；第二类是针对在给定评估单位基础上的不同开发模型，这类模型主要考虑的是可能会对SCE的准确性产生影响的因子，并对其进行参数化，典型的有PRICE、COCOMOII、FPA、COSIMIC、NESMA；第三类是采用统计方法，对度量数据和成本数据进行统计回归，如采用Fuzzy Logic、ANN、RNN等各类神经网络模型对度量数据和成本数据之间构建回归方程。对于针对特定研发环境和所在的研发阶段的评估模型的构建上来看，Andrés在COSYSMO模型基础上针对Web应用开发的SCE模型，Moharreri针对敏捷开发方法下SCE提出了以机器学习(Machine Learning，ML)为基础的Auto-Estimate方法，Bajwa.S等利用COSMIC方法针对AUTOSTAR架构下的车载嵌入式系统的SCE提出了一套FSM方法。

随着机器学习、人工智能的兴起，研究者们也开始考虑将机器学习应用到软件项目的造价评估。基于机器学习的软件开发成本估算技术是通过对历史数据的分析、推理，采用机器学习方法构造能够拟合数据规则的估算模型，从而对新项目的成本进行估算。20世纪90年代以后的成本估算模型充分利用统计分析、数据挖掘和案例推理等相关技术，并对大量历史数据进行分析测试提高了估算精度。其中，神经网络是最常见的代替最小均方回归的软件评估建模技术，这些模型可以用历史数据来“训练”，以便形成更好的能自动调整算法参数值的模型，减少实际结果和模型预算值之间的差异。另一种常用的方法是访问范例库中的源范例，通过相似度计算找到与当前项目最相似的历史项目，进而估算新软件的开发成本，这种方法对历史数据具有很强的依赖性，仅适用于领域相同并且目标属性跨度小的软件项目，对于未知领域的项目很难取得较好的效果。

但是相对于从基础的度量数据来训练评估模型来说，采用已成熟的成本评估方法，例如NESMA模型，并针对特定的领域进行模型调整则是更可行的一种解决方案。

发明内容

由于当前国际标准以及国内标准所涉及的模型大多基于功能点方法，而功能点方法的工作量又非常耗时费力，因此，能否通过对咨询师已经人工标注过的数据进行学习，并应用于相似领域的功能点识别，以减轻功能点方法普及的工作量，同时提高评估方法的专业性和可靠性，是该模型能够快速推广和发展的一个重要因素。为此，本发明设计了一种软件项目造价评估方法，通过对咨询师已标注文档内容的学习，实现在给定领域，对用户输入的需求文档，利用自动化实体的分类过程，识别出功能点类型，从而既能够作为分析师在判断分类结果时的参考，减少咨询师工作量，也可在一定程度上减少人工判断失误造成的偏差。

本发明提供了一种基于自然语言处理技术的智能化软件成本度量方法，包括如下步骤：

S1：对已有公共数据源进行文本数据构建，并对所构建的文本数据进行数据预处理，生成训练模型的训练集；

S2：采用深度学习算法双向长短记忆网络结合条件随机场(Bi-LSTM CRF)模型对步骤S1中生成的训练集进行训练，构建面向功能点的实体识别学习模型；

S3：利用步骤S2中构建的实体识别学习模型对新的需求文档进行功能点识别。

本发明针对软件成本评估方法，一方面从度量单位，影响因素以及最终的度量模型的构建入手，再在此基础上，对已有的度量项目数据进行标注和评估，实现度量模型在特定领域的固化。从图1中可以看出，本发明是通过对项目历史数据的标注以及在此基础上对文档中的功能点类型进行识别，这是一个典型的命名实体识别任务(Name EntityRecognition,NER)。因此，本发明通过自然语言处理技术来解决这类问题，通过自然语言处理技术解决了这两个技术的情况下，能够极大的将咨询师的工作从简单重复的工作中解放出来，投入到更有价值的数据分析中。因此来说，针对从文档到度量类型的分类工作可以利用机器学习的方式来进行训练，以为后续的模型准确度的评估提供依据。智能度量模型的构建建立在有监督的机器学习方法上，因此，传统的标注，训练以及模型调整都会涉及。在完成了这两项工作后，针对模型的度量框架和评估方法就可以构建一个针对基于模型验证的成本度量框架了。针对智能化度量模型来说，机器学习技术及其应用已经较为成熟，在给定的数据条件下，可以通过标注和学习技术来实现度量过程的自动化，同时在文献调研过程，基于RNN、ANN等机器学习技术的成本评估技术已经大量的应用与成本度量技术上，因此本发明整体方案具有较高的可行性。

进一步，步骤S1中，对所构建的基础数据进行数据预处理包括如下步骤：

1)利用数据编码格式转变、数据归一化、规范词的格式、去除停用词方式对文本数据进行归一化处理；

2)使用词典模型加规则过滤对归一化处理后的文本数据进行分词；

3)进行功能单元描述与计数项名称的匹配，为分词后的词语添加计数项标签；

4)对添加了计数项标签的各个词语进行单字的计数项标签转换，由此形成多个类别，构建训练模型的输入数据集；

5)对构建的输入数据集中的词语进行词向量训练，建立词向量模型，组成词向量样本集；

6)对词向量样本集进行扩充操作，形成矩阵，对计数项标签进行独热编码，与词向量样本集一一对应，将词向量样本集进行三七分割，采用交叉验证的方式生成训练集和测试集。

进一步，步骤3)具体过程如下：对文本数据进行分词后，运用模糊识别来判断文本分词后的单个词是否蕴含与计数项内容相关的信息，如是，则以该计数项内容对应的五种标签之一来标记该单个词，五种标签分别是ILF，EIF，EI，EO和EQ；否则，则将该单个词标记为F。

进一步，步骤4)具体过程如下：当单字所在词语标签不为F时，若该单字为所在词语的首位，则在词语标签的前面加上B来作为该单字的标签，否则，则在词语标签的前面加上I来作为该单字的标签；当单字所在词语的标签为F时，将组成该词语的所有单字标记为O，最终构建训练模型的输入数据集。

进一步，步骤5)中，基于Skip Gram模型的词向量生成模型(Word2vec)进行词向量训练，同时添加中文维基百科词汇之后进行词向量训练，得到词向量训练模型；对分词后的词语进行编号处理，建立词语与数字的字典索引，之后带入词向量模型索引到该词语的词向量结果，组成词向量样本集；之后对词向量样本集进行扩充操作，形成矩阵，对计数项标签进行独热编码，与样本集一一对应。

进一步，步骤S2中，将生成训练模型的训练集带入双向长短记忆网格模型(Bi-LSTM)模型进行学习训练，输出每个单字对于形成的多个类别的概率；之后将Bi-LSTM模型的输出结果输出到多分类(SoftMax)模型中进行参数的归一化，输入到条件随机场(CRF)模型中进行上下文关系的梳理，从而挑选出该单字的类别。

本发明的有益效果：

在经济效益上：

当前咨询师做一个咨询项目需要5天，采用本发明可以只需要1天，成本降低；通过该产品进行推广，降低该方法的入门门槛，可以快速的进行复制；

在社会效益上：

可以极大降低国标的进入门槛，有利于国标推广；可以推动行业升级，告别低价中标，提高软件开发水平，降低开发成本。

附图说明

图1为本发明的成本度量模型关键技术方案图；

图2为本发明的方案总体架构图；

图3为本发明的基于自然语言处理技术的智能化软件成本度量方法流程图；

图4为本发明的模糊识别示意图；

图5为本发明的文本标签分类示意图；

图6为本发明的Skip Gram模型示意图；

图7为本发明的基于Bi-LSTM模型的智能功能点识别框架图；

图8为本发明的Bi-LSTM模型结构示意图；

图9为本发明的CRF模型结构示意图。

具体实施方式

下面结合附图和实施例进一步描述本发明，应该理解，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明在充分理解实际成本评估流程以及对成本评估方法进行深入学习的前提下，通过对已有功能点分析过程知识的学习，实现智能化功能点分析。最后将智能化功能点分析和人工评估相结合，实现高效、准确、可靠的成本分析评估管理平台，如图2所示。

首先，本发明通过对已有公共数据源如维基百科等数据源进行基础数据构建，同时针对特定领域(如电力、金融行业)的术语及功能点词汇进行数据预处理，包括数据编码格式转变，数据归一化、规范词的格式、去除停用词等方式对数据的格式和内容进行统一，以方便进行进一步的自然语言处理，然后参照已有的基础语料库和特定的专业领域语料库对文本进行中文分词处理。在此基础，针对不同的应用类型和应用目标，围绕主题词提取、命名实体识别、编辑距离算法，等技术手段，采用传统机器学习和深入学习技术相结合的技术思路，对智能功能点识别相关功能提供分析以及数据支撑。

之后，本发明通过结合深度神经网络和CRF的命名实体识别算法，构建面向功能点的实体识别学习模型，通过采用对新加入的文本资料进行人工标注以提高对特定领域(如统建信息化项目功能点)的识别率，其他部分采用已有的语料库，而对于实体关系识别来说，目前中文关系抽取方面使用最多的是ACE，RDR任务提供的中文语料库，其中包含了不到一万个关系实例，数据规模有限，而对现有语料进行完全的人工关系标注也不太现实。因此，考虑采用自主学习的方式，对已有历史数据进行初步标注，并对种子标注进行学习，生成实体模式，对实体信息进行抽取。

简言之，本发明在自然语言处理中，序列处理水平比较好的智能功能点识别的基础上，根据功能点识别在信息化项目成本估算的应用，结合了自然语言处理技术以及深度学习技术，从基础的分词，到Bi-LSTM模型和CRF模型的结合来解决高准确度的功能点识别技术。

如图3所示，本发明的基于自然语言处理技术的智能化软件成本度量方法，包括如下步骤：

S1：对已有公共数据源进行文本数据构建，并对所构建的文本数据进行数据预处理，生成训练模型的训练集。

文本分词

因为软件需求文档具有专业性高，专业词汇多的特点，因此使用传统的分词工具效果并不理想，如表格1所示，用于训练的原始数据包含三方面的信息，分别是功能单元描述，计数项名称和类别。本发明所建立的功能点识的自动识别模型的数据输入是单字和单字标记。

对于原始数据，本发明首先进行预处理操作。先对原始数据进行分词，之后做功能单元描述与计数项名称的匹配，将分词后的结果打上计数项标签，用于训练。

表格1文档例表

根据本项目的软件需求文档，在分词前，先对文档进行了归一化处理，主要包括数据缺失补全，数据噪声过滤，数据格式一致性等的操作。此步骤主要是剔除无意义字符或多余字符，大小写转换，繁简转换等操作。

首先，分词是一种基础应用，是知识问答、信息抽取等高阶应用的基础，目前主流的分词模型主要有词典模型、序列标注模型、简单的调用分词库等。根据实验结果，调用分词库的方法有部分专业词汇分词效果不好，因此本发明使用例如Jieba词典模型加规则过滤来进行分词。提取词频高的专业词汇组成词典库，基于Trie树结构实现高效的词图扫描，然后进行分词，之后导入停用表进行去停用词，将结果分为单个的词。

对于模型训练的数据，以计数项内容作为出发点，因为计数项内容是从功能点描述文本中提取出来的，可以说计数项的内容是对标签判别的一种依据。对文本进行分词之后，判断文本分词后的单个词是否蕴含与计数项内容的信息，如果该词语与计数项内容相关，则以该计数项内容对应的五种标签之一来标记该词语，五种标签分别是ILF，EIF，EI，EO和EQ，若该词语与计数项内容不相关，则将该词语标记为F。相关性与否的判断便是本发明据预处理操作中的第二步，将分词文本与计数项内容进项匹配，在匹配的过程中，运用模糊识别来避免正确的信息被剔除。这样对于每个词语都有一个与之对应的标签。训练模型的输入是基于单字和单字标签的输入，通过对字的标签的约束来保证标签输出的正确性。

模糊识别在数据预处理阶段起到了十分重要的作用，它主要是在功能单元描述和计数项名称进行匹配的时候保证容错性。因为中文语义和词语组合的多样性，经常出现近义词的描述，当出现近义词的时候，逻辑表明应该将这两个词认定为同一词，但是在匹配的时候因为字符的不同系统会判断两词不同，这时候就需要进行近义词的识别。模糊识别通过对两词进行编辑距离计算，得到两词的编辑距离，编辑距离可以表达为两个词语的差异程度的量化值。表示一个词如果要变成另一个词需要进行多少次操作，操作包括增加，删除，修改等。同时根据两词的字长，根据判断规则对两词进行是否为近义词的判断。判断标准如下：

1)若字长小于3，且编辑距离小于2，认定为同一词；

2)若字长小于7，且编辑距离小于3，认定为同一词；

3)若字长大于7，且编辑距离小于4，认定为同一词。

通过基于模糊识别的匹配，为各个词语添加了相应的标签，接下来便是对这些词语进行拆分，执行单字的标签转换，即在原有标签的基础上进行再分类。对于单字的标签转换如图4所示，当单字所在词语标签不为F时，若该单字所在为词语的首位，则在词语标签的前面加上B(Begin)来作为该单字的标签，若该单字不是词语的首位，则在词语标签的前面加上I来作为该单字的标签.当单字所在的标签为F时，将组成该词语的所有单字标记为O。根据上述规则，共形成11个类别，这样便构建了训练模型的输入数据集。构建的训练集部分如图5所示。

词向量模型

对文本进行分词之后，在导入LSTM模型进行训练之前要将中文文本转换成词向量，自然语言处理系统通常将词汇作为离散的单一字符进行处理，这些符号没有任何编码的规律，所以将词汇转换为上述的独立离散符号时将导致进一步的数据稀疏，因此在训练统计模型时不得不寻求更多的数据，所以需要将词汇进行词向量训练。

经过挑选，因为专业词汇比较多，本发明选择基于Skip Gram模型的Word2vec进行训练，如图6所示，Skip Gram模型分为输入层、投影层和输出层。该模型是一个处理文本的双层神经网络，输入可以为任意的文本语料库，输出为一组向量，即该文本语料库中单词的特征向量。虽然word2vec不是一个深度神经网络，但是它可以将文本转换为深度学习网络可以理解的数字向量形式。通过将相似词语的向量组合在特征空间中，以数学方式来检测相似性。

为了避免分词后的去重词汇稀疏，添加中文维基百科词汇之后进行词向量训练，得到词向量训练模型。对分词数据结果进行序列化，对词汇进行编号处理，建立词汇与数字的字典索引，之后带入词向量模型索引到该词汇的词向量结果，组成词向量样本集。之后对样本集进行扩充操作，形成50*300的矩阵，对标签进行独热编码，与样本集一一对应。

S2：如图7所示，采用深度学习算法Bi-LSTM CRF模型对步骤S1中生成的训练集进行训练，构建面向功能点的实体识别学习模型。

生成样本集之后，对样本进行三七分割，采用交叉验证的方式生成训练集和测试集。在本实施例中，训练集样本5000条，测试集样本2110条。下面使用Bi-LSTM CRF模型进行软件需求文档的功能点识别。

LSTM模型

如图8所示，LSTM模型分为三层，分别为输入层，隐藏层和输出层，其中在命名实体标记的上下文中，输入层x表示输入要素，输出层y表示标签结果。其中输入层x表示时间t处的文本特征，该特征可以是单一功能的独热编码，也可以是密集的适量特征或者稀疏特征，输入层必须与要素尺寸的维度相同，所以在输入之前需要进行扩充操作。输出层的输出结果为各类标签的概率分布，如本项目的标签所示，即该词为各类功能点的概率分布情况。隐藏层是LSTM模型的特点之一，在隐藏层的结构中分布有三个门，分别为遗忘门，输入门和输出门，可以记录时间t的过去的特征，从而考虑到前后关系的变化。而Bi-LSTM模型的结构可以通过前向传播访问过去的特征，后向传播访问未来的特征，从而保证模型利用给定时间的过去和未来的输入特征来进行学习。

CRF模型

Bi-LSTM模型可以输出每个单字属于各个功能点类别的概率，但是并不会考虑到上下文结构。比如说中文语法结构中会有主语谓语宾语这样的表达，谓语一定是动词，不会出现两个名词一起排列的情况。但是Bi-LSTM模型并不会这么考虑到，所以需要一种模型来考虑上下文结构，考虑上下文结构的经典模型就是滑动窗口式模型。优良中不同的方法可以利用邻居标签信息，也就是考虑上下文结构。第一种是预测每个时间步的标签分布，然后使用类似波束的解码来找到最佳标签序列，比如最大熵分类器和最大熵马尔科夫模型。第二个就是关注句子层次而不是单字，即条件随机场模型CRF，它在观测序列的基础上对目标序列进行建模，重点解决序列化标注的问题。将Bi-Lstm的输出结果再输入CRF模型进行训练，可以产生更高的标记精度。

本发明使用的命名实体识别深度学习模型，首先是嵌入层，将预处理后的文档进行向量化。之后带入Bi-LSTM模型层进行学习训练，输出每个单字对于十一种类别的概率。之后输出到SoftMax模型进行参数的归一化，输入到CRF中进行上下文关系的梳理，从而挑选出该单字的类别。

对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以对本发明的实施例做出若干变型和改进，这些都属于本发明的保护范围。

Claims

1.一种基于自然语言处理技术的智能化软件成本度量方法，其特征在于，包括如下步骤：

S2：采用深度学习算法Bi-LSTM CRF模型对步骤S1中生成的训练集进行训练，构建面向功能点的实体识别学习模型；

2.根据权利要求1所述的方法，其特征在于，步骤S1中，对所构建的基础数据进行数据预处理包括如下步骤：

3.根据权利要求2所述的方法，其特征在于，步骤3)具体过程如下：对文本数据进行分词后，运用模糊识别来判断文本分词后的单个词是否蕴含与计数项内容相关的信息，如是，则以该计数项内容对应的五种标签之一来标记该单个词，五种标签分别是ILF，EIF，EI，EO和EQ；否则，则将该单个词标记为F。

4.根据权利要求3所述的方法，其特征在于，步骤4)具体过程如下：当单字所在词语标签不为F时，若该单字为所在词语的首位，则在词语标签的前面加上B来作为该单字的标签，否则，则在词语标签的前面加上I来作为该单字的标签；当单字所在词语的标签为F时，将组成该词语的所有单字标记为O，最终构建训练模型的输入数据集。

5.根据权利要求2-4之一所述的方法，其特征在于，步骤5)中，基于Skip Gram模型的Word2vec进行词向量训练，同时添加中文维基百科词汇之后进行词向量训练，得到词向量训练模型；对分词后的词语进行编号处理，建立词语与数字的字典索引，之后带入词向量模型索引到该词语的词向量结果，组成词向量样本集；之后对词向量样本集进行扩充操作，形成矩阵，对计数项标签进行独热编码，与样本集一一对应。

6.根据权利要求1所述的方法，其特征在于，步骤S2中，将生成训练模型的训练集带入Bi-LSTM模型进行学习训练，输出每个单字对于形成的多个类别的概率；之后将Bi-LSTM模型的输出结果输出到SoftMax模型进行参数的归一化，输入到CRF模型中进行上下文关系的梳理，从而挑选出该单字的类别。