CN115293794A

CN115293794A - 一种基于智能规模识别的软件费用评估方法及系统

Info

Publication number: CN115293794A
Application number: CN202210782715.1A
Authority: CN
Inventors: 耿鑫州; 吴建海; 司晋新; 臧秀环; 王浩
Original assignee: State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office
Current assignee: State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-11-04

Abstract

本发明涉及一种基于智能规模识别的软件费用评估方法及系统，其包括：获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

Description

一种基于智能规模识别的软件费用评估方法及系统

技术领域

本发明涉及一种软件费用评估技术领域，特别是关于一种基于智能规模识别的软件费用评估方法及系统。

背景技术

传统的软件费用评估，需要依赖于人工识别需求中工作量情况，评审专家需要逐条识别、判断功能点数据，难以克服主观性和生理疲劳等因素，很难保证评估费用的合理性。当项目模块较多，可能对需求项进行分类进行重复计算，造成软件费用评估不合理。

发明内容

针对上述问题，本发明的目的是提供一种基于智能规模识别的软件费用评估方法及系统，结合人工智能机器学习，通过软件需求文档，自动评估软件规模，从而计算软件成本，有效克服了主观性和生理疲劳，保证了评估费的合理性。

为实现上述目的，本发明采取以下技术方案：一种基于智能规模识别的软件费用评估方法，其包括：获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

进一步，所述获取语料集并进行预处理，包括：语料清洗和功能点语料合法性验证。

进一步，所述语料清洗包括：

标点符号的处理；

从需求文档中抽取功能项时，需要对功能项内的标点符号进行清除处理，规范化功能项；

空格以及空数据的清除；

不规则功能项的处理规则，对于不规则的功能项，定义相应的处理规则。

进一步，所述功能点语料合法性验证包括：结合语料清洗规则，将不规则的功能项进行有效性验证。

进一步，所述对语料集数据进行分词处理及特征向量化处理，包括：

对经预处理后的语料句子进行短语分词，拆分成词素单元；

通过NLP方法对分词后的词素列表进行向量化转换，以便计算机识别与计算处理。

进一步，所述根据语料数据的大小以及准确率要求构建功能点分类器模型，包括：

设定一个识别名称，并选择已有语料集；

选择分词处理方式以及自定义词典，不同的行业请选择符合该行业的自定义词典，如果没有则新建自定义词典；

选择分类器模型，包括基本机器学习方法以及神经网络分类模型；同时，根据选择的模型为模型设置参数；

模型属性设置完成后，进行模型的训练。

进一步，所述由验证集语料对具有最优化参数的模型进行性能评估，包括：

设置评估的指标，针对模型的应用场合以及模型对功能点类型的重视程度，选取不同的指标；

选取评估模型应用在的验证集数据，针对不同的验证集进行评估；

进行多次评估，给出不同的评估指标。

一种基于智能规模识别的软件费用评估系统，其包括：第一处理模块，获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；第二处理模块，根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；第三处理模块，由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；评估模块，根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明在功能点法的基础上进行设置，结合人工智能机器学习，通过软件需求文档，自动评估软件规模，从而计算软件成本的方法，克服了主观性和生理疲劳，保证了评估费的合理性。

2、本发明通过对历史功能点预料的管理，建立历史数据训练集，结合机器学习算法与自然语言分析技术，并自动识别出新需求功能点，最后通过质量模型基准比对和人工审核的方式对其进行迭代修正，以达到功能点评估质量提升的目标。

附图说明

图1是本发明一实施例中的软件费用评估方法流程图；

图2是本发明一实施例中模型指标说明图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

软件度量管控普遍存在预算合理性难以评估、开发需求不规范、开发内容难以量化、采购定价缺乏依据、软件造价审计无依据等痛点问题。基于此，本发明构建一种基于智能规模识别的软件费用评估方法，主要实现智能评估、智能管控和智能识别功能等，是从用户角度出发度量软件规模的一种方法。从用户的角度出发，将系统分为数据功能和事务功能两大类，分别根据具体的规则来计算功能点，最后结合系统的特征因子来调整功能点数，从而得到最终的软件规模。本发明适用于商业数据处理、信息支撑系统的估算。

本发明借助智能识别、自然语言处理方法对项目规模进行客观的认识，需对项目工作量、所需资源、完工时间等因素进行估算，而识别软件项目范围和工作量常常采用功能点法计数。利用规则库功能点与其对应的功能类型训练机器学习模型并得到功能点分类模型，利用分类模型判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中所述对应的分数值，最终输出所述项目软件的功能点计数结果。

在本发明的一个实施例中，提供一种基于智能规模识别的软件费用评估方法。本实施例中，通过智能辅助方法协助人工完成软件费用的评估审核任务，通过建立识别模型从而提高软件费用审核的精度与效率，如图1所示，该方法包括以下步骤：

1)获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；

2)根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；

3)由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；

4)根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

上述步骤1)中，语料集是机器学习模型、深度学习模型以及其它模型训练以及验证的数据来源，语料集的收集对后期模型的训练与评估起着至关重要的作用。语料集按照模型的使用规则分为：训练集语料和验证集语料。训练集语料用于模型训练，生成模型。验证集语料用于对模型准确率的验证以便评估模型的好坏，以便预测模型的可信度以及可行性。

获取语料集并进行预处理，包括语料清洗和功能点语料合法性验证。对语料进行预处理是对原始语料数据去重，消除语义歧义，去除停用词，对标点符号比如句号、逗号以及括号等进行处理。

其中，在语料收集过程中，由于语料的收集人员以及来源的不同，会导致语料存在较大差异。在模型训练之初，对语料集的清洗时非常必要的。根据不同行业的语料规则，可以定制预料的清洗规则。不同的语料，语料的清洗规则会有所不同，需要根据需要自定义语料的清洗规则。语料清洗包括：

1.1.1)标点符号的处理；

1.1.2)从需求文档中抽取功能项时，可能会将功能项内的标点符号，尤其是中文标点符号等收集在内。这对于功能项来说是不确切的，故需要对功能项内的标点符号进行清除处理，规范化功能项；

1.1.3)空格以及空数据的清除；

语料中存在的空格，对功能项的审核没有影响。但是对于机器学习来说，可能会造成较大影响，这样的数据应该予以清除；同时，收集过程中必然会或多或少的有部分空数据，这部分数据对于模型的训练来说没有什么作用，以视应该予以清除的。

1.1.4)不规则功能项的处理规则，对于不规则的功能项，定义相应的处理规则。比如对于功能项过长或者过于短小的词组，这不是规范的功能项。

其中，不合法的功能项会对机器学习造成很大的影响，从而导致准确率较低。功能点语料合法性验证包括：结合语料清洗规则，将不规则的功能项进行有效性验证。在模型训练之前，即使将这些语料清除，将会提高模型的准确率。

上述步骤1)中，模型训练前要对语料集数据进行分词处理，以便生成模型需要的数据。由于中文语义的多样性，对于行业内术语可能会分词错误从而导致模型训练效果有所折扣。通过自定义词库，将行业内术语添加到词库可以解决以上问题，提升分词准确性，进而提升模型的准确率。同时，针对不同行业功能点术语也会有一定的差异，多个行业内使用单一的分词策略也是不合理的。因此，对于不同的行业建立各自的自定义词库是非常必要的，这样可以消除分词在行业之间的差异进而提升模型准确率。

本实施例中，对语料集数据进行分词处理及特征向量化处理，包括以下步骤：

1.2.1)对经预处理后的语料句子进行短语分词，拆分成词素单元；

1.2.2)通过NLP方法对分词后的词素列表进行向量化转换，以便计算机识别与计算处理。

在本实施例中，针对不同的语料，需要建立不同的模型；同时当语料集增加后可以对模型重复训练，以便在新增数据的基础之上，提高模型的精度。模型训练完成之后，需要完成模型的性能指标以及准确性指标进行评估。主要体现在模型预测的效率以及模型预测的准确性上。

上述步骤2)中，根据语料数据的大小以及准确率要求构建功能点分类器模型，包括以下步骤：

2.1)设定一个识别名称，并选择已有语料集；其中，语料集包括训练集与验证集语料。如果没有需要在语料管理页面先上传语料。

2.2)选择分词处理方式以及自定义词典，不同的行业请选择符合该行业的自定义词典，如果没有则新建自定义词典；

2.3)选择分类器模型，包括基本机器学习方法(比如SVC，逻辑回归)以及神经网络分类模型；同时，根据选择的模型为模型设置参数；

不同的模型训练准确率以及训练速度有一定差异，需要根据实际语料大小以及准确率要求进行选择；

2.4)模型属性设置完成后，进行模型的训练。模型训练耗时时间可能会比较长，请耐心等待模型训练完成。模型训练完成后，对模型进行评估分析，准确率达到要求后可以用于辅助功能点审核任务。

在本实施例中，机器学习模型的构建需要进行管理与配置。需要对模型进行构建、训练以及评估与调整。同时可以管理模型的使用权限，然后分发出使用权限给相关的模型使用人员。

另一方面，机器学习模型的构建需要通过化展示给使用人员，方便用户对模型进行定制化构建。模型牵涉到的各种参数调整，以及模型的优化处理等操作均应进行可视化展示在前端，方便用户使用。

随着语料集的变动，可以随时对已有模型进行重新训练以及参数的重新调整。同时要保证对于模型评估的使用者来说，是无感知的。

上述步骤3)中，由验证集语料对具有最优化参数的模型进行性能评估，包括以下步骤：

3.1)设置评估的指标，针对模型的应用场合以及模型对功能点类型的重视程度，选取不同的指标，不确定时可以直接选择所有指标；

3.2)选取评估模型应用在的验证集数据，针对不同的验证集进行评估；

3.3)进行多次评估，给出不同的评估指标，以便后期模型使用人员进行参考选择什么样的模型进行预测。

其中，模型性能指标包括多种，每一种指标都从不同的方面说明了模型的性能。对于不同的场合要求，会对模型的性能指标有不同的要求。通常在整体上来说，模型的准确率是最能说明模型的性能的。准确率越高表明模型的识别能力越高；反之，模型的识别率越低。然而，针对多分类模型，整体上的准确率不能详细刻画其中某一个类别的识别性能。比如在功能项识别中，通常会有两大类五个小类：业务功能(EI、EO以及EQ)和数据功能(ILF和EIF)。有的项目中，可能对数据功能的识别性能比较重视。这时，仅仅通过准确率是不能刻画ILF和EIF的识别性能的。因此需要从其他角度，也即更多的指标来对模型的识别性能进行刻画。

如图2所示，是分类模型中能够单独评估针对单个标签(类别)的性能指标。其中，各个指标解释如下：

精准率。精准率是指针对单个类别标签，识别正确的比例，或者狭义上理解为，单个指标的识别准确率。在重视单个类别的识别准确性或者误判概率小的情况下，可以通过该指标评估。

召回率。召回率，也即找全率，刻画了针对单个指标，是否可以全部找出的指标。当要求对于某个标签是否能够全部正确识别时，可以参考该指标来评估。

F指数。该指数是对精准率和召回率的一个调和值，当精准率和召回率同样被重视时，需要通过该指标来进行评估。该指数通过对精准率和召回率的重视程度可以选取不同的值：F1分数认为召回率和精确率同等重要；F2分数认为召回率的重要程度是精确率的2倍；F0.5分数认为召回率的重要程度是精确率的一半。

在本发明的一个实施例中，提供一种基于智能规模识别的软件费用评估系统，其包括：

第一处理模块，获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；

第二处理模块，根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；

第三处理模块，由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；

评估模块，根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

本发明一实施例中提供的计算设备结构，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种基于智能规模识别的软件费用评估方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，上述计算设备的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于智能规模识别的软件费用评估方法，其特征在于，包括：

获取语料集并进行预处理后，对语料集数据进行分词处理及特征向量化处理，将处理后的语料集数据划分成训练集语料和验证集语料；

根据语料数据的大小以及准确率要求构建功能点分类器模型，并由训练集语料对功能点分类器模型进行重复训练，得到最优化参数的模型；

由验证集语料对具有最优化参数的模型进行性能评估，得到模型的性能指标；

根据实际语料及准确率要求选择不同性能指标的功能点分类器模型，将实际语料输入模型后，判断目标软件的需求文档的语料对应的功能点类型，给予功能点类型和规则库中对应的分数值，输出该项目软件的功能点计数结果。

2.如权利要求1所述基于智能规模识别的软件费用评估方法，其特征在于，所述获取语料集并进行预处理，包括：语料清洗和功能点语料合法性验证。

3.如权利要求2所述基于智能规模识别的软件费用评估方法，其特征在于，所述语料清洗包括：

标点符号的处理；

空格以及空数据的清除；

4.如权利要求2所述基于智能规模识别的软件费用评估方法，其特征在于，所述功能点语料合法性验证包括：结合语料清洗规则，将不规则的功能项进行有效性验证。

5.如权利要求1所述基于智能规模识别的软件费用评估方法，其特征在于，所述对语料集数据进行分词处理及特征向量化处理，包括：

对经预处理后的语料句子进行短语分词，拆分成词素单元；

6.如权利要求1所述基于智能规模识别的软件费用评估方法，其特征在于，所述根据语料数据的大小以及准确率要求构建功能点分类器模型，包括：

设定一个识别名称，并选择已有语料集；

模型属性设置完成后，进行模型的训练。

7.如权利要求1所述基于智能规模识别的软件费用评估方法，其特征在于，所述由验证集语料对具有最优化参数的模型进行性能评估，包括：

进行多次评估，给出不同的评估指标。

8.一种基于智能规模识别的软件费用评估系统，其特征在于，包括：

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。