CN112181490B

CN112181490B - 功能点评估法中功能类别的识别方法、装置、设备及介质

Info

Publication number: CN112181490B
Application number: CN202011001966.9A
Authority: CN
Inventors: 李胤文
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2024-05-24
Anticipated expiration: 2040-09-22
Also published as: CN112181490A

Abstract

本发明实施例公开了一种功能点评估法中功能类别的识别方法、装置、设备及介质。该方法包括：获取功能类别待识别的目标功能名称；根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别。上述技术方案实现了功能点评估法中功能类别识别工作的自动化，进而提高了评估工作的效率。

Description

功能点评估法中功能类别的识别方法、装置、设备及介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种功能点评估法中功能类别的识别方法、装置、设备及介质。

背景技术

国际功能点用户组IFPUG的功能点评估法是一种被广泛接受的关于软件规模度量的有效方法，目前越来越多的组织在运用这个方法进行软件规模的度量。

目前，对项目开发工作量的评估都是人工来处理，尤其是对事件的功能类别的判断，而功能类型的判断又是其他评估工作进行的基础。因此，如何推进评估工作的自动化是亟待解决的问题。

发明内容

本发明实施例提供一种功能点评估法中功能类别的识别方法、装置、设备及介质，以提高功能点评估法中评估工作的自动化程度。

第一方面，本发明实施例提供了一种功能点评估法中功能类别的识别方法，包括：

获取功能类别待识别的目标功能名称；

根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别。

第二方面，本发明实施例还提供了一种功能点评估法中功能类别的识别装置，包括：

功能名称获取模块，设置为获取功能类别待识别的目标功能名称；

功能类别识别模块，设置为根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任意实施例所述的功能点评估法中功能类别的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的功能点评估法中功能类别的识别方法。

本发明实施例提供的技术方案中，针对功能类别待识别的目标功能名称，将其输入预先训练得到的功能类别识别模型中，通过该功能类别识别模型确定与目标功能名称对应的目标功能类别，以此实现了功能点评估法中功能类别识别工作的自动化，进而提高了评估工作的效率。

附图说明

图1是本发明实施例一中的一种功能点评估法中功能类别的识别方法的流程示意图；

图2是本发明实施例二中的一种功能类别识别模型的生成方法的流程示意图；

图3是本发明实施例三中的一种功能点评估法中功能类别的识别方法的流程示意图；

图4是本发明实施例四中的一种功能点评估法中功能类别的识别装置的结构示意图；

图5是本发明实施例五中的一种计算机设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本发明实施例一提供的一种功能点评估法中功能类别的识别方法的流程图，可适用于在功能点评估法中对功能类别进行自动识别的情况，该方法可以由本发明实施例提供的功能点评估法中功能类别的识别装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。

如图1所示，本实施例提供的功能点评估法中功能类别的识别方法，具体包括：

S110、获取功能类别待识别的目标功能名称。

功能，指的是功能点评估法中对业务进行分解描述的功能，包括数据功能和事务功能。

功能名称，指的是事件描述，例如可以是“查询购房合同信息”，“查询产权信息”等等。在本实施例中，主要是根据功能名称进行功能类别的识别。

可选的，所述功能类别包括：内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询。

数据功能，对应于业务对象，是提供给用户的满足内部或外部数据存储需求的功能，具体包括：内部逻辑文件(Internal Logical File，ILF)、外部接口文件(ExternalInterface File，EIF)。

其中，内部逻辑文件指的是一组用户可识别的在应用边界内且被维护的逻辑相关数据或者控制信息，主要目的是通过应用的一个或几个基本处理过程维护数据；外部接口文件指的是一组在应用边界内被查询，但是在其它应用中被维护的、用户可识别的、逻辑相关数据或者控制信息。也即，内部逻辑文件是在本系统维护的业务数据，外部接口文件是在本系统引用、在其他系统维护的业务数据。

事物功能，对应于业务行为，是用户可识别的、业务上的一组原子操作，具体包括：外部输入(External Input，EI)、外部输出(External Output，EO)和外部查询(ExternalinQuery，EQ)。

其中，外部输入指的是处理来自应用边界之外的数据或控制信息的基本处理过程，主要目的是维护一个或多个ILF并且/或者改变系统的行为；外部输出指的是向应用边界之外发送数据或控制信息的基本处理过程，主要目的是通过逻辑处理方式向用户呈现信息，而不只是直接恢复数据或控制信息；外部查询指的是向应用边界之外发送数据或控制信息的基本处理过程，主要目的是通过恢复数据或控制信息向用户呈现信息。也即，外部输入是对数据进行维护或改变系统行为的事物，外部输出是对数据加工后呈现或输出的事物，外部查询是对已有数据直接呈现或输出的事物。

S120、根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别。

功能类别识别模型，是通过深度机器学习训练得到的用于进行功能类别识别的机器模型，将目标功能名称输入该功能类别识别模型，该功能类别识别模型即可输出与目标功能名称对应的目标功能类别。

例如，目标功能名称为“查询购房合同信息”，功能类别识别模型即可输出其功能类别为“外部查询”；再例如，目标功能名称为“查询产权信息”，功能类别识别模型也可输出其功能类别为“外部查询”。

可选的，功能类别识别模型可以是任意一种能够实现功能类别识别的机器学习模型，例如是RCNN(Recurrent Convolutional Neural Networks，递归卷积神经网络)模型、BERT(Bidirectional Encoder Representations from Transformer，基于Transformer的双向编码表征)模型，等等，本实施例对此不做具体限定。

实施例二

本实施例在上述实施例的基础上进行具体化，其中，在根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别之前，还包括：

获取多个训练样本文档；其中，每个所述训练样本文档中包括多行训练样本数据，每行训练样本数据中包括功能名称以及对应的功能类别；

对所述多个训练样本文档进行预处理，得到多组训练二维数组；其中，每组训练二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；

使用TensorFlow工具，利用softmax回归函数对所述多组训练二维数组进行训练，得到所述功能类别识别模型。

图2是本发明实施例二提供的一种功能类别识别模型的生成方法的流程示意图。如图2所示，该功能类别识别模型的生成方法包括：

S210、获取多个训练样本文档；其中，每个所述训练样本文档中包括多行训练样本数据，每行训练样本数据中包括功能名称以及对应的功能类别。

训练样本文档，指的是根据在人工评估工作量审核记录表中提取的功能名称以及对应的功能类别而生成的文档，例如可以是txt文档。其中，每个训练样本文档中包括多行训练样本数据，每行训练样本数据也即一组训练样本数据，每组训练样本数据具体包括功能名称以及对应的功能类别，例如，功能名称“查询购房合同信息”，功能类别“外部查询”。

可选的，每个训练样本文档中包括的多行训练样本数据中的功能类别是相同的。在一示例中，将多个训练样本文档按照其涉及的功能类别进行分类，每类中包括一个或多个训练样本文档。例如，将功能类别为外部输出的一类标记为“1”，此类中各个训练样本文档中训练样本数据涉及的功能类别均为外部输出；将功能类别为外部查询的一类标记为“2”，此类中各个训练样本文档中训练样本数据涉及的功能类别均为外部查询；将功能类别为外部输入的一类标记为“3”，此类中各个训练样本文档中训练样本数据涉及的功能类别均为外部输入；将功能类别为外部接口文件的一类标记为“4”，此类中各个训练样本文档中训练样本数据涉及的功能类别均为外部接口文件；将功能类别为内部逻辑文件的一类标记为“5”，此类中各个训练样本文档中训练样本数据涉及的功能类别均为内部逻辑文件。

S220、对多个训练样本文档进行预处理，得到多组训练二维数组；其中，每组训练二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组。

针对每个训练样本文档，对其进行预处理，对应得到一组训练二维数组。其中，每组训练二维数组中包括的功能名称文本二维数组，与训练样本文档中各行训练样本数据中的功能名称是匹配的，功能名称文本二维数组行数与训练样本文档的行数相等，功能名称文本二维数组中每行元素用于指示匹配的一行训练样本数据中的功能名称；每组训练二维数组中包括的功能类别二维数组，与训练样本文档中各行训练样本数据中的功能类别是匹配的，功能类别二维数组的行数与训练样本文档的行数相等，功能类别二维数组的列数与功能类别的种类数量相等，功能类别二维数组中每行元素用于指示匹配的一行训练样本数据中的功能类别。

作为一种可选的实施方式，可以将对多个训练样本文档进行预处理，得到多组训练二维数组，具体为：生成与功能类别识别对应的词典向量；根据所述词典向量，分别对所述多个训练样本文档进行处理，对应得到多组训练二维数组。

词典向量，指的是包含与各个功能类别对应的关键词的向量，用于对训练样本文档每行训练样本数据中的功能名称进行解析统计，以生成对应的功能名称文本二维数组，其中，功能名称文本二维数组列数与词典向量中的关键词数量相等。

可选的，词典向量中与每种功能类别匹配的关键词的数量相等。例如，与每种功能类别匹配的关键词的数量均为10个，功能类别包括内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询时，词典向量中包括50个关键词，这些关键词按照功能类别顺序排列。此时，功能名称文本二维数组行数为训练样本文档的行数，列数为50；功能类别二维数组中行数为训练样本文档的行数，列数为5。

作为一种可选的实施方式，生成与功能类别识别对应的词典向量，包括：

根据词频和逆文档频率确定与功能类别识别对应的多个关键词；根据所述多个关键词生成所述词典向量。

在本实施方式中，可以通过TF-IDF(term frequency–inverse documentfrequency，词频-逆文档频率)算法提取关键词，也即根据词频TF和逆文本频率指数IDF来衡量词汇在功能类别识别训练数据中的重要程度。可选的，针对每个功能类别，将词频TF和逆文本频率指数IDF的乘积较小的多个词汇作为对应功能类别的关键词。

其中，目标词汇的词频可以定义为t/t_max，t表示目标词汇在某训练文本文档中出现次数，t_max表示该训练文本文档中出现最多的词汇的出现次数；目标词汇的逆文档频率可以定义为log(n_total/n＝1)，n_total表示训练文本文档的总数量，n表示包含目标词汇的训练文本文档的数量。

作为一种可选的实施方式，根据词频和逆文档频率确定与功能类别识别对应的多个关键词，可以具体为：针对每种功能类别，根据词频和逆文档频率确定设定数量个与所述功能类别匹配的关键词。

在本实施方式中，每个训练文本文档中每行训练样本数据涉及的功能类别均是一致的。针对每类训练文本文档(也即涉及功能类别一致的多个训练文本文档)中的每个训练文本文档，统计每个待选词汇的词频，并对该类训练文本文档中各个待选词汇进行去重(重复待选词汇的词频可以保留其中一个最大值，如文档1中A词的词频为f1，文档2中A词的词频为f2，f1>f2，则去重后A词的词频可以确定为f1)，统计每个待选词汇在此类训练文本文档中出现的次数，计算去重后各个待选词汇的逆文档频率，然后统计各个待选词汇的词频和逆文本频率的乘积，并按照从小到大的顺序排列，进而可以选取排序靠前的多个待选词汇作为该功能类别的关键词，例如选取排序靠前的10个待选词汇作为该功能类别的关键词，保存到分类词典。

以此类推，可以得到各个功能类别的关键词，功能类别包括内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询时，若每个功能类别的关键词选取10个，则分类词典中包括50个关键词，进而可以根据这50个关键词生成词典向量。

作为一种可选的实施方式，在根据所述词典向量，分别对所述多个训练样本文档进行处理之前，还包括：对所述多个训练样本文档每行中的功能名称进行分词处理。

中文文本分类的主要思想，是生成文本的中文词典，通过对词语进行分析，通过文本的所属分类，判断词典所属类别。本实施方式中可以使用jieba开源库对训练样本文档以行为单位进行分词处理，也即将每行中的功能名称进行分词处理，并使用分词结果代替对应行中的功能名称。进一步的，在对功能名称进行分词之后，还可以去除无用词，也即删除一些经常出现的词汇，如“比如”，“的”，“是”等，这些连词、叹词数量多且在数据中无分类意义。可选的，根据无用词库按行删除分词结果中的无用词。其中，可以对训练样本文档的分词结果中涉及的数据分词进行数量统计，按从多到少进行排序，人工挑选数量较多的无用词，放入无用词库。

对所述多个训练样本文档每行中的功能名称进行分词处理，便于统计训练样本文档各个待选词汇，根据词频和逆文档频率快速确定设定数量个与各个功能类别匹配的关键词，以便于生成与功能类别识别对应的词典向量。

作为一种可选的实施方式，根据所述词典向量，分别对所述多个训练样本文档进行处理，对应得到多组训练二维数组，可以具体为：

针对每个所述训练样本文档，以行为单位，建立与所述词典向量维数相等的第一目标向量，以及维数与功能类别数量相等的第二目标向量；

根据训练样本数据中功能名称与所述词典向量的匹配情况，对所述第一目标向量进行赋值，并根据与所述功能名称对应的功能类别，与所述第二目标向量进行赋值；

根据与行数相等的多个所述第一目标向量，生成训练二维数组中包括的功能名称文本二维数组，并根据与行数相等的多个所述第二目标向量，生成与所述功能名称文本二维数组对应的功能类别二维数组。

依旧以功能类别包括内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询为例，根据分别与这五个功能类别对应的10个关键词生成词典向量。进而，在根据该词典向量，对多个训练样本文档进行处理时：针对每个训练样本文档，以行为单位，建立50维的第一目标向量，以及5维的第二目标向量，根据该行训练样本数据中功能名称命中词典向量关键词的情况，对第一目标向量进行赋值，例如，命中第一个关键词一次，则在第一目标向量中与第一关键词匹配的元素位置赋值1，命中第二个关键词三次，则在第一目标向量中与第二关键词匹配的元素位置赋值3，等等；同时根据该行训练样本数据中功能类型对第二目标向量进行赋值，例如，功能类型为外部输入，则在第二目标向量中与外部输入匹配的元素位置赋值3。本实施例对向量中功能类别的排列顺序不作具体限定。

针对每个训练样本文档，将与各行对应的第一目标向量按顺序进行组合，即可生成训练二维数组中包括的功能名称文本二维数组，其行数为训练样本文档行数，列数为50，将与各行对应的第二目标向量按顺序进行组合，即可生成与所述功能名称文本二维数组对应的功能类别二维数组，其行数为训练样本文档行数，列数为5。

S230、使用TensorFlow工具，利用softmax回归函数对所述多组训练二维数组进行训练，得到所述功能类别识别模型。

使用TensorFlow工具，运用机器学习原理从功能名称描述中学习到特征，例如分类到内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询这几个功能类别，进而生成功能类别识别模型，以用于后续对功能类别的自动判断。

其中，部分代码如下：

#为输入数据，none为占位符表示数人样本的数量，50为样本的维度

x＝tf.placeholder(tf.float32,[None,50])

#为权重矩重，行为输入维度，列为输出维度为类别5

w＝tf.Variable(tf.zeros([50,5]))

#b为偏重5对应输出的维度

b＝tf.Variable(tf.zeros([5]))

#为定义训练的输出结果，使用softmax为激励函数，matmul为矩阵相乘y＝tf.nn.softmax(tf.matmul(x,w)+b)

#真实样本的类别，从数据集读入None占位符表示输入样本的数量，5为输出维度

t＝tf.placeholder(tf.float32,[None,5])

#交叉熵，衡量真实值与预测值的偏差程度，训练过程的目的是最小化该值

cross_entropy＝-tf.reduce_sum(t*tf.log(y+1e-10))

#训练对cross_entropy进行梯度下降算法更新参数，学习率为0.01

train_step＝tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

在上述技术方案中，通过机器学习的方法，学习人工评估过程中沉淀的历史数据，训练生成功能类别识别模型，以实现对功能点评估法中功能类别的自动判断，提高评估工作的效率。

进一步的，在上述技术方案的基础上，在得到所述功能类别识别模型之后，还包括：获取多个测试样本文档；其中，每个所述测试样本文档中包括多行测试样本数据，每行测试样本数据中包括功能名称以及对应的功能类别；对所述多个测试样本文档进行预处理，得到多组测试二维数组；其中，每组测试二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；使用所述多组测试二维数组对所述功能类别识别模型进行测试。

与训练样本文档类似，测试样本文档也是根据在人工评估工作量审核记录表中提取的功能名称以及对应的功能类别而生成的文档，例如可以是txt文档。其中，每个测试样本文档中包括多行测试样本数据，每行测试样本数据也即一组测试样本数据，每组测试样本数据具体包括功能名称以及对应的功能类别，例如，功能名称“查询购房合同信息”，功能类别“外部查询”。

可选的，每个测试样本文档中包括的多行测试样本数据中的功能类别是相同的。在一示例中，将多个测试样本文档按照其涉及的功能类别进行分类，每类中包括一个或多个测试样本文档。

作为一种可选的实施方式，将根据在人工评估工作量审核记录表中提取的功能名称以及对应的功能类别而生成的文档按照预设比例进行划分，部分作为训练样本文档，部分作为测试样本文档，例如70％作为训练样本文档，30％作为测试样本文档。

可选的，可以为训练样本文档、测试样本文档生成唯一的数据ID，以便于后续对训练样本文档或测试样本文档进行预处理。

例如，可以使用[type]-[class]-[dataid]来表示，其中，type为样本文档类型，如训练样本文档的type＝0，测试样本文档的type＝1；class为功能类别ID，ID＝1-5分别表示内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询这五种功能类别；dataid为功能类别下的样本文档ID。

可选的，根据所述词典向量，分别对所述多个测试样本文档进行处理，对应得到多组测试二维数组。具体的，针对每个测试样本文档，以行为单位，建立与所述词典向量维数相等的第一目标向量，以及维数与功能类别数量相等的第二目标向量，根据测试样本数据中功能名称与词典向量的匹配情况，对所述第一目标向量进行赋值，并根据与所述功能名称对应的功能类别，与所述第二目标向量进行赋值，根据与行数相等的多个所述第一目标向量，生成测试二维数组中包括的功能名称文本二维数组，并根据与行数相等的多个所述第二目标向量，生成与所述功能名称文本二维数组对应的功能类别二维数组。关于对测试样本文档进行处理的详细示例与训练样本文档类似，在此不再赘述。

使用得到的多组测试二维数组分别对训练生成的功能类别识别模型进行测试，以某组测试二维数组包括的功能名称文本二维数组A以及对应的功能类别二维数组a1为例，判断功能类别识别模型根据功能名称文本二维数组A输出的功能类别二维数组a2与测试二维数组包括的功能类别二维数组a1中的相等元素，以此实现对功能类别识别模型进行测试。

进一步的，在使用所述多组测试二维数组对所述功能类别识别模型进行测试之后，还包括：确定所述功能类别识别模型的准确率。

根据测试二维数组包括的功能类别二维数组与功能类别识别模型根据功能名称文本二维数组输出的功能类别二维数组中相等元素的占比，即可计算出功能类别识别模型的准确率。

进一步的，如果所述准确率小于准确率阈值，则对所述功能类别识别模型进行更新。

如果计算得到的功能类别识别模型的准确率小于准确率阈值，例如85％，则可以对所述功能类别识别模型进行更新，以提高功能类别识别模型的准确率。

可选的，对所述功能类别识别模型进行更新，包括：

获取多个增量样本文档；其中，每个所述增量样本文档中包括多行训练样本数据，每行训练样本数据中包括功能名称以及对应的功能类别；对所述多个增量样本文档进行预处理，得到多组增量二维数组；其中，每组增量二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；使用所述多组增量二维数组对所述功能类别识别模型进行更新。

实质上，增量样本文档就是后续增加的训练样本文档，均是用于功能类别识别模型进行学习训练的。在对功能类别识别模块进行更新时，获取多个增量样本文档，根据所述词典向量，分别对所述多个增量样本文档进行处理，对应得到多组增量二维数组。具体的，针对每个增量样本文档，以行为单位，建立与所述词典向量维数相等的第一目标向量，以及维数与功能类别数量相等的第二目标向量，根据训练样本数据中功能名称与所述词典向量的匹配情况，对所述第一目标向量进行赋值，并根据与所述功能名称对应的功能类别，与所述第二目标向量进行赋值，根据与行数相等的多个所述第一目标向量，生成增量二维数组中包括的功能名称文本二维数组，并根据与行数相等的多个所述第二目标向量，生成与所述功能名称文本二维数组对应的功能类别二维数组。使用TensorFlow工具，利用softmax回归函数对所述多组增量二维数组进行训练，以实现对所述功能类别识别模型的更新。

在上述技术方案中，增加训练样本文档，对功能类别识别模型进行更新，以此提高了功能类别识别模型的准确率。

实施例三

图3是本发明实施例三提供的一种功能点评估法中功能类别的识别方法的流程图。本实施例在上述实施例的基础上提供了一种具体的实施方式，其中，功能类别包括内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询。

如图3所示，本实施例提供的功能点评估法中功能类别的识别方法，具体包括：

S310、对通过收集人工评估数据得到的训练样本文档以及测试样本文档进行数据预处理。

从人工评估工作量(功能点法)审核记录表中提取功能名称和功能类别两列，对应为样本文档中的一行，并按照功能类别EO、EQ、EI、ELF、ILF将70％样本数据保存至训练数据(training_data)，将30％样本数据保存至测试数据(testing_data)目录下，其中，目录格式可以如下所示：

其中，每个样本文档的ID可以使用[type]-[class]-[dataid]来标识。

针对每个样本文档，可以以行为单位使用jieba开源库对功能名称进行分词处理，将data_x.txt分词处理后的词输出到文件data_x_split.txt中，其中，x即为相应文本文档的ID。

进一步的，可以基于无用词库删除data_x_split.txt中一些经常出现的词汇，如“比如”，“的”，“是”等，生成data_x_split_del.txt。

S320、针对每种功能类别，根据词频和逆文档频率确定设定数量个与所述功能类别匹配的关键词，并根据所述多个关键词生成词典向量。

针对每种功能类别，分别计算该类别下每个文本文档中各个分词的词频，对所有分词进行数据去重后(重复分词的词频保留最高的一个)，统计每个分词在此功能类别中出现的次数，计算各个分词的逆文档频率，进而计算每个分词的词频与逆文档频率的乘积，按照由小到大的顺序排序，例如取前10个词作为该功能类别的关键词，保存至分类词典中。

类似的，五个功能类别可以确定50个关键词，进而根据这50个关键词可以生成词典向量文件vector.txt。

S330、根据所述词典向量，分别对所述多个训练样本文档以及测试样本文档进行处理，对应得到多组训练二维数组以及多组测试二维数组。

对data_x_split_del.txt进行处理，对应生成训练二维数组或测试二维数组。

具体的，处理data_x_split_del.txt时，以行为单位，建立一个50维的第一目标向量，如果行分词中出现分词词典中的词汇，则第一目标向量中对该词汇对应元素值计数累加，进而根据多个第一目标向量生成data_x_vector.txt文件(也即功能名称向量文件)，其行数为文本行数，列数为50。同时，生成label文件data_x_label.txt(也即功能类别向量文件)，其行数为文本行数，列数为5，对应当前功能名称的功能类别。

读取data_x_vector.txt文件以及data_x_label.txt，生成与data_x_split_del.txt对应的功能名称二维数组text[line_num][50]，以及功能类别二维数据label[line_num][5]。

S340、使用TensorFlow工具，利用softmax回归函数对所述多组训练二维数组进行训练，得到所述功能类别识别模型。

S350、使用所述多组测试二维数组对所述功能类别识别模型进行测试，确定所述功能类别识别模型的准确率。

S360、如果所述功能类别识别模型的准确率达到准确率阈值，则获取功能类别待识别的目标功能名称，并根据所述词典向量生成与所述目标功能名称对应的功能名称二维数组。

其中，目标功能名称可以只包括一个功能类别待识别的功能名称，进而生成与目标功能名称对应的功能名称二维数组只包括一行；目标功能名称也可以是包括多个功能类别待识别的功能名称，继而生成与目标功能名称对应的功能名称二维数组包括多行。

S370、根据预先训练得到的功能类别识别模型，确定与所述功能名称二维数组对应的功能类别二维数组，以确定与所述目标功能名称对应的功能类别。

本实施例未尽详细解释之处请参见前述实施例，在此不再赘述。

在上述技术方案中，通过机器学习的方法，学习人工评估过程中沉淀的历史数据，训练生成功能类别识别模型，进而可以通过该功能类别识别模型识别与目标功能名称对应的目标功能类别，以此实现了功能点评估法中功能类别识别工作的自动化，进而提高了评估工作的效率。

实施例四

图4是本发明实施例三提供的一种功能点评估法中功能类别的识别装置的结构示意图，可适用于在功能点评估法中对功能类别进行自动识别的情况，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。

如图4所示，该功能点评估法中功能类别的识别装置具体包括：功能名称获取模块410和功能类别识别模块420。其中，

功能名称获取模块410，设置为获取功能类别待识别的目标功能名称；

功能类别识别模块420，设置为根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别。

可选的，上述装置还包括：训练样本获取模块、训练样本预处理模块以及模型训练生成模块，其中，

训练样本获取模块，设置为在根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别之前，获取多个训练样本文档；其中，每个所述训练样本文档中包括多行训练样本数据，每行训练样本数据中包括功能名称以及对应的功能类别；

训练样本预处理模块，设置为对所述多个训练样本文档进行预处理，得到多组训练二维数组；其中，每组训练二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；

模型训练生成模块，设置为使用TensorFlow工具，利用softmax回归函数对所述多组训练二维数组进行训练，得到所述功能类别识别模型。

可选的，训练样本预处理模块包括：词典向量生成单元和训练样本处理单元，其中，

词典向量生成单元，设置为生成与功能类别识别对应的词典向量；

训练样本处理单元，设置为根据所述词典向量，分别对所述多个训练样本文档进行处理，对应得到多组训练二维数组。

可选的，词典向量生成单元，具体用于根据词频和逆文档频率确定与功能类别识别对应的多个关键词；根据所述多个关键词生成所述词典向量。

可选的，词典向量生成单元，具体用于针对每种功能类别，根据词频和逆文档频率确定设定数量个与所述功能类别匹配的关键词。

可选的，训练样本处理单元，具体设置为针对每个所述训练样本文档，以行为单位，建立与所述词典向量维数相等的第一目标向量，以及维数与功能类别数量相等的第二目标向量；根据训练样本数据中功能名称与所述词典向量的匹配情况，对所述第一目标向量进行赋值，并根据与所述功能名称对应的功能类别，与所述第二目标向量进行赋值；根据与行数相等的多个所述第一目标向量，生成训练二维数组中包括的功能名称文本二维数组，并根据与行数相等的多个所述第二目标向量，生成与所述功能名称文本二维数组对应的功能类别二维数组。

可选的，训练样本预处理模块还包括：分词处理单元，设置为在根据所述词典向量，分别对所述多个训练样本文档进行处理之前，对所述多个训练样本文档每行中的功能名称进行分词处理。

可选的，上述装置还包括：模型测试模块，设置为在得到所述功能类别识别模型之后，获取多个测试样本文档；其中，每个所述测试样本文档中包括多行测试样本数据，每行测试样本数据中包括功能名称以及对应的功能类别；对所述多个测试样本文档进行预处理，得到多组测试二维数组；其中，每组测试二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；使用所述多组测试二维数组对所述功能类别识别模型进行测试。

可选的，上述装置还包括：模型准确率确定模块，设置为在使用所述多组测试二维数组对所述功能类别识别模型进行测试之后，确定所述功能类别识别模型的准确率。

可选的，上述装置还包括：模型更新模块，设置为如果所述准确率小于准确率阈值，则对所述功能类别识别模型进行更新。

可选的，所述模型更新模块，具体设置为获取多个增量样本文档；其中，每个所述增量样本文档中包括多行训练样本数据，每行训练样本数据中包括功能名称以及对应的功能类别；对所述多个增量样本文档进行预处理，得到多组增量二维数组；其中，每组增量二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；使用所述多组增量二维数组对所述功能类别识别模型进行更新。

上述功能点评估法中功能类别的识别装置可执行本发明任意实施例所提供的功能点评估法中功能类别的识别方法，具备执行功能点评估法中功能类别的识别方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种计算机设备的硬件结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种功能点评估法中功能类别的识别方法。也即，所述处理单元执行所述程序时实现：

获取功能类别待识别的目标功能名称；根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别。

实施例六

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的一种功能点评估法中功能类别的识别方法，也即，该程序被处理器执行时实现：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言(诸如Java、Smalltalk、C++)，还包括常规的过程式程序设计语言(诸如“C”语言或类似的程序设计语言)。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种功能点评估法中功能类别的识别方法，其特征在于，包括：

获取功能类别待识别的目标功能名称；

根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别；

其中，在根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别之前，还包括：

获取多个训练样本文档；其中，每个所述训练样本文档中包括多行训练样本数据，每个所述训练样本文档中包括的所述多行训练样本数据中的功能类别相同，每行训练样本数据中包括功能名称以及对应的功能类别；

对所述多个训练样本文档进行预处理，得到多组训练二维数组；其中，每组训练二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组，所述功能名称二维数据行数与所述训练样本文档的行数相等，所述功能名称文本二维数据中每行元素用于指示匹配的一行训练样本数据中的功能名称，所述功能类别二维数组的行数与训练样本文档的行数相等，所述功能类别二维数组的列数与所述功能类别的种类数量相等，所述功能类别二维数组中每行元素用于指示匹配的一行训练样本数据中的功能类别；

使用TensorFlow工具，利用softmax回归函数对所述多组训练二维数组进行训练，得到所述功能类别识别模型；

获取多个测试样本文档；其中，每个所述测试样本文档中包括多行测试样本数据，每行测试样本数据中包括功能名称以及对应的功能类别；

对所述多个测试样本文档进行预处理，得到多组测试二维数组；其中，每组测试二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；

使用所述多组测试二维数组对所述功能类别识别模型进行测试；

根据所述测试二维数组包括的功能类别二维数组与所述功能类别识别模型根据功能名称文本二维数组输出的功能类别二维数组中相等元素的占比，计算出所述功能类别识别模型的准确率；

如果所述准确率小于准确率阈值，则对所述功能类别识别模型进行更新；

其中，所述对所述多个训练样本文档进行预处理，得到多组训练二维数组，包括：

生成与功能类别识别对应的词典向量，所述词典向量中与每种功能类别匹配的关键词的数量相等；

根据所述词典向量，分别对所述多个训练样本文档进行处理，对应得到多组训练二维数组；

其中，所述根据所述词典向量，分别对所述多个训练样本文档进行处理，对应得到多组训练二维数组，包括：

根据与行数相等的多个所述第一目标向量，生成训练二维数组中包括的功能名称文本二维数组，并根据与行数相等的多个所述第二目标向量，生成与所述功能名称文本二维数组对应的功能类别二维数组，所述功能名称文本二维数组列数与所述词典向量中的关键词数量相等。

2.根据权利要求1所述的方法，其特征在于，所述功能类别包括：

内部逻辑文件、外部接口文件、外部输入、外部输出和外部查询。

3.根据权利要求1所述的方法，其特征在于，生成与功能类别识别对应的词典向量，包括：

根据词频和逆文档频率确定与功能类别识别对应的多个关键词；

根据所述多个关键词生成所述词典向量。

4.根据权利要求3所述的方法，其特征在于，根据词频和逆文档频率确定与功能类别识别对应的多个关键词，包括：

针对每种功能类别，根据词频和逆文档频率确定设定数量个与所述功能类别匹配的关键词。

5.根据权利要求1所述的方法，其特征在于，在根据所述词典向量，分别对所述多个训练样本文档进行处理之前，还包括：

对所述多个训练样本文档每行中的功能名称进行分词处理。

6.根据权利要求1所述的方法，其特征在于，对所述功能类别识别模型进行更新，包括：

获取多个增量样本文档；其中，每个所述增量样本文档中包括多行训练样本数据，每行训练样本数据中包括功能名称以及对应的功能类别；

对所述多个增量样本文档进行预处理，得到多组增量二维数组；其中，每组增量二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；

使用所述多组增量二维数组对所述功能类别识别模型进行更新。

7.一种功能点评估法中功能类别的识别装置，其特征在于，包括：

功能类别识别模块，设置为根据预先训练得到的功能类别识别模型，确定与所述目标功能名称对应的目标功能类别；

训练样本预处理模块，设置为对所述多个训练样本文档进行预处理，得到多组训练二维数组；其中，每组训练二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组，所述功能名称二维数据行数与所述训练样本文档的行数相等，所述功能名称文本二维数据中每行元素用于指示匹配的一行训练样本数据中的功能名称，所述功能类别二维数组的行数与训练样本文档的行数相等，所述功能类别二维数组的列数与所述功能类别的种类数量相等，所述功能类别二维数组中每行元素用于指示匹配的一行训练样本数据中的功能类别；

模型训练生成模块，设置为使用TensorFlow工具，利用softmax回归函数对所述多组训练二维数组进行训练，得到所述功能类别识别模型；

模型测试模块，设置为在得到所述功能类别识别模型之后，获取多个测试样本文档；其中，每个所述测试样本文档中包括多行测试样本数据，每行测试样本数据中包括功能名称以及对应的功能类别；对所述多个测试样本文档进行预处理，得到多组测试二维数组；其中，每组测试二维数组中包括功能名称文本二维数组以及对应的功能类别二维数组；使用所述多组测试二维数组对所述功能类别识别模型进行测试；

模型准确率确定模块，设置为在使用所述多组测试二维数组对所述功能类别识别模型进行测试之后，根据所述测试二维数组包括的功能类别二维数组与所述功能类别识别模型根据功能名称文本二维数组输出的功能类别二维数组中相等元素的占比，计算出所述功能类别识别模型的准确率；

模型更新模块，设置为如果所述准确率小于准确率阈值，则对所述功能类别识别模型进行更新；

其中，所述训练样本预处理模块包括：词典向量生成单元和训练样本处理单元，其中，

词典向量生成单元，设置为生成与功能类别识别对应的词典向量，所述词典向量中与每种功能类别匹配的关键词的数量相等；

训练样本处理单元，设置为根据所述词典向量，分别对所述多个训练样本文档进行处理，对应得到多组训练二维数组；

所述训练样本处理单元，具体设置为针对每个所述训练样本文档，以行为单位，建立与所述词典向量维数相等的第一目标向量，以及维数与功能类别数量相等的第二目标向量；根据训练样本数据中功能名称与所述词典向量的匹配情况，对所述第一目标向量进行赋值，并根据与所述功能名称对应的功能类别，与所述第二目标向量进行赋值；根据与行数相等的多个所述第一目标向量，生成训练二维数组中包括的功能名称文本二维数组，并根据与行数相等的多个所述第二目标向量，生成与所述功能名称文本二维数组对应的功能类别二维数组，所述功能名称文本二维数组列数与所述词典向量中的关键词数量相等。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。