CN116383412B

CN116383412B - 基于知识图谱的功能点扩增方法和系统

Info

Publication number: CN116383412B
Application number: CN202310651342.9A
Authority: CN
Inventors: 胡贝贝; 刘禹; 夏晓凯; 杨晓; 牛婵; 孙悦
Original assignee: Beihang University; CETC Information Science Research Institute
Current assignee: Beihang University; CETC Information Science Research Institute
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-15
Anticipated expiration: 2043-06-05
Also published as: CN116383412A

Abstract

本发明属于软件分析技术领域，提供一种基于知识图谱的功能点扩增方法和系统，该方法包括：对现有功能点分析文本进行功能点实体抽取、知识关系抽取形成功能点三元组以构建功能点知识图谱，功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系；在接收到待处理文本时，识别所包含的功能点，确定所述功能点是否为搜索关键词；在所述功能点为搜索关键词时，执行遍历功能点知识图谱中有向实体节点之间的关系路径的步骤，在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列；根据知识图谱节点队列，进行功能点扩增。本发明实现了更有效的功能点的自动扩增过程，有效避免了功能点缺失的问题。

Description

基于知识图谱的功能点扩增方法和系统

技术领域

本发明涉及软件分析技术领域，尤其涉及一种基于知识图谱的功能点扩增方法和系统。

背景技术

功能点分析方法是用于度量软件成本的一种方法。功能点通常是指功能点分析方法中的五种功能点。目前，通常由专家人工提取。但近年来出现了一些功能点自动化提取技术，可自动从需求分析文本中提取功能点。然而，对需求分析文本中隐含描述的功能点，无论是专家人工提取还是现有自动提取方法都存在一定缺失功能点的情况。此外，现有自动提取方法还存在因受限于模型能力导致功能点缺失的问题。此外，在如何更有效提升自动提取功能点、扩展功能点方面仍存在很大进步空间。

因此，有必要提供一种基于知识图谱的功能点扩增方法，以解决上述问题。

发明内容

本发明意在提供一种基于知识图谱的功能点扩增方法和系统，以解决现有技术中现有人工提取方法和自动提取方法均存在功能点缺失的问题，如何更有效提升自动提取功能点、扩展功能点等的技术问题，本发明要解决的技术问题通过以下技术方案来实现。

本发明第一方面提出一种基于知识图谱的功能点扩增方法，包括：对现有功能点分析文本进行功能点实体抽取，所述功能点实体包括动词和/或名词；对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，所述功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系；在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词；在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，在遍历所述功能点知识图谱的过程中，基于BFS搜索算法构建知识图谱节点队列；根据所构建的知识图谱节点队列，进行功能点扩增。

根据可选的实施方式，所述在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，包括：

确定所述功能点知识图谱中与所述搜索关键词相对应的功能点实体节点，并将所确定的功能点实体节点作为起始节点，开始执行遍历所述功能点知识图谱的步骤，并重新执行所述功能点知识图谱的步骤，直至遍历完所有相关的关系路径。

根据可选的实施方式，所述在遍历所述功能点知识图谱的过程中，基于BFS搜索算法构建知识图谱节点队列，包括：

从起始节点开始，到起始节点、起始节点所指向的相邻实体节点、以及相邻实体节点所指向自身的相邻实体节点，直至将所有可达实体节点访问完成，逐一将访问到的相关实体节点增加到知识图谱节点队列。

根据可选的实施方式，基于BFS搜索算法，搜索所有可达实体节点；实时确定更新参数，以更新所述知识图谱节点队列中的实体节点。

根据可选的实施方式，根据所构建的知识图谱节点队列，将所述知识图谱节点队列中实体节点所对应的实体替换成新的关键词，得到新的功能点集合，并输出功能点集合。

根据可选的实施方式，在对现有功能点分析文本进行功能点实体抽取之前，使用预先建立的自动抽取模型，对现有功能点分析文本进行自动功能点抽取，其中，

基于Bert-BiLSTM-CRF算法，构建自动抽取模型，所述构建自动抽取模型包括在多次模型验证过程中优化模型参数、在模型测试过程中优化模型参数。

根据可选的实施方式，在识别待处理文本中所包含的功能点之前，根据使用频率、外部输入、外部输出、外部查询，确定以下关键词：查询、添加、修改、删除、获取。

根据可选的实施方式，所述对现有功能点分析文本进行功能点实体抽取，包括：抽取与数据功能中内部逻辑文件相关的第一类实体，所述第一类实体为与内部逻辑文件相关的名词；抽取与数据功能中外部逻辑文件相关的第二类实体，所述第二类实体为与外部逻辑文件相关的名词；抽取与事务功能中外部输入、外部查询、外部输出相关的第三类实体，所述第三类实体为与功能点操作相关的动词；抽取组合实体，得到第四类实体，所述第四类实体为动词和名词的组合实体。

根据可选的实施方式，所述对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，包括：对现有功能点分析文本中表示不同种类、不同操作的功能点之间的内在联系进行知识关系抽取，得到以下多种关系以用于表示实体节点之间单向或双向的边：典型关系、作用关系、泛化关系、同义关系、共存关系。

本发明第二方面提出一种基于知识图谱的功能点扩增系统，采用本发明第一所述的基于知识图谱的功能点扩增方法，包括：实体抽取模块，用于对现有功能点分析文本进行功能点实体抽取，所述功能点实体包括动词和/或名词；关系抽取模块，用于对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，所述功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系；接收处理模块，用于在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词；构建模块，在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径，在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列；扩增模块，根据所构建的知识图谱节点队列，进行功能点扩增。

本发明第三方面提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的方法。

本发明第四方面提供一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

本发明实施例包括以下优点：

与现有技术相比，本发明通过对现有功能点分析文本进行功能点实体抽取、知识关系抽取，形成功能点三元组以构建功能点知识图谱，能够得到更精确的且包含功能点三元组的功能点知识图谱；在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词以确定是否执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，并在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列，进而根据所构建的知识图谱节点队列，进行功能点扩增，能够更快速且更有效地实现功能点的自动扩增过程，能够有效避免功能点缺失的问题。

此外，基于BFS搜索算法，搜索所有可达实体节点，通过实时确定更新参数，以更新所述知识图谱节点队列中的实体节点，能够得到可信度更高的知识图谱节点队列，能够进一步优化功能点扩展方法。

此外，基于Bert-BiLSTM-CRF的算法，构建自动抽取模型，通过使用自动抽取模型对现有功能点分析文本进行功能点的自动抽取，能够更快速且更有效进行功能点抽取，能够进一步优化功能点扩展方法。

附图说明

图1是本发明的基于知识图谱的功能点扩增方法的一示例的步骤流程图；

图2是应用本发明的基于知识图谱的功能点扩增方法的一示例的示意图；

图3是根据本发明的基于知识图谱的功能点扩增方法中执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤的一示例的流程示意图；

图4是本发明的基于知识图谱的功能点扩增系统的结构框图；

图5是根据本发明的电子设备实施例的结构示意图；

图6是根据本发明的计算机可读介质实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

鉴于上述问题，本发明提出一种基于知识图谱的功能点扩增方法，通过对现有功能点分析文本进行功能点实体抽取、知识关系抽取，形成功能点三元组以构建功能点知识图谱，能够得到更精确的且包含功能点三元组的功能点知识图谱；在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词，以确定是否执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，并在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列，进而根据所构建的知识图谱节点队列，进行功能点扩增，能够更快速且更有效地实现功能点的自动扩增过程，能够有效避免功能点缺失的问题。

图1是本发明的基于知识图谱的功能点扩增方法的一示例的步骤流程图。

下面参照图1至图3，将对本发明的内容进行详细说明。

首先，在步骤S101中，对现有功能点分析文本进行功能点实体抽取，所述功能点实体包括动词和/或名词。

对于功能点实体抽取，具体包括抽取第一类实体、第二类实体、第三类实体和第四类实体，这些实体均为功能点实体，其中，第三类实体包括三种实体的类别标签。

例如采用哈希树识别功能点文本中的各实体，并抽取与数据功能中内部逻辑文件相关的第一类实体，所述第一类实体为与内部逻辑文件相关的名词。具体可参见下表1所示的数据库中的表、文件，例如为“商品订单表”，“用户信息表”等。

接着，抽取与数据功能中外部逻辑文件相关的第二类实体，所述第二类实体为与外部逻辑文件相关的名词。例如数据交换所要存储的引用文件。

表 1

表1示出了功能点的分类、名称、及各类功能点所表示的含义。

需要说明的是，由于内部逻辑文件和外部接口文件不具有共有性特征，因而将两种文件分别抽取实体，并分别以ILF和EIF表示与于内部逻辑文件和外部接口文件相关的实体的类别标签。

接着，抽取与事务功能中外部输入相关的第三类实体，所述第三类实体为与外部输入相关（即与功能点操作相关）的动词，使用EI表征与外部输入相关的实体的类标标签。例如为“添加”、“修改”、“删除”，具体参见下表2，表2示出了功能点类别与各实体的对应关系。

此外，抽取与事务功能中外部查询相关的第三类实体，所述第三类实体为与外部查询相关（即与功能点操作相关）的动词，使用EQ表征与外部查询相关的实体的类标标签。例如为“查询”、“获取”，具体参见下表2。

此外，抽取与事务功能中外部输出相关的第三类实体，所述第三类实体为与外部输出相关（即与功能点操作相关）的动词，使用EO表征与外部输出相关的实体的类标标签。例如为“推荐”、“导出”、“统计”、“打印”、“生成”，具体参见下表2。

表 2

表2示出了功能点类别与各实体的对应关系的示例。

在一可选实施方式中，通过实体识别算法将所抽取的各类实体对应的词进行“实体消歧”（解决多词一义等问题），即可识别与该词的语义相同或相似的同义词，并将该词及其同义词对应到（或者映射到）同一实体。

需要说明的是，由于文字表述的差异，不同的词汇表达可能具有相同的语义，比如“添加”和“增加”，则“添加”和“增加”表示同一实体。对于具有相同语义的同义词，具体可参见表3。

表3

表3示出了各实体及其同义实体之间的关系的示例。

进一步地，还包括抽取组合实体，得到第四类实体，所述第四类实体为动词和名词的组合实体。例如，第一类实体与第三类实体的组合实体、第二类实体与第三类实体的组合实体等等。例如，“查询ILF”、“获取EIF”、“删除ILF”、“修改ILF”、“添加ILF”等。

可选地，对于功能点类别，还包括建立与各功能点类别相对应对应的名称字典（例如使用synonym表示，其中，名称字典中的key代表同义实体，名称字典的value代表原始实体，具体参见上表3。

具体地，名称字典包括key列和value列两列，具有对应关系的实体关系，其中key列中为同义实体，value列中为原始实体（与位于key列的各同义实体属于同一行的各同义实体相对应的原始实体，具体可参见表3。若实体（即所识别的功能点）无同义关系，则位于key列和value列且属于同一行的实体均为原始实体。若实体（即所识别的功能点）有同义关系，则位于key列的实体为同义实体，位于value列且与同义实体（位于key列）属于同一行的实体为原始实体。

在一具体实施方式中，根据上述名称字典中的同义实体查询原始实体，再根据后续所构建的功能点知识图谱中的原始实体进行扩增。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S102中，对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，所述功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系。

具体地，例如使用正则匹配方法进行知识关系抽取，并对所抽取的所有知识关系进行统计分析，计算指定时间段内关系类别的数量，取排序靠前特定数量，例如前七位的关系类别。

例如，对现有功能点分析文本中表示不同种类、不同操作的功能点之间以及各种操作与不同功能点之间的内在联系进行知识关系抽取，得到以下多种关系以用于表示功能点知识图谱中相邻的实体节点之间的边关系，并且边关系为单向或双向。即，使用关系类别表示不同的边关系。

具体关系类别包括典型关系、作用关系、泛化关系、同义关系、共存关系，具体参见下表4。

表4

接着，根据步骤S102所抽取的各类实体、所抽取的实体和实体之间的知识关系（包括单向关系和双向关系），形成功能点三元组（具体可参见表5），以构建功能点知识图谱。

表5

具体地，所构建的功能点知识图谱中的关系图是由实体节点（即功能点实体节点，具体为与各功能点实体相对应的功能点实体节点）和有向关系边构成的，具体包括功能点实体节点（也简称为实体节点）、边关系、功能点实体节点。

接下来，在步骤S103中，在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词。

在一优选实施方式中，在识别待处理文本中所包含的功能点之前，根据使用频率、外部输入、外部输出、外部查询，确定以下搜索关键词（也简称为关键词）：查询、添加、修改、删除、获取。将所确定的关键词作为遍历知识图谱中各关系路径的搜索关键词，并作为起始点。

具体地，例如，根据使用频率，从第三类实体中筛选上述关键词。

将从待处理文本中所识别的功能点和关键词进行匹配，以确定所识别的功能点是否为搜索关键词，以用于进一步根据搜索关键词确定遍历功能点知识图谱的起始节点。

具体从待处理文本中所识别的功能点的首位开始，采用文本匹配方法确定是否为搜索关键词。例如输入“添加订单”，首先，匹配所有搜索关键词（例如第一个“查询”，其长度为2），则从“添加订单”中的第一个字（或词）开始，选取长度为2的文本得到“添加”，与所有关键词中的第一个关键词进行匹配，并按序以此匹配每一个关键词，在已匹配成功时，确定所匹配得到的关键词。在未匹配成功时，确定所识别的功能点不是搜索关键词。

例如“添加”不等于“查询”（即未匹配成功），所以与搜索关键词“查询”不匹配；接着匹配第二个搜索关键词“添加”，此时输入中的功能点“添加”与搜索关键词“添加”匹配成功，确定所识别的功能点是搜索关键词。

图2是应用本发明的基于知识图谱的功能点扩增方法的一示例的示意图。

如图2所示，以待处理文本为“推荐商品”为例来进行说明。

在接收到“推荐商品”时，确定“推荐商品”是否包含关键词，所述“推荐商品”中包含“推荐”，则根据“推荐”（即搜索关键词）确定遍历功能点知识图谱的起始节点，如使用图2中的EO（即类别标签）作为“推荐”的相对应的起始点，其中使用EO表征“推荐”所属实体类别的类别标签。从起始点EO开始，开始遍历功能点知识图谱。此外，还确定剩余文本中的新实体，具体为“商品”。

在另一实施方式中，在确定所识别的功能点不是搜索关键词时，将所述功能点与所有搜索关键词的同义词进行匹配，以再次确定所述功能点是否为各搜索关键的同义词。在确定所述功能点是某个搜索关键的同义词时，最终确定所述功能点是搜索关键词。而在确定所述功能点不是某个搜索关键的同义词时，最终确定所述功能点不是搜索关键词。

接下来，在步骤S104中，在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列。

具体地，在所识别的功能点为搜索关键词时，根据搜索关键词确定遍历功能点知识图谱的起始节点，以开始执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤。

在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，具体包括以下步骤。

步骤S301：确定所述功能点知识图谱中与所述搜索关键词相对应的功能点实体节点，并将所确定的功能点实体节点作为起始节点。

需要说明的是，在本发明中，功能点实体节点也简称为实体节点。

步骤S302：重复执行遍历所述功能点知识图谱中从起始点开始且包含搜索关键词的关系路径，直至遍历完所有相关的关系路径。

在一可选实施方式中，在执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤之前，预处理功能点知识图谱中的各三元组所对应的三元组文件，得到所有实体节点集合（例如使用nodes表示），以及各实体类别所对应的类别标签，并构建名称字典，具体可参见表3。

在图2所示的示例中，例如根据“推荐”所确定的遍历功能点知识图谱的起始节点为EO，在从EO开始，执行遍历功能点知识图谱中与“推荐”相关的所有关系路径，具体包括以下五条关系路径：EO→推荐→ILF，EO→推荐→ILF↔查询ILF，EO→推荐→ILF↔查询ILF→添加ILF，EO→推荐→ILF↔查询ILF→删除ILF，EO→推荐→ILF↔查询ILF→修改ILF。通过重复执行遍历所述功能点知识图谱中从起始点开始且包含搜索关键词的关系路径，直至遍历完所有相关的关系路径，能够更有效完成遍历步骤，并更快速获得所有相关关系路径。

具体地，从起始节点开始，到起始节点、起始节点所指向的相邻实体节点、以及相邻实体节点所指向自身的相邻实体节点，直至将所有可达实体节点访问完成，逐一将访问到的相关实体节点增加到知识图谱节点队列。例如，得到知识图谱节点队列[“ILF”,“查询ILF”，“删除ILF”，“修改ILF”，“添加ILF”]。

在另一实施方式中，例如，输入“查询订单”，根据所输入的“查询订单”，确定包含搜索关键词“查询”，并且“查询订单”为组合实体（即第四类实体），由此确定所述功能点知识图谱中与所述搜索关键词相对应的功能点实体节点（例如图2中的EQ），并将所确定的功能点实体节点（即EQ所表示的实体节点）作为起始节点。

在所识别的功能点是搜索关键词（例如是“查询”）且所识别的功能点是组合实体（例如为“查询订单”）的情况下，将知识图谱中组合实体节点对应的实体节点（例如图2中的“查询ILF”）中除了搜索关键词以外的剩余文字（例如“订单”）替换（例如将“ILF”替换为“订单”），得到新的组合实体（例如“查询订单”），并将“查询订单”与“查询ILF”的实体节点等同，将在功能点知识图谱中的实体节点“查询ILF”作为另一起始节点，执行遍历功能点知识图谱中与实体节点“查询ILF”相关的所有关系路径。具体从“查询ILF”开始，例如使用BFS算法遍历，遍历得到相邻实体节点“删除ILF”、“修改ILF”和“添加ILF”,并将这些相邻实体节点加入知识图谱节点队列。再将“ILF”用“订单”替换，得到知识图谱节点队列[“查询订单”“删除订单”、“修改订单”和“添加订单”]。

接下来，在步骤S105中，根据所构建的知识图谱节点队列，进行功能点扩增。

根据所构建的知识图谱节点队列，将所述知识图谱节点队列中实体节点所对应的实体替换成新的关键词，得到新的功能点集合，并输出所述新的功能点集合。

在上述“推荐商品”的示例中，将新实体“商品”作为新的关键词替换知识图谱节点队列中实体节点所对应的实体（即“ILF”），则得到新的功能点集合[“商品”,“查询商品”，“删除商品”，“修改商品”，“添加商品”]。

接着，输出所得到的新的功能点集合，以完成功能点扩增。

为了进一步优化本发明的功能点扩增方法，在从一个功能点扩增到其余功能点所经过的路径数目很大的情况下，也能够获得高可信度的所有功能点。从起始功能点扩增得到的功能点所经过的关系路径的数量、以及各关系路径的可信度方面出发，来进一步优化功能点扩增方法权重。

在一示例中，基于BFS搜索算法，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤。

具体包括以下步骤。

步骤S401：基于BFS搜索算法，搜索所有可达实体节点。

对于确定所有可达实体节点，功能点知识图谱中各实体节点均对应有可信阈值，所述可信阈值用于与使用以下表达式（1）所计算的各实体节点的累计权重值进行比较，以确定是否是可达实体节点。

具体使用以下表达式计算各实体节点的累计权重值：

其中，/>表示实体节点N_n的累计权重值；n表示经过节点的数量；/>表示从实体节点 N₁开始到达实体节点 N_n所经历的n-1条路径的权重乘积；W₁表示从实体节点N₁开始所经历的第1条边的权重；W₂表示从实体节点 N₁开始所经历的第2条边的权重；W₃表示从实体节点 N₁开始所经历的第3条边的权重；W_n-1表示从实体节点N₁开始所经历的第n-1条边的权重，也即最后一条边的权重。

需要说明的是，所述可信阈值例如通过各指定领域的历史数据统计分析得到，或者专家设置等。

步骤S402：实时确定更新参数，以更新所述知识图谱节点队列中的实体节点。

具体计算中每一条关系路径中各实体节点的累计权重值，将各实体节点的累计权重值与预设阈值（即可信阈值）进行比较，并确定累计权重值最大的一条关系路径（即最大关系路径），具体包括将所计算的累计权重值大于等于预设阈值的实体节点增加到知识图谱节点队列，将小于预设阈值的实体节点删去，并将未在最大关系路径上的实体节点删去，以实时更新所述知识图谱节点队列中相关实体节点，进而得到包含多个实体节点（即包含功能点集合）的知识图谱节点队列。

对于各实体节点的累计权重值，使用上述表达式（1）进行计算。例如，为每条关系路径中的起始节点赋予如（0，1]的权重值，各实体节点的累计权重值即是从起始节点到各实体节点经过所有路径的边关系的权重值的乘积。

需要说明的是，某一实体节点的累计权重值代表从起始节点遍历（访问或搜索）到所述某一实体节点（例如实体节点“修改ILF”）的关系路径的权重乘积（即累计权重值），对于该实体节点（例如实体节点“修改ILF”）所代表的功能点，累计权重值表示该功能点的可信程度，累计权重值越大，可信程度越高。当某一实体节点从起始节点开始，有两条关系路径时，就会对应有两个累计权重值，取累计权重值最大的关系路径，即取最大关系路径上的实体节点，因为最大关系路径上的实体节点所代表的功能点的可信度高。

在一可选实施方式中，根据待处理文本及其所包含的功能点，确定应用场景参数（即更新参数）。

根据所述应用场景参数（例如与电子商务、社交媒体、游戏娱乐等相关的参数），实时更新功能点知识图谱中各实体节点的可信阈值。

需要说明的是，在其他实施方式中，实时确定应用场景参数、与起始节点相关的所有关系路径的数量（即更新参数）。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

在另一示例中，所述在对现有功能点分析文本进行功能点实体抽取之前，使用预先建立的自动抽取模型，对现有功能点分析文本进行功能点的自动抽取。

基于Bert-BiLSTM-CRF的算法，构建自动抽取模型，使用自动抽取模型对现有功能点分析文本进行功能点的自动抽取。

首先，从例如github、gitlab、博客园和中国知网等公共渠道获取需求分析文本、软件设计文本和系统设计文本（例如约900篇），以及获取现有已知的功能点，得到数据集。

接着，建立功能点标签集合，根据所述功能点标签，将上述数据集中指定比例（例如112:243，2:5，1:2等）的样本数据（例如112万字的需求分析文本）进行功能点标注，得到标注数据集（也称为第一数据集），并将所述数据集中剩余的样本数据（例如243万字）用于生成伪标签，得到未标注数据集（也称为第二数据集），所述功能点标签集合包括以下各功能点标签：使用ILF表示的第一类标签、使用EIF表示的第二类标签、使用EI表示的第三类标签、使用EQ表示的第四类标签、使用EO表示的第五类标签。

将所述数据集中需求分析文本，按照特定比例划分成训练集、验证集和测试集。

接着，构建Bert层、BiLSTM层和CRF层，以构建所述自动提取模型。

根据训练数据集中的样本数据的长度n，确定将生成的词向量的维度，具体将长度为n的样本数据输入Bert层，生成n*特定值的维度的第一向量所述特定值的范围为，n的范围大于0并且小于等于512。

将所述第一向量输入BiLSTM层，得到进行处理以建立n个向量之间的前后文联系，得到与待处理文本相对应的序列语义信息。再将BiLSTM层所得到的序列语义信息输入CRF层，输出所述待处理文本中所包含的功能点以及各功能点所属的功能点类别。

优选地，根据标注数据集（即第一数据集）和未标注数据集（即第二数据集）的数量，确定训练轮次和再训练轮次。根据所确定的训练轮次，使用由第一数据集所划分的训练集对自动提取模型进行训练得到初步的自动提取模型。根据所确定的再训练轮次，使用未标注数据集（即第二数据集）对初步的自动提取模型进行追加训练。

在多次模型验证过程中优化模型参数，具体包括根据训练过程中准确率和损失值的变化情况更新训练轮次和再训练轮次，以在多次模型验证过程中优化模型参数。

在模型测试过程中优化模型参数，具体包括根据再训练过程中准确率和损失值的变化情况更新再训练轮次，以在模型测试过程中优化模型参数。

通过构建自动抽取模型，并使用优化模型参数的自动抽取模型抽取功能点，更快速且更有效进行功能点抽取，能够进一步优化功能点扩展方法。

此外，附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以例如在多个模块中同步或异步执行的。

下述为本发明系统实施例，可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节，请参照本发明方法实施例。

图4是根据本发明的基于知识图谱的功能点扩增系统的一示例的结构示意图。

参照图4，本公开第二方面提供一种基于知识图谱的功能点扩增系统400，采用本发明第一方面所述的基于知识图谱的功能点扩增方法。具体地，所述功能点扩增系统400包括实体抽取模块410、关系抽取模块420、接收处理模块430、构建模块440和扩增模块450。

具体地，实体抽取模块410用于对现有功能点分析文本进行功能点实体抽取，所述功能点实体包括动词和/或名词。关系抽取模块420用于对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，所述功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系。接收处理模块430用于在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词。构建模块440在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径，在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列。扩增模块450根据所构建的知识图谱节点队列，进行功能点扩增。

在一可选实施方式中，所述功能点扩增系统400还包括确定模块，所述确定模块用于确定所述功能点知识图谱中与所述搜索关键词相对应的功能点实体节点，并将所确定的功能点实体节点作为起始节点，开始执行遍历所述功能点知识图谱的步骤，并重新执行所述功能点知识图谱的步骤，直至遍历完所有相关的关系路径。

所述在遍历所述功能点知识图谱的过程中，基于BFS搜索算法构建知识图谱节点队列，包括：从起始节点开始，到起始节点、起始节点所指向的相邻实体节点、以及相邻节点所指向自身的相邻实体节点，直至将所有可达实体节点访问完成，逐一将访问到的相关实体节点增加到知识图谱节点队列。

基于BFS搜索算法，搜索所有可达实体节点；实时确定更新参数，以更新所述知识图谱节点队列中的实体节点。

接着，根据所构建的知识图谱节点队列，将所述知识图谱节点队列中实体节点所对应的实体替换成新的关键词，得到新的功能点集合，并输出功能点集合。

在一可选实施方式中，在对现有功能点分析文本进行功能点实体抽取之前，使用预先建立的自动抽取模型，对现有功能点分析文本进行自动功能点抽取，其中，基于Bert-BiLSTM-CRF算法，构建自动抽取模型，所述构建自动抽取模型包括在多次模型验证过程中优化模型参数、在模型测试过程中优化模型参数。

在一可选实施方式中，在识别待处理文本中所包含的功能点之前，根据使用频率、外部输入、外部输出、外部查询，确定以下关键词：查询、添加、修改、删除、获取。

所述对现有功能点分析文本进行功能点实体抽取，包括：抽取与数据功能中内部逻辑文件相关的第一类实体，所述第一类实体为与内部逻辑文件相关的名词；抽取与数据功能中外部逻辑文件相关的第二类实体，所述第二类实体为与外部逻辑文件相关的名词；抽取与事务功能中外部输入、外部查询、外部输出相关的第三类实体，所述第三类实体为与功能点操作相关的动词；抽取组合实体，得到第四类实体，所述第四类实体为动词和名词的组合实体。

接着，所述对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，包括：对现有功能点分析文本中表示不同种类、不同操作的功能点之间的内在联系进行知识关系抽取，得到以下多种关系以用于表示实体节点之间单向或双向的边：典型关系、作用关系、泛化关系、同义关系、共存关系。

图5是根据本发明的电子设备实施例的结构示意图。

如图5所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可执行程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元（RAM）和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元（ROM）。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图5显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图6所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序（例如计算机可执行程序），当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现本公开的数据交互方法。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于知识图谱的功能点扩增方法，其特征在于，包括：

对现有功能点分析文本进行功能点实体抽取，所述功能点实体包括动词和/或名词；

对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，所述功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系；

在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词；在识别待处理文本中所包含的功能点之前，根据使用频率、外部输入、外部输出、外部查询，确定以下关键词：查询、添加、修改、删除、获取；

在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列；基于BFS搜索算法，搜索所有可达实体节点；实时确定更新参数，以更新所述知识图谱节点队列中的实体节点；

根据更新后的知识图谱节点队列，进行功能点扩增，将所述知识图谱节点队列中实体节点所对应的实体替换成新的关键词，得到新的功能点集合，并输出所述新的功能点集合。

2.根据权利要求1所述的基于知识图谱的功能点扩增方法，其特征在于，所述在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径的步骤，包括：

3.根据权利要求1或2所述的基于知识图谱的功能点扩增方法，其特征在于，所述在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列，包括：

4.根据权利要求1或2所述的基于知识图谱的功能点扩增方法，其特征在于，

在对现有功能点分析文本进行功能点实体抽取之前，使用预先建立的自动抽取模型，对现有功能点分析文本进行自动功能点抽取，其中，

5.根据权利要求1所述的基于知识图谱的功能点扩增方法，其特征在于，所述对现有功能点分析文本进行功能点实体抽取，包括：

抽取与数据功能中内部逻辑文件相关的第一类实体，所述第一类实体为与内部逻辑文件相关的名词；

抽取与数据功能中外部逻辑文件相关的第二类实体，所述第二类实体为与外部逻辑文件相关的名词；

抽取与事务功能中外部输入、外部查询、外部输出相关的第三类实体，所述第三类实体为与功能点操作相关的动词；

抽取组合实体，得到第四类实体，所述第四类实体为动词和名词的组合实体。

6.根据权利要求1所述的基于知识图谱的功能点扩增方法，其特征在于，

所述对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，包括：

对现有功能点分析文本中表示不同种类、不同操作的功能点之间的内在联系进行知识关系抽取，得到以下多种关系以用于表示实体节点之间单向或双向的边：

典型关系、作用关系、泛化关系、同义关系、共存关系。

7.一种基于知识图谱的功能点扩增系统，采用权利要求1、2和6中任一项所述的基于知识图谱的功能点扩增方法，其特征在于，包括：

实体抽取模块，用于对现有功能点分析文本进行功能点实体抽取，所述功能点实体包括动词和/或名词；

关系抽取模块，用于对现有功能点分析文本进行知识关系抽取，形成功能点三元组以构建功能点知识图谱，所述功能点三元组包括与功能点实体相对应的实体节点、相邻实体节点之间的单向关系或双向关系；

接收处理模块，用于在接收到待处理文本时，识别所包含的功能点，确定所识别的功能点是否为搜索关键词；在识别待处理文本中所包含的功能点之前，根据使用频率、外部输入、外部输出、外部查询，确定以下关键词：查询、添加、修改、删除、获取；

构建模块，在所识别的功能点为搜索关键词时，执行遍历所述功能点知识图谱中有向实体节点之间的关系路径，在遍历所述功能点知识图谱的过程中，构建知识图谱节点队列；基于BFS搜索算法，搜索所有可达实体节点；实时确定更新参数，以更新所述知识图谱节点队列中的实体节点；

扩增模块，根据更新后的知识图谱节点队列，进行功能点扩增，将所述知识图谱节点队列中实体节点所对应的实体替换成新的关键词，得到新的功能点集合，并输出所述新的功能点集合。