CN109271527A - 一种需求功能点智能识别方法 - Google Patents
一种需求功能点智能识别方法 Download PDFInfo
- Publication number
- CN109271527A CN109271527A CN201811132200.7A CN201811132200A CN109271527A CN 109271527 A CN109271527 A CN 109271527A CN 201811132200 A CN201811132200 A CN 201811132200A CN 109271527 A CN109271527 A CN 109271527A
- Authority
- CN
- China
- Prior art keywords
- requirement specification
- specification book
- function point
- analysis result
- recognition methods
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种需求功能点识别方法,包括如下步骤:将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级需求规格书;将所述初级需求规格书进行分词、词性标注、命名实体识别,产生词法分析结果;将所述词法分析结果进行句法分析,产生句法分析结果;根据所述句法分析结果进行功能点识别,并统计功能点类别和数量。本发明通过结合自然语言处理(NLP)技术对需求规格书进行智能分析,实现对需求规格书所含功能的准确快速统计,代替人工分析,提高效率,降低成本。
Description
技术领域
本发明涉及自然语言处理和软件工程秀分析领域,特别涉及一种需求功能点智能识别方法。
背景技术
在传统的需求功能点评估领域,功能点的判断识别有两种处理情况,其一,不将功能点识别纳入考虑范围,不去评估这些功能所代表的工作量与价值,导致软件的外包定制存在不统一的价格要求与时间要求。其二,软件功能评估依靠人工分析来识别。因为需求规格书往往多达百页,甚至更多。所以,这种以人工为主的做法,不仅需要资深的领域专家介入,而且非常的耗费时间和精力。间接的增加了软件工程的环节,增加了软件开发的费用。同时人工分析存在不确定性,不稳定性。这些原因导致需求功能点识别不够智能和高效。
随着社会生产领域大量的软件需求的出现,需求规格书也急速增加,而针对软件功能评估人才还很缺乏。大量的需求功能识别评估工作,亟须一种自动而又智能的方法来处理。
发明内容
本发明的目的是通过以下技术方案实现的。为处理上述问题,本发明构造一种基于自然语言处理(NLP)技术的功能点智能识别方法。本发明构造的智能方法可有效挖掘需求规格书中的功能点,通过结合NLP技术对需求规格书逐段,逐句,逐词的拆解分析。挖掘出每一个词的词性,识别句子中的命名实体和提取出句子中各个部分之间的依存关系,通过句法关系匹配和关键词匹配,最终实现功能点的识别并归类。减少人类分析提取的低效和不稳定性。
一种需求功能点识别方法,其特征在于,包括如下步骤:
将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级需求规格书;
将所述初级需求规格书进行分词、词性标注、命名实体识别,产生词法分析结果;
将所述词法分析结果进行句法分析,产生句法分析结果;
根据所述句法分析结果进行功能点识别,并统计功能点类别和数量。
优选地,需求规格书为需要分析的中文版的需求规格书,利用Lucene框架将所述需求规格书进行段落拆分。
优选地,将所述初级需求规格书进行分词、词性标注、命名实体识别,包括如下步骤:
采用基于最大熵分词方法,将字符串频率统计和字符串匹配结合;
采用基于最大熵的词性标注方法,以高频词性为依据进行标注;
采用条件随机场算法作为判别式概率模型。
优选地,采用神经网络模型进行所述分词、词性标注、命名实体识别。
优选地,利用AC多模式匹配算法实现分词,或者利用基于所述需求规格书中的自定义词典进行分词,所述分词策略采用字典词汇最长匹配原则。
优选地,句法分析包括:句子中词语的依赖关系分析、搭配关系分析。
优选地,句法分析利用基于最大熵模型的最大生成树算法进行所述需求规格书的中文依存句法的分析,最大熵依存利用条件概率模型,将所有依存关系概率的累积作为目标函数的打分,取打分最大的依存关系树作为输出,所述依存关系树属于所述句法分析结果。
优选地,句法分析结果以CoNLL格式输出,所述句法分析结果包括:当前词语在句子中的序号、当前词的词性、当前词语的句法特征、前词语的中心词、当前词语与中心词语的依存关系。
优选地,功能点识别根据所述句法分析结果、自定义的功能点关键词、自定义的目标匹配关系,精细匹配功能点,最终统计并分类输出。
优选地,自定义的目标匹配关系包括:主谓关系、定中关系、动宾关系。
本发明的优点在于:基于自然语言处理,其中的词法分析,句法分析所依据的神经网络模型,可以不断学习分析过的文档,具有自主进化能力,不断提高处理的准确率。该发明有效提高文档功能点挖掘的效率,降低成本。将人类从文档分析挖掘中解放出来。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的功能点识别方法的示意图;
附图2示出了根据本发明实施方式的功能点识别方法的分词步骤图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提出一种需求功能点识别方法,如图1所示,包括:将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级需求规格书。将所述初级需求规格书进行分词、词性标注、命名实体识别,产生词法分析结果。基于神经网络训练的模型,将词法分析结果进行句法分析,句产生句法分析结果,法分析包括:句子中词语的依赖关系分析、搭配关系分析。利用句法分析结果,根据规定的句子成分搭配关系和功能词库,进行功能点识别,并统计功能点类别和数量。
本发明提出的功能点智能识别方法基于自然语言处理(NLP),基于Lucene框架将整个需求规格书提取为结构化的段落,剔除图表和多级标题。实现对原生需求规格书的初步信息提取和处理。需求规格书为需要分析的中文版的需求规格书。
需求规格书预处理,自动的读入文档数据,采用SVM的理论打分判断文本相似性,基于TF-IDF理论评价词语的重要性,不仅考虑词在文档中的频率,也考虑词在整个文档中的区分度;这些方法有效提高预处理的速度和准确度,当文档页数多的时候,处理用时间明显缩短。
基于自然语言处理(NLP)的功能点智能识别方法中,利用神经网络模型,对句子进行拆分,词性标注,命名实体识别。如图2所示,在分词方面,采用基于最大熵分词方法,该方法将字符串频率统计和字符串匹配结合起来,提高匹配分词的切分速度。在词性标注上,采用基于最大熵的词性标注方法,以高频词性为依据实现标注的准确性;在命名实体识别上,采用条件随机场(CRF)算法,作为判别式概率模型有很强的特征融入能力,该方法可以有效提高命名实体识别的准确率。
采用基于最大熵分词方法,将字符串频率统计和字符串匹配结合,提高匹配分词的切分速度;采用基于最大熵的词性标注方法,以高频词性为依据实现标注的准确性;采用条件随机场算法作为判别式概率模型有很强的特征融入能力,提高命名实体识别的准确率。采用神经网络模型进行分词、词性标注、命名实体识别。利用AC多模式匹配算法实现分词,或者利用基于所述需求规格书中的自定义词典进行分词,所述分词策略采用字典词汇最长匹配原则。
基于自然语言处理(NLP)的功能点智能识别方法中,利用AC多模式匹配算法将自定义字典中词语和文档中待切分句子进行匹配分词,该算法时间复杂度低,可以有效减少匹配分词时间,提高分词速度。
基于自然语言处理(NLP)的功能点智能识别方法中,句法分析利用最大熵模型估计任意两个单词之间最可能的依存关系以及概率,最大熵中的约束通过特征函数来实现,特征函数的使用解决长距离依存问题,提高句法分析的准确率。最大生成树算法在解析时,使用最大生成树搜索整句的最优依存树,具有全局性,能有效提高句法依存分析的准确率。
基于自然语言处理(NLP)的功能点智能识别方法中,句法分析通过输出CoNLL格式的分析结果,这种结构化的数据形式可以方便功能点分析根据功能分析的不同侧重点进行方便的匹配。句法分析结果包括:当前词语在句子中的序号、当前词的词性、当前词语的句法特征、前词语的中心词、当前词语与中心词语的依存关系。
利用句法分析结果,根据所述句法分析结果、自定义的功能点关键词、自定义的目标匹配关系,精细匹配功能点,最终统计并分类输出。自定义的目标匹配关系包括:主谓关系、定中关系、动宾关系。自定义的功能点关键词,将含有指定关系和指定关键词的句子匹配成不同的功能,以实现功能的精细化匹配;处理不同领域的需求规格书时,通过调整匹配词,匹配关系进行柔性定制分析。
本发明提出的基于自然语言处理(NLP)的功能点智能识别方法,实现将自然语言处理技术应用到对需求规格书中含有功能点的识别中,可在数分钟内对长达百页的需求规格书智能分析挖掘其中语句的词法关系和句法依存关系。在句法/词法分析的基础上,智能快速挖掘需求中所含有的多种功能点。极大降低需求功能点挖掘的人工成本,使需求功能分析更加智能化,无人化。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种需求功能点识别方法,其特征在于,包括如下步骤:
将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级需求规格书;
将所述初级需求规格书进行分词、词性标注、命名实体识别,产生词法分析结果;
将所述词法分析结果进行句法分析,产生句法分析结果;
根据所述句法分析结果进行功能点识别,并统计功能点类别和数量。
2.如权利要求1所述的识别方法,其特征在于,所述需求规格书为需要分析的中文版的需求规格书,利用Lucene框架将所述需求规格书进行段落拆分。
3.如权利要求1所述的识别方法,其特征在于,将所述初级需求规格书进行分词、词性标注、命名实体识别,包括如下步骤:
采用基于最大熵分词方法,将字符串频率统计和字符串匹配结合;
采用基于最大熵的词性标注方法,以高频词性为依据进行标注;
采用条件随机场算法作为判别式概率模型。
4.如权利要求3所述的识别方法,其特征在于,采用神经网络模型进行所述分词、词性标注、命名实体识别。
5.如权利要求4所述的识别方法,其特征在于,利用AC多模式匹配算法实现分词,或者利用基于所述需求规格书中的自定义词典进行分词,所述分词策略采用字典词汇最长匹配原则。
6.如权利要求1所述的识别方法,其特征在于,所述句法分析包括:句子中词语的依赖关系分析、搭配关系分析。
7.如权利要求6所述的识别方法,其特征在于,所述句法分析利用基于最大熵模型的最大生成树算法进行所述需求规格书的中文依存句法的分析,最大熵依存利用条件概率模型,将所有依存关系概率的累积作为目标函数的打分,取打分最大的依存关系树作为输出,所述依存关系树属于所述句法分析结果。
8.如权利要求1所述的识别方法,其特征在于,所述句法分析结果以CoNLL格式输出,所述句法分析结果包括:当前词语在句子中的序号、当前词的词性、当前词语的句法特征、前词语的中心词、当前词语与中心词语的依存关系。
9.如权利要求1所述的识别方法,其特征在于,所述功能点识别根据所述句法分析结果、自定义的功能点关键词、自定义的目标匹配关系,精细匹配功能点,最终统计并分类输出。
10.如权利要求9所述的识别方法,其特征在于,所述自定义的目标匹配关系包括:主谓关系、定中关系、动宾关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811132200.7A CN109271527A (zh) | 2018-09-27 | 2018-09-27 | 一种需求功能点智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811132200.7A CN109271527A (zh) | 2018-09-27 | 2018-09-27 | 一种需求功能点智能识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109271527A true CN109271527A (zh) | 2019-01-25 |
Family
ID=65198593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811132200.7A Pending CN109271527A (zh) | 2018-09-27 | 2018-09-27 | 一种需求功能点智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271527A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111124489A (zh) * | 2019-12-31 | 2020-05-08 | 浙江工业大学 | 一种基于bp神经网络的软件功能点数估算方法 |
CN111126052A (zh) * | 2019-12-26 | 2020-05-08 | 中科鼎富(北京)科技发展有限公司 | 功能点生成方法、装置、电子设备及计算机可读存储介质 |
CN111158641A (zh) * | 2019-12-31 | 2020-05-15 | 中国科学院软件研究所 | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111274817A (zh) * | 2020-01-16 | 2020-06-12 | 北京航空航天大学 | 一种基于自然语言处理技术的智能化软件成本度量方法 |
CN112163789A (zh) * | 2020-10-22 | 2021-01-01 | 上海易教信息科技有限公司 | 一种在线教育的教师工作量评价系统和方法 |
CN112181490A (zh) * | 2020-09-22 | 2021-01-05 | 中国建设银行股份有限公司 | 功能点评估法中功能类别的识别方法、装置、设备及介质 |
CN113127060A (zh) * | 2021-04-09 | 2021-07-16 | 中通服软件科技有限公司 | 一种基于自然语言预训练模型(bert)的软件功能点识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272701A (ja) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN102147731A (zh) * | 2011-04-20 | 2011-08-10 | 上海交通大学 | 基于扩展功能需求描述框架的功能需求自动抽取系统 |
-
2018
- 2018-09-27 CN CN201811132200.7A patent/CN109271527A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272701A (ja) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN102147731A (zh) * | 2011-04-20 | 2011-08-10 | 上海交通大学 | 基于扩展功能需求描述框架的功能需求自动抽取系统 |
Non-Patent Citations (1)
Title |
---|
纪磊 等: ""知文"-基于自然语言的需求分析和建模方法", 《2008全国软件与应用学术会议(NASAC"08)论文集》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126052A (zh) * | 2019-12-26 | 2020-05-08 | 中科鼎富(北京)科技发展有限公司 | 功能点生成方法、装置、电子设备及计算机可读存储介质 |
CN111126052B (zh) * | 2019-12-26 | 2023-11-03 | 鼎富智能科技有限公司 | 功能点生成方法、装置、电子设备及计算机可读存储介质 |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111124489A (zh) * | 2019-12-31 | 2020-05-08 | 浙江工业大学 | 一种基于bp神经网络的软件功能点数估算方法 |
CN111158641A (zh) * | 2019-12-31 | 2020-05-15 | 中国科学院软件研究所 | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 |
CN111124489B (zh) * | 2019-12-31 | 2023-05-23 | 浙江工业大学 | 一种基于bp神经网络的软件功能点数估算方法 |
CN111274817A (zh) * | 2020-01-16 | 2020-06-12 | 北京航空航天大学 | 一种基于自然语言处理技术的智能化软件成本度量方法 |
CN112181490A (zh) * | 2020-09-22 | 2021-01-05 | 中国建设银行股份有限公司 | 功能点评估法中功能类别的识别方法、装置、设备及介质 |
CN112163789A (zh) * | 2020-10-22 | 2021-01-01 | 上海易教信息科技有限公司 | 一种在线教育的教师工作量评价系统和方法 |
CN112163789B (zh) * | 2020-10-22 | 2021-04-30 | 上海易教科技股份有限公司 | 一种在线教育的教师工作量评价系统和方法 |
CN113127060A (zh) * | 2021-04-09 | 2021-07-16 | 中通服软件科技有限公司 | 一种基于自然语言预训练模型(bert)的软件功能点识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271527A (zh) | 一种需求功能点智能识别方法 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
WO2020224097A1 (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN109189942A (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN106778882B (zh) | 一种基于前馈神经网络的智能合约自动分类方法 | |
CN109919368B (zh) | 一种基于关联图的法条推荐预测系统及方法 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN111444723A (zh) | 信息抽取模型训练方法、装置、计算机设备和存储介质 | |
CN111291798B (zh) | 一种基于集成学习的用户基础属性预测方法 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN109783623A (zh) | 一种真实场景下用户与客服对话的数据分析方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN113312478A (zh) | 基于阅读理解的观点挖掘方法及装置 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
Chen et al. | A deep learning method for judicial decision support | |
CN115470871A (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190125 |