CN109255127A - 一种需求功能点智能识别系统 - Google Patents
一种需求功能点智能识别系统 Download PDFInfo
- Publication number
- CN109255127A CN109255127A CN201811132214.9A CN201811132214A CN109255127A CN 109255127 A CN109255127 A CN 109255127A CN 201811132214 A CN201811132214 A CN 201811132214A CN 109255127 A CN109255127 A CN 109255127A
- Authority
- CN
- China
- Prior art keywords
- requirement specification
- function point
- specification book
- identifying system
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种需求功能点识别系统,包括:需求规格书预处理模块,用于将需求规格书进行段落拆分,将需求规格书的多级标题剔除,得到初级规格书;词法分析模块,用于将初级规格书进行分词、词性标注、命名实体识别,产生词法分析结果;句法分析模块,用于将词法分析结果进行句法分析,产生句法分析结果;功能点识别模块,用于根据句法分析结果进行功能点识别,并统计功能点类别和数量。本发明通过结合自然语言处理(NLP)技术对需求规格书进行智能分析,实现对需求规格书所含功能的准确快速统计,代替人工分析,提高效率,降低成本。
Description
技术领域
本发明涉及自然语言处理和软件工程秀分析领域,特别涉及一种需求功能点智能识别系统。
背景技术
在传统的需求功能点评估领域,功能点的判断识别有两种处理情况,其一,不将功能点识别纳入考虑范围,不去评估这些功能所代表的工作量与价值,导致软件的外包定制存在不统一的价格要求与时间要求。其二,软件功能评估依靠人工分析来识别。因为需求规格书往往多达百页,甚至更多。所以,这种以人工为主的做法,不仅需要资深的领域专家介入,而且非常的耗费时间和精力。间接的增加了软件工程的环节,增加了软件开发的费用。同时人工分析存在不确定性,不稳定性。这些原因导致需求功能点识别不够智能和高效。
随着社会生产领域大量的软件需求的出现,需求规格书也急速增加,而针对软件功能评估人才还很缺乏。大量的需求功能识别评估工作,亟须一种自动而又智能的方法来处理。
发明内容
本发明的目的是通过以下技术方案实现的。为处理上述问题,本发明构造一种基于自然语言处理(NLP)技术的功能点智能识别系统。本发明构造的智能系统可有效挖掘需求规格书中的功能点,通过结合NLP技术对需求规格书逐段,逐句,逐词的拆解分析。挖掘出每一个词的词性,识别句子中的命名实体和提取出句子中各个部分之间的依存关系,通过句法关系匹配和关键词匹配,最终实现功能点的识别并归类。减少人类分析提取的低效和不稳定性。
一种需求功能点识别系统,包括:
需求规格书预处理模块,用于将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级规格书;
词法分析模块,用于将所述初级规格书进行分词、词性标注、命名实体识别,产生词法分析结果;
句法分析模块,用于将所述词法分析结果进行句法分析,产生句法分析结果;
功能点识别模块,用于根据所述句法分析结果进行功能点识别,并统计功能点类别和数量。
优选地,需求规格书为需要分析的中文版的需求规格书,所述需求规格书预处理模块利用Lucene框架将所述需求规格书进行段落拆分。
优选地,词法分析模块包括:
分词单元,采用基于最大熵分词方法,将字符串频率统计和字符串匹配结合;
词性标注单元,采用基于最大熵的词性标注方法,以高频词性为依据进行标注;
命名实体识别单元,采用条件随机场算法作为判别式概率模型。
优选地,词法分析模块采用神经网络模型,进行分词、词性标注、命名实体识别。
优选地,所述神经网络模型词法分析模块利用AC多模式匹配算法实现分词,或者利用基于所述需求规格书中的自定义词典进行分词,所述分词策略采用字典词汇最长匹配原则。
优选地,句法分析模块进行句法分析包括:句子中词语的依赖关系分析、搭配关系分析。
优选地,句法分析模块利用基于最大熵模型的最大生成树算法进行所述需求规格书的中文依存句法的分析,最大熵依存利用条件概率模型,将所有依存关系概率的累积作为目标函数的打分,取打分最大的依存关系树作为输出。
优选地,句法分析结果以CoNLL格式输出,所述句法分析结果包括:当前词语在句子中的序号、当前词的词性、当前词语的句法特征、前词语的中心词、当前词语与中心词语的依存关系。
优选地,功能点识别模块根据所述句法分析结果、自定义的功能点关键词、自定义的目标匹配关系,精细匹配功能点,最终统计并分类输出。
优选地,自定义的目标匹配关系包括:主谓关系、定中关系、动宾关系。
本发明的优点在于:基于自然语言处理,其中的词法分析,句法分析所依据的神经网络模型,可以不断学习分析过的文档,具有自主进化能力,不断提高处理的准确率。该发明有效提高文档功能点挖掘的效率,降低成本。将人类从文档分析挖掘中解放出来。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的功能点识别系统的模块图;
附图2示出了根据本发明实施方式的功能点识别系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提出一种需求功能点识别系统,如图1所示,包括:需求规格书预处理模块,用于将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级规格书。词法分析模块,用于将所述初级规格书进行分词、词性标注、命名实体识别,产生词法分析结果。句法分析模块,基于神经网络训练的模型,将词法分析结果进行句法分析,句产生句法分析结果,法分析包括:句子中词语的依赖关系分析、搭配关系分析。功能点识别模块,利用句法分析结果,根据规定的句子成分搭配关系和功能词库,进行功能点识别,并统计功能点类别和数量。
本发明提出的功能点智能识别系统基于自然语言处理(NLP),所述需求规格书预处理模块基于Lucene框架将整个需求文本提取为结构化的段落,剔除图表和多级标题。实现对原生需求规格书的初步信息提取和处理。需求规格书为需要分析的中文版的需求规格书。
需求规格书预处理模块,自动的读入文档数据,采用SVM的理论打分判断文本相似性,基于TF-IDF理论评价词语的重要性,不仅考虑词在文档中的频率,也考虑词在整个文档中的区分度;这些方法有效提高预处理的速度和准确度,当文档页数多的时候,处理用时间明显缩短。
基于自然语言处理(NLP)的功能点智能识别系统中,词法分析模块,利用神经网络模型,如图2所示,对句子进行拆分,词性标注,命名实体识别。在分词方面,采用基于最大熵分词方法,该方法将字符串频率统计和字符串匹配结合起来,提高匹配分词的切分速度。在词性标注上,采用基于最大熵的词性标注方法,以高频词性为依据实现标注的准确性;在命名实体识别上,采用条件随机场(CRF)算法,作为判别式概率模型有很强的特征融入能力,该方法可以有效提高命名实体识别的准确率。
词法分析模块包括:分词单元,采用基于最大熵分词方法,将字符串频率统计和字符串匹配结合,提高匹配分词的切分速度;词性标注单元,采用基于最大熵的词性标注方法,以高频词性为依据实现标注的准确性;命名实体识别单元,采用条件随机场算法作为判别式概率模型有很强的特征融入能力,提高命名实体识别的准确率。词法分析模块采用神经网络模型进行分词、词性标注、命名实体识别。所述神经网络模型词法分析模块利用AC多模式匹配算法实现分词,或者利用基于所述需求规格书中的自定义词典进行分词,所述分词策略采用字典词汇最长匹配原则。
基于自然语言处理(NLP)的功能点智能识别系统中,词法分析模块,利用AC多模式匹配算法将自定义字典中词语和文档中待切分句子进行匹配分词,该算法时间复杂度低,可以有效减少匹配分词时间,提高分词速度。
基于自然语言处理(NLP)的功能点智能识别系统中,句法分析模块,利用最大熵模型估计任意两个单词之间最可能的依存关系以及概率,最大熵中的约束通过特征函数来实现,特征函数的使用解决长距离依存问题,提高句法分析的准确率。最大生成树算法在解析时,使用最大生成树搜索整句的最优依存树,具有全局性,能有效提高句法依存分析的准确率。
基于自然语言处理(NLP)的功能点智能识别系统中,句法分析模块,通过输出CoNLL格式的分析结果,这种结构化的数据形式可以方便功能点分析模块根据功能分析的不同侧重点进行方便的匹配。句法分析结果包括:当前词语在句子中的序号、当前词的词性、当前词语的句法特征、前词语的中心词、当前词语与中心词语的依存关系。
功能点识别模块,利用句法分析结果,根据所述句法分析结果、自定义的功能点关键词、自定义的目标匹配关系,精细匹配功能点,最终统计并分类输出。自定义的目标匹配关系包括:主谓关系、定中关系、动宾关系。自定义的功能点关键词,将含有指定关系和指定关键词的句子匹配成不同的功能,以实现功能的精细化匹配;处理不同领域的需求规格书时,通过调整匹配词,匹配关系进行柔性定制分析。
本发明提出的基于自然语言处理(NLP)的功能点智能识别系统,实现将自然语言处理技术应用到对需求规格书中含有功能点的识别中,可在数分钟内对长达百页的需求规格书智能分析挖掘其中语句的词法关系和句法依存关系。在句法/词法分析的基础上,智能快速挖掘需求中所含有的多种功能点。极大降低需求功能点挖掘的人工成本,使需求功能分析更加智能化,无人化。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种需求功能点识别系统,其特征在于,包括:
需求规格书预处理模块,用于将需求规格书进行段落拆分,将所述需求规格书的多级标题剔除,得到初级规格书;
词法分析模块,用于将所述初级规格书进行分词、词性标注、命名实体识别,产生词法分析结果;
句法分析模块,用于将所述词法分析结果进行句法分析,产生句法分析结果;
功能点识别模块,用于根据所述句法分析结果进行功能点识别,并统计功能点类别和数量。
2.如权利要求1所述的识别系统,其特征在于,所述需求规格书为需要分析的中文版的需求规格书,所述需求规格书预处理模块利用Lucene框架将所述需求规格书进行段落拆分。
3.如权利要求1所述的识别系统,其特征在于,所述词法分析模块包括:
分词单元,采用基于最大熵分词方法,将字符串频率统计和字符串匹配结合;
词性标注单元,采用基于最大熵的词性标注方法,以高频词性为依据进行标注;
命名实体识别单元,采用条件随机场算法作为判别式概率模型。
4.如权利要求3所述的识别系统,其特征在于,所述词法分析模块采用神经网络模型,进行分词、词性标注、命名实体识别。
5.如权利要求4所述的识别系统,其特征在于,所述神经网络模型词法分析模块利用AC多模式匹配算法实现分词,或者利用基于所述需求规格书中的自定义词典进行分词,所述分词策略采用字典词汇最长匹配原则。
6.如权利要求1所述的识别系统,其特征在于,所述句法分析模块进行句法分析包括:句子中词语的依赖关系分析、搭配关系分析。
7.如权利要求6所述的识别系统,其特征在于,所述句法分析模块利用基于最大熵模型的最大生成树算法进行所述需求规格书的中文依存句法的分析,最大熵依存利用条件概率模型,将所有依存关系概率的累积作为目标函数的打分,取打分最大的依存关系树作为输出。
8.如权利要求1所述的识别系统,其特征在于,所述句法分析结果以CoNLL格式输出,所述句法分析结果包括:当前词语在句子中的序号、当前词的词性、当前词语的句法特征、前词语的中心词、当前词语与中心词语的依存关系。
9.如权利要求1所述的识别系统,其特征在于,所述功能点识别模块根据所述句法分析结果、自定义的功能点关键词、自定义的目标匹配关系,精细匹配功能点,最终统计并分类输出。
10.如权利要求9所述的识别系统,其特征在于,所述自定义的目标匹配关系包括:主谓关系、定中关系、动宾关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811132214.9A CN109255127A (zh) | 2018-09-27 | 2018-09-27 | 一种需求功能点智能识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811132214.9A CN109255127A (zh) | 2018-09-27 | 2018-09-27 | 一种需求功能点智能识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109255127A true CN109255127A (zh) | 2019-01-22 |
Family
ID=65047946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811132214.9A Pending CN109255127A (zh) | 2018-09-27 | 2018-09-27 | 一种需求功能点智能识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255127A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101008949A (zh) * | 2006-01-25 | 2007-08-01 | 英业达股份有限公司 | 信息提取方法及系统 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
KR20100082980A (ko) * | 2009-01-12 | 2010-07-21 | 울산대학교 산학협력단 | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 |
-
2018
- 2018-09-27 CN CN201811132214.9A patent/CN109255127A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101008949A (zh) * | 2006-01-25 | 2007-08-01 | 英业达股份有限公司 | 信息提取方法及系统 |
KR20100082980A (ko) * | 2009-01-12 | 2010-07-21 | 울산대학교 산학협력단 | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
Non-Patent Citations (1)
Title |
---|
纪磊等: ""知文"——基于自然语言的需求分析和建模方法", 《2008全国软件与应用学术会议(NASAC"08)论文集》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN109271527A (zh) | 一种需求功能点智能识别方法 | |
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN111104498B (zh) | 一种任务型对话系统中的语义理解方法 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109460459B (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN104933113A (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN109783623A (zh) | 一种真实场景下用户与客服对话的数据分析方法 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN109783636A (zh) | 一种基于分类器链的汽车评论主题提取方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
CN111400449A (zh) | 一种正则表达式抽取方法及装置 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN113298559A (zh) | 一种商品适用人群的推荐方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |