CN112817561A - 软件需求文档的事务类功能点结构化抽取方法及系统 - Google Patents
软件需求文档的事务类功能点结构化抽取方法及系统 Download PDFInfo
- Publication number
- CN112817561A CN112817561A CN202110142430.7A CN202110142430A CN112817561A CN 112817561 A CN112817561 A CN 112817561A CN 202110142430 A CN202110142430 A CN 202110142430A CN 112817561 A CN112817561 A CN 112817561A
- Authority
- CN
- China
- Prior art keywords
- function point
- function
- point
- functional
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/10—Requirements analysis; Specification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了软件需求文档的事务类功能点结构化抽取方法及系统,包括:获取目标软件需求文档;对目标软件需求文档进行预处理,得到需求语句数据;将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
Description
技术领域
本发明涉及自然语言处理与软件工程分析技术领域,特别是涉及软件需求文档的事务类功能点结构化抽取方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
软件成本估算是通过一套流程或模型对待估算软件项目的开发工作量、工期和成本进行评估的行为,适用于软件项目的预算、招投标、项目计划、变更、结算、审计或交易等各个环节。采用合理的软件成本估算方法,不仅可以提高软件预算的精确度,有利于保障软件开发项目的按时交付,还有助于合理安排和调度研发人员,从而提高软件项目的质量。
对于软件成本估算而言,影响成本最大的因素是软件的规模。目前国际标准以及国内标准所涉及的模型大多基于软件功能点计价方法来对软件规模进行度量,而功能点方法依赖人工估算的方式,工作量十分耗时耗力。随着机器学习、人工智能的兴起,将自然语言处理技术应用到这一问题中,通过构建模型对人工标注过的功能点数据进行学习,并应用于相似领域的功能点识别,从而提供自动化功能点识别的实现思路和技术,这种方式具备一定的可行性。
发明内容
为了解决现有技术的不足,本发明提供了软件需求文档的事务类功能点结构化抽取方法及系统;
第一方面,本发明提供了软件需求文档的事务类功能点结构化抽取方法;
软件需求文档的事务类功能点结构化抽取方法,包括:
获取目标软件需求文档;
对目标软件需求文档进行预处理,得到需求语句数据;
将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;
将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;
将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
第二方面,本发明提供了软件需求文档的事务类功能点结构化抽取系统;
软件需求文档的事务类功能点结构化抽取系统,包括:
获取模块,其被配置为:获取目标软件需求文档;
预处理模块,其被配置为:对目标软件需求文档进行预处理,得到需求语句数据;
触发词识别模块,其被配置为:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;
功能点论元识别模块,其被配置为:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;
输出模块,其被配置为:将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
第三方面,本发明还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本发明还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本发明还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本发明的有益效果是:
本发明通过BiLSTM+CRF、BERT+BiLSTM+CRF等技术实现对文本特征的抽取,无需人工构建特征来刻画功能点词语及其上下文的特性;
本发明基于事件抽取的方式对功能点进行结构化抽取,通过融合触发词信息来对论元进行抽取,进一步提高预测的准确率;
本发明实现功能点识别的自动化和智能化,能够大幅度降低人工进行功能点识别的工作量,可以快速进行复制应用;
本发明可以极大地降低该方法的进入门槛,有利于推广基于功能点方法的软件规模度量,提高软件成本估算的效率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的步骤流程图;
图2是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的数据集构建流程图;
图3是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点触发词识别模型结构图;
图4是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点论元识别模型结构图;
图5是本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点短语构建及识别流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了软件需求文档的事务类功能点结构化抽取方法;
软件需求文档的事务类功能点结构化抽取方法,包括:
S101:获取目标软件需求文档;
S102:对目标软件需求文档进行预处理,得到需求语句数据;
S103:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;
S104:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;
S105:将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
作为一个或多个实施例,所述S102:对目标软件需求文档进行预处理,得到需求语句数据;具体包括:
对目标软件需求文档进行分段、句子分割、去重处理,得到需求语句数据。
作为一个或多个实施例,所述S103:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;其中,功能点触发词识别模型通过依次连接的第一双向长短时记忆神经网络BiLSTM和第一条件随机场CRF来实现。
作为一个或多个实施例,所述S103:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;其中,预先训练过的功能点触发词识别模型的具体训练步骤包括:
S1031:构建功能点触发词数据集;
S1032:对功能点触发词数据集利用词向量模型Word2vec进行处理,得到功能点触发词数据集的词向量表示;
S1033:将功能点触发词数据集的词向量表示,输入到第一双向长短时记忆神经网络BiLSTM中,输出每个单字对应的多个类别的概率;
S1034:通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理;
S1035:将归一化处理后的数据,输入到第一条件随机场CRF中,进行上下文的梳理;
S1036:重复S1033-S1035;当达到设定迭代次数后,停止训练,得到预先训练过的功能点触发词识别模型。
进一步地,所述S1031:构建功能点触发词数据集;具体包括:
S10311:通过人工方式和/或预构建的功能点数据库,来识别需求语句中的功能点短语及其类别;
S10312:确定标注规则,将功能点短语拆分成功能点触发词和功能点论元,分别进行数据标注,构建功能点触发词数据集和功能点论元数据集;
其中,功能点触发词,是指描述功能的动作;功能点论元,是指动作的参与对象。
作为一个或多个实施例,所述S103:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;具体包括:
将需求语句通过词向量模型Word2vec进行词向量构建,得到词向量表示;
将得到的词向量表示输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别。
作为一个或多个实施例,所述S104:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;其中,功能点论元识别模型的结构包括:依次连接的BERT模型、第二双向长短时记忆神经网络BiLSTM和第二条件随机场CRF来实现。
作为一个或多个实施例,所述S104:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;其中,预先训练过的功能点论元识别模型的训练步骤包括:
S1041:构建功能点论元数据集;
S1042:将构建的功能点论元数据集,输入到BERT模型中,将词嵌入、段嵌入和位置嵌入结果通过矩阵的加法生成文本表示结果序列;
S1043:将功能点触发词数据集中的功能点触发词的位置信息,通过Transformer位置编码方式进行编码,将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接,得到融合后的输入序列;
S1044:将融合后的输入序列输入到第二双向长短时记忆神经网络BiLSTM中,输出每个单字对应形成的多个类别概率;
S1045:通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理;
S1046:将归一化处理后的数据,输入到第二条件随机场CRF中,进行上下文的梳理;
S1047:重复S1043-S1046;当达到设定迭代次数后,停止训练,得到预先训练过的功能点论元识别模型。
进一步地,所述S1041:构建功能点论元数据集;具体包括:
S10411:通过人工方式和/或预构建的功能点数据库,来识别需求语句中的功能点短语及其类别;
S10412:确定标注规则,将功能点短语拆分成功能点触发词和功能点论元,分别进行数据标注,构建功能点触发词数据集和功能点论元数据集;
其中,功能点触发词,是指描述功能的动作;功能点论元,是指动作的参与对象。
作为一个或多个实施例,所述S104:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;具体包括:
将需求语句数据,输入到BERT模型中,生成文本表示序列;
通过Transformer位置编码方式进行编码,将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接,得到融合后的输入序列;
将融合后的输入序列输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别。
进一步地,所述S105:将所得到的功能点触发词和功能点论元组合,得到功能点短语;是指按照语法规则将所得到的功能点触发词和功能点论元组合,得到功能点短语。
进一步地,所述S105:将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值;其中,语言模型为N-gram语言模型。
进一步地,所述S105:将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值;其中,预先训练过的语言模型训练步骤包括:
构建训练集,所述训练集为已知正确功能点短语和错误功能点短语;
将训练集输入到语言模型中,对语言模型进行训练,得到训练后的语言模型。
进一步地,所述S105:根据输出概率值筛选出目标软件需求文档的功能点短语;选择概率值大于设定阈值的功能点短语,作为目标软件需求文档的功能点短语。
本发明公开了一种软件需求文档的事务类功能点结构化抽取方法,用于软件成本估算中的软件规模自动化度量。本发明基于自然语言处理中事件抽取的思路,将软件需求文档中的功能点描述作为事件来识别,采用了双向长短时记忆神经网络+条件随机场(BiLSTM+CRF)、预训练模型BERT+双向长短时记忆神经网络+条件随机场(BERT+BiLSTM+CRF)分别对功能点触发词(描述功能的动作)和功能点论元(动作的参与对象)进行结构化抽取,然后构建候选功能点短语并通过N-gram语言模型进行筛选,得到最终的功能点短语及类别,通过数据集构建、功能点触发词的识别与分类、功能点论元的识别与分类、功能点短语构建与预测四个过程实现了在软件规模度量中的事务类功能点的结构化抽取,减少人工识别功能点的工作量,有效提高了工作效率。
本发明提出一种基于事件抽取的事务功能点自动识别方法,该方法将事务功能点短语的识别作为自然语言处理中的事件抽取问题,将功能点短语中描述动作的成分(如动词等形式)和参与动作的成分(如名词等形式)作为事件的触发词和论元,先后通过相应的技术方法实现对功能点短语中的触发词和论元的识别和分类,然后完成功能点短语的构建,实现在从用户输入的需求文档到功能点自动化识别和分类,从而在一方面作为人工识别功能点的参考,减少工作量,另一方面在一定程度上减少人工识别过程中容易出现的主观偏差。
本发明提出一种软件需求文档的事务类功能点结构化抽取方法,将需求语句中的功能点看作一个事件的描述,功能点中的动作可以看作事件中的触发词,而被动作执行的对象可以看作事件中的论元。通过事件抽取的思路对功能点进行结构化抽取,识别出功能点触发词和功能点论元,采用语言模型的方法来对构建的功能点短语进行筛选,从而得出最终预测的事务功能点短语和具体类型。下面通过具体实施方式对本发明作进一步说明。
如图1所示,为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的数据集构建流程图。整个方法主要包括四个步骤:训练集构建、功能点触发词识别与分类、功能点论元识别与分类和功能点短语构建与筛选。
步骤1收集并处理需求文本,构建功能点识别数据集。如图2所示,为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的数据集构建流程图。
在获取原始的需求文档后,需要先对原始语料进行如下预处理:
第一步,需求文档分段处理,得到段落级的需求文本数据。
第二步,句子分割。对功能点的抽取是基于句子级,因此需要将文档分割成句子。本发明以“。”、“?”、“!”、“……”作为分隔符将文档进行分割。
第三步,句子筛选。句子分割后,会产生很多无用语句,因此需要对句子进行筛选,去除空句子,过长或过短句子以及重复句子。
第四步,通过人工对需求描述语句进行识别,抽取出对应的功能点短语。
第五步,在标注之前,需要确定标注规则。首先对功能点抽取中的触发词类型和论元类型进行定义,本发明根据事务功能点的特点对功能点触发词和论元的类型进行了定义。
对于功能点触发词,本发明定义了以下3种触发词类型:
a)外部输入(extend input,EI):如注册、修改、发起等。
b)外部查询(extend query,EO):如登录、查看、监控等。
c)外部输出(extend out,EO):如提示、展现、预览等。
对于功能点论元,为了降低方法的复杂度,本发明仅把词分为名词性论元、修饰性论元和非论元三种类型。
第六步,由于中文分词存在触发词抽取问题,本发明对字符进行标注。使用常见的BIEO标注法对训练集进行处理,B_label代表字符为触发词的开始,I_label代表字符为触发词内部,E_label代表字符为触发词结束,O代表字符为非触发词。如例子“展示共享平台的资源目录”,完整的触发词句子标签如下:“展/B_EO”、“示/E_EO”、“共/O”、“享/O”、“平/O”、“台/O”、“的/O”、“资/O”、“源/O”、“目/O”、“录/O”。
同样对于论元的标注也是采用常见的BIEO标注法对字符进行标注,B_entity代表字符为论元的开始,I_entity代表字符为论元的内部,E_entity代表字符为论元的结束,O代表字符为非论元字符。对于例子“展示共享平台的资源目录”,完整的论元句子标签如下:“展/O”、“示/O”、“共/B_adj”、“享/I_adj”、“平/I_adj”、“台/E_adj”、“的/O”、“资/B_noun”、“源/I_noun”、“目/I_noun”、“录/E_noun”。
步骤2构建功能点触发词识别与分类模型,输入数据集进行学习训练。如图3所示,为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点触发词识别模型结构图。
功能点触发词的抽取是基于BiLSTM+CRF的标注模型来实现,使用BiLSTM抽取实体序列信息送入到CRF中进行字符标注。将构建的功能点触发词数据集转化为字符向量来作为整个模型的输入,输出为预测的触发词字符标注序列。
BiLSTM+CRF模型结构主要由输入层、LSTM层以及CRF层组成。输入层是一组由词嵌入构成的词向量序列,通过输入层输入词向量到BiLSTM层中得到隐含层输出hi∈Rm,BiLSTM函数为:
hi=BiLSTM(xi;θseq) (1)
其中xi为词向量,θseq表示参数矩阵,hi表示BiLSTM的输出。
接着隐含层将向量传递到BiLSTM模型的输出层,从而将m维向量映射到k维向量,k是标签集的大小,最终根据处理后生成整个序列的特征矩阵P:
P=(p1,p2,...,pn)∈Rn*k(2)
将BiLSTM层中输出的特征矩阵P输入到CRF层进行下一步的分类标注。Pi,j表示为第j个标签中第i个词,通过输入序列x={x1,x2,....,xn},输入序列对应的标签序列y={y1,y1,...,yn},以及CRF状态转移矩阵(k+2)×(k+2),可以得到整个BiLSTM+CRF模型的得分:
其中,Y(x)表示所有可能的标注序列。
在训练期间,CRF使用对数概率进行正确标签序列的优化,对训练样本{xi,yi}有如下公式:
log(P(y|x))=s(x,y)-log(∑y'∈Y(x)s(x,y')) (5)
CRF通过使用极大似然估计函数进行标注的预测,公式如下所示:
y*=argmaxy'∈Y(x)s(x,y') (6)
最后,通过CRF的全局特征约束得出预测的功能点触发词的字符序列标注。
步骤3构建功能点论元识别与分类模型,输入数据集进行学习训练。如图4所示,为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点论元识别模型结构图。
为了实现功能点论元抽取任务,本发明主要通过结合触发词信息和触发词所在句的句内语义信息来识别功能点论元,采用了一种混合模型的序列标注方法,结合了具有动态词表示能力的BERT,可加入触发词信息编码的BiLSTM,以及具有全局特征约束效果的CRF,以实现对功能点论元的抽取。因此本发明的功能点论元抽取模型可分为三个部分:BERT层、BiLSTM层和CRF层,该模型将构建的功能点论元数据集作为输入,经过BERT层抽取语义信息,在输入到BiLSTM层之前将BERT层输出的表示向量和触发词的位置信息进行融合,然后通过BiLSTM层和CRF层预测出功能点论元的标注序列。
其中BERT层的主要目标是从输入文本中提取出丰富的语义信息。对于输入的文本序列X=x1,x2,...,xn,BERT将词嵌入、段嵌入和位置嵌入三层嵌入结果直接通过矩阵的加法形成最终嵌入表示,转化为对应的嵌入结果序列Embedding_result=E1,E2,...,En,其中,词嵌入的目的是将各个字符转换成具有固定维度的向量;段嵌入用于表示输入文本中对应的词所属的句子,在本发明中只有一个触发词所在句;位置嵌入的主要作用是为BERT中的Transformer添加输入序列的顺序信息。然后通过BERT的特征抽取器Transformer的语义特征抽取,得到最终的文本表示结果序列Text_representation=T1,T2,...,Tn。
在BiLSTM层中主要包括两个功能:融合触发词信息和预测结果。由于功能点论元在需求描述语句中的分布通常围绕着功能点触发词,因此,在输入中融合触发词的位置信息可以为功能点论元的抽取提供有关功能点的句法信息。其中,功能点触发词位置编码采用在Transformer中使用的位置编码方式,在获得已编码的触发词位置向量后,将该向量与BERT层输出的文本表示结果序列Text_representation=T1,T2,...,Tn连接,得到融合后的输入序列作为BiLSTM的输入。之后,BiLSTM分别从正序和逆序两个方向对加入了触发词位置信息的文本进行学习,并将对应的预测标签信息传入到CRF层中。
CRF层在本算法中为句内的全局特征约束方法,主要根据由BERT和BiLSTM提取到的语义和句法特征,形成对整个输入序列的特征约束,并将这种特征约束用于判断BiLSTM所输出的标签预测值中最合理的一组。
步骤4是基于识别的功能点触发词和论元构造功能点短语,通过语言模型进行筛选。如图5所示,为本发明提供的一种软件需求文档的事务类功能点结构化抽取方法的功能点短语构建及识别流程图。
经过功能点的触发词和论元的识别与分类,本发明将得到的词进行组合,构建候选的功能点短语,然后将候选功能点短语输入到n-gram语言模型中,经过筛选提取出有效的事务功能点。
本发明采取专门设计事务功能点构建器的方式进行构建:通过遍历构建功能点用词列表中的触发词,如果该触发词在需求文档中的某一句出现,则遍历这句需求语句中的论元词,将得到的触发词和论元按照语法规则进行拼接得到一个事务功能点,同时按照该功能点的触发词类型对功能点进行分类,得到构造的功能点短语和类别。
本发明采取是否符合功能点用于习惯来筛选候选功能点短语,如果构建的功能点的表述方式与历史功能点差距较大,则该功能点很有可能是错误的。具体筛选规则通过构建语言模型的方法来进行实现,使用n-gram语言模型,其函数为:
其中w为构成句子的单位。
通过在历史功能点数据库上训练及优化语言模型,能够准确地量化构建的功能点是否符合用于习惯,模型的输入是功能点短语,语言模型对每个功能点短语输出概率评分值,得分越高,说明输入的短语更加符合用语习惯。
下面以一具体的应用示例阐述本发明。
以政务信息系统为示例,首先收集政务信息化项目领域的需求文档,经过分段、分句、人工识别功能点等操作之后构建功能点触发词数据集D1和功能点论元数据集D2,在数据集D1上训练功能点触发词预测模型BiLSTM+CRF,对于以下一段需求描述:“展示共享平台的资源目录,提供查看资源目录详细信息功能,允许用户精准定位具体部门,查找相应的资源目录”。BiLSTM+CRF预测出可能的功能点触发词为:{展示:EO,查看:EQ,定位:EQ,查找;EQ},同时在数据集D2基础上结合触发词的信息来训练功能点论元预测模型BERT+BiLSTM+CRF模型,预测出可能的功能点论元为:{展示:资源目录,查看:详细信息,定位:资源目录,查找:资源目录},再通过组词策略组合为{展示资源目录:EO,查看详细信息:EQ,定位具体部门:EQ,查找资源目录:EQ},通过语言模型进行筛选,最终得到推荐的功能点短语和其类别。
实施例二
本实施例提供了软件需求文档的事务类功能点结构化抽取系统;
软件需求文档的事务类功能点结构化抽取系统,包括:
获取模块,其被配置为:获取目标软件需求文档;
预处理模块,其被配置为:对目标软件需求文档进行预处理,得到需求语句数据;
触发词识别模块,其被配置为:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;
功能点论元识别模块,其被配置为:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;
输出模块,其被配置为:将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
此处需要说明的是,上述获取模块、预处理模块、触发词识别模块、功能点论元识别模块和输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.软件需求文档的事务类功能点结构化抽取方法,其特征是,包括:
获取目标软件需求文档;
对目标软件需求文档进行预处理,得到需求语句数据;
将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;
将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;
将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
2.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法,其特征是,将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;其中,预先训练过的功能点触发词识别模型的具体训练步骤包括:
构建功能点触发词数据集;
对功能点触发词数据集利用词向量模型Word2vec进行处理,得到功能点触发词数据集的词向量表示;
将功能点触发词数据集的词向量表示,输入到第一双向长短时记忆神经网络BiLSTM中,输出每个单字对应的多个类别的概率;
通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理;
将归一化处理后的数据,输入到第一条件随机场CRF中,进行上下文的梳理;
重复上述步骤;当达到设定迭代次数后,停止训练,得到预先训练过的功能点触发词识别模型。
3.如权利要求2所述的软件需求文档的事务类功能点结构化抽取方法,其特征是,构建功能点触发词数据集;具体包括:
通过人工方式和/或预构建的功能点数据库,来识别需求语句中的功能点短语及其类别;
确定标注规则,将功能点短语拆分成功能点触发词和功能点论元,分别进行数据标注,构建功能点触发词数据集和功能点论元数据集;
其中,功能点触发词,是指描述功能的动作;功能点论元,是指动作的参与对象。
4.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法,其特征是,将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;其中,预先训练过的功能点论元识别模型的训练步骤包括:
构建功能点论元数据集;
将构建的功能点论元数据集,输入到BERT模型中,将词嵌入、段嵌入和位置嵌入结果通过矩阵的加法生成文本表示结果序列;
将功能点触发词数据集中的功能点触发词的位置信息,通过Transformer位置编码方式进行编码,将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接,得到融合后的输入序列;
将融合后的输入序列输入到第二双向长短时记忆神经网络BiLSTM中,输出每个单字对应形成的多个类别概率;
通过SoftMax函数对每个单字对应的多个类别的概率进行归一化处理;
将归一化处理后的数据,输入到第二条件随机场CRF中,进行上下文的梳理;
重复上述步骤;当达到设定迭代次数后,停止训练,得到预先训练过的功能点论元识别模型。
5.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法,其特征是,将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;具体包括:
将需求语句数据,输入到BERT模型中,生成文本表示序列;
通过Transformer位置编码方式进行编码,将触发词的位置信息和类别信息与BERT模型输出的文本表示结果序列进行连接,得到融合后的输入序列;
将融合后的输入序列输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别。
6.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法,其特征是,将所得到的功能点触发词和功能点论元组合,得到功能点短语;是指按照语法规则将所得到的功能点触发词和功能点论元组合,得到功能点短语。
7.如权利要求1所述的软件需求文档的事务类功能点结构化抽取方法,其特征是,将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值;其中,语言模型为N-gram语言模型;
或者,
将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值;其中,预先训练过的语言模型训练步骤包括:
构建训练集,所述训练集为已知正确功能点短语和错误功能点短语;
将训练集输入到语言模型中,对语言模型进行训练,得到训练后的语言模型;
或者,
根据输出概率值筛选出目标软件需求文档的功能点短语;选择概率值大于设定阈值的功能点短语,作为目标软件需求文档的功能点短语。
8.软件需求文档的事务类功能点结构化抽取系统,其特征是,包括:
获取模块,其被配置为:获取目标软件需求文档;
预处理模块,其被配置为:对目标软件需求文档进行预处理,得到需求语句数据;
触发词识别模块,其被配置为:将需求语句数据,输入到预先训练过的功能点触发词识别模型中,输出识别的功能点触发词及类别;
功能点论元识别模块,其被配置为:将需求语句数据和所得到的功能点触发词,输入到预先训练过的功能点论元识别模型中,输出功能点论元及其类别;
输出模块,其被配置为:将所得到的功能点触发词和功能点论元组合,得到功能点短语;将功能点短语输入到预先训练过的语言模型中,得到各功能点短语的输出概率值,从而根据输出概率值筛选出目标软件需求文档的功能点短语。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142430.7A CN112817561B (zh) | 2021-02-02 | 2021-02-02 | 软件需求文档的事务类功能点结构化抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142430.7A CN112817561B (zh) | 2021-02-02 | 2021-02-02 | 软件需求文档的事务类功能点结构化抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112817561A true CN112817561A (zh) | 2021-05-18 |
CN112817561B CN112817561B (zh) | 2023-08-18 |
Family
ID=75860523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110142430.7A Active CN112817561B (zh) | 2021-02-02 | 2021-02-02 | 软件需求文档的事务类功能点结构化抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112817561B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN114595669A (zh) * | 2022-03-11 | 2022-06-07 | 北京梦诚科技有限公司 | 一种算量表格识别方法、系统、电子设备及存储介质 |
CN115113919A (zh) * | 2022-08-30 | 2022-09-27 | 四川赛闯检测股份有限公司 | 基于BERT模型和Web技术的软件规模度量智能信息化系统 |
CN116933697A (zh) * | 2023-09-18 | 2023-10-24 | 上海芯联芯智能科技有限公司 | 一种将自然语言转换为硬件描述语言的方法及装置 |
CN117493568A (zh) * | 2023-11-09 | 2024-02-02 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN117635243A (zh) * | 2023-11-27 | 2024-03-01 | 中安启成科技有限公司 | 一种大语言模型赋能的智能化软件造价评估方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109325228A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 英文事件触发词抽取方法和系统 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
US10599558B1 (en) * | 2019-11-05 | 2020-03-24 | CYBERTOKA Ltd. | System and method for identifying inputs to trigger software bugs |
CN111158641A (zh) * | 2019-12-31 | 2020-05-15 | 中国科学院软件研究所 | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 |
CN111222305A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN111260223A (zh) * | 2020-01-17 | 2020-06-09 | 山东省计算中心(国家超级计算济南中心) | 一种审判风险智能识别与预警方法、系统、介质及设备 |
US20200364307A1 (en) * | 2019-05-17 | 2020-11-19 | Raytheon Bbn Technologies Corp. | Cross-lingual information retrieval and information extraction |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
EP3745281A1 (en) * | 2019-05-29 | 2020-12-02 | Technische Universität Darmstadt | Providing machine-learning training data for a differentiator module to identify document properties |
WO2020247616A1 (en) * | 2019-06-07 | 2020-12-10 | Raytheon Bbn Technologies Corp. | Linguistically rich cross-lingual text event embeddings |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
US20210012179A1 (en) * | 2019-07-12 | 2021-01-14 | International Business Machines Corporation | Extraction of named entities from document data to support automation applications |
-
2021
- 2021-02-02 CN CN202110142430.7A patent/CN112817561B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109325228A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 英文事件触发词抽取方法和系统 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
US20200364307A1 (en) * | 2019-05-17 | 2020-11-19 | Raytheon Bbn Technologies Corp. | Cross-lingual information retrieval and information extraction |
EP3745281A1 (en) * | 2019-05-29 | 2020-12-02 | Technische Universität Darmstadt | Providing machine-learning training data for a differentiator module to identify document properties |
WO2020247616A1 (en) * | 2019-06-07 | 2020-12-10 | Raytheon Bbn Technologies Corp. | Linguistically rich cross-lingual text event embeddings |
US20210012179A1 (en) * | 2019-07-12 | 2021-01-14 | International Business Machines Corporation | Extraction of named entities from document data to support automation applications |
US10599558B1 (en) * | 2019-11-05 | 2020-03-24 | CYBERTOKA Ltd. | System and method for identifying inputs to trigger software bugs |
CN111222305A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN111158641A (zh) * | 2019-12-31 | 2020-05-15 | 中国科学院软件研究所 | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 |
CN111260223A (zh) * | 2020-01-17 | 2020-06-09 | 山东省计算中心(国家超级计算济南中心) | 一种审判风险智能识别与预警方法、系统、介质及设备 |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
Non-Patent Citations (2)
Title |
---|
LIXIANG GUO等: "A Practical Approach to Chinese Emergency Event Extraction using BiLSTM-CR", 《2019 5TH INTERNATIONAL CONFERENCE ON BIG DATA AND INFORMATION ANALYTICS (BIGDIA)》, pages 1 - 8 * |
余辉等: "基于BiLSTM-CRF的中文临床指南治疗事件抽取", 《中华医学图书情报杂志》, pages 9 - 14 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113468890B (zh) * | 2021-07-20 | 2023-05-26 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113779227B (zh) * | 2021-11-12 | 2022-01-25 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN114595669A (zh) * | 2022-03-11 | 2022-06-07 | 北京梦诚科技有限公司 | 一种算量表格识别方法、系统、电子设备及存储介质 |
CN114595669B (zh) * | 2022-03-11 | 2022-09-27 | 北京梦诚科技有限公司 | 一种算量表格识别方法、系统、电子设备及存储介质 |
CN115113919B (zh) * | 2022-08-30 | 2023-04-25 | 四川赛闯检测股份有限公司 | 基于BERT模型和Web技术的软件规模度量智能信息化系统 |
CN115113919A (zh) * | 2022-08-30 | 2022-09-27 | 四川赛闯检测股份有限公司 | 基于BERT模型和Web技术的软件规模度量智能信息化系统 |
CN116933697A (zh) * | 2023-09-18 | 2023-10-24 | 上海芯联芯智能科技有限公司 | 一种将自然语言转换为硬件描述语言的方法及装置 |
CN116933697B (zh) * | 2023-09-18 | 2023-12-08 | 上海芯联芯智能科技有限公司 | 一种将自然语言转换为硬件描述语言的方法及装置 |
CN117493568A (zh) * | 2023-11-09 | 2024-02-02 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN117493568B (zh) * | 2023-11-09 | 2024-04-19 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN117635243A (zh) * | 2023-11-27 | 2024-03-01 | 中安启成科技有限公司 | 一种大语言模型赋能的智能化软件造价评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112817561B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112817561B (zh) | 软件需求文档的事务类功能点结构化抽取方法及系统 | |
CN110134720B (zh) | 融合局部特征与深度学习的事件联合抽取方法 | |
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
Luan et al. | Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction | |
US11948058B2 (en) | Utilizing recurrent neural networks to recognize and extract open intent from text inputs | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
Yang et al. | Neural reranking for named entity recognition | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN114548099B (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN112183064A (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN115098706A (zh) | 一种网络信息提取方法及装置 | |
Marra et al. | An unsupervised character-aware neural approach to word and context representation learning | |
CN115526171A (zh) | 一种意图识别方法、装置、设备及计算机可读存储介质 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN112463960B (zh) | 一种实体关系的确定方法、装置、计算设备及存储介质 | |
CN116958677A (zh) | 一种基于多模态大数据的互联网短视频分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |