CN114217766A - 基于预训练语言微调与依存特征的半自动需求抽取方法 - Google Patents
基于预训练语言微调与依存特征的半自动需求抽取方法 Download PDFInfo
- Publication number
- CN114217766A CN114217766A CN202111540171.XA CN202111540171A CN114217766A CN 114217766 A CN114217766 A CN 114217766A CN 202111540171 A CN202111540171 A CN 202111540171A CN 114217766 A CN114217766 A CN 114217766A
- Authority
- CN
- China
- Prior art keywords
- entity
- training
- dependency
- intention
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/10—Requirements analysis; Specification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于预训练语言微调与依存特征的半自动需求抽取方法,包含以下步骤:预处理,实体抽取,实体融合确认,意图抽取,意图融合确认,主体关系后处理,输出建模。本发明提供的半自动需求抽取方法,融合了预训练语言微调模型与依存分析特征优势:一方面针对软件需求建模的领域问题设计了规则,通过领域知识提升了系统的可解释性与可靠性;另一方面利用了预训练语言模型泛化的便利性进行适当微调,又不至于为准确率溢价支付额外的大规模数据集标注训练。
Description
技术领域
本发明涉及自然语言处理的信息抽取技术领域,尤其是一种基于预训练语言微调模型与依存句法特征分析的半自动需求抽取方法,适用于自然语言描述的英文软件需求文档面向iStar目标模型建模的分析过程。
背景技术
在目前的软件工程领域中,软件需求是软件项目利益相关者关注的焦点。随着信息技术产业的持续发展,软件项目的体量日益增大,繁杂而庞大的需求被系统地收集、分析与管理,软件需求工程应运而生。需求建模作为软件需求工程中一个最为重要且复杂的环节,要能够高屋建瓴地明确软件项目中的主次需求信息,让软件项目的利益相关者能便捷地对需求信息进行沟通与验证,从而使得开发人员得以精确且高效地进行软件项目的开发。
在众多建模方法中,i*(iStar)目标建模框架作为面向主体的目标建模框架以其高效、实用的特点在需求建模领域受到关注。iStar是一种基于本体的特征建模框架,其中包含两种视图,分别为策略依赖视图与策略解释视图。在策略依赖模型中,基本内容是主体(Actor)与主体之间的关系,主要被用来描述在特定组织上下文中不同主体间在意图元素上形成的依赖关系,表达依赖、泛化与从属。主体的概念在iStar框架中可以进一步被扩展为代理(Agent)与角色(Role):前者表示具有具体物理表现的参与者,如特定人类个体或组织;后者表示社会行为人在特定语境领域中的抽象描述,如某种职业。在策略解释视图中,基本内容为策略依赖视图中的内部元素,主要描述参与者的内部意图以及其被系统与环境所约束的相关情形。意图元素表示参与者想要的东西,如目标(Goal)、任务(Task)、质量(Quality)、资源(Resource)等。
在基于自然语言描述的需求文本构建模型的过程中,需求分析人员需要具备相关领域知识,能够从文本中手工提取需求并转换为模型所规定的形式。在目标建模框架iStar中,建模人员需要从自然语言需求文本中抽取对应的主体以及表示任务、资源的意图元素,并提取主体间的依赖、泛化与从属关系,最终生成模型。随着软件规模的增大,由于需求与建模领域任务本身的复杂性,其所对应的模型也会变得庞大复杂,完全人工建模不仅难度高,而且相当耗时。但模型之间的关系又十分紧密,牵一发而动全身;完全自动的流程同时抽取所有模型元素,无法在建模过程中及时考虑需求分析人员的反馈,效果亦不尽如人意。因此,一种分步进行,能够辅助需求建模人员针对特定建模框架进行需求抽取的半自动建模方法尤为重要。
对自然语言文本进行信息抽取是自然语言处理技术中的一个重要研究及应用领域,其主要目的是把半结构化或非结构化的自然语言文本转化成可供后续处理的结构化数据。随着信息技术水平的不断提高,对自然语言文本进行信息抽取也是提高领域效率的重要手段。自然语言处理技术中的信息抽取通常是采用基于模板的信息抽取方法、基于统计机器学习的信息抽取方法与深度学习的信息抽取方法。基于模板的方法可分为基于关键词的信息抽取方法和基于依存句法分析的信息抽取方法。基于关键词的信息抽取方法,需要定义正则表达或关键词序列,并通过算法查找给定文本,抽取出符合要求的句式或关键词信息。基于依存句法的信息抽取,通过作为基础设施的依存句法分析器处理文本,生成对应的依存句法树,并在树上进行相应规则的匹配,查找出符合要求的待抽取信息。依存分析是通过分析语言单位内成分之间的依存关系,遍历其句法结构;基于模板的方法具有较好的准确率,可以更好地针对特定领域进行定制,在小规模的数据集上也可以实现;缺点则是可移植性差,规则定制通常需要一定的领域知识。基于统计机器学习的信息抽取方法通常基于分类模型进行构建,需要预先定义好需要抽取的数据标签内容,人工标注大量的信息,并将标注的数据分为训练集、验证集和测试集,选择并训练分类器。完成训练后,使用训练好的分类器在未知数据集上进行信息抽取的相关推理。优点在于具有相对较好的泛化性,准确率相对较好;缺点在于需要大量的数据标注以及训练调整。
近年来随着硬件水平的快速发展,深度学习技术在很多领域取得了较好的成绩,尤其是在自然语言领域取得了突出成果。早期较为典型的方法有基于循环神经网络以及文本卷积神经网络的方法。而近期广受关注的方法则是基于预训练语言模型的深度学习技术。其中最为著名的BERT模型,通过12层12头768隐藏元素的Transformer解码器,采用MaskLM和上下文预测联合训练在极大量的无监督语料中习得语言特征作为预训练权重,取得了优异的准确率。但BERT模型在工程研究中的缺点也很突出,BERT模型的训练较为耗时,需要大量的硬件算力支撑;深度学习的可解释性不佳,导致BERT捕捉的规则相对不透明;为了提升训练性能,需要预先标注大量的语料数据进行微调训练。因此对于数据集较少的领域特定任务,完全采用预训练语言模型,存在成本与效能上的顾虑。
发明内容
针对软件工程中的需求建模所需的自然语言抽取方法,尤其是针对iStar目标模型建模的需求抽取,本发明为了解决现有技术存在的上述问题,提供了一种基于预训练语言微调模型与依存句法特征相融合的英文文档半自动需求抽取方法,适用于自然语言描述的英文软件需求文档面向iStar目标模型建模的分析过程。
本发明包含以下步骤:
预处理步骤,将用户输入的文档进行预处理,生成分句的自然语言需求语句作为本步骤的输出,以备后续步骤使用;
实体抽取步骤,该步以上一步输出的经过处理的需求语句作为输入,目的是针对iStar目标建模框架的主体与资源进行抽取:输入预处理步骤处理后获得的需求语句,一方面通过基于预训练语言模型对实体信息进行序列标注推理,另一方面对依存句法特征应用启发式规则匹配方法进行名词性实体抽取,生成各自的初步待定实体信息序列作为本步骤的输出。
实体融合确认步骤,该步以上一步输出的初步待定实体信息序列两种作为输入,目的是融合二者结果,并通过用户反馈确认最终实体。本步通过启发式规则匹配方法,将实体抽取步骤中输出的预训练模型的初步待定推理结果与依存特征的初步待定抽取结果输入,对推理结果进行融合,输出最终待定实体信息序列,用户对待定结果增加、删除、修改、确认,形成确认的实体抽取结果作为本步骤的输出。
意图抽取步骤,该步以预处理步骤输出的经过处理的需求语句作为输入,目的是针对iStar目标建模框架的任务与主体间依赖关系进行抽取:输入预处理步骤输出的经过处理的需求语句,通过基于预训练语言模型对意图信息进行序列标注推理,生成初步待定的意图信息序列作为本步骤的输出。
意图融合确认步骤,该步以上一步输出的预训练模型的初步待定推理结果作为输入,目的是将预训练结果与依存分析特征相融合,并通过用户反馈确认最终实体。本步通过对应用启发式规则匹配方法,对意图抽取步骤中输出的预训练模型的初步待定推理结果进行依存特征分析,对输出序列的异常边界特征进行剪枝并匹配实体融合确认步骤中已确定的实体信息序列,输出最终的待定意图信息序列。用户对待定结果增加、删除、修改、确认,形成确认的包含施事、受事与工具实体论元的意图抽取结果作为本步骤的输出。
主体关系后处理步骤,包含指代消解和主体关系两步,该步以实体融合确认步骤与意图融合确认步骤中已确定的信息序列作为输入,目的是针对iStar目标建模框架的主体关系进行抽取。输入实体融合确认步骤与意图融合确认步骤中已确定的实体与意图信息序列,在指代消解环节,对已包含在意图抽取结果中、词性为代名词的实体应用依存分析提取对应的被指代信息,用户对待定结果增加、删除、修改、确认,替换对应的代词。在主体关系确认环节,对依存特征分析应用关键词匹配方法,对未被意图抽取结果包含的实体进行检索,用户对待定结果增加、删除、修改、确认,确定主体间存在的泛化与包含关系作为本步骤的输出。
输出建模,目的是结合此前各步产物,生成最终结果。将主体关系后处理步骤中得到的指代消解结果输入,应用于意图融合确认步骤中得到的意图抽取结果;将主体关系后处理步骤中得到的主体间关系输入,应用于实体融合确认步骤得到的实体抽取结果。输出最终包含主体与关系、详细意图信息的序列结果,用于需求建模。
与现有技术相比较,本发明提供的半自动需求抽取方法,融合了预训练语言微调模型与依存分析特征优势:一方面针对软件需求建模的领域问题设计了规则,通过领域知识提升了系统的可解释性与可靠性;另一方面利用了预训练语言模型泛化的便利性进行适当微调,又不至于为准确率溢价支付额外的大规模数据集标注训练。
附图说明
图1为本发明的整体流程图。
图2为本发明的依存分析树示意图。
图3为本发明的BERT预训练语言模型结构示意图。
图4为本发明的预处理步骤流程图。
图5为本发明的预训练模型微调流程图。
图6为本发明的实体抽取步骤流程图。
图7为本发明的实体融合确认步骤流程图。
图8为本发明的意图抽取步骤流程图。
图9为本发明的意图融合确认步骤流程图。
图10为本发明的主体关系后处理步骤流程图。
具体实施方式
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
如图1所示,该半自动需求抽取方法包括以下步骤:预处理步骤、实体抽取步骤、实体融合确认步骤、意图抽取步骤、意图融合确认步骤、主体关系后处理步骤以及输出建模。针对iStar目标模型所需的成分,主体(Actor)与资源(Resource)在实体抽取中进行处理,任务(Task)等意图元素与主体间依赖关系在意图抽取中进行处理,主体间的泛化与从属关系在实体后处理步骤中进行处理。
本发明所采用的依存分析与预训练语言模型如图2、图3所示。
在依存分析中,句子的核心动词乃是支配其他语言成分的中心成分,核心动词本身不受任何其他成分的支配:所有受支配成分都以某种依存关系从属于核心动词。以图2“Shopping system shall display the shopping cart during purchase.”为例,核心动词为“display”,其主语与宾语皆为核心动词的子节点。
BERT是最为著名的预训练语言模型架构,通过12层12头768隐藏元素的Transformer解码器,采用Mask LM和上下文预测联合训练在极大量的无监督语料中习得语言特征作为预训练权重,取得了优异的准确率。在本发明中,由于需要进行内容抽取,故采用序列标注子任务的设置,在BERT的输出层后追加全连接层,输出尺寸为BIO标签所需的分类种数,详见图3示意内容。
在预处理步骤中,整体流程如图4所示该步以英文自然语言需求文档作为输入,以预处理后的单句信息之集合作为输出。用户输入文本格式的自然语言的需求文档,采用spaCy自然语言处理工具包,对输入的用户文档依次进行分句、分词、词性标、依存分析的流水线分步骤,输出预处理后的单句信息之集合供后续处理。
预处理步骤之后,进行实体抽取步骤,该步以上一步输出的经过处理的需求语句作为输入,生成预训练模型和依存特征各自的初步待定实体信息序列作为本步骤的输出。但需要注意的是,在实体抽取步骤中所采用的BERT模型已经预先经过微调。预训练模型的微调方法如图5所示。
首先,收集、标注数据集。收集小样本软件需求规格说明书文档,以句为形式、单词为单位进行人工的BIO序列标注。其中,B表示实体或意图目标的开始词;I表示实体或意图目标的中间词或结尾词;O表示非实体或意图目标词。生成CoNLL格式的实体语料库文件与意图语料库文件供微调训练使用。
接着,使用标注好的数据集对BERT模型进行微调,使之适合领域任务。对于输入的各句信息,给每句的句首添加[CLS]标签,句尾添加[SEP]标签,将标注好的内容输入已载入预训练权重的BERT模型,获取每条语料中各个单词的特征向量H1,H2,...,Hm,通过多分类全连接层与Softmax层,输出对应的标签概率向量,以标注文件为标准计算损失后进行反向传播,完成微调。
最终,记录微调后的BERT各层权重与分类器权重,保存对应的模型。由于实体抽取与意图抽取的任务不同,因此要求各自进行微调,最终得到两个不同的微调BERT模型。实体抽取步骤分为两个子模块,即预训练实体抽取与依存分析实体抽取,具体流程如图6所示。
预训练模型实体抽取模块采用BERT推理,方式与预训练模型BERT的微调模型步骤相似,差别仅在于采用实体抽取任务的微调权重,且不进行梯度误差的反向传递,故不再赘述。依存分析实体抽取模块采用预处理步骤中生成的依存分析信息进行迭代处理。首先,对于输入的内容,逐词查找nsubj(名词主语)、nsubjpass(名词被动主语)、iobj(间接宾语)、dobj(直接标语)、pobj(介词宾语)诸名词依存类型,得到名词序列。
对序列中每一名词,循环执行依存遍历规则:
若其子节点为prep(介词)或poss(所属格),且介词所指向的为另一名词,则扩展当前目标为包含介词短语的名词短语;
若其子节点为conj(连词)或appos(同位语),且连词后有一系列并列名词,则向名词序列中加入并列名词;
若其子节点为amod(形容词)或advmod(副词),则扩展当前目标为包含形容词、副词的名词短语;
若其子节点为compound(复合词),则扩展当前名词目标为复合名词。
执行该循环规则直到不满足循环条件,序列中所有名词完成该算法为止,输出所有的目标对象。
以“Shopping system shall display the shopping cart during purchase.”为例,名词主语有“system”,宾语有“cart”,介词短语有“purchase”;扩展复合词“shopping”;最终有实体“shopping system”,“shopping cart”与“purchase”。
实体融合确认步骤,将预训练模型的实体抽取结果与依存分析的实体抽取结果作为实体融合确认步骤的输入,流程如图7所示。该步以上一步输出的预训练模型的实体抽取结果与依存分析的实体抽取结果作为输入,目的是融合二者结果,并通过用户反馈确认最终实体。对于二者的输入,可能出现同一短语但单词边界存在出入的情况。通过设置单词阈值为2,检测短语的索引边界之差,判断是否存在相同短语;在更加严格的部署方法中,采用短语结构树分析判断二者是否处于同一子句,进而确定短语是否相同。
对于相同的短语(即二者共有短语),采纳依存分析的单词边界作为结果,采纳预训练模型输出的分类来区分实体是Actor(主体)还是Resource(资源),将结果标记为预选项。对于预训练有而依存无、依存有而预训练无的实体抽取结果,按照其对应的可能性概率进行排序,将概率大于20%的结果标记为备选项。
输出预选项和备选项的结果,通过前端反馈给用户进行确认。用户可以增加实体、删除实体、修改实体的边界与类型,并提交确认。
以“Shopping system shall display the shopping cart during purchase.”为例,BERT输出Actor实体“shopping system”,Resource实体“the shopping cart”。融合依存分析结果,得到Actor信息“shopping system”,Resource实体“shopping cart”,备选实体“purchase”。用户确认后保存实体信息。
进行意图抽取步骤,过程如图8所示。该步以预处理步骤输出的经过处理的需求语句作为输入,生成预训练模型的初步待定意图信息序列作为本步骤的输出。意图抽取采用BERT推理,方式与预训练模型BERT的微调模型步骤相似,差别仅在于采用意图抽取任务的微调权重,且不进行梯度误差的反向传递,故不再赘述。
将意图抽取结果作为意图融合确认步骤的输入,流程如图9所示。该步以上一步输出的预训练模型的初步待定推理结果作为输入,目的是将预训练结果与依存分析特征相融合,并通过用户反馈确认最终实体。
对于输入语句的依存分析信息进行迭代处理。首先,查找语句对应的nsubj(名词主语)与nsubjpass(被动名词主语)依存类型主语,记录其为该子句的施事。提取其头节点作为核心动词,对核心动词的子节点进行遍历。
若其子节点有prep(介词)且紧邻核心动词,则说明当前动词为搭配介词的动词短语,扩展当前核心动词为包含介词的动词短语。
若其子节点有conj(连词),说明核心动词不止一个,将并列的动词也加入到循环队列中。
若其子节点有advmod(副词)修饰核心动词,则扩展相关的副词短语为目标。
若其子节点有dobj(直接宾语)、iobj(间接宾语)与pobj(介词宾语),则以此前描述的处理名词短语的方式处理宾语,作为目标的宾语部分,标记为受事或工具论元。
若有advcl(状语从句修饰)、acl(名词从句修饰)、pcomp(介词补语)、ccomp(从句补语)、xcomp(开放补语从句),声明此后有从句,则将其指向的从句动词作为新的核心动词,进行递归查找。
最终当不满足循环条件时结束,输出一系列语句成分;将依存分析得到的语句成分与预训练模型的意图抽取结果进行融合,查询其存在性。
如果预训练模型抽取的意图包含在除主语外(被动主语则除agent依存关系指向的宾语)的依存分析语句成分之中,且受事、施事皆为此前标记的主体,则标记当前项为预选项,通过依存成分对齐目标单词的边界,排除补语成分。如果预训练模型抽取的意图不包含在依存成分中,或受事、施事不为主体,按照其对应的可能性概率进行排序,将概率大于20%的结果标记为备选项。输出预选项和备选项的结果,通过前端反馈给用户。用户可以增加意图、删除意图、修改意图的边界,并提交确认。
主体关系后处理步骤,流程如图10所示。该步以实体融合确认步骤与意图融合确认步骤中已确定的信息序列作为输入,目的是针对iStar目标建模框架的主体关系进行抽取。输入实体融合结果,捕捉依存分析中出现的appos(同位语);若其中一方存在于意图序列结果中且为代名词,则确认存在指代关系,通过文本替换的方式完成指代消解。若不符合要求,则双方主体存在泛化关系。对于使用用户故事句式的指代,使用关键词匹配的方法获取指代项,通过文本替换的方式完成指代消解。对于泛化、包含关系,也通过关键词匹配的方法完成主体关系的提取。最终,输出供用户增改确认,得到指代消解信息与主体及关系信息。
最后输出建模,结合此前各步产物,生成最终结果。将主体关系后处理步骤得到的指代消解结果应用于意图融合确认步骤得到的意图抽取结果,将主体关系后处理步骤得到的主体关系应用于实体融合确认步骤得到的实体抽取结果,输出最终包含主体与关系、详细意图信息的序列结果,用于针对iStar目标模型的需求建模。
Claims (8)
1.基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于,包括:
(1)预处理步骤,将用户输入的文档进行预处理,生成分句的自然语言需求语句;
(2)实体抽取步骤,针对iStar目标建模框架的主体与资源意图进行抽取:输入待处理需求语句,通过基于预训练语言模型对实体信息进行序列标注推理,同时对依存句法特征应用启发式规则匹配方法进行名词性实体抽取,输出初步待定的实体信息序列;
(3)实体融合确认步骤,通过启发式规则匹配方法将预训练模型的初步待定推理结果与依存特征的初步待定抽取结果融合,输出最终待定实体信息序列,用户对待定结果增加、删除、修改、确认,形成确认的实体抽取结果;
(4)意图抽取步骤,针对iStar目标建模框架的任务与依赖关系进行抽取:输入待处理需求语句,通过基于预训练语言模型对意图信息进行序列标注推理,输出初步待定的意图信息序列;
(5)意图融合确认步骤,通过对预训练模型的初步待定推理结果应用启发式规则匹配方法进行依存特征分析,对输出序列的异常边界特征进行剪枝并匹配上一步骤中确定的实体信息序列,输出最终待定意图信息序列,用户对待定结果增加、删除、修改、确认,形成确认的包含施事、受事与工具实体论元的意图抽取结果;
(6)主体关系后处理步骤,包含指代消解和主体关系两步,针对iStar目标建模框架的主体关系进行抽取;在指代消解环节,对已包含在意图抽取结果中、词性为代名词的实体应用依存分析提取对应的被指代信息,用户对待定结果增加、删除、修改、确认,替换对应的代词;在主体关系确认环节,对依存特征分析应用关键词匹配方法,对未被意图抽取结果包含的实体进行检索,用户对待定结果增加、删除、修改、确认,确定主体间存在的泛化与包含关系;
(7)输出建模,将(6)得到的指代消解结果应用于(5)得到的意图抽取结果,将(6)得到的主体关系应用于(3)得到的实体抽取结果,输出最终包含主体关系、详细意图信息的序列结果,用于需求建模。
2.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(1)中,采用spaCy自然语言处理工具包,对输入的用户文档进行分句、分词、词性标注、依存分析,输出预处理后的单句信息之集合。
3.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(2)与步骤(4)中,被用于推理的预训练语言模型各自经过预训练微调;
训练微调分为若干步:
标注环节;收集软件需求规格说明书文档,以句为形式、单词为单位进行人工的BIO序列标注;其中,B表示实体或意图目标的开始词;I表示实体或意图目标的中间词或结尾词;O表示非实体或意图目标词;生成CoNLL格式的语料库文件供后续的微调训练;
微调环节,采用Transformer架构预训练模型BERT与预训练权重,给每句的句首添加[CLS]标签,句尾添加[SEP]标签,将标注好的内容输入预训练好的BERT模型,获取输出句子中的各个词嵌入向量,通过多分类全连接层,输出对应的标签概率,计算损失后进行反向传递,完成微调;
保存环节,记录微调后的BERT各层权重与分类器权重,保存对应的模型;由于步骤(2)与(4)训练任务的指向性不同,产生的模型权重与分类器矩阵大小不同,为两个类似但不同的预训练语言模型。
4.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(2)的启发式规则匹配方法中,通过匹配依存分析中的名词主语与直接宾语、间接宾语、介词后名词成分,并迭代查询其毗邻的连词、复合词与形容词成分,构成完整的名词性实体信息,作为初步待定的实体信息序列。
5.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(3)中,融合方法比较预训练模型的实体待定结果与依存分析的实体待定结果,对二者共有项采纳依存分析的边界。
6.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(5)中,依存特征分析环节,对预训练模型的输出内容进行匹配分析,从名词主语、名词被动主语入手,提取其核心动词,并迭代提取该动词毗邻的副词修饰语、介词修饰语,对应施事、受事与工具论元的成分,并查找其核心动词相连的补语从句、表语从句等子句,对子句中包含意图序列的短语进行类似的递归分析;最终,依存分析环节输出特征序列,每一特征都包含可选的主语、意图、宾语、介词短语;若依存分析与预训练模型共有该项,则结合依存分析输出特征对预训练语言模型输出的多余语法成分进行剪枝;否则,将结果根据概率列为备选项。
7.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(6)中,通过捕捉依存分析中出现的同位语,确定关系中双方主体的泛化关系;若其中一方存在于意图序列结果中且为代名词,则确认存在指代关系,通过文本替换的方式完成指代消解;若不符合要求,则双方主体存在泛化关系;对于使用用户故事句式的指代,使用关键词匹配的方法获取指代项,通过文本替换的方式完成指代消解;对于泛化、包含关系,也通过关键词匹配的方法完成主体关系的提取;最终,输出供用户增改确认,得到指代消解信息与主体关系信息。
8.如权利要求1所述的基于预训练语言微调与依存特征的半自动需求抽取方法,其特征在于:步骤(7)中,将(6)得到的指代消解结果应用于(5)得到的意图抽取结果,将(6)得到的主体关系应用于(3)得到的实体抽取结果,得到最终结果,以结构化文本的方式输出,供后续的建模流程使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111540171.XA CN114217766A (zh) | 2021-12-15 | 2021-12-15 | 基于预训练语言微调与依存特征的半自动需求抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111540171.XA CN114217766A (zh) | 2021-12-15 | 2021-12-15 | 基于预训练语言微调与依存特征的半自动需求抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114217766A true CN114217766A (zh) | 2022-03-22 |
Family
ID=80702763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111540171.XA Pending CN114217766A (zh) | 2021-12-15 | 2021-12-15 | 基于预训练语言微调与依存特征的半自动需求抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114217766A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625340A (zh) * | 2022-05-11 | 2022-06-14 | 深圳市商用管理软件有限公司 | 基于需求分析的商用软件研发方法、装置、设备及介质 |
CN114879936A (zh) * | 2022-04-22 | 2022-08-09 | 南京航空航天大学 | 一种面向自然语言需求的安全需求获取方法与系统 |
CN115392218A (zh) * | 2022-07-15 | 2022-11-25 | 哈尔滨工业大学 | 一种预训练语言模型的构建方法及系统 |
CN116738974A (zh) * | 2023-05-10 | 2023-09-12 | 济南云微软件科技有限公司 | 一种基于泛化因果网络的语言模型生成方法、设备及介质 |
CN117076661A (zh) * | 2023-08-17 | 2023-11-17 | 天津大学 | 面向预训练大语言模型调优的立法规划意图识别方法 |
-
2021
- 2021-12-15 CN CN202111540171.XA patent/CN114217766A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114879936A (zh) * | 2022-04-22 | 2022-08-09 | 南京航空航天大学 | 一种面向自然语言需求的安全需求获取方法与系统 |
CN114625340A (zh) * | 2022-05-11 | 2022-06-14 | 深圳市商用管理软件有限公司 | 基于需求分析的商用软件研发方法、装置、设备及介质 |
CN115392218A (zh) * | 2022-07-15 | 2022-11-25 | 哈尔滨工业大学 | 一种预训练语言模型的构建方法及系统 |
CN116738974A (zh) * | 2023-05-10 | 2023-09-12 | 济南云微软件科技有限公司 | 一种基于泛化因果网络的语言模型生成方法、设备及介质 |
CN116738974B (zh) * | 2023-05-10 | 2024-01-23 | 济南云微软件科技有限公司 | 一种基于泛化因果网络的语言模型生成方法、设备及介质 |
CN117076661A (zh) * | 2023-08-17 | 2023-11-17 | 天津大学 | 面向预训练大语言模型调优的立法规划意图识别方法 |
CN117076661B (zh) * | 2023-08-17 | 2024-05-31 | 天津大学 | 面向预训练大语言模型调优的立法规划意图识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069811B (zh) | 多任务交互增强的电子文本事件抽取方法 | |
US10007658B2 (en) | Multi-stage recognition of named entities in natural language text based on morphological and semantic features | |
CN114217766A (zh) | 基于预训练语言微调与依存特征的半自动需求抽取方法 | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
Sintoris et al. | Extracting business process models using natural language processing (NLP) techniques | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
US20180113856A1 (en) | Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts | |
Abdelnabi et al. | Generating UML class diagram using NLP techniques and heuristic rules | |
Aksenov et al. | Abstractive text summarization based on language model conditioning and locality modeling | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
Nguyen et al. | Rule-based extraction of goal-use case models from text | |
CN112328797A (zh) | 一种基于神经网络和注意力机制的情感分类方法及系统 | |
Chaturvedi et al. | Lyapunov filtering of objectivity for Spanish sentiment model | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN112183059A (zh) | 一种中文结构化事件抽取方法 | |
Mohan et al. | Sarcasm detection using bidirectional encoder representations from transformers and graph convolutional networks | |
Alhojely et al. | Recent progress on text summarization | |
Azad et al. | Picking pearl from seabed: Extracting artefacts from noisy issue triaging collaborative conversations for hybrid cloud services | |
Dai et al. | Event temporal relation classification based on graph convolutional networks | |
Wei | Research on internet text sentiment classification based on BERT and CNN-BiGRU | |
Kwon et al. | Framenet-based semantic parsing using maximum entropy models | |
Kobdani et al. | Relational feature engineering of natural language processing | |
Isaeva et al. | Semantic parsing for cognitive framing in specialized texts | |
Yu et al. | Information Security Field Event Detection Technology Based on SAtt‐LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |