CN117251523B - 一种面向科技论文的多任务信息抽取方法及系统 - Google Patents
一种面向科技论文的多任务信息抽取方法及系统 Download PDFInfo
- Publication number
- CN117251523B CN117251523B CN202311312842.6A CN202311312842A CN117251523B CN 117251523 B CN117251523 B CN 117251523B CN 202311312842 A CN202311312842 A CN 202311312842A CN 117251523 B CN117251523 B CN 117251523B
- Authority
- CN
- China
- Prior art keywords
- basic
- paper
- language model
- label
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 113
- 239000012634 fragment Substances 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000006870 function Effects 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种面向科技论文的多任务信息抽取方法及系统,涉及要素抽取技术领域,该方法包括:采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;构建基本类型查询语句,并结合基本论文语句作为输入,以基本要素片段作为输出,对基本语言模型训练;构建多标签查询语句和要素关系查询语句,并结合多标签论文语句和要素关系语句作为输入,以多标签要素片段和关系要素片段作为输出,对基本语言模型训练;基于训练完成的基本语言模型,构建要素查询语句,结合论文语句输入基本语言模型,获得要素片段。本发明解决了现有技术中科技论文内要素抽取的效果不佳的技术问题。
Description
技术领域
本发明涉及要素抽取技术领域,具体涉及一种面向科技论文的多任务信息抽取系统。
背景技术
要素抽取是从论文等文本中识别出需要的要素片段的任务,是论文知识图谱构建最为基础和关键的部分。对于科技论文的要素抽取存在着嵌套、多标签和低资源的特点,例如“卷积原型网络”属于方法类型的要素,而其中的“原型网络”同时也是方法类型的要素,例如“图神经网络”在要素类型中可归类到“方法”基本类型标签,但还可归类到“当前热点”等标签。现有的要素抽取方法只能对单一类别的要素进行识别,无法进行具有多标签的要素抽取,也无法进行“提出”、“解决”等要素之间关系和多标签要素的抽取,如果简单地将多标签、具有要素关系的要素抽取问题转换为多个单一标签的要素抽取问题,会导致模型复杂且性能不佳。
因此,现有技术中,存在着科技论文内要素抽取效果不佳的问题。
发明内容
本申请提供了一种面向科技论文的多任务信息抽取方法,用于针对解决现有技术中科技论文内具有嵌套、多标签属性、要素关联关系的要素抽取效果不佳的问题。
第一方面,本申请提供了一种面向科技论文的多任务信息抽取方法,该方法包括:采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;
构建基本类型查询语句,并结合在所述论文训练集内提取获得的具有基本类型要素的基本论文语句,作为基本语言模型的输入,以及提取具有基本类型要素的基本要素片段,作为基本语言模型的输出,对基本语言模型进行第一阶段训练至满足第一收敛条件;
构建多标签查询语句和要素关系查询语句,结合在所述论文训练集内提取获得的具有多标签要素的多标签论文语句,以及具有要素关系的要素关系语句,作为基本语言模型的输入,以及提取具有多标签要素的多标签要素片段和具有尾要素的关系要素片段,作为所述基本语言模型的输出,对基本语言模型进行第二阶段训练至满足第二收敛条件;
基于构建完成的所述基本语言模型,构建当前需要进行要素抽取的要素查询语句,结合所述论文集内的论文语句输入所述基本语言模型,获得识别获得的要素片段。
第二方面,本申请提供了一种面向科技论文的多任务信息抽取系统,所述系统包括:要素抽取准备模块,用于采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;
基本类型训练模块,用于构建基本类型查询语句,并结合在所述论文训练集内提取获得的具有基本类型要素的基本论文语句,作为基本语言模型的输入,以及提取具有基本类型要素的基本要素片段,作为所述基本语言模型的输出,对所述基本语言模型进行第一阶段训练至满足第一收敛条件;
多任务训练模块,用于构建多标签查询语句和要素关系查询语句,结合在所述论文训练集内提取获得的具有多标签要素的多标签论文语句,以及具有要素关系的要素关系语句,作为基本语言模型的输入,以及提取具有多标签要素的多标签要素片段和具有尾要素的关系要素片段,作为所述基本语言模型的输出,对所述基本语言模型进行第二阶段训练至满足第二收敛条件;
信息抽取模块,用于基于构建完成的所述基本语言模型,构建当前需要进行要素抽取的要素查询语句,结合所述论文集内的论文语句输入所述基本语言模型,获得识别获得的要素片段。
第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面内方法的步骤。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面内方法的步骤。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请通过采集有标注的论文训练集以及待进行要素抽取的论文集,构建基础的基本语言模型,然后构建用于识别基本类型的基本类型查询语句,并在论文训练集内提取具有基本类型要素的基本论文语句,以及基本要素片段,对基本语言模型进行第一阶段训练,然后构建用于识别多标签要素的多标签查询语句和要素关系查询语句,并在论文训练集内提取具有多标签属性要素的多标签论文语句,以及具有要素关系的要素关系语句,以及多标签要素片段和具有尾要素的关系要素片段,对基本语言模型进行第二阶段训练型,然后构建当前需要进行查询的要素查询语句,对论文集内的论文语句进行要素抽取,获得要素片段。本申请通过设计查询语句模板构建查询语句,能够进行不同基本类型或标签或多标签组合的要素查询识别,解决科技论文内多标签以及嵌套的要素抽取问题,且可以通过要素关系识别出尾要素,自由度较高,且在分类为主的要素片段分类方案中,融入以匹配方案为主的原型学习模块,提升模型识别要素的性能,并采用两阶段训练的方式,先对样本量较大的基本类型要素进行训练,再对数量较小的多标签带属性要素完成训练,提升低资源条件下的模型表现,达到提升科技论文内要素抽取效果的技术效果。
附图说明
图1为本申请提供了一种面向科技论文的多任务信息抽取方法流程示意图;
图2为本申请提供了一种面向科技论文的多任务信息抽取方法中进行多任务信息抽取的架构示意图;
图3为本申请提供了一种面向科技论文的多任务信息抽取方法中查询语句模板的示意图;
图4为本申请提供了一种面向科技论文的多任务信息抽取方法中训练基本语言模型的流程示意图;
图5为本申请提供了一种面向科技论文的多任务信息抽取系统结构示意图。
图6为一个实施例中计算机设备的内部结构图。
附图标记说明:要素抽取准备模块11,基本类型训练模块12,多任务训练模块13,信息抽取模块14。
具体实施方式
本申请通过提供一种面向科技论文的多任务信息抽取方法,用于解决现有技术中科技论文内具有多标签属性的要素抽取效果不佳的问题。
实施例一
如图1所示,本申请实施例提供了一种面向科技论文的多任务信息抽取方法,该方法包括:
S100:采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;
本申请实施例中,基于需要进行的科技论文要素抽取任务,采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集。
其中,论文训练集为包括已知需要识别的要素的位置以及要素的类别的论文语句集合,其内包括需要进行识别的要素的基本类型、描述级别属性/重要性属性以及要素关系,示例性地,基本类型可以包括:作者、论文、问题、方法、应用、结果等,重要性属性包括:当前热点、历史里程碑、未来突破点等,描述级别属性包括:领域级、次领域级等,要素关系包括:用于、属于、发表、提出等,例如某作者提出了某问题。可基于本领域技术人员,通过对论文训练集内论文语句中的要素进行识别和标记,获得该论文训练集。
论文集为待进行要素抽取的论文语句的集合,在要素抽取之前,不知道论文语句内要素的位置以及要素的基本类型、描述级别属性、重要性属性以及要素间关系等。
构建基本语言模型,用于进行论文识别的论文语句基础处理工作。
本申请实施例提供的方法中的步骤S100还包括:
S110:基于BERT,构建所述基本语言模型的基本架构,所述基本语言模型包括原型学习模块;
S120:获取待进行查询的多个描述级别属性、多个重要性属性、多个基本类型和多个要素关系,构建查询语句模板。
如图2所示,本申请实施例中,示例性地,基于BERT,构建进行多任务信息抽取的网络架构,作为基本语言模型的架构,其除了包括传统的文本要素抽取的片段分类模块以外,还引入了匹配方案学习模块,提升要求抽取分类的准确性,具体由前连接层、归一化层、连接层、激活函数层等架构组成。可选的,也可采用现有技术中其他的模型架构构建基本语言模型,以实现基础的文本要素抽取功能为基础。
基本语言模型内除了分类为主的网络架构,还包括以匹配方案为主的原型学习模块,可提升基本类型的识别性能。
进一步地,如图3所示,获取当前进行科技论文识别要素查询的多个描述级别属性、多个重要性属性、多个基本类型和多个要素关系,如上述内容中基本类型可以包括:作者、论文、问题、方法、应用、结果等,重要性属性包括:当前热点、历史里程碑、未来突破点等,描述级别属性包括:领域级、次领域级等,要素关系包括:提出问题、提出方法、属于、用于、发表等。要素关系查询语句包括头要素、头要素基本类型、要素间关系类型、尾要素基本类型,例如某一要素关系查询语句为某一学者提出的方法,则对应的查询答案为具体的研究方法,为尾要素。
基于该多个描述级别属性、多个重要性属性、多个基本类型和多个要素关系,构建查询语句模板,查询语句模板内包括不同的描述级别属性、重要性属性、基本类型和要素关系组成的多个不同的查询语句,例如查询语句“找出当前热点问题”,其内包括重要性属性“当前热点”和一个基本类型“问题”,通过查询模板,可选用不同的查询语句,进行任意的要素类别或要素类别组合的要素查询识别。
S200:构建基本类型查询语句,并结合在所述论文训练集内提取获得的具有基本类型要素的基本论文语句,作为基本语言模型的输入,以及提取具有基本类型要素的基本要素片段,作为所述基本语言模型的输出,对所述基本语言模型进行第一阶段训练至满足第一收敛条件;
本申请实施例中,首先进行样本量较大的基本类型要素的识别训练。
本申请实施例中,采用论文训练集中所有已知含有基本类型要素的论文语句,将上述的基本语言模型作为一个基本语言模型并进行训练,即为原型学习模块,在构建查询语句时,构建仅包括基本类型的查询语句,例如“找出问题”,形成基本类型查询语句。
结合该基本类型查询语句,以及论文训练集内提取获得的具有基本类型要素的基本论文语句,例如具有“问题”的基本论文语句,作为基本语言模型的输入。
进一步地,提取具有基本类型要素的基本要素片段,例如具有“问题”的要素片段,作为基本要素片段,作为该基本语言模型的输出。如此,获得基本语言模型的训练数据,对该基本语言模型训练至满足第一收敛条件。
本申请实施例提供的方法中的步骤S200包括:
S210:根据所述查询语句模板,构建所述基本类型查询语句,所述基本类型查询语句内包括目标基本类型;
S220:根据所述目标基本类型,在所述论文训练集内进行检索,获取具有所述目标基本类型的基本类型要素的所述基本论文语句;
S230:在所述基本论文语句内进行检索,获取具有所述目标基本类型的基本类型要素的基本要素片段;
S240:采用所述基本类型查询语句、基本论文语句作为输入,采用所述基本要素片段作为输出,对所述基本语言模型并进行训练,直到满足所述第一收敛条件,获得所述基本语言模型。
本申请实施例中,根据上述的查询语句模板,构建具有不同基本类型要素的基本类型查询语句,基本类型查询语句内包括进行不同基本类型要素查询的目标基本类型,将基本类型查询语句作为输入训练数据。
如图4所示,根据该不同的目标基本类型,在论文训练集内进行检索,获取具有不同的目标基本类型的基本类型要素的基本论文语句,作为输入训练数据。
进一步地,在提取的基本论文语句内,按照该目标基本类型,进行检索,获取具有目标基本类型的基本类型要素的基本要素片段,作为输出训练数据。由于论文训练集内不同要素的位置以及属性都已被标记,可直接检索获得。
如此,采用该基本类型查询语句、基本论文语句作为输入,采用该基本要素片段作为输出,可作为训练数据,对基本语言模型并进行训练,直到满足第一收敛条件,获得构建完成的基本语言模型。
本申请实施例提供的步骤S240包括:
S241:在所述论文训练集内,根据所述基本要素片段,确定所述基本要素片段起点token和终点token;
S242:将所述基本类型查询语句和基本论文语句转化为查询语句token和论文语句token;
S243:采用所述基本要素片段起点token和终点token,结合所述查询语句token和论文语句token,训练所述基本语言模型,直到满足所述第一收敛条件。
本申请实施例中,在构建训练数据的过程中,基于该基本要素片段,在上述的论文训练集内,提取该基本要素片段的起点token(Beginning Token)和终点token(EndToken),作为基本语言模型的输出。
以及,将上述的基本类型查询语句和基本论文语句转化为查询语句token和论文语句token,基本语言模型的输入为查询语句文本转换得到的token和论文语句文本转换得到的token,BERT模型输出为每一个token的向量表征。
其中,将查询语句文本和论文语句文本转化为token为通用技术,文本内的一个字符对应一个或多个token,基于本领域技术人员可进行转换。
如此,将该基本要素片段起点token和终点token,结合查询语句token和论文语句token,直接作为基本语言模型的输入数据和输出数据,对其进行训练,直到满足第一收敛条件。
本申请实施例提供的方法中的步骤S243包括:
S243-1:构建第一损失函数,其中,所述第一损失函数计算所述基本语言模型输出的分类预测值和分类真实值的交叉熵,所述分类真实值为所述基本类型查询语句内的目标基本类型;
S243-2:构建第二损失函数,其中,所述第二损失函数计算原型归属度预测值和原型归属度真实值的交叉熵,所述原型归属度真实值为所述查询语句模板内全部基本类型的数量加1的向量,且所述目标基本类型对应的位为1,其他位为0;
S243-3:根据所述第一损失函数和第二损失函数作为目标函数,在训练过程中计算所述基本语言模型的损失和,直到损失和达到损失和阈值,满足所述第一收敛条件。
本申请实施例中,该第一收敛条件通过构建基本语言模型的目标函数进行设置。
在一个实施例中,构建该基本语言模型的第一损失函数(Loss_C),该第一损失函数计算基本语言模型输出的分类预测值和分类真实值的交叉熵,分类真实值为基本类型查询语句内的目标基本类型,即查询获得的要素片段是否为基本类型查询语句对应的要素,通过二进制进行标识,1表示是,0表示否。
以及,构建该基本语言模型的第二损失函数(Loss_G),第二损失函数计算原型归属度预测值和原型归属度真实值的交叉熵,原型归属度真实值为长度为查询语句模板内全部基本类型的数量加1的向量,向量内的每一位均为二进制,且最后一位不对应基本类型,其他每一位对应一种基本类型,且目标基本类型是对应的位为1,其他位为0。如果识别获得的要素片段包括属于其他的基本类型,则属于的基本类型对应的位为1,其他位为0。
根据第一损失函数和第二损失函数作为目标函数,在训练过程中,根据基本语言模型输出的要素片段,进行向量表征,并结合原型归属度真实值和分类真实值,计算基本语言模型第一损失和第二损失,进而计算获得损失和,直到该损失和达到损失和阈值,则训练满足第一收敛条件。
该损失和阈值可根据基本语言模型的准确性要求,基于本领域技术人员进行设置。
本申请实施例提供的方法中的步骤S243-3还包括:
S243-31:将所述基本要素片段起点token的BERT输出向量和终点token的BERT输出向量进行连接,通过全连接层和归一化层获取片段向量表征;
S243-32:采用所述片段向量表征与层归一化后的每个基本类型的原型向量相乘,通过尺度归一化和SoftMax归一化,获得原型归属度预测值;
S243-33:对所述片段向量表征进行全连接层和sigmoid激活函数处理,获得分类预测值;
S243-34:根据所述第一损失函数和第二损失函数,结合所述原型归属度预测值和分类预测值,计算获得第一损失和第二损失,并计算获得损失和。
本申请实施例中,基于基本语言模型的模型结构,具体训练的过程如下。
将该基本要素片段起点token的BERT输出向量和终点token的BERT输出向量进行连接,通过全连接层和归一化层获取片段向量表征(Beginning Embedding和EndEmbedding)。
然后,采用片段向量表征与层归一化(Layer Normalization)后的每个基本类型的原型向量(Prototype Embedding)相乘,通过尺度归一化和SoftMax归一化,获得原型归属度预测值。
以及,对片段向量表征进行全连接层(Feed Forward)处理和sigmoid激活函数处理,获得在0-1之间的分类预测值。如此,结合该分类预测值和原型归属度预测值,采用上述的目标函数,计算获得损失和,然后通过最小化损失和对该基本语言模型的参数进行反向传播和模型参数调整优化,直到满足上述的第一收敛条件,使得基本语言模型输出的分类预测值接近于分类真实值,完成基本语言模型的构建。
S300:构建多标签查询语句和要素关系查询语句,并结合在所述论文训练集内提取获得的具有多标签要素的多标签论文语句,以及具有要素关系的要素关系语句,作为基本语言模型的输入,以及提取具有多标签要素的多标签要素片段和具有尾要素的关系要素片段,作为所述基本语言模型的输出,对所述基本语言模型进行第二阶段训练至满足第二收敛条件;
本申请实施例中,在完成大样本的基本类型识别的训练后,继续进行小样本的多标签查询识别的训练。
其中,根据上述的查询语句模板,构建多标签查询语句,并结合在论文训练集内提取获得的具有多标签要素的多标签论文语句,作为基本语言模型的输入,进一步进行多标签要素的识别训练。以及提取具有多标签要素的多标签要素片段,作为基本语言模型的输出,对基本语言模型训练。
进一步地,根据上述的查询语句模板,构建要素关系查询语句,并结合在论文训练集内提取获得的具有要素关系及对应尾要素的要素关系语句,作为基本语言模型的输入,以及提取具有尾要素的关系要素片段,作为基本语言模型的输出,作为进一步进行要素关系的识别训练的训练数据,对基本语言模型内原型学习模块外的分类模块进行训练。如此,通过多标签和要素关系识别训练,完成基本语言模型第二阶段的训练,直到满足第二约束条件。
结合多标签查询语句和要素关系查询语句完成训练后,基本语言模型输入的查询语句为Find out the{描述级别标签}{重要性标签}[基本类型]s{要素间关系的约束条件}。在此基础上,进一步定义了{要素间关系的约束条件}子模板,即要素关系,其具体内容是:that[头要素的类型]of[头要素]{关系谓词}。其中,{}表示可选项,[]表示必选项。例如,抽取“作者”类要素时,在模板中填入相应基本类型,得到查询语句“Find out theauthors”。如果识别到作者Hu et al.,再构建查询语句"Find out the methods that theauthors of Hu et al.proposed."识别其提出的方法。
本申请实施例提供的方法中的步骤S300包括:
S310:根据所述查询语句模板,构建所述多标签查询语句和要素关系查询语句,所述多标签查询语句包括目标基本类型、目标描述级别属性和目标重要性属性,所述要素关系查询语句包括头要素、要素关系、尾要素基本类型;
S320:根据所述多标签查询语句和要素关系查询语句,在所述论文训练集内进行检索,获取所述多标签论文语句和要素关系语句;
S330:在所述多标签论文语句和要素关系语句内,根据所述多标签查询语句和要素关系查询语句,检索获取多标签要素片段和具有尾要素的关系要素片段;
S340:采用所述多标签查询语句、多标签论文语句、要素关系查询语句和要素关系语句作为输入,采用所述多标签要素片段和关系要素片段作为输出,根据所述第一损失函数作为目标函数,对所述基本语言模型进行第二阶段训练,直到满足所述第二收敛条件。
如图4所示,本申请实施例中,根据上述的查询语句模板,构建不同的多标签查询语句和要素关系查询语句,不同的多标签查询语句包括不同的目标基本类型、不同的目标描述级别属性和不同的目标重要性属性,以进行不同多标签要素抽取任务的训练,不同的要素关系查询语句包括不同的头要素、要素关系和尾要素基本类型,以进行不同的要素关系尾要素的识别任务的训练。
根据多标签查询语句和要素关系查询语句,在论文训练集内进行检索,获取符合该多标签查询语句和要素关系查询语句查询目标的要素的论文语句文本,作为多标签论文语句和要素关系语句。
进一步地,在多标签论文语句内和要素关系语句,根据该多标签查询语句和要素关系查询语句,检索获取具有该目标基本类型、目标描述级别属性和目标重要性属性的要素语句的多标签要素片段,以及符合要素关系语句内头要素、要素关系和尾要素基本类型的要素片段,作为具有尾要素的关系要素片段。
如此,采用该多标签查询语句、多标签论文语句、要素关系查询语句和要素关系语句作为输入,以及多标签要素片段和关系要素片段作为输出,采用上述的第一损失函数作为目标函数,对基本语言模型进行第二阶段训练,直到满足第二收敛条件。
示例性地,第二收敛条件包括基本语言模型的损失达到损失阈值,该损失阈值可基于本领域技术人员进行设置。
基本语言模型第二阶段的训练未采用第二损失函数,其他的训练过程与第一阶段的训练过程一致,在此不再赘述。
本申请实施例通过采用两阶段训练的方式,先对样本量较大的基本类别要素进行训练,再对数量较小的带属性要素以及要素关系完成训练,提升低资源条件下的模型表现。
S400:基于训练完成的所述基本语言模型,构建当前需要进行要素抽取的要素查询语句,结合所述论文集内的论文语句输入所述基本语言模型,获得识别获得的要素片段。
本申请实施例中,基于训练完成的基本语言模型,完成科技论文识别的语言模型的构建,可根据需求对论文语句内的位置和标签进行预测,适用于多标签以及要素关系识别任务的论文要素预测识别。
进一步地,基于当前的要素抽取需求,结合前述内容中的查询语句模板,构建当前需要进行要素抽取的要素查询语句,其内包括当前需要进行识别的要素的基本类型、重要性属性和描述级别属性,还可包括要素关系。然后将其结合论文集内需要进行要素抽取的论文语句输入上述的基本语言模型,获得识别出来的要素片段,该要素片段内的要素即属于该要素查询语句内的基本类型、重要性属性和描述级别属性,或为符合要素关系查询内的尾要素。
本申请实施例通过上述技术方案,至少达到了以下技术效果:
本申请通过设计查询语句模板构建查询语句,能够进行不同基本类型或标签或多标签组合或要素关系查询的要素查询识别,解决科技论文内多标签以及嵌套的要素抽取问题,且可以通过要素关系识别出尾要素,自由度较高,且在分类为主的要素片段分类方案中,融入以匹配方案为主的原型学习模块,提升模型识别要素的性能,并采用两阶段训练的方式,先对样本量较大的基本类型要素进行训练,再对数量较小的多标签带属性要素完成训练,提升低资源条件下的模型表现,达到提升科技论文内要素抽取效果的技术效果。
实施例二
基于与前述实施例中一种面向科技论文的多任务信息抽取方法相同的发明构思,如图5所示,本申请提供了一种面向科技论文的多任务信息抽取系统,系统包括:
要素抽取准备模块11,用于采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;
基本类型训练模块12,用于构建基本类型查询语句,并结合在所述论文训练集内提取获得的具有基本类型要素的基本论文语句,作为基本语言模型的输入,以及提取具有基本类型要素的基本要素片段,作为所述基本语言模型的输出,对所述基本语言模型进行第一阶段训练至满足第一收敛条件;
多任务训练模块13,用于构建多标签查询语句和要素关系查询语句,结合在所述论文训练集内提取获得的具有多标签要素的多标签论文语句,以及具有要素关系的要素关系语句,作为基本语言模型的输入,以及提取具有多标签要素的多标签要素片段和具有尾要素的关系要素片段,作为所述基本语言模型的输出,对所述基本语言模型进行第二阶段训练至满足第二收敛条件;
信息抽取模块14,用于基于训练完成的所述基本语言模型,构建当前需要进行要素抽取的要素查询语句,结合所述论文集内的论文语句输入所述基本语言模型,获得识别获得的要素片段。
进一步而言,所述要素抽取准备模块11还用于执行以下步骤:
基于BERT,构建所述基本语言模型的基本架构,所述基本语言模型包括原型学习模块;
获取待进行查询的多个描述级别属性、多个重要性属性、多个基本类型和多个要素关系,构建查询语句模板。
进一步而言,所述基本类型训练模块12还用于执行以下步骤:
根据所述查询语句模板,构建所述基本类型查询语句,所述基本类型查询语句内包括目标基本类型;
根据所述目标基本类型,在所述论文训练集内进行检索,获取具有所述目标基本类型的基本类型要素的所述基本论文语句;
在所述基本论文语句内进行检索,获取具有所述目标基本类型的基本类型要素的基本要素片段;
采用所述基本类型查询语句、基本论文语句作为输入,采用所述基本要素片段作为输出,对所述基本语言模型进行第一阶段训练,直到满足所述第一收敛条件,获得所述基本语言模型。
其中,在所述论文训练集内,根据所述基本要素片段,确定所述基本要素片段起点token和终点token;
将所述基本类型查询语句和基本论文语句转化为查询语句token和论文语句token;
采用所述基本要素片段起点token和终点token,结合所述查询语句token和论文语句token,训练所述基本语言模型,直到满足所述第一收敛条件。
其中,构建第一损失函数,其中,所述第一损失函数计算所述基本语言模型输出的分类预测值和分类真实值的交叉熵,所述分类真实值为所述基本类型查询语句内的目标基本类型;
构建第二损失函数,其中,所述第二损失函数计算原型归属度预测值和原型归属度真实值的交叉熵,所述原型归属度真实值为所述查询语句模板内全部基本类型的数量加1的向量,且所述目标基本类型对应的位为1,其他位为0;
根据所述第一损失函数和第二损失函数作为目标函数,在训练过程中计算所述基本语言模型的损失和,直到损失和达到损失和阈值,满足所述第一收敛条件。
其中,将所述基本要素片段起点token的BERT输出向量和终点token的BERT输出向量进行连接,通过全连接层和归一化层获取片段向量表征;
采用所述片段向量表征与层归一化后的每个基本类型的原型向量相乘,通过尺度归一化和SoftMax归一化,获得原型归属度预测值;
对所述片段向量表征进行全连接层和sigmoid激活函数处理,获得分类预测值;
根据所述第一损失函数和第二损失函数,结合所述原型归属度预测值和分类预测值,计算获得第一损失和第二损失,并计算获得损失和。
进一步地,所述多任务训练模块13还用于执行以下步骤:
根据所述查询语句模板,构建所述多标签查询语句和要素关系查询语句,所述多标签查询语句包括目标基本类型、目标描述级别属性和目标重要性属性,所述要素关系查询语句包括头要素、要素关系、尾要素基本类型;
根据所述多标签查询语句和要素关系查询语句,在所述论文训练集内进行检索,获取所述多标签论文语句和要素关系语句;
在所述多标签论文语句和要素关系语句内,根据所述多标签查询语句和要素关系查询语句,检索获取多标签要素片段和具有尾要素的关系要素片段;
采用所述多标签查询语句、多标签论文语句、要素关系查询语句和要素关系语句作为输入,采用所述多标签要素片段和关系要素片段作为输出,根据所述第一损失函数作为目标函数,对所述基本语言模型进行第二阶段训练,直到满足所述第二收敛条件。
本说明书通过前述对一种面向科技论文的多任务信息抽取方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种面向科技论文的多任务信息抽取方法及系统,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
关于一种面向科技论文的多任务信息抽取系统的具体实施例可以参见上文中对于一种面向科技论文的多任务信息抽取方法的实施例,在此不再赘述。上述一种面向科技论文的多任务信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻数据以及时间衰减因子等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向科技论文的多任务信息抽取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例三
如图6所示,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现实施例一内方法的步骤。
实施例四
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例一内方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种面向科技论文的多任务信息抽取方法,其特征在于,所述方法包括:
采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;
构建基本类型查询语句,并结合在所述论文训练集内提取获得的具有基本类型的基本论文语句,作为基本语言模型的输入,以及提取具有基本类型的基本要素片段,作为基本语言模型的输出,对基本语言模型进行第一阶段训练至满足第一收敛条件;
构建多标签查询语句和要素关系查询语句,结合在所述论文训练集内提取获得的具有多标签要素的多标签论文语句,以及具有要素关系的要素关系语句,作为基本语言模型的输入,以及提取具有多标签要素的多标签要素片段和具有尾要素的关系要素片段,作为所述基本语言模型的输出,对基本语言模型进行第二阶段训练至满足第二收敛条件;
基于训练完成的基本语言模型,构建当前需要进行要素抽取的要素查询语句,结合所述论文集内的论文语句输入所述基本语言模型,获得识别获得的要素片段。
2.根据权利要求1所述的方法,其特征在于,构建基本语言模型,包括:
基于BERT,构建所述基本语言模型的基本架构,所述基本语言模型包括原型学习模块;
获取待进行查询的多个描述级别属性、多个重要性属性、多个基本类型和多个要素关系,构建查询语句模板。
3.根据权利要求2所述的方法,其特征在于,所述方法包括:
根据所述查询语句模板,构建所述基本类型查询语句,所述基本类型查询语句内包括目标基本类型;
根据所述目标基本类型,在所述论文训练集内进行检索,获取具有所述目标基本类型的基本类型要素的所述基本论文语句;
在所述基本论文语句内进行检索,获取具有所述目标基本类型的基本类型要素的基本要素片段;
采用所述基本类型查询语句、基本论文语句作为输入,采用所述基本要素片段作为输出,对基本语言模型进行第一阶段训练,直到满足所述第一收敛条件基本语言模型。
4.根据权利要求3所述的方法,其特征在于,所述方法包括:
在所述论文训练集内,根据所述基本要素片段,确定所述基本要素片段起点token和终点token;
将所述基本类型查询语句和基本论文语句转化为查询语句token和论文语句token;
采用所述基本要素片段起点token和终点token,结合所述查询语句token和论文语句token,训练所述基本语言模型,直到满足所述第一收敛条件。
5.根据权利要求4所述的方法,其特征在于,所述方法包括:
构建第一损失函数,其中,所述第一损失函数计算基本语言模型输出的分类预测值和分类真实值的交叉熵,所述分类真实值为所述基本类型查询语句内的目标基本类型;
构建第二损失函数,其中,所述第二损失函数计算原型归属度预测值和原型归属度真实值的交叉熵,所述原型归属度真实值为所述查询语句模板内全部基本类型的数量加1的向量,且所述目标基本类型对应的位为1,其他位为0;
根据所述第一损失函数和第二损失函数作为目标函数,在训练过程中计算基本语言模型的损失和,直到损失和达到损失和阈值,满足所述第一收敛条件。
6.根据权利要求5所述的方法,其特征在于,所述方法包括:
将所述基本要素片段起点token的BERT输出向量和终点token的BERT输出向量进行连接,通过全连接层和归一化层获取片段向量表征;
采用所述片段向量表征与层归一化后的每个基本类型的原型向量相乘,通过尺度归一化和SoftMax归一化,获得原型归属度预测值;
对所述片段向量表征进行全连接层和sigmoid激活函数处理,获得分类预测值;
根据所述第一损失函数和第二损失函数,结合所述原型归属度预测值和分类预测值,计算获得第一损失和第二损失,并计算获得损失和。
7.根据权利要求5所述的方法,其特征在于,所述方法包括:
根据所述查询语句模板,构建所述多标签查询语句和要素关系查询语句,所述多标签查询语句包括目标基本类型、目标描述级别属性和目标重要性属性,所述要素关系查询语句包括头要素、要素关系、尾要素基本类型;
根据所述多标签查询语句和要素关系查询语句,在所述论文训练集内进行检索,获取所述多标签论文语句和要素关系语句;
在所述多标签论文语句和要素关系语句内,根据所述多标签查询语句和要素关系查询语句,检索获取多标签要素片段和具有尾要素的关系要素片段;
采用所述多标签查询语句、多标签论文语句、要素关系查询语句和要素关系语句作为输入,采用所述多标签要素片段和关系要素片段作为输出,根据所述第一损失函数作为目标函数,对基本语言模型进行第二阶段训练,直到满足所述第二收敛条件。
8.一种面向科技论文的多任务信息抽取系统,其特征在于,所述系统包括:
要素抽取准备模块,用于采集用于进行要素抽取的论文训练集和待进行要素抽取的论文集,并构建基本语言模型;
基本类型训练模块,用于构建基本类型查询语句,结合在所述论文训练集内提取获得的具有基本类型要素的基本论文语句,作为基本语言模型的输入,以及提取具有基本类型要素的基本要素片段,作为所述基本语言模型的输出,对基本语言模型训练至满足第一收敛条件;
多任务训练模块,用于构建多标签查询语句和要素关系查询语句,并结合在所述论文训练集内提取获得的具有多标签要素的多标签论文语句,以及具有要素关系的要素关系语句,作为基本语言模型的输入,以及提取具有多标签要素的多标签要素片段和具有尾要素的关系要素片段,作为所述基本语言模型的输出,对基本语言模型训练至满足第二收敛条件;
信息抽取模块,用于基于训练完成的所述基本语言模型,构建当前需要进行要素抽取的要素查询语句,结合所述论文集内的论文语句输入所述基本语言模型,获得识别获得的要素片段。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311312842.6A CN117251523B (zh) | 2023-10-11 | 2023-10-11 | 一种面向科技论文的多任务信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311312842.6A CN117251523B (zh) | 2023-10-11 | 2023-10-11 | 一种面向科技论文的多任务信息抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117251523A CN117251523A (zh) | 2023-12-19 |
CN117251523B true CN117251523B (zh) | 2024-02-13 |
Family
ID=89129194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311312842.6A Active CN117251523B (zh) | 2023-10-11 | 2023-10-11 | 一种面向科技论文的多任务信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251523B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN112989813A (zh) * | 2021-03-08 | 2021-06-18 | 北京航空航天大学 | 一种基于预训练语言模型的科技资源关系抽取方法及装置 |
CN115357692A (zh) * | 2022-05-19 | 2022-11-18 | 西安建筑科技大学 | 一种中文问答信息抽取方法、系统、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022134071A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
-
2023
- 2023-10-11 CN CN202311312842.6A patent/CN117251523B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN112989813A (zh) * | 2021-03-08 | 2021-06-18 | 北京航空航天大学 | 一种基于预训练语言模型的科技资源关系抽取方法及装置 |
CN115357692A (zh) * | 2022-05-19 | 2022-11-18 | 西安建筑科技大学 | 一种中文问答信息抽取方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
BERT-PAGG: a Chinese relationship extraction model fusing PAGG and entity location information;Bin Xu 等;Computer Science;20230717;1-17 * |
Also Published As
Publication number | Publication date |
---|---|
CN117251523A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN110263325B (zh) | 中文分词系统 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
WO2022048194A1 (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN110580308A (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112199512B (zh) | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 | |
CN112597285B (zh) | 一种基于知识图谱的人机交互方法及系统 | |
CN112035599A (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN112270188A (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN113988071A (zh) | 一种基于金融知识图谱的智能对话方法及装置、电子设备 | |
CN117708157A (zh) | 一种sql语句生成方法和装置 | |
CN114860942A (zh) | 文本意图分类方法、装置、设备及存储介质 | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
CN112270189B (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
CN117251523B (zh) | 一种面向科技论文的多任务信息抽取方法及系统 | |
Zhu et al. | TAG: UML Activity Diagram Deeply Supervised Generation from Business Textural Specification | |
CN114676237A (zh) | 语句相似度确定方法、装置、计算机设备和存储介质 | |
CN114116975A (zh) | 一种多意图识别方法及系统 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
Kuttiyapillai et al. | Improved text analysis approach for predicting effects of nutrient on human health using machine learning techniques | |
CN111382247A (zh) | 一种内容推送优化方法、内容推送优化装置及电子设备 | |
CN115905456B (zh) | 一种数据识别方法、系统、设备及计算机可读存储介质 | |
CN113297828B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |