CN115033717A - 三元组抽取模型训练方法、三元组抽取方法、装置及设备 - Google Patents
三元组抽取模型训练方法、三元组抽取方法、装置及设备 Download PDFInfo
- Publication number
- CN115033717A CN115033717A CN202210964565.6A CN202210964565A CN115033717A CN 115033717 A CN115033717 A CN 115033717A CN 202210964565 A CN202210964565 A CN 202210964565A CN 115033717 A CN115033717 A CN 115033717A
- Authority
- CN
- China
- Prior art keywords
- sample
- subject
- prediction
- triple
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种三元组抽取模型训练方法、三元组抽取方法、装置及设备,涉及自然语言处理技术领域。该方法包括:获取样本文本以及样本文本对应的多个样本三元组;各样本三元组中的样本主体进行遍历,确定各样本主体对应的样本权重,其中,样本权重用于表征与样本主体具有相同关系以及相同客体的主体的数量;将样本文本输入初始三元组抽取模型,得到多个预测三元组;以各预测三元组、各样本三元组以及各样本主体对应的样本权重作为损失函数的输入参数,确定初始三元组抽取模型的损失信息,并根据损失信息对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。应用本申请实施例,可提高对三元组抽取的精确度。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种三元组抽取模型训练方法、三元组抽取方法、装置及设备。
背景技术
知识图谱是指通过可视化构建原始文本中各关键信息之间的关联关系,构建知识图谱的一种重要步骤是三元组抽取,三元组中包括主体、客体以及主体与客体之间的关系。
目前,利用CasRel模型框架(novel cascade binary tagging framework,新型级联二进制标记框架)训练得到主体与客体神经网络模型,通过主体与客体神经网络模型对待抽取文本进行三元组抽取,得到待抽取文本中的三元组。
然而,利用现有技术中训练得到的主体与客体神经网络模型对待抽取文本进行三元组抽取,存在三元组抽取精确度不高的现象。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种三元组抽取模型训练方法、三元组抽取方法、装置及设备,可以提高对三元组抽取的精确度。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种三元组抽取模型训练方法,所述方法包括:
获取样本文本以及所述样本文本对应的多个样本三元组;
对各所述样本三元组中的样本主体进行遍历,确定各所述样本主体对应的样本权重,所述样本权重用于表征与所述样本主体具有相同关系以及相同客体的主体的数量;
将所述样本文本输入初始三元组抽取模型,得到多个预测三元组;
以各所述预测三元组、各所述样本三元组以及各所述样本主体对应的样本权重作为损失函数的输入参数,确定所述初始三元组抽取模型的损失信息,并根据所述损失信息对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
可选地,所述将所述样本文本输入初始三元组抽取模型,得到多个预测三元组之前,所述方法包括:
获取各所述样本三元组对应的样本主体类型以及样本客体类型;
所述将所述样本文本输入初始三元组抽取模型,得到多个预测三元组,包括:
将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组。
可选地,所述初始三元组抽取模型包括初始主体抽取子模型、初始关系及客体抽取子模型,所述初始主体抽取子模型与所述初始关系及客体抽取子模型连接;
所述将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组之前,所述方法还包括:
根据所述样本文本以及各所述样本三元组对应的样本主体类型,构建主体抽取训练样本的特征;
所述将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组,包括:
将所述主体抽取训练样本的特征输入所述初始主体抽取子模型,得到上下文向量以及多个预测主体向量,所述预测主体向量由预测主体的起始位置向量以及结束位置向量组成;
将所述上下文向量、各所述预测主体向量、各所述样本三元组对应的样本客体类型输入所述初始关系及客体抽取子模型,得到多个预测三元组,所述预测三元组包括:预测主体向量、所述预测主体向量对应的预测客体向量以及所述预测主体向量与所述预测客体向量的关系,其中,所述预测客体向量由预测客体的起始位置向量以及结束位置向量组成。
可选地,所述将所述主体抽取训练样本的特征输入所述初始主体抽取子模型,得到上下文向量以及多个预测主体向量,包括:
将所述主体抽取训练样本的特征输入所述初始主体抽取子模型中的初始编码层,得到上下文向量;
将所述上下文向量输入所述初始主体抽取子模型中的初始全连接层,得到多个预测主体对应的头指针向量以及尾指针向量;
根据所述上下文向量以及所述多个预测主体对应的头指针向量以及尾指针向量,得到多个预测主体向量。
可选地,所述将所述上下文向量、各所述预测主体向量、各所述样本三元组对应的样本客体类型输入所述初始关系及客体抽取子模型,得到多个预测三元组,包括:
分别将所述上下文向量、各所述样本三元组对应的样本客体类型与各所述预测主体向量进行融合处理,得到多个客体抽取训练样本的特征;
将各所述客体抽取训练样本中的特征分别输入所述初始关系及客体抽取子模型,得到多个预测三元组。
可选地,所述以各所述预测三元组、各所述样本三元组以及各所述样本主体对应的样本权重作为损失函数的输入参数,确定所述初始三元组抽取模型的损失信息,包括:
将各所述样本三元组中的样本主体向量、各所述预测三元组中的预测主体向量以及各所述样本主体对应的样本权重作为第一损失函数的输入参数,得到第一损失信息;
根据各所述预测三元组中的预测主体的位置以及所述初始关系及客体抽取子模型的输入序列中的各位置,确定所述输入序列中各位置分别对应的放缩系数;
将所述输入序列中各位置分别对应的放缩系数、所述输入序列中各位置对应的位置向量以及各所述样本主体对应的样本权重作为第二损失函数的输入参数,得到第二损失信息;
根据所述第一损失信息以及所述第二损失信息,确定所述初始三元组抽取模型的损失信息。
可选地,所述对各所述样本三元组中的样本主体进行遍历,确定各所述样本主体对应的样本权重,包括:
在已遍历样本主体集合中查找当前遍历到的第一样本主体;
若所述已遍历样本主体集合中存在与所述第一样本主体具有相同关系以及相同客体的并列样本主体,则将所述并列样本主体的样本权重作为所述第一样本主体的样本权重;
否则,遍历各所述样本三元组中的样本主体,得到与所述第一样本主体具有相同关系以及相同客体的并列样本主体的数量,根据所述并列样本主体的数量确定所述第一样本主体的样本权重,并将所述第一样本主体增加至所述已遍历样本主体集合中。
可选地,所述方法还包括:
根据各所述样本主体对应的样本权重对所述初始三元组抽取模型的学习率进行调整,得到目标学习率;
所述根据所述损失信息对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型,包括:
根据所述损失信息以及所述目标学习率,对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
可选地,所述获取样本文本以及所述样本文本对应的多个样本三元组之前,所述方法还包括:
获取样本文本对应的初始三元组;
将所述样本文本对应的初始三元组拆分为包含有单一主体的样本三元组。
第二方面,本申请实施例还提供了一种三元组抽取方法,所述方法包括:
获取待处理文本;
将所述待处理文本输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组,其中,所述目标三元组抽取模型基于第一方面所述的三元组抽取模型训练方法得到。
可选地,所述将所述待处理文本输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组,包括:
将所述待处理文本以及所述待处理文本对应的主体类型以及客体类型输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组。
可选地,所述方法还包括:
若所述预测三元组中的第一预测三元组和第二预测三元组的客体以及关系分别相同,且所述第一预测三元组的主体归属于所述第二预测三元组的主体,则从所述多个预测三元组中将所述第一预测三元组删除。
第三方面,本申请实施例还提供了一种三元组抽取模型训练装置,所述装置包括:
获取模块,用于获取样本文本以及所述样本文本对应的多个样本三元组;
遍历模块,用于对各所述样本三元组中的样本主体进行遍历,确定各所述样本主体对应的样本权重,所述样本权重用于表征与所述样本主体具有相同关系以及相同客体的主体的数量;
输入模块,用于将所述样本文本输入初始三元组抽取模型,得到多个预测三元组;
确定模块,用于以各所述预测三元组、各所述样本三元组以及各所述样本主体对应的样本权重作为损失函数的输入参数,确定所述初始三元组抽取模型的损失信息,并根据所述损失信息对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
可选地,所述获取模块,还用于获取各所述样本三元组对应的样本主体类型以及样本客体类型;
相应的,所述输入模块,还用于将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组。
可选地,所述初始三元组抽取模型包括初始主体抽取子模型、初始关系及客体抽取子模型,所述初始主体抽取子模型与所述初始关系及客体抽取子模型连接;
相应的,所述装置还包括:构建模块;
所述构建模块,用于根据所述样本文本以及各所述样本三元组对应的样本主体类型,构建主体抽取训练样本的特征;
相应的,所述输入模块,还用于将所述主体抽取训练样本的特征输入所述初始主体抽取子模型,得到上下文向量以及多个预测主体向量,所述预测主体向量由预测主体的起始位置向量以及结束位置向量组成;将所述上下文向量、各所述预测主体向量、各所述样本三元组对应的样本客体类型输入所述初始关系及客体抽取子模型,得到多个预测三元组,所述预测三元组包括:预测主体向量、所述预测主体向量对应的预测客体向量以及所述预测主体向量与所述预测客体向量的关系,其中,所述预测客体向量由预测客体的起始位置向量以及结束位置向量组成。
可选地,所述输入模块,具体用于将所述主体抽取训练样本的特征输入所述初始主体抽取子模型中的初始编码层,得到上下文向量;将所述上下文向量输入所述初始主体抽取子模型中的初始全连接层,得到多个预测主体对应的头指针向量以及尾指针向量;根据所述上下文向量以及所述多个预测主体对应的头指针向量以及尾指针向量,得到多个预测主体向量。
可选地,所述输入模块,具体用于分别将所述上下文向量、各所述样本三元组对应的样本客体类型与各所述预测主体向量进行融合处理,得到多个客体抽取训练样本的特征;将各所述客体抽取训练样本中的特征分别输入所述初始关系及客体抽取子模型,得到多个预测三元组。
可选地,所述确定模块,具体用于将各所述样本三元组中的样本主体向量、各所述预测三元组中的预测主体向量以及各所述样本主体对应的样本权重作为第一损失函数的输入参数,得到第一损失信息;根据各所述预测三元组中的预测主体的位置以及所述初始关系及客体抽取子模型的输入序列中的各位置,确定所述输入序列中各位置分别对应的放缩系数;将所述输入序列中各位置分别对应的放缩系数、所述输入序列中各位置对应的位置向量以及各所述样本主体对应的样本权重作为第二损失函数的输入参数,得到第二损失信息;根据所述第一损失信息以及所述第二损失信息,确定所述初始三元组抽取模型的损失信息。
可选地,所述确定模块,具体用于在已遍历样本主体集合中查找当前遍历到的第一样本主体;若所述已遍历样本主体集合中存在与所述第一样本主体具有相同关系以及相同客体的并列样本主体,则将所述并列样本主体的样本权重作为所述第一样本主体的样本权重;否则,遍历各所述样本三元组中的样本主体,得到与所述第一样本主体具有相同关系以及相同客体的并列样本主体的数量,根据所述并列样本主体的数量确定所述第一样本主体的样本权重,并将所述第一样本主体增加至所述已遍历样本主体集合中。
可选地,所述装置还包括:调整模块;
所述调整模块,用于根据各所述样本主体对应的样本权重对所述初始三元组抽取模型的学习率进行调整,得到目标学习率;
相应的,所述确定模块,还用于根据所述损失信息以及所述目标学习率,对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
可选地,所述获取模块,还用于获取样本文本对应的初始三元组;将所述样本文本对应的初始三元组拆分为包含有单一主体的样本三元组。
第四方面,本申请实施例提供了一种三元组抽取装置,所述装置包括:获取模块、输入模块;
所述获取模块,用于获取待处理文本;
所述输入模块,用于将所述待处理文本输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组,其中,所述目标三元组抽取模型基于上述第一方面所述的三元组抽取模型训练方法得到。
可选地,所述输入模块,具体用于将所述待处理文本以及所述待处理文本对应的主体类型以及客体类型输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组。
可选地,所述装置还包括:删除模块;
所述删除模块,用于若所述预测三元组中的第一预测三元组和第二预测三元组的客体以及关系分别相同,且所述第一预测三元组的主体归属于所述第二预测三元组的主体,则从所述多个预测三元组中将所述第一预测三元组删除。
第五方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述第一方面的所述三元组抽取模型训练方法方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面的所述三元组抽取方法的步骤。
本申请的有益效果是:
本申请实施例提供一种三元组抽取模型训练方法、三元组抽取方法、装置及设备,该方法包括:该方法包括:获取样本文本以及样本文本对应的多个样本三元组;各样本三元组中的样本主体进行遍历,确定各样本主体对应的样本权重,其中,样本权重用于表征与样本主体具有相同关系以及相同客体的主体的数量;将样本文本输入初始三元组抽取模型,得到多个预测三元组;以各预测三元组、各样本三元组以及各样本主体对应的样本权重作为损失函数的输入参数,确定初始三元组抽取模型的损失信息,并根据损失信息对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
采用本申请实施例提供的三元组抽取模型训练方法中,通过与样本主体具有相同关系以及相同客体的主体的数量确定各样本主体对应的样本权重,在对初始三元组抽取模型进行训练的过程中,不仅引入了各预测三元组中的预测主体向量(即预测主体的位置向量)、预测客体向量(即预测客体的位置向量)、各样本三元组中的样本主体位置信息(如样本主体向量)以及样本客体位置信息(如样本客体向量),而且还引入了各样本主体对应的样本权重,这样可充分利用每个样本三元组中的内部关系分布对该初始三元组抽取模型进行训练,使训练得到的目标三元组抽取模型可均衡关注具有同一关系的并列主体以及单一主体。也就是说,后期利用目标三元组抽取模型对待处理文本进行三元组抽取时,可提高对三元组抽取的精确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的多种三元组形式的结构示意图;
图2为本申请实施例提供的一种待处理文本对应的三元组形式示意图;
图3为本申请实施例提供的一种三元组抽取模型训练方法的流程示意图;
图4为本申请实施例提供的一种初始三元组抽取模型的结构示意图;
图5为本申请实施例提供的另一种三元组抽取模型训练方法的流程示意图;
图6为本申请实施例提供的又一种三元组抽取模型训练方法的流程示意图;
图7为本申请实施例提供的再一种三元组抽取模型训练方法的流程示意图;
图8为本申请实施例提供的一种三元组抽取方法的流程示意图;
图9为本申请实施例提供的一种三元组抽取装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在对本申请实施例进行详细解释之前,首先对本申请的应用场景予以介绍。该应用场景具体可以为对产业链领域中的信息进行抽取,当然,也可以为对其他领域中的信息进行抽取,如医疗领域、教育领域、金融领域等,本申请不对其进行限定。
对三元组进行抽取可以获取及管理大型文本语料库中的隐含知识,并且还可以用于构建问答系统、检索和推荐系统。三元组抽取通常以三元组的形式呈现,三元组中包括主体、客体以及主体与客体之间的关系,其中,主体与客体在文本中的位置不一定为前后关系,关系用于指示主体与客体的内在联系。三元组在文本中的形式主要包括如下四种:SPO、SPmO、mSPO、mSPmO,具体如图1所示,图1为本申请实施例提供的多种三元组形式的结构示意图。从图1中可以看出,SPO、SPmO、mSPO、mSPmO形式的三元组具有如下特性:
SPO形式的三元组:主体+关系+客体,如(主体1,关系1,客体1),即主体1与客体1对应关系1。
SPmO形式的三元组:主体+关系+并列客体,如(主体1,关系1,客体1以及客体2),即主体1与客体1以及客体2分别对应关系1。
mSPO形式的三元组:并列主体+关系+客体,如(主体1以及主体2,关系1,客体1),即主体1与客体1对应关系1,主体2与客体1对应关系1。
mSPmO形式的三元组:并列主体+关系+并列客体,如(主体1、主体2以及主体3,关系1,客体1以及客体2),即主体1分别与客体1以及客体2对应关系1,主体2分别与客体1以及客体2对应关系1,主体3分别与客体1以及客体2对应关系1。
基于mSPO形式的三元组以及mSPmO形式的三元组定义并列主体,并列主体为具有相同关系以及相同客体的主体。
接下来简要对现有技术进行介绍,利用现有技术训练得到主体与客体神经网络模型,基于主体与客体神经网络模型对待处理文本中的信息(实体以及实体之间关系)进行抽取,若待处理文本中的实体以及实体之间关系具有图2中的现象,那么利用现有的 主体与客体神经网络模型大概率无法识别出主体a对应的关系1以及客体3。图2为本申请实施例提供的一种待处理文本对应的三元组形式示意图,从图2可以看出,mSPmO形式的三元组中关系1对应的并列主体有n个(如10个),SPO形式的三元组中关系1对应的主体只有1个。现有的主体与客体神经网络模型共享预训练编码层网络参数,先解码得到主体,再解码得到关系和客体,然而现有的主体与客体神经网络模型存在待处理文本中关系分布不均衡而产生结果偏移的现象,即利用现有的主体与客体神经网络模型大概率无法识别出,与并列主体具有同一关系的其它主体(如图2中的主体a)对应的关系及客体。
基于现有技术缺陷,本申请提出一种三元组抽取模型训练方法,训练过程可参考下述示例内容,此处不再进行说明,本申请与现有技术的重要区别点在于:
本申请对初始三元组抽取模型进行训练时,引入了各样本主体对应的样本权重这一特征,样本权重用于表征与样本主体具有相同关系以及相同客体的主体的数量,基于各样本主体对应的样本权重训练得到的目标三元组抽取模型可均衡对具有同一关系的并列主体以及单一主体的相关信息,如客体进行识别。进而,后期可基于目标三元组抽取模型对待处理文本进行三元组抽取,大概率将满足预设要求的待处理文本中的各实体以及各实体之间的关系全部识别出,即本申请中的技术方案可以提高三元组抽取的精确度。
如下结合附图对本申请提到的三元组抽取模型训练方法进行示例说明。图3为本申请实施例提供的一种三元组抽取模型训练方法的流程示意图,如图3所述,该方法可包括:
S301、获取样本文本以及样本文本对应的多个样本三元组。
其中,可从语料数据库中获取样本文本,基于样本文本与样本三元组的对应关系,得到样本文本对应的样本三元组,样本三元组的形式例如可为上述图1中的SPO形式的三元组、SPmO形式的三元组,即样本三元组中的主体均为单一主体。需要说明的是,本申请不对样本文本的数量以及样本三元组的数量进行限定。
示例性的,以一个样本文本为例进行说明,基于该样本文本得到该样本文本对应的初始三元组,将该样本文本对应的初始三元组拆分为包含有单一主体的样本三元组。其中,初始三元组的形式可包括图1中的SPO形式、SPmO形式、mSPO形式以及mSPmO形式,可基于SPO形式的三元组、SPmO形式的三元组,将为mSPO形式以及mSPmO形式的初始三元组拆分为SPO形式、SPmO形式的样本三元组。也就是说,将包含有并列主体的初始三元组拆分为包含有单一主体的样本三元组。
S302、对各样本三元组中的样本主体进行遍历,确定各样本主体对应的样本权重。
其中,样本权重用于表征与样本主体具有相同关系以及相同客体的主体的数量。可首先对各样本三元组中的样本主体进行编号,假设共确定出有N个样本主体,根据各样本主体对应的样本客体以及与样本客体之间的关系,确定出分别与各样本主体具有相同样本关系以及相同样本客体的样本主体的数量,基于各样本主体对应的数量得到各样本主体对应的样本权重。
结合图2进行说明,假设遍历到了为主体1的样本主体,从图2可以看出,主体1对应的数量为n,则主体1对应的样本权重为1/n;假设遍历到了为主体a的样本主体,从图2可以看出,主体a对应的数量为1,则主体1对应的样本权重为1;假设遍历到了为主体b的样本主体,从图2可以看出,主体b对应的数量为2,则主体2对应的样本权重为1/2。也就是说,与样本主体具有相同关系以及相同客体的主体的数量越多,样本主体对应的样本权重就越小。
S303、将样本文本输入初始三元组抽取模型,得到多个预测三元组。
其中,多个预测三元组可以理解为训练初始三元组抽取模型过程中的输出结果。初始三元组抽取模型包括主体抽取模块、关系及客体抽取模块,主体抽取模块用于抽取样本文本中的预测主体,可包括多个预测主体,关系及客体抽取模块基于预设多个关系以及各预测主体抽取对应的预测客体,进而初始三元组抽取模型可输出多个预测三元组。
S304、以各预测三元组、各样本三元组以及各样本主体对应的样本权重作为损失函数的输入参数,确定初始三元组抽取模型的损失信息,并根据损失信息对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
其中,对初始三元组抽取模型的训练过程可如下描述,将样本文本以及各样本三元组分别输入初始三元组抽取模型,以样本文本作为初始三元组抽取模型的输入,各样本三元组中的样本主体位置信息以及样本客体位置信息作为初始三元组抽取模型的输出对该初始三元组抽取模型进行训练,基于预先构建的该初始三元组抽取模型对应的损失函数,将训练过程中初始三元组抽取模型输出的各预测三元组中的预测主体向量(即预测主体的位置向量)、预测客体向量(即预测客体的位置向量)、各样本三元组中的样本主体位置信息(如样本主体向量)以及样本客体位置信息(如样本客体向量)、各样本主体对应的样本权重带入该损失函数中,确定该损失信息是否满足预设训练停止条件,若不满足,则继续对该初始三元组抽取模型中的参数进行迭代修正,直至该损失信息满足预设停止条件,进而得到目标三元组抽取模型。
综上所述,本申请提供的三元组抽取模型训练方法中,通过与样本主体具有相同关系以及相同客体的主体的数量确定各样本主体对应的样本权重,在对初始三元组抽取模型进行训练的过程中,不仅引入了各预测三元组中的预测主体向量(即预测主体的位置向量)、预测客体向量(即预测客体的位置向量)、各样本三元组中的样本主体位置信息(如样本主体向量)以及样本客体位置信息(如样本客体向量),而且还引入了各样本主体对应的样本权重,这样可充分利用每个样本三元组中的内部关系分布对该初始三元组抽取模型进行训练,使训练得到的目标三元组抽取模型可均衡关注具有同一关系的并列主体以及单一主体。也就是说,后期利用目标三元组抽取模型对待处理文本进行三元组抽取时,可提高对三元组抽取的精确度。
可选地,上述将样本文本输入初始三元组抽取模型,得到多个预测三元组之前,该方法还可包括:获取各样本三元组对应的样本主体类型以及样本客体类型。
基于上述描述可以理解的是,本申请提出了对初始三元组抽取模型进行训练时,加入实体类型这一特征思想,这样可将三元组抽取以及阅读理解场景结合,把实体类型特征作为阅读理解的先验知识融合至初始三元组抽取模型中,使训练得到的目标三元组抽取模型基于输入的实体类型输出匹配的三元组。
其中,实体类型例如可为人、组织、机构等,实体类型可包括样本主体类型以及样本客体类型,需要说明的是,本申请不对样本主体类型以及样本客体类型进行限定。
一种示例性的,各样本三元组中的样本主体均对应一种样本主体类型,样本客体均对应一种样本客体类型,即样本文本与样本主体类型、样本客体类型具有对应关系,则可根据样本文本获取样本主体类型、样本客体类型。
另一种示例性的,可根据各样本三元组中的样本主体与主体类型之间的对应关系、样本客体与客体类型之间的对应关系,确定各样本三元组中的样本主体对应的样本主体类型以及样本客体类型。
进而,基于上述描述,将样本文本输入初始三元组抽取模型,得到多个预测三元组,可包括:将样本文本、各样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组。
将样本文本、各样本三元组对应的样本文本类型以及样本客体类型一起作为训练初始三元组抽取模型的训练样本中的特征。示例性的,初始三元组抽取模型包括主体抽取模块、关系及客体抽取模块,将样本文本以及各样本三元组对应的样本文本类型同时输入主体抽取模块,得到输出结果,将该输出结果以及样本客体类型输入关系及客体抽取模块,该关系及客体抽取模块输出多个预测三元组。
图4为本申请实施例提供的一种初始三元组抽取模型的结构示意图,如图4所示,初始三元组抽取模型包括初始主体抽取子模型401、初始关系及客体抽取子模型402,初始主体抽取子模型401与初始关系及客体抽取子模型402连接。其中,初始主体抽取子模型401、初始关系及客体抽取子模型402分别相当于上述提到的主体抽取模块,以及,关系及客体抽取模块。初始主体抽取子模型401用于对样本文本中的主体进行抽取,输出预测主体,客体抽取子模型402基于初始主体抽取子模型401输出的预测主体以及预设关系预测得到各预测主体与各预设关系对应的预测客体。
可选地,上述将样本文本、各样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组之前,该方法还可以包括:根据样本文本以及各样本三元组对应的样本主体类型,构建主体抽取训练样本的特征。
示例性的,若各样本三元组对应的样本主体类型包括3种,如样本主体类型1、样本主体类型2以及样本主体类型3,则可将样本主体类型1、样本主体类型2、样本主体类型3以及样本文本相结合的结果,作为主体抽取训练样本的特征。
同时,将各样本三元组中的样本主体向量作为该主体抽取训练样本的标签,基于主体抽取训练样本的特征以及标签对初始主体抽取子模型进行训练,训练得到目标主体抽取子模型。
基于此,上述将样本文本、各样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组,包括:
将主体抽取训练样本的特征输入初始主体抽取子模型,得到上下文向量以及多个预测主体向量,预测主体向量由预测主体的起始位置向量以及结束位置向量组成;将上下文向量、各预测主体向量、各样本三元组对应的样本客体类型输入初始关系及客体抽取子模型,得到多个预测三元组,预测三元组包括:预测主体向量、预测主体向量对应的预测客体向量以及预测主体向量与预测客体向量的关系,其中,预测客体向量由预测客体的起始位置向量以及结束位置向量组成。
参考图4以及继续上述举例进行说明,将样本主体类型1、样本主体类型2、样本主体类型3以及样本文本相结合的结果,即拼接文本输入初始主体抽取子模型401中,初始主体抽取子模型401对该拼接文本进行编码,得到上下文向量,该上下文向量中包括各样本三元组对应的样本主体向量以及样本客体向量,初始主体抽取子模型401对上下文向量中的主体进行抽取,根据抽取结果基于上下文向量确定出多个预测主体向量,各预测主体向量可分别由两种类型向量组成,以预测主体1为例进行说明,预测主体1向量包括预测主体1的头部位置所对应的上下文向量中的向量,即预测主体1的起始位置向量,以及,预测主体1的尾部位置所对应的上下文向量中的向量,即预测主体1的结束位置向量。
需要说明的是,各样本三元组对应的样本客体类型,如样本客体类型1、样本客体类型2以及样本客体类型3首先需要一起输入至初始编码层进行编码,得到样本客体类型向量。此处以一个预测主体向量为例进行说明,其它预测主体向量处理过程可参考下述描述,将上下文向量、该预测主体向量以及样本客体类型向量同时输入初始关系及客体抽取子模型402,初始关系及客体抽取子模型402基于预设关系对与该预测主体向量在样本文本中具有样本关系以及样本客体类型的客体进行预测,根据预测得到的预测客体对应的头指针向量以及尾指针向量得到预测客体向量,进而可基于该预测主体向量、预测客体向量以及预设关系,得到预测三元组。
图5为本申请实施例提供的另一种三元组抽取模型训练方法的流程示意图。可选地,如图5所示,上述将主体抽取训练样本的特征输入初始主体抽取子模型,得到上下文向量以及多个预测主体向量,包括:
S501、将主体抽取训练样本的特征输入初始主体抽取子模型中的初始编码层,得到上下文向量。
S502、将上下文向量输入初始主体抽取子模型中的初始全连接层,得到多个预测主体对应的头指针向量以及尾指针向量。
S503、根据上下文向量以及多个预测主体对应的头指针向量以及尾指针向量,得到多个预测主体向量。
继续参考图4以及上述举例进行说明,初始主体抽取子模型401中的初始编码层401A与初始全连接层401B连接。将样本主体类型1、样本主体类型2、样本主体类型3以及样本文本构建的主体抽取训练样本的特征输入初始主体抽取子模型401中的初始编码层401A,初始编码层401A可对主体抽取训练样本的特征进行编码,输出上下文向量,该上下文向量长度为n(如16),维度为m(如768),需要说明的是,本申请不对上下文向量的长度n以及维度m进行限定。其中,初始编码层401A可为采用BERT预训练语言模型训练出来的。可选地,初始编码层401A也可在初始主体抽取子模型401外预先进行训练,需要说明的是,本申请不对其进行限定。
初始编码层401A输出上下文向量,可将该上下文向量输入与其连接的初始全连接层401B,初始全连接层401B对该上下文向量进行解码,得到多个预测主体对应的头指针向量以及尾指针向量,其中,预测主体对应的头指针向量以及尾指针向量为一种长度为n,值包括0和/或1的向量。基于此,可根据各预测主体对应的头指针向量以及尾指针向量所确定的位置信息,从上下文向量中提取出各预测主体的起始位置向量以及结束位置向量,将各预测主体的起始位置向量以及结束位置向量组成各预测主体向量。
此处以一个预测主体对应的头指针向量以及尾指针向量为例进行说明,假设预测主体1对应的头指针向量为(1000000000000000),尾指针向量为(0010000000000000)。那么可以看出,预测主体1对应的头指针向量的第一个位置为1、头指针向量的第三个位置为1,那么可将上下文向量第一个位置处对应的向量提取出作为预测主体1的起始位置向量,上下文向量第三个位置处对应的向量提取出作为预测主体1的结束位置向量,进而得到预测主体1向量。需要说明的是,其它预测主体向量的确定过程可参考上述描述,此处不再进行说明。
从图4中还可以看出,各样本三元组中的样本客体也会输入到初始编码层401A中,输出样本客体类型向量。同时,初始编码层401A不仅将将上下文向量输入初始全连接层401B,还将上下文向量输入初始三元组抽取模型中的融合层400。
图6为本申请实施例提供的又一种三元组抽取模型训练方法的流程示意图。可选地,如图6所示,上述将上下文向量、各预测主体向量、各样本三元组对应的样本客体类型输入初始关系及客体抽取子模型,得到多个预测三元组,包括:
S601、分别将上下文向量、各样本三元组对应的样本客体类型与各预测主体向量进行融合处理,得到多个客体抽取训练样本中的特征。
S602、将各客体抽取训练样本中的特征分别输入初始关系及客体抽取子模型,得到多个预测三元组。
继续参考图4进行说明,根据上述描述可知,各样本三元组中的样本客体也会输入到初始编码层401A中,输出样本客体类型向量,初始编码层401A将样本客体类型向量输入融合层400,融合层400还会接收到初始编码层401A输出的上下文向量,以及根据初始全连接层401B输出的多个预主体对应的头指针向量以及尾指针向量所确定的各预测主体向量。此处以一个预测主体向量为例进行说明,融合层400将上下文向量、样本客体类型向量以及该预测主体向量进行融合处理,如可按照cln方法进行融合处理,得到融合向量,融合层400输出融合向量,将该融合向量作为客体抽取训练样本的特征。可以理解的是,预测主体向量有多少个,融合层400就会依次输出多少个抽取训练样本的特征。
此处以一个抽取训练样本的特征为例进行说明,将该特征输入初始关系及客体抽取子模型402中,该初始关系及客体抽取子模型基于预设关系,对与该预测主体向量在样本文本中具有样本关系以及样本客体类型的客体进行预测。示例性的,初始关系及客体抽取子模型402中包括初始全连接成,该初始全连接层预测得到多个预测客体对应的头指针向量以及尾指针向量,根据融合向量以及多个预测客体对应的头指针向量以及尾指针向量,得到多个预测客体向量,进而得到预测三元组。
此处以一个预测客体为例进行说明,假设预测客体1对应的头指针向量为(000100000000000),尾指针向量为(000001000000000)。那么可以看出,预测客体1对应的头指针向量的第一个位置为1、头指针向量的第三个位置为1,那么可将融合向量第四个位置处对应的向量提取出作为预测客体1的起始位置向量,融合向量第六个位置处对应的向量提取出作为预测主体1的结束位置向量,进而得到预测客体1向量。需要说明的是,其它预测客体向量的确定过程可参考上述描述,此处不再进行说明。
图7为本申请实施例提供的再一种三元组抽取模型训练方法的流程示意图。可选地,如图7所示,上述以各预测三元组、各样本三元组以及各样本主体对应的样本权重作为损失函数的输入参数,确定初始三元组抽取模型的损失信息,包括:
S701、将各样本三元组中的样本主体向量、各预测三元组中的预测主体向量以及各样本主体对应的样本权重作为第一损失函数的输入参数,得到第一损失信息。
以三元组为维度进行说,每个样本三元组对应有样本主体向量(),每个预测三元组对应有预测主体向量(),各样本主体对应的样本权重,样本三元组、预测三元组以及样本主体具有对应关系,基于该对应关系将样本主体向量()、预测主体向量()以及样本主体对应的样本权重分别输入第一损失函数中,得到第一损失信息。
S702、根据各预测三元组中的预测主体的位置以及初始关系及客体抽取子模型的输入序列中的各位置,确定输入序列中各位置分别对应的放缩系数。
根据预测主体对应的头指针向量以及尾指针向量可得到预测主体的起始位置(start0)、结束位置(end0)。初始关系及客体抽取子模型的输入序列可以理解为上述提到的融合向量,长度为n,从该融合向量中确定出各位置(pos)。
参考上述描述,最后可得到各预测主体对应的该输入序列中各位置分别对应的放缩系数。
S703、将输入序列中各位置分别对应的放缩系数、输入序列中各位置对应的位置向量以及各样本主体对应的样本权重作为第二损失函数的输入参数,得到第二损失信息。
继续以一个预测主体向量为维度进行说明,将该预测主体向量对应的输入序列中各位置分别对应的放缩系数、输入序列中各位置对应的位置向量带入第二损失函数中的子损失函数中,得到该预测主体向量对应的关系及客体子损失:
其中,seqlen为上述提到的输入序列的长度,即融合向量的长度。
S704、根据第一损失信息以及第二损失信息,确定初始三元组抽取模型的损失信息。
通过高斯核函数融合主体和客体之间的距离信息,使关系及客体抽取模型可与主体距离更近的客体更容易识别出来,即最后训练得到的目标关系及客体抽取模型能够感知到主客距离,基于主客距离对主体的客体进行抽取,这样可以提高三元组抽取的精确度。
可选地,上述对各样本三元组中的样本主体进行遍历,确定各样本主体对应的样本权重,包括:在已遍历样本主体集合中查找当前遍历到的第一样本主体;若已遍历样本主体集合中存在与第一样本主体具有相同关系以及相同客体的并列样本主体,则将并列样本主体的样本权重作为第一样本主体的样本权重;否则,遍历各样本三元组中的样本主体,得到与第一样本主体具有相同关系以及相同客体的并列样本主体的数量,根据并列样本主体的数量确定第一样本主体的样本权重,并将第一样本主体增加至已遍历样本主体集合中。
可以理解的是,已遍历样本主体集合中包括已遍历过的样本主体以及其对应的样本权重。参考图2进行说明,第一样本主体为任一样本主体,假设当前遍历到的第一样本主体为主体2,那么从已遍历样本主体集合中查找已遍历样本主体集合中的是否包括与主体2对应的关系和客体均相同的样本主体,即已遍历样本主体集合中是否包括与主体2属于并列主体的样本主体,如果已遍历样本主体集合中包括与主体2属于并列主体的样本主体,如主体1,则将主体1对应的样本权重作为样本2的样本权重(1/n)。
如果已遍历样本主体集合中不包括与主体2属于并列主体的样本主体,则可首先确定与主体2具有相同关系以及相同客体的并列样本主体的数量,其中,可用表示与第i个主体Si具有同一关系Pi以及同一客体的样本主体数量,可通过下述得到各样本主体(如主体2)的样本权重:
可选地,该方法还可包括:根据各样本主体对应的样本权重对初始三元组抽取模型的学习率进行调整,得到目标学习率。
进而,上述根据损失信息对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型,包括:根据损失信息以及目标学习率,对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
在对初始三元组抽取模型进行训练之前,可预先配置学习参数,将学习率配置为目标学习率,根据目标学习率以及在训练过程中得到的损失信息训练得到目标三元组抽取模型。
这样利用样本主体对应的样本权重确定的目标学习率训练三元组抽取模型,这样可使三元组抽取模型快速达到收敛状态,提高三元组抽取模型的稳定性。
下述示例主要对目标三元组抽取模型的应用过程进行说明。
图8为本申请实施例提供的一种三元组抽取方法的流程示意图。可选地,如图8所示,该方法可包括:
S801、获取待处理文本。
S802、将待处理文本输入目标三元组抽取模型,得到该待处理文本对应的多个预测三元组。
示例性的,该待处理文本可以为一段话、一篇文章等,在获取到该待处理文本后,可首先对该待处理文本进行预处理,如将该待处理文本进行切分,得到多个分词,将各分词同时输入该目标三元组抽取模型中,该目标三元组抽取模型对各分词进行编码、主体抽取、关系及客体抽取处理,最后输出该待处理文本对应的多个预测三元组,预测三元组中包括该待处理文本中的主体以及与主体具有关联关系的客体。
其中,该目标三元组抽取模型的训练过程了参考上述相关部分描述,此处不再进行说明。可以理解的是,该目标三元组抽取模型可均衡关注具有同一关系的并列主体以及单一主体,所以利用目标三元组抽取模型对待处理文本中的信息进行抽取,不仅可以将待处理文本中类似图2的mSPmO形式的三元组识别出,而且还可以将待处理文本中类似图2的SPO形式的三元组识别出,即这样可提高三元组抽取的精确度。
可选地,上述将待处理文本输入目标三元组抽取模型,得到待处理文本对应的多个预测三元组,包括:将待处理文本以及待处理文本对应的主体类型以及客体类型输入目标三元组抽取模型,得到该待处理文本对应的多个预测三元组。
基于图4进行说明,目标三元组抽取模型中包括目标主体抽取子模型、目标关系及客体抽取子模型、融合层,其中,目标主体抽取子模型中包括编码层、全连接层。目标三元组抽取模型中各部分的连接关系可参数图4,此处不再进行说明。
示例性的,抽取待处理文本中的实体时,还可限定实体类型,如可限定主体类型以及客体类型。可预先设置待处理文本对应的主体类型,和/或客体类型,本申请不对主体类型、客体类型的个数进行限定。此处以一个主体类型(例如主体类型1)以及一个客体类型(例如客体类型2)为例进行说明,将待处理文本以及主体类型1同时输入标主体抽取子模型中的编码层,编码层输出上下文向量序列,并将该上下文向量序列输入全连接层,该全连接层输出至少一个预测主体向量,将上下文向量序列、各预测主体向量、将客体类型2经过编码后得到的客体类型向量输入融合层,融合层基于预测主体向量维度进行融合后,输出融合向量,并将融合向量输入具有预设关系的目标关系及客体抽取子模型中,目标关系及客体抽取子模型基于融合向量、预设关系,预测待处理文本中与为主体类型1的预测主体具有预设关系的为客体类型2的预测客体。也就是说,最后得到的预测三元组中的预测主体的类型为主体类型1、预测客体的类型为客体类型2。
这样可将三元组抽取场景以及阅读理解场景结合,可以更精确的抽取出所需的实体。
可选地,该方法还可包括:若预测三元组中的第一预测三元组和第二预测三元组的客体以及关系分别相同,且第一预测三元组的主体归属于第二预测三元组的主体,则从多个预测三元组中将第一预测三元组删除。
其中,在目标三元组抽取模型输出预测三元组后,可对预测三元组进行整合。示例性,确定出具有相同客体以及相同关系的主体,假设该主体为第一预测三元组中的主体、第二预测三元组中的主体,那么可确定第一预测三元组中的主体、第二预测三元组中的主体之间是否存在归属关系。归属关系可以理解为主体“abc”是归属于主体“abcde”。
举例来说,假设第一预测三元组中的主体为“白血病”,第二预测三元组中的主体为“慢性淋巴细胞白血病”,那么可确定第一预测三元组的主体归属于第二预测三元组的主体,则将第一预测三元组删除,使该待处理文本对应的三元组中不出现重叠的主体。
图9为本申请实施例提供的一种三元组抽取模型训练的结构示意图。如图9所示,该装置包括:
获取模块901,用于获取样本文本以及样本文本对应的多个样本三元组;
遍历模块902,用于对各样本三元组中的样本主体进行遍历,确定各样本主体对应的样本权重;
输入模块903,用于将样本文本输入初始三元组抽取模型,得到多个预测三元组;
确定模块904,用于以各预测三元组、各样本三元组以及各样本主体对应的样本权重作为损失函数的输入参数,确定初始三元组抽取模型的损失信息,并根据损失信息对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
可选地,获取模块901,还用于获取各样本三元组对应的样本主体类型以及样本客体类型;
相应的,输入模块903,还用于将样本文本、各样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组。
可选地,初始三元组抽取模型包括初始主体抽取子模型、初始关系及客体抽取子模型,初始主体抽取子模型与初始关系及客体抽取子模型连接;
相应的,该装置还包括:构建模块;
该构建模块,用于根据样本文本以及各样本三元组对应的样本主体类型,构建主体抽取训练样本的特征;
相应的,输入模块903,还用于将主体抽取训练样本的特征输入初始主体抽取子模型,得到上下文向量以及多个预测主体向量,预测主体向量由预测主体的起始位置向量以及结束位置向量组成;将上下文向量、各预测主体向量、各样本三元组对应的样本客体类型输入初始关系及客体抽取子模型,得到多个预测三元组,预测三元组包括:预测主体向量、预测主体向量对应的预测客体向量以及预测主体向量与预测客体向量的关系,其中,预测客体向量由预测客体的起始位置向量以及结束位置向量组成。
可选地,输入模块903,具体用于将主体抽取训练样本的特征输入初始主体抽取子模型中的初始编码层,得到上下文向量;将上下文向量输入初始主体抽取子模型中的初始全连接层,得到多个预测主体对应的头指针向量以及尾指针向量;根据上下文向量以及多个预测主体对应的头指针向量以及尾指针向量,得到多个预测主体向量。
可选地,输入模块903,具体用于分别将上下文向量、各样本三元组对应的样本客体类型与各预测主体向量进行融合处理,得到多个客体抽取训练样本的特征;将各客体抽取训练样本中的特征分别输入初始关系及客体抽取子模型,得到多个预测三元组。
可选地,确定模块904,具体用于将各样本三元组中的样本主体向量、各预测三元组中的预测主体向量以及各样本主体对应的样本权重作为第一损失函数的输入参数,得到第一损失信息;根据各预测三元组中的预测主体的位置以及初始关系及客体抽取子模型的输入序列中的各位置,确定输入序列中各位置分别对应的放缩系数;将输入序列中各位置分别对应的放缩系数、输入序列中各位置对应的位置向量以及各样本主体对应的样本权重作为第二损失函数的输入参数,得到第二损失信息;根据第一损失信息以及第二损失信息,确定初始三元组抽取模型的损失信息。
可选地,确定模块904,具体用于在已遍历样本主体集合中查找当前遍历到的第一样本主体;若已遍历样本主体集合中存在与第一样本主体具有相同关系以及相同客体的并列样本主体,则将并列样本主体的样本权重作为第一样本主体的样本权重;否则,遍历各样本三元组中的样本主体,得到与第一样本主体具有相同关系以及相同客体的并列样本主体的数量,根据并列样本主体的数量确定第一样本主体的样本权重,并将第一样本主体增加至已遍历样本主体集合中。
可选地,该装置还包括:调整模块;
该调整模块,用于根据各样本主体对应的样本权重对初始三元组抽取模型的学习率进行调整,得到目标学习率;
相应的,确定模块904,还用于根据损失信息以及目标学习率,对初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
可选地,获取模块901,还用于获取样本文本对应的初始三元组;将样本文本对应的初始三元组拆分为包含有单一主体的样本三元组。
本申请实施例提供了一种三元组抽取装置,装置包括:获取模块、输入模块;
该获取模块,用于获取待处理文本;
该输入模块,用于将待处理文本输入目标三元组抽取模型,得到待处理文本对应的多个预测三元组,其中,目标三元组抽取模型基于上述第一方面的三元组抽取模型训练方法得到。
可选地,该输入模块,具体用于将待处理文本以及待处理文本对应的主体类型以及客体类型输入目标三元组抽取模型,得到待处理文本对应的多个预测三元组。
可选地,该装置还包括:删除模块;
该删除模块,用于若预测三元组中的第一预测三元组和第二预测三元组的客体以及关系分别相同,且第一预测三元组的主体归属于第二预测三元组的主体,则从多个预测三元组中将第一预测三元组删除。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图10为本申请实施例提供的一种电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器1001、存储介质1002和总线1003,存储介质1002存储有处理器1001可执行的机器可读指令,当该电子设备运行时,处理器1001与存储介质1002之间通过总线1003通信,处理器1001执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种三元组抽取模型训练方法,其特征在于,所述方法包括:
获取样本文本以及所述样本文本对应的多个样本三元组;
对各所述样本三元组中的样本主体进行遍历,确定各所述样本主体对应的样本权重,所述样本权重用于表征与所述样本主体具有相同关系以及相同客体的主体的数量;
将所述样本文本输入初始三元组抽取模型,得到多个预测三元组;
以各所述预测三元组、各所述样本三元组以及各所述样本主体对应的样本权重作为损失函数的输入参数,确定所述初始三元组抽取模型的损失信息,并根据所述损失信息对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本文本输入初始三元组抽取模型,得到多个预测三元组之前,所述方法包括:
获取各所述样本三元组对应的样本主体类型以及样本客体类型;
所述将所述样本文本输入初始三元组抽取模型,得到多个预测三元组,包括:
将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组。
3.根据权利要求2所述的方法,其特征在于,所述初始三元组抽取模型包括初始主体抽取子模型、初始关系及客体抽取子模型,所述初始主体抽取子模型与所述初始关系及客体抽取子模型连接;
所述将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组之前,所述方法还包括:
根据所述样本文本以及各所述样本三元组对应的样本主体类型,构建主体抽取训练样本的特征;
所述将所述样本文本、各所述样本三元组对应的样本主体类型以及样本客体类型输入初始三元组抽取模型,得到多个预测三元组,包括:
将所述主体抽取训练样本的特征输入所述初始主体抽取子模型,得到上下文向量以及多个预测主体向量,所述预测主体向量由预测主体的起始位置向量以及结束位置向量组成;
将所述上下文向量、各所述预测主体向量、各所述样本三元组对应的样本客体类型输入所述初始关系及客体抽取子模型,得到多个预测三元组,所述预测三元组包括:预测主体向量、所述预测主体向量对应的预测客体向量以及所述预测主体向量与所述预测客体向量的关系,其中,所述预测客体向量由预测客体的起始位置向量以及结束位置向量组成。
4.根据权利要求3所述的方法,其特征在于,所述将所述主体抽取训练样本的特征输入所述初始主体抽取子模型,得到上下文向量以及多个预测主体向量,包括:
将所述主体抽取训练样本的特征输入所述初始主体抽取子模型中的初始编码层,得到上下文向量;
将所述上下文向量输入所述初始主体抽取子模型中的初始全连接层,得到多个预测主体对应的头指针向量以及尾指针向量;
根据所述上下文向量以及所述多个预测主体对应的头指针向量以及尾指针向量,得到多个预测主体向量。
5.根据权利要求3所述的方法,其特征在于,所述将所述上下文向量、各所述预测主体向量、各所述样本三元组对应的样本客体类型输入所述初始关系及客体抽取子模型,得到多个预测三元组,包括:
分别将所述上下文向量、各所述样本三元组对应的样本客体类型与各所述预测主体向量进行融合处理,得到多个客体抽取训练样本的特征;
将各所述客体抽取训练样本中的特征分别输入所述初始关系及客体抽取子模型,得到多个预测三元组。
6.根据权利要求3所述的方法,其特征在于,所述以各所述预测三元组、各所述样本三元组以及各所述样本主体对应的样本权重作为损失函数的输入参数,确定所述初始三元组抽取模型的损失信息,包括:
将各所述样本三元组中的样本主体向量、各所述预测三元组中的预测主体向量以及各所述样本主体对应的样本权重作为第一损失函数的输入参数,得到第一损失信息;
根据各所述预测三元组中的预测主体的位置以及所述初始关系及客体抽取子模型的输入序列中的各位置,确定所述输入序列中各位置分别对应的放缩系数;
将所述输入序列中各位置分别对应的放缩系数、所述输入序列中各位置对应的位置向量以及各所述样本主体对应的样本权重作为第二损失函数的输入参数,得到第二损失信息;
根据所述第一损失信息以及所述第二损失信息,确定所述初始三元组抽取模型的损失信息。
7.根据权利要求1所述的方法,其特征在于,所述对各所述样本三元组中的样本主体进行遍历,确定各所述样本主体对应的样本权重,包括:
在已遍历样本主体集合中查找当前遍历到的第一样本主体;
若所述已遍历样本主体集合中存在与所述第一样本主体具有相同关系以及相同客体的并列样本主体,则将所述并列样本主体的样本权重作为所述第一样本主体的样本权重;
否则,遍历各所述样本三元组中的样本主体,得到与所述第一样本主体具有相同关系以及相同客体的并列样本主体的数量,根据所述并列样本主体的数量确定所述第一样本主体的样本权重,并将所述第一样本主体增加至所述已遍历样本主体集合中。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据各所述样本主体对应的样本权重对所述初始三元组抽取模型的学习率进行调整,得到目标学习率;
所述根据所述损失信息对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型,包括:
根据所述损失信息以及所述目标学习率,对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述获取样本文本以及所述样本文本对应的多个样本三元组之前,所述方法还包括:
获取样本文本对应的初始三元组;
将所述样本文本对应的初始三元组拆分为包含有单一主体的样本三元组。
10.一种三元组抽取方法,其特征在于,所述方法包括:
获取待处理文本;
将所述待处理文本输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组,其中,所述目标三元组抽取模型基于权利要求1-9任一项所述的三元组抽取模型训练方法得到。
11.根据权利要求10所述的方法,其特征在于,所述将所述待处理文本输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组,包括:
将所述待处理文本以及所述待处理文本对应的主体类型以及客体类型输入目标三元组抽取模型,得到所述待处理文本对应的多个预测三元组。
12.根据权利要求10或11所述的方法,其特征在于,所述方法还包括:
若所述预测三元组中的第一预测三元组和第二预测三元组的客体以及关系分别相同,且所述第一预测三元组的主体归属于所述第二预测三元组的主体,则从所述多个预测三元组中将所述第一预测三元组删除。
13.一种三元组抽取模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取样本文本以及所述样本文本对应的多个样本三元组;
遍历模块,用于对各所述样本三元组中的样本主体进行遍历,确定各所述样本主体对应的样本权重,所述样本权重用于表征与所述样本主体具有相同关系以及相同客体的主体的数量;
输入模块,用于将所述样本文本输入初始三元组抽取模型,得到多个预测三元组;
确定模块,用于以各所述预测三元组、各所述样本三元组以及各所述样本主体对应的样本权重作为损失函数的输入参数,确定所述初始三元组抽取模型的损失信息,并根据所述损失信息对所述初始三元组抽取模型进行迭代修正,得到目标三元组抽取模型。
14.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-9任一项所述三元组抽取模型训练方法的步骤或者如权利要求10-12任一项所述三元组抽取方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-9任一项所述三元组抽取模型训练方法的步骤或者如权利要求10-12任一项所述三元组抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210964565.6A CN115033717B (zh) | 2022-08-12 | 2022-08-12 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210964565.6A CN115033717B (zh) | 2022-08-12 | 2022-08-12 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115033717A true CN115033717A (zh) | 2022-09-09 |
CN115033717B CN115033717B (zh) | 2022-11-08 |
Family
ID=83131150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210964565.6A Active CN115033717B (zh) | 2022-08-12 | 2022-08-12 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033717B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100088355A1 (en) * | 2008-10-03 | 2010-04-08 | Marco Paniconi | Extracting multiple classified adaptive decimation filters |
CN106910199A (zh) * | 2017-01-23 | 2017-06-30 | 北京理工大学 | 面向城市空间信息采集的车联网众包方法 |
CN107103281A (zh) * | 2017-03-10 | 2017-08-29 | 中山大学 | 基于聚集损失深度度量学习的人脸识别方法 |
CN109726897A (zh) * | 2018-12-10 | 2019-05-07 | 南京师范大学 | 一种基于ahp的室内地标显著度评分方法 |
CN111460826A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞(苏州)科技有限公司 | 实体分类方法以及相关装置 |
CN111680109A (zh) * | 2020-04-22 | 2020-09-18 | 北京三快在线科技有限公司 | 知识图谱表示学习模型训练方法、装置及电子设备 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112052681A (zh) * | 2020-08-20 | 2020-12-08 | 中国建设银行股份有限公司 | 信息抽取模型训练方法、信息抽取方法、装置及电子设备 |
WO2021121198A1 (zh) * | 2020-09-08 | 2021-06-24 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN114153978A (zh) * | 2022-02-07 | 2022-03-08 | 杭州恒生聚源信息技术有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
CN115017324A (zh) * | 2022-03-03 | 2022-09-06 | 北京小米移动软件有限公司 | 实体关系抽取方法、装置、终端及存储介质 |
-
2022
- 2022-08-12 CN CN202210964565.6A patent/CN115033717B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100088355A1 (en) * | 2008-10-03 | 2010-04-08 | Marco Paniconi | Extracting multiple classified adaptive decimation filters |
CN106910199A (zh) * | 2017-01-23 | 2017-06-30 | 北京理工大学 | 面向城市空间信息采集的车联网众包方法 |
CN107103281A (zh) * | 2017-03-10 | 2017-08-29 | 中山大学 | 基于聚集损失深度度量学习的人脸识别方法 |
CN109726897A (zh) * | 2018-12-10 | 2019-05-07 | 南京师范大学 | 一种基于ahp的室内地标显著度评分方法 |
CN111460826A (zh) * | 2020-03-31 | 2020-07-28 | 科大讯飞(苏州)科技有限公司 | 实体分类方法以及相关装置 |
CN111680109A (zh) * | 2020-04-22 | 2020-09-18 | 北京三快在线科技有限公司 | 知识图谱表示学习模型训练方法、装置及电子设备 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112052681A (zh) * | 2020-08-20 | 2020-12-08 | 中国建设银行股份有限公司 | 信息抽取模型训练方法、信息抽取方法、装置及电子设备 |
WO2021121198A1 (zh) * | 2020-09-08 | 2021-06-24 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN114153978A (zh) * | 2022-02-07 | 2022-03-08 | 杭州恒生聚源信息技术有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
CN115017324A (zh) * | 2022-03-03 | 2022-09-06 | 北京小米移动软件有限公司 | 实体关系抽取方法、装置、终端及存储介质 |
Non-Patent Citations (3)
Title |
---|
GU WENBIN: "A Novel Adaptive Manufacturing System Based on", 《IEEE》 * |
王子衡: "基于CNN 多模型集成和难三元组损失的", 《互联网+ 健康》 * |
田萱等: "基于语义分割的食品标签文本检测", 《农业机械学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115033717B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210182680A1 (en) | Processing sequential interaction data | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN113657100B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111198939A (zh) | 语句相似度的分析方法、装置及计算机设备 | |
CN111259851A (zh) | 一种多模态事件检测方法及装置 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN111368551A (zh) | 一种确定事件主体的方法和装置 | |
CN115080742A (zh) | 文本信息抽取方法、装置、设备、存储介质以及程序产品 | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN115146068A (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN112836515A (zh) | 文本分析方法、推荐方法、装置、电子设备及存储介质 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN113051894A (zh) | 一种文本纠错的方法和装置 | |
CN110929517B (zh) | 地理位置定位方法、系统、计算机设备和存储介质 | |
CN112906368A (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN115033717B (zh) | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 | |
CN116089584A (zh) | 事件抽取的方法、装置、电子设备和介质 | |
CN114490965A (zh) | 问题处理方法、装置、电子设备和存储介质 | |
CN114357164A (zh) | 情感-原因对抽取方法、装置、设备及可读存储介质 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN113901175A (zh) | 物品关系判别方法和装置 | |
CN114201953A (zh) | 一种关键词提取、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |