CN116127920A - 信息提取模型的训练方法及装置 - Google Patents

信息提取模型的训练方法及装置 Download PDF

Info

Publication number
CN116127920A
CN116127920A CN202211683113.7A CN202211683113A CN116127920A CN 116127920 A CN116127920 A CN 116127920A CN 202211683113 A CN202211683113 A CN 202211683113A CN 116127920 A CN116127920 A CN 116127920A
Authority
CN
China
Prior art keywords
text
vector
training
information extraction
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211683113.7A
Other languages
English (en)
Inventor
陈莹莹
陈第
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202211683113.7A priority Critical patent/CN116127920A/zh
Publication of CN116127920A publication Critical patent/CN116127920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种信息提取模型的训练方法及装置,该方法包括:获取标注后的文本数据,并将文本数据输入至预训练信息提取模型中,得到文本编码结果并输入至预设数量的第一全连接层中,得到头实体位置向量;分析头实体位置向量以及文本编码结果,得到目标文本向量,并将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系;基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型。可见,实施本发明能够有利于提高信息提取模型训练的准确性和效率,以及有利于提高通过训练所得的信息提取模型进行信息提取的准确性。

Description

信息提取模型的训练方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息提取模型的训练方法及装置。
背景技术
随着大数据时代的到来,互联网技术也得到了普及和发展,互联网上的信息量呈直线式增长。在互联网业务中,每天都有海量的来自电商或者社交媒体的文本,其文本中蕴含大量有效信息,需要通过有效的方法对当中的关键信息进行提取。
目前,对于关键信息的提取方法大多数是基于pipline式进行抽取,也即,先抽取实体,再采用分类模型预测实体关系。但是,这种方式会存在重叠关系的现象,使得提取得到的信息准确率低下,并且这种方式也同样存在着效率低的问题。可见,提供一种新的信息提取模型以提高信息提取的准确性和效率显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种信息提取模型的训练方法及装置,能够有利于提高信息提取模型训练的准确性和效率,以及有利于提高通过训练所得的信息提取模型进行信息提取的准确性。
为了解决上述技术问题,本发明第一方面公开了一种信息提取模型的训练方法,所述方法包括:
获取标注后的文本数据,并将所述文本数据输入至预训练信息提取模型中,得到文本编码结果,所述文本编码结果包括若干个文本编码向量;
将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,所述头实体位置向量包括头实体起始向量和头实体结尾向量;
分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量,并将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系,所述尾实体位置向量包括尾实体起始向量和尾实体结尾向量;
基于所述头实体位置向量、所述尾实体位置向量以及所述文本数据,计算所述预训练信息提取模型的损失信息,并根据所述损失信息对所述预训练信息提取模型进行训练,以得到目标信息提取模型。
作为一种可选的实施方式,在本发明第一方面中,所述分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量,包括:
对所述文本编码结果以及所述头实体起始向量执行第一计算操作,得到第一计算结果,以及对所述文本编码结果以及所述头实体结尾向量,执行第二计算操作,得到第二计算结果;
根据所述第一计算结果、所述第二计算结果以及所述文本编码结果,确定目标文本向量。
作为一种可选的实施方式,在本发明第一方面中,所述将所述文本数据输入至预训练信息提取模型中,得到文本编码结果,包括:
确定所述文本数据中的目标标记,并将所述目标标记对应的向量作为文本编码结果;或者,
将所述文本数据输入至预设的至少一个隐藏层,从所有所述隐藏层中确定出目标隐藏层,并将所有所述目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将所述目标拼接向量输入至预设的双向处理层中,得到文本编码结果。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述头实体位置向量、所述尾实体位置向量以及所述文本数据,计算所述预训练信息提取模型的损失信息,包括:
根据所述头实体位置向量以及所述文本数据,确定第一损失子信息;
根据所述尾实体位置向量以及所述文本数据,确定第二损失子信息;
根据所述第一损失子信息以及所述第二损失子信息,确定所述预训练信息提取模型的损失信息。
作为一种可选的实施方式,在本发明第一方面中,所述将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,包括:
对于所述文本编码结果中的每个所述文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
根据每个所述文本编码向量的文本概率,确定所述文本编码结果的头实体位置向量。
作为一种可选的实施方式,在本发明第一方面中,所述根据每个所述文本编码向量的文本概率,确定所述文本编码结果的头实体位置向量,包括:
对于每个所述文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
当判断出该文本编码向量的文本概率大于预设的所述概率阈值时,将该文本编码向量的文本概率确定为目标文本概率;
根据所有所述目标文本概率所对应的文本编码向量,确定所述文本编码结果的头实体位置向量。
作为一种可选的实施方式,在本发明第一方面中,所述将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系,包括:
将所述目标文本向量输入至第二全连接层,得到所述目标文本向量的尾实体起始向量和尾实体结尾向量,以及得到关系向量矩阵;
根据所述尾实体起始向量和所述尾实体结尾向量,生成尾实体位置向量,以及根据所述关系向量矩阵,生成所述文本数据的实体关系。
本发明第二方面公开了一种信息提取模型的训练装置,所述装置包括:
获取模块,用于获取标注后的文本数据;
输入模块,用于将所述文本数据输入至预训练信息提取模型中,得到文本编码结果,所述文本编码结果包括若干个文本编码向量;
所述输入模块,还用于将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,所述头实体位置向量包括头实体起始向量和头实体结尾向量;
分析模块,用于分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量;
所述输入模块,还用于将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系,所述尾实体位置向量包括尾实体起始向量和尾实体结尾向量;
计算模块,用于计算所述预训练信息提取模型的损失信息;
训练模块,用于根据所述损失信息对所述预训练信息提取模型进行训练,以得到目标信息提取模型。
作为一种可选的实施方式,在本发明第二方面中,所述分析模块分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量的具体方式包括:
对所述文本编码结果以及所述头实体起始向量执行第一计算操作,得到第一计算结果,以及对所述文本编码结果以及所述头实体结尾向量,执行第二计算操作,得到第二计算结果;
根据所述第一计算结果、所述第二计算结果以及所述文本编码结果,确定目标文本向量。
作为一种可选的实施方式,在本发明第二方面中,输入模块将所述文本数据输入至预训练信息提取模型中,得到文本编码结果的具体方式包括:
确定所述文本数据中的目标标记,并将所述目标标记对应的向量作为文本编码结果;或者,
将所述文本数据输入至预设的至少一个隐藏层,从所有所述隐藏层中确定出目标隐藏层,并将所有所述目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将所述目标拼接向量输入至预设的双向处理层中,得到文本编码结果。
作为一种可选的实施方式,在本发明第二方面中,,所述计算模块基于所述头实体位置向量、所述尾实体位置向量以及所述文本数据,计算所述预训练信息提取模型的损失信息的具体方式包括:
根据所述头实体位置向量以及所述文本数据,确定第一损失子信息;
根据所述尾实体位置向量以及所述文本数据,确定第二损失子信息;
根据所述第一损失子信息以及所述第二损失子信息,确定所述预训练信息提取模型的损失信息。
作为一种可选的实施方式,在本发明第二方面中,所述输入模块将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量的具体方式包括:
对于所述文本编码结果中的每个所述文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
根据每个所述文本编码向量的文本概率,确定所述文本编码结果的头实体位置向量。
作为一种可选的实施方式,在本发明第二方面中,所述输入模块根据每个所述文本编码向量的文本概率,确定所述文本编码结果的头实体位置向量的具体方式包括:
对于每个所述文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
当判断出该文本编码向量的文本概率大于预设的所述概率阈值时,将该文本编码向量的文本概率确定为目标文本概率;
根据所有所述目标文本概率所对应的文本编码向量,确定所述文本编码结果的头实体位置向量。
作为一种可选的实施方式,在本发明第二方面中,所述输入模块将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系的具体方式包括:
将所述目标文本向量输入至第二全连接层,得到所述目标文本向量的尾实体起始向量和尾实体结尾向量,以及得到关系向量矩阵;
根据所述尾实体起始向量和所述尾实体结尾向量,生成尾实体位置向量,以及根据所述关系向量矩阵,生成所述文本数据的实体关系。
本发明第三方面公开了另一种信息提取模型的训练装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的信息提取模型的训练方法。
本发明第四方面公开了一种计算机可存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的信息提取模型的训练方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取标注后的文本数据,并将文本数据输入至预训练信息提取模型中,得到文本编码结果;将文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量;分析头实体位置向量以及文本编码结果,得到目标文本向量,并将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系;基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型。可见,实施本发明能够有利于提高信息提取模型训练的准确性和效率,以及有利于提高通过训练所得的信息提取模型进行信息提取的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种信息提取模型的训练方法的流程示意图;
图2是本发明实施例公开的另一种信息提取模型的训练方法的流程示意图;
图3是本发明实施例公开的一种信息提取模型的训练装置的结构示意图;
图4是本发明实施例公开的另一种信息提取模型的训练装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种信息提取模型的训练方法及装置,能够有利于提高信息提取模型训练的准确性和效率,以及有利于提高通过训练所得的信息提取模型进行信息提取的准确性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种信息提取模型的训练方法的流程示意图。其中,图1所描述的信息提取模型的训练方法可以应用于信息提取模型的训练装置中,也可以应用于信息提取模型的训练的本地服务器或云端服务器,本发明实施例不做限定。如图1所示,该信息提取模型的训练方法可以包括以下操作:
101、获取标注后的文本数据,并将文本数据输入至预训练信息提取模型中,得到文本编码结果。
本发明实施例中,文本编码结果包括若干个文本编码向量。
本发明实施例中,可选的,标注后的文本数据为标注了文本实体关系的文本数据。举例来说,当文本为“赫莲娜小绿瓶精华,里面有二裂酵母成分,提亮效果很赞,真是我用过的最好的精华”时,对该文本进行标注,得到“小绿瓶-品牌-赫莲娜,小绿瓶-品类-精华,小绿瓶-成分-二裂酵母,小绿瓶-功效-提亮”文本数据。
102、将文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量。
本发明实施例中,头实体位置向量包括头实体起始向量和头实体结尾向量。
本发明实施例中,可选的,预设数量为2,也可以为其它的数量,本发明实施例不做具体限定。举例来说,上述token_ids和attention_mask作为bert模型的输入,得到encoded_text,维度为[8,96,768],此处8对应为batch_size,96为这个batch的padding长度,768为bert的embeeding长度,在encoded_text后分别加两个全连接层(信息变换,得到我们想要的数据维度)处理为维度为[8,96]的维度。这样能够通过将文本编码向量输入至预设数量的全连接层,以得到预设数量个的数据维度,能够提高得到头实体位置向量的准确性和可靠性。
103、分析头实体位置向量以及文本编码结果,得到目标文本向量。
本发明实施例中,可选的,目标文本向量包括头实体位置向量与文本编码向量进行信息交互后的文本向量。
104、将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系。
本发明实施例中,尾实体位置向量包括尾实体起始向量和尾实体结尾向量。
本发明实施例中,可选的,尾实体位置向量以及文本数据的实体关系是同时得到的。
105、基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型。
本发明实施例中,可选的,在根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型之前,该方法还包括:
判断损失信息是否满足预设的损失条件;
当判断出损失信息满足预设的损失条件时,将预训练信息提取模型确定为目标信息提取模型;
当判断出损失信息不满足预设的损失条件时,触发执行根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型的操作。
可见,实施图1所描述的信息提取模型的训练方法能够获取标注后的文本数据并输入至预训练信息提取模型得到文本编码结果,将文本编码结果输入至预设数量的第一全连接层中,得到头实体向量,分析头实体向量以及文本编码结果,得到目标文本向量,并将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系,基于头实体位置向量、尾实体位置向量以及文本数据计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练以得到目标信息提取模型,能够同时得到尾实体位置向量以及文本数据的实体关系,有利于提高得到头实体位置向量、尾实体位置向量以及文本数据的实体关系的效率,有利于提高信息提取模型训练的准确性和效率,进而有利于提高通过训练所得的信息提取模型进行信息提取的准确性和效率。
实施例二
请参阅图2,图2是本发明实施例公开的另一种信息提取模型的训练方法的流程示意图。其中,图2所描述的信息提取模型的训练方法可以应用于信息提取模型的训练装置中,也可以应用于信息提取模型的训练的本地服务器或云端服务器,本发明实施例不做限定。如图2所示,该信息提取模型的训练方法可以包括以下操作:
201、获取标注后的文本数据,并将文本数据输入至预训练信息提取模型中,得到文本编码结果。
202、将文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量。
203、对文本编码结果以及头实体起始向量执行第一计算操作,得到第一计算结果,以及对文本编码结果以及头实体结尾向量,执行第二计算操作,得到第二计算结果。
本发明实施例中,可选的,对文本编码结果以及头实体起始向量执行第一计算操作,得到第一计算结果,包括:
将文本编码结果与头实体起始向量执行相乘操作,得到第一计算结果。
本发明实施例中,可选的,对文本编码结果以及头实体结尾向量,执行第二计算操作,得到第二计算结果,包括:
将文本编码结果与头实体结尾向量执行相乘操作,得到第二计算结果。
204、根据第一计算结果、第二计算结果以及文本编码结果,确定目标文本向量。
本发明实施例中,可选的,根据第一计算结果、第二计算结果以及文本编码结果,确定目标文本向量,包括:
将第一计算结果与第二计算结果执行相加操作并取均值,得到融合了头实体位置向量的目标信息;
将目标信息与文本编码向量执行相加操作,得到目标文本向量。
这样能够基于第一计算结果、第二计算结果以及文本编码向量共同确定目标文本向量,能够强化实体的位置信息,能够提高确定目标文本向量的准确性和可靠性。
205、将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系。
206、基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型。
本发明实施例中,针对步骤201-步骤202以及步骤205-步骤206的详细描述,请参照实施例一中针对步骤101-步骤102以及步骤104-步骤105的其它描述,本发明实施例不再赘述。
可见,实施图2所描述的信息提取模型的训练方法能够对文本编码结果以及头实体起始向量执行第一计算操作得到第一计算结果,以及对文本编码结果以及头实体结尾向量执行第二计算操作,得到第二计算结果,根据第一计算结果、第二计算结果以及文本编码结果确定目标文本向量,能够强化实体的位置信息,能够提高确定目标文本向量的准确性和可靠性,并能够基于目标文本向量得到尾实体位置向量以及文本数据的实体关系的准确性和可靠性,有利于提高计算预训练信息提取模型的损失信息的准确性和可靠性,并且有利于提高对信息提取模型进行训练的智能性和精准性。
在一个可选的实施例中,将文本数据输入至预训练信息提取模型中,得到文本编码结果,包括:
确定文本数据中的目标标记,并将目标标记对应的向量作为文本编码结果;或者,
将文本数据输入至预设的至少一个隐藏层,从所有隐藏层中确定出目标隐藏层,并将所有目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将目标拼接向量输入至预设的双向处理层中,得到文本编码结果。
在该可选的实施例中,可选的,文本数据中的目标标记为[CLS]标记。需要说明的是,bert在第一句前会加一个[CLS]标志,最后一层该位对应向量可以作为整句话的语义表示,从而用于下游的分类任务等。
在该可选的实施例中,可选的,目标隐藏层的数量为4个。进一步可选的,目标隐藏层可以为bert模型中的前四层或者后四层。
在该可选的实施例中,进一步的,将所有目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,包括:
将所有目标隐藏层对应的向量执行拼接操作,并对拼接后的所有目标隐藏层对应的向量执行目标池化操作,得到目标拼接向量;
其中,目标池化操作包括均值池化操作或者最大池化操作。
在该可选的实施例中,可选的,预设的双向处理层为双向lstm层。其中,双向lstm是传统lstm的扩展,可以提高序列分类问题的模型性能。
可见,实施该可选的实施例能够通过确定文本数据中的目标标记并将目标标记对应的向量作为文本编码结果,或者,将文本数据输入值预设的至少一个隐藏层,从所有隐藏层中确定出目标隐藏层,并将所有目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将目标拼接向量输入至预设的双向处理层中,得到文本编码结果,能够更容易捕捉序列关系,能够提高确定每个头实体与尾实体的关系对,并且所得到的每个文本数据的实体关系为相互独立的关系,避免造成一个实体与多个实体存在实体关系时模型出现混乱的情况,有利于后续确定尾实体结尾向量以及文本数据对应的实体关系的准确性和可靠性,并有利于基于目标文本向量得到尾实体位置向量以及文本数据的实体关系的准确性和可靠性。
在另一个可选的实施例中,基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息,包括:
根据头实体位置向量以及文本数据,确定第一损失子信息;
根据尾实体位置向量以及文本数据,确定第二损失子信息;
根据第一损失子信息以及第二损失子信息,确定预训练信息提取模型的损失信息。
在该可选的实施例中,可选的,根据第一损失子信息以及第二损失子信息,确定预训练信息提取模型的损失信息,包括:
将第一损失子信息与第二损失子信息相加,得到损失子信息和值,并将损失子信息和值确定为预训练信息提取模型的损失信息。
可见,实施该可选的实施例能够根据头实体位置向量以及文本数据确定第一损失子信息,根据尾实体位置向量以及文本数据,确定第二损失子信息,并基于第一损失子信息以及第二损失子信息确定预训练信息提取模型的损失信息,能够通过分别获得第一损失子信息和第二损失子信息进而确定损失信息,能够提高确定预训练信息提取模型的损失信息的精准性和可靠性,有利于提高根据损失信息对预训练信息提取模型进行训练的效率和准确性,进而有利于提高得到目标信息提取模型的效率和精准性。
在又一个可选的实施例中,将文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,包括:
对于文本编码结果中的每个文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
根据每个文本编码向量的文本概率,确定文本编码结果的头实体位置向量。
在该可选的实施例中,可选的,对于文本编码结果中的每个文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,包括:
对于文本编码结果中的每个文本编码向量,分别做sigmoid操作,将该文本编码向量转换为文本概率,以得到每个文本编码向量的文本概率。
在该可选的实施例中,可选的,文本概率的数值范围为从0到1任一自然数。需要说明的是,sigmoid函数是一种具有S形曲线的数学函数,是一种激活函数,并且更具体地定义为挤压函数(squashing function),压缩函数将输出限制在0到1之间,从而使这些函数在概率预测中非常有用。
可见,实施该可选的实施例能够对于文本编码结果中的每个文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,并判断该文本编码向量的文本概率是否大于预设的概率阈值,根据每个文本编码向量的文本概率,确定文本编码结果的头实体位置向量,能够基于文本概率确定头实体位置向量,能够提高确定头实体起始向量和头实体结尾向量的准确性,有利于提高确定头实体位置向量的精准性,从而有利于提高后续确定目标文本向量的精准性,进而有利于提高确定尾实体位置向量以及文本数据的实体关系的精准性。
在又一个可选的实施例中,根据每个文本编码向量的文本概率,确定文本编码结果的头实体位置向量,包括:
对于每个文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
当判断出该文本编码向量的文本概率大于预设的概率阈值时,将该文本编码向量的文本概率确定为目标文本概率;
根据所有目标文本概率所对应的文本编码向量,确定文本编码结果的头实体位置向量。
在该可选的实施例中,可选的,当判断出该文本编码向量的文本概率大于预设的概率阈值时,将该文本编码向量的文本概率确定为目标文本概率,包括:
当判断出该文本概率大于0.5时,将该文本概率对应的向量更改为1;其中,1为目标文本概率;
将所有文本概率对应的向量为1的位置确定为文本编码结果的头实体位置向量。
在该可选的实施例中,可选的,大于预设的概率阈值的文本概率的数量大于0且小于等于2。
在该可选的实施例中,可选的,将所有文本概率对应的向量为1的位置确定为文本编码结果的头实体位置向量,包括:
当文本概率对应的向量为1的数量只有一个时,将该文本概率对应的向量的位置确定为文本编码结果的头实体位置向量;
当文本概率对应的向量为1的数量为两个时,分别将该文本概率对应的向量的位置确定为头实体起始向量和头实体结尾向量。
在该可选的实施例中,可选的,当判断出该文本编码向量的文本概率小于预设的概率阈值时,则确定该文本编码向量的文本概率小于0.5。
可见,实施该可选的实施例能够对于每个文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值,若大于,则将该文本编码向量的文本概率确定为目标文本概率,根据所有目标文本概率所对应的文本编码向量,确定文本编码结果的头实体位置向量,能够根据文本编码向量的文本概率确定文本编码结果的头实体位置向量的精准性,有利于提高确定头实体起始向量和头实体结尾向量的准确性,有利于提高确定头实体位置向量的精准性,从而有利于提高后续确定目标文本向量的精准性,进而有利于提高确定尾实体位置向量以及文本数据的实体关系的精准性。
在又一个可选的实施例中,将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系,包括:
将目标文本向量输入至第二全连接层,得到目标文本向量的尾实体起始向量和尾实体结尾向量,以及得到关系向量矩阵;
根据尾实体起始向量和尾实体结尾向量,生成尾实体位置向量,以及根据关系向量矩阵,生成文本数据的实体关系。
在该可选的实施例中,可选的,关系向量矩阵中包括多个关系概率,其中,每个关系概率包括头实体位置向量与尾实体位置向量之间的匹配概率。
在该可选的实施例中,需要说明的是,尾实体位置向量与文本数据的实体关系为同时生成的。
可见,实施该可选的实施例能够将目标文本向量输入至第二全连接层,得到目标文本向量的尾实体起始向量和尾实体结尾向量,以及关系向量矩阵,根据实体起始向量和尾实体结尾向量,生成尾实体位置向量,并根据关系向量矩阵生成文本数据的实体关系,能够同时生成尾实体位置向量的同时生成文本数据的实体关系,能够提高生成尾实体位置向量以及文本数据的实体关系的效率,从而能够提高计算预训练信息提取模型的损失信息的效率,进而有利于提高根据损失信息对预训练信息提取模型进行训练的效率。
实施例三
请参阅图3,图3是本发明实施例公开的一种信息提取模型的训练装置的结构示意图。如图3所示,该信息提取模型的训练装置可以包括:
获取模块301,用于获取标注后的文本数据;
输入模块302,用于将文本数据输入至预训练信息提取模型中,得到文本编码结果,文本编码结果包括若干个文本编码向量;
输入模块302,还用于将文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,头实体位置向量包括头实体起始向量和头实体结尾向量;
分析模块303,用于分析头实体位置向量以及文本编码结果,得到目标文本向量;
输入模块302,还用于将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系,尾实体位置向量包括尾实体起始向量和尾实体结尾向量;
计算模块304,用于计算预训练信息提取模型的损失信息;
训练模块305,用于根据损失信息对预训练信息提取模型进行训练,以得到目标信息提取模型。
可见,实施图3所描述的装置能够获取标注后的文本数据并输入至预训练信息提取模型得到文本编码结果,将文本编码结果输入至预设数量的第一全连接层中,得到头实体向量,分析头实体向量以及文本编码结果,得到目标文本向量,并将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系,基于头实体位置向量、尾实体位置向量以及文本数据计算预训练信息提取模型的损失信息,并根据损失信息对预训练信息提取模型进行训练以得到目标信息提取模型,能够同时得到尾实体位置向量以及文本数据的实体关系,有利于提高得到头实体位置向量、尾实体位置向量以及文本数据的实体关系的效率,有利于提高信息提取模型训练的准确性和效率,进而有利于提高通过训练所得的信息提取模型进行信息提取的准确性和效率。
在一个可选的实施例中,分析模块303分析头实体位置向量以及文本编码结果,得到目标文本向量的具体方式包括:
对文本编码结果以及头实体起始向量执行第一计算操作,得到第一计算结果,以及对文本编码结果以及头实体结尾向量,执行第二计算操作,得到第二计算结果;
根据第一计算结果、第二计算结果以及文本编码结果,确定目标文本向量。
可见,实施图3所描述的装置能够对文本编码结果以及头实体起始向量执行第一计算操作得到第一计算结果,以及对文本编码结果以及头实体结尾向量执行第二计算操作,得到第二计算结果,根据第一计算结果、第二计算结果以及文本编码结果确定目标文本向量,能够强化实体的位置信息,能够提高确定目标文本向量的准确性和可靠性,并能够基于目标文本向量得到尾实体位置向量以及文本数据的实体关系的准确性和可靠性,有利于提高计算预训练信息提取模型的损失信息的准确性和可靠性,并且有利于提高对信息提取模型进行训练的智能性和精准性。
在另一个可选的实施例中,输入模块302将文本数据输入至预训练信息提取模型中,得到文本编码结果的具体方式包括:
确定文本数据中的目标标记,并将目标标记对应的向量作为文本编码结果;或者,
将文本数据输入至预设的至少一个隐藏层,从所有隐藏层中确定出目标隐藏层,并将所有目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将目标拼接向量输入至预设的双向处理层中,得到文本编码结果。
可见,实施图3所描述的装置能够通过确定文本数据中的目标标记并将目标标记对应的向量作为文本编码结果,或者,将文本数据输入值预设的至少一个隐藏层,从所有隐藏层中确定出目标隐藏层,并将所有目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将目标拼接向量输入至预设的双向处理层中,得到文本编码结果,能够更容易捕捉序列关系,能够提高确定每个头实体与尾实体的关系对,并且所得到的每个文本数据的实体关系为相互独立的关系,避免造成一个实体与多个实体存在实体关系时模型出现混乱的情况,有利于后续确定尾实体结尾向量以及文本数据对应的实体关系的准确性和可靠性,并有利于基于目标文本向量得到尾实体位置向量以及文本数据的实体关系的准确性和可靠性。
在又一个可选的实施例中,计算模块304基于头实体位置向量、尾实体位置向量以及文本数据,计算预训练信息提取模型的损失信息的具体方式包括:
根据头实体位置向量以及文本数据,确定第一损失子信息;
根据尾实体位置向量以及文本数据,确定第二损失子信息;
根据第一损失子信息以及第二损失子信息,确定预训练信息提取模型的损失信息。
可见,实施图3所描述的装置能够根据头实体位置向量以及文本数据确定第一损失子信息,根据尾实体位置向量以及文本数据,确定第二损失子信息,并基于第一损失子信息以及第二损失子信息确定预训练信息提取模型的损失信息,能够通过分别获得第一损失子信息和第二损失子信息进而确定损失信息,能够提高确定预训练信息提取模型的损失信息的精准性和可靠性,有利于提高根据损失信息对预训练信息提取模型进行训练的效率和准确性,进而有利于提高得到目标信息提取模型的效率和精准性。
在又一个可选的实施例中,输入模块302将文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量的具体方式包括:
对于文本编码结果中的每个文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
根据每个文本编码向量的文本概率,确定文本编码结果的头实体位置向量。
可见,实施图3所描述的装置能够对于文本编码结果中的每个文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,并判断该文本编码向量的文本概率是否大于预设的概率阈值,根据每个文本编码向量的文本概率,确定文本编码结果的头实体位置向量,能够基于文本概率确定头实体位置向量,能够提高确定头实体起始向量和头实体结尾向量的准确性,有利于提高确定头实体位置向量的精准性,从而有利于提高后续确定目标文本向量的精准性,进而有利于提高确定尾实体位置向量以及文本数据的实体关系的精准性。
在又一个可选的实施例中,输入模块302根据每个文本编码向量的文本概率,确定文本编码结果的头实体位置向量的具体方式包括:
对于每个文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
当判断出该文本编码向量的文本概率大于预设的概率阈值时,将该文本编码向量的文本概率确定为目标文本概率;
根据所有目标文本概率所对应的文本编码向量,确定文本编码结果的头实体位置向量。
可见,实施图3所描述的装置能够对于每个文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值,若大于,则将该文本编码向量的文本概率确定为目标文本概率,根据所有目标文本概率所对应的文本编码向量,确定文本编码结果的头实体位置向量,能够根据文本编码向量的文本概率确定文本编码结果的头实体位置向量的精准性,有利于提高确定头实体起始向量和头实体结尾向量的准确性,有利于提高确定头实体位置向量的精准性,从而有利于提高后续确定目标文本向量的精准性,进而有利于提高确定尾实体位置向量以及文本数据的实体关系的精准性。
在又一个可选的实施例中,输入模块302将目标文本向量输入至第二全连接层,得到尾实体位置向量以及文本数据的实体关系的具体方式包括:
将目标文本向量输入至第二全连接层,得到目标文本向量的尾实体起始向量和尾实体结尾向量,以及得到关系向量矩阵;
根据尾实体起始向量和尾实体结尾向量,生成尾实体向量,以及根据关系向量矩阵,生成文本数据的实体关系。
可见,实施图3所描述的装置能够将目标文本向量输入至第二全连接层,得到目标文本向量的尾实体起始向量和尾实体结尾向量,以及关系向量矩阵,根据实体起始向量和尾实体结尾向量,生成尾实体位置向量,并根据关系向量矩阵生成文本数据的实体关系,能够同时生成尾实体位置向量的同时生成文本数据的实体关系,能够提高生成尾实体位置向量以及文本数据的实体关系的效率,从而能够提高计算预训练信息提取模型的损失信息的效率,进而有利于提高根据损失信息对预训练信息提取模型进行训练的效率。
实施例四
请参阅图4,图4是本发明实施例公开的另一种信息提取模型的训练装置的结构示意图。如图4所示,该信息提取模型的训练装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的信息提取模型的训练方法中的步骤。
实施例五
本发明实施例公开了一种计算机可存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的信息提取模型的训练方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的信息提取模型的训练方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种信息提取模型的训练方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种信息提取模型的训练方法,其特征在于,所述方法包括:
获取标注后的文本数据,并将所述文本数据输入至预训练信息提取模型中,得到文本编码结果,所述文本编码结果包括若干个文本编码向量;
将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,所述头实体位置向量包括头实体起始向量和头实体结尾向量;
分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量,并将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系,所述尾实体位置向量包括尾实体起始向量和尾实体结尾向量;
基于所述头实体位置向量、所述尾实体位置向量以及所述文本数据,计算所述预训练信息提取模型的损失信息,并根据所述损失信息对所述预训练信息提取模型进行训练,以得到目标信息提取模型。
2.根据权利要求1所述的信息提取模型的训练方法,其特征在于,所述分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量,包括:
对所述文本编码结果以及所述头实体起始向量执行第一计算操作,得到第一计算结果,以及对所述文本编码结果以及所述头实体结尾向量,执行第二计算操作,得到第二计算结果;
根据所述第一计算结果、所述第二计算结果以及所述文本编码结果,确定目标文本向量。
3.根据权利要求2所述的信息提取模型的训练方法,其特征在于,所述将所述文本数据输入至预训练信息提取模型中,得到文本编码结果,包括:
确定所述文本数据中的目标标记,并将所述目标标记对应的向量作为文本编码结果;或者,
将所述文本数据输入至预设的至少一个隐藏层,从所有所述隐藏层中确定出目标隐藏层,并将所有所述目标隐藏层对应的向量执行拼接操作,得到目标拼接向量,再将所述目标拼接向量输入至预设的双向处理层中,得到文本编码结果。
4.根据权利要求3所述的信息提取模型的训练方法,其特征在于,所述基于所述头实体位置向量、所述尾实体位置向量以及所述文本数据,计算所述预训练信息提取模型的损失信息,包括:
根据所述头实体位置向量以及所述文本数据,确定第一损失子信息;
根据所述尾实体位置向量以及所述文本数据,确定第二损失子信息;
根据所述第一损失子信息以及所述第二损失子信息,确定所述预训练信息提取模型的损失信息。
5.根据权利要求4所述的信息提取模型的训练方法,其特征在于,所述将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,包括:
对于所述文本编码结果中的每个所述文本编码向量,将该文本编码向量执行数据转换操作,得到该文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
根据每个所述文本编码向量的文本概率,确定所述文本编码结果的头实体位置向量。
6.根据权利要求5所述的信息提取模型的训练方法,其特征在于,所述根据每个所述文本编码向量的文本概率,确定所述文本编码结果的头实体位置向量,包括:
对于每个所述文本编码向量的文本概率,判断该文本编码向量的文本概率是否大于预设的概率阈值;
当判断出该文本编码向量的文本概率大于预设的所述概率阈值时,将该文本编码向量的文本概率确定为目标文本概率;
根据所有所述目标文本概率所对应的文本编码向量,确定所述文本编码结果的头实体位置向量。
7.根据权利要求6所述的信息提取模型的训练方法,其特征在于,所述将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系,包括:
将所述目标文本向量输入至第二全连接层,得到所述目标文本向量的尾实体起始向量和尾实体结尾向量,以及得到关系向量矩阵;
根据所述尾实体起始向量和所述尾实体结尾向量,生成尾实体位置向量,以及根据所述关系向量矩阵,生成所述文本数据的实体关系。
8.一种信息提取模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取标注后的文本数据;
输入模块,用于将所述文本数据输入至预训练信息提取模型中,得到文本编码结果,所述文本编码结果包括若干个文本编码向量;
所述输入模块,还用于将所述文本编码结果输入至预设数量的第一全连接层中,得到头实体位置向量,所述头实体位置向量包括头实体起始向量和头实体结尾向量;
分析模块,用于分析所述头实体位置向量以及所述文本编码结果,得到目标文本向量;
所述输入模块,还用于将所述目标文本向量输入至第二全连接层,得到尾实体位置向量以及所述文本数据的实体关系,所述尾实体位置向量包括尾实体起始向量和尾实体结尾向量;
计算模块,用于计算所述预训练信息提取模型的损失信息;
训练模块,用于根据所述损失信息对所述预训练信息提取模型进行训练,以得到目标信息提取模型。
9.一种信息提取模型的训练装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的信息提取模型的训练方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的信息提取模型的训练方法。
CN202211683113.7A 2022-12-27 2022-12-27 信息提取模型的训练方法及装置 Pending CN116127920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211683113.7A CN116127920A (zh) 2022-12-27 2022-12-27 信息提取模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211683113.7A CN116127920A (zh) 2022-12-27 2022-12-27 信息提取模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN116127920A true CN116127920A (zh) 2023-05-16

Family

ID=86305739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211683113.7A Pending CN116127920A (zh) 2022-12-27 2022-12-27 信息提取模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN116127920A (zh)

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN110717325B (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN111325571B (zh) 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN114021646A (zh) 一种图像描述文本确定方法及其相关设备
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN115146068A (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN116127920A (zh) 信息提取模型的训练方法及装置
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN114329005A (zh) 信息处理方法、装置、计算机设备及存储介质
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质
CN112668343A (zh) 文本重写方法以及电子设备、存储装置
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN116227496B (zh) 一种基于深度学习的电力舆情实体关系抽取方法及系统
CN117290510B (zh) 文档信息抽取方法、模型、电子设备及可读介质
CN116049446B (zh) 一种事件抽取方法、装置、设备及计算机可读存储介质
CN115408488A (zh) 用于小说场景文本的分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination