CN115718830A - 训练信息抽取模型的方法、信息抽取方法及对应装置 - Google Patents

训练信息抽取模型的方法、信息抽取方法及对应装置 Download PDF

Info

Publication number
CN115718830A
CN115718830A CN202211473211.8A CN202211473211A CN115718830A CN 115718830 A CN115718830 A CN 115718830A CN 202211473211 A CN202211473211 A CN 202211473211A CN 115718830 A CN115718830 A CN 115718830A
Authority
CN
China
Prior art keywords
training
information extraction
information
extraction model
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211473211.8A
Other languages
English (en)
Inventor
谭清宇
许璐
邴立东
黄伟道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211473211.8A priority Critical patent/CN115718830A/zh
Publication of CN115718830A publication Critical patent/CN115718830A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请实施例公开了一种训练信息抽取模型的方法、信息抽取方法及对应装置,涉及人工智能技术领域。其中方法包括:获取训练样本集,训练样本集中存在部分样本的元素的信息类别标签未被正确标注;利用训练样本集训练信息抽取模型;从训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确;利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为采样的样本标注信息类别标签;将标注信息类别标签后的采样的样本放回训练样本集,转至利用训练样本集训练信息抽取模型的步骤。本申请能够提高信息抽取模型的信息抽取效果。

Description

训练信息抽取模型的方法、信息抽取方法及对应装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种训练信息抽取模型的方法、信息抽取方法及对应装置。
背景技术
信息抽取(IE,Information Extraction)最初指的是从文本中抽取出特定类别的信息,从而将海量内容自动分类、提取和重构,例如命名实体识别、实体关系抽取、事件抽取等。随着人工智能技术的不断发展,信息抽取技术也逐渐扩展到对图片、视频等中抽取出特定类别的信息,例如目标检测、目标间关系的识别等。
信息抽取模型的构建依赖于训练样本集,训练样本集中包含了大量标注了信息类别标签的样本。但在现实场景下,训练样本集往往存在严重的标注不完全的问题,即有些样本中原本应该被标注信息类别标签的元素没有被正确标注,包括未被标注或者标注错误,那么这些元素在训练过程中反而成为了该信息类别标签的负例,在模型训练过程中带来大量的噪音,从而影响了信息抽取模型的效果。
发明内容
有鉴于此,本申请提供了一种训练信息抽取模型的方法、信息抽取方法及对应装置,以提高信息抽取的效果。
本申请提供了如下方案:
第一方面,提供了一种训练信息抽取模型的方法,所述方法包括:
获取训练样本集,所述训练样本集中存在部分样本的元素的信息类别标签未被正确标注;
利用所述训练样本集训练信息抽取模型;
从所述训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定;
利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为所述采样的样本标注信息类别标签;
将标注信息类别标签后的所述采样的样本放回所述训练样本集,转至利用所述训练样本集训练信息抽取模型的步骤。
根据本申请实施例中一可实现的方式,类别标签对应的样本的采样率与当前训练得到的信息抽取模型在对应类别上的准确率正相关,且与当前训练得到的信息抽取模型在对应类别上的召回率负相关。
根据本申请实施例中一可实现的方式,所述各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定包括:
对于类别i,利用μi=[Pi*(1-Ri)]β确定该类别标签对应的样本的采样率μi,其中Pi为当前训练得到的信息抽取模型在类别i上的准确率,Ri为当前训练得到的信息抽取模型在类别i上的召回率,β为超参数。
根据本申请实施例中一可实现的方式,利用所述训练样本集训练信息抽取模型包括:
将所述训练样本集中的样本输入信息抽取模型,由所述信息抽取模型输出所述样本中元素的信息类别;
在每一轮迭代中利用损失函数的取值,更新所述信息抽取模型的模型参数,直至满足预设的训练结束条件,其中所述损失函数依据训练目标预先构建,所述训练目标包括:最小化信息抽取模型输出的样本中元素的信息类别与对应信息类别标签之间的差异。
根据本申请实施例中一可实现的方式,在从所述训练样本集中采样样本之前,还包括:
获取当前训练得到的信息抽取模型的F1指标值;
若所述F1指标值满足预设的指标条件,则将当前训练得到的信息抽取模型作为最终的信息抽取模型;否则,继续执行从所述训练样本集中采样预设数量的样本的步骤。
根据本申请实施例中一可实现的方式,在从所述训练样本集中采样预设数量的样本之前,还包括:
获取验证样本集,所述验证样本集中样本的元素均被标注正确的信息类别标签;
利用当前训练得到的信息抽取模型对验证样本集中的样本进行信息类别的识别;
利用识别结果与验证样本集中样本被标注的信息类别标签,获取所述信息抽取模型在各类别上的准确率和召回率。
根据本申请实施例中一可实现的方式,所述样本为文本样本,所述元素为实体对,所述信息类别为实体关系类别;或者,
所述样本为文本样本,所述元素为所述文本样本中的字符或词语,所述信息类别为实体类别;或者,
所述样本为图像样本,所述元素为图像样本中的图像块,所述信息类别包括人和物体类别。
第二方面,提供了一种信息抽取方法,所述方法包括:
获取资源对象,所述资源对象包括文本或图像;
将所述资源对象输入信息抽取模型,获取所述信息抽取模型输出的所述资源对象中元素的信息类别;
其中所述信息抽取模型是利用如上第一方面中任一项所述的方法预先训练得到的。
第三方面,提供了一种实体关系抽取方法,所述方法包括:
获取文本;
将所述文本输入信息抽取模型,获取所述信息抽取模型输出的所述文本中实体对之间的关系类别;
其中所述信息抽取模型是利用如上第一方面中任一项所述的方法预先训练得到的。
第四方面,提供了一种训练信息抽取模型的装置,所述装置包括:
样本获取单元,被配置为获取训练样本集,所述训练样本集中存在部分样本的元素的信息类别标签未被正确标注;
模型训练单元,被配置为利用所述训练样本集训练信息抽取模型;
样本采样单元,被配置为从所述训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定;
标签标注单元,被配置为利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为所述采样的样本标注信息类别标签;将标注信息类别标签后的所述采样的样本放回所述训练样本集,触发所述模型训练单元利用所述训练样本集训练信息抽取模型。
第五方面,提供了一种信息抽取装置,所述装置包括:
对象获取单元,被配置为获取资源对象,所述资源对象包括文本或图像;
信息抽取单元,被配置为将所述资源对象输入信息抽取模型,获取所述信息抽取模型输出的所述资源对象中元素的信息类别;
其中所述信息抽取模型是利用如上第四方面所述的装置预先训练得到的。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
根据第六方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请借鉴了自训练的思路,利用信息抽取模型在对应类别上的准确率和召回率对样本进行采样,并将信息抽取模型对采样的样本进行信息类别识别后产生的信息类别标签即“伪标签”重新放回训练样本集中训练信息抽取模型,从而降低未被正确标注的信息类别标签所产生的影响,从而提高信息抽取模型的信息抽取效果。
2)通过本申请提供的信息抽取模型的自训练方法,能够在标注不完全的训练样本集上仍然得到效果优异的信息抽取模型,避免了需要人工补标训练样本集的问题,大大降低了人工成本。
3)本申请中,类别标签对应的样本的采样率与当前训练得到的信息抽取模型在对应类别上的准确率正相关,且与当前训练得到的信息抽取模型在对应类别上的召回率负相关,使得优先采样准确率高但召回率低的类别对应的样本,逐渐对采样的样本打上“伪标签”后,提高这些类别的召回率且保证准确率。
4)本申请中通过信息抽取模型的F1指标值控制自训练的循环,使得对信息抽取模型的自训练过程能够循环执行,直至信息抽取模型满足预设的指标条件。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所适用的系统架构图;
图2为本申请实施例提供的训练信息抽取模型的方法流程图;
图3为本申请实施例提供的实体关系抽取模型的结构性框图;
图4为本申请实施例提供的训练信息抽取模型的装置示意性框图;
图5为本申请实施例提供的的信息抽取装置的示意性框图;
图6为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
对于信息抽取场景下训练样本集标注不完全的问题,如果对训练样本集中的样本进行信息类别标签的补标,则人工成本较高。在一些场景下训练样本集中的样本数量是万级,甚至是百万、千万等级别,对训练样本集中的样本进行信息类别标签的补签几乎是不可能完成的。
有鉴于此,本申请借鉴了模型自训练的思路,提供了一种全新的信息抽取模型的训练方式。为了方便对本申请的理解,首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构,如图1中所示,该系统架构包括采用离线方式建立信息抽取模型的模型训练装置,以及在线对资源对象进行信息抽取的信息抽取装置。
其中,模型训练装置在获取训练样本集后,可以采用本申请实施例提供的方法进行模型训练,得到信息抽取模型。
信息抽取装置利用已经建立的信息抽取模型,对资源对象进行信息抽取,得到资源对象中元素的信息类别。其中,资源对象可以是文本、图像等资源类别。例如对文本进行实体识别,得到文本中的实体类别信息。再例如对文本进行实体关系抽取,得到文本中实体对的关系类别信息。再例如对图像进行目标检测,得到图像中人和物体的类别信息。
模型训练装置和信息抽取装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,Virtual Private Server)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置和预测装置还可以设置于具有较强计算能力的计算机终端。
需要说明的是,上述信息抽取装置除了在线上进行信息抽取之外,也可以采用离线的方式进行信息抽取,例如针对批量的资源对象分别进行信息抽取。
应该理解,图1中的模型训练装置、信息抽取装置以及信息抽取模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、信息抽取装置以及信息抽取模型。
图2为本申请实施例提供的训练信息抽取模型的方法流程图,该方法可以由图1所示系统架构中的模型训练装置执行。如图2中所示,该方法可以包括如下步骤:
步骤202:获取训练样本集,训练样本集中存在部分样本的元素的信息类别标签未被正确标注。
步骤204:利用训练样本集训练信息抽取模型。
步骤206:从训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定。
步骤208:利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为上述采样的样本标注信息类别标签。
步骤210:将标注信息类别标签后的上述采样的样本放回训练样本集,转至利用训练样本集训练信息抽取模型的步骤。
由上述流程可以看出,本申请借鉴了自训练的思路,利用信息抽取模型在对应类别上的准确率和召回率对样本进行采样,并将信息抽取模型对采样的样本进行信息类别识别后产生的“伪标签”重新放回训练样本集中训练信息抽取模型,从而降低未被正确标注的信息类别标签所产生的影响,从而提高信息抽取模型的信息抽取效果。
下面对上述方法流程中的各步骤分别进行描述。首先结合实施例对上述步骤202即“获取训练样本集”进行详细描述。
本步骤中获取的训练样本集指的是存在信息类别标签标注不完全问题的样本集,即有些样本中原本应该被标注信息类别标签的元素未被正确标注,所谓未被正确标注包括未被标注或者标注错误。未被标注指的是样本中某元素本应该被标注信息类别标签A的却没有被标注类别标签。标注错误指的是样本中某元素本应该被标注信息类别标签A的却被标注为信息类别B。
其中,训练样本集中的样本可以是文本样本,也可以是图像样本等。其中图像样本可以是图片,也可以是视频中的视频帧。在不同应用场景下,对样本中的不同元素进行信息类别的标注。例如,在实体识别场景下,训练样本集中是对文本样本中的字符或词语进行实体类别的标注。再例如,在实体关系抽取场景下,训练样本集中是对文本样本中的实体对进行实体关系类别的标注。再例如,在目标检测场景下,训练样本集中是对图像样本中的图像块进行人和物体类别的标注。
通常情况下,训练样本集中被正确标注是大多数情况,而未被正确标注是少数情况,但这些未被正确标注的元素会成为正确信息类别标签的负例,在模型训练过程中产生噪声。以实体关系抽取场景为例,在训练实体关系抽取模型时目前广泛采用的是两个数据集来作为训练样本集:TACRED和DocRED,然而这两个数据集中存在严重的标注不完全的问题。举个例子,假设张三和李四均为甲公司的员工,但训练样本集中的文本中将张三和李四标注为“没有关系”或者“家人关系”等不正确的标签,而实际上张三和李四应该被标注为“同事关系”。本申请获取的训练数据集就可以直接基于这两个训练样本集,无需进行额外的人工补标。
下面结合实施例对上述步骤204即“利用训练样本集训练信息抽取模型”进行详细描述。
本步骤的模型训练过程就是监督训练的过程,具体训练抽取模型的过程可以将训练样本集中的样本输入信息抽取模型,由信息抽取模型输出样本中元素的信息类别。在每一轮迭代中利用损失函数的取值,更新信息抽取模型的模型参数,直至满足预设的训练结束条件。
其中损失函数可以依据训练目标预先构建,训练目标包括:最小化信息抽取模型输出的样本中元素的信息类别与对应信息类别标签之间的差异。损失函数可以采用诸如交叉熵损失函数。
上述训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
本申请并不限制信息抽取模型的具体结构,任意结构的信息抽取模型均适用,本申请对于信息抽取模型本身并未进行改进。在此以关系抽取模型为例,如图3中所示,关系抽取模型可以包括特征提取网络和分类网络。
文本输入特征提取网络,其中文本中已经标注有实体对的信息。特征提取网络对输入的文本进行特征提取,得到实体对的特征表示。再由分类网络基于实体对的特征表示进行分类,即将实体对的特征表示映射到实体关系类别上,得到该实体对的实体关系类别。
其中,特征提取网络可以首先对输入的文本中的各Token进行Embedding(嵌入)处理。文本中的各Token可以包括字符、分隔符等。在不同语言中,Token也可能包括词语。上述Embedding处理可以至少包括:词Embedding和位置Embedding。词Embedding,即将各Token进行词向量编码,得到词向量表示。位置Embedding,即将各Token在待预测文本序列中的位置进行编码,得到位置的表示。
基于各Token的Embedding处理结果,特征提取网络可以通过诸如卷积网络、预训练语言模型等进行实体对的特征提取。
上述分类网络可以采用诸如Softmax网络等实现多分类。
下面结合实施例对上述步骤206即“从训练样本集中采样样本”以及步骤208即“利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为上述采样的样本标注信息类别标签”进行详细描述。
经过实验发现,当训练样本集中存在大量未完全标注的情形时,这些未完全标注的样本会成为对应信息类别的假“负例”,在模型训练过程中带来噪音,基于此训练得到的信息抽取模型的信息抽取结果具备如下特征:准确率很高但召回率非常低。
由于本申请借鉴了自训练的思路,从未被正确标注的样本中采样部分样本,利用信息抽取模型给这部分采样的样本标注信息类别标签即伪标签,这部分伪标签属于置信度较高的正例标签,然后与正确标注的样本一起用以进一步训练信息抽取模型。通过这样的过程,正例标签逐渐增加,使得信息抽取模型的召回率逐渐提高。但是传统的自训练方法会带来确认偏差(Confirmation Bias),即信息抽取模型标注的伪标签会集中于高频类别,并且在之后的自训练循环中不断强化这一确认偏差。因此,本申请实施例中对自训练方法进行了适用于信息抽取场景的改进,提出了一种类别自适应的自训练方式。依据信息抽取模型在各类别上的准确率和召回率来确定各类别样本的采样率。
首先需要统计信息抽取模型在各类别上的准确率和召回率。作为其中一种可实现的方式,可以将信息抽取模型在验证样本集中的表现来确定信息抽取模型在各类别上的准确率和召回率。利用当前训练得到的信息抽取模型对验证样本集中的样本进行信息类别的识别;利用识别结果与验证样本集中样本被标注的信息类别标签,获取信息抽取模型在各类别上的准确率和召回率。
其中验证样本集中样本的元素均被标注正确的信息类别标签,该验证样本集可以是一个小数据量的样本集,标注有所有信息类别的标签,专用于对信息抽取模型的准确率和召回率进行验证。鉴于验证样本集的数据量较小,可以采用人工标注的方式进行信息类别标签的标注从而保证各类别标签标注正确。
其中,信息抽取模型在类别i上的准确率Pi指的是信息抽取模型在类别i上识别正确的样本数与该类别的总样本数的比例,可以采用如下公式确定:
Figure BDA0003953726920000081
其中,TPi为信息抽取模型在类别i上识别正确的样本数,FPi为信息抽取模型在类别i上识别错误的样本数。
信息抽取模型在类别i上的召回率Ri指的是信息抽取模型在类别i上的样本中识别出出该信息类别的比例,可以采用如下公式确定:
Figure BDA0003953726920000082
其中,FNi为信息抽取模型在类别i上的样本中未识别出该信息类别的比例。
在采样过程中,希望尽量能够对准确率高但召回率低的类别优先进行采样,从而在保证准确率的同时尽量提高该类别的召回率。因此,在设计类别i的采样率时,可以使得采样率与信息抽取模型在类别i上的准确率正相关,且与信息抽取模型在类别i上的召回率负相关。
作为其中一种可实现的方式,对应类别i的样本的采样率μi可以采用如下公式确定:
μi=[Pi*(1-Ri)]β (3)
其中,β为超参数,用于控制采样平滑度,可以采用经验值或者实验值。
在从训练样本集中进行样本采样时,可以采样预设数量的样本。
对于按照各类别的采样率从训练样本集采样到的样本,使用当前训练得到的信息抽取模型对采样到的样本进行信息类别的识别,并利用识别结果为采样的样本标注信息类别标签,即打上“伪标签”。对于采样得到的样本,原本未被打上信息类别标签的元素被信息抽取模型识别出信息类型后,按照信息抽取模型的识别结果对该元素打上信息类型标签。原本已经被打上信息类别标签的元素被信息抽取模型识别出不同的信息类型后,按照信息抽取模型的识别结果对该元素更改标签,更改为信息抽取模型识别出的信息类型标签。原本已经被打上信息类别标签的元素被信息抽取模型识别出相同的信息类型后,保持该元素的信息类型标签不变。
在依据信息抽取模型对采样到的样本的识别结果对采样到的样本进行打标后,在步骤210中将打标后的这部分采样的样本放回训练样本集,这样训练样本集中标注正确的信息类别标签增多,继续利用训练样本集训练信息抽取模型即继续自训练的循环过程,从而逐渐提高信息抽取模型的识别效果,即在各类别上准确率和召回率都得到了保证。
上述自训练的循环过程的结束条件可以由信息抽取模型的识别效果来控制,作为其中一种可实现的方式,在上述步骤206之前,可以获取当前训练得到的信息抽取模型的F1指标值,若F1指标值满足预设的指标条件,则将当前训练得到的信息抽取模型作为最终的信息抽取模型,结束自训练的循环过程,即结束图2所示流程;否则,继续执行步骤206。
其中,F1指标值是分类问题中一个常用的衡量指标,例如可以采用macro-F1,即各类别的F1分数的算数平均值。再例如可以采用weighted-F1,即将每个类别的样本数量作为权重,对各类别的F1分数进行加权求和。
对于类别i,F1分数表示信息抽取模型在类别i上的准确率和召回率的平均数。可以采用如下公式:
Figure BDA0003953726920000091
类似地,在计算信息抽取模型的F1指标值时,其中使用的各类别的准确率和召回率由信息抽取模型在验证样本集上的表现确定,在此不做赘述。
在训练得到最终的信息抽取模型后,可以利用信息抽取模型进行信息抽取。首先获取资源对象,资源对象可以包括文本或图像等。然后将资源对象输入信息抽取模型,获取信息抽取模型输出的资源对象中元素的信息类别。
以实体关系抽取为例,获取文本,目标是从该文本中抽取出实体间的关系,可以预先在文本中标注出实体的信息或实体对的信息。将该文本输入最终训练得到的信息抽取模型(本例中为实体关系抽取模型),获取信息抽取模型输出的文本中实体对之间的关系类别,从而实现从文本中抽取出实体对的实体关系信息。
以实体识别为例,获取文本,目标是从该文本中抽取出实体并确定实体类别。可以将该文本输入最终训练得到的信息抽取模型(本例中为实体识别模型),获取信息抽取模型输出的文本中各Token的实体类别标签,从而得到文本中的实体以及实体类别。
以目标检测为例,获取图像,目标是从图像中抽取出目标类别及位置信息。可以将该图像输入最终训练得到的信息抽取模型(本例中为目标检测模型),获取信息抽取模型输出图像中各图像块(例如各像素或者预设大小的图像块)的目标类别标签,例如人、物体类别等,从而得到图像中的目标以及位置信息。
除了上述三种应用场景之外,本申请实施例提供的方法也可以应用于其他应用场景,在此不做一一列举。
本申请针对实体关系抽取场景进行实验,将DocRED数据集作为训练样本集,直接在训练样本集上训练得到实体关系抽取模型1,采用传统自训练方式训练得到实体关系抽取模型2,采用本申请实施例中提供的方式训练得到实体关系抽取模型3。经过实验比较各实体关系抽取模型的F1指标,实体关系抽取模型3的F1指标均高于其他指标,提高召回率的同时仍保持了较高的准确率。并且实体关系抽取模型3无论在文档级别还是句子级别的关系抽取,都具有较佳的表现。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种训练信息抽取模型的装置。图4示出根据一个实施例的训练信息抽取模型的装置的示意性框图,该装置即为图1所示架构中的模型训练装置。如图4所示,该装置400包括:样本获取单元401、模型训练单元402、样本采样单元403和标签标注单元404,还可以进一步包括循环控制单元405和模型验证单元406。其中各组成单元的主要功能如下:
样本获取单元401,被配置为获取训练样本集,训练样本集中存在部分样本的元素的信息类别标签未被正确标注。
模型训练单元402,被配置为利用训练样本集训练信息抽取模型。
样本采样单元403,被配置为从训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定。
标签标注单元404,被配置为利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为采样的样本标注信息类别标签;将标注信息类别标签后的采样的样本放回训练样本集,触发模型训练单元402利用训练样本集训练信息抽取模型。
作为其中一种可实现的方式,类别标签对应的样本的采样率与当前训练得到的信息抽取模型在对应类别上的准确率正相关,且与当前训练得到的信息抽取模型在对应类别上的召回率负相关。
作为其中一种可实现的方式,对于类别i,样本采样单元403利用μi=[Pi*(1-Ri)]β确定该类别标签对应的样本的采样率μi,其中Pi为当前训练得到的信息抽取模型在类别i上的准确率,Ri为当前训练得到的信息抽取模型在类别i上的召回率,β为超参数。
作为其中一种可实现的方式,模型训练单元402可以具备被配置为将训练样本集中的样本输入信息抽取模型,由信息抽取模型输出样本中元素的信息类别;在每一轮迭代中利用损失函数的取值,更新信息抽取模型的模型参数,直至满足预设的训练结束条件,其中损失函数依据训练目标预先构建,训练目标包括:最小化信息抽取模型输出的样本中元素的信息类别与对应信息类别标签之间的差异。
更进一步地,循环控制单元405,被配置为获取当前训练得到的信息抽取模型的F1指标值;若F1指标值满足预设的指标条件,则将模型训练单元402当前训练得到的信息抽取模型作为最终的信息抽取模型;否则,触发样本采样单元403执行从训练样本集中采样预设数量的样本的处理。
其中,F1指标值是分类问题的衡量指标,例如可以采用macro-F1,即各类别的F1分数的算数平均值。再例如可以采用weighted-F1,即将每个类别的样本数量作为权重,对各类别的F1分数进行加权求和。
更进一步地,模型验证单元406,被配置为获取验证样本集,验证样本集中样本的元素均被标注正确的信息类别标签;利用当前训练得到的信息抽取模型对验证样本集中的样本进行信息类别的识别;利用识别结果与验证样本集中样本被标注的信息类别标签,获取信息抽取模型在各类别上的准确率和召回率以提供给样本采样单元403和循环控制单元405。
作为其中一种应用场景,上述样本为文本样本,元素为实体对,信息类别为实体关系类别,即用以训练实体关系抽取模型。
作为另一种应用场景,上述样本为文本样本,元素为文本样本中的字符或词语,信息类别为实体类别,即用以训练实体识别模型。
作为再一种应用场景,上述样本为图像样本,元素为图像样本中的图像块,信息类别包括人和物体类别,即用以训练目标检测模型。
图5示出根据一个实施例的信息抽取装置的示意性框图,如图5所示,该装置500包括:对象获取单元501和信息抽取单元502。其中各组成单元的主要功能如下:
对象获取单元501,被配置为获取资源对象,资源对象可以包括文本或图像等。
信息抽取单元502,被配置为将资源对象输入信息抽取模型,获取信息抽取模型输出的资源对象中元素的信息类别。
其中信息抽取模型是利用如图4中所示的装置预先训练得到的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图6示例性的展示出了电子设备的架构,具体可以包括处理器610,视频显示适配器611,磁盘驱动器612,输入/输出接口613,网络接口614,以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620之间可以通过通信总线630进行通信连接。
其中,处理器610可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储用于控制电子设备600运行的操作系统621,用于控制电子设备600的低级别操作的基本输入输出系统(BIOS)622。另外,还可以存储网页浏览器623,数据存储管理系统624,以及信息抽取装置/模型训练装置625等等。上述信息抽取装置/模型训练装置625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口613用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口614用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630包括一通路,在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,存储器620,总线630等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种训练信息抽取模型的方法,其特征在于,所述方法包括:
获取训练样本集,所述训练样本集中存在部分样本的元素的信息类别标签未被正确标注;
利用所述训练样本集训练信息抽取模型;
从所述训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定;
利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为所述采样的样本标注信息类别标签;
将标注信息类别标签后的所述采样的样本放回所述训练样本集,转至利用所述训练样本集训练信息抽取模型的步骤。
2.根据权利要求1所述的方法,其特征在于,类别标签对应的样本的采样率与当前训练得到的信息抽取模型在对应类别上的准确率正相关,且与当前训练得到的信息抽取模型在对应类别上的召回率负相关。
3.根据权利要求2所述的方法,其特征在于,所述各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定包括:
对于类别i,利用μi=[Pi*(1-Ri)]β确定该类别标签对应的样本的采样率μi,其中Pi为当前训练得到的信息抽取模型在类别i上的准确率,Ri为当前训练得到的信息抽取模型在类别i上的召回率,β为超参数。
4.根据权利要求1所述的方法,其特征在于,利用所述训练样本集训练信息抽取模型包括:
将所述训练样本集中的样本输入信息抽取模型,由所述信息抽取模型输出所述样本中元素的信息类别;
在每一轮迭代中利用损失函数的取值,更新所述信息抽取模型的模型参数,直至满足预设的训练结束条件,其中所述损失函数依据训练目标预先构建,所述训练目标包括:最小化信息抽取模型输出的样本中元素的信息类别与对应信息类别标签之间的差异。
5.根据权利要求1所述的方法,其特征在于,在从所述训练样本集中采样样本之前,还包括:
获取当前训练得到的信息抽取模型的F1指标值;
若所述F1指标值满足预设的指标条件,则将当前训练得到的信息抽取模型作为最终的信息抽取模型;否则,继续执行从所述训练样本集中采样预设数量的样本的步骤。
6.根据权利要求1或5所述的方法,其特征在于,在从所述训练样本集中采样预设数量的样本之前,还包括:
获取验证样本集,所述验证样本集中样本的元素均被标注正确的信息类别标签;
利用当前训练得到的信息抽取模型对验证样本集中的样本进行信息类别的识别;
利用识别结果与验证样本集中样本被标注的信息类别标签,获取所述信息抽取模型在各类别上的准确率和召回率。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述样本为文本样本,所述元素为实体对,所述信息类别为实体关系类别;或者,
所述样本为文本样本,所述元素为所述文本样本中的字符或词语,所述信息类别为实体类别;或者,
所述样本为图像样本,所述元素为图像样本中的图像块,所述信息类别包括人和物体类别。
8.一种信息抽取方法,其特征在于,所述方法包括:
获取资源对象,所述资源对象包括文本或图像;
将所述资源对象输入信息抽取模型,获取所述信息抽取模型输出的所述资源对象中元素的信息类别;
其中所述信息抽取模型是利用如权利要求1至7中任一项所述的方法预先训练得到的。
9.一种实体关系抽取方法,其特征在于,所述方法包括:
获取文本;
将所述文本输入信息抽取模型,获取所述信息抽取模型输出的所述文本中实体对之间的关系类别;
其中所述信息抽取模型是利用如权利要求1至7中任一项所述的方法预先训练得到的。
10.一种训练信息抽取模型的装置,其特征在于,所述装置包括:
样本获取单元,被配置为获取训练样本集,所述训练样本集中存在部分样本的元素的信息类别标签未被正确标注;
模型训练单元,被配置为利用所述训练样本集训练信息抽取模型;
样本采样单元,被配置为从所述训练样本集中采样样本,其中各类别标签对应的样本的采样率依据当前训练得到的信息抽取模型在对应类别上的准确率和召回率确定;
标签标注单元,被配置为利用当前训练得到的信息抽取模型,对采样的样本进行信息类别的识别,并利用识别结果为所述采样的样本标注信息类别标签;将标注信息类别标签后的所述采样的样本放回所述训练样本集,触发所述模型训练单元利用所述训练样本集训练信息抽取模型。
11.一种信息抽取装置,其特征在于,所述装置包括:
对象获取单元,被配置为获取资源对象,所述资源对象包括文本或图像;
信息抽取单元,被配置为将所述资源对象输入信息抽取模型,获取所述信息抽取模型输出的所述资源对象中元素的信息类别;
其中所述信息抽取模型是利用如权利要求10所述的装置预先训练得到的。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至9中任一项所述的方法的步骤。
CN202211473211.8A 2022-11-21 2022-11-21 训练信息抽取模型的方法、信息抽取方法及对应装置 Pending CN115718830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211473211.8A CN115718830A (zh) 2022-11-21 2022-11-21 训练信息抽取模型的方法、信息抽取方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211473211.8A CN115718830A (zh) 2022-11-21 2022-11-21 训练信息抽取模型的方法、信息抽取方法及对应装置

Publications (1)

Publication Number Publication Date
CN115718830A true CN115718830A (zh) 2023-02-28

Family

ID=85256036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211473211.8A Pending CN115718830A (zh) 2022-11-21 2022-11-21 训练信息抽取模型的方法、信息抽取方法及对应装置

Country Status (1)

Country Link
CN (1) CN115718830A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542250A (zh) * 2023-06-29 2023-08-04 杭州同花顺数据开发有限公司 一种信息抽取模型获取方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542250A (zh) * 2023-06-29 2023-08-04 杭州同花顺数据开发有限公司 一种信息抽取模型获取方法和系统
CN116542250B (zh) * 2023-06-29 2024-04-19 杭州同花顺数据开发有限公司 一种信息抽取模型获取方法和系统

Similar Documents

Publication Publication Date Title
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
CN112560912A (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN112966742A (zh) 模型训练方法、目标检测方法、装置和电子设备
CN113642431A (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN110781413A (zh) 兴趣点确定方法及装置、存储介质、电子设备
CN116311214B (zh) 车牌识别方法和装置
CN115718830A (zh) 训练信息抽取模型的方法、信息抽取方法及对应装置
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN116108157B (zh) 训练文本生成模型的方法、文本生成方法及装置
CN114120454A (zh) 活体检测模型的训练方法、装置、电子设备及存储介质
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN113011164B (zh) 数据质量检测方法、装置、电子设备及介质
CN112541557B (zh) 生成式对抗网络的训练方法、装置及电子设备
CN114547252A (zh) 文本识别方法、装置、电子设备和介质
US10901726B2 (en) Intelligent visual regression system
CN113361363A (zh) 人脸图像识别模型的训练方法、装置、设备及存储介质
CN113569091A (zh) 视频数据的处理方法、装置
CN113850235B (zh) 一种文本处理方法、装置、设备及介质
CN114677691B (zh) 文本识别方法、装置、电子设备及存储介质
CN110909688B (zh) 人脸检测小模型优化训练方法、人脸检测方法及计算机系统
CN113642495B (zh) 用于评价时序提名的模型的训练方法、设备、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination