CN116362251A - 一种命名实体识别模型的训练方法、装置、设备和介质 - Google Patents

一种命名实体识别模型的训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN116362251A
CN116362251A CN202310336430.XA CN202310336430A CN116362251A CN 116362251 A CN116362251 A CN 116362251A CN 202310336430 A CN202310336430 A CN 202310336430A CN 116362251 A CN116362251 A CN 116362251A
Authority
CN
China
Prior art keywords
training
named entity
entity recognition
recognition model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310336430.XA
Other languages
English (en)
Inventor
沙九
刘升平
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202310336430.XA priority Critical patent/CN116362251A/zh
Publication of CN116362251A publication Critical patent/CN116362251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种命名实体识别模型的训练方法、装置、设备和介质。该方法包括:在本轮训练结束后,根据命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,以及,命名实体识别模型在上轮训练中针对每个训练样本的识别能力指标,确定每个训练样本对应的样本难度值;根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;根据命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对命名实体识别模型执行下轮训练。本发明提出了一种动态课程学习方法,有组织地利用有限数量的训练样本,达到更高模型性能。

Description

一种命名实体识别模型的训练方法、装置、设备和介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种命名实体识别模型的训练方法、装置、设备和介质。
背景技术
在模型训练领域中,为了解决低资源问题,常用的方法包括:预训练、迁移学习和数据增强等。其中,预训练和迁移学习的核心思想是通过辅助数据来预先训练模型的一部分参数,再使用这些参数初始化目标实体识别模型。数据增强则是通过辅助数据生成一些伪标注数据来增加训练数据的规模。
上述三种方式过度地依赖辅助数据,然而,除了一些常用的应用领域,比如新闻、法律和娱乐等,其他领域的标注数据都是非常少的,例如医疗领域。这就导致辅助数据的数据量也很少。但是,在传统模型训练方式中,命名实体识别模型的性能与标注数据的规模十分相关,即便使用获取到的所有数据,也会因为数据量太少,使得命名实体识别模型不能获得较好的性能。
发明内容
本发明的主要目的在于提出一种命名实体识别模型的训练方法、装置、设备和介质,旨在解决在低资源情况下,采用传统的模型训练方式来训练命名实体识别模型,无法获得性能较好的模型。
为实现上述技术问题,本发明是通过以下技术方案来实现的:
本发明实施例提供了一种命名实体识别模型的动态训练方法,包括:在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
其中,所述识别能力指标为:损失值;所述样本难度值为:根据同一训练样本在相邻两轮训练中分别对应的损失值确定的损失下降速度。
其中,根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值,包括:采用如下公式确定每个所述训练样本对应的样本难度值:
Figure BDA0004156660980000021
其中,s表示训练样本对应的文本序列;d(s;θt,θt-1)表示s的样本难度值;t表示当前训练轮数;θt表示本轮的学习参数;θt-1表示前轮的学习参数;l(s;θt)表示s在本轮训练中的损失值;l(s;θt-1)表示s在前轮训练的损失值。
其中,根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,包括:获取所述命名实体识别模型对应的标定性能指标;根据所述命名实体识别模型对应的标定性能指标以及所述命名实体识别模型在本轮训练中的模型性能指标,确定所述下轮训练对应的比例;在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取所述比例的训练样本。
其中,所述标定性能指标是指经过基础训练的所述命名实体识别模型在校验样本集上获得的最佳F1值;所述模型性能指标是指所述命名实体识别模型在本轮训练中在校验样本集上的F1值。
其中,确定所述下轮训练对应的比例,包括:采用如下公式确定所述下轮训练对应的比例:
Figure BDA0004156660980000022
其中,c(t)表示下轮训练对应的比例;min取最小值函数;F1t表示所述命名实体识别模型在本轮训练对应的F1值;F1best表示所述命名实体识别模型对应的所述最佳F1值;β为预设系数;c0为预设的初始比例。
其中,所述方法还包括:预设模型性能指标截止阈值;将所述命名实体识别模型在本轮训练中的模型性能指标与所述模型性能指标截止阈值进行比较;在所述模型性能指标大于或者等于所述模型性能指标截止阈值,将下轮训练对应的比例设置为100%。
本发明实施例还提供了一种命名实体识别模型的动态训练装置,包括:第一获取模块,用于在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;确定模块,用于根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;排序模块,用于根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;第二获取模块,用于根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
本发明还提供了一种命名实体识别模型的动态训练设备,所述命名实体识别模型的动态训练设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的命名实体识别模型的动态训练程序,以实现上述任一项所述的命名实体识别模型的动态训练方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的命名实体识别模型的动态训练方法。
本发明有益效果如下:
在本发明实施例中,在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。至此本发明提出了一种动态课程学习方法,模仿人类的学习策略,有组织地利用有限数量的训练样本,达到更高模型性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为根据本发明一实施例的命名实体识别模型的动态训练方法的流程图;
图2为根据本发明一实施例的命名实体识别模型的动态训练装置的结构图;
图3为根据本发明一实施例的命名实体识别模型的动态训练设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
根据本发明的实施例,提供了一种命名实体识别模型的动态训练方法。
人类的学习过程是一个循序渐进的过程,往往利用少量的数据就可以学习到很好的水平,本发明受到这种启示,采用分阶段的方式来训练命名实体识别模型,而且在每个阶段采用不同难度的训练样本来训练命名实体识别模型,以便解决样本数量规模小,导致命名实体识别模型无法达到效果的问题。
在每个阶段,命名实体识别模型的训练目标是通过训练样本来优化命名实体识别模型的交叉熵损失,即优化命名实体识别模型的训练误差。
交叉熵损失函数如下:
Figure BDA0004156660980000051
其中,y是真实的标签;
Figure BDA0004156660980000052
是预测的标签;L表示训练样本的真实标签和预测标签之间的误差。
在不同阶段,可以考量样本难度和模型能力来设置不同阶段的训练任务。
样本难度可以通过句子长度或单词词频来衡量。例如:一个句子越长或者包含的单词词频越低,那么句子(训练样本)的难度就越高;反之,则句子的难度越低。这里可以设置样本难度衡量标准公式,句子长度以字数来表示,划分多个字数区间,每个字数区间对应一个样本难度值。也可以计算句子中每个单词的词频,划分多个词频区间,每个词频区间对应一个样本难度值。
命名实体识别模型的模型能力,则可以假设其的提升过程符合简单的线性函数或平方根函数,这样随着阶段的不断升级,模型能力会不断提升,随着模型能力不断提升,为命名实体识别模型分配难度更大的训练样本。
基于以上考量可以看出,样本难度在训练过程中不会发生变化,所以只需要在训练开始之前计算一次即可,而这种仅在训练之前计算一次样本难度的方式被称为静态训练方法,这种方法的优点在于比较方便,计算代价较小。
上述采用句子长度或单词词频来衡量样本,是简单的以用户角度来衡量样本难度,对于用户而言较为直观,命名实体识别模型不一定适用,而且模型训练过程是一个动态过程,样本难度和模型能力都随着训练阶段变化而变化,所以为了解决这两个问题,本发明提出了一个动态训练方法。
如图1所示,为根据本发明一实施例的命名实体识别模型的动态训练方法的流程图。
步骤S110,在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标。
识别能力指标,是指命名实体识别模型的预测值和实际值之间差距。在本实施例中,命名实体识别模型的识别能力指标可以为命名实体模型的损失值。
模型性能指标,用于评估命名实体识别模型的预测综合能力。在本实施例中,模型性能指标是指命名实体识别模型在本轮训练中在校验样本集上的F1值。
具体而言,预先准备训练样本集和校验样本集;在训练样本集中包括多个训练样本;在校验样本集中包括多个校验样本。
针对命名实体识别模型执行多轮次训练;在每轮训练中,先使用训练样本集中的全部或者部分训练样本训练命名实体识别模型,并记录命名实体识别模型在针对每个训练样本执行命名实体识别任务时的损失值;之后使用校验样本集中的全部校验样本训练命名实体识别模型,并记录命名实体识别模型的F1值。
步骤S120,根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值。
样本难度值,用于衡量命名实体识别模型识别一个训练样本的难度。在本实施例中,采用损失下降速度来衡量样本难度值。
在本发明实施例中,样本难度值可以是:根据同一训练样本在相邻两轮训练中分别对应的损失值确定的损失下降速度。
进一步地,可以采用如下公式确定每个所述训练样本对应的样本难度值:
Figure BDA0004156660980000061
其中,s表示训练样本对应的文本序列;d(s;θt,θt-1)表示s的样本难度值;t表示当前训练轮数;θt表示本轮的学习参数;θt-1表示前轮的学习参数;l(s;θt)表示s在本轮训练中的损失值;l(s;θt-1)表示s在前轮训练的损失值。
在本发明实施例中,在训练命名实体识别模型的过程中,动态计算训练样本的样本难度值,即损失下降速度。如果一个训练样本经过一轮的训练,损失值得到了明显下降,那么表示命名实体识别模型有可能在下一轮将该训练样本学习更好。而下降较慢的样本,表明模型当前没有充分的能力对其进行学习或者已经学习地很好,不需要再重复进行训练。
步骤S130,根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序。
按照样本难度值对多个训练样本进行排序,可以反映命名实体识别模型在识别该多个训练样本时的难度顺序。
步骤S140,根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
在本实施例中,在训练命名实体识别模型的过程中,动态计算模型性能指标(模型能力),根据当前轮次中命名实体识别模型的模型能力以及各个训练样本的样本难度值,为下轮模型训练,选取训练样本。
获取所述命名实体识别模型对应的标定性能指标;根据所述命名实体识别模型对应的标定性能指标以及所述命名实体识别模型在本轮训练中的模型性能指标,确定所述下轮训练对应的比例;在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取所述比例的训练样本。
标定性能指标是指经过基础训练的所述命名实体识别模型在校验样本集上获得的最佳F1值。标定性能指标是预先确定的。进一步地,这里的基础训练是指传统的训练方式,即每次训练始终使用同一批训练样本,训练完成之后在校验样本集上进行校验,得到本轮次的F1值,在经过如此往复的多轮训练之后,将多轮的F1值进行比较,将最大的F1值作为最佳F1值。这里的基础训练并非本发明实施例根据样本难度和模型性能动态调整训练样本的方式。
在本实施例中,可以采用如下公式确定所述下轮训练对应的比例:
Figure BDA0004156660980000071
其中,c(t)表示下轮训练对应的比例;min取最小值函数;F1t表示所述命名实体识别模型在本轮训练对应的F1值;F1best表示所述命名实体识别模型对应的最佳F1值;β为预设系数;c0为预设的初始比例。
进一步地,可以预设模型性能指标截止阈值;将所述命名实体识别模型在本轮训练中的模型性能指标与所述模型性能指标截止阈值进行比较;在所述模型性能指标大于或者等于所述模型性能指标截止阈值,将下轮训练对应的比例设置为100%。当然,可以设置对命名实体识别模型进行预设次数的训练,如果在模型性能指标大于或者等于模型性能指标截止阈值时,命名实体识别模型的训练次数还未达到预设次数,那么后续每次训练可以都获取100%的训练样本来训练命名实体识别模型。
进一步地,可以设置β为模型性能指标截止阈值。例如:β设置为0.8,表示当命名实体识别模型的学习能力达到0.8,即F1t的值达到0.8时以及以后,命名实体识别模型选取全部数据集进行去学习。
进一步地,在首轮训练时,由于还不能确定命名实体识别模型的损失值以及F1值,所以可以利用静态训练时采用的方法确定各个训练样本的样本难度。例如:句子(训练样本)长度以字数来表示,预先划分多个字数区间,每个字数区间对应一个样本难度值,依据句子序列中的字数确定句子的样本难度值。也可以计算句子中每个单词的词频,预先划分多个词频区间,每个词频区间对应一个样本难度值,依据句子中单词的词频确定句子的样本难度值;在确定各个句子的样本难度值之后,设置初始化设置c0为0.2,表示最初命名实体识别模型选取全部训练样本集中最容易学习的前20%进行学习。
在本发明实施例中,为了解决静态训练中的问题,构思训练样本难度的计算方法满足以下两个条件:①和命名实体识别模型的训练相关;②在训练过程中动态计算。本发明明确每个阶段的训练目标是优化命名实体识别模型在训练数据上的交叉熵损失。在进行动态训练过程中,本发明实施例并未直接使用交叉熵损失(预测损失)来衡量样本难度,虽然交叉熵损失是模型相关的,但是存在着一个问题,即:预测损失只考虑到模型当前阶段的绝对值。如果存在某个训练样本在初始阶段时的预测损失就比较大,那么这个训练样本可能一直得不到训练。而对于预测损失比较小的训练样本,则损失值没有进一步的下降空间。如果一直重复训练预测损失较小的训练样本,容易造成命名实体识别模型过拟合的问题发生。据此,本发明实施例同时考虑历史训练过程(损失值的前后变化)和模型当前的状态(模型性能指标),以此选择能够使命名实体识别模型在未来表现得更好的数据。
据此,本发明实施例提出了一种动态课程学习方法,模仿人类的学习策略,有组织地利用有限数量的训练样本,达到更高模型性能。具体而言,命名实体识别模型在每个阶段都要根据当前状态重新衡量训练样本难度,进而结合训练样本难度和模型能力共同去选取对应的训练样本进行学习。命名实体识别模型每迭代训练一轮,计算衡量损失下降速度和模型能力以便选取训练样本。首先,依据损失下降速度d(s;θt,θt-1)对训练样本进行排序(从低到高);其次,通过命名实体识别模型的模型性能指标的计算占比,从而从训练样本集中获取该占比的训练样本,以便继续对命名实体识别模型进行迭代训练。
本发明还提供了一种命名实体识别模型的动态训练装置。如图2所示,为根据本发明一实施例的命名实体识别模型的动态训练装置的结构图。
该装置包括:
第一获取模块210,用于在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标。
确定模块220,用于根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值。
排序模块230,用于根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序。
第二获取模块240,用于根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
本发明实施例所述的装置的功能已经在上述方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本实施例提供一种命名实体识别模型的动态训练设备。如图3所示,为根据本发明一实施例的命名实体识别模型的动态训练设备的结构图。
在本实施例中,所述命名实体识别模型的动态训练设备包括但不限于:处理器310、存储器320。
所述处理器310用于执行存储器320中存储的命名实体识别模型的动态训练程序,以实现上述的命名实体识别模型的动态训练方法。
具体而言,所述处理器310用于执行存储器320中存储的命名实体识别模型的动态训练程序,以实现以下步骤:在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
其中,所述识别能力指标为:损失值;所述样本难度值为:根据同一训练样本在相邻两轮训练中分别对应的损失值确定的损失下降速度。
其中,根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值,包括:采用如下公式确定每个所述训练样本对应的样本难度值:
Figure BDA0004156660980000101
其中,s表示训练样本对应的文本序列;d(s;θt,θt-1)表示s的样本难度值;t表示当前训练轮数;θt表示本轮的学习参数;θt-1表示前轮的学习参数;l(s;θt)表示s在本轮训练中的损失值;l(s;θt-1)表示s在前轮训练的损失值。
其中,根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,包括:获取所述命名实体识别模型对应的标定性能指标;根据所述命名实体识别模型对应的标定性能指标以及所述命名实体识别模型在本轮训练中的模型性能指标,确定所述下轮训练对应的比例;在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取所述比例的训练样本。
其中,所述标定性能指标是指经过基础训练的所述命名实体识别模型在校验样本集上获得的最佳F1值;所述模型性能指标是指所述命名实体识别模型在本轮训练中在校验样本集上的F1值。
其中,确定所述下轮训练对应的比例,包括:采用如下公式确定所述下轮训练对应的比例:
Figure BDA0004156660980000111
其中,c(t)表示下轮训练对应的比例;min取最小值函数;F1t表示所述命名实体识别模型在本轮训练对应的F1值;F1best表示所述命名实体识别模型对应的所述最佳F1值;β为预设系数;c0为预设的初始比例。
其中,所述方法还包括:预设模型性能指标截止阈值;将所述命名实体识别模型在本轮训练中的模型性能指标与所述模型性能指标截止阈值进行比较;在所述模型性能指标大于或者等于所述模型性能指标截止阈值,将下轮训练对应的比例设置为100%。
本发明实施例还提供了一种计算机可读存储介质。这里的计算机可读存储介质存储有一个或者多个程序。其中,计算机可读存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当计算机可读存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的命名实体识别模型的动态训练方法。
具体而言,所述处理器用于执行存储器中存储的命名实体识别模型的动态训练程序,以实现以下步骤:在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
其中,所述识别能力指标为:损失值;所述样本难度值为:根据同一训练样本在相邻两轮训练中分别对应的损失值确定的损失下降速度。
其中,根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值,包括:采用如下公式确定每个所述训练样本对应的样本难度值:
Figure BDA0004156660980000121
其中,s表示训练样本对应的文本序列;d(s;θt,θt-1)表示s的样本难度值;t表示当前训练轮数;θt表示本轮的学习参数;θt-1表示前轮的学习参数;l(s;θt)表示s在本轮训练中的损失值;l(s;θt-1)表示s在前轮训练的损失值。
其中,根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,包括:获取所述命名实体识别模型对应的标定性能指标;根据所述命名实体识别模型对应的标定性能指标以及所述命名实体识别模型在本轮训练中的模型性能指标,确定所述下轮训练对应的比例;在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取所述比例的训练样本。
其中,所述标定性能指标是指经过基础训练的所述命名实体识别模型在校验样本集上获得的最佳F1值;所述模型性能指标是指所述命名实体识别模型在本轮训练中在校验样本集上的F1值。
其中,确定所述下轮训练对应的比例,包括:采用如下公式确定所述下轮训练对应的比例:
Figure BDA0004156660980000122
其中,c(t)表示下轮训练对应的比例;min取最小值函数;F1t表示所述命名实体识别模型在本轮训练对应的F1值;F1best表示所述命名实体识别模型对应的所述最佳F1值;β为预设系数;c0为预设的初始比例。
其中,所述方法还包括:预设模型性能指标截止阈值;将所述命名实体识别模型在本轮训练中的模型性能指标与所述模型性能指标截止阈值进行比较;在所述模型性能指标大于或者等于所述模型性能指标截止阈值,将下轮训练对应的比例设置为100%。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种命名实体识别模型的动态训练方法,其特征在于,包括:
在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;
根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;
根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;
根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
2.根据权利要求1所述的方法,其特征在于,
所述识别能力指标为:损失值;
所述样本难度值为:根据同一训练样本在相邻两轮训练中分别对应的损失值确定的损失下降速度。
3.根据权利要求2所述的方法,其特征在于,根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值,包括:
采用如下公式确定每个所述训练样本对应的样本难度值:
Figure FDA0004156660960000011
其中,s表示训练样本对应的文本序列;d(s;θtt-1)表示s的样本难度值;t表示当前训练轮数;θt表示本轮的学习参数;θt-1表示前轮的学习参数;l(s;θt)表示s在本轮训练中的损失值;l(s;θt-1)表示s在前轮训练的损失值。
4.根据权利要求1所述的方法,其特征在于,根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,包括:
获取所述命名实体识别模型对应的标定性能指标;
根据所述命名实体识别模型对应的标定性能指标以及所述命名实体识别模型在本轮训练中的模型性能指标,确定所述下轮训练对应的比例;
在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取所述比例的训练样本。
5.根据权利要求4所述的方法,其特征在于,
所述标定性能指标是指经过基础训练的所述命名实体识别模型在校验样本集上获得的最佳F1值;
所述模型性能指标是指所述命名实体识别模型在本轮训练中在校验样本集上的F1值。
6.根据权利要求5所述的方法,其特征在于,确定所述下轮训练对应的比例,包括:
采用如下公式确定所述下轮训练对应的比例:
Figure FDA0004156660960000021
其中,c(t)表示下轮训练对应的比例;min取最小值函数;F1t表示所述命名实体识别模型在本轮训练对应的F1值;F1best表示所述命名实体识别模型对应的所述最佳F1值;β为预设系数;c0为预设的初始比例。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
预设模型性能指标截止阈值;
将所述命名实体识别模型在本轮训练中的模型性能指标与所述模型性能指标截止阈值进行比较;
在所述模型性能指标大于或者等于所述模型性能指标截止阈值,将下轮训练对应的比例设置为100%。
8.一种命名实体识别模型的动态训练装置,其特征在于,包括:
第一获取模块,用于在命名实体识别模型的本轮训练结束后,获取所述命名实体识别模型在本轮训练中针对每个训练样本的识别能力指标,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标以及所述命名实体识别模型在本轮训练中的模型性能指标;
确定模块,用于根据所述命名实体识别模型在本轮训练中针对每个所述训练样本的识别能力指标,以及,所述命名实体识别模型在上轮训练中针对每个所述训练样本的识别能力指标,确定每个所述训练样本对应的样本难度值;
排序模块,用于根据多个训练样本分别对应的样本难度值,对多个训练样本进行排序;
第二获取模块,用于根据所述命名实体识别模型在本轮训练中的模型性能指标,在排序后的多个训练样本中,按照样本难度值从小到大的顺序,顺序获取下轮训练对应比例的训练样本,并使用获取的训练样本对所述命名实体识别模型执行下轮训练。
9.一种命名实体识别模型的动态训练设备,其特征在于,所述命名实体识别模型的动态训练设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的命名实体识别模型的动态训练程序,以实现权利要求1~7中任一项所述的命名实体识别模型的动态训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的命名实体识别模型的动态训练方法。
CN202310336430.XA 2023-03-30 2023-03-30 一种命名实体识别模型的训练方法、装置、设备和介质 Pending CN116362251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310336430.XA CN116362251A (zh) 2023-03-30 2023-03-30 一种命名实体识别模型的训练方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310336430.XA CN116362251A (zh) 2023-03-30 2023-03-30 一种命名实体识别模型的训练方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN116362251A true CN116362251A (zh) 2023-06-30

Family

ID=86936738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310336430.XA Pending CN116362251A (zh) 2023-03-30 2023-03-30 一种命名实体识别模型的训练方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116362251A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910185A (zh) * 2023-09-07 2023-10-20 北京中关村科金技术有限公司 模型训练方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910185A (zh) * 2023-09-07 2023-10-20 北京中关村科金技术有限公司 模型训练方法、装置、电子设备及可读存储介质
CN116910185B (zh) * 2023-09-07 2023-11-28 北京中关村科金技术有限公司 模型训练方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
Tokdar et al. Simultaneous linear quantile regression: a semiparametric Bayesian approach
CN113128671B (zh) 一种基于多模态机器学习的服务需求动态预测方法及系统
CN111125658B (zh) 识别欺诈用户的方法、装置、服务器和存储介质
Tokdar et al. Simultaneous linear quantile regression: A semiparametric bayesian approach
CN111784595A (zh) 一种基于历史记录的动态标签平滑加权损失方法及装置
CN113256335B (zh) 数据筛选方法、多媒体数据的投放效果预测方法及装置
CN116362251A (zh) 一种命名实体识别模型的训练方法、装置、设备和介质
CN102663681B (zh) 基于排序k-均值算法的灰度图像分割方法
CN115952456A (zh) 故障诊断模型的确定方法、系统、程序产品及存储介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN113919418A (zh) 基于小样本的分类模型训练方法、装置及电子设备
CN116342172A (zh) 基于线性回归和决策树结合的油价预测方法、装置及设备
CN117574288A (zh) 一种螺丝拧紧异常识别方法、装置、设备及介质
CN110751400B (zh) 一种风险评估方法及装置
CN113408692B (zh) 网络结构的搜索方法、装置、设备及存储介质
CN113537693A (zh) 人员风险等级获取方法、终端、存储装置
CN117351265A (zh) 一种遥感图像场景分类方法、装置、存储介质及电子设备
CN115018857B (zh) 图像分割方法、装置、计算机可读存储介质及计算机设备
CN114218487B (zh) 一种视频推荐方法、系统、装置及存储介质
CN116956171A (zh) 基于ai模型的分类方法、装置、设备及存储介质
CN115329863A (zh) 一种新的线性整流梯度平衡损失函数分类方法及系统
CN114444654A (zh) 一种面向nas的免训练神经网络性能评估方法、装置和设备
CN115346084A (zh) 样本处理方法、装置、电子设备、存储介质及程序产品
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
CN114141298A (zh) 一种磁盘故障检测方法、装置、系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination