CN115659182B - 一种模型更新方法、装置及设备 - Google Patents

一种模型更新方法、装置及设备 Download PDF

Info

Publication number
CN115659182B
CN115659182B CN202211409620.1A CN202211409620A CN115659182B CN 115659182 B CN115659182 B CN 115659182B CN 202211409620 A CN202211409620 A CN 202211409620A CN 115659182 B CN115659182 B CN 115659182B
Authority
CN
China
Prior art keywords
state
identification data
state information
data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211409620.1A
Other languages
English (en)
Other versions
CN115659182A (zh
Inventor
李常宝
顾平莉
王书龙
贾贺
袁媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202211409620.1A priority Critical patent/CN115659182B/zh
Publication of CN115659182A publication Critical patent/CN115659182A/zh
Application granted granted Critical
Publication of CN115659182B publication Critical patent/CN115659182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本说明书实施例公开了一种模型更新方法、装置及设备,方案包括:获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;采用所述样本数据对所述已训练完成的网络模型进行更新。结合识别数据在人工检验阶段的状态信息,确定样本数据,可将人工检验阶段提供的数据属性值应用到模型更新中,使得网络模型可以更符合实际需求。

Description

一种模型更新方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型更新方法、装置及设备。
背景技术
数据标注是目前人工智能应用于数据处理的重要步骤,其核心作用是生成用于人工智能模型训练的数据样本,支撑模型生成或进化,数据标注的质量直接决定训练模型的应用效果,其重要性不言而喻。
目前,数据标注手段主要包括人工打标方法和自动标注软件,其中:人工打标方法针对待处理的文本、图像等数据进行确认、分类、批注等人工打标操作,标注内容包括布尔标签、分类标签、特征标签等,通过逐条标注生成标注结果集合,并在标注过程中完成对标注结果的人工确认。自动标注软件包括华为平台ModelArts、百度PP平台EastDL等典型软件,上述平台主要提供基于预置算法模型的自动打标能力,可对文本、图像等数据进行自动化批量标注,生成的数据标注结果需要人工进行确认。
由于目前数据标注通常是在模型开发阶段,数据标注通常由算法或模型设计人员完成,并且,采用的训练数据与将模型投入使用的使用方需要识别的数据通常存在一定的差异,使得设计人员开发出的模型在使用方处的效果并不是很好。因此,需要提供一种能够让使用方获取效果更好的模型的方法。
发明内容
本说明书实施例提供一种模型更新方法、装置及设备,以解决现有的模型更新方法存在的需要模型开发的技术人员标注样本,模型效果不佳的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种模型更新方法,包括:
获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;
采用所述样本数据对所述已训练完成的网络模型进行更新。
本说明书实施例提供的一种模型更新装置,包括:
数据获取模块,用于获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
样本确定模块,用于将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;
模型更新模块,用于采用所述样本数据对所述已训练完成的网络模型进行更新。
本说明书实施例提供的一种模型更新设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;
采用所述样本数据对所述已训练完成的网络模型进行更新。
本说明书一个实施例实现了能够达到以下有益效果:
本说明书实施例中可以结合识别数据在人工检验阶段的状态信息,从标记有浏览态、确认态、存疑态、修改态的多个识别数据中,选取处于确认态且识别数据的数据属性值因人工检验被修改过的识别数据作为更新网络模型的样本数据。其中,处于确认态且数据属性值被修改过的识别数据,可以理解为已训练完成的网络模型不能准确识别的数据,但经过人工检验阶段的处理,可以获取该类数据准确的数据属性值,将该类数据作为更新该网络模型的样本,将人工检验阶段提供的数据属性值应用到模型更新中可以更有效的提高模型的性能,也可使得网络模型可以更符合实际使用方的需求。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种模型更新方法的流程示意图;
图2为本说明书实施例提供的一种模型更新装置的结构示意图;
图3为本说明书实施例提供的一种模型更新设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
为了解决现有技术中的缺陷,本方案给出了以下实施例:
图1为本说明书实施例提供的一种模型更新方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。从硬件角度而言,可以数据管理或检验人员操作的能够对数据进行管理或检验的操作平台。例如,为了保证网络信息的健康性,需要管理或检验人员对需要发布到网络上的文字、图像等数据进行分类或审核,防止不健康信息在网络中传播。
可以理解的是,本说明书实施例中的方法可应用于具有数据分类或数据识别的场景,例如,对于不健康信息的识别,对于不同对象的分类等等。上述内容仅是示例,并不能构成对本申请的限定。
如图1所示,该流程可以包括以下步骤:
步骤102:获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息。
本说明书实施例中可以通过已训练完成的网络模型对识别数据进行初步识别,然后将包含有识别结果的识别数据发送至数据管理或审核人员的显示端,数据管理或审核人员可以对识别数据进行人工检验。数据管理或审核人员在对信息进行审核时,可以对识别数据执行浏览、确认、存疑、修改等分析行为。上述多个识别数据可以包括被已训练完成的网络模型初步识别的数据,也可以包括经历了人工检验阶段的数据。具体的,识别数据可以是图像数据,也可以是文字数据,还可以是声音数据等等。
这里可以认为数据管理或审核人员的本职工作就是对数据进行人工检验,在不打扰数据管理或审核人员的正常工作的情况下,服务器可以根据信息管理或审核人员的日常数据分析行为,确定各个识别数据的状态。
步骤104:将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据。
其中,数据属性值可以表示识别数据所属的类别、识别数据中包含的内容等等。例如,识别数据是否包含违规内容,包含的违规内容的具体内容等等。采用已训练完成的网络模型对识别数据进行识别,得到的识别结果可以表示该识别数据的数据属性值;人工核验过程中,数据管理或审核人员对识别数据的标注结果也可以表示该识别数据的数据属性值。
在人工检验阶段,当数据管理或审核人员认为被审核的识别数据的数据属性值不正确时,就可以将该数据属性值进行修改,修改为正确的数据属性值。
步骤106:采用所述样本数据对所述已训练完成的网络模型进行更新。
其中,样本数据中包含经过人工检验后的数据属性值,该数据属性值可以理解为样本数据的标注标签,本说明书实施例中可以利用包含准确标注标签的样本数据进行模型更新。应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
图1中的方法,随着信息技术的发展,大数据时代的到来,也使得对符合实际场景的网络模型的需求越来越大,本说明书实施例中可以结合识别数据在人工检验阶段的状态信息,从标记有浏览态、确认态、存疑态、修改态的多个识别数据中,选取处于确认态且识别数据的数据属性值因人工检验被修改过的识别数据作为更新网络模型的样本数据。其中,处于确认态且数据属性值被修改过的识别数据,可以理解为已训练完成的网络模型不能准确识别的数据,将该类数据作为更新该网络模型的样本,可以更有效的提高模型的性能,也可使得网络模型可以更符合实际使用方的需求。
并且,本说明书实施例中的方法应用于模型应用阶段,可以将人工检验的分析行为来确定数据的状态信息,在不影响数据管理或审核人员在完成人工检验工作的情况下,即可以在进行人工检验的数据管理或审核人员无感知的情况下获取包含准确的标注信息的训练样本。由于数据管理或审核人员对工作内的数据是比较熟悉的,对数据的分类或识别是比较专业的,本说明书实施例中可以将数据管理或审核人员的经验应用到模型更新中,更有利于更新得到符合实际需求的模型,也可减少模型开发人员对于数据标注的工作量。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
实际应用中,数据管理或审核人员在进行人工检验时,可以对识别数据执行浏览、确认、存疑、修改等操作,本说明书实施例中可以基于业务人员的操作,将识别数据的状态分为浏览态、确认态、存疑态、修改态。其中,各个状态也可以表示识别数据的数据属性值的状态,一个识别数据可以包含一个或多个数据属性值。例如,识别数据为一张图像,需要识别图像中的男、女,该图像可以包含男、女这两个数据属性值。又如,识别数据中包含某违规图像或文字,可以该违规图像或文字所属的违规类别可以表示其数据属性值。
由于数据管理或审核人员可对识别数据执行不同操作,例如,可以将采用已训练完成的网络模型识别后的识别数据的初始状态都定义为浏览态,将多个数据或者多个数据中的部分数据显示在数据管理或审核人员可进行人工检验的操作页面中,显示的识别数据中可以包含模型识别的识别结果,可以为识别数据的初始数据属性值。当数据管理或审核人员人工检验识别数据的数据属性值是正确时,可以执行确认操作;当数据管理或审核人员人工检验识别数据的数据属性值有误时,可以执行修改操作,提供修改后的数据属性值;当数据管理或审核人员也不太确定识别数据的数据属性值是否正确时,也可以对该数据执行存疑操作;数据管理或审核人员也可以不对识别数据执行确定、存疑、修改等操作,而是执行浏览识别数据的操作。
为了数据检验的准确性,通常同一个数据需要同一个用户或不同用户的多次核验,在多次核验过程中,当次核验执行的操作可以与上一次核验操作不同,例如,上一次核验执行的是修改操作,这次核验用户确认修改后的数据属性值是正确的,可以执行确认操作;当次核验执行的操作也可以与上一次核验操作相同,例如,上一次核验执行的是修改操作,这次核验用户认为上次修改的属性也不太准确,可以再次执行修改。
本说明书实施例中的识别数据的状态也可以是能够根据业务人员的不同操作进行转换的。
作为一种实施方式,表1为本说明书实施例提供的一种数据状态转换表。
表1
如表1所示,本说明书实施例中数据的状态转换可以包括由浏览态到浏览态、由浏览态到确认态、由浏览态到修改态、由浏览态到存疑态、由确认态到修改态、由确认态到存疑态、由修改态到确认态、由修改态到修改态、由修改态到存疑态、由存疑态到确认态、由存疑态到修改态、由存疑态到存疑态等。可选的,本说明书实施例中所述获取采用已训练完成的网络模型识别得到的多个识别数据之前,还可以包括:
获取用户对所述识别数据的数据检验操作;所述识别数据的状态信息为第一状态信息;
根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息。
其中,第一状态信息可以表示用户对识别数据执行分析操作之前,该识别数据的状态信息;第二状态信息可以表示用户对识别数据执行了分析操作后,根据用户执行的操作,确定出的最新的状态信息。
下面结合表1所示的状态转换关系来具体说明本说明书中的方法。
可选的,本说明书实施例中第一状态信息可以为表示浏览态的状态信息;所述第二状态信息可以为表示确认态的状态信息,其中,所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行确认的确认操作,将所述识别数据的状态信息由浏览态转换为确认态;
或者,
根据表示对所述识别数据进行浏览的浏览操作,获取所述识别数据被浏览的次数或时长;
判断所述识别数据被浏览的次数是否大于或等于第一阈值,或者所述识别数据被浏览的时长是否大于或等于第二阈值;
若所述识别数据被浏览的次数大于或等于第一阈值,或者所述识别数据处于被浏览的时长大于或等于第二阈值,则将所述识别数据的状态信息由浏览态转换为确认态。
实际应用中,在浏览页面可以对浏览态的数据执行确认动作,自动更新数据的状态为确认态、记录确认值、记录动作起止时间,确认动作包括两种途径:1)手动进行确认操作;2)自动确认:当某一部分内容的浏览次数、时间达到阈值时,针对该部分内容自动执行确认操作。其中,确认值可以表示确认的数据属性值;动作起止时间可以表示执行确认操作的起止时间,其中,可以将在浏览页面中开始显示识别数据的时间作为执行确认操作的开始时间,将用户完成执行确认操作的四件作为执行确认操作的停止时间。
可选的,本说明书实施例中所述第一状态信息可以为表示浏览态的状态信息;所述第二状态信息可以为表示修改态的状态信息;其中,所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据进行修改的修改操作,将所述识别数据的状态信息由浏览态转换为修改态。
其中,本说明书实施例中还可以获取用户基于所述修改操作提供的针对所述识别数据的修改后的数据属性值,并保存。
实际应用中,在浏览页面对浏览态的数据的执行修改动作,可以修改该数据的数据属性值,本说明书实施例中可以自动更新状态为修改态,还可以记录修改值、记录动作起止时间。
可选的,本说明书实施例中所述第一状态信息可以为表示浏览态的状态信息;所述第二状态信息可以为表示存疑态的状态信息;其中,所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息由浏览态转换为存疑态。
其中,本说明书实施例中还可以获取用户基于所述存疑操作提供的针对所述识别数据的推荐数据属性值,并保存;所述推荐数据属性值用于表示用户在存疑阶段对于所述识别数据标注的数据属性值;当浏览页面中显示存疑态的识别数据时,显示所述推荐数据属性值。
实际应用中,在浏览页面可以对浏览态的数据执行存疑动作,自动更新状态为存疑态、记录人工推荐值、维护存疑值列表、记录动作起止时间。其中人工推荐值可以表示用户对识别数据标注的可能的属性信息,存疑值列表可以用于记录该识别数据被标注的各个推荐值。
维护存疑值列表时,首先可以获取上一次存疑动作记录的存疑值列表,将当前页面浏览态的值、人工推荐值去重后,加入到存疑值列表中,生成新的存疑值列表,并保存。在后续存疑态的识别数据再次显示在浏览页面中时,还可以将该识别数据对应的推荐值显示在页面中,以供检验用户参考。
可选的,本说明书实施例中所述第一状态信息可以为表示确认态的状态信息;所述第二状态信息可以为表示修改态的状态信息;其中,所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据进行修改的修改操作,将所述识别数据的状态信息由确认态转换为修改态。
实际应用中,用户可在浏览页面对确认态的值或识别数据执行修改动作,本说明书实施例中还可以自动更新状态为修改态、记录修改值、记录动作起止时间。其中,确认态的值可以表示处于确认态的识别数据的数据属性值。
可选的,本说明书实施例中所述第一状态信息可以为表示确认态的状态信息;所述第二状态信息可以为表示存疑态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息由确认态转换为存疑态。
实际应用中,用户在浏览页面对确认态的值或识别数据执行存疑动作,自动更新状态为存疑态、记录人工推荐值、维护存疑值列表、记录动作起止时间。维护存疑值列表时,首先获取上一次存疑动作记录的存疑值列表(初始为空),将当前页面确认态的值、人工推荐值去重后,加入到存疑值列表中,生成新的存疑值列表,并保存。
可选的,本说明书实施例中所述第一状态信息可以为表示修改态的状态信息;所述第二状态信息可以为表示确认态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据进行确认的确认操作,将所述识别数据的状态信息由修改态转换为确认态;
或,
根据表示对所述识别数据进行浏览的浏览操作,获取所述识别数据被浏览的次数或时长;所述识别数据处于修改态;
判断所述识别数据被浏览的次数是否大于或等于第一阈值,或者所述识别数据被浏览的时长是否大于或等于第二阈值;
若所述识别数据被浏览的次数大于或等于第一阈值,或者所述识别数据处于被浏览的时长大于或等于第二阈值,则将所述识别数据的状态信息由修改态转换为确认态。
实际应用中,用户在浏览页面对修改态的值执行确认动作,本说明书实施例中可以自动更新识别数据的状态为确认态,还可以记录确认值、记录动作起止时间等。其中,确认动作包括两种途径:1)手动进行确认操作;2)自动确认:当某一部分内容的浏览次数、时间达到阈值时,针对该部分内容自动执行确认操作。
可选的,本说明书实施例中所述第一状态信息可以为表示修改态的状态信息;所述第二状态信息可以为表示存疑态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息由修改态转换为存疑态。
实际应用中,用户在浏览页面对修改态的值执行存疑动作,与上述内容类似,本说明书实施例中可以自动更新状态为存疑态、记录人工推荐值、维护存疑值列表、记录动作起止时间。维护存疑值列表时,首先获取上一次存疑动作记录的存疑值列表(初始为空),将当前页面修改态的值、人工推荐值去重后,加入到存疑值列表中,生成新的存疑值列表,并保存。
可选的,本说明书实施例中所述第一状态信息可以为表示存疑态的状态信息;所述第二状态信息可以为表示确认态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据进行确认的确认操作,将所述识别数据的状态信息由存疑态转换为确认态。
实际应用中,用户在浏览页面对存疑态的值手动进行确认操作,服务器可以根据用户执行的确认操作,将识别数据的状态更新为确定态,可以表示对存疑态的数据属性值的确认。
可选的,本说明书实施例中所述第一状态信息可以为表示存疑态的状态信息;所述第二状态信息可以为表示修改态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体可以包括:
根据表示对所述识别数据进行修改的修改操作,将所述识别数据的状态信息由存疑态转换为修改态。
实际应用中,用户在浏览页面对存疑态的值执行修改动作,服务器可以自动更新识别数据或识别数据的属性的状态为修改态,还可以记录修改值、记录动作起止时间。其中,存疑态的值可以表示处于识别数据中处于存疑状态的数据属性值。
如表1所示,实际应用中,用户可以连续执行相同的操作,例如,对于浏览态的数据继续执行浏览操作,对于这种情况,服务器可以不变更数据的状态信息。
可选的,本说明书实施例中所述获取采用已训练完成的网络模型识别得到的多个识别数据之前,还可以包括:
获取用户对所述识别数据的数据检验操作;所述识别数据的状态信息为第一状态信息;
根据所述数据检验操作,将所述识别数据的状态信息保持为所述第一状态信息。
其中,所述第一状态信息可以为表示浏览态的状态信息,所述数据检验操作可以为用户对所述识别数据进行的浏览操作;
或者,所述第一状态信息可以为表示修改态的状态信息,所述数据检验操作可以为用户对所述识别数据进行的修改操作;
或者,所述第一状态信息可以为表示存疑态的状态信息,所述数据检验操作可以为用户对所述识别数据存在疑问的存疑操作。
具体的,当所述第一状态信息为表示浏览态的状态信息时,所述根据所述数据检验操作,将所述识别数据的状态信息维持为所述第一状态信息,具体可以包括:
获取用户对所述识别数据的浏览操作,将所述识别数据的状态信息保持为浏览态。
实际应用中,用户在浏览页面对浏览态的识别数据或数据属性值执行浏览动作,服务器可以保持识别数据或数据属性值状态不变,数据属性值不变,并记录动作起止时间。
当所述第一状态信息为表示修改态的状态信息时,所述根据所述数据检验操作,将所述识别数据的状态信息维持为所述第一状态信息,具体可以包括:
获取用户对所述识别数据进行修改的确认操作,将所述识别数据的状态信息保持为修改态。
实际应用中,用户在浏览页面对修改态的识别数据或数据属性值执行修改动作,服务器可以保持识别数据或数据属性值的状态不变,仍为修改态,并且记录修改后的数据属性值,记录动作起止时间。
用户在浏览界面对修改态的识别数据或数据属性值进行浏览,不进行任何分析行为,服务器可以保持识别数据或数据属性值的状态不变,并且数据属性值也不变,记录动作起止时间。
当所述第一状态信息为表示存疑态的状态信息时,所述根据所述数据检验操作,将所述识别数据的状态信息维持为所述第一状态信息,具体可以包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息保持为存疑态。
实际应用中,用户在浏览页面对存疑态的识别数据或数据属性值执行存疑动作,服务器可以保持识别数据或数据属性值的状态不变,仍为存疑态,还可以记录人工推荐值、维护存疑值列表、记录动作起止时间。其中,维护存疑值列表时,可以首先获取上一次存疑动作记录的存疑值列表,将当前页面修改态的值、人工推荐值去重后,加入到存疑值列表中,生成新的存疑值列表,并保存。
为更好的分析识别数据的状态信息,本说明书实例中各个识别数据可以具有唯一标识,以该唯一标识将与该识别数据的全声明周期的信息保存。可选,本说明书实施例中的方法还可以包括:
为多个识别数据中的各个识别数据分配数据唯一标识;
基于所述数据唯一标识,将所述识别数据与所述识别数据对应的状态信息、数据属性值、数据检验操作、操作起止时间信息关联。
其中,可以采用key-value的方式保存数据。
实际应用中,用户在对识别数据进行人工检验的过程中,对同一个识别数据可以执行上述一个或多个操作,上述状态转换也可以是一个或多个过程,本说明书实施例中可以按照时间先后顺序保存识别数据所处的各个状态信息。也可以根据时间标签来确定识别数据处于各个状态的时长以及次数。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图2为本说明书实施例提供的一种模型更新装置的结构示意图。如图2所示,该装置可以包括:
数据获取模块202,用于获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
样本确定模块204,用于将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;
模型更新模块206,用于采用所述样本数据对所述已训练完成的网络模型进行更新。
基于图2的装置,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,本说明书实施例中的装置还包括状态管理模块,可以用于获取用户对所述识别数据的数据检验操作;所述识别数据的状态信息为第一状态信息;
根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息。
其中,状态管理模块也可以用于获取用户对所述识别数据的数据检验操作;所述识别数据的状态信息为第一状态信息;
根据所述数据检验操作,将所述识别数据的状态信息保持为所述第一状态信息。
该装置中各个模块的具体功能或可执行步骤的具体内容与上述对模型更新方法的介绍相同,这里不再赘述。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图3为本说明书实施例提供的一种模型更新设备的结构示意图。如图3所示,设备300可以包括:
至少一个处理器310;以及,
与所述至少一个处理器通信连接的存储器330;其中,
所述存储器330存储有可被所述至少一个处理器310执行的指令320,所述指令被所述至少一个处理器310执行,以使所述至少一个处理器310能够:
获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;
采用所述样本数据对所述已训练完成的网络模型进行更新。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图3所示的设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种模型更新方法,其特征在于,所述方法应用于模型应用阶段,包括:
获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;所述数据属性值包括采用所述已训练完成的网络模型对识别数据进行识别,得到的识别结果;所述数据属性值表示识别数据所属的类别;所述识别数据包括文字、图像中至少一种;
采用所述样本数据对所述已训练完成的网络模型进行更新。
2.根据权利要求1所述的方法,其特征在于,所述获取采用已训练完成的网络模型识别得到的多个识别数据之前,还包括:
获取用户对所述识别数据的数据检验操作;所述识别数据的状态信息为第一状态信息;
根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息。
3.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示浏览态的状态信息;所述第二状态信息为表示确认态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行确认的确认操作,将所述识别数据的状态信息由浏览态转换为确认态;
或者,
根据表示对所述识别数据进行浏览的浏览操作,获取所述识别数据被浏览的次数或时长;
判断所述识别数据被浏览的次数是否大于或等于第一阈值,或者所述识别数据被浏览的时长是否大于或等于第二阈值;
若所述识别数据被浏览的次数大于或等于第一阈值,或者所述识别数据处于被浏览的时长大于或等于第二阈值,则将所述识别数据的状态信息由浏览态转换为确认态。
4.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示浏览态的状态信息;所述第二状态信息为表示修改态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行修改的修改操作,将所述识别数据的状态信息由浏览态转换为修改态。
5.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示浏览态的状态信息;所述第二状态信息为表示存疑态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息由浏览态转换为存疑态。
6.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示确认态的状态信息;所述第二状态信息为表示修改态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行修改的修改操作,将所述识别数据的状态信息由确认态转换为修改态。
7.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示确认态的状态信息;所述第二状态信息为表示存疑态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息由确认态转换为存疑态。
8.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示修改态的状态信息;所述第二状态信息为表示确认态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行确认的确认操作,将所述识别数据的状态信息由修改态转换为确认态;
或,
根据表示对所述识别数据进行浏览的浏览操作,获取所述识别数据被浏览的次数或时长;所述识别数据处于修改态;
判断所述识别数据被浏览的次数是否大于或等于第一阈值,或者所述识别数据被浏览的时长是否大于或等于第二阈值;
若所述识别数据被浏览的次数大于或等于第一阈值,或者所述识别数据处于被浏览的时长大于或等于第二阈值,则将所述识别数据的状态信息由修改态转换为确认态。
9.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示修改态的状态信息;所述第二状态信息为表示存疑态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据存在疑问的存疑操作,将所述识别数据的状态信息由修改态转换为存疑态。
10.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示存疑态的状态信息;所述第二状态信息为表示确认态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行确认的确认操作,将所述识别数据的状态信息由存疑态转换为确认态。
11.根据权利要求2所述的方法,其特征在于,所述第一状态信息为表示存疑态的状态信息;所述第二状态信息为表示修改态的状态信息;
所述根据所述数据检验操作,将所述识别数据的状态信息由所述第一状态信息转换为第二状态信息,具体包括:
根据表示对所述识别数据进行修改的修改操作,将所述识别数据的状态信息由存疑态转换为修改态。
12.根据权利要求1所述的方法,其特征在于,所述获取采用已训练完成的网络模型识别得到的多个识别数据之前,还包括:
获取用户对所述识别数据的数据检验操作;所述识别数据的状态信息为第一状态信息;
根据所述数据检验操作,将所述识别数据的状态信息保持为所述第一状态信息。
13.根据权利要求12所述的方法,其特征在于,所述第一状态信息为表示浏览态的状态信息,所述数据检验操作为用户对所述识别数据进行的浏览操作;
或者,所述第一状态信息为表示修改态的状态信息,所述数据检验操作为用户对所述识别数据进行的修改操作;
或者,所述第一状态信息为表示存疑态的状态信息,所述数据检验操作为用户对所述识别数据存在疑问的存疑操作。
14.根据权利要求2或12中任一项所述的方法,其特征在于,所述方法还包括:
为多个识别数据中的各个识别数据分配数据唯一标识;
基于所述数据唯一标识,将所述识别数据与所述识别数据对应的状态信息、数据属性值、数据检验操作、操作起止时间信息关联。
15.根据权利要求4、6或11中任一项所述的方法,其特征在于,所述方法还包括:获取用户基于所述修改操作提供的针对所述识别数据的修改后的数据属性值,并保存。
16.根据权利要求5、7或9中任一项所述的方法,其特征在于,所述方法还包括:
获取用户基于所述存疑操作提供的针对所述识别数据的推荐数据属性值,并保存;所述推荐数据属性值用于表示用户在存疑阶段对于所述识别数据标注的数据属性值;
当浏览页面中显示存疑态的识别数据时,显示所述推荐数据属性值。
17.一种模型更新装置,其特征在于,所述装置应用于模型应用阶段,包括:
数据获取模块,用于获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
样本确定模块,用于将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;所述数据属性值包括采用所述已训练完成的网络模型对识别数据进行识别,得到的识别结果;所述数据属性值表示识别数据所属的类别;所述识别数据包括文字、图像中至少一种;
模型更新模块,用于采用所述样本数据对所述已训练完成的网络模型进行更新。
18.一种模型更新设备,其特征在于,所述设备应用于模型应用阶段,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取采用已训练完成的网络模型识别得到的多个识别数据;各个所述识别数据具有表示所述识别数据所处的人工检验阶段的状态信息;所述状态信息包括表示浏览态、确认态、存疑态、修改态中的任一种状态的信息;
将处于所述确认态且数据属性值被修改过的识别数据确定为样本数据;所述数据属性值包括采用所述已训练完成的网络模型对识别数据进行识别,得到的识别结果;所述数据属性值表示识别数据所属的类别;所述识别数据包括文字、图像中至少一种;
采用所述样本数据对所述已训练完成的网络模型进行更新。
CN202211409620.1A 2022-11-11 2022-11-11 一种模型更新方法、装置及设备 Active CN115659182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211409620.1A CN115659182B (zh) 2022-11-11 2022-11-11 一种模型更新方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211409620.1A CN115659182B (zh) 2022-11-11 2022-11-11 一种模型更新方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115659182A CN115659182A (zh) 2023-01-31
CN115659182B true CN115659182B (zh) 2023-08-15

Family

ID=85020713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211409620.1A Active CN115659182B (zh) 2022-11-11 2022-11-11 一种模型更新方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115659182B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
US20210256420A1 (en) * 2020-02-19 2021-08-19 Microsoft Technology Licensing, Llc System and method for improving machine learning models by detecting and removing inaccurate training data
CN113408558A (zh) * 2020-03-17 2021-09-17 百度在线网络技术(北京)有限公司 用于模型验证的方法、装置、设备和介质
CN114663975A (zh) * 2022-03-16 2022-06-24 北京中庆现代技术股份有限公司 模型训练方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506799A (zh) * 2017-09-01 2017-12-22 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
US20210256420A1 (en) * 2020-02-19 2021-08-19 Microsoft Technology Licensing, Llc System and method for improving machine learning models by detecting and removing inaccurate training data
CN113408558A (zh) * 2020-03-17 2021-09-17 百度在线网络技术(北京)有限公司 用于模型验证的方法、装置、设备和介质
CN114663975A (zh) * 2022-03-16 2022-06-24 北京中庆现代技术股份有限公司 模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于递进卷积神经网络的台标识别及其并行化";许子立 等;《电视技术》;第40卷(第5期);全文 *

Also Published As

Publication number Publication date
CN115659182A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
AU2020200909A1 (en) Evaluation control
US9703692B2 (en) Development supporting system
US11455497B2 (en) Information transition management platform
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
KR20180130733A (ko) 협업 의존성 기반 컴포넌트 재사용 추천 시스템 및 방법
CN111652658A (zh) 画像融合方法、装置、电子设备及计算机可读存储介质
CN114675987A (zh) 一种缓存数据处理方法、装置、计算机设备和存储介质
US20200395004A1 (en) Computer System, Model Generation Method, and Computer Readable Recording Medium
US20230252700A1 (en) System for ontological graph creation via a user interface
US20230252006A1 (en) System for annotating input data using graphs via a user interface
CN113869789A (zh) 一种风险监控的方法、装置、计算机设备及存储介质
CN113627816A (zh) 一种评估管理方法、装置、电子设备及存储介质
CN115659182B (zh) 一种模型更新方法、装置及设备
JP6894461B2 (ja) 情報処理装置、プログラム、及び情報処理方法
CN115828022A (zh) 一种数据识别方法、联邦训练模型、装置和设备
US20150373064A1 (en) Enabling digital asset reuse through dynamically curated shared personal collections with eminence propagation
CN111177501B (zh) 一种标签处理方法、装置及系统
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN110308931A (zh) 一种数据处理方法及相关装置
Bansal et al. Literature review of finding duplicate bugs in open source systems
CN109800332A (zh) 处理字段名的方法、装置、计算机存储介质及终端
US11995584B2 (en) Training assignment tool
CN114153830B (zh) 数据验证方法及其装置、计算机存储介质、电子设备
US20230394227A1 (en) Apparatus for generating draft document and method therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant