CN115859122A - 一种数据识别方法、自动持续学习模型、装置和设备 - Google Patents
一种数据识别方法、自动持续学习模型、装置和设备 Download PDFInfo
- Publication number
- CN115859122A CN115859122A CN202310051936.6A CN202310051936A CN115859122A CN 115859122 A CN115859122 A CN 115859122A CN 202310051936 A CN202310051936 A CN 202310051936A CN 115859122 A CN115859122 A CN 115859122A
- Authority
- CN
- China
- Prior art keywords
- data
- data area
- model
- user
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本说明书实施例公开了一种数据识别方法、自动持续学习模型、装置和设备。数据识别方法包括:获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据识别方法、自动持续学习模型、装置和设备。
背景技术
基于已有的模型,对待处理数据进行识别,获得识别结果,是数据处理的一种重要手段。该方法能够快速实现数据的识别,且具有一定的准确性。但是该方法无法进一步提高数据识别结果的准确性。
基于此,需要一种新的数据识别方法。
发明内容
本说明书实施例提供一种数数据识别、自动持续学习模型、装置和设备,用于解决如下技术问题:现有的基于已有的模型,对待处理数据进行识别,获得识别结果的方法,无法进一步提高数据识别结果的准确性。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种数据识别方法,包括:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
本说明书实施例提供的一种自动持续学习模型,所述模型包括:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型。
本说明书实施例提供的一种数据识别装置,所述装置包括:
获取模块,获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
数据区域集合确定模块,确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
第一更新模块,基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
识别模块,基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
本说明书实施例提供的一种数据识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
本说明书一个实施例至少能够达到以下有益效果:该数据识别基于样本演化的多粒度持续学习进化框架,能够持续学习动态变化的样本集,以多种粒度完成模型自动优化、评估、上线,实现模型持续进化,敏感地响应样本数据的新增和修正变化,从而提升待识别数据的更新的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种数据识别方法的流程示意图;
图2为本说明书实施例的一种数据区域矩阵的示意图;图3为本说明书实施例的用户标注样本在数据区域矩阵中所占据的数据区域集合的一个示例的示意图;
图4为本说明书实施例的用户标注样本在数据区域矩阵中所占据的数据区域集合的另一示例的示意图;
图5为本说明书实施例提供的又一种数据识别方法的流程示意图
图6为本说明书实施例提供的一种自动持续学习模型的整体方案的示意图;
图7为本说明书实施例提供的又一种自动持续学习模型的整体方案的示意图;
图8为本说明书实施例提供的一种实际应用场景下的自动持续学习模型的示意图;
图9为本说明书实施例提供的一种数据识别装置的示意图。
实施方式
现有的基于已有模型,对待处理数据进行识别,已有模型常采用的是机器学习的手段获得的。在机器学习模型的构建、使用等过程中,会涉及到一系列的机器学习手段,例如,自动学习、强化学习、增量学习、持续进化学习等。
自动学习,是一种将自动化和机器学习相结合的学习方法,它将传统机器学习中的特征选择、模型选择、参数调整等工作自动化,实现无人工干预或者较少人工干预的情况下完成模型的快速构建。按照模型种类,自动学习可分为自动机器学习(AutoML)和自动深度学习(AutoDL)两类。自动学习的核心是自动化完成模型的训练构建过程,但是,模型上线即“固化”,自动学习不涉及模型上线后的重训练和调优过程,无法实现模型的持续“进化”。
强化学习,是一种采用“试错”思路的在线学习方法,不同于监督学习和非监督学习,它不要求预先给定任何数据,而是通过接收环境对动作的反馈获得相应的学习信息,并据此调节和优化模型的相关参数,实现模型的不断完善。按照给定条件,强化学习可分为有模型强化分析和无模型强化学习。强化学习虽然考虑采用外部反馈信息作为持续输入,但是对外部反馈信息有具体约束(“奖励”或“惩罚”);并且只涉及模型的训练构建过程,不涉及模型上线后的重训练和调优过程,无法实现模型的持续“进化”。
增量学习,是一种针对训练样本无法一次性达到的学习方法,在原有知识库的基础上,针对新增数据所引起的变化对原模型进行更新,实现学习新知识的同时能够保留之前的旧知识,保证训练模型在新老数据(任务)上均表现良好,常用于日志、流数据等随时间累积的数据处理。增量学习虽然依赖后续样本数据的持续输入,但是仍以旧模型“修正”为主,不涉及到模型自身的重训过程,难以敏感地响应样本数据的新增和修正变化。
本说明书的实施例中,提供了一种数据识别方法,该数据识别基于样本演化的多粒度持续学习进化框架,能够持续学习动态变化的样本集,以多种粒度完成模型自动优化、评估、上线,实现模型持续进化,敏感地响应样本数据的新增和修正变化,从而提升待识别数据的更新的准确性。
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
应当理解,尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的一种数据识别方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器或应用终端的程序。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图1所示,该数据识别方法包括:
步骤S101:获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的。
在本说明书实施例中,所述用户标注样本携带有用户标注结果,所述用户标注结果是基于用户对数据识别结果的审核操作生成的。用户是查看模型识别结果的人员,具体可以包括数据管理或审核人员。审核操作是用户对识别数据执行交互行为的过程。用户在对包含有数据识别结果的识别数据进行审核操作时,可以对识别数据执行诸如浏览、确认、存疑、修改等的交互行为。基于用户在审核过程中与识别数据之间的各种交互记录,可以生成用户标注样本,即,可以确定用户标注结果。在实践中,所述用户标注结果可以与数据识别结果一致或不一致。
在本说明书的实施例中,所述原始数据可以是待识别的数据。所述原始数据可以是任意数据格式的。例如,所述原始数据可以是图像数据、文本数据、视频数据、音频数据等。
使用模型对原始数据进行识别,可以输出带有数据识别结果的识别数据。例如,识别数据可以是key-value1的形式,原始数据是其中的key,数据识别结果是其中的value1。
根据用户对数据识别结果的审核操作,可以得知与原始数据对应的用户标注结果,获得用户标注样本。例如,用户标注样本可以是key-value2的形式,原始数据是其中的key,用户标注结果是其中的value2。
在本说明书的实施例中,用户标注结果可以与数据识别结果相同或不同。例如,value2可以与value1相同或不同。例如,对于同一原始图片数据,模型输出的数据识别结果为“猫”,用户标注结果也为“猫”,此时,value2与value1相同。又如,对于同一原始图片数据,模型输出结果为“汽车”,用户标注结果为“卡车”,此时,value2不同于value1。以上给出的示例仅为了便于理解的需要,不构成对本申请的任何限定。
在本说明书实施例中,训练完成的当前模型,具体可以包含当前全局模型和当前局部模型。其中,该训练完成的当前全局模型,是基于全部数据区域中的训练样本训练得到的。该训练完成的当前局部模型,是基于部分数据区域的训练样本训练得到的。
步骤S103:确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域。
在本说明书的实施例中,将待识别的原始数据所覆盖的数据区域作为全局数据区域。其中,数据区域可以对应于数据的属性范围。在实践中,全局数据区域通常对应于模型的业务领域。例如,用于识别遥感卫星影像的模型,其数据区域可以涵盖遥感卫星能够拍摄的所有对象所对应的属性范围。又如,用于识别社区监控视频影像的模型,其数据区域可以涵盖社区监控能够摄取的所有对象所对应的属性范围。
在本说明书的实施例中,可以根据所述原始数据的至少两个预设属性信息的属性值,将所述原始数据对应的全局数据区域划分为数据区域矩阵。其中,所述原始数据,可以是模型待识别的数据。所述预设属性信息,可以是从原始数据对应的全部属性信息中选择的。例如,原始数据对应的属性信息可以包括数据来源信息、数据获取时间、数据清晰度信息、数据大小等。在实际应用时,优选地,所述预设属性信息可以满足:当以所述预设属性信息的属性值来对原始数据对应的全局数据区域进行划分时,能够使原始数据较好地分散在划分所得到数据区域矩阵中的各个数据区域中。换个角度讲,优选地,所述预设属性信息可以满足:所述原始数据在所述预设属性信息下相对均匀分布。
下面以根据两个预设属性信息进行划分作为示例进行说明。
若将原始数据记为A,假设原始数据A在预设属性X(属性值x)和预设属性Y(属性值y)下相对均匀分布,可以将(Max(x)-Min(x))按分布数量平均分为m段,将(Max(y)-Min(y))按分布数量平均分为n段,由此,能够得到m×n的数据区域矩阵。
由于随着现有模型的应用,识别数据量的增加,可能存在超出原始数据范围的数据,可选地,在本说明书的示例中,还可以在矩阵上下左右预留若干个单位区间,以便存储后续超出界限的数据样本。例如,可以在矩阵上下左右预留1个单位区间,由此,形成原始数据的(m+2)×(n+2)的数据区域矩阵。
图2为本说明书实施例的一种数据区域矩阵的示意图。如图2所示的数据区域矩阵(例如,当m=5,n=4,预留1个单位区间时)的示意图。其中,数据区域矩阵中的数据区域d22至d25、d23至d35、d42至d45、d52至d55以及d62至d65,可以是根据当前的原始数据的两个预设属性进行划分得到的,其他的数据区域可以是预留的。
在实际应用时,用户标注样本可以覆盖(或称为,划入、落入)全局数据区域中的部分数据区域。用户标注样本是根据用户对模型识别结果的审核操作产生的,因此,用户标注样本所覆盖的数据区域不仅可以与模型所述的业务领域相关,通常也可以与使用模型的用户的兴趣点、个人业务经验等有关。
步骤103中的,所述确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,具体可以是,根据所述用户标注样本的预设属性信息的属性值,来确定所述用户标注样本落入了所述数据区域矩阵中的哪些数据区域,即,确定所述用户标注样本所占据的数据区域集合。可以理解的是,所述数据区域集合是所述数据区域矩阵的全部数据区域的集合的子集,所述数据区域集合中可以包含一个或更多个数据区域。
步骤S105:基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型。
在本说明书实施例中,所述将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域,具体包括:
判断所述数据区域集合中的各数据区域是否符合第一预设条件;所述第一预设条件包括:划入目标数据区域中的用户标注样本的数量与划入所述目标数据区域的原始数据的数量的第一比值不小于第一阈值,并且划入所述目标数据区域中的用户标注样本中的修正样本的数量与划入所述目标数据区域中的用户标注样本的数量的第二比值不小于第二阈值;
将符合所述第一预设条件的数据区域确定为可重训数据区域。
在本说明书的实施例中,为了保证模型的更新效果,设置了触发模型重训练的条件。具体地,当落入目标数据区域中的用户标注样本满足第一预设条件,则可以使用这部分用户标注样本来对模型进行重训练,由此,重训练得到的模型可以用于对所述目标数据区域对应的原始数据进行识别。
一方面,可以获取划入目标数据区域中的用户标注样本的数量以及划入所述目标数据区域的原始数据的数量,并且计算划入目标数据区域中的用户标注样本的数量与划入所述目标数据区域的原始数据的数量的第一比值。所述第一比值可以反映用户标注样本在所述目标数据区域中的数据密度。由此,在第一比值不小于第一阈值的情况下,再执行模型的重训练,能够确保训练样本的分布不是稀疏的,从而确保模型的训练效果。
另一方面,可以获取划入所述目标数据区域中的用户标注样本中的修正样本的数量以及划入所述目标数据区域中的用户标注样本的数量,并且计算划入所述目标数据区域中的用户标注样本中的修正样本的数量与划入所述目标数据区域中的用户标注样本的数量的第二比值。其中,所述标注修正样本,可以是用户对所述原始数据的数据识别结果或用户标注结果进行修改得到的样本。所述第二比值可以反映当前模型的数据识别效果,具体地,可以反映当前模型对所述目标数据区域对应的原始数据的识别准确性,更具体地,所述第二比值越高,表示当前模型对所述目标数据区域对应的原始数据的识别准确性越低,若所述第二比值越低,表示当前模型对所述目标数据区域对应的原始数据的识别准确性越高。由此,在第二比值不小于第二阈值的情况下,表明当前模型对所述目标数据区域对应的原始数据的识别效果不好,有必要进行重训练;并且,用户标注样本已经提供了目标数据区域对应的这部分识别效果不好的数据的修正的标注结果,由此,为重训练后的模型能够达到更好的识别效果提供保障。
在实践中,随着用户不断进行数据审核,用户标注样本的数量可以不断累积,修正样本的数量可以不断增加或保持不变。
需要说明的是,第一阈值和第二阈值,可以是根据试验或经验设置的。
沿用上文的示例,假设经步骤103确定出的用户标注样本在数据区域矩阵中所占据的数据区域集合的示例如图3所示,即,可以包括数据区域d24、d43、d64和d65。
针对每个数据区域(例如,目标数据区域d24、d43、d64或d65),一方面,可以计算用户标注样本在目标数据区域的标注样本占比p,p=用户标注样本落在目标数据区域中的标注样本数量/该目标数据区域中的原始数据数量;另一方面,计算用户标注样本在该目标数据区域的修正样本占比q,q=用户标注样本落在目标数据区域中的修正样本数量/用户标注样本落在该目标数据区域中的标注样本数量。然后,判断是否:p≥第一阈值且q≥第二阈值。
沿用上文的示例,若p≥第一阈值且q≥第二阈值,则可以将该数据区域(例如,数据区域d43)确定为可重训数据区域。
在实际应用时,可以根据步骤103,从数据区域矩阵中确定出用户标注样本所占据的数据区域集合(如图3所示,例如,数据区域d24、d43、d64和d65),进而,可以从用户标注样本所占据的数据区域集合中,筛选出可重训数据区域的集合(例如,数据区域d24、d43、d64和d65中的一个或多个数据区域)。具体地,可重训数据区域的集合中可以包含用户标注样本所占据的数据区域集合中的部分或全部数据区域。
在实际应用时,对于确定为可重训数据区域的数据区域,可以将落入其中的用户标注样本作为重训练样本,来执行对当前模型的重训练。
在实践中,由于更新的模型是基于落入到部分数据区域的用户标注样本来重训练的,所以得到的是局部模型。所述局部模型,是能够用于对部分数据区域中包含的原始数据进行识别的模型。具体地,所述局部模型,能够用于对其进行更新训练的用户标注样本所属的数据区域中包含的原始数据进行识别。
经上述描述可知,在目标数据区域满足p≥第一阈值且q≥第二阈值的情况下,可以触发基于满足条件的目标数据区域对应的用户标注样本来重训练模型,得到更新的用于对满足条件的目标数据区域对应的原始数据进行识别的局部模型。
步骤S107:基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
对于需要处理的待识别数据,将待识别数据输入更新的局部模型,进行识别,获得识别结果,将该识别结果进行显示。
在实践中,针对具体的业务,用户进行审核操作的数据一般是用户感兴趣的数据,或者是识别结果容易出错的数据。一方面,若进行模型的更新,需要巨大的训练样本,但是在使用现有模型的过程中,初始阶段,可作为训练样本的数据比较少。另一方面,又具有更新模型以提高识别结果准确性的需求。因此,采用了更新局部模型的方法,从而能够敏感地响应样本数据的新增和修正变化,以提高识别结果的准确性。
应当理解,本说明书一个或多个实施例所述的方法中,部分步骤的顺序可以根据实际需要调整,或者可以省略部分步骤。基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方式,下面进行说明。
在本说明书的实施例中,当满足一定条件时,还能够对当前模型进行重训练以得到更新的全局模型。例如,当用户标注样本足够多,满足全局模型的重训练需求时,可对当前模型进行重训练以得到更新的全局模型。
在本说明书实施例中,本说明书提供的数据数据识别进一步包括:
判断所述全局数据区域是否符合第二预设条件;所述第二预设条件包括:所述用户标注样本的数量与所述全局数据区域中的原始数据的数量的第三比值不小于第三阈值,并且所述用户标注样本中的修正样本的数量与所述用户标注样本的数量的第四比值不小于第四阈值,并且所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值不小于第五阈值;
若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型;
所述更新的局部模型失效,基于所述更新的全局模型,对待识别数据进行识别,获得识别结果。
在本说明书的实施例中,不仅设置了针对每个数据区域的模型重训练条件,也设置了针对全局数据区域的模型重训练条件。具体地,当落入全局数据区域中的用户标注样本满足第二预设条件,则可以使用全部用户标注样本来对模型进行重训练,由此,重训练得到的模型可以用于对全局数据区域对应的原始数据进行识别。
一方面,可以获取全部用户标注样本的数量以及全部原始数据的数量,并且计算全部用户标注样本的数量与全部原始数据的数量的第三比值。所述第三比值可以反映用户标注样本在全局数据区域中的数据密度。由此,在第三比值不小于第三阈值的情况下,再执行模型的重训练,能够确保训练样本的分布不是稀疏的,从而确保模型的训练效果。
另一方面,可以获取全部用户标注样本的数量以及全部用户标注样本中的全部修正样本的数量,并且计算全部修正样本的数量与全部用户标注样本的数量的第四比值。所述第四比值可以反映当前模型的数据识别效果,具体地,可以反映当前模型对全局数据区域对应的原始数据的识别准确性,更具体地,所述第四比值越高,表示当前模型对全局数据区域对应的原始数据的识别准确性越低,若所述第四比值越低,表示当前模型对全局数据区域对应的原始数据的识别准确性越高。由此,在第四比值不小于第四阈值的情况下,表明当前模型对全局数据区域对应的原始数据的识别效果不好,有必要进行重训练;并且,用户标注样本已经提供了这部分识别效果不好的数据的修正的标注结果,由此,为重训练后的模型能够达到更好的识别效果提供保障。
再一方面,可以获取数据区域矩阵中包含的数据区域的数量以及由前述步骤所确定的可重训数据区域的数量,并且计算所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值。所述第五比值可以反映用户标注样本在全局数据区域中的数据分散程度,所述第五比值越高,表示反映用户标注样本在全局数据区域中的数据分散程度越好,所述第五比值越低,表示反映用户标注样本在全局数据区域中的数据分散程度越差。由此,在第五比值不小于第五阈值的情况下,表明当前的用户标注样本能够反映数据区域矩阵中的足够多的数据区域的数据识别情况,在此情下进行模型的重训练,能够确保训练得到的模型能够用于对全局数据区域的数据进行识别。
在本说明书的实施例中,所述第三阈值、所述第四阈值和所述第五阈值,可以是根据试验或经验设置的。
另外可选地,由于在本说明书的实施例中,预先划分的数据区域矩阵可以随着方案的执行而保持不变。在此情况下,所划分的数据区域矩阵中包含的数据区域的数量保持不变,由此,判断所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值是否不小于第五阈值的步骤,也可以简化为,判断所述数据区域集合中的所述可重训数据区域的数量是否不小于预设数量阈值。当然,在方案执行过程中,划入各数据区域中的原始数据的数量、划入各数据区域中的用户标注样本的数量、划入各数据区域中的修正样本的数量可以发生变化。
沿用上文数据区域矩阵的示例,假设前述确定出的用户标注样本在数据区域矩阵中所占据的数据区域集合的示例如图4所示,即,可以包括数据区域d22、d24、d34、d35、d43、d44、d52、d53、d54、d63和d64。
针对所有数据区域,一方面,可以计算用户标注样本在全部数据区域中的标记样本数量占比p ’,p ’=用户标注样本的数量/原始数据数量;另一方面,计算用户标注样本在全部数据区域中的修正样本数量占比q ’,q ’=修正样本的数量/用户标注样本的数量;再一方面,计算确定为可重训数据区域的数量在全部数据区域的数量中的占比r,r=可重训数据区域的数量/全部数据区域的数量。然后,判断是否:p ’≥第三阈值且q ’≥第四阈值且r≥第五阈值。
可选地,在实际应用时,鉴于在方案执行过程中,全部数据区域的数量可以是不变的,因此,判断是否r≥第五阈值,具体可以是判断可重训数据区域的数量是否不小于第六阈值,即,判断是否w≥第六阈值,其中,w为可重训数据区域的数量。
经上述描述可知,在满足p ’≥第三阈值且q ’≥第四阈值且(r≥第五阈值或w≥第六阈值)的情况下,可以触发基于全部用户标注样本来重训练模型,得到更新的用于对全部数据区域对应的原始数据进行识别的全局模型。
图5为本说明书实施例提供的又一种数据识别方法的流程示意图。如图5所示,本实施例的数据识别方法,包括如下步骤:
步骤S501:获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
步骤S503:针对各数据区域,判断是否符合预设的局部模型重训条件。具体地,可以针对用户标注样本所落入的数据区域,判断该数据区域是否符合预设的局部模型重训条件;若存在符合预设的局部模型重训条件的数据区域,则执行步骤S505至步骤S509;否则,流程结束。
步骤S505:确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域。
步骤S507:基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型。
步骤S509:基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
步骤S511:在存在符合预设的局部模型重训条件的数据区域的情况下,可以进一步判断是否符合预设的全局模型重训条件。若符合,则执行步骤S513;否则,流程结束。
步骤S513:若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型;所述更新的局部模型失效,基于所述更新的全局模型,对待识别数据进行识别,获得识别结果。
需要特别说明的是,另外需要说明的是,在实际应用时,在本申请的用于模型更新的方案执行之前,已经存在的训练完成的当前模型中,具体可以包含当前全局模型和当前局部模型。其中,该训练完成的当前全局模型,是基于全部数据区域中的训练样本训练得到的。该训练完成的当前局部模型,是基于部分数据区域的训练样本训练得到的。
因此,在步骤S507中,基于符合预设的局部模型重训条件的数据区域对应的用户标注样本来重训当前模型,具体指的是对当前局部模型进行重训。在步骤S513中,基于用户标注样本来重训当前模型,具体指的是对当前全局模型进行重训。
本说明书实施例提供的数据数据识别,基于样本演化的多粒度持续学习进化框架,能够持续学习动态变化的样本集,以多种粒度完成模型自动优化、评估、上线,实现模型持续进化,敏感地响应样本数据的新增和修正变化,从而提升待识别数据的更新的准确性。
在可选的实施例中,得到重训练更新的模型之后,还可以对重训练更新的模型进行评估,并在评估通过后,再将相应的模型识别结果上线,由此,确保模型识别结果的稳定性。
具体地,获得更新的局部模型后,还可以包括:使用所述更新的局部模型,对所述数据区域集合中的可重训数据区域对应的原始数据进行重推理,得到第一识别结果;
将所述第一识别结果与用户对所述数据区域集合中的可重训数据区域对应的原始数据的新标记结果进行对比,判断所述更新的局部模型是否满足第一预设上线条件;
若所述更新的局部模型满足第一预设上线条件,则将所述第一识别结果标记为可上线局部模型识别结果。
同理,获得更新的全局模型后,还可以包括:使用所述更新的全局模型,对所述原始数据进行重推理,得到第二识别结果;
将所述第二识别结果与用户对所述原始数据的新标记结果进行对比,判断所述更新的全局模型是否满足第二预设上线条件;
若所述更新的全局模型满足第二预设上线条件,则将所述第二识别结果标记为可上线全局模型识别结果。
其中,所述第一预设时间窗口具体可以是在得到更新的局部模型之后的第一预设时长内;所述第二预设时间窗口具体可以是在得到更新的全局模型之后的第二预设时长内。所述第一预设时长和所述第二预设时长可以根据实际业务情况来分别确定。例如,可以设置为若干小时、若干天等。
判断所述更新的局部模型是否满足第一预设上线条件,具体可以是判断所述更新的局部模型的识别准确率是否满足预设的第一准确率阈值。判断所述更新的全局模型是否满足第二预设上线条件,具体可以是判断所述更新的全局模型的识别准确率是否满足预设的第二准确率阈值。
在本说明书的实施例中,全局模型和局部模型可以是共存的。对于任一原始数据,可以使用全局模型进行识别,得到全局模型识别结果。对于部分原始数据,既可以使用全局模型进行识别,得到全局模型识别结果,也可以使用局部模型进行识别,得到局部模型识别结果。
可选地,在模型更新过程中,对于任一原始数据,若生成了与其对应的可上线全局模型识别结果,则可以将此前生成的该原始数据的可上线局部模型识别结果设置为失效,例如,可以删除。具体地,对于目标数据,在将所述目标数据对应的所述第二识别结果标记为可上线全局模型识别结果后的预设时长内,可以将所述目标数据对应的可上线局部模型识别结果设置为失效。其中,所述预设时长可以根据试验或经验设置,例如,若干秒或若干毫秒等。
经上述分析可知,在实际应用时,对于任一原始数据,可以对应有由全局模型识别得到的可上线全局模型识别结果。对于部分原始数据,可以对应有由局部模型识别得到的可上线局部模型识别结果以及由此前得到的全局模型识别得到的可上线全局模型识别结果。
在本说明书的实施例中,可以根据所述可上线局部模型识别结果和所述可上线全局模型识别结果,对前端数据标记结果进行更新。
具体地,可以包括:对于目标前端数据,判断是否存在所述目标前端数据对应的用户标注结果,得到第一判断结果;若所述第一判断结果为是,则显示所述用户标注结果;若所述第一判断结果为否,则可以判断是否存在所述目标前端数据对应的可上线局部模型识别结果,得到第二判断结果;如所述第二判断结果为是,则显示所述可上线局部模型识别结果;若所述第二判断结果为否,则显示所述可上线全局模型识别结果。可见,将前端数据标记结果进行更新时,结果显示优先级为:用户标注结果>所在数据区域的局部模型推理结果>全局模型推理结果。
其中,所述目标前端数据,可以属于所述原始数据中的一部分。
本说明书实施例提供的数据识别方法,该数据识别基于样本演化的多粒度持续学习进化框架,能够持续学习动态变化的样本集,以多种粒度完成模型自动优化、评估、上线,实现模型持续进化,敏感地响应样本数据的新增和修正变化,从而提升待识别数据的更新的准确性。
本说明书实施例还提供一种自动持续学习模型,所述模型包括:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型。
在本说明书实施例中,所述模型进一步包括:
判断所述全局数据区域是否符合第二预设条件;所述第二预设条件包括:所述用户标注样本的数量与所述全局数据区域中的原始数据的数量的第三比值不小于第三阈值,并且所述用户标注样本中的修正样本的数量与所述用户标注样本的数量的第四比值不小于第四阈值,并且所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值不小于第五阈值;
若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型。
为了进一步理解本说明书实施例提供的自动持续学习模型,图6为本说明书实施例提供的一种自动持续学习模型的示意图。如图6所示,由已经训练完成的模型对待识别的原始数据进行识别后,可以将包含有数据识别结果的识别数据发送至前端显示给用户,用户可以对识别数据进行人工审核操作。在本说明书的实施例中,可以使用携带有用户标注结果的用户标注样本来作为训练样本,对当前模型进一步进行训练,从而对模型进行更新,以使得模型能够不断优化。
图7为本说明书实施例提供的又一种自动持续学习模型的示意图。如图7所示,
步骤S701:获取用户标注样本。
步骤S703:针对各数据区域,判断是否符合预设的局部模型重训条件。具体地,可以针对用户标注样本所落入的数据区域,判断该数据区域是否符合预设的局部模型重训条件;若存在符合预设的局部模型重训条件的数据区域,则执行步骤S705和步骤S707;否则,流程结束。
步骤S705:在存在符合预设的局部模型重训条件的数据区域的情况下,可以基于符合预设的局部模型重训条件的数据区域对应的用户标注样本来重训当前模型,得到更新的局部模型,该更新的局部模型能够用于对符合预设的局部模型重训条件的数据区域对应的原始数据进行识别。
步骤S707:在存在符合预设的局部模型重训条件的数据区域的情况下,可以进一步判断是否符合预设的全局模型重训条件。若符合,则执行步骤S709;否则,流程结束。
步骤S709:若符合全局模型重训条件,则基于用户标注样本来重训当前模型,得到更新的全局模型,该更新的全局模型能够用于对全部数据区域对应的原始数据进行识别。
因此,在步骤S705中,基于符合预设的局部模型重训条件的数据区域对应的用户标注样本来重训当前模型,具体指的是对当前局部模型进行重训。在步骤S709中,基于用户标注样本来重训当前模型,具体指的是对当前全局模型进行重训。
在可选的实施例中,得到重训练更新的模型之后,还可以对重训练更新的模型进行评估,并在评估通过后,再将相应的模型识别结果上线,由此,确保模型识别结果的稳定性。
具体地,如图7所示,在得到更新的局部模型之后,还可以包括:使用所述更新的局部模型,对所述数据区域集合中的可重训数据区域对应的原始数据进行重推理,得到第一识别结果。并且,在得到第一识别结果之后,还可以包括:在第一预设时间窗口内,获取用户对所述数据区域集合中的可重训数据区域对应的原始数据的新标记结果;将所述第一识别结果与用户对所述数据区域集合中的可重训数据区域对应的原始数据的新标记结果进行对比,判断所述更新的局部模型是否满足第一预设上线条件;若所述更新的局部模型满足第一预设上线条件,则将所述第一识别结果标记为可上线局部模型识别结果。
同理,在得到更新的全局模型之后,还可以包括:使用所述更新的全局模型,对所述原始数据进行重推理,得到第二识别结果。并且,在得到第二识别结果之后,还可以包括:在第一预设时间窗口内,获取用户对所述原始数据的新标记结果;将所述第二识别结果与用户对所述原始数据的新标记结果进行对比,判断所述更新的全局模型是否满足第二预设上线条件;若所述更新的全局模型满足第二预设上线条件,则将所述第二识别结果标记为可上线全局模型识别结果。
其中,所述第一预设时间窗口具体可以是在得到更新的局部模型之后的第一预设时长内;所述第二预设时间窗口具体可以是在得到更新的全局模型之后的第二预设时长内。所述第一预设时长和所述第二预设时长可以根据实际业务情况来分别确定。例如,可以设置为若干小时、若干天等。
判断所述更新的局部模型是否满足第一预设上线条件,具体可以是判断所述更新的局部模型的识别准确率是否满足预设的第一准确率阈值。判断所述更新的全局模型是否满足第二预设上线条件,具体可以是判断所述更新的全局模型的识别准确率是否满足预设的第二准确率阈值。
在本说明书的实施例中,全局模型和局部模型可以是共存的。对于任一原始数据,可以使用全局模型进行识别,得到全局模型识别结果。对于部分原始数据,既可以使用全局模型进行识别,得到全局模型识别结果,也可以使用局部模型进行识别,得到局部模型识别结果。
可选地,在模型更新过程中,对于任一原始数据,若生成了与其对应的可上线全局模型识别结果,则可以将此前生成的该原始数据的可上线局部模型识别结果设置为失效,例如,可以删除。具体地,对于目标数据,在将所述目标数据对应的所述第二识别结果标记为可上线全局模型识别结果后的预设时长内,可以将所述目标数据对应的可上线局部模型识别结果设置为失效。其中,所述预设时长可以根据试验或经验设置,例如,若干秒或若干毫秒等。
经上述分析可知,在实际应用时,对于任一原始数据,可以对应有由全局模型识别得到的可上线全局模型识别结果。对于部分原始数据,可以对应有由局部模型识别得到的可上线局部模型识别结果以及由此前得到的全局模型识别得到的可上线全局模型识别结果。
在本说明书的实施例中,可以根据所述可上线局部模型识别结果和所述可上线全局模型识别结果,对前端数据标记结果进行更新。
具体地,可以包括:对于目标前端数据,判断是否存在所述目标前端数据对应的用户标注结果,得到第一判断结果;若所述第一判断结果为是,则显示所述用户标注结果;若所述第一判断结果为否,则可以判断是否存在所述目标前端数据对应的可上线局部模型识别结果,得到第二判断结果;如所述第二判断结果为是,则显示所述可上线局部模型识别结果;若所述第二判断结果为否,则显示所述可上线全局模型识别结果。可见,将前端数据标记结果进行更新时,结果显示优先级为:用户标注结果>所在数据区域的局部模型推理结果>全局模型推理结果。
其中,所述目标前端数据,可以属于所述原始数据中的一部分。
图8为本说明书实施例提供的一种实际应用场景下的自动持续学习模型的示意图。如图8所示,由已经训练完成的当前模型对待识别的原始数据进行识别后,可以将包含有数据识别结果的识别数据发送至前端显示给用户,用户可以对识别数据进行人工审核。基于用户在审核过程中与识别数据之间的交互记录,可以得到用户标注样本。用户标注样本可以作为训练样本,用于对当前模型进一步进行训练,从而对模型进行更新,以使得模型能够不断优化。
具体地,在如图8所示的持续进化模块中,可以根据原始数据的属性值,预先构建数据区域矩阵,并根据用户标记样本在数据区域矩阵中的分布情况,来选择进行局部模型重新训练以及/或者全局模型重新训练。对重新训练后的模型进行评估后,若评估通过,可以将模型识别结果确定为可上线。
在如图8所示的在线识别模块中,对于原始数据,可以使用全局模型和/或局部模型来得到相应的识别结果。当需要在前端进行显示时,若目标数据存在用户标记结果,则显示用户标记结果;否则,若存在所在数据区域的可上线局部模型识别结果,则显示可上线局部模型识别结果;否则,显示可上线全局模型识别结果。
在实际应用时,可以持续汇聚原始数据和用户标记样本,由此,可以在满足模型重训条件的情况下,触发模型的重训练。例如,当新增一批用户标记数据时,可以执行本说明书实施例的方案,判断是否满足局部模型重训条件和/或全局模型重训条件,以推动模型的持续更新。
本说明书提供的自动持续学习模型,至少具备如下技术效果:
第一,能够自动适应样本持续变化:区别于传统的训练、推理式模型运行模式,能够对完成训练上线的模型进行持续进化改进,自动适应数据变化;
第二,支持不同粒度的模型进化模式:在支持全局数据范围内模型进化的基础上,通过对数据进行矩阵分割,对用户关注的区域进行独立模型训练进化,实现统一批次数据下不同粒度模型的同时作用生效,既能有效覆盖整批数据,又能重点优化区域数据的推理效果;
第三,支持模型能力深度进化:突破模型上线后能力“固化”模式,将注意力转移到上线后的能力优化甚至是能力颠覆(例如,当修正样本较多时能够实现对旧模型的否定),深度贴合最新的样本特点;
第四,广泛的领域适应性:支持丰富的目标模型,适用于所有“key-value”输出类型模型的学习进化,例如,数据分类、数据打标、图像识别、图像分类等业务模型。
本说明书前述实施例提供了一种数据识别方法,基于同样的思路,本说明书实施例还提供一种数据识别装置。图9为本说明书实施例提供的一种数据识别装置的示意图,如图9所示,该数据识别装置包括:
获取模块901,获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的。
数据区域集合确定模块903,确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域。
第一更新模块905,基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型。
识别模块907,基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
本说明书实施例提供的数据识别装置,进一步还包括:
全局数据区域确定模块909,判断所述全局数据区域是否符合第二预设条件;所述第二预设条件包括:所述用户标注样本的数量与所述全局数据区域中的原始数据的数量的第三比值不小于第三阈值,并且所述用户标注样本中的修正样本的数量与所述用户标注样本的数量的第四比值不小于第四阈值,并且所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值不小于第五阈值;
第二更新模911,若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型;
更新的识别模块913,所述更新的局部模型失效,基于所述更新的全局模型,对待识别数据进行识别,获得识别结果。
本说明书实施例还提供一种数据识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
上述对本说明书特定实施例进行了描述,在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。
本说明书实施例提供的装置、设备与方法是对应的,因此,装置、设备也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (13)
1.一种数据识别方法,其特征在于,所述方法包括:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
2.如权利要求1所述的数据识别方法,其特征在于,所述将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域,具体包括:
判断所述数据区域集合中的各数据区域是否符合第一预设条件;所述第一预设条件包括:划入目标数据区域中的用户标注样本的数量与划入所述目标数据区域的原始数据的数量的第一比值不小于第一阈值,并且划入所述目标数据区域中的用户标注样本中的修正样本的数量与划入所述目标数据区域中的用户标注样本的数量的第二比值不小于第二阈值;
将符合所述第一预设条件的数据区域确定为可重训数据区域。
3.如权利要求1所述的数据识别方法,其特征在于,所述基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,得到更新的局部模型,进一步包括:
使用所述更新的局部模型,对所述数据区域集合中的可重训数据区域对应的原始数据进行重推理,得到第一识别结果;
将所述第一识别结果与用户对所述数据区域集合中的可重训数据区域对应的原始数据的新标记结果进行对比,判断所述更新的局部模型是否满足第一预设上线条件;
若所述更新的局部模型满足第一预设上线条件,则将所述第一识别结果标记为可上线局部模型识别结果。
4.如权利要求1所述的数据识别方法,其特征在于,所述方法进一步包括:
判断所述全局数据区域是否符合第二预设条件;所述第二预设条件包括:所述用户标注样本的数量与所述全局数据区域中的原始数据的数量的第三比值不小于第三阈值,并且所述用户标注样本中的修正样本的数量与所述用户标注样本的数量的第四比值不小于第四阈值,并且所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值不小于第五阈值;
若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型;
所述更新的局部模型失效,基于所述更新的全局模型,对待识别数据进行识别,获得识别结果。
5.如权利要求4所述的数据识别方法,其特征在于,所述若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型,进一步
使用所述更新的全局模型,对所述原始数据进行重推理,得到第二识别结果;
将所述第二识别结果与用户对所述原始数据的新标记结果进行对比,判断所述更新的全局模型是否满足第二预设上线条件;
若所述更新的全局模型满足第二预设上线条件,则将所述第二识别结果标记为可上线全局模型识别结果。
6.如权利要求5所述的数据识别方法,其特征在于,所述若所述更新的全局模型满足第二预设上线条件,则将所述第二识别结果标记为可上线全局模型识别结果,具体包括:
对于目标数据,在将所述目标数据对应的所述第二识别结果标记为可上线全局模型识别结果后的预设时长内,将所述目标数据对应的可上线局部模型识别结果设置为失效。
7.如权利要求5所述的数据识别方法,其特征在于,根据所述可上线局部模型识别结果和所述可上线全局模型识别结果,对前端数据标记结果进行更新。
8.如权利要求7所述的数据识别方法,其特征在于,所述根据所述可上线局部模型识别结果和所述可上线全局模型识别结果,对前端数据标记结果进行更新,具体包括:
对于目标前端数据,判断是否存在所述目标前端数据对应的用户标注结果,得到第一判断结果;
若所述第一判断结果为是,则显示所述用户标注结果;
若所述第一判断结果为否,则判断是否存在所述目标前端数据对应的可上线局部模型识别结果,得到第二判断结果;
如所述第二判断结果为是,则显示所述可上线局部模型识别结果;
若所述第二判断结果为否,则显示所述可上线全局模型识别结果。
9.如权利要求1所述的数据识别方法,其特征在于,所述确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合之前,还包括:
根据所述原始数据的至少两个预设属性信息的属性值,将所述原始数据对应的全局数据区域划分为数据区域矩阵。
10.一种自动持续学习模型,其特征在于,所述模型包括:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型。
11.如权利要求10所述的学习模型,其特征在于,所述模型进一步包括:
判断所述全局数据区域是否符合第二预设条件;所述第二预设条件包括:所述用户标注样本的数量与所述全局数据区域中的原始数据的数量的第三比值不小于第三阈值,并且所述用户标注样本中的修正样本的数量与所述用户标注样本的数量的第四比值不小于第四阈值,并且所述数据区域集合中的所述可重训数据区域的数量与所述数据区域矩阵中包含的数据区域的数量的第五比值不小于第五阈值;
若所述全局数据区域符合所述第二预设条件,则基于所述全局数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的全局模型。
12.一种数据识别装置,其特征在于,所述装置包括:
获取模块,获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
数据区域集合确定模块,确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
第一更新模块,基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
识别模块,基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
13.一种数据识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取基于数据识别结果获得的用户标注样本,所述数据识别结果是由训练完成的当前模型对原始数据进行识别得到的;
确定所述用户标注样本在数据区域矩阵中所占据的数据区域集合,所述数据区域矩阵是对所述原始数据对应的全局数据区域进行划分得到的;将所述数据区域集合中的各数据区域符合第一预设条件的数据区域确定为可重训数据区域;
基于所述数据区域集合中的可重训数据区域对应的用户标注样本,对当前模型进行重训练,获得更新的局部模型;
基于所述更新的局部模型,对待识别数据进行识别,获得识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310051936.6A CN115859122B (zh) | 2023-02-02 | 2023-02-02 | 一种数据识别方法、自动持续学习模型、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310051936.6A CN115859122B (zh) | 2023-02-02 | 2023-02-02 | 一种数据识别方法、自动持续学习模型、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115859122A true CN115859122A (zh) | 2023-03-28 |
CN115859122B CN115859122B (zh) | 2023-06-02 |
Family
ID=85657464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310051936.6A Active CN115859122B (zh) | 2023-02-02 | 2023-02-02 | 一种数据识别方法、自动持续学习模型、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115859122B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662816A (zh) * | 2023-07-28 | 2023-08-29 | 中国电子科技集团公司第十五研究所 | 一种数据识别方法、模型适配新数据的方法、装置和设备 |
CN116662764A (zh) * | 2023-07-28 | 2023-08-29 | 中国电子科技集团公司第十五研究所 | 误识别纠正的数据识别方法、模型训练方法、装置和设备 |
CN116910501A (zh) * | 2023-07-28 | 2023-10-20 | 中国电子科技集团公司第十五研究所 | 错例驱动的数据识别方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210326749A1 (en) * | 2020-04-21 | 2021-10-21 | International Business Machines Corporation | Iterative training of a machine learning model |
CN114692706A (zh) * | 2020-12-25 | 2022-07-01 | 科沃斯商用机器人有限公司 | 模型训练方法、系统、装置、设备和存储介质 |
CN114708609A (zh) * | 2021-11-12 | 2022-07-05 | 中国矿业大学 | 一种基于持续学习的域适应骨架行为识别方法和系统 |
CN114860889A (zh) * | 2022-05-31 | 2022-08-05 | 北京科技大学 | 一种基于钢材知识图谱的钢材潜在知识推理方法及系统 |
-
2023
- 2023-02-02 CN CN202310051936.6A patent/CN115859122B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210326749A1 (en) * | 2020-04-21 | 2021-10-21 | International Business Machines Corporation | Iterative training of a machine learning model |
CN114692706A (zh) * | 2020-12-25 | 2022-07-01 | 科沃斯商用机器人有限公司 | 模型训练方法、系统、装置、设备和存储介质 |
CN114708609A (zh) * | 2021-11-12 | 2022-07-05 | 中国矿业大学 | 一种基于持续学习的域适应骨架行为识别方法和系统 |
CN114860889A (zh) * | 2022-05-31 | 2022-08-05 | 北京科技大学 | 一种基于钢材知识图谱的钢材潜在知识推理方法及系统 |
Non-Patent Citations (2)
Title |
---|
YUJIANG HE等: "CLeaR: An Adaptive Continual Learning Framework for Regression Tasks", 《HTTPS://ARXIV.ORG/PDF/2101.00926V1.PDF》, pages 1 - 13 * |
潘龙飞: "持续学习框架中主动学习算法研究", 《中国优秀硕士学位论文全文数据库 信息科技》, pages 1 - 54 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662816A (zh) * | 2023-07-28 | 2023-08-29 | 中国电子科技集团公司第十五研究所 | 一种数据识别方法、模型适配新数据的方法、装置和设备 |
CN116662764A (zh) * | 2023-07-28 | 2023-08-29 | 中国电子科技集团公司第十五研究所 | 误识别纠正的数据识别方法、模型训练方法、装置和设备 |
CN116662764B (zh) * | 2023-07-28 | 2023-09-29 | 中国电子科技集团公司第十五研究所 | 误识别纠正的数据识别方法、模型训练方法、装置和设备 |
CN116910501A (zh) * | 2023-07-28 | 2023-10-20 | 中国电子科技集团公司第十五研究所 | 错例驱动的数据识别方法、装置和设备 |
CN116910501B (zh) * | 2023-07-28 | 2024-04-12 | 中国电子科技集团公司第十五研究所 | 错例驱动的数据识别方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115859122B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115859122A (zh) | 一种数据识别方法、自动持续学习模型、装置和设备 | |
US9129228B1 (en) | Robust and fast model fitting by adaptive sampling | |
CN111177485B (zh) | 基于参数规则匹配设备故障的预测方法、设备及介质 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
CN112446441B (zh) | 模型训练数据筛选方法、装置、设备及存储介质 | |
CN112052818A (zh) | 无监督域适应的行人检测方法、系统及存储介质 | |
DE102020108281A1 (de) | Verfahren und einrichtungen zum empfehlen von anweisungsanpassungen zum verbessern der rechenleistung | |
CN109272165B (zh) | 注册概率预估方法、装置、存储介质及电子设备 | |
EP3798931A1 (en) | Machine learning training resource management | |
CN116127376A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN112514352A (zh) | 更新调度规则的方法、设备、系统、存储介质和终端 | |
CN114610590A (zh) | 作业运行时长确定方法、装置、设备及存储介质 | |
Chiu et al. | Subgoal identifications in reinforcement learning: A survey | |
CN115221307A (zh) | 一种文章识别方法、装置、计算机设备及存储介质 | |
CN116662764B (zh) | 误识别纠正的数据识别方法、模型训练方法、装置和设备 | |
CN109669996A (zh) | 信息动态更新方法及装置 | |
CN110991656B (zh) | 一种以场景变量作为构成元素与交互单元的机器学习方法 | |
CN116910501B (zh) | 错例驱动的数据识别方法、装置和设备 | |
CN114385892B (zh) | 一种文章等级识别方法、装置、服务器及存储介质 | |
CN112784033B (zh) | 一种时效等级识别模型训练及应用的方法、及电子设备 | |
KR102466482B1 (ko) | 적응적 배치 선택 전략을 이용한 딥 뉴럴 네트워크 학습 가속 시스템 및 방법 | |
US20220237045A1 (en) | Method, device, and program product for managing computing system | |
CN114925267A (zh) | 应用功能的识别方法、装置、电子设备及存储介质 | |
CN115510327A (zh) | 点击率预测模型的训练方法、资源推荐方法及装置 | |
CN117077929A (zh) | 柔性作业调度方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |