CN113741884A - 数据处理方法、装置及设备 - Google Patents

数据处理方法、装置及设备 Download PDF

Info

Publication number
CN113741884A
CN113741884A CN202010477775.3A CN202010477775A CN113741884A CN 113741884 A CN113741884 A CN 113741884A CN 202010477775 A CN202010477775 A CN 202010477775A CN 113741884 A CN113741884 A CN 113741884A
Authority
CN
China
Prior art keywords
training data
labeling result
algorithm model
training
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010477775.3A
Other languages
English (en)
Inventor
于士袁
龙旺钦
李明浩
骆卫华
赵宇
施杨斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010477775.3A priority Critical patent/CN113741884A/zh
Publication of CN113741884A publication Critical patent/CN113741884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven

Abstract

本申请实施例提供一种数据处理方法、装置及设备,该方法包括:获取算法模型针对待标注对象的预测标注结果,以及待标注对象的实际标注结果;判断预测标注结果与实际标注结果是否相同;若预测标注结果与实际标注结果不相同,则根据待标注对象以及实际标注结果,生成用于算法模型训练的训练数据。本申请实现了训练数据的自动收集。

Description

数据处理方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
算法模型通常需要基于训练数据不断被训练,使得算法模型不断的被迭代,以提高算法模型的准确率。
目前,在算法模型应用过程中,赋予了用户自主更新训练模型的能力,以不断提升模型在各个场景下的预测效果。具体的,在用户使用模型进行预测时,可以将模型对待标注对象进行预测处理所得到的模型标注结果显示给用户,由用户判断模型标注结果是否正确,如果模型标注结果错误则用户可以记录并上传相应的反馈信息给服务端。进一步的,服务端的算法开发人员可以根据用户的反馈信息,整理得到用于模型训练的训练数据,以基于训练数据进行模型训练。
然而,上述获得训练数据的方式,存在人工操作复杂的问题。
发明内容
本申请实施例提供一种数据处理方法、装置及设备,用以解决现有技术中获得训练数据的方式,存在人工操作复杂的问题。
第一方面,本申请实施例提供一种数据处理方法,应用于终端,包括:
获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
判断所述预测标注结果与所述实际标注结果是否相同;
若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
第二方面,本申请实施例提供一种数据处理方法,应用于服务器,包括:
获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
第三方面,本申请实施例提供一种数据处理装置,包括:
获取模块,用于获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
判断模块,用于判断所述预测标注结果与所述实际标注结果是否相同;
生成模块,用于若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
第四方面,本申请实施例提供一种数据处理装置,包括:
获取模块,用于获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
训练模块,用于使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
第五方面,本申请实施例提供一种终端,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第一方面任一项所述的方法。
第六方面,本申请实施例提供一种服务器,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第二方面任一项所述的方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由计算机执行,以控制所述计算机执行如第一方面任一项所述的决策方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由计算机执行,以控制所述计算机执行如第二方面任一项所述的决策方法。
本申请实施例还提供一种计算机程序,当所述计算机程序被计算机执行时,用于实现如第一方面任一项所述的方法。
本申请实施例还提供一种计算机程序,当所述计算机程序被计算机执行时,用于实现如第二方面任一项所述的方法。
本申请实施例提供的数据处理方法、装置及设备,通过获取算法模型针对待标注对象的预测标注结果以及待标注对象的实际标注结果,判断预测标注结果与实际标注结果是否相同,若不相同则根据待标注对象以及实际标注结果,生成用于算法模型训练的训练数据,实现了在确定算法模型预测得到的预测标注结果与实际标注结果不同时,根据待标注对象以及实际标注结果自动生成训练数据,从而实现了训练数据的自动收集,解决了需要用户以及服务端的算法开发人员人工操作来获得训练数据所存在的人工操作复杂的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的应用场景示意图;
图2为本申请一实施例提供的数据处理方法的流程示意图;
图3A-图3C为本申请实施例提供的用户界面的示意图;
图4为本申请另一实施例提供的数据处理方法的流程示意图;
图5为本申请又一实施例提供的数据处理方法的流程示意图;
图6和图7为相关技术中训练数据的获取及模型训练的流程示意图;
图8为本申请一实施例提供的数据处理装置的结构示意图;
图9为本申请一实施例提供的终端的结构示意图;
图10为本申请另一实施例提供的数据处理装置的结构示意图;
图11为本申请一实施例提供的服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了方便本领域技术人员理解本申请实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。
相关技术中比较常用的获得训练数据的方法,主要包括由用户判断模型标注结果是否正确,如果模型标注结果错误则用户可以记录并上传相应的反馈信息给服务端,由服务端的算法开发人员根据反馈信息,整理得到训练数据,人工操作复杂。
基于类似于上文所述的实际技术需求,本申请提供的数据处理方法可以利用技术化的手段实现训练数据的自动收集,解决了需要用户以及服务端的算法开发人员人工操作来获得训练数据所存在的人工操作复杂的问题。
下面通过一个示例性的应用场景具体说明本申请各个实施例提供的数据处理方法。
如图1所示,一方面,终端11可以根据使用者输入请求服务器12对所述使用者需要进行标注的对象(以下记为待标注对象)进行预测处理,以获得服务器12针对待标注对象的标注结果(以下记为预测标注结果)。例如,终端11可以通过将待标注对象发送至服务器12的方式请求服务器12对待标注对象进行预测处理,当然,在其他实施例中,终端11也可以通过其他方式请求服务器12对待标注对象进行预测处理,本申请对此不做限定。终端11例如可以为手机、平板电脑、个人计算机(Personal Computer,PC)等,当然,在其他实施例中,终端11也可以为其他形式,本申请对此不做限定。
其中,使用者例如可以是所述算法模型的用户,或者是用于对所述算法模型的准确性进行测试的测试人员。待标注对象的类型例如可以为语音、文本、图片等,当然,在其他实施例中,待标注对象还可以为其他类型,本申请对此不做限定。待标注对象的标注结果例如可以为分类结果、翻译结果、分词结果等,当然,在其他实施例中,标注结果还可以为其他类型,本申请对此不做限定。
服务器12中可以部署有针对所述待标注对象的算法模型,如图1所示,服务器12可以根据终端11的请求,将所述待标注对象输入所述算法模型,经所述算法模型进行处理之后可以得到所述待标注对象的预测标注结果。服务器12在得到预测标注结果之后,可以将预测标注结果返回给终端11。
其中,服务器12可以包括云服务器、分布式服务器等任何形式的数据处理服务器。算法模型例如可以为基于决策树算法实现的模型、基于随机森林算法实现的模型、基于神经网络算法实现的模型等,当然,在其他实施例中,算法模型还可以为基于其他算法实现的模型,本申请对此不做限定。
可选的,终端11可以显示预测标注结果,以便使用者可以获知算法模型针对待标注对象的预测标注结果,实现向使用者提供预标注的功能。
另一方面,终端11可以根据使用者输入获得所述待标注对象的标注结果(以下记为实际标注结果)。需要说明的是,本申请实施例中,待标注对象的实际标注结果是正确的标注结果。
如图1所示,在终端11获得针对所述待标注对象的预测标注结果和实际标注结果之后,可以判断两者是否相同,如果不相同,则可以根据实际标注结果和待标注对象生成用于对所述算法模型进行训练的训练数据。由此,实现训练数据的自动收集。
由于实际标注结果是正确的标注结果,如果预测标注结果与实际标注结果不同,则可以表示预测标注结果错误,即算法模型未实现对待标注对象的正确预测,由此算法模型针对待标注对象的预测可以认为是坏例(BadCase),可以基于BadCase对算法模型进行训练,以提高算法模型的准确性。具体的,可以基于训练数据对算法模型的参数进行调整,直至算法模型针对待标注结果的输出结果与使用者预测结果之间的差异满足一定要求。训练数据例如可以包括用于获取待标注对象的地址信息以及实际标注结果,当然,在其他实施例中,训练数据还可以为其他形式,本申请对此不做限定。
需要说明的是,图1中是以算法模型部署在服务器为例,可以理解的是,算法模型也可以部署在终端11本地,终端11可以直接通过将待标注对象输入本地算法模型的方式得到预测标注结果。
需要说明的是,对待标注对象进行标注的功能,可以实现为应用程序(Application,App)或者也可以实现为网页等,本申请对此不做限定。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图2为本申请一实施例提供的数据处理方法的流程示意图,本实施例的执行主体可以为图1中的终端11。如图2所示,本实施例的方法可以包括:
步骤201,获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
步骤202,判断所述预测标注结果与所述实际标注结果是否相同;
步骤203,若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
其中,待标注对象可以由使用者选择确定,例如终端可以向使用者提供上传接口,使用者通过上传接口上传的对象可以被认为是待标注对象,当然,在其他实施例中,使用者也可以通过其他方式选择待标注对象,本申请对此不做限定。
在确定待标注对象之后,可选的,终端可以从服务器获取待标注对象的预测标注结果,具体的,终端可以请求服务器对待标注对象进行预测处理,服务器可以根据终端的请求采用算法模型对待标注对象进行处理以得到预测标注结果,并将预测标注结果返回给终端。或者,终端可以采用本地部署的算法模型对待标注对象进行处理以得到预测标注结果。需要说明的是,对于终端获取待标注对象的预测标注结果的具体方式,本申请不做限定。
在确定待标注对象之后,终端还可以获取待标注对象的实际标注结果。可选的,终端可以将待标注对象显示给使用者,由使用者直接对待标注对象进行标注,以得到实际标注结果。以待标注对象为文件,标注结果为文件的分类结果为例,如图3A所示,终端可以通过屏幕将文件的内容显示给使用者,使用者可以通过观察文件的内容确定文件的分类,终端还可以在屏幕上向使用者提供按钮1、按钮2和按钮3,3个按钮与3个分类一一对应,使用者通过点击所确定分类对应的按钮,以便终端获得实际标注结果,例如,假设使用者点击按钮1,按钮1对应法律分类,则实际标注结果即为法律分类。当然,在其他实施例中,终端还可以向使用者提供用于直接对待标注对象进行标注的其他方式,本申请对此不做限定。
或者,在获得预测标注结果之后,终端可以显示所述预测标注结果,以便所述使用者判断所述预测标注结果是否正确;进一步的,可以获得所述预测标注结果正确与否的信息。
如果所述信息为所述预测标注结果不正确,可以获取修改信息并根据所述修改信息对所述预测标注结果进行修改,以得到所述实际标注结果。其中,所述修改信息例如可以为所述使用者通过按钮点击、文本输入、窗口拖动等方式输入的信息,当然,在其他实施例中,修改信息还可以为使用者通过其他方式输入的信息,本申请对此不做限定。
以待标注对象为文件,标注结果为文件的分类结果为例,如图3B所示,终端可以通过屏幕显示文件的内容以及算法模型针对该文件预测得到的分类结果(例如,人文分类),使用者可以观察文件的内容确定文件的分类并判断预测得到的分类结果是否正确,假设使用者观察文件内容后确定文件为法律分类,且按钮1对应法律分类,则使用者可以点击按钮1,由此可以获得预测标注结果不正确的信息,并获取到实际标注结果为法律分类。当然,在其他实施例中,终端还可以向使用者提供修改预测标注结果的其他方式,本申请对此不做限定。
如果所述信息为所述预测标注结果正确,可以将所述预测标注结果作为所述实际标注结果。
示例性的,在显示预测标注结果之后,可以在屏幕中显示针对预测标注结果的倒计时,在倒计时的时间到达之前使用者可以对预测标注结果进行修改。在倒计时的时间到达之前使用者未对预测标记结果进行修改可以表示获得预测标注结果正确的信息,进而可以将预测标注结果作为实际标注结果。
或者,在显示预测标注结果之后,可以获取所述使用者输入的提交操作,根据所述提交操作将所述预测标注结果作为所述实际标注结果。相比于倒计时方式,有利于提高实际标注结果的准确性。以待标注对象为文件,标注结果为文件的分类结果为例,如图3C所示,终端可以通过屏幕将文件的内容以及算法模型针对该文件预测得到的分类结果(例如,法律分类)显示给使用者,使用者可以观察文件的内容确定文件的分类并判断预测得到的分类结果是否正确,假设使用者观察文件内容后确定文件为法律分类,则使用者可以点击提交按钮,由此可以获得预测标注结果正确的信息,并将法律分类作为实际标注结果。当然,在其他实施例中,终端还可以向使用者提供确认预测标注结果的其他方式,本申请对此不做限定。
为了提高向使用者提示预测标注数据的灵活性,终端可以向使用者提供用于开启预标注功能的入口,在使用者通过入口开启预标注功能之后,可以表示使用者需要由算法模型针对待标注对象进行预测,并由此向使用者提示预测标注数据。
对于算法模型部署在终端本地的情况,在生成所述训练数据之后,进一步终端可以基于训练数据对算法模型进行训练,以对算法模型进行迭代,提高终端本地算法模型的准确性。基于此,本申请实施例还可以包括:使用所述训练数据对所述算法模型进行训练,以更新所述算法模型。
可选的,可以由生成的训练数据触发模型的更新。示例性的,所述使用所述训练数据对所述算法模型进行训练,具体可以包括:如果满足与训练数据相关的触发条件,使用所述训练数据对所述算法模型进行训练。其中,所述触发条件可以根据需求灵活实现。
可选的,所述触发条件可以包括下述中的一种或多种:到达定时器的定时时间且存在未使用过的训练数据,未使用过的训练数据的条数大于条数阈值或者获取到新的训练数据。其中,未使用过的训练数据和新的训练数据可以是指所获取到的未被用于对本地模型进行训练的训练数据。需要说明的是,终端获取的训练数据可以包括由该终端自身生成的训练数据,或者,还可以包括由其他终端生成的训练数据。通过如果满足与训练数据相关的触发条件,使用所述训练数据对所述算法模型进行训练,使得终端可以基于训练数据的触发自动启动针对算法模型的训练流程,以使用所述训练数据对算法模型进行训练,能够实现终端本地模型的自动更新,有利于简化使用者的操作。
对于算法模型部署在服务器12的情况,生成所述训练数据之后,终端可以将所述训练数据发送至服务器,以由服务器使用所述训练数据对所述算法模型进行训练。需要说明的是,接收训练数据的服务器可以为服务器12,也可以为服务器12之外的其他服务器。
在将训练数据发送至服务器之后,可选的,可以由所述使用者触发服务器针对算法模型的训练。基于此,本申请实施例提供的方法还可以包括:终端获取预设操作,并根据所述预测操作向服务器发送针对所述算法模型的训练命令,以触发服务器针对所述算法模型的训练。其中,预设操作例如可以是对于预设按钮的触发,对于预设语音的输入等,当然,在其他实施例中,预设操作还可以为其他形式,本申请对此不做限定。在训练命令的触发下,服务器可以基于所述训练数据启动针对算法模型的训练流程,以使用所述训练数据对算法模型进行训练。
本申请实施例提供的数据处理方法,通过获取算法模型针对待标注对象的预测标注结果以及待标注对象的实际标注结果,判断预测标注结果与实际标注结果是否相同,若不相同则根据待标注对象以及实际标注结果,生成用于算法模型训练的训练数据,实现了在确定算法模型预测得到的预测标注结果与实际标注结果不同时,根据待标注对象以及实际标注结果自动生成训练数据,从而实现了训练数据的自动收集,解决了需要使用者以及服务端的算法开发人员人工操作来获得训练数据所存在的人工操作复杂的问题。
图4为本申请另一实施例提供的数据处理方法的流程示意图,本实施例的执行主体可以为服务器,该服务器与图1中的服务器12可以为同一服务器也可以为不同服务器。如图4所示,本实施例的方法可以包括:
步骤401,获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
步骤402,使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
本申请实施例中,所述获取算法模型的训练数据,可以是接收终端发送的训练数据;或者,可以是从数据库中读取训练数据,训练数据可以由终端发送至其他服务器,并由其他服务器存储在数据库中。当然,在其他实施例中,也可以通过其他方式获取训练数据,本申请对此不做限定。需要说明的是,关于终端生成训练数据的具体处理可以参见图2所示实施例的相关内容,在此不再赘述。
在服务器获取到训练数据之后,可以根据训练数据对算法模型进行训练。在一个实施例中,可以由服务端的算法开发人员触发算法模型的训练,在算法开发人员的触发下,服务器可以基于所述训练数据启动针对算法模型的训练流程,以使用所述训练数据对算法模型进行训练。
或者,所述使用所述训练数据,对所述算法模型进行训练,具体可以包括:如果满足与训练数据相关的触发条件,使用所述训练数据,对所述算法模型进行训练。与终端进行模型训练类似,所述触发条件可以包括下述中的一种或多种:到达定时器的定时时间且存在未使用过的训练数据,未使用过的训练数据的条数大于条数阈值或者获取到新的训练数据。通过如果满足与训练数据相关的触发条件,使用所述训练数据对所述算法模型进行训练,使得服务器可以基于训练数据的触发自动启动针对算法模型的训练流程,以使用所述训练数据对算法模型进行训练,能够实现服务器模型的自动更新,有利于简化算法开发人员的操作。
需要说明的是,关于训练命令的具体内容可以参见图2所示实施例的相关描述,在此不再赘述。
针对训练算法模型和部署算法模型的服务器是不同服务器的场景,在根据训练数据对算法模型进行训练之后,还可以包括:如果所述算法模型训练完成,对训练后的所述算法模型进行部署。在模型训练完成的触发下,服务器可以基于训练后的所述算法模型自动启动针对算法模型的部署流程,以将训练后的所述算法模型部署在服务器12,能够实现服务器模型的自动部署,有利于进一步简化服务端算法开发人员的操作。
本申请实施例提供的数据处理方法,通过获取算法模型的训练数据,根据训练数据对算法模型进行训练,由于训练数据是由终端在确定算法模型针对待标注对象的预测标注结果与待标注对象的实际标注结果不相同的情况下,根据待标注对象和实际标注结果生成,因此服务器对算法模型进行训练所基于的训练数据是通过自动收集的方式获得,使得训练数据的收集更加高效,有利于提高模型迭代的效率。
在上述方法实施例的基础上,本申请实施例针对训练数据的获得以及模型训练可以给出如图5所示的一种可选实现方式。
参考图5,在训练数据获取阶段,首先,在步骤51中,终端可以根据使用者输入确定待标注对象。然后,在步骤52中,可以进一步判断预标注的功能是否被开启,如果预标注的功能未被开启,则可以结束,如果预标注的功能被开启,则可以执行步骤53。在步骤53中,终端可以请求算法模型针对待标注对象进行预测并将预测标注结果提示给使用者。
在将预测标注结果提示给使用者之后,使用者可以判断预测标注结果是否正确,如果预测标注结果错误,则在步骤54中终端可以获取使用者针对预测标注结果的修改操作,以对预测标注结果进行修改,并在修改之后进一步可以执行步骤55;如果预测标注结果正确则可以进一步执行步骤55。在步骤55中,终端可以获取使用者输入的提交操作,提交操作可以用于表示使用者已确认当前的标注结果是正确的标注结果并进行提交,当前的标注结果即为实际标注结果,至此终端已获取到了预测标注结果和实际标注结果。
之后,在步骤56中,终端可以判断预测标注结果和实际标注结果是否相同,若相同则可以结束,若不相同,则在步骤57中终端(或者服务器)可以将用于获取待标注对象的地址信息以及实际标注结果作为一条训练数据加入预设集合中。
在训练阶段,如图5所示,终端(或者服务器)中可以由定时任务在定时器到达定时时间时触发执行步骤58,在步骤58中可以判断预设集合中是否存在未使用过的训练输入,如果是则从预设集合中取出未使用过的训练数据对模型进行训练,否则结束。
图6给出了相关技术中训练数据的获得以及模型训练的一种实现方式。参考图6,在训练数据获取阶段,首先,在步骤61中,终端可以根据使用者输入确定待标注对象。然后,在步骤62中,终端可以请求算法模型针对待标注对象进行预测并将预测标注结果提示给使用者。在将预测标注结果提示给使用者之后,使用者可以判断预测标注结果是否正确,如果预测标注结果错误,则在步骤63中终端可以获取并上传使用者的反馈信息,该反馈信息包括使用者的标识、待标注对象的标识等信息。在接收到反馈信息之后,在步骤64中,服务器可以将反馈信息提示给算法开发人员,并获取算法开发人员根据反馈信息整理的训练数据。
在训练阶段,如图6所示,在步骤65中,服务器在检测到算法开发人员输入一定的操作时,根据整理出的训练数据对算法模型进行训练。
对比图6和图5可以看出,图6所示的方式使用者在使用算法模型进行预测时,如果发现了模型预测不正确,需要使用者手动输入反馈信息,并且在服务端需要算法开发人员根据使用者的反馈信息整理出能够用于模型训练的训练数据,人工操作复杂。另外,图6所示的方式还需要算法开发人员手动触发基于获取到的训练数据对算法模型的训练,人力成本高。然而,本申请实施例提供的方式,不需要使用者和算法开发人员手动操作即可得到训练数据,提高了训练数据的收集效率,并且通过训练数据自动触发模型训练的方式,有利于减少人工操作。
图7给出了相关技术中训练数据的获得以及模型训练的另一种实现方式。参考图7,在训练数据获取阶段,首先,在步骤71中,终端可以根据使用者输入确定待标注对象。然后,在步骤72中,终端可以获取用户针对待标注对象的实际标注结果,并将实际标注结果发送至服务器。之后,在步骤73中,服务器可以将实际标注结果存储至数据库中。
在训练阶段,如图7所示,在步骤74中服务器可以根据算法开发人员输入的操作,从数据库中读出用于对算法模型进行训练的实际标注数据,并基于实际标注数据得到训练数据。在选择出实际标注数据之后,由算法开发人员触发针对算法模型的训练,具体的,在步骤75中服务器可以在检测到算法开发人员输入一定的操作时,根据训练数据对算法模型进行训练。
对比图7和图5可以看出,图7所示的方式中用于算法模型训练的实际标注数据无法区分坏例,会使用非坏例进行训练,训练效率低,也会占用不必要的资源。然而,本申请实施例提供的图5的方式,可以有针对性的只选取坏例对模型训练,节省了资源也更加高效。另外,图7所示的方式中需要算法开发人员人为介入来完成模型的迭代优化,效率较低。然而,本申请实施例提供的图5的方式,能够实现通过训练数据自动触发模型训练的提升了效率,且减少了人工操作。
图8为本申请一实施例提供的数据处理装置的结构示意图;参考附图8所示,本实施例提供了一种数据处理,该装置可以执行图2所示的数据处理方法,具体的,该数据处理装置可以包括:
获取模块81,用于获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
判断模块82,用于判断所述预测标注结果与所述实际标注结果是否相同;
生成模块83,用于若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
可选的,所述获取模块81用于获取使用者针对所述待标注对象的实际标注结果,具体包括:显示所述预测标注结果;获得所述预测标注结果正确与否的信息;以及,如果所述信息为所述预测标注结果不正确,获取修改信息并根据所述修改信息对所述预测标注结果进行修改,以得到所述实际标注结果。
可选的,所述获取模块81,还用于如果所述信息为所述预测标注结果正确,将所述预测标注结果作为所述实际标注结果。
可选的,所述装置还可以包括:训练模块,用于使用所述训练数据对所述算法模型进行训练,以更新所述算法模型。
可选的,所述训练模块,具体用于如果满足与训练数据相关的触发条件,使用所述训练数据对所述算法模型进行训练。
可选的,所述触发条件包括下述中的一种或多种:到达定时器的定时时间且存在未使用过的训练数据,未使用过的训练数据的条数大于条数阈值或者获取到新的训练数据。
可选的,所述装置还可以包括:发送模块,用于将所述训练数据发送至服务器,以由服务器使用所述训练数据对所述算法模型进行训练。
可选的,所述获取模块81,还用于获取所述使用者输入的预设操作,并根据所述预测操作向服务器发送针对所述算法模型的训练命令,以触发服务器针对所述算法模型的训练。
图8所示装置可以执行图2所示实施例的方法,本实施例未详细描述的部分,可参考对图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2所示实施例中的描述,在此不再赘述。
在一个可能的实现中,图8所示数据处理装置的结构可实现为一终端。如图9所示,该终端可以包括:处理器91和存储器92。其中,存储器92用于存储支持终端执行上述图2所示实施例中提供的数据处理方法的程序,处理器91被配置为用于执行存储器92中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器91执行时能够实现如下步骤:
获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
判断所述预测标注结果与所述实际标注结果是否相同;
若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
可选的,处理器91还用于执行前述图2所示实施例中的全部或部分步骤。
其中,终端的结构中还可以包括通信接口93,用于终端与其他设备或通信网络通信。
图10为本申请另一实施例提供的数据处理装置的结构示意图;参考附图10所示,本实施例提供了一种数据处理,该装置可以执行图4所示的数据处理方法,具体的,该数据处理装置可以包括:
获取模块101,用于获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
训练模块102,用于使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
可选的,训练模块102,具体用于如果与训练数据相关的满足触发条件,使用所述训练数据,对所述算法模型进行训练。
可选的,所述触发条件包括下述中的一个或多个:到达定时器的定时时间且存在未使用过的训练数据,未使用过的训练数据的条数大于条数阈值或者获取到新的训练数据。
可选的,所述装置还可以包括:部署模块,用于如果所述算法模型训练完成,对训练后的所述算法模型进行部署。
图10所示装置可以执行图4所示实施例的方法,本实施例未详细描述的部分,可参考对图4所示实施例的相关说明。该技术方案的执行过程和技术效果参见图4所示实施例中的描述,在此不再赘述。
在一个可能的实现中,图10所示数据处理装置的结构可实现为一服务器。如图11所示,该服务器可以包括:处理器111和存储器112。其中,存储器112用于存储支持服务器执行上述图4所示实施例中提供的数据处理方法的程序,处理器111被配置为用于执行存储器112中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器111执行时能够实现如下步骤:
获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
可选的,处理器111还用于执行前述图4所示实施例中的全部或部分步骤。
其中,服务器的结构中还可以包括通信接口113,用于服务器与其他设备或通信网络通信。
另外,本申请实施例提供了一种计算机存储介质,用于储存终端所用的计算机软件指令,其包含用于执行上述图2方法实施例所涉及的程序。
本申请实施例提供了一种计算机存储介质,用于储存服务器所用的计算机软件指令,其包含用于执行上述图4方法实施例所涉及的程序。
本申请实施例提供了一种计算机存储介质,用于储存终端所用的计算机软件指令,其包含用于执行上述图2方法实施例所涉及的程序。
本申请实施例提供了一种计算机存储介质,用于储存服务器所用的计算机软件指令,其包含用于执行上述图4方法实施例所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (15)

1.一种数据处理方法,应用于终端,其特征在于,包括:
获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
判断所述预测标注结果与所述实际标注结果是否相同;
若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待标注对象的实际标注结果,包括:
显示所述预测标注结果;
获得所述预测标注结果正确与否的信息;
如果所述信息为所述预测标注结果不正确,获取修改信息并根据所述修改信息对所述预测标注结果进行修改,以得到所述实际标注结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
如果所述信息为所述预测标注结果正确,将所述预测标注结果作为所述实际标注结果。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据之后,还包括:
使用所述训练数据对所述算法模型进行训练,以更新所述算法模型。
5.根据权利要求4所述的方法,其特征在于,所述使用所述训练数据对所述算法模型进行训练,包括:
如果满足与训练数据相关的触发条件,使用所述训练数据对所述算法模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述触发条件包括下述中的一种或多种;
到达定时器的定时时间且存在未使用过的训练数据,未使用过的训练数据的条数大于条数阈值或者获取到新的训练数据。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据之后,还包括:
将所述训练数据发送至服务器,以由服务器使用所述训练数据对所述算法模型进行训练。
8.一种数据处理方法,应用于服务器,其特征在于,包括:
获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
9.根据权利要求8所述的方法,其特征在于,所述使用所述训练数据,对所述算法模型进行训练,包括:
如果满足与训练数据相关的触发条件,使用所述训练数据对所述算法模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述触发条件包括下述中的一种或多种;
到达定时器的定时时间且存在未使用过的训练数据,未使用过的训练数据的条数大于条数阈值或者获取到新的训练数据。
11.根据权利要求8-10任一项所述的方法,其特征在于,所述方法还包括:
如果所述算法模型训练完成,对训练后的所述算法模型进行部署。
12.一种数据处理装置,其特征在于,包括:
获取模块,用于获取算法模型针对待标注对象的预测标注结果,以及所述待标注对象的实际标注结果;
判断模块,用于判断所述预测标注结果与所述实际标注结果是否相同;
生成模块,用于若所述预测标注结果与所述实际标注结果不相同,则根据所述待标注对象以及所述实际标注结果,生成用于所述算法模型训练的训练数据。
13.一种数据处理装置,其特征在于,包括:
获取模块,用于获取算法模型的训练数据,所述训练数据是由终端在确定所述算法模型针对待标注对象的预测标注结果与所述待标注对象的实际标注结果不相同的情况下,根据所述待标注对象和所述实际标注结果生成;
训练模块,用于使用所述训练数据,对所述算法模型进行训练,以更新所述算法模型。
14.一种终端,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至7中任一项所述的方法。
15.一种服务器,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求8至11中任一项所述的方法。
CN202010477775.3A 2020-05-29 2020-05-29 数据处理方法、装置及设备 Pending CN113741884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477775.3A CN113741884A (zh) 2020-05-29 2020-05-29 数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477775.3A CN113741884A (zh) 2020-05-29 2020-05-29 数据处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113741884A true CN113741884A (zh) 2021-12-03

Family

ID=78724832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477775.3A Pending CN113741884A (zh) 2020-05-29 2020-05-29 数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113741884A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358829A1 (en) * 2013-06-01 2014-12-04 Adam M. Hurwitz System and method for sharing record linkage information
CN108960046A (zh) * 2018-05-23 2018-12-07 北京图森未来科技有限公司 一种训练数据采样方法及其装置、计算机服务器
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN110110811A (zh) * 2019-05-17 2019-08-09 北京字节跳动网络技术有限公司 用于训练模型的方法和装置、用于预测信息的方法和装置
CN110414582A (zh) * 2019-07-21 2019-11-05 珠海格力电器股份有限公司 一种模型训练方法、装置、计算设备及存储介质
CN111198935A (zh) * 2018-11-16 2020-05-26 北京京东尚科信息技术有限公司 模型处理方法、装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358829A1 (en) * 2013-06-01 2014-12-04 Adam M. Hurwitz System and method for sharing record linkage information
CN108960046A (zh) * 2018-05-23 2018-12-07 北京图森未来科技有限公司 一种训练数据采样方法及其装置、计算机服务器
CN111198935A (zh) * 2018-11-16 2020-05-26 北京京东尚科信息技术有限公司 模型处理方法、装置、存储介质及电子设备
CN109582793A (zh) * 2018-11-23 2019-04-05 深圳前海微众银行股份有限公司 模型训练方法、客服系统及数据标注系统、可读存储介质
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN110110811A (zh) * 2019-05-17 2019-08-09 北京字节跳动网络技术有限公司 用于训练模型的方法和装置、用于预测信息的方法和装置
CN110414582A (zh) * 2019-07-21 2019-11-05 珠海格力电器股份有限公司 一种模型训练方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN107622008B (zh) 一种应用页面的遍历方法和装置
CN110674408B (zh) 业务平台、训练样本的实时生成方法及装置
CN111563220A (zh) 业务网站项目构建方法、装置、计算机设备和存储介质
CN111681051A (zh) 购买意向度预测方法、装置、存储介质及终端
CN109783365A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN113448862B (zh) 软件版本测试方法、装置及计算机设备
CN111158730A (zh) 系统更新方法、装置、电子设备和可读存储介质
CN113377667A (zh) 一种基于场景的测试方法、装置、计算机设备及存储介质
CN109711656B (zh) 多系统关联预警方法、装置、设备及计算机可读存储介质
CN112860416A (zh) 标注任务分派策略方法、装置
CN117130983A (zh) 文件存储方法、装置、电子设备及存储介质
CN113741884A (zh) 数据处理方法、装置及设备
CN111353626B (zh) 数据的审核方法、装置及设备
CN113837210A (zh) 小程序分类方法、装置、设备及计算机可读存储介质
CN113886906A (zh) Cad图纸的加载方法、字体文件替换方法、装置和存储介质
US11249749B2 (en) Automatic generation of configuration files
CN113742559A (zh) 关键词检测方法和装置、电子设备、存储介质
CN110221952B (zh) 业务数据的处理方法及装置、业务数据处理系统
CN112346761A (zh) 前端资源上线方法、设备、系统及存储介质
CN112486801A (zh) App Scheme可用性验证方法及系统
CN114721930A (zh) 一种数据处理方法、装置、设备及介质
CN113126779A (zh) 人机交互方法、装置、设备及系统
CN111427645A (zh) 一种基于h5的跨终端自适应显示的方法及装置
CN117194792B (zh) 基于角色预测的儿童绘本推荐方法及系统
CN112817839B (zh) 人工智能引擎测试方法、平台及终端、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination