CN110647386B - 数据处理方法、装置及计算机设备、存储介质 - Google Patents

数据处理方法、装置及计算机设备、存储介质 Download PDF

Info

Publication number
CN110647386B
CN110647386B CN201910704304.9A CN201910704304A CN110647386B CN 110647386 B CN110647386 B CN 110647386B CN 201910704304 A CN201910704304 A CN 201910704304A CN 110647386 B CN110647386 B CN 110647386B
Authority
CN
China
Prior art keywords
data processing
task
tasks
dispatched
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910704304.9A
Other languages
English (en)
Other versions
CN110647386A (zh
Inventor
郭俊雄
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910704304.9A priority Critical patent/CN110647386B/zh
Publication of CN110647386A publication Critical patent/CN110647386A/zh
Application granted granted Critical
Publication of CN110647386B publication Critical patent/CN110647386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4887Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues involving deadlines, e.g. rate based, periodic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities

Abstract

本发明属于数据处理领域,涉及一种数据处理方法、装置及计算机设备、存储介质,所述方法包括:读取数据处理任务合集;获取每个数据处理任务的难度参数值和预设的准确率阈值,以确定每个数据处理任务的时间参数值;从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;选定预设数量的数据处理模型形成处理组;基于所述处理组获取处理所述准派发数据处理任务的预期准确率;若所述预期准确率不小于与所述准派发数据处理任务的准确率阈值,将所述准派发数据处理任务派发给所述处理组中的数据处理模型,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。本发明提供的方案可降低数据处理任务的整体处理时长,兼顾处理数据处理任务的准确性和时效性。

Description

数据处理方法、装置及计算机设备、存储介质
技术领域
本发明实施例属于数据处理技术领域,尤其涉及一种数据处理方法、装置及计算机设备、存储介质。
背景技术
随着大数据时代的到来,数据处理的速度和准确率要求越来越高,现有数据处理任务一般由单一数据处理模型进行处理,比如图片识别处理、语音数据处理等,数据处理模型处理完成后反馈处理结果。然而这种处理方式存在一个问题是,处理结果的准确度完全取决于数据处理模型的训练效果,如果数据处理模型训练效果差,则难以保证准确率。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置及计算机设备、存储介质,以解决现有技术中单一数据处理模型处理数据存在的难以保证准确率的问题。
第一方面,本发明实施例提供一种数据处理方法,用于数据处理任务的分配,包括:
读取待处理的数据处理任务合集;
获取所述数据处理任务集合中每个数据处理任务的难度参数值和预设的准确率阈值,根据所述难度参数值和所述准确率阈值确定所述数据处理任务集合中每个数据处理任务的时间参数值,其中,所述难度参数值和所述准确率阈值的乘积与所述时间参数值成正比关系;
从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;
读取设定的数据处理模型集合,从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组;
基于所述处理组获取处理所述准派发数据处理任务的预期准确率;
对所述预期准确率进行阈值判断,若所述预期准确率不小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给所述处理组中的数据处理模型进行处理,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。
作为本发明可实施的方式,所述基于所述处理组获取所述准派发数据处理任务的预期准确率包括:
确定所述准派发数据处理任务的任务类别,获取所述处理组中各数据处理模型已处理的属于所述任务类别的历史数据处理任务,根据历史数据处理任务的处理结果确定各数据处理模型处理属于所述任务类别的数据处理任务的准确率,根据确定的各数据处理模型的准确率计算所述预期准确率。
作为本发明可实施的方式,通过如下公式计算所述预期准确率:
Figure GDA0003965006690000021
其中,其中k为处理任务类别cl中的数据处理任务ti的数据处理模型的数量,WI为处理数据处理任务ti的k个数据处理模型的集合,WI,x为WI中处理数据处理任务ti的结果为正确的x个数据处理模型的集合,(WI-WI,x)表示WI中处理数据处理任务ti的结果为错误的(k-x)个数据处理模型的集合,ajl为集合WI中的数据处理模型wj处理任务类别cl中的数据处理任务ti的准确率。
作为本发明可实施的方式,针对所述数据处理任务集合中的任意一个数据处理任务获取对应的所述难度参数值包括:
确定所述数据处理任务所属的任务类别;
查找属于所述任务类别的历史数据处理任务;
将接收所述历史数据处理任务后处理失败的数据处理模型数与接收所述历史数据处理任务的数据处理模型总数的比值作为所述难度参数值。
作为本发明可实施的方式,所述从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组包括:
获取所述数据处理模型集合中各数据处理模型的响应时间值,根据所述响应时间值对各数据处理模型进行排序,选取响应时间值满足预设条件的数据处理模型形成处理组;或者
获取所述数据处理模型集合中各数据处理模型的待处理数据处理任务的数量,根据待处理数据处理任务的数量对各数据处理模型进行排序,选取待处理数据处理任务的数量满足预设条件的数据处理模型形成处理组。
作为本发明可实施的方式,所述方法还包括:
若所述预期准确率小于与所述准派发数据处理任务的准确率阈值,则重新选定预设数量的接收所述准派发数据处理任务的数据处理模型形成新处理组,基于所述新处理组获取处理所述准派发数据处理任务的新的预期准确率,再对所述新的预期准确率进行阈值判断。
作为本发明可实施的方式,所述方法还包括:
若基于从所述数据处理模型集合中选定的任意处理组所得到的预期准确率均小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给最大的预期准确率所对应的处理组。
第二方面,本发明实施例提供一种数据处理装置,包括:
读取模块,用于读取待处理的数据处理任务合集;
第一参数获取模块,获取所述数据处理任务集合中每个数据处理任务的难度参数值和预设的准确率阈值,根据所述难度参数值和所述准确率阈值确定所述数据处理任务集合中每个数据处理任务的时间参数值,其中,所述难度参数值和所述准确率阈值的乘积与所述时间参数值成正比关系;
筛选模块,用于从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;
模型获取模块,用于读取设定的数据处理模型集合,从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组;
第二参数获取模块,用于基于所述处理组获取处理所述准派发数据处理任务的预期准确率;
分配处理模块,用于对所述预期准确率进行阈值判断,在所述预期准确率不小于与所述准派发数据处理任务的准确率阈值时,将所述准派发数据处理任务派发给所述处理组中的数据处理模型进行处理,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。
第三方面,本发明实施例提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上述的数据处理方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如上述的数据处理方法的步骤。
根据本发明实施例提供的数据处理方法、装置及计算机设备、存储介质,通过求取数据处理任务的时间参数值来确定数据处理花费时间可能较长的数据处理任务,得到准派发数据处理任务,并确定处理该准派发数据处理任务的预期准确率最高的处理组,由此可以优先将数据处理费时可能较长的数据处理任务派发给预期准确性高的处理组进行处理,以此来降低数据处理任务的整体处理时长,并能提高数据处理的整体准确率,兼顾处理数据处理任务的准确性和时效性。
附图说明
为了更清楚地说明本发明的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据处理方法的流程图;
图2为本发明实施例提供的获取难度参数值的流程图;
图3为本发明实施例提供的获取预期准确率的流程图;
图4为本发明实施例提供的数据处理装置的示意图;
图5为本发明实施例提供的第一参数获取模块的示意图;
图6为本发明实施例提供的第二参数获取模块的示意图;
图7为本发明实施例提供的计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在说明书中的各个位置出现的“实施例”该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种数据处理方法,可用于数据处理任务的分配的优化。如图1所示,所述数据处理方法包括:
S1、读取待处理的数据处理任务合集;
S2、获取所述数据处理任务集合中每个数据处理任务的难度参数值和预设的准确率阈值,根据所述难度参数值和所述准确率阈值确定所述数据处理任务集合中每个数据处理任务的时间参数值;
S3、从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;
S4、读取设定的数据处理模型集合,从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组;
S5、基于所述处理组获取处理所述准派发数据处理任务的预期准确率;
S6、对所述预期准确率进行阈值判断,若所述预期准确率不小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给所述处理组中的数据处理模型,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。
其中,所述数据处理模型集合中的数据处理模型可为不同类型的模型,存在多种数据处理模型处理同一类型的数据,比如存在多个数据处理模型处理图像数据,或者所述数据处理模型集合中的数据处理模型可为同种模型在不同训练结果下得到的多个模型。本发明通过多个数据处理模型组成的处理组的方式进行数据处理,可以综合不同模型的处理结果,当多数模型的处理结果一致时,意味着该结果是正确的可能性更高,有助于提高数据处理的准确率。所述数据处理模型集合中的数据处理模型可以分布在不同的计算机终端中,便于进行分布式的数据处理,也可以是处在同一个计算机终端内。
在本发明实施例中,设定集合T={t1,t2,t3,…,tm}为m个数据处理任务的集合,即所述数据处理任务集合,对步骤S1,可以根据截至当前时刻数据处理任务的总量的状况来确定要读取的数据处理任务集合。具体的,在当前数据处理任务总量较小的情况下,可读取所有的数据处理任务得到数据处理任务集合T;而在当前数据处理任务总量较大的情况下,根据实际情况可设置筛选条件来获得所述数据处理任务集合,例如仅读取设定时间段内的数据处理任务形成数据处理任务集合T,或者仅读取指定的发包方的数据处理任务得到数据处理任务集合T,或者通过其他筛选条件来得到所述数据处理任务集合T。
在本发明实施例中,对步骤S2,对于集合T={t1,t2,t3,…,tm}中的每一个数据处理任务ti(i的取值为1,2,…,m),若令数据处理任务ti生成的时间为si和被完成的时间为fi,则数据处理任务ti的任务停留时长为li=fi-si,显然数据处理任务ti的任务停留时长越短,说明数据处理任务的整体处理效率越高,本发明可以尽量缩短数据处理任务ti的任务停留时长,提高数据处理任务的整体的处理效率。
由于不同的数据处理任务在处理难度上存在差异,不同的数据处理任务的在的任务停留时长也存在差异,本发明针对处理难度大的数据处理任务考虑优先处理,因此需要获取难度参数值对数据处理任务的难度进行衡量,在本发明一些实施例中,如图2所示,针对所述数据处理任务集合中的任意一个数据处理任务获取对应的所述难度参数值包括:
S201、确定所述数据处理任务所属的任务类别;
S202、查找属于所述任务类别的历史数据处理任务;
S203、将接收所述历史数据处理任务后处理失败的数据处理模型数与接收所述历史数据处理任务的数据处理模型总数的比值作为所述难度参数值。
具体的,在本实施例中,数据处理任务集合T={t1,t2,t3,…,tm}中每一个数据处理任务ti都属于一种任务类别,设定集合C={c1,c2,c3,…,cr}为全部r种任务类别的集合,每个数据处理任务ti都属于其中一种任务类别,若记数据处理任务ti的任务类别为ti,c,则有ti,c∈C,在本实施例中,任务类别cl(l的取值为1,2,…,r)可预先设定,常见的任务类别例如图像文字识别,语义相似度判断,语音标注等。
进一步设定集合W={w1,w2,w3,…,wn}为n个数据处理模型的集合,即所述数据处理模型集合,在本方案中,所述难度参数值可采用如下的公式求得:
Figure GDA0003965006690000071
其中di是任务类别cl中的数据处理任务的难度参数值,|wi|是被派发到属于任务类别cl中的历史数据处理任务的总的数据处理模型数,而gi是被派发到属于任务类别cl中的历史数据处理任务但是处理失败的数据处理模型数,此处任务类别cl中的数据处理任务共享同一个难度参数值,根据该公式可知,处理失败任务类别cl中的数据处理任务的人数越多,说明任务类别cl中的数据处理任务的难度越大。当然,也可采用其他形式来量化数据处理任务的处理难度,比如通过历史数据处理任务中属于任务类别cl的数据处理任务被派发的总次数和被退回的总次数来求得所述难度参数值di
在本发明实施例中,所述难度参数值可以是一个变化的值,当处理完一个数据处理任务,处理完成的数据处理任务将加入历史数据处理任务的集合中,所述难度参数值将基于新的历史数据处理任务的集合进行调整。
进一步地,在本发明实施例中,步骤S2中的预设的准确率阈值也可由发包方指定,令准确性阈值为qi,则qi代表该发包方对数据处理任务ti的结果正确的期望可能性,比如发包方给定qi=80%,表明发包方要求的期望准确率为80%。
进一步地,在本发明实施例中,对于处理时长可能过长的数据处理任务需要优先派发处理,以减少数据处理任务的处理时长,此时步骤S2中时间参数值将决定对应的数据处理任务的可能的处理时长的长短以及是否会被优先处理,具体的,数据处理任务的难度越大,将意味着愿意做该数据处理任务的数据处理模型越少,理论上完成该数据处理任务的时间将越长,同样的,数据处理任务的准确率阈值越高,相应的难度也越大,处理时长也可能变长,故在本实施例中,所述难度参数值和所述准确率阈值的乘积与所述时间参数值成正比关系,对于一个数据处理任务ti,令所述时间参数值与所述难度参数值和所述准确率阈值分别为L(ti)、di、qi,三者满足L(ti)∝di·qi,例如可设定一时间常数a,通过等式L(ti)=a·di·qi来计算具体的时间参数值。
进一步地,在本发明实施例中,对于步骤S3,在步骤S2确定各数据处理任务的时间参数值后,可按照各时间参数值是否满足预设条件来对所述数据处理任务集合中的数据处理任务进行筛选,来得到准派发数据处理任务,比如预设条件为最大的时间参数值,则将从所述数据处理任务集合中筛选出时间参数值最大的至少一个数据处理任务作为准派发数据处理任务,若预设条件为大小排名前N的时间参数值,则将从所述数据处理任务集合中筛选出N个数据处理任务作为准派发数据处理任务。需要说明的时,若得到多个准派发数据处理任务,将针对每个准派发数据处理任务依次执行后续步骤S4至S7。
在本发明实施例中,对于步骤S4,对于一个数据处理任务ti,可从数据处理模型集合W={w1,w2,w3,…,wn}选定至少一个数据处理模型进行任务派发,这些选定的数据处理模型将组成处理该数据处理任务ti的处理组。
在一些实施例中,所述从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组包括:获取所述数据处理模型集合中各数据处理模型的响应时间值,根据所述响应时间值对各数据处理模型进行排序,选取响应时间值满足预设条件的数据处理模型形成处理组。其中,所述响应时间值满足的条件具体可以是一个时间阈值或者时间范围值,比如选取响应时间值最小或者小于T1的数据处理模型形成处理组。
在本实施例中,对于数据处理任务集合C={c1,c2,c3,…,cr}中的任意一个任务类别cl,数据处理模型集合W={w1,w2,w3,…,wn}中任意一个数据处理模型wj都对应有一个处理数据处理任务的响应时间rjl,而响应时间rjl代表数据处理模型wj接收到数据处理任务开始,到提交数据处理任务的结果所耗费的总时长,响应时间rjl通过数据处理模型wj处理任务类别cl中的数据处理任务的历史数据计算得出,比如通过取属于同一个任务类别的多个历史数据处理任务的响应时间值的均值作为对应的任务类别下的数据处理任务的响应时间值。在一些实施例中,任意任务类别cl下的数据处理任务的响应时间值可以是一个变化的值,当处理完一个数据处理任务,处理完成的数据处理任务将加入历史数据处理任务的集合中,所述响应时间值将基于新的历史数据处理任务的集合进行调整。
在另一些实施例中,所述从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组包括:获取所述数据处理模型集合中各数据处理模型的待处理数据处理任务的数量,根据待处理数据处理任务的数量对各数据处理模型进行排序,选取待处理数据处理任务的数量满足预设条件的数据处理模型形成处理组。其中,所述待处理数据处理任务的数量满足的条件具体可以是一个数量阈值或者数量范围值,比如选取待处理数据处理任务的数量最小或者小于M2的数据处理模型形成处理组。
在另一些实施例中,上述两种获取处理组的方式中获取的参数(响应时间值、待处理数据处理任务的数量)也可以组合使用来对数据处理模型进行选取,比如设定一个待处理数据处理任务的数量的阈值,将高于该阈值的数据处理模型排除,再通过响应时间值对排除剩下的数据处理模型进行排序,再选择响应时间值小的数据处理模型形成处理组。当然,还可获取其他参数,将这些参数与上述两种获取处理组的方式中获取的参数组合使用来对数据处理模型进行选取。
在本发明实施例中,对于步骤S5,如图3所示,所述基于所述处理组获取所述准派发数据处理任务的预期准确率可包括:
S501、确定所述准派发数据处理任务的任务类别;
S502、获取所述处理组中各数据处理模型已处理的属于所述任务类别的历史数据处理任务;
S503、根据历史数据处理任务的处理结果确定各数据处理模型处理属于所述任务类别的数据处理任务的准确率,根据确定的各数据处理模型的准确率计算所述预期准确率。
在本实施例中,采用“多数原则”来判定数据处理模型提交的结果是否正确,具体的,当一个数据处理任务ti被派发给k个(k为正整数)数据处理模型来完成时,若有大于等于
Figure GDA0003965006690000101
个数据处理模型给出同一结果,则认定该同一结果为数据处理任务ti的最终结果,此即为“多数原则”,此时,在本发明实施中,可通过如下公式计算所述预期准确率:
Figure GDA0003965006690000102
其中,其中k为处理任务类别cl中的数据处理任务ti的数据处理模型的数量,WI为处理数据处理任务ti的k个数据处理模型的集合,WI,x为WI中处理数据处理任务ti的结果为正确的x个数据处理模型的集合,(WI-WI,x)表示WI中处理数据处理任务ti的结果为错误的(k-x)个数据处理模型的集合,ajl为集合WI中的数据处理模型wj处理任务类别cl中的数据处理任务ti的准确率,需要说明的是,对于数据处理任务集合C={c1,c2,c3,…,cr}中的任意一个任务类别cl,数据处理模型集合W={w1,w2,w3,…,wn}中任意一个数据处理模型wj都对应有一个处理数据处理任务ti的准确率ajl,准确率ajl代表数据处理模型wj正确完成任务类别cl中的数据处理任务ti的可能性,准确率ajl通过数据处理模型wj处理任务类别cl中的数据处理任务的历史数据计算得出,比如可获取数据处理模型wj处理过的任务类别cl中的数据处理任务的总数量和处理结果错误的数量,将错误数量与总数量的比值作为数据处理模型wj处理任务类别cl中的数据处理任务的准确率ajl。在本方案中,数据处理模型集合W={w1,w2,w3,…,wn}中任意一个数据处理模型wj处理数据处理任务ti的准确率ajl可以是一个变化的值,当处理完一个数据处理任务ti,处理完成的数据处理任务ti将加入历史数据处理任务的集合中,所述准确率将基于新的历史数据处理任务的集合进行调整。
上述计算所述预期准确率的公式实际上是计算所有大于等于
Figure GDA0003965006690000111
个数据处理模型就数据处理任务ti给出同一答案的情况的可能性的和,比如当k=3时,数据处理任务ti由三个数据处理模型处理,需要有大于等于2个数据处理模型提交相同答案,假如三个数据处理模型为A、B、C,对应的准确率分别为PA、PB、PC,那么上述计算所述预期准确率的公式计算的结果为:
PA·PB·(1-PC)+PA·(1-PB)·PC+(1-PA)·PB·PC+PA·PB·PC
在本发明实施例中,对于步骤S6,所述方法还包括:若所述预期准确率小于与所述准派发数据处理任务的准确率阈值,则重新选定预设数量的接收所述准派发数据处理任务的数据处理模型形成新处理组,基于所述新处理组获取处理所述准派发数据处理任务的新的预期准确率,再对所述新的预期准确率进行阈值判断。在重新选定数据处理模型的过程中,新处理组可以包含前次选定的数据处理模型,也可不包含前次选定的数据处理模型。在本发明一些实施例中,所述方法还包括:若基于从所述数据处理模型集合中选定的任意处理组所得到的预期准确率均小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给最大的预期准确率所对应的处理组。
根据本发明实施例提供的数据处理方法,通过求取数据处理任务的时间参数值来确定数据处理花费时间可能较长的数据处理任务,得到准派发数据处理任务,并确定处理该准派发数据处理任务的预期准确率最高的处理组,由此可以优先将数据处理费时可能较长的数据处理任务派发给预期准确性高的处理组进行处理,以此来降低数据处理任务的整体处理时长,并能提高数据处理的整体准确率,兼顾处理数据处理任务的准确性和时效性。
本发明实施例提供一种数据处理装置,可执行上述实施例提供的数据处理方法,优化的数据处理任务的分配。如图4所示,所述数据处理装置包括读取模块10、第一参数获取模块20、筛选模块30、模型获取模块40、第二参数获取模块50和分配处理模块60。
在本发明实施例中,所述读取模块10用于读取待处理的数据处理任务合集;其中读取数据处理任务合集的具体情况可参阅上述方法实施例中的相关内容。
在本发明实施例中,所述第一参数获取模块20用于获取所述数据处理任务集合中每个数据处理任务的难度参数值和预设的准确率阈值,根据所述难度参数值和所述准确率阈值确定所述数据处理任务集合中每个数据处理任务的时间参数值,其中,所述难度参数值和所述准确率阈值的乘积与所述时间参数值成正比关系。
由于不同的数据处理任务在处理难度上存在差异,不同的数据处理任务的在的任务停留时长也存在差异,本发明针对处理难度大的数据处理任务考虑优先处理,因此需要获取难度参数值对数据处理任务的难度进行衡量,在一些实施例中,如图5所示,所述第一参数获取模块20包括第一类别确认单元201、第一历史数据获取单元202和第一参数获取单元203,其中所述第一类别确认单元201用于确定所述数据处理任务所属的任务类别;所述第一历史数据获取单元202用于查找属于所述任务类别的历史数据处理任务;所述第一参数获取单元203用于将接收所述历史数据处理任务后处理失败的数据处理模型数与接收所述历史数据处理任务的数据处理模型总数的比值作为所述难度参数值。其中,所述第一参数获取单元203获取所述难度参数值的过程可参阅上述方法实施例中的相关技术内容。在本发明实施例中,所述难度参数值可以是一个变化的值,当处理完一个数据处理任务,处理完成的数据处理任务将加入历史数据处理任务的集合中,所述难度参数值将基于新的历史数据处理任务的集合进行调整。
在本发明实施例中,所述筛选模块30用于从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;具体的,确定各数据处理任务的时间参数值后,可按照各时间参数值是否满足预设条件来对所述数据处理任务集合中的数据处理任务进行筛选,来得到准派发数据处理任务,比如预设条件为最大的时间参数值,则将从所述数据处理任务集合中筛选出时间参数值最大的至少一个数据处理任务作为准派发数据处理任务,若预设条件为大小排名前N的时间参数值,则将从所述数据处理任务集合中筛选出N个数据处理任务作为准派发数据处理任务。
在本发明实施例中,所述模型获取模块40用于读取设定的数据处理模型集合,从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组。
在一些实施例中,所述模型获取模块40从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组时具体用于获取所述数据处理模型集合中各数据处理模型的响应时间值,根据所述响应时间值对各数据处理模型进行排序,选取响应时间值满足预设条件的数据处理模型形成处理组。其中,所述响应时间值满足的条件具体可以是一个时间阈值或者时间范围值,比如选取响应时间值最小或者小于T1的数据处理模型形成处理组。
在另一些实施例中,所述模型获取模块40从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组时具体用于获取所述数据处理模型集合中各数据处理模型的待处理数据处理任务的数量,根据待处理数据处理任务的数量对各数据处理模型进行排序,选取待处理数据处理任务的数量满足预设条件的数据处理模型形成处理组。其中,所述待处理数据处理任务的数量满足的条件具体可以是一个数量阈值或者数量范围值,比如选取待处理数据处理任务的数量最小或者小于M2的数据处理模型形成处理组。
在另一些实施例中,上述两种获取处理组的方式中获取的参数(响应时间值、待处理数据处理任务的数量)也可以组合使用来对数据处理模型进行选取,比如设定一个待处理数据处理任务的数量的阈值,将高于该阈值的数据处理模型排除,再通过响应时间值对排除剩下的数据处理模型进行排序,再选择响应时间值小的数据处理模型形成处理组。当然,还可获取其他参数,将这些参数与上述两种获取处理组的方式中获取的参数组合使用来对数据处理模型进行选取。
在本发明实施例中,所述第二参数获取模块50用于基于所述处理组获取处理所述准派发数据处理任务的预期准确率。在一些实施例中,如图6所示,所述第二参数获取模块50包括第二类别确认单元501、第二历史数据获取单元502和第二参数获取单元503,所述第二参数获取模块50基于所述处理组获取所述准派发数据处理任务的预期准确率时,具体的由第二类别确认单元501确定所述准派发数据处理任务的任务类别,由所述第二历史数据获取单元502获取所述处理组中各数据处理模型已处理的属于所述任务类别的历史数据处理任务,由第二参数获取单元503根据历史数据处理任务的处理结果确定各数据处理模型处理属于所述任务类别的数据处理任务的准确率,根据确定的各数据处理模型的准确率计算所述预期准确率。
在一些实施例中,所述第二参数获取单元503通过如下公式计算所述预期准确率:
Figure GDA0003965006690000151
其中,其中k为处理任务类别cl中的数据处理任务ti的数据处理模型的数量,WI为处理数据处理任务tik个数据处理模型的集合,WI,x为WI中处理数据处理任务ti的结果为正确的x个数据处理模型的集合,(WI-WI,x)表示WI中处理数据处理任务ti的结果为错误的(k-x)个数据处理模型的集合,ajl为集合WI中的数据处理模型wj处理任务类别cl中的数据处理任务ti的准确率。关于该公式的说明,可以参阅上述实施例中的相关技术内容,在此不作展开。
需要说明的是,所述第一类别确认单元201和所述第二类别确认单元501也可以合并为一个类别确认单元,所述第一历史数据获取单元202和所述第二历史数据获取单元502也可以合并为一个历史数据获取单元。
在本发明实施例中,所述分配处理模块60用于对所述预期准确率进行阈值判断,在所述预期准确率不小于与所述准派发数据处理任务的准确率阈值时,将所述准派发数据处理任务派发给所述处理组中的数据处理模型,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。在一些实施例中,当所述分配处理模块60判定所述预期准确率小于与所述准派发数据处理任务的准确率阈值,则所述模型获取模块40还用于重新选定预设数量的接收所述准派发数据处理任务的数据处理模型形成新处理组,所述第二参数获取模块50还用于基于所述新处理组获取处理所述准派发数据处理任务的新的预期准确率,再由所述分配处理模块60对所述新的预期准确率进行阈值判断。在重新选定数据处理模型的过程中,新处理组可以包含前次选定的数据处理模型,也可不包含前次选定的数据处理模型。在本发明一些实施例中,若所述分配处理模块60判定基于从所述数据处理模型集合中选定的任意处理组所得到的预期准确率均小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给最大的预期准确率所对应的处理组。
根据本发明实施例提供的数据处理装置,通过求取数据处理任务的时间参数值来确定数据处理花费时间可能较长的数据处理任务,得到准派发数据处理任务,并确定处理该准派发数据处理任务的预期准确率最高的处理组,由此可以优先将数据处理费时可能较长的数据处理任务派发给预期准确性高的处理组进行处理,以此来降低数据处理任务的整体处理时长,并能提高数据处理的整体准确率,兼顾处理数据处理任务的准确性和时效性。
本发明实施例还提供一种计算机设备,如图7所示,所述计算机设备包括至少一个处理器71,以及与所述至少一个处理器71通信连接的存储器72,图7中示出一个处理器71,所述存储器72存储有可被所述至少一个处理器71执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器71执行,以使所述至少一个处理器71能够执行如上所述的数据处理方法的步骤。
具体的,本发明实施例中的存储器72为非易失性计算机可读存储介质,可用于存储计算机可读指令、非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请上述实施例中的数据处理方法对应的程序指令/模块;所述处理器71通过运行存储在存储器72中的非易失性软件程序、计算机可读指令以及模块,从而执行各种功能应用以及进行数据处理,即实现上述方法实施例中所述的数据处理方法。
在一些实施例中,所述存储器72可以包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需要的应用程序;数据存储区可存储数据处理方法的处理过程中所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;
在一些实施例中,存储器72可选包括相对于处理器71远程设置的远程存储器,这些远程存储器可以通过网络连接至执行域名过滤处理的计算机设备,前述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本发明实施例中,执行数据处理方法的计算机设备还可以包括输入装置73和输出装置74;其中,输入装置73可获取用户在计算机设备上的操作信息,输出装置74可包括显示屏等显示设备。在本发明实施例中,所述处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图7中以通过总线连接为例。
根据本发明实施例提供的计算机设备,通过处理器71执行存储器72中的代码时能够执行上述实施例中数据处理方法的步骤,且具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时,能够实现如上所述的数据处理方法的步骤,当执行所述方法的步骤时,具有上述方法实施例的技术效果,未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
本发明实施例还提供一种计算机程序产品,所述产品可执行本申请方法实施例中所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请方法实施例中所提供的技术内容。
需要说明的是,在本发明上述实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或智能终端设备或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,至少两个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (10)

1.一种数据处理方法,用于数据处理任务的分配,其特征在于,包括:
读取待处理的数据处理任务合集;
获取所述数据处理任务集合中每个数据处理任务的难度参数值和预设的准确率阈值,根据所述难度参数值和所述准确率阈值确定所述数据处理任务集合中每个数据处理任务的时间参数值,其中,所述难度参数值和所述准确率阈值的乘积与所述时间参数值成正比关系;
从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;
读取设定的数据处理模型集合,从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组;
基于所述处理组获取处理所述准派发数据处理任务的预期准确率;
对所述预期准确率进行阈值判断,若所述预期准确率不小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给所述处理组中的数据处理模型进行处理,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述处理组获取所述准派发数据处理任务的预期准确率包括:
确定所述准派发数据处理任务的任务类别,获取所述处理组中各数据处理模型已处理的属于所述任务类别的历史数据处理任务,根据历史数据处理任务的处理结果确定各数据处理模型处理属于所述任务类别的数据处理任务的准确率,根据确定的各数据处理模型的准确率计算所述预期准确率。
3.根据权利要求2所述的数据处理方法,其特征在于,通过如下公式计算所述预期准确率:
Figure FDA0003965006680000011
其中,其中k为处理任务类别cl中的数据处理任务ti的数据处理模型的数量,WI为处理数据处理任务ti的k个数据处理模型的集合,WI,x为WI中处理数据处理任务ti的结果为正确的x个数据处理模型的集合,(WI-WI,x)表示WI中处理数据处理任务ti的结果为错误的(k-x)个数据处理模型的集合,ajl为集合WI中的数据处理模型wj处理任务类别cl中的数据处理任务ti的准确率。
4.根据权利要求1至3任一项所述的数据处理方法,其特征在于,针对所述数据处理任务集合中的任意一个数据处理任务获取对应的所述难度参数值包括:
确定所述数据处理任务所属的任务类别;
查找属于所述任务类别的历史数据处理任务;
将接收所述历史数据处理任务后处理失败的数据处理模型数与接收所述历史数据处理任务的数据处理模型总数的比值作为所述难度参数值。
5.根据权利要求1至3任一项所述的数据处理方法,其特征在于,所述从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组包括:
获取所述数据处理模型集合中各数据处理模型的响应时间值,根据所述响应时间值对各数据处理模型进行排序,选取响应时间值满足预设条件的数据处理模型形成处理组;或者
获取所述数据处理模型集合中各数据处理模型的待处理数据处理任务的数量,根据待处理数据处理任务的数量对各数据处理模型进行排序,选取待处理数据处理任务的数量满足预设条件的数据处理模型形成处理组。
6.根据权利要求1至3任一项所述的数据处理方法,其特征在于,所述方法还包括:
若所述预期准确率小于与所述准派发数据处理任务的准确率阈值,则重新选定预设数量的接收所述准派发数据处理任务的数据处理模型形成新处理组,基于所述新处理组获取处理所述准派发数据处理任务的新的预期准确率,再对所述新的预期准确率进行阈值判断。
7.根据权利要求6所述的数据处理方法,其特征在于,所述方法还包括:
若基于从所述数据处理模型集合中选定的任意处理组所得到的预期准确率均小于与所述准派发数据处理任务的准确率阈值,则将所述准派发数据处理任务派发给最大的预期准确率所对应的处理组。
8.一种数据处理装置,其特征在于,包括:
读取模块,用于读取待处理的数据处理任务合集;
第一参数获取模块,获取所述数据处理任务集合中每个数据处理任务的难度参数值和预设的准确率阈值,根据所述难度参数值和所述准确率阈值确定所述数据处理任务集合中每个数据处理任务的时间参数值,其中,所述难度参数值和所述准确率阈值的乘积与所述时间参数值成正比关系;
筛选模块,用于从所述数据处理任务集合中筛选出时间参数值满足预设条件的数据处理任务,得到准派发数据处理任务;
模型获取模块,用于读取设定的数据处理模型集合,从所述数据处理模型集合中选定预设数量的接收所述准派发数据处理任务的数据处理模型形成处理组;
第二参数获取模块,用于基于所述处理组获取处理所述准派发数据处理任务的预期准确率;
分配处理模块,用于对所述预期准确率进行阈值判断,在所述预期准确率不小于与所述准派发数据处理任务的准确率阈值时,将所述准派发数据处理任务派发给所述处理组中的数据处理模型进行处理,并将所述准派发数据处理任务从所述数据处理任务集合中剔除。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机可读指令,所述计算机可读指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行时实现如权利要求1至7中任一项权利要求所述的数据处理方法的步骤。
CN201910704304.9A 2019-07-31 2019-07-31 数据处理方法、装置及计算机设备、存储介质 Active CN110647386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910704304.9A CN110647386B (zh) 2019-07-31 2019-07-31 数据处理方法、装置及计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910704304.9A CN110647386B (zh) 2019-07-31 2019-07-31 数据处理方法、装置及计算机设备、存储介质

Publications (2)

Publication Number Publication Date
CN110647386A CN110647386A (zh) 2020-01-03
CN110647386B true CN110647386B (zh) 2023-01-24

Family

ID=68989872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910704304.9A Active CN110647386B (zh) 2019-07-31 2019-07-31 数据处理方法、装置及计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN110647386B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102448123A (zh) * 2012-01-16 2012-05-09 河海大学常州校区 无线传感器网络中基于节点性能的任务分配算法
CN107741882A (zh) * 2017-11-22 2018-02-27 阿里巴巴集团控股有限公司 分配任务的方法及装置和电子设备
CN108762907A (zh) * 2018-05-31 2018-11-06 口口相传(北京)网络技术有限公司 基于多个客户端的任务处理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130152091A1 (en) * 2011-12-08 2013-06-13 Microsoft Corporation Optimized Judge Assignment under Constraints
US20150363741A1 (en) * 2013-01-18 2015-12-17 Praphul Chandra Task assignment in crowdsourcing
US20140298343A1 (en) * 2013-03-26 2014-10-02 Xerox Corporation Method and system for scheduling allocation of tasks
US10866851B2 (en) * 2016-09-28 2020-12-15 Netflix, Inc. Determining the failure resiliency of a service in a distributed computing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102448123A (zh) * 2012-01-16 2012-05-09 河海大学常州校区 无线传感器网络中基于节点性能的任务分配算法
CN107741882A (zh) * 2017-11-22 2018-02-27 阿里巴巴集团控股有限公司 分配任务的方法及装置和电子设备
CN108762907A (zh) * 2018-05-31 2018-11-06 口口相传(北京)网络技术有限公司 基于多个客户端的任务处理方法及系统

Also Published As

Publication number Publication date
CN110647386A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN106951925B (zh) 数据处理方法、装置、服务器及系统
CN110766269A (zh) 一种任务分配方法、装置、可读存储介质及终端设备
CN108762907B (zh) 基于多个客户端的任务处理方法及系统
EP3279806A1 (en) Data processing method and apparatus
CN112667805B (zh) 一种工单类别确定方法、装置、设备及介质
CN107122786B (zh) 一种众包学习方法及装置
CN112633842B (zh) 任务推送方法、装置及系统
CN107909234A (zh) 工作流数据的时限提醒方法、处理方法及其装置、设备
CN110389822A (zh) 执行任务的节点调度方法、装置和服务器
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN112949906A (zh) 工程造价定额换算的匹配方法、装置、设备及存储介质
CN107330709B (zh) 确定目标对象的方法及装置
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN110647386B (zh) 数据处理方法、装置及计算机设备、存储介质
CN110580265B (zh) Etl任务的处理方法、装置、设备及存储介质
CN108536645B (zh) 用于电力市场交易业务的内核并行计算方法及装置
CN111445191A (zh) 一种配送难度的预估方法、装置和存储介质
CN107203633B (zh) 数据表推数处理方法、装置及电子设备
CN114647786A (zh) 书籍推荐方法、电子设备和存储介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN114867046B (zh) 无线网络设备固件更新方法和无线网络设备
CN111080393A (zh) 一种交易撮合方法及装置
CN113011707B (zh) 一种面向流程阶段的指标异常的根因定位方法及系统
CN114418752B (zh) 无类型标签用户数据的处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant