CN109815011A - 一种数据处理的方法和装置 - Google Patents

一种数据处理的方法和装置 Download PDF

Info

Publication number
CN109815011A
CN109815011A CN201811639975.3A CN201811639975A CN109815011A CN 109815011 A CN109815011 A CN 109815011A CN 201811639975 A CN201811639975 A CN 201811639975A CN 109815011 A CN109815011 A CN 109815011A
Authority
CN
China
Prior art keywords
subtask
calculate node
task
data processing
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811639975.3A
Other languages
English (en)
Inventor
王书剑
张霞
赵立军
崔朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811639975.3A priority Critical patent/CN109815011A/zh
Publication of CN109815011A publication Critical patent/CN109815011A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种数据处理的方法、装置及设备中,通过将接收的数据处理任务划分为多个子任务,每个子任务均可被独立运行,将各个子任务分别分配给各不相同的空闲的计算节点进行处理,根据各个计算节点对各个子任务的处理结果,可以输出数据处理任务的处理结果。由于各个子任务对应不同的计算节点,且各个子任务均可被独立运行,因此各个计算节点独立对分配的子任务进行处理,这样,计算节点在完成对子任务的处理后处于空闲状态,可以用于执行下一个数据处理任务的子任务,减少了空闲的计算资源,提高了计算资源的利用率,从而提高流式数据处理任务的执行效率。

Description

一种数据处理的方法和装置
技术领域
本申请涉及信息处理技术领域,特别是涉及一种数据处理的方法和装置。
背景技术
随着网络的发展,信息量急剧增大,因此,一些系统需要面对实时的、流式的数据处理任务。例如,对于数据采集技术,大量的网络数据在不断地从网络上抓取下来之后需要通过进行信息抽取等数据处理。对于这种流式的数据处理任务,系统通常是按照接收到数据处理任务的时间顺序地执行数据处理任务,在先的数据处理任务执行完成后,在后的数据处理任务开始执行,这样,在后的数据就需要等待较长的时间,从而使得流式的数据处理任务的执行效率较低。
发明内容
本申请所要解决的技术问题是,提供一种数据处理的方法和装置,以提高流式数据处理任务的执行效率。
第一方面,本申请实施例提供了一种数据处理的方法,该方法包括:
接收数据处理任务;
将所述数据处理任务划分成多个子任务,其中,每个所述子任务均可被独立运行;
将各个所述子任务分别分配给各不相同的空闲的计算节点进行处理;
根据各个所述计算节点对各个所述子任务的处理结果,输出所述数据处理任务的处理结果。
可选的,所述计算节点在一个分配周期内分配到的任务数量,不超过所述计算节点在所述分配周期内的待处理任务量,和/或,不超过所述计算节点的周期处理数量;
其中,所述待处理任务量根据在所述分配周期的上一个分配周期结束时未完成的任务数量和在所述分配周期内接收的数据处理任务的数量确定;所述计算节点的周期处理数量根据所述分配周期的时长与所述计算节点对单个任务的平均处理时间确定。
可选的,所述方法还包括:
在所述分配周期结束时,根据在所述分配周期内所述计算节点对单个任务的平均处理时间,更新所述计算节点的周期处理数量。
可选的,所述方法还包括:
统计在一个分配周期内第一类别的计算节点的任务处理情况;
若所述第一类别的计算节点的任务处理情况满足拥堵条件,增加所述第一类别的计算节点的数量。
可选的,所述方法还包括:
统计在一个分配周期内第二类别的计算节点的任务处理情况;
若所述第二类别的计算节点的任务处理情况满足空闲条件,减少所述第二类别的计算节点的数量。
可选的,所述将各个所述子任务分别分配给各不相同的计算节点进行处理,包括:
若在所述多个子任务中第一子任务与第二子任务之间具有前后序依赖关系,将所述第一子任务分配给第一计算节点进行处理,并在获得所述第一计算节点对所述第一子任务的处理结果之后,再将所述第二子任务分配给所述第二计算节点。
可选的,该方法还包括:
为所述数据处理任务记录所述多个子任务中已完成处理的第三子任务和未完成处理的第四子任务,并在每个分配周期更新一次所述第三子任务和所述第四子任务。
可选的,该方法还包括:
为所述计算节点记录最近一个周期内所述计算节点已完成处理的第五子任务和所述计算节点未完成处理的第六子任务,并在每个分配周期更新一次所述第五子任务和所述第六子任务。
第二方面,本申请实施例还提供了一种数据处理的装置,包括:
任务接收单元,用于接收数据处理任务;
任务划分单元,用于将所述数据处理任务划分成多个子任务,其中,每个所述子任务均可被独立运行;
分配单元,用于将各个所述子任务分别分配给各不相同的空闲的计算节点进行处理;
输出单元,用于根据各个所述计算节点对各个所述子任务的处理结果,输出所述数据处理任务的处理结果。
可选的,所述计算节点在一个分配周期内分配到的任务数量,不超过所述计算节点在所述分配周期内的待处理任务量,和/或,不超过所述计算节点的周期处理数量;
其中,所述待处理任务量根据在所述分配周期的上一个分配周期结束时未完成的任务数量和在所述分配周期内接收的数据处理任务的数量确定;所述计算节点的周期处理数量根据所述分配周期的时长与所述计算节点对单个任务的平均处理时间确定。
可选的,所述装置还包括:
更新单元,用于在所述分配周期结束时,根据在所述分配周期内所述计算节点对单个任务的平均处理时间,更新所述计算节点的周期处理数量。
可选的,所述装置还包括:
第一统计单元,用于统计在一个分配周期内第一类别的计算节点的任务处理情况;
第一计算节点调整单元,用于若所述第一类别的计算节点的任务处理情况满足拥堵条件,增加所述第一类别的计算节点的数量。
可选的,所述装置还包括:
第二统计单元,用于统计在一个分配周期内第二类别的计算节点的任务处理情况;
第二计算节点调整单元,用于若所述第二类别的计算节点的任务处理情况满足空闲条件,减少所述第二类别的计算节点的数量。
可选的,所述分配单元具体用于:
若在所述多个子任务中第一子任务与第二子任务之间具有前后序依赖关系,将所述第一子任务分配给第一计算节点进行处理,并在获得所述第一计算节点对所述第一子任务的处理结果之后,再将所述第二子任务分配给所述第二计算节点。
可选的,所述装置还包括:
第一记录和更新单元,用于为所述数据处理任务记录所述多个子任务中已完成处理的第三子任务和未完成处理的第四子任务,并在每个分配周期更新一次所述第三子任务和所述第四子任务。
可选的,所述装置还包括:
第二记录和更新单元,用于为所述计算节点记录最近一个周期内所述计算节点已完成处理的第五子任务和所述计算节点未完成处理的第六子任务,并在每个分配周期更新一次所述第五子任务和所述第六子任务。
第三方面,本申请实施例还提供了一种数据处理的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行本申请实施例提供的一种数据处理的方法。
第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的一种数据处理的方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供的一种数据处理的方法、装置及设备中,通过将接收的数据处理任务划分为多个子任务,每个子任务均可被独立运行,将各个子任务分别分配给各不相同的空闲的计算节点进行处理,根据各个计算节点对各个子任务的处理结果,可以输出数据处理任务的处理结果。由于各个子任务对应不同的计算节点,且各个子任务均可被独立运行,因此各个计算节点独立对分配的子任务进行处理,这样,计算节点在完成对子任务的处理后处于空闲状态,可以用于执行下一个数据处理任务的子任务,相比于现有技术中,只有对数据处理任务完成各个阶段的处理之后,才能开始对下一个数据处理任务的处理的方案来说,本申请实施例减少了空闲的计算资源,提高了计算资源的利用率,从而提高流式数据处理任务的执行效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种数据处理的方法的流程图;
图2为本申请实施例中一种数据处理的装置的结构框图;
图3为本申请实施例中一种数据处理的设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,一些系统需要面对实时的、流式的数据处理任务,例如通过爬虫抓取网页数据,并对这些网页数据信息抽取等数据处理。通常来说,对于这些流式的数据处理任务,系统按照接收到数据处理任务的时间顺序进行数据处理任务,在先的数据处理任务处理完成后,进行在后的数据处理任务的处理。这样,在后的数据处理任务需要等待较长的时间,导致流式的数据处理任务的执行效率较低。
发明人经过研究发现,在先的数据处理任务的处理过程中,存在部分计算资源空闲的问题,此时,在后的数据处理任务依然在等待,造成计算资源的浪费。随着网络的发展,需要进行处理的数据量急剧增大,如何提高计算资源的利用率,从而提高流式的数据处理任务的执行效率,是目前亟待解决的问题。
基于以上技术问题,本申请实施例提供了一种数据处理的方法和装置,通过将接收的数据处理任务划分为多个子任务,每个子任务均可被独立运行,将各个子任务分别分配给各不相同的空闲的计算节点进行处理,根据各个计算节点对各个子任务的处理结果,可以输出数据处理任务的处理结果。由于各个子任务对应不同的计算节点,且各个子任务均可被独立运行,因此各个计算节点独立对分配的子任务进行处理,这样,计算节点在完成对子任务的处理后处于空闲状态,可以用于执行下一个数据处理任务的子任务,相比于现有技术中,只有对数据处理任务完成各个阶段的处理之后,才能开始对下一个数据处理任务的处理的方案来说,本申请实施例减少了空闲的计算资源,提高了计算资源的利用率,从而提高流式数据处理任务的执行效率。
下面结合附图对本申请实施例提供的一种数据处理的方法和装置进行详细介绍。参考图1所示为本申请实施例提供的一种数据处理的方法的流程图,该方法包括以下步骤:
S101,接收数据处理任务。
数据处理任务是对待处理数据进行处理的任务,待处理数据可以是数据采集过程中得到的各种形式的数据,例如网页数据、文本数据等。对待处理数据进行处理,可以包括从待处理数据中提取特定信息等,也可以包括对待处理数据进行拆分、修改等。
举例来说,采集到的判决文书可以作为待处理数据,对该待处理数据的处理任务作为数据处理任务,数据处理任务可以包括:获取庭审信息、嫌疑人信息、作案信息、起诉信息、判决信息等,此外,为了加快信息处理流程,还可以对判决文书进行段落划分,增加标识符等。
S102,将数据处理任务划分为多个子任务。
将数据处理任务进行划分,可以得到多个子任务,其中,每个子任务均可被独立运行。
对数据处理任务的划分方式可以根据待处理数据的多个处理阶段确定,例如可以将一个数据处理阶段作为一个子任务,也可以将多个数据处理阶段组合形成一个子任务,还可以将一个数据处理阶段拆分形成多个子任务。
对数据处理任务的划分方式也可以预先通过人工确定,也可以通过自动识别对数据处理任务的处理代码来确定。
举例来说,对于判决文书的处理任务,可以分为获取庭审信息、嫌疑人信息、作案信息、起诉信息、判决信息等处理阶段,则可以相应的将数据处理任务划分为获取庭审信息、嫌疑人信息、作案信息、起诉信息、判决信息等多个子任务,这些子任务均可被独立运行,例如获取嫌疑人信息的子任务的执行,不会影响获取作案信息的子任务的执行。
S103,将各个子任务分别分配给各不相同的空闲的计算节点进行处理。
计算节点是可以对待处理数据进行处理的节点,计算节点的功能可以是预先设定的,例如庭审信息获取节点可以获取判决文书中的庭审信息,嫌疑人信息获取节点可以获取判决文书中的嫌疑人信息。
将各个子任务分别分配给各不相同的空闲的计算节点,以便空闲的计算节点对分配的子任务进行处理。
在本申请实施例中,若拆分得到的子任务是没有执行顺序限制的,则可以同时将各个子任务分配给各不相同的空闲的计算节点,从而各个空闲的计算节点可以执行对应的子任务,这样,无需等待所有的计算节点都处于空闲状态再进行子任务的分配,减少了计算节点的空闲时间。
在本申请实施例中,若拆分得到的子任务之间有前后依赖关系,例如多个子任务中的第一子任务与第二子任务之间具有前后序依赖关系,则可以将第一子任务分配给空闲的第一计算节点进行处理,并在获得第一计算节点对第一子任务的处理结果之后,再将第二子任务分配给空闲的第二计算节点进行处理。通常来说,第一子任务和第二子任务之间具有前后序依赖关系,是因为第二子任务的执行依赖于第一子任务的执行结果,因此,在将第二子任务分配给空闲的第二计算节点进行处理时,还可以将第一子任务的输出结果输出给第二计算节点,以便第二计算节点执行第二子任务。
对各个子任务的分配可以在对数据处理认为进行拆分后立即执行,也可以在有空闲的计算节点时执行,还可以在对数据处理任务进行拆分后预设时间执行,还可以按照一定的时间周期执行。
在计算节点对子任务进行处理之后,还可以对数据处理任务中的各个子任务的处理状态进行记录,处理状态可以包括已完成处理和未完成处理。具体的,可以根据对子认为的处理结果确定子任务的处理状态,例如已获取到子任务的处理结果,则认为该子任务的处理状态为已完成处理。
S104,根据各个计算节点对各个子任务的处理结果,输出数据处理任务的处理结果。
由于子任务是对数据处理任务拆分得到的,因此,根据各个计算节点对各个子任务的处理结果,可以得到对数据处理任务的处理结果。
例如数据处理任务是获取庭审信息、嫌疑人信息、作案信息、起诉信息、判决信息等,则各个计算节点得到的处理结果分别为庭审信息、嫌疑人信息、作案信息、起诉信息、判决信息等,综合各个计算节点的处理结果,则可以得到数据处理任务的处理结果。
可以理解的是,若多个子任务中的第一子任务与第二子任务之间具有前后序依赖关系,第二子任务的执行依赖于第一子任务的执行结果,则第一子任务的执行结果同时也是第二子任务的源数据,属于中间数据,可以不作为数据处理任务的处理结果中的一部分。
本申请实施例提供的一种数据处理的方法中,通过将接收的数据处理任务划分为多个子任务,每个子任务均可被独立运行,将各个子任务分别分配给各不相同的空闲的计算节点进行处理,根据各个计算节点对各个子任务的处理结果,可以输出数据处理任务的处理结果。由于各个子任务对应不同的计算节点,且各个子任务均可被独立运行,因此各个计算节点独立对分配的子任务进行处理,这样,计算节点在完成对子任务的处理后处于空闲状态,可以用于执行下一个数据处理任务的子任务,相比于现有技术中,只有对数据处理任务完成各个阶段的处理之后,才能开始对下一个数据处理任务的处理的方案来说,本申请实施例减少了空闲的计算资源,提高了计算资源的利用率,从而提高流式数据处理任务的执行效率。
下面对S103中,周期性的对各个子任务进行分配进行详细介绍。
在本申请实施例中,为了减少分配的次数,可以按照一定的时间周期进行子任务的分配,这个时间周期成为分配周期Win,在分配周期结束时,对该分配周期内接收到的数据处理任务相应的子任务进行分配,以便该计算节点在下一个分配周期内的空闲时间进行分配的子任务的处理。
对子任务进行分配的分配周期Win可以是固定值,也可以根据计算节点的数据处理速度,以及数据处理任务的接收速度和拆分速度有所调整。其中,计算节点的数据处理速度可以根据计算节点对单个任务的平均处理时间Caltime确定,Caltime可以通过压力测试工具对计算节点进行测试得到。
在一个分配周期内,可以接收多个数据处理任务,因此,可以同时对多个数据处理任务进行拆分形成各个数据处理任务对应的子任务,再进行各个子任务的分配。而各个计算节点的数据处理能力有限,因此可以根据计算节点的处理能力以及数据处理任务的数量,进行子节点的分配。
需要说明的是,由同一数据处理任务拆分得到的子任务分配的计算节点各不相同,而不同数据处理任务的同一类别的子任务可以分配到相同的计算节点。例如,对于同一判决文书,获取庭审信息的计算节点和获取嫌疑人信息的计算节点不同,而获取不同判决文书中庭审信息的计算节点,可以是同一个计算节点。
具体的,在一个分配周期内分配到一个计算节点的任务量Pl,即子任务的数量,不超过该计算节点在该分配周期内的待处理任务量,其中,待处理任务量可以根据该分配周期的上一个分配周期结束时未完成的任务数量以及在本分配周期内接收的数据处理任务的数量确定。通常来说,待处理任务量为上个分配周期结束时未完成的任务量与本分配周期内接收到的数据处理任务的数据之和,也就是说,待处理任务量必然少于未经处理的总任务量。例如,某一计算节点在第一个分配周期Win1结束时未完成2个任务,且第二个分配周期Win1内接收到2个数据处理任务,则在第二个分配周期Win2内分配到该计算节点的子任务的数据不超过4个。
具体的,在一个分配周期内分配到一个计算节点的任务量Pl,不超过该计算节点的周期处理数量Qu,其中,计算节点的周期处理数量Qu根据该分配周期的时长与该计算节点对单个任务的平均处理时间确定。具体实施时,计算节点的周期处理数量Qu可以是该分配周期的时长与该计算节点对单个任务的平均处理时间的商,例如该分配周期为10s,则该计算节点对单个任务的平均处理时间为2s,则该计算节点的周期处理数量Qu为5;为了为计算节点留有余量,进一步避免计算节点出现空闲,计算节点的周期处理数量Qu还可以是该分配周期的时长与该计算节点对单个任务的平均处理时间的商与预设值的和,例如例如该分配周期为10s,则该计算节点对单个任务的平均处理时间为2s,预设值为1,则该计算节点的周期处理数量Qu为6。
在分配周期结束时,可以根据计算节点在该分配周期内对单个任务的平均处理时间,更新计算节点的周期处理数量,以便根据更新后的周期处理数据进行子任务的分配。
在本申请实施例中,还可以为数据处理任务记录多个子任务中已完成的第三子任务和未完成的第四子任务,并在每个分配周期更新一次第三子任务和第四子任务。例如一个分配周期内对某一子任务进行了处理,则该子任务在处理完成之前是第四子任务,在该子任务处理完成之后即为第三子任务。第三子任务和第四子任务的更新可以在分配周期结束时进行。
在本申请实施例中,还可以为计算节点记录最近一个周期内计算节点已完成处理的第五子任务和计算节点未完成处理的第六子任务,并在每个分配周期更新一个第五子任务和第六子任务。例如,在一个分配周期内,某一计算节点被分配了4个子任务,完成了3个子任务,则在分配周期开始时,第六子任务的数量为4,第五子任务的数量为0,而在分配周期结束时,第六子任务的数量为1,第五子任务的数量为3。第五子任务和第六子任务的更新可以在分配周期结束时进行。
在本申请实施例中,还可以统计一个分配周期内第一类别的计算节点的任务处理情况,任务处理情况可以是第一类别的计算节点完成分配的全部第一类别的子任务的耗时情况、完成单个第一类别的子任务的平均速度等。若第一类别的计算节点的任务处理情况满足拥堵条件,则认为该计算节点的资源不足,可以增加第一类别的计算节点的数量。其中,拥堵条件可以是第一类别的计算节点对第一类别的子任务的平均处理时间大于或等于第一预设处理时间,则认为该计算节点的处理速度较慢,构成拥堵;拥堵条件也可以是第一类别的计算节点对第一类别的子任务的平均处理时间远远大于或等于其他节点对子任务的平均处理时间,则认为该计算节点的处理速度较慢,构成拥堵。
在本申请实施例中,还可以统计一个分配周期内第二类别的计算节点的任务处理情况,任务处理情况可以是第二类别的计算节点完成分配的全部第二类别的子任务的耗时情况、完成单个第二类别的子任务的平均速度等,若第二类别的计算节点的任务处理情况满足空闲条件,则认为该计算节点的资源过多,可以减少第二类别的计算节点的数量。其中,空闲条件可以是第二类别的计算节点对第二类别的子任务的平均处理时间小于或等于第二预设处理时间,则认为该计算节点的处理速度较快,导致空闲;空闲条件也可以是第二类别的计算节点对第二类别的子任务的平均处理时间远远小于或等于其他节点对子任务的平均处理时间,则认为该计算节点的处理速度较快,导致空闲。
本申请实施例中,可以将数据处理任务划分为多个子任务,将多个子任务分配至对应的计算节点进行处理,并根据计算节点的处理能力进行子任务的合理分配,以及根据计算节点的数据处理能力进行计算资源的调配,从而使计算资源合理利用,在相同计算资源的情况下,进一步提高流式数据处理任务的执行效率。
下面结合具体场景,对本申请实施例提供的数据处理的方法进行示例性说明。
在第一个分配周期Win1中,接收到了10个数据处理任务,该数据处理任务具体为,从判决文书中获取庭审信息、嫌疑人信息、作案信息、起诉信息、判决信息等,则可以对这10个数据处理任务进行划分,每个数据处理任务可以划分为6个子任务,将这6个子任务分别分配给各不相同的计算节点进行处理,也就是说,每个计算节点最多可以分配10个子任务。
在第二个分配周期Win2中,计算节点对分配到的各个子任务进行处理。由于10个数据处理任务对应的子任务均被分配给相应的计算节点,一个计算节点可以在处理完在先的子任务后进行在后的子任务的处理,而不必等到所有的计算节点均完成对在先的所有的子任务再进行在后的子任务的处理,因此,减少了计算节点的等待时间。
由于各个子任务的计算量不同,计算节点对相应的子任务的处理耗时也不同,因此,有些计算节点在第二个分配周期Win2还未结束即完成了所有子任务的处理,例如获取判决信息的计算节点较早的完成了所有子任务的处理,而有些计算节点在第二个分配周期Win2结束时还未完成所有子任务的处理,例如获取作案信息的计算节点还剩2个子任务未完成,其他计算节点刚好在第二个分配周期Win2结束时完成所有子任务的处理。则还可以对未完成的子任务和已完成的子任务进行记录,以在下一个分配周期内对未完成的子任务进行处理。
在第二分配周期Win2中,还接收到20个数据处理任务,令第二分配周期Win2和第一分配周期Win1的时长相同,则由于获取判决信息的计算节点的处理能力相对较强,获取作案信息的计算节点的处理能力相对较弱,则可以为获取判决信息的计算节点分配较多的子任务,例如可以分配13个,而为获取作案信息的计算节点分配较少的子任务,例如可以为8个,其他计算节点分配到的子任务数量为10个,这样,在第三个分配周期Win3中,计算节点可以将分配的全部的子任务处理完成。
此外,获取判决信息的计算节点的处理能力相对较强,则可以相应减少获取判决信息的计算节点的数量,以降低获取判决信息的计算节点的数据处理速度。而获取作案信息的计算节点的处理能力相对较弱,则可以相应增加获取判决信息的计算节点的数量,以提高获取作案信息的计算节点的数据处理速度。通过合理的任务分配和计算资源调配,可以减少计算节点的等待时间,提高计算资源的利用率,从而提高流式数据处理任务的执行效率。
基于以上实施例提供的一种数据处理的方法,本申请实施例还提供了一种数据处理的装置,下面结合附图来详细说明其工作原理。
参见图2,该图为本申请实施例提供的一种数据处理的装置的结构框图,该装置可以包括:
任务接收单元110,用于接收数据处理任务;
任务划分单元120,用于将所述数据处理任务划分成多个子任务,其中,每个所述子任务均可被独立运行;
分配单元130,用于将各个所述子任务分别分配给各不相同的空闲的计算节点进行处理;
输出单元140,用于根据各个所述计算节点对各个所述子任务的处理结果,输出所述数据处理任务的处理结果。
可选的,所述计算节点在一个分配周期内分配到的任务数量,不超过所述计算节点在所述分配周期内的待处理任务量,和/或,不超过所述计算节点的周期处理数量;
其中,所述待处理任务量根据在所述分配周期的上一个分配周期结束时未完成的任务数量和在所述分配周期内接收的数据处理任务的数量确定;所述计算节点的周期处理数量根据所述分配周期的时长与所述计算节点对单个任务的平均处理时间确定。
可选的,所述装置还包括:
更新单元,用于在所述分配周期结束时,根据在所述分配周期内所述计算节点对单个任务的平均处理时间,更新所述计算节点的周期处理数量。
可选的,所述装置还包括:
第一统计单元,用于统计在一个分配周期内第一类别的计算节点的任务处理情况;
第一计算节点调整单元,用于若所述第一类别的计算节点的任务处理情况满足拥堵条件,增加所述第一类别的计算节点的数量。
可选的,所述装置还包括:
第二统计单元,用于统计在一个分配周期内第二类别的计算节点的任务处理情况;
第二计算节点调整单元,用于若所述第二类别的计算节点的任务处理情况满足空闲条件,减少所述第二类别的计算节点的数量。
可选的,所述分配单元具体用于:
若在所述多个子任务中第一子任务与第二子任务之间具有前后序依赖关系,将所述第一子任务分配给第一计算节点进行处理,并在获得所述第一计算节点对所述第一子任务的处理结果之后,再将所述第二子任务分配给所述第二计算节点。
可选的,所述装置还包括:
第一记录和更新单元,用于为所述数据处理任务记录所述多个子任务中已完成处理的第三子任务和未完成处理的第四子任务,并在每个分配周期更新一次所述第三子任务和所述第四子任务。
可选的,所述装置还包括:
第二记录和更新单元,用于为所述计算节点记录最近一个周期内所述计算节点已完成处理的第五子任务和所述计算节点未完成处理的第六子任务,并在每个分配周期更新一次所述第五子任务和所述第六子任务。
本申请实施例提供的一种数据处理的设备中,通过将接收的数据处理任务划分为多个子任务,每个子任务均可被独立运行,将各个子任务分别分配给各不相同的空闲的计算节点进行处理,根据各个计算节点对各个子任务的处理结果,可以输出数据处理任务的处理结果。由于各个子任务对应不同的计算节点,且各个子任务均可被独立运行,因此各个计算节点独立对分配的子任务进行处理,这样,计算节点在完成对子任务的处理后处于空闲状态,可以用于执行下一个数据处理任务的子任务,相比于现有技术中,只有对数据处理任务完成各个阶段的处理之后,才能开始对下一个数据处理任务的处理的方案来说,本申请实施例减少了空闲的计算资源,提高了计算资源的利用率,从而提高流式数据处理任务的执行效率。
基于以上数据处理的方法及装置,本申请实施例还提供了一种数据处理的设备,参考图3所示,所述设备包括处理器以及存储器;
其中,所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行本申请实施例提供的一种数据处理的方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的一种数据处理的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
接收数据处理任务;
将所述数据处理任务划分成多个子任务,其中,每个所述子任务均可被独立运行;
将各个所述子任务分别分配给各不相同的空闲的计算节点进行处理;
根据各个所述计算节点对各个所述子任务的处理结果,输出所述数据处理任务的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述计算节点在一个分配周期内分配到的任务数量,不超过所述计算节点在所述分配周期内的待处理任务量,和/或,不超过所述计算节点的周期处理数量;
其中,所述待处理任务量根据在所述分配周期的上一个分配周期结束时未完成的任务数量和在所述分配周期内接收的数据处理任务的数量确定;所述计算节点的周期处理数量根据所述分配周期的时长与所述计算节点对单个任务的平均处理时间确定。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述分配周期结束时,根据在所述分配周期内所述计算节点对单个任务的平均处理时间,更新所述计算节点的周期处理数量。
4.根据权利要求1所述的方法,其特征在于,还包括:
统计在一个分配周期内第一类别的计算节点的任务处理情况;
若所述第一类别的计算节点的任务处理情况满足拥堵条件,增加所述第一类别的计算节点的数量。
5.根据权利要求1所述的方法,其特征在于,还包括:
统计在一个分配周期内第二类别的计算节点的任务处理情况;
若所述第二类别的计算节点的任务处理情况满足空闲条件,减少所述第二类别的计算节点的数量。
6.根据权利要求1所述的方法,其特征在于,所述将各个所述子任务分别分配给各不相同的计算节点进行处理,包括:
若在所述多个子任务中第一子任务与第二子任务之间具有前后序依赖关系,将所述第一子任务分配给第一计算节点进行处理,并在获得所述第一计算节点对所述第一子任务的处理结果之后,再将所述第二子任务分配给所述第二计算节点。
7.根据权利要求1所述的方法,其特征在于,还包括:
为所述数据处理任务记录所述多个子任务中已完成处理的第三子任务和未完成处理的第四子任务,并在每个分配周期更新一次所述第三子任务和所述第四子任务。
8.一种数据处理的装置,其特征在于,包括:
任务接收单元,用于接收数据处理任务;
任务划分单元,用于将所述数据处理任务划分成多个子任务,其中,每个所述子任务均可被独立运行;
分配单元,用于将各个所述子任务分别分配给各不相同的空闲的计算节点进行处理;
输出单元,用于根据各个所述计算节点对各个所述子任务的处理结果,输出所述数据处理任务的处理结果。
9.一种数据处理的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的数据处理的方法。
10.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至7任一项所述数据处理的方法。
CN201811639975.3A 2018-12-29 2018-12-29 一种数据处理的方法和装置 Pending CN109815011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811639975.3A CN109815011A (zh) 2018-12-29 2018-12-29 一种数据处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811639975.3A CN109815011A (zh) 2018-12-29 2018-12-29 一种数据处理的方法和装置

Publications (1)

Publication Number Publication Date
CN109815011A true CN109815011A (zh) 2019-05-28

Family

ID=66603050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811639975.3A Pending CN109815011A (zh) 2018-12-29 2018-12-29 一种数据处理的方法和装置

Country Status (1)

Country Link
CN (1) CN109815011A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351345A (zh) * 2019-06-25 2019-10-18 阿里巴巴集团控股有限公司 用于业务请求处理的方法及装置
CN110689265A (zh) * 2019-09-27 2020-01-14 苏州达家迎信息技术有限公司 任务分配方法、装置、设备及存储介质
CN112749012A (zh) * 2021-01-15 2021-05-04 北京智芯微电子科技有限公司 终端设备的数据处理方法、装置、系统及存储介质
CN113139003A (zh) * 2020-01-19 2021-07-20 上海静客网络科技有限公司 一种基于spark的大数据处理方法
CN113238837A (zh) * 2020-07-10 2021-08-10 北京旷视科技有限公司 计算流程图构建、计算效率优化方法、装置及电子设备
CN113806034A (zh) * 2021-01-06 2021-12-17 北京沃东天骏信息技术有限公司 任务执行方法及装置、计算机可读存储介质和电子设备
CN113886089A (zh) * 2021-10-21 2022-01-04 上海勃池信息技术有限公司 一种任务处理方法、装置、系统、设备及介质
CN114220383A (zh) * 2020-09-18 2022-03-22 西安诺瓦星云科技股份有限公司 任务处理方法、装置和控制设备以及led显示系统
WO2022057940A1 (zh) * 2020-09-21 2022-03-24 中国移动通信有限公司研究院 一种计算节点资源信息更新方法、节点和存储介质
CN114446077A (zh) * 2020-11-05 2022-05-06 上汽通用汽车有限公司 用于车位检测的装置、方法、存储介质及车辆
CN114860412A (zh) * 2022-05-19 2022-08-05 北京百度网讯科技有限公司 任务处理方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102541A (zh) * 2013-04-08 2014-10-15 鸿富锦精密工业(深圳)有限公司 签核动态调整方法及系统
CN105573827A (zh) * 2015-12-11 2016-05-11 联动优势电子商务有限公司 一种多机并行处理方法及装置
CN106293893A (zh) * 2015-06-26 2017-01-04 阿里巴巴集团控股有限公司 作业调度方法、装置及分布式系统
CN106874487A (zh) * 2017-02-21 2017-06-20 国信优易数据有限公司 一种分布式爬虫管理系统及其方法
US20170329650A1 (en) * 2016-05-10 2017-11-16 Fujitsu Limited Information processing apparatus and job management method
CN108153583A (zh) * 2016-12-06 2018-06-12 阿里巴巴集团控股有限公司 任务分配方法及装置、实时计算框架系统
CN108287756A (zh) * 2018-01-25 2018-07-17 联动优势科技有限公司 一种处理任务的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102541A (zh) * 2013-04-08 2014-10-15 鸿富锦精密工业(深圳)有限公司 签核动态调整方法及系统
CN106293893A (zh) * 2015-06-26 2017-01-04 阿里巴巴集团控股有限公司 作业调度方法、装置及分布式系统
CN105573827A (zh) * 2015-12-11 2016-05-11 联动优势电子商务有限公司 一种多机并行处理方法及装置
US20170329650A1 (en) * 2016-05-10 2017-11-16 Fujitsu Limited Information processing apparatus and job management method
CN108153583A (zh) * 2016-12-06 2018-06-12 阿里巴巴集团控股有限公司 任务分配方法及装置、实时计算框架系统
CN106874487A (zh) * 2017-02-21 2017-06-20 国信优易数据有限公司 一种分布式爬虫管理系统及其方法
CN108287756A (zh) * 2018-01-25 2018-07-17 联动优势科技有限公司 一种处理任务的方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351345A (zh) * 2019-06-25 2019-10-18 阿里巴巴集团控股有限公司 用于业务请求处理的方法及装置
CN110351345B (zh) * 2019-06-25 2021-10-12 创新先进技术有限公司 用于业务请求处理的方法及装置
CN110689265A (zh) * 2019-09-27 2020-01-14 苏州达家迎信息技术有限公司 任务分配方法、装置、设备及存储介质
CN113139003A (zh) * 2020-01-19 2021-07-20 上海静客网络科技有限公司 一种基于spark的大数据处理方法
CN113238837A (zh) * 2020-07-10 2021-08-10 北京旷视科技有限公司 计算流程图构建、计算效率优化方法、装置及电子设备
CN114220383A (zh) * 2020-09-18 2022-03-22 西安诺瓦星云科技股份有限公司 任务处理方法、装置和控制设备以及led显示系统
WO2022057940A1 (zh) * 2020-09-21 2022-03-24 中国移动通信有限公司研究院 一种计算节点资源信息更新方法、节点和存储介质
CN114446077A (zh) * 2020-11-05 2022-05-06 上汽通用汽车有限公司 用于车位检测的装置、方法、存储介质及车辆
CN114446077B (zh) * 2020-11-05 2023-10-03 上汽通用汽车有限公司 用于车位检测的装置、方法、存储介质及车辆
CN113806034A (zh) * 2021-01-06 2021-12-17 北京沃东天骏信息技术有限公司 任务执行方法及装置、计算机可读存储介质和电子设备
CN112749012A (zh) * 2021-01-15 2021-05-04 北京智芯微电子科技有限公司 终端设备的数据处理方法、装置、系统及存储介质
CN113886089A (zh) * 2021-10-21 2022-01-04 上海勃池信息技术有限公司 一种任务处理方法、装置、系统、设备及介质
CN113886089B (zh) * 2021-10-21 2024-01-26 上海勃池信息技术有限公司 一种任务处理方法、装置、系统、设备及介质
CN114860412A (zh) * 2022-05-19 2022-08-05 北京百度网讯科技有限公司 任务处理方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN109815011A (zh) 一种数据处理的方法和装置
CN106802826B (zh) 一种基于线程池的业务处理方法及装置
CN104731647B (zh) 任务处理方法及系统
CN108446176B (zh) 一种任务分配方法、计算机可读存储介质及终端设备
CN102508709B (zh) 购供售一体化电能量采集与监控系统中基于分布式缓存的采集任务调度方法
CN103309946B (zh) 多媒体文件处理方法、装置及系统
CN107025236B (zh) 清算系统间的数据处理方法及数据清算系统
CN107025139A (zh) 一种基于云计算的高性能计算调度框架
CN103399800B (zh) 基于Linux并行计算平台的动态负载均衡方法
CN103414577B (zh) 用于Hadoop平台的计费系统及方法
CN107943577A (zh) 用于调度任务的方法和装置
CN107315627A (zh) 一种自动化配置数据仓库并行任务队列的方法和装置
CN106815254A (zh) 一种数据处理方法和装置
CN103593232B (zh) 一种数据仓库的任务调度方法及装置
CN105955873A (zh) 一种任务处理方法和装置
CN108241534A (zh) 一种任务处理、分配、管理、计算的方法以及装置
CN108536530B (zh) 一种多线程任务调度方法及装置
CN106020777A (zh) 一种数据处理方法、装置及系统
CN106383746A (zh) 大数据处理系统的配置参数确定方法和装置
CN106844483A (zh) 一种日志数据流处理方法
CN108428114A (zh) 项目的信息处理方法及装置、存储介质、电子装置
CN108228326A (zh) 批量任务处理方法和分布式系统
CN107291720A (zh) 一种实现批量数据处理的方法、系统和计算机集群
CN107229660A (zh) 一种数据去重的方法和设备
CN109102245A (zh) 一种审批流程的处理方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528