CN105892996A - 一种批量数据处理的流水线作业方法及装置 - Google Patents
一种批量数据处理的流水线作业方法及装置 Download PDFInfo
- Publication number
- CN105892996A CN105892996A CN201510926048.XA CN201510926048A CN105892996A CN 105892996 A CN105892996 A CN 105892996A CN 201510926048 A CN201510926048 A CN 201510926048A CN 105892996 A CN105892996 A CN 105892996A
- Authority
- CN
- China
- Prior art keywords
- subtask
- processes
- data
- mission thread
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 182
- 238000012545 processing Methods 0.000 title claims abstract description 47
- 230000004069 differentiation Effects 0.000 claims abstract description 22
- 238000013523 data management Methods 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 2
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 1
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3867—Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种批量数据处理的流水线作业方法及装置。其方法包括:接收数据管理系统发送的数据处理任务;将所述数据处理任务分解为多个子任务;根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理;分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。本发明解决了传统的大批量数据处理具有处理的质量和效率较低的技术问题,具有操作性好、稳定性强、并发以及扩展性较佳的特点。
Description
技术领域
本发明实施例涉及批量数据处理领域,尤其涉及一种批量数据处理的流水线作业方法及装置。
背景技术
目前,在数据处理领域,一些大批量的数据处理主要以python/shell脚本进行批量的处理数据。
而python/shell脚本都是定时脚本,难以监控某个脚本状态,某个脚本运行失败或某条数据运行失败,难以及时反应,导致数据处理的稳定性较差;任何变动需要对每个单独的脚本进行操作,维护起来异常繁琐,也容易出问题,使其操作性较差;由于其自身架构特点,不支持多线程并行处理,使其具有并发性;另外,其在处理数据时,没有统一调度,导致其水平扩展性差。因此,以python/shell脚本为基础进行的数据处理,大多有操作性差、稳定性差、没有并发性以及没有扩展性的特点,导致其在进行大批量数据处理时,处理的质量和效率较低。
特别是在如今的大数据时代,要求数据处理具有极高的效率和质量,以保证人们对快节奏生活的追求。很显然,传统的大批量数据处理具有处理的质量和效率较低的技术问题,已经不能满足人们的需求,亟待改进。
发明内容
本发明实施例提供了一种批量数据处理的流水线作业方法及装置,用以解决传统的大批量数据处理具有处理的质量和效率较低的技术问题。
本发明实施例提供了一种批量数据处理的流水线作业方法,所述方法包括:
接收数据管理系统发送的数据处理任务;
将所述数据处理任务分解为多个子任务;
根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理;
分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。
本发明实施例并提供了一种批量数据处理的流水线作业装置,所述装置包括:
接收模块,用于接收数据管理系统发送的数据处理任务;
任务分解模块,用于将所述数据处理任务分解为多个子任务;
生成模块,用于根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理;
分配模块,用于分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。
本发明实施例提供的批量数据处理的流水线作业方法及装置,通过将数据处理任务分解为多个子任务,在多个任务线程上并行的进行差异化处理,解决了传统的大批量数据处理具有处理的质量和效率较低的技术问题;。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种批量数据处理的流水线作业方法的一流程图;
图2为本发明实施例提供的一种批量数据处理的流水线作业方法的又一流程图;
图3为本发明实施例提供的一种批量数据处理的流水线作业方法的又一流程图;
图4为本发明实施例提供的一种批量数据处理的流水线作业方法的又一流程图;
图5为本发明实施例提供的一种批量数据处理的流水线作业方法的又一流程图;
图6为本发明实施例提供的一种批量数据处理的流水线作业装置的一方框图;
图7为本发明实施例提供的一种批量数据处理的流水线作业装置的又一方框图;
图8为本发明实施例提供的一种批量数据处理的流水线作业装置的又一方框图;
图9为本发明实施例提供的一种批量数据处理的流水线作业装置的又一方框图;
图10为本发明实施例提供的一种批量数据处理的流水线作业装置的又一方框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
为解决传统的大批量数据处理具有处理的质量和效率较低的技术问题,本发明实施例1提供一种批量数据处理的流水线作业方法。所述方法适合于所有大批量数据的处理,如查询某个视频网站中某一电视剧的剧集更新情况、某一购物网站上某件商品的价格变动情况等都可以用本发明的方法进行处理。请参考图1,为本发明实施例1的一种批量数据处理的流水线作业方法的一流程图,所述方法包括:
步骤S100,接收数据管理系统发送的数据处理任务;
步骤S200,将所述数据处理任务分解为多个子任务;
步骤S300,根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理;
步骤S400,分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。
在步骤S100中,所述数据管理系统可以是网站的数据库,但并不以此为限,所述数据处理任务可以指的是一个大型的数据比对或者查询任务,在这里,可以为简化描述以任务A来代替。所述接收数据管理系统发送的数据处理任务的形式可以是通过互联网请求的形式,或者用户输入的形式等,对此本发明实施例并不做具体限定。
以上所举的实例只是本发明的其中若干种实现形式,可以想到的是在本发明的构思下可以衍生出其他多种实现形式,但应当理解为属于本发明的思想范畴,应落入本发明的保护范围。
承接上述步骤S100,在步骤S200中,在接收到所述任务A之后,将所述任务A分解为多个子任务,在这里,并不对所述子任务的个数进行具体的限定,另外所述将所述任务A分解为多个子任务的工作是由系统根据任务A的复杂程度以及处理A的装置的运行能力自动进行的。例如,将所述任务A分解为9个子任务,分别为A1-A9,其中这9个任务(A1-A9)完全处理完毕,即所述任务A处理完毕。
承接上述步骤S200,在步骤S300中,根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理,在这里,所述多个任务线程的数量的设定,是系统根据处理所述任务A的装置的运行能力,以及对所述任务A的处理结果的紧迫程度,自动进行的。其中,所述多个任务线程的数量与所述任务A的子任务(A1-A9)并没有必然的联系,所述一个任务线程进行一个子任务的处理工作,可以想到的是,所述任务线程的数量越多,处理所述任务A所用的时间就越少,但是这时候要求处理所述任务A的装置具有很高的配置,那是因为所述多个任务线程能够并行处理,即所述多个任务线程是独立工作的,即当开的所述任务线程越多时,要求所述处理装置的配置越高,这也呼应了上述提到的所述多个任务线程的数量的设定是系统根据处理所述任务A的装置的运行能力等设定的。当系统的运行能力即系统的配置一般时,此时通常会设定比较少的任务线程数,以避免处理装置的超负荷运行而影响数据处理质量。本发明的实施例假设有系统开启了四个任务线程(L1、L2、L3以及L4)来应对所述9个子任务(A1-A9)。
承接上述步骤S300,在步骤S400中,在生成所述多个任务线程之后,要对步骤200中分解出的多个子任务进行分配,使得每个所述任务线程上都有一个子任务,在这里,通常情况下所述子任务的个数一般会多于,如上述所举实例中,四个任务线程(L1、L2、L3以及L4)来应对所述9个子任务(A1-A9)。在所述任务线程上获得子任务后,即刻进行各自的任务处理工作。
以上所举的实例只是本发明的其中若干种实现形式,可以想到的是在本发明的构思下可以衍生出其他多种实现形式,但应当理解为属于本发明的思想范畴,应落入本发明的保护范围。
另外,所述差异化处理包括同步处理以及异步处理,所述同步处理指的是多个应用线程上的多个子任务同时进行处理;所述异步处理就是按照不同步的程序处理问题,所述异步处理与所述同步处理是对立的,而产生他们的是多线程或者多进程。异步处理的好处就是提高设备使用率,从而在宏观上提升程序运行效率,但是弊端就是容易出现冲突操作和数据脏读。同步则刚好相反,同步是一种降低设备使用率,在宏观上降低了程序的运行效率,而且很多系统或者是运行环境在处理同步的时候为了维持同步的有效性也会付出许多格外的系统资源开支,对性能影响相当大。但是同步保证了程序运行的正确性与数据的完整性。
本发明实施例提供的批量数据处理的流水线作业方法及装置,通过将数据处理任务分解为多个子任务,在多个任务线程上并行的进行差异化处理,解决了传统的大批量数据处理具有处理的质量和效率较低的技术问题。
实施例2
请参考图2,为本发明实施例2的一种批量数据处理的流水线作业方法的一流程图,本实施例在实施例1的基础上,在步骤S400,分别将所述多个子任务分配到所述多个任务线程上进行差异化处理之后,所述方法还包括:
步骤S500,分别向下输出每个子任务的处理结果,并分别向上反馈每个任务线程的处理状态,以请求新的数据处理任务。
在步骤S500中,所述多个子任务在所述多个任务线程上进行差异化处理,当某一子任务的处理工作完毕时,会向下输出处理结果,所述处理结果可以是直接被用户查看的结果或者是经过系统加工之后的结果,再次对于所述处理结果的具体形式,本发明并不做具体的限定。在向下输出所述处理结果的过程中会向上自动反馈处理状态,即任务处理完毕的状态,以请求新的数据处理任务。如上所举实例中,任务线程L1、L2、L3以及L4分别处理子任务A1、A2、A3以及A4,当在任务线程L1上的子任务A1处理完毕时会向下输出B1的处理结果,同时向上反馈所述任务线程L1的处理状态,当所述处理状态为处理完毕时,此时会请求发送新的子任务比如子任务A5到所述任务线程L1,即向下输出每个子任务的处理结果,并分别向上反馈每个任务线程的处理状态,以请求新的数据处理任务。
当然,以上所举的实例只是本发明的其中若干种实现形式,可以想到的是在本发明的构思下可以衍生出其他多种实现形式,但应当理解为属于本发明的思想范畴,应落入本发明的保护范围。
实施例3
请参考图3,为本发明实施例3的一种批量数据处理的流水线作业方法的一流程图,本实施例在实施例1的基础上,所述步骤S400,分别将所述多个子任务分配到所述多个任务线程上进行差异化处理,进一步包括:
步骤S410,识别所述多个子任务的类型,其中,所述多个子任务的类型包括关联型和非关联型;
步骤S430,对于所述关联型的子任务,分别在所述多个任务线程上进行所述同步处理,对于所述非关联型的子任务,进行与所述同步处理相对的异步处理。
在步骤S410中,识别所述多个子任务的类型,其中,所述多个子任务的类型包括关联型和非关联型。要识别所述分配到所述多个任务线程上的子任务的类型,在这里,所述多个子任务的类型包括关联型和非关联型,所述关联型可以是指所述多个子任务之间相互关联或者所述多个子任务的结果需要一起输出等关系,当然在实际应用中所述多个子任务之间的关联关系远不止以上所列举的这些,系统可以根据任务的类型自由设定,本发明对于所述关联性的具体关系并不是重点,重点在于所述多个子任务之间是相互关联的,比如以上所举实例中的子任务A1、A2以及A3是相关联的;而子任务的非关联性指的是某一子任务与其他相互关联的子任务并无关系,是独立的,比如以上所举实例中的子任务A4与子任务A1、A2以及A3是没有关联的,即子任务A4是非关联型的。当然,以上所举的实例只是本发明的其中若干种实现形式,可以想到的是在本发明的构思下可以衍生出其他多种实现形式,但应当理解为属于本发明的思想范畴,应落入本发明的保护范围。
承接上述步骤S410,在步骤S430中,对于所述关联型的子任务,分别在所述多个任务线程上进行所述同步处理,对于所述非关联型的子任务,进行与所述同步处理相对的异步处理。在这里,要进行差异化的同步处理和异步处理主要是考虑到处理装置的运行能力,是为了提升处理效率的一种做法,具体的,对于所述关联型的子任务,分别在所述多个任务线程上进行所述同步处理,所述同步处理可以保证所述多个子任务之间的处理进度相同,在同一时间得到处理结果,以便于用户进行系统性的查看或者处理结果的加工装置进行快速加工以供用户进行及时查看;对于所述非关联型的子任务,进行与所述同步处理相对的异步处理,在实施例1中已经详细讲述所述异步处理是相对于所述同步处理而言的,其可以根据所述任务的类型暂缓处理,即晚于所述同步处理的子任务,以保证所述同步处理所需要的运行量,对于其整个数据处理任务的进度以及结果并不会有影响,反而在一定程度上提高了数据处理的效率。
实施例4
请参考图4,为本发明实施例4的一种批量数据处理的流水线作业方法的一流程图,本实施例在实施例1的基础上,在步骤S400,分别将所述多个子任务分配到所述多个任务线程上进行差异化处理之后,所述方法进一步包括:
步骤S600,检测各个任务线程的资源占用率,对所述资源占用率超过一门限值的任务线程上承载的任务数据进行缓存;
步骤S700,当所述资源占用率回落到所述门限值以内时,读取所缓存的任务数据,在所述任务线程上继续处理。
在步骤S600中,在步骤S400,分别将所述多个子任务分配到所述多个任务线程上进行差异化处理之后,进行数据处理的过程中会时时检测各个任务线程的资源占用率,对所述资源占用率超过一门限值的任务线程上承载的任务数据进行缓存,在这里,所述资源占用率指的是在处理所述子任务时系统CPU的利用率,为保证系统稳定运行会设置一个门限值,当超过所述门限值的时候会强制关掉其中若干个任务线程上的子任务,而此时正在进行中的子任务并不是完全终止,而是对已经进行的部分进行缓存,即中止其中若干个任务线程的运行。
承接上述步骤S600,在步骤S700中,当所述资源占用率回落到所述门限值以内时,读取所缓存的任务数据,在所述任务线程上继续处理。在这里,所述资源占用率并不是一直居高不下,其一定会是有波动的,当所述资源占用率回落到所述门限值以内时会重启所述子任务的处理工作,而此时并不是重新从头开始进行处理工作,而是读取在暂停之前的缓存数据,从前一次中止的地方进行处理。当然,可以想到的是,其重启数据处理也并不是前一次暂停的多个任务线程同时开启,而是根据所述资源占用率的大小有目的的开启,以免全部开启之后使得所述资源占用率再次超过所述门限值,导致重启失败,影响所述数据处理的效率。当然,以上所举的实例只是本发明的其中若干种实现形式,可以想到的是在本发明的构思下可以衍生出其他多种实现形式,但应当理解为属于本发明的思想范畴,应落入本发明的保护范围。
本实施例通过检测各个任务线程的资源占用率,进行暂时缓存处理,并择机读取缓存重启任务处理,可以充分利用处理资源,在一定程度上提高数据处理系统的稳定性
实施例5
请参考图5,为本发明实施例5的一种批量数据处理的流水线作业方法的一流程图,本实施例在实施例1的基础上,所述步骤S400,分别将所述多个子任务分配到所述多个任务线程上进行差异化处理,进一步包括:
步骤S420,给所述多个子任务划分不同的优先级;
步骤S440,依据所述优先级由高到低的顺序,将优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理。
在步骤S420中,给所述多个子任务划分不同的优先级,在这里,对所述多个子任务分配任务线程之前要对,所述多个子任务划分不同的优先级,所述优先级可以根据任务的具体性质进行划分,例如处理子任务A6是需要利用子任务A1的处理结果,那就表明子任务A1的优先级大于所述子任务A6的优先级,当然,以上所举的实例只是本发明的其中若干种实现形式,可以想到的是在本发明的构思下可以衍生出其他多种实现形式,但应当理解为属于本发明的思想范畴,应落入本发明的保护范围。
承接上述步骤S420,在步骤S440中,依据所述优先级由高到低的顺序,将优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理。在这里,一般情况下优先级高的子任务优先处理,优先级低的子任务稍后处理,具体的,对于优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理,即对于优先级高的多个子任务首先将其分配到多个任务线程上进行优先处理,以便于其处理结果被优先级低的子任务所利用,做到统筹管理,合理控制处理流程,这也符合差异化处理的理念具有提升数据处理效率的技术效果。
本实施例对多个子任务进行优先级的排序,依据所述优先级由高到低的顺序,将优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理,使其具有很好的调度性。
实施例6
为解决传统的大批量数据处理具有处理的质量和效率较低的技术问题,本发明实施例6提供一种批量数据处理的流水线作业装置。所述装置适合于所有大批量数据的处理,如查询某个视频网站中某一电视剧的剧集更新情况、某一购物网站上某件商品的价格变动情况等都可以用本发明的装置进行处理。请参考图6,为本发明实施例6的一种批量数据处理的流水线作业装置的一方框图,所述装置10包括接收模块110、任务分解模块120、生成模块130以及分配模块140。
所述接收模块110用于接收数据管理系统发送的数据处理任务。
所述任务分解模块120用于将所述数据处理任务分解为多个子任务。
所述生成模块130用于根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理。
所述分配模块140用于分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。
其中,所述差异化处理包括同步处理以及异步处理。
实施例7
请参考图7,为本发明实施例7的一种批量数据处理的流水线作业装置的一方框图,本实施例是在实施例6的基础上,所述装置10还包括输出模块150以及反馈模块160。
所述输出模块150用于分别向下输出每个子任务的处理结果。
所述反馈模块160用于分别向上反馈每个任务线程的处理状态,以请求新的数据处理任务。
实施例8
请参考图8,为本发明实施例8的一种批量数据处理的流水线作业装置的一方框图,本实施例是在实施例6的基础上,所述分配模块140进一步包括识别单元1410以及第一分配单元1420。
所述识别单元1410用于识别所述多个子任务的类型,其中,所述多个子任务的类型包括关联型和非关联型。
所述第一分配单元1420用于将所述关联型的子任务分配到所述多个任务线程上进行所述同步处理,将所述非关联型的子任务分配到所述多个任务线程上进行与所述同步处理相对的异步处理。
实施例9
请参考图9,为本发明实施例9的一种批量数据处理的流水线作业装置的一方框图,本实施例是在实施例6的基础上,所述装置10还包括检测模块170以及读取模块180。
所述检测模块170用于检测各个任务线程的资源占用率,对所述资源占用率超过一门限值的任务线程上承载的任务数据进行缓存。
所述读取模块180当所述资源占用率回落到所述门限值以内时,读取所缓存的任务数据,在所述任务线程上继续处理。
实施例10
请参考图10,为本发明实施例10的一种批量数据处理的流水线作业装置的一方框图,本实施例是在实施例6的基础上,所述分配模块140进一步包括划分单元1430以及第二分配单元1440。
所述划分单元1430用于给所述多个子任务划分不同的优先级。
所述第二分配单元1440用于依据所述优先级由高到低的顺序,将优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理。
以上所述的批量数据处理的流水线作业装置的实施例若有不清楚之处,请参考前述批量数据处理的流水线作业方法的实施例。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种批量数据处理的流水线作业方法,其特征在于,包括:
接收数据管理系统发送的数据处理任务;
将所述数据处理任务分解为多个子任务;
根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理;
分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。
2.如权利要求1所述的批量数据处理的流水线作业方法,其特征在于,还包括:
分别向下输出每个子任务的处理结果,并分别向上反馈每个任务线程的处理状态,以请求新的数据处理任务。
3.如权利要求1所述的批量数据处理的流水线作业方法,其特征在于,所述差异化处理包括同步处理以及异步处理。
4.如权利要求3所述的批量数据处理的流水线作业方法,其特征在于,所述分别将所述多个子任务分配到所述多个任务线程上进行差异化处理进一步包括:
识别所述多个子任务的类型,其中,所述多个子任务的类型包括关联型和非关联型;
对于所述关联型的子任务,分别在所述多个任务线程上进行所述同步处理,对于所述非关联型的子任务,进行与所述同步处理相对的异步处理。
5.如权利要求1所述的批量数据处理的流水线作业方法,其特征在于,所述分别将所述多个子任务分配到所述多个任务线程上进行差异化处理之后还包括:
检测各个任务线程的资源占用率,对所述资源占用率超过门限值的任务线程上承载的任务数据进行缓存;
当所述资源占用率回落到所述门限值以内时,读取所缓存的任务数据,在所述任务线程上继续处理。
6.如权利要求1所述的批量数据处理的流水线作业方法,其特征在于,所述分别将所述多个子任务分配到所述多个任务线程上进行差异化处理进一步包括:
给所述多个子任务划分不同的优先级;
依据所述优先级由高到低的顺序,将优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理。
7.一种批量数据处理的流水线作业装置,其特征在于,包括:
接收模块,用于接收数据管理系统发送的数据处理任务;
任务分解模块,用于将所述数据处理任务分解为多个子任务;
生成模块,用于根据所述多个子任务生成多个任务线程,其中,所述多个任务线程能够并行处理;
分配模块,用于分别将所述多个子任务分配到所述多个任务线程上进行差异化处理。
8.如权利要求7所述的批量数据处理的流水线作业装置,其特征在于,还包括:
输出模块,用于分别向下输出每个子任务的处理结果;
反馈模块,用于分别向上反馈每个任务线程的处理状态,以请求新的数据处理任务。
9.如权利要求7所述的批量数据处理的流水线作业装置,其特征在于,所述差异化处理包括同步处理以及异步处理。
10.如权利要求9所述的批量数据处理的流水线作业装置,其特征在于,所述分配模块进一步包括:
识别单元,用于识别所述多个子任务的类型,其中,所述多个子任务的类型包括关联型和非关联型;
第一分配单元,用于将所述关联型的子任务分配到所述多个任务线程上进行所述同步处理,将所述非关联型的子任务分配到所述多个任务线程上进行与所述同步处理相对的异步处理。
11.如权利要求7所述的批量数据处理的流水线作业装置,其特征在于,还包括:
检测模块,用于检测各个任务线程的资源占用率,对所述资源占用率超过一门限值的任务线程上承载的任务数据进行缓存;
读取模块,当所述资源占用率回落到所述门限值以内时,读取所缓存的任务数据,在所述任务线程上继续处理。
12.如权利要求7所述的批量数据处理的流水线作业装置,其特征在于,所述分配模块进一步包括:
划分单元,用于给所述多个子任务划分不同的优先级;
第二分配单元,用于依据所述优先级由高到低的顺序,将优先级高的所述多个子任务以抢占的方式优先分配到任务线程上进行优先处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510926048.XA CN105892996A (zh) | 2015-12-14 | 2015-12-14 | 一种批量数据处理的流水线作业方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510926048.XA CN105892996A (zh) | 2015-12-14 | 2015-12-14 | 一种批量数据处理的流水线作业方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105892996A true CN105892996A (zh) | 2016-08-24 |
Family
ID=57002992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510926048.XA Pending CN105892996A (zh) | 2015-12-14 | 2015-12-14 | 一种批量数据处理的流水线作业方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105892996A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106341280A (zh) * | 2016-11-04 | 2017-01-18 | 金蝶软件(中国)有限公司 | 业务处理方法和装置 |
CN106648874A (zh) * | 2016-12-30 | 2017-05-10 | 中国建设银行股份有限公司 | 一种批量任务的处理方法及装置 |
CN107333282A (zh) * | 2017-06-05 | 2017-11-07 | 惠州Tcl移动通信有限公司 | 一种基于gpp的5g终端通用平台优化方法及系统 |
CN108170526A (zh) * | 2017-12-06 | 2018-06-15 | 北京像素软件科技股份有限公司 | 负载能力优化方法、装置、服务器及可读存储介质 |
CN108762905A (zh) * | 2018-05-24 | 2018-11-06 | 苏州乐麟无线信息科技有限公司 | 一种多任务事件的处理方法和装置 |
CN109558237A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 一种任务状态管理方法及装置 |
CN109614222A (zh) * | 2018-10-30 | 2019-04-12 | 成都飞机工业(集团)有限责任公司 | 一种多线程资源分配方法 |
CN109857563A (zh) * | 2019-02-18 | 2019-06-07 | 重庆西部汽车试验场管理有限公司 | 任务执行方法、装置和任务执行系统 |
CN109976895A (zh) * | 2019-04-09 | 2019-07-05 | 苏州浪潮智能科技有限公司 | 一种数据库的多任务并发处理方法和装置 |
CN110019071A (zh) * | 2017-11-15 | 2019-07-16 | 北大方正集团有限公司 | 数据处理方法及装置 |
CN110443695A (zh) * | 2019-07-31 | 2019-11-12 | 中国工商银行股份有限公司 | 数据处理方法及其装置、电子设备和介质 |
CN110515718A (zh) * | 2019-08-30 | 2019-11-29 | 深圳前海微众银行股份有限公司 | 批量任务断点续作方法、装置、设备及介质 |
CN110737533A (zh) * | 2019-10-18 | 2020-01-31 | 苏州浪潮智能科技有限公司 | 一种任务调度方法、装置及电子设备和存储介质 |
CN111091202A (zh) * | 2018-10-19 | 2020-05-01 | 株式会社日立制作所 | 车辆管理系统、车辆管理装置及车辆管理方法 |
CN111343474A (zh) * | 2020-02-26 | 2020-06-26 | 周国霞 | 基于特征识别的信息输出方法、装置及智能终端 |
CN111984424A (zh) * | 2020-09-03 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 任务处理方法、装置、设备及计算机可读存储介质 |
CN112148480A (zh) * | 2020-09-03 | 2020-12-29 | 深圳壹账通智能科技有限公司 | 基于多线程的任务处理方法、装置、设备及存储介质 |
CN112732424A (zh) * | 2020-12-30 | 2021-04-30 | 北京明朝万达科技股份有限公司 | 一种多任务处理方法方法、系统和介质 |
CN112817758A (zh) * | 2021-01-25 | 2021-05-18 | 山东众阳健康科技集团有限公司 | 一种资源消耗动态控制方法、系统、存储介质及设备 |
CN113742052A (zh) * | 2020-05-29 | 2021-12-03 | 北京京东振世信息技术有限公司 | 批量任务处理方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040098722A1 (en) * | 2002-08-09 | 2004-05-20 | International Business Machines Corporation | System, method, and computer program product for operating-system task management |
CN101287166A (zh) * | 2008-02-22 | 2008-10-15 | 北京航空航天大学 | 一种用于电子会务辅助系统的短信息发布系统与发布方法 |
CN101661386A (zh) * | 2009-09-24 | 2010-03-03 | 成都市华为赛门铁克科技有限公司 | 多硬件线程处理器及其业务处理方法 |
CN103577263A (zh) * | 2013-11-07 | 2014-02-12 | 广东电网公司佛山供电局 | 一种电能质量数据实时采集方法及装置 |
CN103729167A (zh) * | 2012-10-12 | 2014-04-16 | 辉达公司 | 用于改进多线程处理单元中的性能的技术 |
CN103810048A (zh) * | 2014-03-11 | 2014-05-21 | 国家电网公司 | 一种面向资源利用最优的线程数量自动调整方法及装置 |
CN103970580A (zh) * | 2014-05-05 | 2014-08-06 | 华中科技大学 | 一种面向多核集群的数据流编译优化方法 |
CN104102475A (zh) * | 2013-04-11 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 分布式并行任务处理的方法、装置及系统 |
CN104834561A (zh) * | 2015-04-29 | 2015-08-12 | 华为技术有限公司 | 一种数据处理方法及装置 |
-
2015
- 2015-12-14 CN CN201510926048.XA patent/CN105892996A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040098722A1 (en) * | 2002-08-09 | 2004-05-20 | International Business Machines Corporation | System, method, and computer program product for operating-system task management |
CN101287166A (zh) * | 2008-02-22 | 2008-10-15 | 北京航空航天大学 | 一种用于电子会务辅助系统的短信息发布系统与发布方法 |
CN101661386A (zh) * | 2009-09-24 | 2010-03-03 | 成都市华为赛门铁克科技有限公司 | 多硬件线程处理器及其业务处理方法 |
CN103729167A (zh) * | 2012-10-12 | 2014-04-16 | 辉达公司 | 用于改进多线程处理单元中的性能的技术 |
CN104102475A (zh) * | 2013-04-11 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 分布式并行任务处理的方法、装置及系统 |
CN103577263A (zh) * | 2013-11-07 | 2014-02-12 | 广东电网公司佛山供电局 | 一种电能质量数据实时采集方法及装置 |
CN103810048A (zh) * | 2014-03-11 | 2014-05-21 | 国家电网公司 | 一种面向资源利用最优的线程数量自动调整方法及装置 |
CN103970580A (zh) * | 2014-05-05 | 2014-08-06 | 华中科技大学 | 一种面向多核集群的数据流编译优化方法 |
CN104834561A (zh) * | 2015-04-29 | 2015-08-12 | 华为技术有限公司 | 一种数据处理方法及装置 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106341280A (zh) * | 2016-11-04 | 2017-01-18 | 金蝶软件(中国)有限公司 | 业务处理方法和装置 |
CN106648874A (zh) * | 2016-12-30 | 2017-05-10 | 中国建设银行股份有限公司 | 一种批量任务的处理方法及装置 |
CN106648874B (zh) * | 2016-12-30 | 2020-05-22 | 中国建设银行股份有限公司 | 一种批量任务的处理方法及装置 |
CN107333282A (zh) * | 2017-06-05 | 2017-11-07 | 惠州Tcl移动通信有限公司 | 一种基于gpp的5g终端通用平台优化方法及系统 |
WO2018223932A1 (zh) * | 2017-06-05 | 2018-12-13 | 捷开通讯(深圳)有限公司 | 一种基于gpp的5g终端通用平台优化方法及系统 |
CN109558237A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 一种任务状态管理方法及装置 |
CN110019071A (zh) * | 2017-11-15 | 2019-07-16 | 北大方正集团有限公司 | 数据处理方法及装置 |
CN108170526A (zh) * | 2017-12-06 | 2018-06-15 | 北京像素软件科技股份有限公司 | 负载能力优化方法、装置、服务器及可读存储介质 |
CN108762905A (zh) * | 2018-05-24 | 2018-11-06 | 苏州乐麟无线信息科技有限公司 | 一种多任务事件的处理方法和装置 |
CN111091202B (zh) * | 2018-10-19 | 2023-12-05 | 株式会社日立制作所 | 车辆管理系统、车辆管理装置及车辆管理方法 |
CN111091202A (zh) * | 2018-10-19 | 2020-05-01 | 株式会社日立制作所 | 车辆管理系统、车辆管理装置及车辆管理方法 |
CN109614222A (zh) * | 2018-10-30 | 2019-04-12 | 成都飞机工业(集团)有限责任公司 | 一种多线程资源分配方法 |
CN109614222B (zh) * | 2018-10-30 | 2022-04-08 | 成都飞机工业(集团)有限责任公司 | 一种多线程资源分配方法 |
CN109857563A (zh) * | 2019-02-18 | 2019-06-07 | 重庆西部汽车试验场管理有限公司 | 任务执行方法、装置和任务执行系统 |
CN109857563B (zh) * | 2019-02-18 | 2021-04-27 | 重庆西部汽车试验场管理有限公司 | 任务执行方法、装置和任务执行系统 |
CN109976895A (zh) * | 2019-04-09 | 2019-07-05 | 苏州浪潮智能科技有限公司 | 一种数据库的多任务并发处理方法和装置 |
CN110443695A (zh) * | 2019-07-31 | 2019-11-12 | 中国工商银行股份有限公司 | 数据处理方法及其装置、电子设备和介质 |
CN110515718A (zh) * | 2019-08-30 | 2019-11-29 | 深圳前海微众银行股份有限公司 | 批量任务断点续作方法、装置、设备及介质 |
CN110737533B (zh) * | 2019-10-18 | 2022-11-11 | 苏州浪潮智能科技有限公司 | 一种任务调度方法、装置及电子设备和存储介质 |
CN110737533A (zh) * | 2019-10-18 | 2020-01-31 | 苏州浪潮智能科技有限公司 | 一种任务调度方法、装置及电子设备和存储介质 |
CN111343474A (zh) * | 2020-02-26 | 2020-06-26 | 周国霞 | 基于特征识别的信息输出方法、装置及智能终端 |
CN113742052A (zh) * | 2020-05-29 | 2021-12-03 | 北京京东振世信息技术有限公司 | 批量任务处理方法和装置 |
CN113742052B (zh) * | 2020-05-29 | 2023-09-01 | 北京京东振世信息技术有限公司 | 批量任务处理方法和装置 |
CN112148480A (zh) * | 2020-09-03 | 2020-12-29 | 深圳壹账通智能科技有限公司 | 基于多线程的任务处理方法、装置、设备及存储介质 |
CN111984424A (zh) * | 2020-09-03 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 任务处理方法、装置、设备及计算机可读存储介质 |
CN112732424A (zh) * | 2020-12-30 | 2021-04-30 | 北京明朝万达科技股份有限公司 | 一种多任务处理方法方法、系统和介质 |
CN112817758A (zh) * | 2021-01-25 | 2021-05-18 | 山东众阳健康科技集团有限公司 | 一种资源消耗动态控制方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105892996A (zh) | 一种批量数据处理的流水线作业方法及装置 | |
CN107038069B (zh) | Hadoop平台下动态标签匹配DLMS调度方法 | |
CN106445675B (zh) | 一种b2b平台分布式应用调度与资源分配方法 | |
CN112162865A (zh) | 服务器的调度方法、装置和服务器 | |
WO2023198061A1 (zh) | 一种容器调度方法、电子设备和存储介质 | |
CN106919445A (zh) | 一种在集群中并行调度容器的方法和装置 | |
CN107968802A (zh) | 一种资源调度的方法、装置和过滤式调度器 | |
CN104462302B (zh) | 一种分布式数据处理协调方法及系统 | |
CN109408229A (zh) | 一种调度方法及装置 | |
CN104657207B (zh) | 远程授权请求的调度方法、业务服务器和调度系统 | |
CN111880939A (zh) | 容器动态迁移方法、装置及电子设备 | |
CN109783225B (zh) | 一种多租户大数据平台的租户优先级管理方法及系统 | |
CN112181613B (zh) | 异构资源分布式计算平台批量任务调度方法及存储介质 | |
CN105955807A (zh) | 一种任务处理系统及方法 | |
CN106528288A (zh) | 一种资源管理方法、装置和系统 | |
CN114968566A (zh) | 一种面向共享式gpu集群下的容器调度方法及装置 | |
CN108446179A (zh) | 基于负载均衡机制的权重优先Task任务调度方法 | |
CN116560860B (zh) | 一种基于机器学习的资源优先级的实时优化调整方法 | |
CN111767145A (zh) | 容器调度系统、方法、装置和设备 | |
CN110764887A (zh) | 任务重调度方法、系统及相关设备、装置 | |
CN112306642A (zh) | 一种基于稳定匹配博弈理论的工作流调度方法 | |
CN113626173B (zh) | 调度方法、装置及存储介质 | |
CN110912967A (zh) | 一种服务节点调度方法、装置、设备及存储介质 | |
CN110084507A (zh) | 云计算环境下分级感知的科学工作流调度优化方法 | |
CN117539612A (zh) | 基于混沌麻雀算法的ai训推平台任务调度方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |