CN108520011B

CN108520011B - 一种确定任务的执行方案的方法及装置

Info

Publication number: CN108520011B
Application number: CN201810232894.5A
Authority: CN
Inventors: 王宏志; 赵志强
Original assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Current assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2020-12-04
Anticipated expiration: 2038-03-21
Also published as: CN108520011A

Abstract

本发明提供了一种确定任务的执行方案的方法及装置，该方法包括：将待完成任务划分成至少一个子任务；确定每个子任务的至少一个解决方案，确定每个子任务的每个解决方案的机器语言语句，生成每个机器语言语句对应的至少一个SQL语言表达；从每个解决方案对应的至少一个SQL语言表达中，确定每个解决方案对应的最优SQL语言表达；确定至少一个子任务的执行顺序；确定执行顺序中第一个子任务的每个最优SQL语言表达对应的最优执行方案，从第一个子任务的每个最优SQL语言表达对应的最优执行方案中，确定方案执行消耗最小的最优执行方案为最终执行方案。本发明能够更快地确定出待完成任务的较优的执行方案。

Description

一种确定任务的执行方案的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定任务的执行方案的方法及装置。

背景技术

当需要通过机器语言来实现某项任务时，实现同一个任务可能存在多种执行方案。如何从这些执行方案中确定出较优的执行方案非常重要。

在现有技术中，主要通过人工的方式来确定较优的执行方案。具体地，程序工程师逐个比较这些执行方案的机器语言，根据经验确定出较优的执行方案。

通过上述描述可见，现有技术通过人工的方式来确定出较优的执行方案，需要花费较多的时间。

发明内容

本发明实施例要解决的技术问题在于如何更快的确定出较优的执行方案，针对现有技术中的缺陷，提供一种确定任务的执行方案的方法及装置。

一方面，本发明实施例提供了一种确定任务的执行方案的方法，包括：

将待完成任务划分成至少一个子任务；

确定每个所述子任务的至少一个解决方案，确定每个所述子任务的每个所述解决方案的机器语言语句；

对每个所述解决方案的机器语言语句进行转换，生成每个所述机器语言语句对应的至少一个SQL语言表达；

从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达；

确定所述至少一个子任务的执行顺序；

针对所述执行顺序中第一个子任务的每个所述最优SQL语言表达，分别执行A1-A6：

A1：将第一个子任务的当前最优SQL语言表达作为第一个子任务的目标最优SQL语言表达；

A2：在所述执行顺序中，将所述第一个子任务的下一个子任务作为当前子任务；

A3：根据所述当前子任务中的每个最优SQL语言表达，以及，在所述执行顺序中所述当前子任务之前的每个子任务的目标最优SQL语言表达，确定所述当前子任务中的每个最优SQL语言表达对应的待评估方案；

A4：分别确定所述当前子任务中的每个最优SQL语言表达对应的待评估方案的评估执行消耗；

A5：将最小的评估执行消耗对应的所述当前子任务的最优SQL语言表达作为所述当前子任务的目标最优SQL语言表达；

A6：判断所述当前子任务是否是所述执行顺序中的最后一个子任务，如果是，则将所述当前子任务的目标最优SQL语言表达对应的待评估方案作为所述第一个子任务的当前最优SQL语言表达对应的最优执行方案，将所述当前子任务的目标最优SQL语言表达对应的待评估方案的评估执行消耗作为所述最优执行方案的方案执行消耗；否则，在所述执行顺序中，将所述当前子任务的下一个子任务作为当前子任务，返回A3；

从所述第一个子任务的每个最优SQL语言表达对应的最优执行方案中，确定方案执行消耗最小的最优执行方案为最终执行方案。

较优地，

所述从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达，包括：

针对每个所述解决方案对应的每个SQL语言表达，执行：

分别对当前解决方案的每个SQL语言表达进行编译，确定每个SQL语言表达的CPU占用率、内存的占用率、文件打开数量、打开的进程数、IO的等待时间、执行时间；

分别根据公式一确定当前解决方案的每个SQL语言表达的SQL执行消耗，所述公式一为：

其中，h为当前SQL语言表达的SQL执行消耗，c₁为所述当前SQL语言表达的CPU占用率、n₁为所述当前SQL语言表达的内存的占用率、w₁为所述当前SQL语言表达的文件打开数量、j₁为所述当前SQL语言表达的打开的进程数、d₁为所述当前SQL语言表达的IO的等待时间、t₁为所述当前SQL语言表达的执行时间，a₁为CPU占用率的第一预设权重，a₂为内存的占用率的第一预设权重，a₃为IO的等待时间的第一预设权重，a₄为执行时间的第一预设权重，a₅为文件打开数量的第一预设权重，a₆为打开的进程数的第一预设权重，T₁为第一预设时间长度；

将SQL执行消耗最小的SQL语言表达作为所述当前解决方案对应的最优SQL语言表达。

较优地，

所述A3，包括：

针对所述当前子任务中的每个最优SQL语言表达，执行：

将所述当前子任务中的当前最优SQL语言表达与所述当前子任务之前的每个子任务的目标最优SQL语言表达按照对应的子任务的所述执行顺序进行组合，构成所述当前子任务中的当前最优SQL语言表达对应的待评估方案。

较优地，

所述A4，包括：

针对所述当前子任务中的每个最优SQL语言表达对应的待评估方案，执行：

对当前待评估方案进行编译，确定所述当前待评估方案的CPU占用率、内存的占用率、IO的等待时间、文件打开数量、打开的进程数、执行时间；

根据公式二，确定所述当前待评估方案的评估执行消耗，所述公式二为：

其中，H为所述当前待评估方案的评估执行消耗，c₂为所述当前待评估方案的CPU占用率、n₂为所述当前待评估方案的内存的占用率、w₂为所述当前待评估方案的文件打开数量、j₂为所述当前待评估方案的打开的进程数、d₂为所述当前待评估方案的IO的等待时间、t₂为所述当前待评估方案的执行时间，b₁为CPU占用率的第二预设权重，b₂为内存的占用率的第二预设权重，b₃为IO的等待时间的第二预设权重，b₄为执行时间的第二预设权重，b₅为文件打开数量的第二预设权重，b₆为打开的进程数的第二预设权重，T₂为第二预设时间长度。

较优地，

所述分别对当前解决方案的每个SQL语言表达进行编译，包括：

确定所述当前解决方案的每个SQL语言表达的运行机器；

分别将所述当前解决方案的每个SQL语言表达在对应的运行机器的优化器中运行。

另一方面，本发明实施例提供了一种确定任务的执行方案的装置，包括：

划分单元，用于将待完成任务划分成至少一个子任务；

最优SQL确定单元，用于确定每个所述子任务的至少一个解决方案，确定每个所述子任务的每个所述解决方案的机器语言语句；对每个所述解决方案的机器语言语句进行转换，生成每个所述机器语言语句对应的至少一个SQL语言表达；从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达；

顺序确定单元，用于确定所述至少一个子任务的执行顺序；

执行方案确定单元，针对所述执行顺序中第一个子任务的每个所述最优SQL语言表达，分别执行A1-A6：

最终方案确定单元，用于从所述第一个子任务的每个最优SQL语言表达对应的最优执行方案中，确定方案执行消耗最小的最优执行方案为最终执行方案。

较优地，

所述最优SQL确定单元，在执行所述从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达时，具体用于：

针对每个所述解决方案对应的每个SQL语言表达，执行：

较优地，

所述执行方案确定单元，在执行A3时，具体用于：

针对所述当前子任务中的每个最优SQL语言表达，执行：

较优地，

所述执行方案确定单元，在执行A4时，具体用于：

较优地，

所述最优SQL确定单元，在执行所述分别对当前解决方案的每个SQL语言表达进行编译时，具体用于：

确定所述当前解决方案的每个SQL语言表达的运行机器；

实施本发明的，至少具有以下有益效果：

在本发明实施例中，将待完成任务拆分成至少一个子任务，每个子任务有至少一个解决方案，确定解决方案对应的机器语言语句，将每个机器语言语句转换成至少一个SQL语言表达，针对每个解决方案，确定出对应的最优SQL语言表达，从每个子任务的至少一个最优SQL语言表达中，确定出执行消耗最小的最终执行方案，该最终执行方案就是实现待完成任务的较优的执行方案，该过程能够自动完成，无需人工完成，能够更快的确定出较优的执行方案。

附图说明

图1是本发明一实施例提供的一种确定任务的执行方案的方法的流程图；

图2是本发明一实施例提供的一种确定任务的执行方案的装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种确定任务的执行方案的方法，包括：

步骤101：将待完成任务划分成至少一个子任务；

步骤102：确定每个所述子任务的至少一个解决方案，确定每个所述子任务的每个所述解决方案的机器语言语句；

步骤103：对每个所述解决方案的机器语言语句进行转换，生成每个所述机器语言语句对应的至少一个SQL语言表达；

步骤104：从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达；

步骤105：确定所述至少一个子任务的执行顺序；

步骤106：针对所述执行顺序中第一个子任务的每个所述最优SQL语言表达，分别执行A1-A6：

步骤107：从所述第一个子任务的每个最优SQL语言表达对应的最优执行方案中，确定方案执行消耗最小的最优执行方案为最终执行方案。

在本发明实施例中，机器语言语句对应的SQL语言表达是指用来实现机器语言语句的SQL语句。

在确定每个解决方案对应的最优SQL语言表达时，可以在多台机器上同时进行，实现分布式处理，提高处理效率。

每个子任务可以有多个解决方案，每个解决方案都对应一个最优SQL语言表达，这样，每个子任务就对应多个最优SQL语言表达。通过本发明实施例，从每个子任务对应的多个最优SQL语言表达中，确定出每个子任务对应的一个最终的最优SQL语言表达，构成最终执行方案。

在确定第一个子任务的每个最优SQL语言表达对应的最优执行方案时，可以在多台机器上同时进行，实现分布式处理，提高处理效率。

第一个子任务的每个最优SQL语言表达都对应一个最优执行方案，从这些最优执行方案中，选择出执行消耗最小的作为最终执行方案。这样，在通过最终执行方式实现待完成任务时，执行消耗较小。

在图1中没有示出A1-A6。

在本发明一实施例中，所述从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达，包括：

针对每个所述解决方案对应的每个SQL语言表达，执行：

在本发明实施例中，通过执行消耗来确定最优SQL语言表达。具体地，通过公式一来确定各个SQL语言表达的执行消耗。公式一中结合了CPU占用率、内存的占用率、文件打开数量、打开的进程数、IO的等待时间、执行时间这些因素来全面确定SQL语言表达的执行消耗，其中，CPU占用率和内存的占用率涉及对硬件消耗的考虑，文件打开数量和打开的进程数涉及对软件消耗的考虑，IO的等待时间和执行时间涉及时间消耗的考虑。另外，针对每个因素都设置有对应的权重，该权重可以根据需要来设置。例如：如果硬件资源充足，可以将CPU占用率和内存的占用率的权重设置的较小，较少的考虑硬件方面的消耗。

在本发明一实施例中，所述分别对当前解决方案的每个SQL语言表达进行编译，包括：

确定所述当前解决方案的每个SQL语言表达的运行机器；

在优化器中可以进行SQL语言表达的可行性分析与执行效率优化。

在本发明一实施例中，所述A3，包括：

针对所述当前子任务中的每个最优SQL语言表达，执行：

举例来说，待完成任务划分成三个子任务，分别是子任务A、子任务B、子任务C。执行顺序为：子任务A→子任务B→子任务C。当前子任务为子任务C，子任务A的目标最优SQL语言表达为SQL语言表达A，子任务B的目标最优SQL语言表达为SQL语言表达B，子任务C的当前最优SQL语言表达为SQL语言表达C。按照执行顺序，子任务A的SQL语言表达A排在第一个，子任务B的SQL语言表达B排在第二个，子任务C的SQL语言表达C排在第三个，SQL语言表达A、SQL语言表达B和SQL语言表达C构成了子任务C的当前最优SQL语言表达对应的待评估方案。

在本发明一实施例中，所述A4，包括：

在本发明实施例中，通过公式二来确定待评估方案的执行消耗。公式二中结合了CPU占用率、内存的占用率、文件打开数量、打开的进程数、IO的等待时间、执行时间这些因素来全面确定SQL语言表达的执行消耗，其中，CPU占用率和内存的占用率涉及对硬件消耗的考虑，文件打开数量和打开的进程数涉及对软件消耗的考虑，IO的等待时间和执行时间涉及时间消耗的考虑。另外，针对每个因素都设置有对应的权重，该权重可以根据需要来设置。例如：如果硬件资源充足，可以将CPU占用率和内存的占用率的权重设置的较小，较少的考虑硬件方面的消耗。

在本发明实施例中，机器语言语句可以为通过BUDS语言来实现。通过BUDS语言兼顾了对数据表达方式和数据应用方式两方面的优化考虑，以得到较为简洁的程序形式。无需人工确定最终执行方案，将人为选取数据应用方式所带来的不可预测性消除，避免了人为进行数据类型和数据应用选择的不确定性，从而降低了程序的设计难度，同时提高了结果的可用性。

由于机器语言的抽象级别较高，一般其内部的抽象数据类型与实际数据表达并无直接关系，因此在语言变换过程中会产生针对数据表达与存储的选择问题。在本发明实施例中，在进行语言变换(机器语言语句转换为SQL语言表达)时存储有关于实际物理存储空间大小等数据(可以存储在实现语言转换的优化器中)，从而可以在执行之前保证所涉及方案的可实现性，减小了不可预知的风险度。将优化过程采用分布式的思想进行布置，不仅使思路更为明确，同时也大幅提高了解决问题的效率和速度。

举例来说，要解决一个问题，模型为：假设k个游客在n个城市之间旅游，共拜访m个餐馆。在模型中，每个游客不受外界干扰地在一个又一个城市之间旅游，一旦游客达到一个城市，他选择当地餐馆中的一个进行用餐，之后前去下一个城市，以此迭代进行。

BUDS语言表示如下

data{

k:range(individuals)；

n:range(cities)；

m:range(restaurants)；

s:array[n]of real；

D:array[n,m]of real；

T:array[n,n]of real；

}

var{

c:array[k]of integer；

r:array[k]of integer；

}

Init{

for(j in 1:k){

c[j]<-categorical(s)；

r[j]<-categorical(D[c(j)])；

}

for(j in 1:k){

c[j]<-categorical(T[c(j)])；

r[j]<-categorical(setEntry(D[c[j]],r[j],0.0)；

}

优化编译之中：

定义向量变量STARTPROBS(DIM,VAL),其中DIM表示在向量变量中的位置，VAL表示对应位置上的数值大小，从而表示在各个城市开始迭代的可能性大小；同时设计标量变量INDIVIDUALS(PID)列出所有的游客。

则有如下算法：

在游客表中的每个元组i，对每个个体，函数对其进行初始化操作，即对STARTPROBS组中的所有城市的可能性进行参数化，从而随机地选出一个城市作为第一个迭代的地点，并存储至Res表之中。这个过程即可以设计为分布式计算方式。而当各个初始化操作完成之后，可对每个给定的游客i，最终的SELECT操作得到的结果，将被加入CITY表之中。在明确了当前的城市之后，接下来将所有游客转移到另外一个城市中。我们设计一个表CITYPROBS(FROM_CID,TO_CID,VAL)，该表用来对T矩阵进行编码并给我们在城市之间转移的可能性，算法如下:

通过上述操作，则可以实现通过游客i所在的最后一个城市来决定转移到其他城市的可能性。

而对于数据表达的优化措施，以矩阵为例：可将矩阵表示为n×m个元素组成的表、一个n个m阶向量组成的表、一个m个n阶向量组成的表以及一个n×m阶的矩阵，并且可以由图以及相关程序的形式将其表示出来，如:

该段程序表示了实际程序中的字符串Str是怎么通过引入InName和OutName两个变量而建立的。将描述不同数据表现的程序引入评价函数，采取分布式计算方式，同步进行多个数据表现形式的评价计算，得到结果后选取较优的执行方案，从而得到实际效果最好的数据表达形式与物理存储形式。

在本发明实施例中，在分布式计算的模型上引入了综合分析数据表达形式和数据抽象操作两方面要求的优化操作，通过编译优化得到在实际执行过程中能够达到最小消耗的可行的最终执行方案，避免了在数据表达等层面由于人为选择而导致的不可预知的风险，同时采用分布式的操作方式，提高了解决问题的效率。

如图2所示，本发明实施例提供了一种确定任务的执行方案的装置，包括：

划分单元201，用于将待完成任务划分成至少一个子任务；

最优SQL确定单元202，用于确定每个所述子任务的至少一个解决方案，确定每个所述子任务的每个所述解决方案的机器语言语句；对每个所述解决方案的机器语言语句进行转换，生成每个所述机器语言语句对应的至少一个SQL语言表达；从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达；

顺序确定单元203，用于确定所述至少一个子任务的执行顺序；

执行方案确定单元204，针对所述执行顺序中第一个子任务的每个所述最优SQL语言表达，分别执行A1-A6：

最终方案确定单元205，用于从所述第一个子任务的每个最优SQL语言表达对应的最优执行方案中，确定方案执行消耗最小的最优执行方案为最终执行方案。

在本发明一实施例中，所述最优SQL确定单元，在执行所述从每个所述解决方案对应的至少一个SQL语言表达中，确定每个所述解决方案对应的最优SQL语言表达时，具体用于：

针对每个所述解决方案对应的每个SQL语言表达，执行：

在本发明一实施例中，所述执行方案确定单元，在执行A3时，具体用于：

针对所述当前子任务中的每个最优SQL语言表达，执行：

在本发明一实施例中，所述执行方案确定单元，在执行A4时，具体用于：

在本发明一实施例中，所述最优SQL确定单元，在执行所述分别对当前解决方案的每个SQL语言表达进行编译时，具体用于：

确定所述当前解决方案的每个SQL语言表达的运行机器；

本发明各个实施例至少具有如下有益效果：

1、在本发明实施例中，将待完成任务拆分成至少一个子任务，每个子任务有至少一个解决方案，确定解决方案对应的机器语言语句，将每个机器语言语句转换成至少一个SQL语言表达，针对每个解决方案，确定出对应的最优SQL语言表达，从每个子任务的至少一个最优SQL语言表达中，确定出执行消耗最小的最终执行方案，该最终执行方案就是实现待完成任务的较优的执行方案，该过程能够自动完成，无需人工完成，能够更快的确定出较优的执行方案。

2、在本发明实施例中，通过执行消耗来确定最优SQL语言表达。具体地，通过公式一来确定各个SQL语言表达的执行消耗。公式一中结合了CPU占用率、内存的占用率、文件打开数量、打开的进程数、IO的等待时间、执行时间这些因素来全面确定SQL语言表达的执行消耗，其中，CPU占用率和内存的占用率涉及对硬件消耗的考虑，文件打开数量和打开的进程数涉及对软件消耗的考虑，IO的等待时间和执行时间涉及时间消耗的考虑。另外，针对每个因素都设置有对应的权重，该权重可以根据需要来设置。

3、在本发明实施例中，通过公式二来确定待评估方案的执行消耗。公式二中结合了CPU占用率、内存的占用率、文件打开数量、打开的进程数、IO的等待时间、执行时间这些因素来全面确定SQL语言表达的执行消耗，其中，CPU占用率和内存的占用率涉及对硬件消耗的考虑，文件打开数量和打开的进程数涉及对软件消耗的考虑，IO的等待时间和执行时间涉及时间消耗的考虑。另外，针对每个因素都设置有对应的权重，该权重可以根据需要来设置。

4、在本发明实施例中，在分布式计算的模型上引入了综合分析数据表达形式和数据抽象操作两方面要求的优化操作，通过编译优化得到在实际执行过程中能够达到最小消耗的可行的最终执行方案，避免了在数据表达等层面由于人为选择而导致的不可预知的风险，同时采用分布式的操作方式，提高了解决问题的效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种确定任务的执行方案的方法，其特征在于，包括：

将待完成任务划分成至少一个子任务；

确定所述至少一个子任务的执行顺序；

2.根据权利要求1所述的方法，其特征在于，

针对每个所述解决方案对应的每个SQL语言表达，执行：

3.根据权利要求1或2所述的方法，其特征在于，

所述A3，包括：

针对所述当前子任务中的每个最优SQL语言表达，执行：

4.根据权利要求3所述的方法，其特征在于，

所述A4，包括：

5.根据权利要求2所述的方法，其特征在于，

确定所述当前解决方案的每个SQL语言表达的运行机器；

6.一种确定任务的执行方案的装置，其特征在于，包括：

划分单元，用于将待完成任务划分成至少一个子任务；

顺序确定单元，用于确定所述至少一个子任务的执行顺序；

7.根据权利要求6所述的装置，其特征在于，

针对每个所述解决方案对应的每个SQL语言表达，执行：

8.根据权利要求6或7所述的装置，其特征在于，

所述执行方案确定单元，在执行A3时，具体用于：

针对所述当前子任务中的每个最优SQL语言表达，执行：

9.根据权利要求8所述的装置，其特征在于，

所述执行方案确定单元，在执行A4时，具体用于：

10.根据权利要求7所述的装置，其特征在于，

确定所述当前解决方案的每个SQL语言表达的运行机器；