CN114066210A

CN114066210A - 大数据分布式任务调度系统及其调度方法

Info

Publication number: CN114066210A
Application number: CN202111335047.XA
Authority: CN
Inventors: 孙诚; 陈健; 金建; 李虎雄
Original assignee: Tigerman Polytron Technologies Inc
Current assignee: Tigerman Polytron Technologies Inc
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-18

Abstract

本申请具体地公开了一种大数据分布式任务调度系统及其调度方法，其通过对所述预定业务应用系统内的各批量作业的作业描述和各个业务应用系统的系统描述进行编码，以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，并且还采用编码器的注意力机制，以基于所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。通过这样的方式，可以在确定业务调度和处理顺序时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，进而使得业务调度的效果更好，批量作业的时效性更高。

Description

大数据分布式任务调度系统及其调度方法

技术领域

本发明涉及用车服务的领域，且更为具体地，涉及一种大数据分布式任务调度系统及其调度方法。

背景技术

随着中国经济高速增长，银行业的发展速度也明显加快，国内除了中国工商银行、中国农业银行、中国银行、中国交通银行五大国有银行外，近年来新成立了大量的城市商业银行。城市商业银行规模虽然小于国有银行，但业务范围覆盖了国有银行的80％以上，因此，也需要IT系统来支持运营。银行业常见的IT系统包括业务支撑类、分析管理类和监管报送类。

目前银行大多数IT系统的批量作业采用串行执行的方式，逐步完成每日批量作业执行。但随着业务量的不断上涨，对实效性的要求也越来越高。同时，各个IT系统之间也存在比较紧密的依赖关系。

目前银行内大多数业务应用系统的批量作业执行是相互独立的，使配置任务、配置信息、查看任务依赖关系、查看任务执行状态和历史运行情况统计等相关操作都存在着极大的不便，同时，当批量作业运行时发生故障，对于问题源头的追查也十分繁琐。

因此，期待一种大数据分布式任务调度系统，以实现作业级依赖的任务调度与管理系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种大数据分布式任务调度系统及其调度方法，其通过对所述预定业务应用系统内的各批量作业的作业描述和各个业务应用系统的系统描述进行编码，以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，并且还采用编码器的注意力机制，以基于所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。通过这样的方式，可以在确定业务调度和处理顺序时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，进而使得业务调度的效果更好，批量作业的时效性更高。

根据本申请的一个方面，提供了一种大数据分布式任务调度系统，其包括：

第一语义编码单元，用于对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列；

第二语义编码单元，用于对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列；

参考特征向量选取单元，用于从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量；

注意力单元，用于计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量；

初解码单元，用于将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值；

修正系数确定单元，用于计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量；

修正单元，用于将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列；

二次编码单元，用于将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值；

重要性确定单元，用于从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性；以及

调度结果生成单元，用于基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。

在上述大数据分布式任务调度系统中，所述第一语义编码单元，包括：第一词嵌入子单元，用于将每个所述作业的作业描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述作业的作业描述对应的输入向量的序列；以及，第一上下文编码子单元，用于将每个所述作业的作业描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述作业的作业描述对应的所述作业特征向量的序列。

在上述大数据分布式任务调度系统中，所述第二语义编码单元，包括：第二词嵌入子单元，用于将每个所述业务应用系统的系统描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述业务应用系统的系统描述对应的输入向量的序列；以及，第二上下文编码子单元，用于每个所述业务应用系统的系统描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述业务应用系统的系统描述对应的所述作业特征向量的序列。

在上述大数据分布式任务调度系统中，所述注意力单元，进一步用于：计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的L2距离作为所述相似性值。

在上述大数据分布式任务调度系统中，所述注意力单元，进一步用于：计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的余弦距离作为所述相似性值。

在上述大数据分布式任务调度系统中，所述初解码单元，进一步用于：将所述作业特征向量的序列中各个作业特征向量输入所述解码器的Softmax函数以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值。

根据本申请的另一方面，一种大数据分布式任务调度系统的调度方法，其包括：

对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列；

对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列；

从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量；

计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量；

将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值；

计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量；

将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列；

将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值；

从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性；以及

基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。

在上述大数据分布式任务调度系统的调度方法中，对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列，包括：将每个所述作业的作业描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述作业的作业描述对应的输入向量的序列；以及，将每个所述作业的作业描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述作业的作业描述对应的所述作业特征向量的序列。

在上述大数据分布式任务调度系统的调度方法中，对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列，包括：将每个所述业务应用系统的系统描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述业务应用系统的系统描述对应的输入向量的序列；以及，每个所述业务应用系统的系统描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述业务应用系统的系统描述对应的所述作业特征向量的序列。

在上述大数据分布式任务调度系统的调度方法中，计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量，包括：计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的L2距离作为所述相似性值。

在上述大数据分布式任务调度系统的调度方法中，计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量，包括：计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的余弦距离作为所述相似性值。

在上述大数据分布式任务调度系统的调度方法中，将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值，包括：将所述作业特征向量的序列中各个作业特征向量输入所述解码器的Softmax函数以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值。

与现有技术相比，本申请提供的大数据分布式任务调度系统及其调度方法，其通过对所述预定业务应用系统内的各批量作业的作业描述和各个业务应用系统的系统描述进行编码，以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，并且还采用编码器的注意力机制，以基于所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。通过这样的方式，可以在确定业务调度和处理顺序时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，进而使得业务调度的效果更好，批量作业的时效性更高。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的大数据分布式任务调度系统的应用场景图。

图2为根据本申请实施例的大数据分布式任务调度系统的框图。

图3为根据本申请实施例的大数据分布式任务调度系统的调度方法的流程图。

图4为根据本申请实施例的大数据分布式任务调度系统的调度方法的架构示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，目前银行大多数IT系统的批量作业采用串行执行的方式，逐步完成每日批量作业执行。但随着业务量的不断上涨，对实效性的要求也越来越高。同时，各个IT系统之间也存在比较紧密的依赖关系。

目前银行内大多数业务应用系统的批量作业执行是相互独立的，使配置任务、配置信息、查看任务依赖关系、查看任务执行状态和历史运行情况统计等相关操作都存在着极大的不便，同时，当批量作业运行时发生故障，对于问题源头的追查也十分繁琐。因此，期待一种大数据分布式任务调度系统，以实现作业级依赖的任务调度与管理系统。

相应地，在本申请的技术方案中，对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码，也就是，针对每个作业描述通过词嵌入转化为输入向量，再将各个作业描述对应的输入向量的序列通过语义理解模型，例如基于转换器(transformer)的Bert模型，得到作业特征向量的序列。

此外，对于各个业务应用系统的系统描述进行基于语义理解模型的语义编码，也就是，针对每个系统描述通过词嵌入转化为输入向量，再将各个系统描述对应的输入向量的序列通过语义理解模型，例如基于转换器(transformer)的Bert模型，得到系统特征向量的序列。

选择所述预定业务应用系统对应的预定系统特征向量作为参考向量，应用编码器注意力机制来将上下文机制引入解码器中，也就是，计算作业特征向量的序列中的每个作业特征向量与所述预定系统特征向量之间的相似性值，并针对所有作业特征向量组成相似性向量，再计算作业特征向量的序列中的每个作业特征向量通过解码器后获得的类别概率值，即归属于最大概率的重要性标签的概率值，并计算相似性向量与类别概率值的交叉熵值以作为所述每个作业特征向量的修正系数。

最后，将所述修正系数与所述作业特征向量相乘后再次输入解码器，以获得归属于各个重要性标签的概率值，并选取最大概率值对应的重要性标签以判定所述批量作业的重要性。

基于此，本申请提出了一种大数据分布式任务调度系统，其包括：第一语义编码单元，用于对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列；第二语义编码单元，用于对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列；参考特征向量选取单元，用于从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量；注意力单元，用于计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量；初解码单元，用于将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值；修正系数确定单元，用于计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量；修正单元，用于将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列；二次编码单元，用于将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值；重要性确定单元，用于从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性；以及，调度结果生成单元，用于基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。

图1图示了根据本申请实施例的大数据分布式任务调度系统的应用场景图。如图1所示，在该应用场景中，首先，从银行内的预定业务应用系统(例如，如图1中所示意的B1)中获取各批量作业(例如，如图1中所示意的W1至Wn)的作业描述，以及获取各个业务应用系统(例如，如图1中所示意的B1-Bn)的系统描述。然后，将获得的所述预定业务应用系统内的各批量作业的作业描述以及所述各个业务应用系统的系统描述输入至部署有大数据分布式任务调度算法的服务器中(例如，如图1中所示意的云服务器S)，其中，所述服务器能够以大数据分布式任务调度算法对所述预定业务应用系统内的各批量作业的作业描述以及所述各个业务应用系统的系统描述进行处理，以生成各个所述修正作业特征向量归属于各个重要性标签的概率值。进而，选取所述概率值中的最大概率值所对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性，然后，再基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序，以使得业务调度的效果更好，批量作业的时效性更高。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图2图示了根据本申请实施例的大数据分布式任务调度系统的框图。如图2所示，根据本申请实施例的大数据分布式任务调度系统200，包括：第一语义编码单元210，用于对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列；第二语义编码单元220，用于对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列；参考特征向量选取单元230，用于从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量；注意力单元240，用于计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量；初解码单元250，用于将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值；修正系数确定单元260，用于计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量；修正单元270，用于将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列；二次编码单元280，用于将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值；重要性确定单元290，用于从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性；以及，调度结果生成单元300，用于基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。

具体地，在本申请实施例中，所述第一语义编码单元210和所述第二语义编码单元220，用于对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列，并对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列。如前所述，为了进行批量作业的业务调度，需要对所述批量作业进行业务级别的判定，从而基于所述业务级别进行业务调度，但是，在业务级别的判定时需要考虑同一业务应用系统内的所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系。

因此，在本申请的技术方案中，首先，从银行内的预定业务应用系统中获取各批量作业的作业描述，以及获取各个业务应用系统的系统描述。接着，对所述预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码，也就是，针对每个所述作业描述通过词嵌入转化为输入向量，再将所述各个作业描述对应的输入向量的序列通过语义理解模型，例如基于转换器的Bert模型，得到作业特征向量的序列。然后，对于所述各个业务应用系统的系统描述也进行基于语义理解模型的语义编码，也就是，针对每个所述系统描述通过词嵌入转化为输入向量，再将所述各个系统描述对应的输入向量的序列通过语义理解模型，例如基于转换器的Bert模型，得到系统特征向量的序列。应可以理解，由于当前的语义理解模型可以基于上下文的关系进行编码，因此通过对所述预定业务应用系统内的各批量作业的作业描述和所述各个业务应用系统的系统描述进行编码，可以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，以使得后续生成的调度结果的准确性更高。

更具体地，在本申请实施例中，所述第一语义编码单元，包括：第一词嵌入子单元，用于将每个所述作业的作业描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述作业的作业描述对应的输入向量的序列；以及，第一上下文编码子单元，用于将每个所述作业的作业描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述作业的作业描述对应的所述作业特征向量的序列。

更具体地，在本申请实施例中，所述第二语义编码单元，包括：第二词嵌入子单元，用于将每个所述业务应用系统的系统描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述业务应用系统的系统描述对应的输入向量的序列；以及，第二上下文编码子单元，用于每个所述业务应用系统的系统描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述业务应用系统的系统描述对应的所述作业特征向量的序列。

具体地，在本申请实施例中，所述参考特征向量选取单元230和所述注意力单元240，用于从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量，并计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量。也就是，在本申请的技术方案中，首先，从所述系统特征向量的序列中选择所述预定业务应用系统对应的预定系统特征向量作为参考向量。然后，再应用编码器注意力机制来将上下文机制引入解码器中，以给所述编码器状态带来上下文的关系，具体地，在本申请实施例中，首先计算所述作业特征向量的序列中的每个作业特征向量与所述预定系统特征向量之间的相似性值，接着针对所有作业特征向量的相似性值组成相似性向量。

更具体地，在一个具体示例中，可以计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的L2距离作为所述相似性值。应可以理解，本领域普通技术人员应了解，L2距离函数，也被称为最小平方误差(LSE)，它是目标值与估计值的差值的平方和，也叫欧氏距离，所述公式为D＝|x_i-y_i|²，x_i表示所述作业特征向量的序列中各个作业特征向量中的各个位置的特征值、y_i表示所述参考特征向量中的各个位置的特征值。应可以理解，相较于L1距离函数而言，所述L2距离函数拥有稳定解。这里，计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量的各个位置的特征值之间的L2距离，能够反映出所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的特征差异程度。

特别地，在另一个具体示例中，也可以计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的余弦距离作为所述相似性值。应可以理解，余弦相似度就是计算两个向量间的夹角的余弦值，也就是，对于两个向量A和B，其余弦相似度定义为：

而余弦距离就是用1减去所述余弦相似度，也就是，可用所述公式定义为：

并且由于所述余弦相似度的取值范围是[-1，1]，因此所述余弦距离的取值范围为[0，2]，应可以理解，所述欧式距离体现的是距离上的绝对差异，而所述余弦距离体现的是方向上的相对差异。

具体地，在本申请实施例中，所述初解码单元250，用于将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值。也就是，在本申请的技术方案中，针对所述所有作业特征向量组成的相似性向量，再计算所述作业特征向量的序列中的每个作业特征向量通过解码器后获得的类别概率值，这里，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值。

在一个具体示例中，所述初解码单元，进一步用于：将所述作业特征向量的序列中各个作业特征向量输入所述解码器的Softmax函数以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值。

具体地，在本申请实施例中，所述修正系数确定单元260和所述修正单元270，用于计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量，并将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列。应可以理解，在本申请的技术方案中，为了对所述作业特征向量序列中每个所述作业特征向量进行修正，在获得各个所述作业特征向量归属于最大概率的重要性标签的概率值之后，首先，计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，并将获得的所述修正系数组成修正系数向量，以便于后续的修正计算。然后，将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘，以对所述作业特征向量序列中每个所述作业特征向量进行修正，从而获得由修正作业特征向量组成的修正作业特征向量的序列。这样，可以使得所述各批量作业的解码器回归解码能够在所述各批量作业之间的依赖关系的基础上，进一步参照不同的业务应用系统之间的依赖关系及其给编码器状态带来的上下文关系，以使得所述各批量作业的调度的准确性更高。

具体地，在本申请实施例中，所述二次编码单元280，用于将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值。也就是，在本申请的技术方案中，在对所述作业特征向量序列中每个所述作业特征向量进行修正后，再将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值。应可以理解，通过所述编码器注意力机制，可以使得所述各批量作业的解码器回归解码能够在所述各批量作业之间的依赖关系的基础上进一步参照不同的业务应用系统之间的依赖关系及其给所述编码器状态带来的上下文关系，即基于所述所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。

具体地，在本申请实施例中，所述重要性确定单元290和所述调度结果生成单元300，用于从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性，并基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。应可以理解，在本申请的技术方案中，可以在所述业务级别的判定时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，以对所述批量作业进行业务重要性级别的判定，进而再基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。这样，可以使得业务调度的准确性更高，批量作业的时效性也更高。

综上，基于本申请实施例的所述大数据分布式任务调度系统200被阐明，其通过对所述预定业务应用系统内的各批量作业的作业描述和各个业务应用系统的系统描述进行编码，以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，并且还采用编码器的注意力机制，以基于所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。通过这样的方式，可以在确定业务调度和处理顺序时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，进而使得业务调度的效果更好，批量作业的时效性更高。

如上所述，根据本申请实施例的大数据分布式任务调度系统200可以实现在各种终端设备中，例如大数据分布式任务调度算法的服务器等。在一个示例中，根据本申请实施例的大数据分布式任务调度系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该大数据分布式任务调度系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该大数据分布式任务调度系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该大数据分布式任务调度系统200与该终端设备也可以是分立的设备，并且该大数据分布式任务调度系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性方法

图3图示了大数据分布式任务调度系统的调度方法的流程图。如图3所示，根据本申请实施例的大数据分布式任务调度系统的调度方法，包括步骤：S110，对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列；S120，对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列；S130，从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量；S140，计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量；S150，将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值；S160，计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量；S170，将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列；S180，将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值；S190，从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性；以及，S200，基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。

图4图示了根据本申请实施例的大数据分布式任务调度系统的调度方法的架构示意图。如图4所示，在所述大数据分布式任务调度系统的调度方法的网络架构中，首先，对获得的所述预定业务应用系统内的各批量作业的作业描述(例如，如图4中所示意的IN1)进行基于语义理解模型(例如，如图4中所示意的SUM)的语义编码以获得作业特征向量的序列(例如，如图4中所示意的VF1)；接着，对获得的所述各个业务应用系统的系统描述(例如，如图4中所示意的IN2)进行基于所述语义理解模型(例如，如图4中所示意的SUM)的语义编码以获得系统特征向量的序列(例如，如图4中所示意的VF2)；然后，从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量(例如，如图4中所示意的VF3)；接着，计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值(例如，如图4中所示意的SV)以获得由所述所有作业特征向量的相似性值组成的相似性向量(例如，如图4中所示意的VS)；然后，将所述作业特征向量的序列中各个作业特征向量通过解码器(例如，如图4中所示意的D)以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值(例如，如图4中所示意的CPV)；接着，计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数(例如，如图4中所示意的CF)，以获得由各个所述作业特征向量的修正系数组成的修正系数向量(例如，如图4中所示意的VC)；然后，将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列(例如，如图4中所示意的VF4)；接着，将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器(例如，如图4中所示意的D)以获得各个所述修正作业特征向量归属于各个重要性标签的概率值(例如，如图4中所示意的PV)；然后，从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性；以及，最后，基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。

更具体地，在步骤S110和S120中，对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列，并对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列。也就是，首先，从银行内的预定业务应用系统中获取各批量作业的作业描述，以及获取各个业务应用系统的系统描述。接着，对所述预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码，也就是，针对每个所述作业描述通过词嵌入转化为输入向量，再将所述各个作业描述对应的输入向量的序列通过语义理解模型，例如基于转换器的Bert模型，得到作业特征向量的序列。然后，对于所述各个业务应用系统的系统描述也进行基于语义理解模型的语义编码，也就是，针对每个所述系统描述通过词嵌入转化为输入向量，再将所述各个系统描述对应的输入向量的序列通过语义理解模型，例如基于转换器的Bert模型，得到系统特征向量的序列。应可以理解，由于当前的语义理解模型可以基于上下文的关系进行编码，因此通过对所述预定业务应用系统内的各批量作业的作业描述和所述各个业务应用系统的系统描述进行编码，可以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，以使得后续生成的调度结果的准确性更高。

更具体地，在步骤S130和S140中，从所述系统特征向量的序列中选择所述预定业务应用系统对应的系统特征向量作为参考特征向量，并计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量。也就是，在本申请的技术方案中，首先，从所述系统特征向量的序列中选择所述预定业务应用系统对应的预定系统特征向量作为参考向量。然后，再应用编码器注意力机制来将上下文机制引入解码器中，以给所述编码器状态带来上下文的关系，具体地，在本申请实施例中，首先计算所述作业特征向量的序列中的每个作业特征向量与所述预定系统特征向量之间的相似性值，接着针对所有作业特征向量的相似性值组成相似性向量。

更具体地，在步骤S150中，将所述作业特征向量的序列中各个作业特征向量通过解码器以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值。也就是，在本申请的技术方案中，针对所述所有作业特征向量组成的相似性向量，再计算所述作业特征向量的序列中的每个作业特征向量通过解码器后获得的类别概率值，这里，所述类别概率值表示各个所述作业特征向量归属于最大概率的重要性标签的概率值。在一个具体示例中，可以将所述作业特征向量的序列中各个作业特征向量输入所述解码器的Softmax函数以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值。

更具体地，在步骤S160和步骤S170中，计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，以获得由各个所述作业特征向量的修正系数组成的修正系数向量，并将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘以获得由修正作业特征向量组成的修正作业特征向量的序列。也就是，在获得各个所述作业特征向量归属于最大概率的重要性标签的概率值之后，首先，计算所述作业特征向量序列中每个所述作业特征向量的类别概率值与所述相似性向量之间的交叉熵值作为各个所述作业特征向量的修正系数，并将获得的所述修正系数组成修正系数向量，以便于后续的修正计算。然后，将由各个所述作业特征向量的修正系数组成的修正系数向量与所述作业特征向量序列中每个所述作业特征向量进行相乘，以对所述作业特征向量序列中每个所述作业特征向量进行修正，从而获得由修正作业特征向量组成的修正作业特征向量的序列。这样，可以使得所述各批量作业的解码器回归解码能够在所述各批量作业之间的依赖关系的基础上，进一步参照不同的业务应用系统之间的依赖关系及其给编码器状态带来的上下文关系，以使得所述各批量作业的调度的准确性更高。

更具体地，在步骤S180中，将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值。也就是，在对所述作业特征向量序列中每个所述作业特征向量进行修正后，再将所述修正作业特征向量的序列中各个所述修正作业特征向量输入所述解码器以获得各个所述修正作业特征向量归属于各个重要性标签的概率值。应可以理解，通过所述编码器注意力机制，可以使得所述各批量作业的解码器回归解码能够在所述各批量作业之间的依赖关系的基础上进一步参照不同的业务应用系统之间的依赖关系及其给所述编码器状态带来的上下文关系，即基于所述所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。

更具体地，在步骤S190和步骤S200中，从各个所述修正作业特征向量归属于各个重要性标签的概率值中选取最大概率值对应的重要性标签作为所述修正作业特征向量序列对应的批量作业的重要性，并基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。应可以理解，在本申请的技术方案中，可以在所述业务级别的判定时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，以对所述批量作业进行业务重要性级别的判定，进而再基于所述批量作业的重要性，确定所述各批量作业的调度和处理顺序。这样，可以使得业务调度的准确性更高，批量作业的时效性也更高。

综上，基于本申请实施例的所述大数据分布式任务调度系统的调度方法被阐明，其通过对所述预定业务应用系统内的各批量作业的作业描述和各个业务应用系统的系统描述进行编码，以在编码后得到的所述特征向量中包含所述各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系的信息，并且还采用编码器的注意力机制，以基于所有编码器状态和解码器的隐状态来裁剪所述解码器的输入，以实现所述解码器的上下文回归解码。通过这样的方式，可以在确定业务调度和处理顺序时考虑所述同一业务应用系统内的各批量作业之间的依赖关系以及所述不同的业务应用系统之间的依赖关系，进而使得业务调度的效果更好，批量作业的时效性更高。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种大数据分布式任务调度系统，其特征在于，包括：

2.根据权利要求1所述的大数据分布式任务调度系统，其中，所述第一语义编码单元，包括：

第一词嵌入子单元，用于将每个所述作业的作业描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述作业的作业描述对应的输入向量的序列；以及

第一上下文编码子单元，用于将每个所述作业的作业描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述作业的作业描述对应的所述作业特征向量的序列。

3.根据权利要求2所述的大数据分布式任务调度系统，其中，所述第二语义编码单元，包括：

第二词嵌入子单元，用于将每个所述业务应用系统的系统描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述业务应用系统的系统描述对应的输入向量的序列；以及

第二上下文编码子单元，用于每个所述业务应用系统的系统描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述业务应用系统的系统描述对应的所述作业特征向量的序列。

4.根据权利要求3所述的大数据分布式任务调度系统，其中，所述注意力单元，进一步用于计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的L2距离作为所述相似性值。

5.根据权利要求3所述的大数据分布式任务调度系统，其中，所述注意力单元，进一步用于计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的余弦距离作为所述相似性值。

6.根据权利要求4或5所述的大数据分布式任务调度系统，其中，所述初解码单元，进一步用于：将所述作业特征向量的序列中各个作业特征向量输入所述解码器的Softmax函数以获得所述作业特征向量序列中每个所述作业特征向量的类别概率值。

7.一种大数据分布式任务调度系统的调度方法，其特征在于，包括：

8.根据权利要求7所述的大数据分布式任务调度系统的调度方法，其中，对预定业务应用系统内的各批量作业的作业描述进行基于语义理解模型的语义编码以获得作业特征向量的序列，包括：

将每个所述作业的作业描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述作业的作业描述对应的输入向量的序列；以及

将每个所述作业的作业描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述作业的作业描述对应的所述作业特征向量的序列。

9.根据权利要求7所述的大数据分布式任务调度系统的调度方法，其中，对各个业务应用系统的系统描述进行基于所述语义理解模型的语义编码以获得系统特征向量的序列，包括：

将每个所述业务应用系统的系统描述分词后通过所述语义理解模型的词嵌入模型以获得每个所述业务应用系统的系统描述对应的输入向量的序列；以及

每个所述业务应用系统的系统描述对应的输入向量的序列通过所述语义理解模型的基于转换器的Bert模型以获得每个所述业务应用系统的系统描述对应的所述作业特征向量的序列。

10.根据权利要求7所述的大数据分布式任务调度系统的调度方法，其中，计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的相似性值以获得由所述所有作业特征向量的相似性值组成的相似性向量，包括：

计算所述作业特征向量的序列中各个作业特征向量与所述参考特征向量之间的L2距离作为所述相似性值。