CN117453376B

CN117453376B - 高通量计算的控制方法、装置、设备及存储介质

Info

Publication number: CN117453376B
Application number: CN202311759934.9A
Authority: CN
Inventors: 陈建辉; 赵旭山; 串子行; 张倩; 余伟
Original assignee: Contemporary Amperex Technology Co Ltd
Current assignee: Contemporary Amperex Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-05-03
Anticipated expiration: 2043-12-20
Also published as: CN117453376A

Abstract

本申请涉及高通量计算领域，尤其涉及高通量计算的控制方法、装置、设备及存储介质。该方法包括：确定待执行任务中包括的两个以上的计算单元，以及确定计算单元之间的逻辑关系；根据计算单元之间的逻辑关系，将第一计算单元分发至高通量计算节点，并监测第一计算单元的执行信息；根据第i计算单元的执行信息和逻辑关系确定用于分发至高通量计算节点执行的第i+1计算单元，以及监测第i+1计算单元的执行信息，直至完成待执行任务，所述i为大于0的整数。通过执行信息结合逻辑关系确定下一个计算单元，能够有效的将计算单元融入到高通量计算系统，有利于在使用高通量计算的计算任务中使用较为复杂的逻辑关系，有利于提高计算任务的灵活性。

Description

高通量计算的控制方法、装置、设备及存储介质

技术领域

本申请涉及高通量计算领域，尤其涉及高通量计算的控制方法、装置、设备及存储介质。

背景技术

高通量计算是一种能够处理大量数据的新型计算技术。旨在通过利用大量计算资源，并行处理大规模数据或任务，以实现高效率和高吞吐量的计算能力。随着多尺度模拟仿真、AI开发的广泛应用，用于实现多尺度模拟仿真或AI开功能的脚本的也越来越大，在计算处理过程中所使用的逻辑判断的次数也会增加。

在传统的高通量计算方法中，通常将实现相应功能的代码封装为完备的软件。将封装为完备的软件进行高通量计算时，出于对软件稳定性的原因，不利于在计算任务中实现较为复杂的逻辑判断、循环等逻辑关系，不利于提高计算任务的灵活性。

发明内容

有鉴于此，本申请实施例提供了一种高通量计算的控制方法、装置、设备及存储介质，以解决现有技术中进行高通量计算时，不利于在软件中实现较为复杂的逻辑关系，不利于提高计算任务的灵活性的问题。

本申请实施例的第一方面提供了一种高通量计算的控制方法，所述方法包括：确定待执行任务中包括的两个以上的计算单元，以及确定所述计算单元之间的逻辑关系，所述计算单元为用于高通量计算所提交的进行单次计算的单元；根据所述计算单元之间的逻辑关系，将第一计算单元分发至高通量计算节点，并监测所述第一计算单元的执行信息；根据第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，以及监测所述第i+1计算单元的执行信息，直至完成所述待执行任务，所述i为大于0的整数。

本申请实施例在进行高通量计算的控制时，先确定待执行任务中包括的两个以的计算单元，以及计算单元之间的逻辑关系，根据逻辑关系将第i计算单元分发至高通量计算节点进行计算，监测第i计算单元的执行信息，结合逻辑关系确定第i+1计算单元的分发和监测，按照这样的分发和监测策略直到执行完成待执行任务。由于本申请实施例可以根据计算单元的执行信息，结合逻辑关系确定分发的下一个计算单元，从而能够有效的将计算单元融入到高通量计算系统，使得计算单元的处理过程清晰可控，有利于在使用高通量计算的计算任务中使用较为复杂的逻辑关系，有利于提高计算任务的灵活性。

结合第一方面，在第一方面的第一种可能实现方式中，根据所述第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，包括：当所述第i计算单元为循环逻辑关系中的计算单元时，获取所述第i计算单元的执行信息；当所述执行信息未满足循环结束条件时，调整所述第i计算单元的参数并将调整参数后的所述第i计算单元确定分发至所述高通量计算节点执行的第i+1计算单元。

在根据第i计算单元的执行信息确定第i+1计算单元时，需要先确定第i计算单元的逻辑关系与第i+1计算单元的逻辑关系，如果第i计算单元为循环逻辑关系中的计算单元，在第i计算单元的执行信息未满足循环结束条件时，更新第i计算单元的参数，并将更新参数后的第i计算单元作为下一个进行高通量计算的第i+1执行单元。通过平台系统按照逻辑关系选择和发放计算单元，使得高通量计算节点可有效的完成对循环逻辑关系的计算。

结合第一方面，在第一方面的第二种可能实现方式中，根据所述第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，包括：当所述第i计算单元的执行信息为所述计算单元执行完成，所述第i计算单元之后的逻辑关系为并行逻辑关系时，确定作为第i+1计算单元的多个并行计算单元；将所述多个并行计算单元同时分发至所述高通量计算节点中的并行进程进行计算处理。

根据第i+1计算单元与第i计算单元的逻辑关系，在第i计算单元之后为并行逻辑关系时，则在检测到第i计算单元执行完成时，通过并行进程处理第i+1计算单元中包括的多个并行计算单元，从而使得高通量计算系统可以有效的对并行逻辑关系进行计算处理。

结合第一方面至第一方面的第二种可能实现方式中的任意一种，在第一方面的第三种可能实现方式中，所述计算单元包括一层或两层以上嵌套的子流程，在各层子流程中包括一个或两个以上的子计算单元，所述逻辑关系包括子计算单元之间的逻辑关系，以及子计算单元与计算单元之间的逻辑关系。

流程中的任意计算单元，可以替换为包括子计算单元的子流程。在子流程中可以包括子流程初始化、参数输入、子计算单元等组件。子流程中的子计算单元可以根据逻辑关系进行选择和分发。在子流程中的计算单元，可以进一步嵌套子流程，进一步嵌套的子流中还可以包括子计算单元。通过多层嵌套的方式，可以便于实现更为复杂的逻辑处理。

结合第一方面的第三种可能实现方式，在第一方面的第四种可能实现方式中，所述子流程或所述子流程中的子计算单元包括不同的版本标识，所述方法还包括：根据所述子流程或计算单元的版本标识，确定用于迭代或回退的流程版本。

为了便于对流程版本进行迭代更新或回退使用，在同一个子流程、计算单元可以包括不同版本标识。基于子流程或计算单元的版本标识，可以选择或更换不同版本标识的子流程或计算单元，便于实现不同版本的迭代更新，或者任意选择所需要版本进行执行。比如，在逻辑关系中可以包括版本标识信息，基于版本标识信息选择所需要使用的计算单元的版本，从而实现更为多样化的计算控制。

结合第一方面至第一方面的第二种可能实现方式中的任意一种，在第一方面的第五种可能实现方式中，在将第一计算单元分发至高通量计算节点之后，所述方法还包括：监测所述高通量计算节点的异常信息；根据所述高通量计算节点的异常信息的类型，对所述高通量计算节点执行相应的守护操作。

在使用高通量计算处理计算单元的过程中，可能会出现死循环、线程异常、负载异常等情况。为了能够有效的完成高通量计算，对高通量计算节点的异常情况进行监测，在监测到出现异常时，采用与异常种类对应的守护操作，包括如中止计算、排队等候等操作方式。

结合第一方面的第五种可能实现方式，在第一方面的第六种可能实现方式中，根据所述高通量计算节点的异常信息的类型，对所述高通量计算节点执行相应的守护操作，包括以下方式中的至少一种：当监测到所述高通量计算节点中的循环逻辑关系的计算单元的执行次数大于预定的次数阈值，则中止所述高通量计算；当监测所述高通量计算节点的线程资源占用值大于预定的占用阈值，则控制分发至所述高通量计算节点的计算单元排队等候；当监测所述高通量计算节点的负载大于预定的负载阈值，则控制分发至所述高通量计算节点的计算单元排队等候。

可以根据所选择的计算单元的分发的次数，得到循环逻辑关系的计算单元的执行次数。在该执行次数大于预定的次数阈值时，则认为该循环逻辑关系可能陷入死循环，可以中止高通量计算。在高通量计算节点的线程资源占用值大于占用阈值时，或者高通量计算节点的负载大于负载阈值时，可以控制用于分发至该高通量计算节点的计算单元排队等候，以使得高通量计算节点能够高效的动作。

结合第一方面至第一方面的第二种可能实现方式中的任意一种，在第一方面的第七种可能实现方式中，在确定待执行任务中包括的两个以上的计算单元，以及确定所述计算单元之间的逻辑关系之后，所述方法还包括：在将第i计算单元分发至高通量计算节点时，获取所述高通量计算节点的配置信息，以及获取所述第i计算单元用于计算的结构特征和参数特征；根据所述高通量计算节点的配置信息和所述第i计算单元的结构特征和参数特征，确定在不同计算节点计算所述第i计算单元所需要的算力信息。

可以基于所获取的高通量计算节点的配置信息，结合第i计算单元的结构特征和参数特征，得到第i计算单元匹配不同的高通量计算节点时所需要的算力信息时，可以基于统计数据读取对应关系，也可以基于神经网络模型、随机森林模型、决策树模型进行计算得到。可以选择耗费算力较少或最少的高通量计算节点进行处理，使得计算单元能够更为高效的完成计算。

结合第一方面的第八种可能实现方式，在第一方面的第九种可能实现方式中，根据所述高通量计算节点的配置信息和所述第i计算单元的结构特征和参数特征，确定在所述高通量计算节点计算所述第i计算单元所需要的算力信息，包括：将不同计算节点的配置信息和所述第i计算单元的结构特征和参数特征输入预先训练完成的算力估计模型，确定所述高通量计算节点计算所述第i计算单元所需要的算力信息。

在确定计算单元在不同配置信息的高通量计算节点所需要的算力信息时，可以预先获取样本数据，样本数据包括不同配置的高通量计算节点在处理不同结构特征和参数特征的计算单元的算力信息。基于样本数据对算力估计模型进行训练。在训练完成后，将计算单元的结构特征和参数特征以及计算节点的配置信息输入到算力估计模型，计算得到不同高通量计算节点所需要的算力，可以选择需要较少或最少算力的高通量估计模型进行计算处理，从而有利于提升计算单元的处理效率。

本申请实施例的第二方面提供了一种高通量计算装置，所述装置包括：

逻辑关系确定单元，用于确定待执行任务中包括两个以上的计算单元，以及确定所述计算单元之间的逻辑关系，所述计算单元为用于高通量计算所提交的进行单次计算的单元；

分发监测单元，用于根据所述计算单元之间的逻辑关系，将第一计算单元分发至高通量计算节点，并监测所述第一计算单元的执行信息；

循环分发监测单元，用于根据第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，以及监测所述第i+1计算单元的执行信息，直至完成所述待执行任务，所述i为大于0的整数。

结合第二方向，在第二方向的第一种可能实现方式中，所述循环分发监测单元包括：执行信息获取子单元，用于当所述第i计算单元为循环逻辑关系中的计算单元时，获取所述第i计算单元的执行信息；判断调整子单元，用于当所述执行信息未满足循环结束条件时，调整所述第i计算单元的参数并将调整参数后的所述第i计算单元确定分发至所述高通量计算节点执行的第i+1计算单元。

结合第二方向，在第二方向的第二种可能实现方式中，所述循环分发监测单元包括：并行计算确定子单元，用于当所述第i计算单元的执行信息为所述计算单元执行完成，所述第i计算单元之后的逻辑关系为并行逻辑关系时，确定作为第i+1计算单元的多个并行计算单元；并行处理子单元，用于将所述多个并行计算单元同时分发至所述高通量计算节点中的并行进程进行计算处理。

结合第二方向至第二方向的第二种可能实现方式中的任意一种，在第二方向的第三种可能实现方式中，所述计算单元包括一层或两层以上嵌套的子流程，在各层子流程中包括一个或两个以上的子计算单元，所述逻辑关系包括子计算单元之间的逻辑关系，以及子计算单元与计算单元之间的逻辑关系。

结合第二方向的第三种可能实现方式，在第二方向的第四种可能实现方式中，所述子流程或所述子流程中的子计算单元包括不同的版本标识，所述装置还包括：版本调整单元，用于根据所述子流程或计算单元的版本标识，确定用于迭代或回退的流程版本。

结合第二方向至第二方向的第二种可能实现方式中的任意一种，在第二方向的第五种可能实现方式中，所述装置还包括：异常监测单元，用于监测所述高通量计算节点的异常信息；守护单元，用于根据所述高通量计算节点的异常信息的类型，对所述高通量计算节点执行相应的守护操作。

结合第二方向的第五种可能实现方式，在第二方向的第六种可能实现方式中，所述守护单元包括以下子单元中的至少一种：死循环处理子单元，用于当监测到所述高通量计算节点中的循环逻辑关系的计算单元的执行次数大于预定的次数阈值，则中止所述高通量计算；线程异常处理子单元，用于当监测所述高通量计算节点的线程资源占用值大于预定的占用阈值，则控制分发至所述高通量计算节点的计算单元排队等候；负载异常处理子单元，用于当监测所述高通量计算节点的负载大于预定的负载阈值，则控制分发至所述高通量计算节点的计算单元排队等候。

结合第二方向至第二方向的第二种可能实现方式中的任意一种，在第二方向的第七种可能实现方式中，所述装置包括：信息获取单元，用于在将第i计算单元分发至高通量计算节点时，获取所述高通量计算节点的配置信息，以及获取所述第i计算单元用于计算的结构特征和参数特征；算力信息计算单元，用于根据所述高通量计算节点的配置信息和所述第i计算单元的结构特征和参数特征，确定在不同计算节点计算所述第i计算单元所需要的算力信息。

结合第二方向的第八种可能实现方式，在第二方向的第九种可能实现方式中，所述算力信息计算单元用于将不同计算节点的配置信息和所述第i计算单元的结构特征和参数特征输入预先训练完成的算力估计模型，确定所述高通量计算节点计算所述第i计算单元所需要的算力信息。

本申请实施例的第三方面提供了高通量计算的控制设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种高通量计算的控制方法的实施场景示意图；

图2是本申请实施例提供的一种高通量计算的控制方法的实现流程示意图；

图3是本申请实施例提供的一种计算单元的嵌套示意图；

图4是本申请实施例提供的一种循环逻辑关系的实现流程示意图；

图5是本申请实施例提供的一种并行逻辑关系的流程示意图；

图6是本申请实施例提供的一种优化计算单元的分发方法的实现流程示意图；

图7是本申请实施例提供的一种高通量计算系统的示意图；

图8是本申请实施例提供的一种高通量计算的控制装置示意图；

图9是本申请实施例提供的一种高通量计算的控制设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

高通量计算是一种利用并行处理和大规模数据处理技术来加速计算的方法。高通量计算可应用于许多领域，包括材料筛选和设计、材料性能预测、晶体结构预测等。通过高通量计算可以加速新材料的发现和设计过程，提高材料研究的效率。但是，随着多尺度模拟仿真、AI开发等技术的广泛应用，使用高通量计算系统的计算任务也会更加复杂，其中可能会存在复杂的逻辑关系，包括如循环、判断、并行等逻辑关系。将计算任务交由高通量计算系统进行计算时，容易使得高通量计算系统出现逻辑处理异常。

为解决上述问题，本申请实施例提出了一种高通量计算的控制方法。图1为该控制方法的实施场景示意图。如图1所示，该实施场景包括平台系统101、代理服务器102和高通量计算的多个计算节点103。其中，高通量计算节点103可以位于不同类型的集群中。比如图1中包括集群A和集群B中，集群B可以为GPU（英文全称为graphics processing unit，中文全称为图形处理器）集群。不局限于GPU集群，还可以包括如CPU集群、超级计算机集群、FPGA（英文全称为Field-Programmable Gate Array，中文全称为现场可编程门阵列）集群、内存集群等。在集群中可以包括两个以上的计算节点，两个以上的计算节点可以通过管理节点进行资源管理和调度。另外，高通量计算节点还可以包括应用服务器等一般服务器，通常对应于碎片化的小规模运算的算力承载，可用于快速响应计算的任务计算要求。

其中，平台系统可用于根据待执行任务确定两个以上的计算单元，确定计算单元之间的逻辑关系。根据计算单元之间的逻辑关系，得到用于分发的消息队列。代理服务器可用于获取高通量计算节点的执行信息，结合计算单元之间的逻辑关系，确定待分发的计算单元，从而便于实现复杂的逻辑关系的计算控制。

其中，平台系统和代理服务器可以为分开的实体设备，也可以为集成的实体设备。

本申请实施例中的高通量计算（英文全称为High-Throughput Computing，英文简称为HTC）是一种计算科学的方法，主要用于处理大规模的计算任务，通过并行处理和资源共享来实现高效的计算。高通量计算广泛应用于科学研究、工程模拟、数据分析等领域。例如生物信息学、药物研发、材料筛选、气候模拟等领域涉及大规模数据处理和模拟，适合采用高通量计算完成相关任务的计算。

图2为本申请实施例提供的一种高通量计算的控制方法的实现流程示意图。执行该方法的主体可以为高通量计算的控制设备，包括如图1中所示的平台系统和代理服务器等设备。该方法详述如下：

在S201中，确定待执行任务中包括的两个以上的计算单元，以及确定所述计算单元之间的逻辑关系。

其中，计算单元为完成一次完整功能的运算单元。在高通量计算过程中，计算单元可以为向高通量计算节点提交的、进行单次计算的单元。计算单元可以包括如科学计算、数据处理、模拟、优化和机器学习等计算任务。

在一个待执行任务的计算任务中，可以包括两个或两个以上的计算单元。两个或两个以上的计算单元，结合计算单元之间的逻辑关系，可以确定计算任务的流程。其中，逻辑关系可用于表示计算单元之间的依赖关系，根据逻辑关系可以确定计算单元之间的执行顺序，包括先后顺序和并行顺序等。

在通常的流程中，可以包括初始化层和流程控制层。初始化层用于完成初始化操作。在使用高通量计算材料特性等操作中，初始化操作可以包括如流程初始化、参数初始化和结构初始化等。流程控制层用于根据逻辑关系控制各个计算单元的计算流程。

在本申请实施例中，不同类型的逻辑关系可以通过不同的工作流来执行。比如，循环逻辑关系的工作流可以包括“流程开始初始化参数输入计算单元执行条件判断参数调整计算单元执行 … 流程结束”。判断逻辑关系的工作流可以表示为“流程开始初始化参数输入计算单元执行流程结束”，并行逻辑关系的工作流可以表示为“流程开始初始化参数输入 N个计算单元并行执行流程结束”。

其中，逻辑关系可以包括待执行任务中本身包括的计算单元的顺序，还可以包括不同逻辑关系中的计算单元的顺序或调用策略。比如在循环逻辑关系中，根据循环逻辑关系中的计算单元的执行信息，确定是否调整参数后重复循环该计算单元。

在可能的实现方式中，在一个流程中的计算单元中，可以包括用于完成该项计算的子流程，子流程中可以包括一个或者多个子计算单元，子流程中的子计算单元，也可以进一步包括子流程。即计算单元可以通过子流程表示的方式进行一层或多层嵌套，得到不同层级的计算单元。不同层级的计算单元，以及同层级的计算单元，可以通过逻辑关系确定计算单元的执行顺序。如图3所示，在流程A中，包括计算单元1、子流程1和计算单元2。子流程1中的一个或者多个计算单元又可以通过子流程2来表示。比如图3中，子流程1包括子计算单元3、子计算单元4，以及进一步嵌套的子流程2。按照图3所示的嵌套关系，一个计算单元可以嵌套多层子流程。

当流程中包括嵌套的子流程时，计算单元之间的逻辑关系还包括不同层级之间的计算单元的顺序。比如，在图3所示的嵌套有子流程的计算单元中，所确定的逻辑关系中，可以包括子流程1中的子计算单元4之后为计算单元2。

在S202中，根据所述计算单元之间的逻辑关系，将第一计算单元分发至高通量计算节点，并监测所述第一计算单元的执行信息。

本申请实施例中的第一计算单元，为待执行任务中包括的两个以上的计算单元中的计算单元。第一计算单元为根据待执行任务中的计算单元的逻辑关系所确定的，需要首先分发至高通量计算节点的计算单元。比如，在完成流程初始化、参数初始化和结构初始化后，向高通量计算节点分发第一计算单元。

将第一计算单元分发至高通量计算节点后，所获取的第一计算单元的执行信息，可以包括第一计算单元的执行状态、执行结果等信息中的至少一项。比如执行状态可以包括排队状态、执行完成状态、执行异常状态等。执行结果可以包括计算单元输出的计算结果。

在获取分发至高通量计算节点中的第i（i为大于0的整数）计算单元的执行信息时，可以包括多种方式。比如，在计算单元生成输出文件时，可以监测输出文件的存在或内容来判断计算单元是否执行完成。或者也可以通过任务日志来获取计算单元的运行状态、错误信息，确定任务是否完成等。或者也可以通过任务管理工具查询任务的执行状态。或者，也可以通过查看计算单元相关的进程的状态来确定计算单元的执行状态。或者，也可以通过定期轮询的方式，查询计算单元的执行状态。

在S203中，根据第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，以及监测所述第i+1计算单元的执行信息，直至完成所述待执行任务，所述i为大于0的整数。

根据第一计算单元的执行信息，结合逻辑关系可以确定第一计算单元之后执行的第二计算单元。将第二计算单元分至高通量计算节点，根据第二计算单元的执行信息，结合逻辑关系可以确定第二计算单元之后的第三计算单元，依次类推，直到计算完成第N计算单元（待执行任务中的最后一个计算单元），完成待执行任务的计算处理。

在可能的实现方式中，流程中的计算单元的逻辑关系可能包括循环逻辑关系、并行逻辑关系和判断逻辑关系等。

如图4所示为本申请实施例提供的一种循环逻辑关系的实现流程示意图。如图4所示，在该循环逻辑关系中，计算单元1之后为条件判断，根据执行信息，即图4中的条件判断结果，确定是否为满足条件1的情况下，进行参数调整后执行计算单元1，或者在条件判断结果满足条件2的情况下，执行计算单元2，或者在条件判断满足条件3的情况下，执行计算单元3，在执行完成计算单元2或计算单元3（计算单元2或计算单元3的计算改变了用于条件判断的结果）后重新进行条件判断。在条件判断满足条件4的情况下，结束该流程。

如图5为本申请实施例提供的一种并行逻辑关系的流程示意图。在计算单元1执行完成后，执行并行的子流程1和子流程2，在并行的子流程1或子流程2执行完成后，执行计算单元2。

当第i计算单元为循环逻辑关系中的计算单元时，基于第i计算单元在高通量计算节点的执行信息，结合计算单元之间的逻辑关系确定下一个计算单元（即第i+1计算单元）时，可以在执行信息未满足结束条件时，调整第i计算单元的参数，将调整了参数的第i计算单元作为第i+1计算单元分发至高通量计算节点执行。当执行信息满足结束条件时，则可以根据逻辑关系确定位于循环逻辑关系之后的计算单元，作为第i+1计算单元。

当第i计算单元的执行信息为计算单元执行完成，且第i计算单元之后的逻辑关系为并行逻辑关系，可以确定位于第i计算单元之后的多个并行计算单元，将多个并行计算单元作为第i+1计算单元，可以同时分发至高通量计算节点中的并行进程进行计算处理。

在可能的实现方式中，本申请实施例可以将特定功能的流程固化为不同版本的计算单元或子流程，可以为不同版本的计算单元或子流程添加版本标识。在需要执行不同版本的计算单元或子流程时，可以根据版本选择指令，在根据逻辑关系确定执行的云计算单元时，根据版本选择指令中的版本标识，选择对应版本的计算单元或子流程，从而便于实现不同版本的迭代，以及实现不同版本的回退操作，有利于提升计算的灵活性和便利性。

为了提升包括复杂逻辑关系的高通量计算过程的可靠性和有效性，减少由于多级嵌套导致的死循环或资源爆炸的出现几率，本申请实施例还包括对高通量计算节点的异常信息进行监测，基于所监测的异常信息的种类，执行相应的守护操作。

其中，守护操作是高通量计算过程中，用于管理和维护计算资源的操作。通过守护操作可以有助于高通量计算系统的平衡运行，任务的高效执行以及资源的有效利用。守护操作可以包括监视和调度提交的计算任务，计算集群中的资源的分配、监测任务的执行状态，识别可能的错误或失败，并采取相应的措施，包括如重新启动任务或重新分配任务等。

比如，本申请实施例可以通过监测循环逻辑关系中的计算单元的执行次数，在执行次数大于预定的次数阈值的情况下，确定该计算单元进入死循环。或者，也可以根据定期轮询指令，查询计算单元的执行状态。如果循环逻辑关系的执行时长大于预定的时长，则表示该计算单元进入死循环。如果监测到循环逻辑关系中的计算单元进入死循环，则可以中止该高通量计算。

在可能的实现方式中，本申请实施例可以监测高通量计算节点的线程资源的占用值。其中，线程资源可以包括处理器资源、内存资源和网络资源等。在线程资源的占用值超过预定的占用阈值的情况下，可以暂停对该高通量计算单元进行计算单元的分发，使计算单元排队等候，从而有效缓解线程资源占用过多的状态。

或者，本申请实施例还可以监测高通量计算节点的负载信息。在高通量计算节点的负载信息大于预设的负载阈值的情况下，可以暂停对该高通量计算单元进行计算单元的分发，使计算单元排队等候，从而有效缓解线程资源占用过多的状态。或者，也可以对各个高通量计算节点的负载进行均衡处理，提升系统的计算效率。

本申请实施例为优化计算资源的分配，可以确定不同流程的重要程度。根据不同流程的重要程度确定不同优先级的计算单元。基于所确定的不同优先级的计算单元，在超算资源充足的前提下，优先完成高优先级的计算单元的计算，提高重要流程的处理效率。

在可能的实现方式中，为提升计算效率，本申请实施例中用于处理计算单元的高通量计算节点、用于根据逻辑关系和执行信息确定计算单元的平台系统或高度服务器可以通过共享存储的方式，进行资源的监控和计算单元的派发。

在可能的实现方式中，为了提升高通量计算节点对计算单元的处理效率，本申请可以对计算单元的分发进行优化，如图6所示，该分发过程可以包括：

在S601中，获取所述高通量计算节点的配置信息，以及获取所述第i计算单元用于计算的结构特征和参数特征。

其中，高通量节点的配置信息，可以包括高通量节点的硬件配置信息和软件配置信息。硬件配置信息包括如处理器信息（包括如CPU配置信息和GPU配置信息等）、内存信息、存储信息、网络适配信息等。软件配置信息可以包括如操作系统信息、驱动程度信息、节点管理软件、文件系统等信息。

计算单元中用于计算的结构特征可以包括如晶体结构特征、非晶材料结构特征、缺陷和杂质特征等。晶体结构特征包括如晶胞数量、原子坐标和晶体对称性等特征。非晶材料结构特征可以包括原子局部环境特征、配位数特征等。参数特征可以包括如温度、压力和化学成分等参数。

在S602中，根据所述高通量计算节点的配置信息和所述第i计算单元的结构特征和参数特征，确定在不同计算节点计算所述第i计算单元所需要的算力信息。

可以预先统计得到不同结构特征和参数特征在不同配置信息的高通量计算节点进行计算时所耗费的算力，也可以基于预先确定的模型进行计算得到。预先确定的模型可以包括如神经网络模型、随机森林模型、决策树模型等。

比如，本申请可以基于神经网络构建算力估计模型，将统计的样本数据中的结构参数信息和高通量计算节点的配置信息输入到算力估计模型，根据模型输出的算力值与统计的算力值之间的差异调整算力估计模型的参数，直到二者的差异满足预定的要求，完成该算力估计模型的训练。可以根据训练完成的算力估计模型，确定计算单元中的结构参数信息所匹配的最佳的高通量计算节点。

为了能够提升分发效率，本申请还可以进一步将结构参数信息相似的计算单元进行分区处理。将结构参数信息相似的计算单元分区后，可以基于分区所高通量计算单元的对应关系，快速的实现对计算单元进行分区，提升计算单元的分发效率和处理效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图7为本申请实施例提供的一种高通量计算系统的示意图。如图7所示，该系统包括初始化层、流程控制层、数据中间层、结果展示层和硬件支持层。其中，初始化层用于执行初始化操作，包括如结构初始化、参数初始化和流程初始化等操作。数据中间层包括流程控制库、单元控制和计算数据库系统。其中，流程控制库用于存储计算单元之间的逻辑关系，单元控制库用于获取计算单元的执行状态等信息。计算数据库系统用于存储计算单元所得到的计算结果等数据。流程控制层包括流程控制组件、异构服务器控制组件和队列系统。其中，流程控制组件用于根据流程控制库的逻辑关系、单元控制库的执行信息，确定用于分发的计算单元。异构服务器控制组件用于根据异构服务器的配置信息、计算单元的结构参数信息，确定所需要选择的硬件支持层的一般服务器、超算系统。队列系统用于根据生成的计算单元按序排列，便于对计算单元进行分发。结果展示层包括数据筛选、数据整合和数据渲染等模块，用于对数据进行后期的处理和展示。硬件支持层包括一般服务器、超算系统和分布式文件系统。其中，一般服务器和超算系统用于处理计算单元，分布式文件系统用于通过共享存储的方式，进行资源的监控和计算单元的派发。

图8为本申请实施提供的一种高通量计算装置的示意图。如图8所示，该装置包括：

逻辑关系确定单元801，用于确定待执行任务中包括两个以上的计算单元，以及确定所述计算单元之间的逻辑关系，所述计算单元为用于高通量计算所提交的进行单次计算的单元；

分发监测单元802，用于根据所述计算单元之间的逻辑关系，将第一计算单元分发至高通量计算节点，并监测所述第一计算单元的执行信息；

循环分发监测单元803，用于根据第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，以及监测所述第i+1计算单元的执行信息，直至完成所述待执行任务，所述i为大于0的整数。

图8所示的高通量计算的控制装置，与图2所示的高通量计算的控制方法对应。

图9是本申请实施例提供的高通量计算的控制设备的示意图。如图9所示，该实施例的高通量计算的控制设备9包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92，例如高通量计算的控制程序。所述处理器90执行所述计算机程序92时实现上述各个高通量计算的控制方法实施例中的步骤。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序92可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器91中，并由所述处理器90执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序92在所述高通量计算的控制设备9中的执行过程。

所述高通量计算的控制设备可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图9仅仅是高通量计算的控制设备9的示例，并不构成对高通量计算的控制设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述高通量计算的控制设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述高通量计算的控制设备9的内部存储单元，例如高通量计算的控制设备9的硬盘或内存。所述存储器91也可以是所述高通量计算的控制设备9的外部存储设备，例如所述高通量计算的控制设备9上配备的插接式硬盘，智能存储卡（SmartMedia Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器91还可以既包括所述高通量计算的控制设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述高通量计算的控制设备所需的其他程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种高通量计算的控制方法，其特征在于，所述方法包括：

确定待执行任务中包括的两个以上的计算单元，以及确定所述计算单元之间的逻辑关系，所述计算单元为所述待执行任务的计算任务中，为向高通量计算节点提交的、用于高通量计算所提交的进行单次计算的单元；

根据所述计算单元之间的逻辑关系，将第一计算单元分发至高通量计算节点，并监测所述第一计算单元的执行信息；

根据第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，以及监测所述第i+1计算单元的执行信息，直至完成所述待执行任务，所述i为大于0的整数。

2.根据权利要求1所述的方法，其特征在于，根据所述第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，包括：

当所述第i计算单元为循环逻辑关系中的计算单元时，获取所述第i计算单元的执行信息；

当所述执行信息未满足循环结束条件时，调整所述第i计算单元的参数并将调整参数后的所述第i计算单元确定分发至所述高通量计算节点执行的第i+1计算单元。

3.根据权利要求1所述的方法，其特征在于，根据所述第i计算单元的执行信息和所述逻辑关系确定用于分发至所述高通量计算节点执行的第i+1计算单元，包括：

当所述第i计算单元的执行信息为所述计算单元执行完成，所述第i计算单元之后的逻辑关系为并行逻辑关系时，确定作为第i+1计算单元的多个并行计算单元；

将所述多个并行计算单元同时分发至所述高通量计算节点中的并行进程进行计算处理。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述计算单元包括一层或两层以上嵌套的子流程，在各层子流程中包括一个或两个以上的子计算单元，所述逻辑关系包括子计算单元之间的逻辑关系，以及子计算单元与计算单元之间的逻辑关系。

5.根据权利要求4所述的方法，其特征在于，所述子流程或所述子流程中的子计算单元包括不同的版本标识，所述方法还包括：

根据所述子流程或计算单元的版本标识，确定用于迭代或回退的流程版本。

6.根据权利要求1-3任一项所述的方法，其特征在于，在将第一计算单元分发至高通量计算节点之后，所述方法还包括：

监测所述高通量计算节点的异常信息；

根据所述高通量计算节点的异常信息的类型，对所述高通量计算节点执行相应的守护操作。

7.根据权利要求6所述的方法，其特征在于，根据所述高通量计算节点的异常信息的类型，对所述高通量计算节点执行相应的守护操作，包括以下方式中的至少一种：

当监测到所述高通量计算节点中的循环逻辑关系的计算单元的执行次数大于预定的次数阈值，则中止所述高通量计算；

当监测所述高通量计算节点的线程资源占用值大于预定的占用阈值，则控制分发至所述高通量计算节点的计算单元排队等候；

当监测所述高通量计算节点的负载大于预定的负载阈值，则控制分发至所述高通量计算节点的计算单元排队等候。

8.根据权利要求1-3任一项所述的方法，其特征在于，在将第i计算单元分发至高通量计算节点时，包括：

获取所述高通量计算节点的配置信息，以及获取所述第i计算单元用于计算的结构特征和参数特征；

根据所述高通量计算节点的配置信息和所述第i计算单元的结构参数特征，确定在不同计算节点计算所述第i计算单元所需要的算力信息。

9.根据权利要求8所述的方法，其特征在于，根据所述高通量计算节点的配置信息和所述第i计算单元的结构参数特征，确定在不同计算节点计算所述第i计算单元所需要的算力信息，包括：

将所述高通量计算节点的配置信息和所述第i计算单元的结构特征和参数特征输入预先训练完成的算力估计模型，确定在所述高通量计算节点计算所述第i计算单元所需要的算力信息。

10.一种高通量计算装置，其特征在于，所述装置包括：

逻辑关系确定单元，用于确定待执行任务中包括两个以上的计算单元，以及确定所述计算单元之间的逻辑关系，所述计算单元为所述待执行任务的计算任务中，为向高通量计算节点提交的、用于高通量计算所提交的进行单次计算的单元；

11.一种高通量计算的控制设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述方法的步骤。