CN114611675A

CN114611675A - 数据处理方法、装置、电子装置和存储介质

Info

Publication number: CN114611675A
Application number: CN202210283654.4A
Authority: CN
Inventors: 张超; 李飞; 钱徽; 谢嘉豪; 白文松
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-10

Abstract

本申请涉及一种数据处理方法、装置、电子装置和存储介质，其中，该数据处理方法包括：获取深度神经网络模型，以及该深度神经网络模型中每个算子的张量；基于该张量确定每个该算子的张量切分结果，以至少根据该张量切分结果生成初始并行策略，并利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果；至少根据该初始并行策略和该代价评估结果生成目标并行策略；其中，该目标并行策略用于指示该深度神经网络模型执行数据处理操作。通过本申请，解决了自动生成的并行策略准确性低的问题。

Description

数据处理方法、装置、电子装置和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及数据处理方法、装置、电子装置和存储介质。

背景技术

多个计算设备上部署深度神经网络模型是训练大规模复杂模型的一种方式。数据并行是应用最广的并行策略，但随着数据集和模型越来越大，单卡内存受限，训练设备数量不断增加，导致通信开销增长，数据并行遇到瓶颈，需要进行数据和模型混合并行。

在相关技术中，深度神经网络模型的并行策略一般可以通过动态规划搜索算法实现。但AccPar的动态规划搜索算法只适用于计算图是线性结构的深度神经网络模型，且AccPar的结果中同一层算子无法使用数据并行加模型并行的混合并行方法，导致自动生成的并行策略准确性较低。

目前针对相关技术中自动生成的并行策略准确性低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据处理方法、装置、电子装置和存储介质，以至少解决相关技术中自动生成的并行策略准确性低的问题。

第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取深度神经网络模型，以及所述深度神经网络模型中每个算子的张量；

基于所述张量确定每个所述算子的张量切分结果，以至少根据所述张量切分结果生成初始并行策略，并利用构建完备的代价模型对所述初始并行策略训练处理以得到代价评估结果；

至少根据所述初始并行策略和所述代价评估结果生成目标并行策略；其中，所述目标并行策略用于指示所述深度神经网络模型执行数据处理操作。

在其中一些实施例中，所述至少根据所述张量切分结果生成初始并行策略包括：

获取预设的设备拓扑模型；

根据所述张量切分结果中的并行度数确定所有所述算子对应的算子并行任务，并根据所述设备拓扑模型和所述算子并行任务确定设备部署结果；

根据所述张量切分结果和所述设备部署结果生成所述初始并行策略。

在其中一些实施例中，所述根据所述张量切分结果和所述设备部署结果生成所述初始并行策略包括：

获取预设的并行策略规则；

根据所述并行策略规则对所述张量切分结果进行调节处理，以得到张量切分调节结果，并根据所述并行策略规则对所述设备部署结果进行调节处理，以得到设备部署调节结果；

根据所述张量切分调节结果和所述设备部署调节结果生成所述初始并行策略。

在其中一些实施例中，所述利用构建完备的代价模型对所述初始并行策略训练处理以得到代价评估结果包括：

获取预设的设备拓扑模型；

根据所述初始并行策略建立任务图，并根据所述任务图获取静态并行任务；

利用所述代价模型，在所述设备拓扑模型指示的硬件设备上遍历运行所述静态并行任务，计算得到每个所述静态并行任务对应的实际内存代价和实际时间代价，并根据所述实际内存代价和所述实际时间代价计算得到所述初始并行策略的代价评估结果。

在其中一些实施例中，所述至少根据所述初始并行策略和所述代价评估结果生成目标并行策略包括：

利用预设的策略搜索算法，对所述代价评估结果进行转换处理以得到概率分布特征；

从所有所述算子中随机确定一个算子，通过将所述算子对应的初始并行策略替换为新的提议并行策略，以确定包括所述提议并行策略的多个并行策略样本，并利用所述代价模型计算得到所述多个并行策略样本对应的提议代价评估结果；

根据所述概率分布特征和所述提议代价评估结果，对所述并行策略样本进行搜索采样以得到搜索结果，以基于所述搜索结果生成所述目标并行策略。

在其中一些实施例中，所述策略搜索算法为多提议马尔科夫链蒙特卡洛方法(Multiple proposal Markov Chain Monte Carlo，简称为MP-MCMC)策略搜索算法。

在其中一些实施例中，所述张量包括数据张量和权重张量，所述基于所述张量确定每个所述算子的张量切分结果包括：

获取所述数据张量的样本批次维度，并获取所述权重张量对应的输入通道维度和输出通道维度；

根据所述样本批次维度、所述输入通道维度和所述输出通道维度，确定所述张量切分结果。

第二方面，本申请实施例提供了一种数据处理装置，所述装置包括：获取模块、切分模块和生成模块；

所述获取模块，用于获取深度神经网络模型，以及所述深度神经网络模型中每个算子的张量；

所述切分模块，用于基于所述张量确定所述每个算子的张量切分结果，以至少根据所述张量切分结果生成初始并行策略，并利用构建完备的代价模型对所述初始并行策略训练处理以得到代价评估结果；

所述生成模块，用于至少根据所述初始并行策略和所述代价评估结果生成目标并行策略；其中，所述目标并行策略用于指示所述深度神经网络执行数据处理操作。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的数据处理方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的数据处理方法。

相比于相关技术，本申请实施例提供的数据处理方法、装置、电子装置和存储介质，通过获取深度神经网络模型，以及该深度神经网络模型中每个算子的张量；基于该张量确定每个该算子的张量切分结果，以至少根据该张量切分结果生成初始并行策略，并利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果；至少根据该初始并行策略和该代价评估结果生成目标并行策略；其中，该目标并行策略用于指示该深度神经网络模型执行数据处理操作，解决了自动生成的并行策略准确性低的问题。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种数据处理方法的应用环境图；

图2是根据本申请实施例的一种数据处理方法的流程图；

图3是根据本申请实施例的另一种数据处理方法的流程图；

图4是根据本申请优选实施例的一种数据处理方法的架构示意图；

图5是根据本申请实施例的一种数据处理装置的结构框图；

图6是根据本申请实施例的一种计算机设备内部的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的数据处理方法，可以应用于如图1所示的应用环境中。其中，终端12通过网络与多个服务器14进行通信。终端12获取用户输入并设置的深度神经网络模型、计算图，以及各服务器14之间的设备拓扑模型；该终端12将各信息传输至服务器14。服务器14基于计算图确定该深度神经网络模型中每个算子的张量，基于张量确定每个算子的张量切分结果，根据张量切分结果和设备拓扑模型生成初始并行策略；该服务器14利用构建完备的代价模型对初始并行策略训练处理得到代价评估结果，并至少根据该初始并行策略和该代价评估结果生成目标并行策略；该目标并行策略用于指示该深度神经网络模型在各服务器14上的部署情况，以便由各服务器14接力训练该深度神经网络模型以执行数据处理操作。该终端12可以但不限于是各种智能手机、个人计算机、笔记本电脑和平板电脑，该服务器14可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例提供了一种数据处理方法，图2是根据本申请实施例的一种数据处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S220，获取深度神经网络模型，以及该深度神经网络模型中每个算子的张量。

其中，上述算子是指深度神经网络模型中对张量的属性运算，如矩阵乘法、张量加法、卷积等；本实施例中可与神经网络中的层(layer)等价。上述张量是指n维数组，它是标量、1维矢量和2维矩阵的n维推广。在机器学习的模型训练中，训练数据和中间计算结果都可以看作为是张量。可以理解的是，上述深度神经网络模型中的各个算子可以基于该深度网络模型的计算图确定。

步骤S240，基于该张量确定每个该算子的张量切分结果，以至少根据该张量切分结果生成初始并行策略，并利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果。

其中，上述张量切分结果是指利用用户预先设置的张量切分策略，基于张量对每个算子的任务进行切分得到的多个并行任务的结果。在该张量切分结果指示将每个算子切分为多个算子并行任务之后，各算子并行任务可以构成上述初始并行策略。上述代价模型是指用于高效估计初始并行策略对训练过程中计算、通信以及内存等的代价影响。该代价模型获取初始并行策略执行代价的方式是基于并行策略建立一个任务图，然后在任务图上运行仿真算法，以利用仿真算法得到使用该初始并行策略执行一次深度神经网络模型并行训练迭代的时间代价与内存代价；任务图中会包括模型并行训练过程中所有算子的前向计算与反向计算任务、算子间的通信任务，以及算子权重的更新任务；仿真算法会根据任务之间的依赖关系依次处理，通过这种方法模拟并行训练的过程；最后，仿真算法基于任务图，拓扑遍历初始并行策略中每个并行任务，计算得出一次模型并行训练迭代的时间代价和内存代价，并将时间代价和内存代价用线性函数组合成该初始并行策略的执行代价估计，从而得到上述初始并行策略对应的代价评估结果。

步骤S260，至少根据该初始并行策略和该代价评估结果生成目标并行策略；其中，该目标并行策略用于指示该深度神经网络模型执行数据处理操作。

其中，在通过上述步骤S220至步骤S240确定初始并行策略和代价评估结果之后，可以利用该代价评估结果对该初始并行策略进行优化，最终得到上述目标并行策略。

通过上述步骤S220至步骤S260，通过确定深度神经网络模型中每个算子的张量切分结果，基于张量切分结果生成初始并行策略，并通过代价模型对初始并行策略进行优化，从而能够高效获取初始并行策略的代价反馈结果，实现了深度神经网络模型并行策略的自动生成，解决了自动生成的并行策略准确性低的问题，实现了准确、高效的并行策略自动生成方法。

在其中一些实施例中，上述张量包括数据张量和权重张量，上述基于该张量确定每个该算子的张量切分结果还包括如下步骤：获取该数据张量的样本批次维度，并获取该权重张量对应的输入通道维度和输出通道维度；根据该样本批次维度、该输入通道维度和该输出通道维度，确定该张量切分结果。

其中，上述数据张量是指深度神经网络模型中无参数算子的张量。上述权重张量是指例如卷积算子等有参数的算子的张量。具体地，本实施例中算子的张量切分策略可以表示为

该张量切分策略是三维正整数向量，三个向量分别用来代表算子θ_i在数据张量中输入张量的样本批次维度切分的并行度数、在权重张量中输入通道维度切分的并行度数、以及在权重张量中输出通道维度切分的并行度数。例如，如果对连接算子使用数据并行以及行切分的模型并行的切分方法，可以预先设置张量切分策略为

用于表示全连接算子的输入张量在样本批次维度平均切分为两份，同时权重张量在输入通道维度平均切分成两份，在输出通道维度则不做切分。本实施例中算子的张量切分策略会选择在每个维度采用均等的切分方式，这是为了张量切分后生成的算子并行任务能够计算均衡。可以理解的是，在基于用户设置好的张量切分策略确定张量切分结果后，可以继续通过后续代价模型和策略搜索算法对该张量切分结果进行进一步优化，以最终实现数据并行和模型并行的切分方法。

通过上述实施例，通过三维正整数向量的张量切分策略对数据张量、权重参量切分，使得每个算子都可以实现数据并行与模型并行的混合并行方法，实现了更优的深度学习并行训练性能提升效果，有效提高了并行策略的自动生成方法的准确性。

在其中一些实施例中，提供了一种数据处理方法，图3是根据本申请实施例的另一种数据处理方法的流程图，如图3所示，该流程包括图3所示的步骤S220和步骤S260，此外还包括如下步骤：

步骤S320，基于该张量确定每个该算子的张量切分结果；获取预设的设备拓扑模型。

其中，上述设备拓扑模型是指用于表示需要部署深度神经网络模型并行任务的各个硬件设备之间的连接关系的模型；该设备拓扑模型可以基于用户输入的硬件设备ID信息以及带宽等信息预先进行确定。

步骤S340，根据该张量切分结果中的并行度数确定所有该算子对应的算子并行任务，并根据该设备拓扑模型和该算子并行任务确定设备部署结果。

其中，上述设备部署结果与算子的张量切分策略有关。以上述张量切分策略

为例，本实施例中定义

为

在三个维度并行度数的乘积。则根据算子的张量切分策略

算子的执行可以被划分成

个独立的任务；算子的这些并行任务可以表示为

同时，算子的设备部署策略将决定每个算子并行任务的分配设备。具体地，本实施例中定义

其中

表示算子并行任务被分配到的设备加速器编号。

步骤S360，根据该张量切分结果和该设备部署结果生成该初始并行策略，并利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果。

具体地，基于对算子张量切分的分析与算子异构计算的需求，本申请提出了四维的策略空间，表示为(Batch，InChannel，OutChannel，Placement)；其中，Batch、InChannel、OutChannel分别对应算子张量切分的三个维度：算子输入张量的样本批次维度的切分、算子权重张量的输入通道维度与输出通道维度的切分。Placement代表了算子并行任务需要部署的设备，对于常见的数据并行方法来说，需要将所有的算子部署到所有设备上执行；但是当模型参数量较大以至于无法分配到各个设备上时，就需要将算子切分后生成的子训练任务部署在不同设备加速器上，通过“接力”执行的方式完成模型的并行训练。基于上述分析，可以由上述张量切分结果和设备部署结果一起构成四维的初始并行策略

即初始并行策略

包括了每个算子o_i的张量划分策略

和算子并行任务的设备部署策略

对于一个算子总数为N的深度神经网络模型，本实施例中定义

其中

则根据初始并行策略

可以明确在该模型并行训练时应该如何进行模型切分与任务部署，进而实现模型并行训练的执行流程。此外，也可以由工程师独立地挑选出算子o_i对应的并行策略

将其替换成任意可行的新策略

需要补充说明的是，此过程不会影响其他算子的并行策略，但是可能会影响模型整体的并行训练流程。

通过上述步骤S320至步骤S360，通过张量切分策略和设备部署策略实现了四维的策略空间，从而使得将算子切分后生成的子训练任务能够部署在不同设备加速器上，提供了更加高效准确的并行策略自动生成方法。

在其中一些实施例中，上述根据该张量切分结果和该设备部署结果生成该初始并行策略还包括如下步骤：

步骤S361，获取预设的并行策略规则。

其中，上述并行策略规则是指用户自定义的对并行任务的切分和部署策略规则；该并行策略规则可以由用户结合实际情况预先进行设置。例如，用户可以通过上述终端输入用于指示在权重张量的输入通道维度上切分为两份的参数，或者输入指示在ID信息为2的服务器硬件设备部署若干算子并行任务的参数等。

步骤S362，根据该并行策略规则对该张量切分结果进行调节处理，以得到张量切分调节结果，并根据该并行策略规则对该设备部署结果进行调节处理，以得到设备部署调节结果；根据该张量切分调节结果和该设备部署调节结果生成该初始并行策略。

其中，考虑到用户可能会存在自定义并行训练的需求，例如需要限制部分模型子图的并行训练方法，或者需要让某些特定算子在特殊的硬件加速器上执行等等，因此本实施例中通过引入规则引擎来方便用户控制并行策略自动生成的结果。具体地，用户自定义的并行策略规则会通过规则引擎对网络模型中部分算子的张量切分方法与设备分配方法产生影响，即用户定义的规则集合通过规则引擎处理后生成并行策略规则操作，这些操作将限制某些算子的并行策略选择；例如，若并行策略规则指示在权重张量的输入通道维度上切分为两份，以及将3个算子并行任务分配至ID信息为2的服务器硬件设备部署，则生成的张量切分结果中

的第二个维度会调整至2，且设备部署结果进行部分调整以符合该并行策略规则。可以理解的是，上述并行策略规则也可以仅指示调节张量切分结果，或者仅指示调节设备部署结果，在此不再赘述。

通过上述步骤S361至步骤S362，通过基于获取到的并行策略规则对张量切分结果和/或设备部署结果进行调节，以生成初始并行策略，从而能够向用户提供可选的自定义规则接口，使得用户能够结合实际情况对并行策略进行调整，提高了用户体验。

在其中一些实施例中，上述利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果还包括如下步骤：

步骤S241，获取预设的设备拓扑模型；根据该初始并行策略建立任务图，并根据该任务图获取静态并行任务。

具体地，上述任务图可以根据计算图

设备拓扑模型

和初始并行策略

建立。该任务图可以表示为T＝(N，E)；其中，N表示所有并行任务的个数，E表示各个并行任务之间的连接关系。则从该任务图中可以筛选得到上述静态并行任务；该静态并行任务是指某些算子的计算时间与内容无关的任务。

步骤S242，利用该代价模型，在该设备拓扑模型指示的硬件设备上遍历运行该静态并行任务，计算得到每个该静态并行任务对应的实际内存代价和实际时间代价，并根据该实际内存代价和该实际时间代价计算得到该初始并行策略的代价评估结果。

具体地，表1示出了本申请实施例中的一种代价模型仿真算法的伪代码，如表1所示：

表1代价模型仿真算法

上述仿真算法首先完成任务图T的构建，包括任务节点的创建、任务节点的设备分配、相邻计算任务处于不同设备时通信任务的创建，以及初始化任务节点的

和

等属性；且其他属性会在仿真算法执行时完成初始化与更新。其中，上述仿真算法中涉及到的任务、设备、代价相关的数据属性可以参考表2中的说明，如表2所示：

表2代价模型仿真算法数据结构属性说明

基于上述表格中的内容，上述仿真算法中会通过MeasureOpCost方法来得到。具体地，在上述仿真算法中可以获取上述任务图中的每个静态并行任务t的输入张量形状大小和权重张量形状大小，以及张量使用哪种数据类型进行存储，因此上述代价模型可以随机初始化具有相同数据类型与形状大小的输入张量、权重张量，在计算静态并行任务所处的硬件设备，即上述设备拓扑模型指示的硬件设备上进行多次模拟计算，从而得到计算静态并行任务的平行执行时间，以及平均内存占用作为该静态并行任务的代价估计，即上述实际时间代价和上述实际内存代价。该仿真算法可以获得通信任务需要传输的张量形状大小与数据类型，也可以计算出通信传输的时间代价。通信任务的时间代价估计等于在连接带宽为b(单位Byte/s)的设备之间传输字节数为s的张量的时间s/b。为了尽量提升算法运行的效率，代价模型会缓存静态并行任务的代价估计避免重复计算；当仿真算法遇到算子类型、张量形状、数据类型和设备类型都曾经出现过的新任务时，代价模型可以直接返回已缓存的代价数据。

由于本申请实施例是在满足设备集群中每台设备的内存约束条件下，找到使并行训练执行时间代价最小的并行策略，因此上述代价模型使用的仿真算法中计算了分配到每台设备上的计算任务在训练过程中的内存代价和时间代价，然后返回并行训练迭代一次的整体执行时间代价与所有设备上的内存溢出之和。代价模型的仿真算法最后会使用一个线性函数f:R→R计算出并行策略的执行代价。线性函数会将并行策略的执行时间和内存的代价组合成并行策略的总代价，即上述代价评估结果；其中时间代价c_time定义为任务图中最晚任务的结束时间，内存代价c_mem定义为设备内存溢出的总和，标量a∈R和标量b∈R分别是时间代价系数和内存代价系数，与具体的硬件与网络拓扑相关。

通过上述步骤S241至步骤S242，通过代价模型在硬件设备上遍历运行静态并行任务，并计算每个静态并行任务对应的实际内存代价和实际时间代价，以得到初始并行策略的代价评估结果，从而通过代价模型实现了并行策略的计算、通信、内存反馈的高效获取方法，以及实现了在实际的物理设备环境中多次运行该算子的计算来获取实际的执行代价开销的代价估计方法，避免了相关技术中只考虑执行时间代价的弊端，进一步提高了并行策略自动生成的准确性。

在其中一些实施例中，上述少根据该初始并行策略和该代价评估结果生成目标并行策略还包括如下步骤：

步骤S261，利用预设的策略搜索算法，对该代价评估结果进行转换处理以得到概率分布特征。

其中，上述策略搜索算法可以采用MP-MCMC、梅特罗波利斯－黑斯廷斯算法(Metropolis-Hastings，简称为MH)、或者MCMC等策略搜索算法。需要补充说明的是，MP-MCMC算法是MH算法的泛化方法，是通过并行化计算来提高现有MH方法的计算速度和统计效率，因此基于MP-MCMC的策略搜索算法能够提升并行策略的搜索速度和优化效率，从而优化并行策略的自主生成方法，且适用于本实施例中并行策略搜索空间所具有的离散高维的特点。具体地，利用MP-MCMC策略搜索算法，构造一条马尔科夫链使其平稳分布为待估参数的概率分布p(x)，通过这条马尔科夫链产生概率分布的样本，从初始状态x₀出发，利用从条件概率分布κ(x_t,·)(t＝0,1,…)生成样本，并通过转移条件判断是否转移，通过m次更新达到平稳，此后生成的即为p(x)的样本。简单来说，MCMC从概率分布中采样高概率样本的次数要比采样低概率样本的次数的比例更高。此外，MCMC方法在实践中多使用于未知参数的概率分布为高维、复杂的非常见分布的场景，相似的是本研究使用的并行策略搜索空间也具有离散高维的特点，与MCMC方法十分契合。公式1表示了一种将代价函数cost(S)转换为概率分布特征p(S)的常用方法：

p(S)∝exp(-β·cost(S)) 公式1

其中，β是一个可以调节的超参数，代价函数cost(S)是通过上述代价模型获得上述初始并行策略的代价评估结果的方法。因此，策略搜索算法可以使用代价模型获取的并行策略执行代价，将最小化并行策略执行代价的问题转换为从并行策略的概率分布中进行采样的问题。策略搜索算法便可以从初始的并行策略开始，通过采样获得许多可行的并行策略样本。最后搜策略索算法将从中挑选出代价最低的并行策略样本作为策略优化器的最终输出。

步骤S262，从所有该算子中随机确定一个算子，通过将该算子对应的初始并行策略替换为新的提议并行策略，以确定包括该提议并行策略的多个并行策略样本，并利用该代价模型计算得到该多个并行策略样本对应的提议代价评估结果。

其中，为了满足MH方法中提议核函数对称性的条件，本申请实施例中在策略搜索算法中采用一种简单的提议新并行策略的方式。获得新并行策略的提议方法是随机选择当前模型计算图中的一个算子o_i，并将该算子的并行策略随机替换为新的提议并行策略

以确定包括该提议并行策略的多个并行策略样本。这种提议方法可以满足MH方法中提议核函数对称性的条件，这是由于任何算子的并行策略都是以相同的概率随机实现更新的，所以提议核函数可以满足对称性条件：

步骤S263，根据该概率分布特征和该提议代价评估结果，对该并行策略样本进行搜索采样以得到搜索结果，以基于该搜索结果生成该目标并行策略。

其中，在采用上述策略搜索算法在提议核函数满足对称性时，代入上述公式1所述的概率分布特征的转换公式，可以得到判断是否接收上述新的提议并行策略的约束条件，如下述公式3所示：

需要补充说明的是，

表示初始并行策略，

表示新的提议并行策略，

表示通过上述代价模型获得初始并行策略的代价评估结果的方法，

表示通过代价模型获得提议并行策略的提议代价估计结果的方法。由公式3可知，如果新提议的并行策略

的执行代价低于初始并行策略

那么新策略

将始终被接收；如果新并行策略

的损失高于初始并行策略

则有可能拒绝转移，依旧使用初始并行策略

通过上述策略搜索算法，从初始并行策略开始，通过采样获得许多可行的提议并行策略样本，并最终从中搜索出代价最低的并行策略样本作为最终输出的搜索结果，这一搜索结果即为上述目标并行策略。具体地，采用得到新的并行策略的过程可以包括如下步骤：在算法每轮迭代中，首先得到当前的初始并行策略S₀作为输入，然后通过提议核函数，即条件分布提议一个新的提议并行策略

最后算法会根据转移条件来判断是否转移。如果转移条件满足，那么形提议的并行策略会被接受，此时可以设置

为当前策略；如果转移失败，策略搜索算法会继续基于S₀提议新的并行策略。上述过程可以不断执行，直到算法已经长时间没有找到新的更优并行策略，或者算法达到了时间预算便可以结束搜索过程。通过上述步骤，使得并行策略的采样能够倾向于向低代价策略移动，同时也有助于逃脱局部最优点。

具体地，表3示出了本申请实施例中的一种MP-MCMC策略搜索算法的伪代码，如表3所示：

表3 MP-MCMC策略搜索算法

上述策略搜索算法中每轮迭代可以分为两个步骤。首先，步骤一基于当前的初始并行策略状态

例如I＝0，通过提议核函数并行提议N个新的策略

然后，步骤二将提议的策略集合

视为转移概率为A(i,j)(i,j∈[0,N])的马尔科夫链并从中采样，设置N个新的策略样本。每轮MCMC迭代中的最后一个样本会成为下一次MCMC迭代的初始状态。因此，本实施例中使用基于MP-MCMC的策略搜索算法来提升并行策略的搜索速度和优化效率；通过策略搜索算法在搜索优化的每轮迭代中并行地提出和计算多个新的提议并行策略，从而提升了算法在并行策略搜索空间中的探索效率，有利于算法在有限时间内找到能更加提升并行训练性能的并行策略。

在相关技术中，FlexFlow并行策略自动生成方法的搜索空间不够完整，不支持完整的张量切分模型并行方法，且FlexFlow的搜索算法采用普通的MH随机搜索方法，搜索效率较低。AccPar的动态规划搜索算法只适用于计算图是线性结构的深度神经网络模型，而且搜索算法的粒度不是更精细的算子级，而是粒度较粗的层级；AccPar的结果中同一层算子无法使用数据并行加模型并行的混合并行方法，所以最终得到的并行策略性能效果也是次优的。

而本申请实施例通过上述步骤S261至步骤S263，通过使用完整的算子级并行策略搜索空间，避免了并行策略搜索空间中算子并行方法缺失的弊端，使得每个算子都可以实现数据并行与行切分和列切分的模型并行方法，从而能够找到以前未知的并行策略结果，实现更优的深度学习并行训练性能提升效果。此外，通过采用全新的MP-MCMC搜索算法，可以更高效地在并行策略搜索空间中探索可行的新策略。MP-MCMC搜索算法会根据代价模型的并行策略性能代价反馈，通过并行计算和采样在搜索空间中寻找新的能够提升并行训练性能的策略结果。MP-MCMC搜索算法更有利于在高维离散的策略搜索空间中进行探索，提升了并行策略的优化效率。

下面通过优选实施例对本申请实施例进行描述和说明。图4是根据本申请优选实施例的一种数据处理方法的架构示意图，如图4所示，该架构主要由策略优化器构成。具体地，本实施例中将深度神经网络模型对应的计算图模型，以及并行训练所使用的设备拓扑模型作为策略优化器的主要输入，并且将用户自定义的并行策略规则通过规则引擎输入至策略优化器，从而通过策略优化器基于输入参数生成初始并行策略。该策略优化器主要由代价模型和MP-MCMC搜索算法组成。该代价模型使用仿真算法高效估计并行策略对训练过程中计算、通信、内存的代价影响，用于评估并行策略对并行训练性能影响，并将损失反馈至MP-MCMC搜索算法。最后MP-MCMC搜索算法会基于代价模型的并行策略代价反馈，通过并行计算的方式提出多个新的候选并行策略，即上述并行策略样本，以不断地搜索代价更低的新并行策略。当搜索时间预算耗尽时，策略优化器会将代价最低的并行策略作为结果返回。策略优化器使用并行计算的MP-MCMC方法，提升了并行策略的搜索优化效率，有利于在高维离散的策略搜索空间中探索有效的并行策略结果。与相关技术中FlexFlow使用的并行策略随机搜索算法相比，MP-MCMC搜索算法可以在相同的时间预算内搜索出性能提升效果更加优秀的并行策略。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种数据处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的一种数据处理装置的结构框图，如图5所示，该装置包括：获取模块52、切分模块54和生成模块56。该获取模块52，用于获取深度神经网络模型，以及该深度神经网络模型中每个算子的张量；该切分模块54，用于基于该张量确定该每个算子的张量切分结果，以至少根据该张量切分结果生成初始并行策略，并利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果；该生成模块56，用于至少根据该初始并行策略和该代价评估结果生成目标并行策略；其中，该目标并行策略用于指示该深度神经网络执行数据处理操作。

通过上述实施例，通过切分模块54确定深度神经网络模型中每个算子的张量切分结果，基于张量切分结果生成初始并行策略，并通过代价模型对初始并行策略进行优化，从而能够高效获取初始并行策略的代价反馈结果，实现了深度神经网络模型并行策略的自动生成，解决了自动生成的并行策略准确性低的问题，实现了准确、高效的并行策略自动生成装置。

在其中一些实施例中，上述切分模块54还用于获取预设的设备拓扑模型；该切分模块根据该张量切分结果中的并行度数确定所有该算子对应的算子并行任务，并根据该设备拓扑模型和该算子并行任务确定设备部署结果；该切分模块54根据该张量切分结果和该设备部署结果生成该初始并行策略。

在其中一些实施例中，上述切分模块54还用于获取预设的并行策略规则；该切分模块54根据该并行策略规则对该张量切分结果进行调节处理，以得到张量切分调节结果，并根据该并行策略规则对该设备部署结果进行调节处理，以得到设备部署调节结果；该切分模块54根据该张量切分调节结果和该设备部署调节结果生成该初始并行策略。

在其中一些实施例中，上述切分模块54还用于获取预设的设备拓扑模型；该切分模块54根据该初始并行策略建立任务图，并根据该任务图获取静态并行任务；该切分模块54利用该代价模型，在该设备拓扑模型指示的硬件设备上遍历运行该静态并行任务，计算得到每个该静态并行任务对应的实际内存代价和实际时间代价，并根据该实际内存代价和实际时间代价计算得到该初始并行策略的代价评估结果。

在其中一些实施例中，上述生成模块56还用于利用预设的策略搜索算法，对该代价评估结果进行转换处理以得到概率分布特征；该生成模块56从所有该算子中随机确定一个算子，通过将该算子对应的初始并行策略替换为新的提议并行策略，以确定包括该提议并行策略的多个并行策略样本，并利用该代价模型计算得到该多个并行策略样本对应的提议代价评估结果；该生成模块56根据该概率分布特征和该提议代价评估结果，对该并行策略样本进行搜索采样以得到搜索结果，以基于该搜索结果生成该目标并行策略。

在其中一些实施例中，上述策略搜索算法为MP-MCMC策略搜索算法。

在其中一些实施例中，上述张量包括数据张量和权重张量；上述切分模块54还用于获取该数据张量的样本批次维度，并获取该权重张量对应的输入通道维度和输出通道维度；该切分模块54根据该样本批次维度、该输入通道维度和该输出通道维度，确定该张量切分结果。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在其中一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，图6是根据本申请实施例的一种计算机设备内部的结构图，如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标并行策略。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取深度神经网络模型，以及该深度神经网络模型中每个算子的张量。

S2，基于该张量确定每个该算子的张量切分结果，以至少根据该张量切分结果生成初始并行策略，并利用构建完备的代价模型对该初始并行策略训练处理以得到代价评估结果。

S3，至少根据该初始并行策略和该代价评估结果生成目标并行策略；其中，该目标并行策略用于指示该深度神经网络模型执行数据处理操作。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的数据处理方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述至少根据所述张量切分结果生成初始并行策略包括：

获取预设的设备拓扑模型；

3.根据权利要求2所述的数据处理方法，其特征在于，所述根据所述张量切分结果和所述设备部署结果生成所述初始并行策略包括：

获取预设的并行策略规则；

4.根据权利要求1所述的数据处理方法，其特征在于，所述利用构建完备的代价模型对所述初始并行策略训练处理以得到代价评估结果包括：

获取预设的设备拓扑模型；

5.根据权利要求1所述的数据处理方法，其特征在于，所述至少根据所述初始并行策略和所述代价评估结果生成目标并行策略包括：

6.根据权利要求5所述的数据处理方法，其特征在于，所述策略搜索算法为MP-MCMC策略搜索算法。

7.根据权利要求1至6任一项所述的数据处理方法，其特征在于，所述张量包括数据张量和权重张量，所述基于所述张量确定每个所述算子的张量切分结果包括：

8.一种数据处理装置，其特征在于，所述装置包括：获取模块、切分模块和生成模块；

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的数据处理方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的数据处理方法。