CN111782401A

CN111782401A - 数据处理方法、装置以及电子设备

Info

Publication number: CN111782401A
Application number: CN202010693818.1A
Authority: CN
Inventors: 钟卫东; 谭维; 张晓帆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-16
Also published as: WO2022012118A1

Abstract

本申请实施例公开了一种数据处理方法、装置以及电子设备。方法包括：获取当次模型分割对应的算力需求以及处理能力；基于目标规则、当次模型分割对应的算力需求以及处理能力，对待运行模型进行分割，得到当次模型分割对应的多个子部分；将当次模型分割对应的多个子部分加载到多个处理单元进行运行，得到每个处理单元对应于当次模型分割的性能参数；若性能参数不满足性能目标条件，基于性能参数重新计算多个处理单元的处理能力，作为下一次模型分割对应的处理能力。从而可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。

Description

数据处理方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种数据处理方法、装置以及电子设备。

背景技术

算法模型，例如神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统。一些算法模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。但是，相关的电子设备在运行神经网络模型的过程中，还存在运行性能有待提升的问题。

发明内容

鉴于上述问题，本申请提出了一种数据处理方法、装置以及电子设备，以改善上述问题。

第一方面，本申请提供了一种数据处理方法，应用于电子设备，所述方法包括：获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力；获取当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求；基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分；将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数；若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力；若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型。

第二方面，本申请提供了一种数据处理装置，运行于电子设备，所述装置包括：第一参数获取单元，用于获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力；第二参数获取单元，用于获取当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求；模型分割单元，用于基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分；模型运行单元，用于将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数；所述第二参数获取单元，还用于若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力；所述模型运行单元，还用于若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型。

第三方面，本申请提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被启动控制器运行时执行上述的方法。

本申请提供的一种数据处理方法、装置以及电子设备，在获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力后，可以将该初始算力需求以及初始处理能力作为初次模型分割的算力需求以及处理能力，进而对待运行模型进行分割，然后针对分割得到的方案对待运行模型进行运行，以获取到处理单元的性能参数，并且，在获取到的性能参数不满足性能目标条件的情况下，可以再次重新对待运行模型进行分割，直到满足性能目标条件。从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种数据处理方法的流程图；

图2示出了本申请另一实施例提出的一种数据处理方法的流程图；

图3示出了本申请再一实施例提出的一种数据处理方法的流程图；

图4示出了本申请另一实施例提出的一种数据处理装置的结构框图；

图5示出了本申请再一实施例提出的一种数据处理装置的结构框图；

图6示出了本申请的用于执行根据本申请实施例的数据处理方法的电子设备的结构框图；

图7是本申请实施例的用于保存或者携带实现根据本申请实施例的数据处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

算法模型，例如神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。通常在神经算法模型中包括有大量的算子。其中，可以理解的是，算子可以看做是一个神经算法模型中的部分算法过程，算子可以把函数映成函数，或者把函数映成数。

然而，发明人在研究中发现，相关的电子设备在运行神经网络模型的过程中，还存在运行性能有待提升的问题。例如，在一种相关的方式中，电子设备可以将待运行模型拆分为多个部分，然后将该多个部分分别配置到不同的处理单元中运行，以便提升处理速度。但是，发明人发现在该相关的方式中，对于模型的分割方式都是固定的，进而无论是在什么情况下都是基于固定的方式进行模型分割，造成不能很好的提升电子设备运行模型的性能。

因此，发明人提出了本申请中可以改善上述问题的数据处理方法、装置以及电子设备，通过在获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力后，可以将该初始算力需求以及初始处理能力作为初次模型分割的算力需求以及处理能力，进而对待运行模型进行分割，然后针对分割得到的方案对待运行模型进行运行，以获取到处理单元的性能参数，并且，在获取到的性能参数不满足性能目标条件的情况下，可以再次重新对待运行模型进行分割，直到满足性能目标条件。从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供的一种数据处理方法，所述方法包括：

S110：获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力。

需要说明的是，算子的算理需求表征的是算子在运算过程中所需要消耗的计算能力，而处理单元的处理能力表征的是处理单元所能提供的计算能力。而电子设备在执行本实施例所提供的数据处理方法过程中，可能会对待运行模型进行多次模型分割，而在每次模型分割过程中需要先获取到当次模型分割对应的算力需求以及处理能力，而对于初次的模型分割过程中因为待运行模型还未实际进行运行，那么就需要通过配置的方式来获取到算子的初始算力需求以及处理单元的初始处理能力。

在本实施例中，电子设备所包括的处理单元可以为CPU、GPU(GraphicsProcessing Unit)、DSP(Digital Signal Process)以及NPU(Neural-network ProcessingUnit)中的一个或多个。

其中，本实施例中的待运行模型为后续会加载到处理单元进行运行的模型。在本实施例中可以有多种确定待运行模型的方式。

作为一种方式，待运行模型可以为被应用程序所调用的神经网络模型。需要说明的是，应用程序在运行过程中可能会需要对一些数据进行处理，在这个过程中应用程序可以通过调用神经网络来进行数据处理。例如，图像处理类的应用程序可能需要进行图像识别，进而该图像处理类的应用程序就可以通过调用用于进行图像识别的神经网络模型来对图像进行处理。

作为另外一种方式，电子设备可以周期性的执行指定的任务。在这种方式中，电子设备在执行该指定的任务过程中所调用的神经网络模型则可以被确定为待运行模型。可选的，该指定的任务可以为预测电子设备后续将要运行的应用程序的任务，可以为进行视频处理的任务，可以为预测电子设备的用户偏好的任务，还可以为预测电子设备的剩余电量的任务。

S120：获取当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求。

S130：基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分。

如前述内容所示，待运行模型中会包括有多层，而每层中又会包括有至少一个算子，进而使得待运行模型可以看作是由多个算子组成的。在电子设备所包括的处理单元有多个的情况下，为了使得该多个处理单元可以协同运行待运行模型，可以将待运行模型进行拆分，得到多个子部分。在这种方式下，每个子部分都可以包括有待运行模型中的至少部分算子。示例性的，待运行模型包括有输入层、卷积层以及输出层。输入层中包括有算子a1以及算子a2，卷积层中包括有算子b1、算子b2以及算子b3，输出层中包括有算子c1以及算子c2。作为一种方式，将输入层拆分为一个子部分，将卷积层拆分为一个子部分，将输出层拆分为一个子部分，进而可以得到三个子部分。

需要说明的是，在对待运行模型进行拆分时，可以先确定分割点。那么作为一种方式，所述基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分，包括：

基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，计算得到当次模型分割对应的分割点，基于所述当次模型分割对应的分割点对所述待运行模型进行分割，得到当次模型分割对应的多个子部分。

作为一种方式，所述目标规则包括：每个子部分的算力需求与总的算力需求的比值，与该子部分所对应的处理单元的处理能力与总的处理能力的比值相等。示例性的，目标规则可以通过下列公式来实现：

其中，S_k表征的是子部分对应的处理单元的处理能力，S_1+...+S_m表征的是总的处理能力。其中，

表征的是子部分的算力需求，

表征的是总的算力需求。那么通过该公式所计算出的P_k可以作为分割点，其中，K表征是所计算出的第几个分割点。

S140：将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数。

需要说明的是，对于所分割得到的多个子部分，可以分别对应一个适配的处理单元，进而在将多个子部分加载到所述多个处理单元进行运行时，可以是将每个子部分分别加载到所对应的处理单元进行运行。示例性的，若多个子部分中包括子部分A、子部分B以及子部分C，其中子部分A对应CPU，子部分B对应GPU，子部分C对应NPU，进而在运行过程中会将子部分A加载到CPU运行，将子部分B加载到GPU运行，将子部分C加载到NPU运行。

可选的，该性能参数可以为处理单元的运行耗时，也可以为每单位时间内的所处理数据的数据量。

S150：检测性能参数是否满足目标条件。

需要说明的是，本实施例中的目标条件表征的是多个处理单元在运行各自对应的子部分的过程中，性能参数是否表征多个处理单元的运行性能是否均衡。可选的，在得到的性能参数中可以包括有每个处理单元所对应的性能数据，进而可以通过每个处理单元所对应的性能数据来计算得到多个处理单元的运行性能是否均衡。作为一种方式，可以先计算得到每个处理单元对应的性能数据的均值，示例性的，可以通过下列公式来计算均值：

E_p＝(E₁+E₂…+E_n)/n

其中，E_P表征均值，E_n为第n个处理单元的性能数据，n为处理单元的个数。

然后再基于该均值来计算得到偏差值，其中可以通过下列公式来计算得到偏差值，该公式为：

dlt＝(abs(E₁-E_p)+abs(E₂-E_p)…+abs(E_n-E_p))/n

其中，该公式可以理解为将每个处理单元的性能数据与性能数据的均值做差，然后再计算所有差值的均值作为偏差值。若该偏差值小于所有性能数据中最小一个性能数据的5％，则判定性能参数满足目标条件。可以理解的是，其中的所有性能数据为性能参数所包括的所有处理单元的性能数据。

S160：若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力。

需要说明的是，在性能参数不满足性能目标条件的情况下，则可以进入下一次的模型分割，即可以在执行S160之后执行S120。

作为一种方式，在模型的实际运行过程中可以通过下列公式来计算得到处理单元的处理能力：

其中，E_k表征的是处理单元对应于所述当次模型分割的性能参数。例如，子部分B对应的于处理单元B，那么在运行子部分B时电子设备会调用处理单元B来运行子部分B，进而可以得到处理单元B对应于当次模型分割的性能参数。

S170：若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型。

作为一种方式，在检测到性能参数满足所述性能目标条件后，就可以直接将检测到的满足性能目标条件的那次的模型分割方式作为目前的最终分割方式，并基于该最终的分割方式所分割得到的多个子部分来运行。

并且，作为一种方式，还可以将满足所述性能目标条件的模型分割方式进行存储，甚至是分享给其他电子设备，进而有利于当其他电子设备运行该待运行模型时，可以直接基于该满足性能目标条件的那次的模型分割方式所得到的子部分来进行运行，以便可以更快的达到较高的模型运行性能。

需要说明的是，在本申请实施例中电子设备运行模型的性能可以理解为运行模型的耗时，对应的，若电子设备运行模型的性能得到提升，那么所对应的可以理解为运行模型的耗时会相对缩短。

本申请提供的一种数据处理方法，在获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力后，可以将该初始算力需求以及初始处理能力作为初次模型分割的算力需求以及处理能力，进而对待运行模型进行分割，然后针对分割得到的方案对待运行模型进行运行，以获取到处理单元的性能参数，并且，在获取到的性能参数不满足性能目标条件的情况下，可以再次重新对待运行模型进行分割，直到满足性能目标条件。从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。

请参阅图2，本申请实施例提供的一种数据处理方法，所述方法包括：

S210：获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力。

S220：获取当轮分割调整中当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求。

S230：基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分。

S240：将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数。

S241：检测性能参数是否满足性能目标条件。

其中，本实施例中检测是否满足性能目标条件的方式可以与前述实施例的方式相同。

S250：若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力，并进入下一次模型分割。

其中，本实施例中计算所述多个处理单元的处理能力的方式可以与前述实施例的方式相同。

S260：若所述性能参数满足所述性能目标条件，调整所述当次模型分割对应的多个子部分各自包括的算子的比例，得到当轮分割调整对应的多个子部分。

需要说明的是，由于模型最小分割单位为算子，有些算子计算量比较大，无论分割到那个子部分，都无法使得多个子部分对应的处理单元在性能参数上保持最良好的均衡，进而在性能参数满足所述性能目标条件之后，为了进一步的使得多个子部分对应的处理单元在性能上更为均衡，作为一种方式，该调整所述当次模型分割对应的多个子部分各自包括的算子的比例，包括：增加对应的性能参数所表征的性能最优的子部分中的算子数量；减少对应的性能参数所表征的性能最差的子部分中的算子数量。可选的，可以通过基于下列矩阵来调整所述当次模型分割对应的多个子部分各自包括的算子的比例。示例性的，在处理单元的数量为3个的情况下，矩阵可以为：

其中，矩阵中第一列元素表征的是多个子部分各自对应的处理单元的性能参数排序，矩阵中第二列元素表征的是第一个分割点需要如何移动，矩阵中第三列元素表征的是第二个分割点需要如何移动。例如，其中的E_X表征的是处理单元x的性能参数，那么其中的第一列中的第一行元素“E₁E₂E₃”表征的是处理单元1的性能参数表征的性能优于处理单元2的性能参数表征的性能，以及处理单元2的性能参数表征的性能优于处理单元3的性能参数表征的性能，在这种情况下第二列中元素“-1”表征是第一个分割点需要向前移动，第三列中元素“-1”表征是第二个分割点需要向前移动，对应的，第二列中元素“1”表征是第一个分割点需要向后移动，第三列中元素“1”表征是第二个分割点需要向后移动，其中这里的向前移动可以理解为移动到运行顺序更靠前的子部分中，向后移动可以理解为移动到运行顺序更靠后的子部分中。

示例性的，若待运行模型分割为子部分A、子部分B以及子部分C，其中子部分A的运行顺序相比子部分B的运行顺序靠前，子部分B的运行顺序相比子部分C的运行顺序靠前，那么其中可以理解的是，子部分A和子部分B之间的分割点为第一个分割点，那么其中的“-1”表征的是将子部分B中运行顺序最靠前的一个算子分割到子部分A中。类似的，第三列中的第一行元素“-1”表征是将子部分C中运行顺序最靠前的一个算子分割到子部分B中。

S261：检测训练次数是否满足次数目标条件。

可选的，目标条件可以为训练次数不小于训练次数阈值。需要说明的是，本实施例中的训练次数可以为分割调整的轮次和模型分割的次数之和。

S270：若检测到训练次数未满足次数目标条件，将所述当轮分割调整对应的多个子部分加载到所述多个处理单元进行运行，得到并存储每个所述处理单元对应于所述当轮分割调整的性能参数。

S280：进入下一轮分割调整，并将基于所述当轮分割调整的性能参数得到的处理能力作为所述下一轮分割调整中的初次模型分割对应处理能力。

S290：若检测到训练次数满足所述次数目标条件，从存储的多轮分割调整的性能参数中选择第一目标性能参数，基于所述第一目标性能参数对应的多个子部分运行所述待运行模型。

需要说明的是，其中的第一目标性能参数表征的是多轮分割调整的性能参数中所表征的整体性能较优的一个性能参数。其中，整体性能可以理解为所有处理单元整体上所表征的性能。例如，若性能参数表征的是运行耗时，那么所有处理单元整体上所表征的性能可以理解为所有处理单元的运行耗时的和。可以理解的是，每轮分割调整的性能参数会包括多个处理单元各自的性能数据，进而可以将每轮多个处理单元各自的性能数据中所表征性能最差的一个性能数据选取出来作为待比对性能数据，进而可以得到多轮分割调整的性能参数分别对应的待比对性能数据，再将多个待比对性能数据中所表征的性能最优的性能数据所属的性能参数作为第一目标性能参数。

例如，若检测到处理单元有3个，且是基于运行耗时来表征性能，而且共包括三轮分割调整的情况下。第一轮分割调整的性能参数包括性能数据有处理单元1的运行耗时t1、处理单元2的运行耗时t2以及处理单元3的运行耗时t3，第二轮分割调整的性能参数包括性能数据有处理单元1的运行耗时t4、处理单元2的运行耗时t5以及处理单元3的运行耗时t6，第三轮分割调整的性能参数包括性能数据有处理单元1的运行耗时t7、处理单元2的运行耗时t8以及处理单元3的运行耗时t9。需要说明的是，在基于运行耗时来表性能的情况下，运行耗时越长那么对对应的性能越差。若其中，t2大于t1和t3，t4大于t5和t6，t9大于t7和t8，那么就可以得到多个待比对性能数据包括t2、t4和t9。在进一步的确定t4小于t2和t9的情况下，可以确定t4所属的性能参数，也就是第二轮分割调整的性能参数为第一目标性能参数。

本申请提供的一种数据处理方法，在从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。并且，在本实施例中，在性能参数满足所述性能目标条件后，还会对当次的模型分割对应的多个子部分各自包括的算子的比例进行微调，得到当轮分割调整对应的一组性能参数，进而在若检测到训练次数满足所述次数目标条件时，可以从多轮分割调整的性能参数中选择第一目标性能参数，进而使得可以更加有针对性的获取到与当前实际情况匹配的模型分割方案，进一步的提升电子设备运行模型的性能。

请参阅图3，本申请实施例提供的一种数据处理方法，所述方法包括：

S310：获取当轮优化调整中待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力。

S320：获取当轮分割调整中当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求。

S330：基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分。

S340：将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数。

S341：检测性能参数是否满足性能目标条件。

S350：若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力，并进入下一次模型分割。

S360：若所述性能参数满足所述性能目标条件，调整所述当次模型分割对应的多个子部分各自包括的算子的比例，得到当轮分割调整对应的多个子部分。

S361：检测训练次数是否满足次数目标条件。

S370：若检测到训练次数未满足次数目标条件，将所述当轮分割调整对应的多个子部分加载到所述多个处理单元进行运行，得到并存储每个所述处理单元对应于所述当轮分割调整的性能参数；

S380：进入下一轮分割调整，并将基于所述当轮分割调整的性能参数得到的处理能力作为所述下一轮分割调整中的初次模型分割对应处理能力。

S390：若检测到训练次数满足次数目标条件，从存储的多轮分割调整的性能参数中选择当轮优化调整的第一目标性能参数。

S391：检测优化次数是否满足调优目标条件。

可选的，调优目标条件可以包括优化次数满足调优次数阈值。

S392：若检测到所述优化调整的轮次不满足所述调优目标条件，进入下一轮的优化调整，并将当轮优化调整的每个算子的初始算力需求基于指定的随机范围进行变化后得到的算力需求作为下一轮的优化调整的初始算力需求，以及将当轮优化调整的初始处理能力基于指定的随机范围进行变化后得到的处理能力作为下一轮的优化调整的初始处理能力；

S393：若检测到训练次数满足所述次数目标条件且检测到所述优化调整的轮次满足调优目标条件，从存储的多轮优化调整的第一目标性能参数中选择第二目标性能参数，基于所述第二目标性能参数对应的多个子部分运行所述待运行模型。

需要说明的是，本实施例中的从存储的多轮优化调整的第一目标性能参数中选择第二目标性能参数的方式，与前述实施例中从存储的多轮分割调整的性能参数中选择当轮优化调整的第一目标性能参数的原理是相同的，具体如何从多轮优化调整的第一目标性能参数中选择第二目标性能参数可以参见前述实施例中对如何选取第一目标性能参数的方式，此处不再赘述。

作为一种方式，所述方法还包括：基于所述待运行模型的复杂度确定所述次数目标条件以及所述调优目标条件。

需要说明的是，不同的模型中所包括的算子的数量以及算子的种类可能是不同的，那么也就意味着不同的模型在运行过程中所达到当前环境下最优的分割方式的所需耗时可能会不同，那么为了能够更好的适配不同模型的实际需求，可以根据待运行模型的复杂度确定所述次数目标条件以及所述调优目标条件。

可选的，可以通过模型中所包括的算子的数量来确定复杂度，在这种方式下，算子的数量与复杂度成正比，并且复杂度与次数目标条件所包括的训练次数阈值以及调优目标条件所包括的调优次数阈值成正比。再者，也可以通过模型中所包括的算子的种类来确定复杂度，其中，算子的种类与复杂度成正比。

本申请提供的一种数据处理方法，在从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。并且，在本实施例中，在性能参数满足所述性能目标条件后，还会对当次的模型分割对应的多个子部分各自包括的算子的比例进行微调，得到当轮分割调整对应的一组性能参数，进而在若检测到训练次数满足所述次数目标条件时，可以从多轮分割调整的性能参数中选择第一目标性能参数，进而使得可以更加有针对性的获取到与当前实际情况匹配的模型分割方案，进一步的提升电子设备运行模型的性能。再者，在本申请实施例中，还会再通过修改初始处理能力以及初始算力需求的方式，触发再次进行多轮的分割调整，进而使得所确定的待运行模型的分割方案能够较好的适配当前实际运行环境的同时，也可以在待运行模型内容有并行算子的情况下，所得到的模型分割方案未全局最优的方案。

请参阅图4，本申请实施例提供的一种数据处理装置400，运行于电子设备，所述装置400包括：

第一参数获取单元410，用于获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力；

第二参数获取单元420，用于获取当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求；

模型分割单元430，用于基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分。

可选的，所述目标规则包括：每个子部分的算力需求与总的算力需求的比值，与该子部分所对应的处理单元的处理能力与总的处理能力的比值相等。

可选的，模型分割单元430，具体用于基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，计算得到当次模型分割对应的分割点；

基于所述当次模型分割对应的分割点对所述待运行模型进行分割，得到当次模型分割对应的多个子部分。

模型运行单元440，用于将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数；

所述第二参数获取单元420，还用于若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力；

所述模型运行单元440，还用于若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型。

作为一种方式，第二参数获取单元420，具体用于获取当轮分割调整中当次模型分割对应的算力需求以及处理能力。在这种方式下，模型分割单元430，具体用于若所述性能参数满足所述性能目标条件，调整所述当次模型分割对应的多个子部分各自包括的算子的比例，得到当轮分割调整对应的多个子部分。第二参数获取单元420，具体用于若检测到训练次数未满足次数目标条件，将所述当轮分割调整对应的多个子部分加载到所述多个处理单元进行运行，得到并存储每个所述处理单元对应于所述当轮分割调整的性能参数；进入下一轮分割调整，并将基于所述当轮分割调整的性能参数得到的处理能力作为所述下一轮分割调整中的初次模型分割对应处理能力。模型运行单元440，具体用于若检测到训练次数满足所述次数目标条件，从存储的多轮分割调整的性能参数中选择第一目标性能参数，基于所述第一目标性能参数对应的多个子部分运行所述待运行模型。可选的，模型分割单元430，具体用于增加对应的性能参数所表征的性能最优的子部分中的算子数量；减少对应的性能参数所表征的性能最差的子部分中的算子数量。

作为一种方式，第一参数获取单元410，具体用于获取当轮优化调整中待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力。在这种方式下，所述模型运行单元440，还用于若检测到训练次数满足次数目标条件，从存储的多轮分割调整的性能参数中选择当轮优化调整的第一目标性能参数。第一参数获取单元410，还具体用于若检测到所述优化调整的轮次不满足所述次数目标条件，进入下一轮的优化调整，并将当轮优化调整的每个算子的初始算力需求基于指定的随机范围进行变化后得到的算力需求作为下一轮的优化调整的初始算力需求，以及将当轮优化调整的初始处理能力基于指定的随机范围进行变化后得到的处理能力作为下一轮的优化调整的初始处理能力。模型运行单元440，还具体用于若检测到训练次数满足所述次数目标条件且检测到所述优化调整的轮次满足调优目标条件，从存储的多轮优化调整的第一目标性能参数中选择第二目标性能参数，基于所述第二目标性能参数对应的多个子部分运行所述待运行模型。

如图5所示，所述装置400还包括，条件配置单元450，用于基于所述待运行模型的复杂度确定所述次数目标条件以及所述调优目标条件。

本申请提供的一种数据处理装置，在获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力后，可以将该初始算力需求以及初始处理能力作为初次模型分割的算力需求以及处理能力，进而对待运行模型进行分割，然后针对分割得到的方案对待运行模型进行运行，以获取到处理单元的性能参数，并且，在获取到的性能参数不满足性能目标条件的情况下，可以再次重新对待运行模型进行分割，直到满足性能目标条件。从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图6对本申请提供的一种电子设备进行说明。

请参阅图6，基于上述的数据处理方法、装置，本申请实施例还提供的另一种可以执行前述数据处理方法的电子设备200。电子设备200包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104以及网络模块106。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个用于处理数据的核。处理器102利用各种接口和线路连接整个电子设备200内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备200的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics ProcessingUnit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块106可以与基站进行信息交互。

此外，电子设备200还可以包括NPU以及专用AI加速芯片中的至少一个器件。

请参考图7，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1100中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

综上所述，本申请提供的一种数据处理方法、装置以及电子设备，在获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力后，可以将该初始算力需求以及初始处理能力作为初次模型分割的算力需求以及处理能力，进而对待运行模型进行分割，然后针对分割得到的方案对待运行模型进行运行，以获取到处理单元的性能参数，并且，在获取到的性能参数不满足性能目标条件的情况下，可以再次重新对待运行模型进行分割，直到满足性能目标条件。从而通过这种方式可以使得在对待运行模型进行分割之后，可以通过不断的实际运行的方式来对分割方式进行调整，以获取到与实际情况适配的分割方式，以便可以提升电子设备运行模型的性能。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，应用于电子设备，所述方法包括：

获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力；

获取当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求；

基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分；

将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数；

若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力；

若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型。

2.根据权利要求1所述的方法，其特征在于，所述获取当次模型分割对应的算力需求以及处理能力，包括：获取当轮分割调整中当次模型分割对应的算力需求以及处理能力；

所述若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型，包括：

若所述性能参数满足所述性能目标条件，调整所述当次模型分割对应的多个子部分各自包括的算子的比例，得到当轮分割调整对应的多个子部分；

若检测到训练次数未满足次数目标条件，将所述当轮分割调整对应的多个子部分加载到所述多个处理单元进行运行，得到并存储每个所述处理单元对应于所述当轮分割调整的性能参数；

进入下一轮分割调整，并将基于所述当轮分割调整的性能参数得到的处理能力作为所述下一轮分割调整中的初次模型分割对应处理能力；

若检测到训练次数满足所述次数目标条件，从存储的多轮分割调整的性能参数中选择第一目标性能参数，基于所述第一目标性能参数对应的多个子部分运行所述待运行模型。

3.根据权利要求2所述的方法，其特征在于，调整所述当次模型分割对应的多个子部分各自包括的算子的比例，包括：

增加对应的性能参数所表征的性能最优的子部分中的算子数量；

减少对应的性能参数所表征的性能最差的子部分中的算子数量。

4.根据权利要求2所述的方法，其特征在于，所述获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力，包括：获取当轮优化调整中待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力；

所述若检测到训练次数满足次数目标条件，从存储的多轮分割调整的性能参数中选择第一目标性能参数，基于所述第一目标性能参数对应的多个子部分运行所述待运行模型，包括：

若检测到训练次数满足次数目标条件，从存储的多轮分割调整的性能参数中选择当轮优化调整的第一目标性能参数；

若检测到所述优化调整的轮次不满足所述次数目标条件，进入下一轮的优化调整，并将当轮优化调整的每个算子的初始算力需求基于指定的随机范围进行变化后得到的算力需求作为下一轮的优化调整的初始算力需求，以及将当轮优化调整的初始处理能力基于指定的随机范围进行变化后得到的处理能力作为下一轮的优化调整的初始处理能力；

若检测到训练次数满足所述次数目标条件且检测到所述优化调整的轮次满足调优目标条件，从存储的多轮优化调整的第一目标性能参数中选择第二目标性能参数，基于所述第二目标性能参数对应的多个子部分运行所述待运行模型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述待运行模型的复杂度确定所述次数目标条件以及所述调优目标条件。

6.根据权利要求1-5任一所述的方法，其特征在于，所述基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分，包括：

基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，计算得到当次模型分割对应的分割点；

7.根据权利要求6所述的方法，其特征在于，所述目标规则包括：

每个子部分的算力需求与总的算力需求的比值，与该子部分所对应的处理单元的处理能力与总的处理能力的比值相等。

8.一种数据处理装置，其特征在于，运行于电子设备，所述装置包括：

第一参数获取单元，用于获取待运行模型中每个算子的初始算力需求，以及所述电子设备包括的多个处理单元的初始处理能力；

第二参数获取单元，用于获取当次模型分割对应的算力需求以及处理能力，其中初次模型分割对应的处理能力为所述初始处理能力，每次模型分割对应的算力需求为所述初始算力需求；

模型分割单元，用于基于目标规则、所述当次模型分割对应的算力需求以及所述处理能力，对所述待运行模型进行分割，得到当次模型分割对应的多个子部分；

模型运行单元，用于将当次模型分割对应的多个子部分加载到所述多个处理单元进行运行，得到每个所述处理单元对应于所述当次模型分割的性能参数；

所述第二参数获取单元，还用于若所述性能参数不满足性能目标条件，基于所述性能参数重新计算所述多个处理单元的处理能力，作为下一次模型分割对应的处理能力；

所述模型运行单元，还用于若所述性能参数满足所述性能目标条件，基于所述当次模型分割对应的多个子部分运行所述待运行模型。

9.一种电子设备，其特征在于，包括处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。