CN111782402A

CN111782402A - 数据处理方法、装置以及电子设备

Info

Publication number: CN111782402A
Application number: CN202010693821.3A
Authority: CN
Inventors: 钟卫东; 张晓帆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-16
Also published as: WO2022012123A1

Abstract

本申请实施例公开了一种数据处理方法、装置以及电子设备。所述方法包括：获取待运行模型的模型参数；根据所述模型参数从多个算法中确定目标算法；基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。

Description

数据处理方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种数据处理方法、装置以及电子设备。

背景技术

算法模型，例如神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统。一些算法模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。但是，相关的电子设备在运行神经网络模型的过程中，还存在运行性能有待提升的问题。

发明内容

鉴于上述问题，本申请提出了一种数据处理方法、装置以及电子设备，以改善上述问题。

第一方面，本申请提供了一种数据处理方法，所述方法包括：获取待运行模型的模型参数；根据所述模型参数从多个算法中确定目标算法；基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

第二方面，本申请提供了一种数据处理装置，所述装置包括：参数获取单元，用于获取待运行模型的模型参数；算法确定单元，用于根据所述模型参数从多个算法中确定目标算法；模型运行单元，用于基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

第四方面，本申请提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第五方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被启动控制器运行时执行上述的方法。

本申请提供的一种数据处理方法、装置以及电子设备，获取待运行模型的模型参数，然后根据所述模型参数从多个算法中确定目标算法，进而基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种数据处理方法的流程图；

图2示出了本申请另一实施例提出的一种数据处理方法的流程图；

图3示出了本申请再一实施例提出的一种数据处理方法的流程图；

图4示出了本申请又一实施例提出的一种数据处理方法的流程图；

图5示出了本申请实施例提出的一种数据处理装置的结构框图；

图6示出了本申请另一实施例提出的一种数据处理装置的结构框图；

图7示出了本申请的用于执行根据本申请实施例的数据处理方法的电子设备的结构框图；

图8是本申请实施例的用于保存或者携带实现根据本申请实施例的数据处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

算法模型，例如神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。通常在神经算法模型中包括有大量的算子。其中，可以理解的是，算子可以看做是一个神经算法模型中的部分算法过程，算子可以把函数映成函数，或者把函数映成数。

然而，发明人在研究中发现，相关的电子设备在运行神经网络模型的过程中，还存在运行性能有待提升的问题。例如，电子设备在运行神经网络模型的过程中会基于一定的算法运行。但是，相关的电子设备都是基于固定的算法运行神经网络模型，使得无论电子设备当前所运行的神经网络模型的模型参数有什么不同，都是基于固定的方式运行的，进而就造成了电子设备在运行神经网络模型时性能较差，也同时会对神经网络模型本身的性能造成限制。

因此，发明人提出了本申请中可以改善上述问题的数据处理方法、装置以及电子设备，通过获取待运行模型的模型参数，然后根据所述模型参数从多个算法中确定目标算法，进而基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供的一种数据处理方法，所述方法包括：

S110：获取待运行模型的模型参数。

其中，本实施例中的待运行模型为后续会加载到处理单元进行运行的模型。在本实施例中可以有多种确定待运行模型的方式。

作为一种方式，待运行模型可以为被应用程序所调用的神经网络模型。需要说明的是，应用程序在运行过程中可能会需要对一些数据进行处理，在这个过程中应用程序可以通过调用神经网络来进行数据处理。例如，图像处理类的应用程序可能需要进行图像识别，进而该图像处理类的应用程序就可以通过调用用于进行图像识别的神经网络模型来对图像进行处理。

作为另外一种方式，电子设备可以周期性的执行指定的任务。在这种方式中，电子设备在执行该指定的任务过程中所调用的神经网络模型则可以被确定为待运行模型。可选的，该指定的任务可以为预测电子设备后续将要运行的应用程序的任务，可以为进行视频处理的任务，可以为预测电子设备的用户偏好的任务，还可以为预测电子设备的剩余电量的任务。

在可以通过前述方式确定待运行模型后，就可以获取到待运行模型的模型参数。本实施例中的模型参数可以包括有输入数据拆分参数、输入数据大小、所包括算子数量超过算子阈值的层数以及模型的层数等参数中的一个或者多个。

其中，输入数据拆分参数表征模型是否支持将输入数据进行拆分。例如，对于图像分类模型，如果将作为输入数据的输入图像拆分成两部分后很可能会得到两个不同的分类结果，进而对于图像分类模型则不能支持将输入数据进行拆分。再例如，对于图像增强类模型，该模型的输出也是图片，进而即使将作为输入数据的输入图片拆分后得到两张输出图片，仍然可以将输出的两张图片拼接成一张，所以对于图像增强类模型就可以支持将输入数据进行拆分。

输入数据大小表征将要输入到模型的输入数据所占用的存储空间的大小。例如，若获取到将要输入到待运行模型的图片大小为1000*1000*3Byte，那么则确定输入数据大小为1000*1000*3Byte。其中，1000*1000为分辨率的乘积。

所包括算子数量超过算子阈值的层数表征的是模型中具体有多少层所包括的算子超过了算子阈值。需要说明的是，神经网络模型通常会包括有多层，而每层又会包括算子。例如，神经网络模型可以包括有输入层、卷积层以及输出层等。类似的，模型的层数则是表征待运行模型具体有多少层，例如，对于前述所示的包括有输入层、卷积层以及输出层的神经网络模型，所对应的模型的层数为3。

S120：根据所述模型参数从多个算法中确定目标算法。

在本实施例中，不同的模型的模型参数可能是不同的，进而不同的模型则可能需要不同的运行方式来进行运行，以便可以使得所运行的模型能够有较高的性能体现。那么电子设备在获取到待运行模型的模型参数后，就可以根据模型参数来确定合适的进行运行的算法来作为目标算法。

作为一种方式，在本实施例中，可以预先建立模型参数与算法之间的对应关系，进而电子设备可以通过查询该对应关系来确定当前待运行模型的模型参数所对应的目标算法。示例性的，模型参数可以包括有输入数据拆分参数、输入数据大小以及模型的层数，则在电子设备中可以配置有输入数据拆分参数A、输入数据大小A以及模型的层数A对应与算法a，输入数据拆分参数B、输入数据大小B以及模型的层数B对应与算法b，输入数据拆分参数A、输入数据大小C以及模型的层数C对应与算法c的情况下，若获取到待运行模型的模型参数包括输入数据拆分参数A、输入数据大小A以及模型的层数A，会则会从算法a、算法b以及算法c中确定算法a为目标算法。若获取到待运行模型的模型参数包括输入数据拆分参数A、输入数据大小C以及模型的层数C，会则会从算法a、算法b以及算法c中确定算法c为目标算法。

S130：基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

需要说明的是，在本实施例中，电子设备所包括的处理单元可以为CPU、GPU(Graphics Processing Unit)、DSP(Digital Signal Process)以及NPU(Neural-networkProcessing Unit)中的一个或多个。而不同的算法所对应的加载方式可能会有所不同。示例性的，有的目标算法所对应的加载方式可能是将待运行模型均加载到同一个处理单元中运行，而有的目标算法所对应的加载方式可能是将待运行模型拆分为多个部分，而将不同的部分加载到不同的处理单元中进行运行，进而通过这种方式，有利于为不同的模型选择适配的运行方式，进而提升电子设备运行模型的性能。

需要说明的是，在本申请实施例中电子设备运行模型的性能可以理解为运行模型的耗时，对应的，若电子设备运行模型的性能得到提升，那么所对应的可以理解为运行模型的耗时会相对缩短。

本申请提供的一种数据处理方法，获取待运行模型的模型参数，然后根据所述模型参数从多个算法中确定目标算法，进而基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。

请参阅图2，本申请实施例提供的一种数据处理方法，所述方法包括：

S210：获取待运行模型的模型参数。

在本申请的实施例中，作为一种方式，对于每一个模型可以对应配置有一个配置文件，在该配置文件中可以存储有模型的模型参数中静态类的模型参数。其中，静态类的模型参数可以理解为模型自身固有的参数，或者可以理解为不会因为输入数据的改变而动态改变的参数。

例如，对于前述实施例中所列举的模型参数中的输入数据拆分参数、所包括算子数量超过算子阈值的层数以及模型的层数等为模型自身固有的参数，对于三个参数即使在输入数据改变的情况下依然会保持不变，进而可以将输入数据拆分参数、所包括算子数量超过算子阈值的层数以及模型的层数这三个参数存储在配置文件中。而对于模型参数中的输入数据大小这一参数，因为会随着输入数据大小的改变而动态改变，则会被识别为动态类的参数。则在确定待运行模型后，可以通过待运行模型对应的配置文件来获取到对应的静态类的模型参数，以及并通过实际的输入数据来获取到输入数据大小这一动态类的模型参数，进而将静态类的模型参数和动态类的模型参数作为完整的模型参数。

需要说明的是，电子设备中的存储空间可以包括有磁盘以及内存两种存储空间，其中，磁盘可以用于更长时间的对数据进行存储，但是电子设备从内存中获取数据的速率会快于从磁盘中获取数据的速率。在这种情况下，电子设备可以在获取到待运行模型的配置文件后，将配置文件中的静态类的模型参数均预先加载到内存中，从而以便于在后续的判断过程中可以能够更快的获取到所需的模型参数，进一步的提升模型运行性能。

S211：检测输入数据拆分参数是否表征支持输入数据拆分。

需要说明的是，在本实施例中模型参数可以对应有参数值，进而电子设备可以通过模型参数所对应的参数值来确定模型参数具体所表征的内容。示例性的，输入数据拆分参数所对应的参数值可以为1也可以为0，其中，若输入数据拆分参数所对应的参数值为1，则表征支持输入数据拆分，若输入数据拆分参数所对应的参数值为0，则表征不支持输入数据拆分。

S212：若所述输入数据拆分参数表征支持输入数据拆分，检测输入到所述待运行模型的输入数据大小是否大于第一指定阈值。

需要说明的是，其中的第一指定阈值可以为1024*1024*3Byte＝3MByte。

S213：若输入到所述待运行模型的输入数据大小大于第一指定阈值，从多个算法中确定数据并行化算法作为目标算法。

其中，数据并行化算法(Data Parallelism)，可以理解为不同的数据输入以并行方式运行同一个函数，在基于数据并行化算法的方式中，可以把一个任务分解成不连续的单元，以便可以在单独的线程上并行处理，保证这个任务可以在可用的处理单元之间进行分配。

S221：若输入到所述待运行模型的输入数据大小不大于第一指定阈值，检测所包括算子数量超过算子阈值的层数是否大于第二指定阈值，或者若所述输入数据拆分参数表征不支持输入数据拆分，检测所包括算子数量超过算子阈值的层数是否大于第二指定阈值。

作为一种方式，该第二指定阈值可以为模型的总层数的20％到30％。示例性的，若总层数为M，那么该第二指定阈值可以为M×20％到M×30％。

S222：若所述所包括算子数量超过算子阈值的层数大于第二指定阈值，从多个算法中确定算子并行化算法作为目标算法。

需要说明的是，算子并行化算法(Operator Parallelism)可以理解为将模型的同一个层中多个可完全并行算子分别加载到多个处理单元中的一个或者多个中进行并行化运行。

S231：若所述所包括算子数量超过算子阈值的层数不大于第二指定阈值，检测所述模型的层数是否大于第三指定阈值。

可选的，在本实施例中该第三指定阈值可以为2，或者可以为比2大的整数。

S232：若所述模型的层数大于第三指定阈值，从多个算法中确定层间流水线算法作为目标算法。

需要说明的是，层间流水线算法(Layer Pipelining)可以理解为将模型的多个层分别加载到多个处理单元中的一个或者多个中进行并行化运行。

S241：若所述模型的层数不大于第三指定阈值，从多个算法中确定非并行化算法作为目标算法。

S250：基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

作为一种方式，在本实施例中，所述基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型，包括：基于所述目标算法对所述待运行模型进行拆分，得到多个子部分，其中，不同目标算法所对应的拆分规则不同；将所述多个子部分分别加载到对应的处理单元进行运行。

需要说明的是，对于神经网络模型而言，其会包括有多个算子，进而通过这多个算子依次进行数据处理而完成神经网络模型的数据处理流程。那么对于不同的目标算法则可以对应有不同的拆分规则。例如，对于数据并行化算法，则可以将模型拆分为多个结构一样的子部分，进而将输入数据也进行拆分后分别输入到该多个子部分进行数据并行化处理。其中，结构一样可以理解为模型所包括的层结构的种类相同。示例性的，待运行模型包括有输入层、卷积层以及输出层。其中，输入层中包括有4个算子，卷积层中包括有8个算子，输出层中也包括有4个算子，在基于数据并行化算法所对应的拆分规则进行模型拆分的情况下，所拆分得到的子部分也会包括有输入层、卷积层以及输出层，进而实现与原来的待运行模型的层结构种类相同。只是在子部分中每层所包括的算子数量会少于原来的待运行模型中每层中的算子的数量。以拆分为两个子部分为例，则每个子部分的输入层可能只包括2个算子，卷积层中只包括4个算子，而输出层中也只包括2个算子。

在基于算子并行化算法作为目标算法的情况下，则可以将同一层中的算子进行拆分，在这种情况下，同一层中的算子则会分布到不同的子部分中，且拆分所得到的每个子部分则可以包括有不同层中的部分算子。

在基于层间流水线算法作为目标算法的情况下，则可以将待运行模型所包括的多层结构以层为单位进行拆分，在这种情况下，拆分得到的多个子部分则会分别包括有待运行模型中的部分层。示例性的，待运行模型包括有输入层、卷积层以及输出层，则可以将输入层拆分为一个子部分，将卷积层拆分为一个子部分，将输出层拆分为一个子部分。

在基于前述方式将待运行模型拆分为多个子部分后，就可以将各个子部分加载到所对应的处理单元中进行运行。示例性的，以基于层间流水线算法作为目标算法为例。在处理单元包括有CPU以及GPU的情况下，若待运行模型拆分成了子部分A以及子部分B，那么作为一种方式，可以将子部分A加载到CPU中运行，而将子部分B加载到GPU中运行。

需要说明的是，发明人在研究中发现对于不同的算子可能所适配的处理单元会有所不同。例如，对于Conv2D算子，其所进行的是神经网络矩阵类运算，那么Conv2D算子适配的处理单元可以为GPU或专用AI加速芯片。再例如，ResizeBilinear算子，其所进行的是图像类运算，那么ResizeBilinear算子所适配的处理单元可以为CPU。在这种方式下，可以对子部分所包括的算子进行识别，进而将子部分中算子所适配的处理单元作为该子部分所对应的处理单元。

可选的，在子部分中有多个算子，且该多个算子所适配的处理单元不同的情况下，将运行该多个算子的总耗时最短的一个处理单元作为包括该多个算子的子部分所对应的处理单元，以便可以提升整体的模型运行速率。示例性的，若子部分中包括有算子a、算子b以及算子c，其中，算子a是配置的处理单元为CPU，算子b所适配的处理单元为GPU，算子c所适配的处理单元为专用AI加速芯片，则可以得到CPU运行算子a、算子b以及算子c的总耗时t1，得到GPU运行算子a、算子b以及算子c的总耗时t2，得到专用AI加速芯片运行算子a、算子b以及算子c的总耗时t3，在t1为最小的情况下，则可以将CPU作为包括有算子a、算子b以及算子c的子部分所对应的处理单元。

本申请提供的一种数据处理方法，获取待运行模型的模型参数，然后根据所述模型参数从多个算法中确定目标算法，进而基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。并且，在本实施例中的模型参数可以包括有输入数据拆分参数、输入数据大小、所包括算子数量超过算子阈值的层数以及模型的层数，进而通过这些具体的参数可以更加准确的确定出与当前待运行模型更加适配的运行算法，进而更进一步的提升电子设备在运行神经网络模型过程中的运行性能。

请参阅图3，本申请实施例提供的一种数据处理方法，所述方法包括：

S310：获取待运行模型的模型参数。

S320：根据所述模型参数从多个算法中确定目标算法。

S330：基于所述目标算法对所述待运行模型进行拆分，得到多个子部分，其中，不同目标算法所对应的拆分规则不同。

S340：将所述多个子部分分别加载到对应的处理单元进行运行。

S350：获取所述待运行模型对应的运行性能参数。

S360：若所述运行性能参数不满足第一目标条件，重新选择所述目标算法。

可选的，所述第一目标条件包括：多个所述处理单元之间的平均数据通信时长不大于时长阈值。可选的，可以基于下列公式来计算平均数据通信时长T₂：

其中，T_2ij为处理单元i和处理单元j之间的数据通信时间，n为通信次数。可选的，其中的时长阈值可以为多个处理单元耗时的平均值与0.05的乘积。该耗时可以为推理时间。

在本实施例中，可以有多种的重新选择目标算法的方式。作为一种方式，可以从当前目标算法以外的算法中随机选取一种算法作为新的目标算法，进而再基于新的目标算法执行S330以及S340。示例性的，在多个算法包括数据并行化算法、算子并行化算法、层间流水线算法以及非并行化算法，且当前所确定的目标算法为层间流水线算法的情况下，则可以从数据并行化算法、算子并行化算法以及非并行化算法中选择一个算法作为新的目标算法。

再者，作为另外一种方式，可以预先配置有多个算法的选择顺序，进而在重新选择目标算法时，基于该选择顺序来确定新的目标算法。示例性的，所配置的选择顺序可以依次为数据并行化算法、算子并行化算法、层间流水线算法以及非并行化算法，那么在当前的目标算法为算子并行化算法的情况下，在需要重新选择目标算法时，则可以将算子并行化算法对应的下一个选择顺序的层间流水线算法作为新的目标算法。

本申请提供的一种数据处理方法，通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。并且，在本实施例中，在模型运行过程中还可以根据实时的运行情况重新确定目标算法，进而使得能够更加紧密的使得模型的运行于当前的实际情况适配。

请参阅图4，本申请实施例提供的一种数据处理方法，所述方法包括：

S410：获取待运行模型的模型参数。

S420：根据所述模型参数从多个算法中确定目标算法。

S430：基于所述目标算法对所述待运行模型进行拆分，得到多个子部分，其中，不同目标算法所对应的拆分规则不同。

S440：将所述多个子部分分别加载到对应的处理单元进行运行。

S450：获取所述待运行模型对应的运行性能参数。

S460：若所述运行性能参数不满足第二目标条件，重新基于当前的目标算法对所述待运行模型进行拆分，得到新的多个子部分，所述新的多个子部分各部分的比例与所述多个子部分中各个部分的比例不同。

可选的，所述第二目标条件包括：多个所述处理单元各自对应的运行时间的标准差不大于标准差阈值。可选的，可以基于下列公式来计算该标准差：

其中，T₁为多个处理单元耗时的平均值，T_1i为处理单元i的耗时。

如前述内容可知，在对待运行模型进行拆分得到的多个子部分中，每个子部分均可以包括有待运行模型中的部分算子。其中，多个子部分各部分的比例可以理解为多个子部分各自所包括的算子的比例。那么重新基于当前的目标算法对所述待运行模型进行拆分，则可以理解为调整至少部分子部分中所包括的算子的数量，以便实现调节各个子部分所对应的处理单元的运行时长。示例性的，子部分A中包括有3个算子，子部分B中包括有6个算子，子部分C中包括有3个算子，那么在重新进行拆分之后，子部分中则可能会包括有4个算子，子部分B中包括有5个算子，而子部分c中依然包括有3个算子。

其中，在目标算法不同的情况下，所进行调节的单位可能会有所不同。例如，在算子并行化算法为目标算法的情况下，是直接以算子为单位将待运行模型拆分为多个子部分，那么在调节各个子部分的的比例时则会以算子为单位进行调节。再例如，在层间流水线算法为目标算法的情况下是直接以层为单位将待运行模型拆分为多个子部分的，那么在调节各个子部分的的比例时则会以层为单位进行调节。

本申请提供的一种数据处理方法，通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。并且，在本实施例中，在模型运行过程中还可以重新基于当前所确定的目标算法进行待运行模型的拆分，得到新的多个子部分，进而使得能够更加紧密的使得模型的运行于当前的实际情况适配。

请参阅图5，本申请实施例提供的一种数据处理装置500，所述装置500包括：

参数获取单元510，用于获取待运行模型的模型参数。

算法确定单元520，用于根据所述模型参数从多个算法中确定目标算法。

模型运行单元530，用于基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

作为一种方式，所述模型参数包括输入数据拆分参数以及输入数据大小。在这种方式下，算法确定单元520，具体用于若所述输入数据拆分参数表征支持输入数据拆分，且输入到所述待运行模型的输入数据大小大于第一指定阈值，从多个算法中确定数据并行化算法作为目标算法。

作为一种方式，所述模型参数包括输入数据拆分参数、输入数据大小以及所包括算子数量超过算子阈值的层数。在这种方式下，算法确定单元520，具体用于若所述输入数据拆分参数表征不支持输入数据拆分，且所述所包括算子数量超过算子阈值的层数大于第二指定阈值，从多个算法中确定算子并行化算法作为目标算法；或者若所述输入数据拆分参数表征支持输入数据拆分，且输入到所述待运行模型的输入数据大小不大于所述第一指定阈值，且所述所包括算子数量超过算子阈值的层数大于第二指定阈值，从多个算法中确定算子并行化算法作为目标算法。

作为一种方式，所述模型参数包括输入数据拆分参数、输入数据大小、所包括算子数量超过算子阈值的层数以及模型的层数。在这种方式下，算法确定单元520，具体用于若所述输入数据拆分参数表征不支持输入数据拆分，且所述所包括算子数量超过算子阈值的层数不大于所述第二指定阈值，且所述模型的层数大于第三指定阈值，从多个算法中确定层间流水线算法作为目标算法；或者若所述输入数据拆分参数表征支持输入数据拆分，且输入到所述待运行模型的输入数据大小不大于所述第一指定阈值，且所述所包括算子数量超过算子阈值的层数不大于所述第二指定阈值，且所述模型的层数大于第三指定阈值，从多个算法中确定层间流水线算法作为目标算法。

算法确定单元520，还具体用于若所述输入数据拆分参数表征不支持输入数据拆分，且所述所包括算子数量超过算子阈值的层数不大于所述第二指定阈值，且所述模型的层数不大于所述第三指定阈值，从多个算法中确定非并行化算法作为目标算法。

作为一种方式，模型运行单元530，具体用于基于所述目标算法对所述待运行模型进行拆分，得到多个子部分，其中，不同目标算法所对应的拆分规则不同；将所述多个子部分分别加载到对应的处理单元进行运行。

作为一种方式，如图6所示，所述装置还包括：

性能评估单元540，用于获取所述待运行模型对应的运行性能参数；若所述运行性能参数不满足第一目标条件，重新选择所述目标算法；若所述运行性能参数不满足第二目标条件，重新基于当前的目标算法对所述待运行模型进行拆分，得到新的多个子部分，所述新的多个子部分各部分的比例与所述多个子部分中各个部分的比例不同。

可选的，所述第一目标条件包括：多个所述处理单元各自对应的运行时间的标准差不大于标准差阈值。所述第二目标条件包括：多个所述处理单元之间的平均数据通信时长不大于时长阈值。

本申请提供的一种数据处理装置，获取待运行模型的模型参数，然后根据所述模型参数从多个算法中确定目标算法，进而基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图7对本申请提供的一种电子设备进行说明。

请参阅图7，基于上述的数据处理方法、装置，本申请实施例还提供的另一种可以执行前述数据处理方法的电子设备200。电子设备200包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104以及网络模块106。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个用于处理数据的核。处理器102利用各种接口和线路连接整个电子设备200内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备200的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics ProcessingUnit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块106可以与基站进行信息交互。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1100中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

综上所述，本申请提供的一种数据处理方法、装置以及电子设备，获取待运行模型的模型参数，然后根据所述模型参数从多个算法中确定目标算法，进而基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。从而通过这种方式使得在确定待运行模型后，可以再通过确定模型参数的方式来选择具体基于哪种算法来运行待运行算法，从而使得模型的运行能够更加匹配待运行模型的参数，以提升模型运行过程中的性能。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待运行模型的模型参数；

根据所述模型参数从多个算法中确定目标算法；

基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

2.根据权利要求1所述的方法，其特征在于，所述模型参数包括输入数据拆分参数以及输入数据大小；所述根据所述模型参数从多个算法中确定目标算法，包括：

若所述输入数据拆分参数表征支持输入数据拆分，且输入到所述待运行模型的输入数据大小大于第一指定阈值，从多个算法中确定数据并行化算法作为目标算法。

3.根据权利要求2所述的方法，其特征在于，所述模型参数还包括所包括算子数量超过算子阈值的层数，所述根据所述模型参数从多个算法中确定目标算法还包括：

若所述输入数据拆分参数表征不支持输入数据拆分，且所述所包括算子数量超过算子阈值的层数大于第二指定阈值，从多个算法中确定算子并行化算法作为目标算法；

或者若所述输入数据拆分参数表征支持输入数据拆分，且输入到所述待运行模型的输入数据大小不大于所述第一指定阈值，且所述所包括算子数量超过算子阈值的层数大于第二指定阈值，从多个算法中确定算子并行化算法作为目标算法。

4.根据权利要求3所述的方法，其特征在于，所述模型参数还包括模型的层数，所述根据所述模型参数从多个算法中确定目标算法还包括：

若所述输入数据拆分参数表征不支持输入数据拆分，且所述所包括算子数量超过算子阈值的层数不大于所述第二指定阈值，且所述模型的层数大于第三指定阈值，从多个算法中确定层间流水线算法作为目标算法；

或者若所述输入数据拆分参数表征支持输入数据拆分，且输入到所述待运行模型的输入数据大小不大于所述第一指定阈值，且所述所包括算子数量超过算子阈值的层数不大于所述第二指定阈值，且所述模型的层数大于第三指定阈值，从多个算法中确定层间流水线算法作为目标算法。

5.根据权利要求4所述的方法，其特征在于，所述根据所述模型参数从多个算法中确定目标算法还包括：

若所述输入数据拆分参数表征不支持输入数据拆分，且所述所包括算子数量超过算子阈值的层数不大于所述第二指定阈值，且所述模型的层数不大于所述第三指定阈值，从多个算法中确定非并行化算法作为目标算法。

6.根据权利要求1-5任一所述的方法，其特征在于，所述基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型，包括：

基于所述目标算法对所述待运行模型进行拆分，得到多个子部分，其中，不同目标算法所对应的拆分规则不同；

将所述多个子部分分别加载到对应的处理单元进行运行。

7.根据权利要求6所述的方法，其特征在于，所述将所述多个子部分分别加载到对应的处理单元进行运行之后还包括：

获取所述待运行模型对应的运行性能参数；

若所述运行性能参数不满足第一目标条件，重新选择所述目标算法；

若所述运行性能参数不满足第二目标条件，重新基于当前的目标算法对所述待运行模型进行拆分，得到新的多个子部分，所述新的多个子部分各部分的比例与所述多个子部分中各个部分的比例不同。

8.根据权利要求7所述的方法，其特征在于，所述第一目标条件包括：多个所述处理单元之间的平均数据通信时长不大于时长阈值。

9.根据权利要求7所述的方法，其特征在于，所述第二目标条件包括：多个所述处理单元各自对应的运行时间的标准差不大于标准差阈值。

10.一种数据处理装置，其特征在于，所述装置包括：

参数获取单元，用于获取待运行模型的模型参数；

算法确定单元，用于根据所述模型参数从多个算法中确定目标算法；

模型运行单元，用于基于所述目标算法将所述待运行模型加载到对应的处理单元，以运行所述待运行模型。

11.一种电子设备，其特征在于，包括处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-7任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。