CN111832737B

CN111832737B - 一种数据处理方法及相关产品

Info

Publication number: CN111832737B
Application number: CN201910634415.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Cambricon Technologies Corp Ltd
Current assignee: Cambricon Technologies Corp Ltd
Priority date: 2019-04-18
Filing date: 2019-05-23
Publication date: 2024-01-09
Anticipated expiration: 2039-05-23
Also published as: EP3754497A8; US11762690B2; JP7044808B2; KR102430739B1; AU2019284011B2; CN111832739B; CN111832738A; CN111832739A; AU2019284012B2; US20210334137A1; CA3065651A1; CN111832737A; JP6937357B2; CN111626430B; CN111242321B; EP3751475A4; EP3754496A8; WO2020211205A1; JP2021121879A; AU2019283890A1

Abstract

本申请实施例公开了一种数据处理方法及相关产品，其中，数据处理方法包括：所述通用处理器根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务；所述通用处理器发送所述人工智能学习任务至云侧人工智能处理器上运行；所述通用处理器接收所述人工智能学习任务对应的运行结果；所述通用处理器根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。实施本申请，可以提前实现人工智能算法模型与人工智能处理器之间的调试工作。

Description

一种数据处理方法及相关产品

技术领域

本申请涉及人工智能处理器技术领域，尤其涉及一种数据处理方法及相关产品。

背景技术

现有技术中，当人工智能处理器成功流片后，算法应用开发者才能在对应版本的人工智能处理器(硬件实体)上进行开发和测试。

从上述描述可以知道，现有技术中，只有在人工智能处理器流片之后，才能得知开发的人工智能算法在对应版本的人工智能处理器上运行的功能结果和性能结果。那么，如何实现端侧人工智能处理器未流片时算法应用开发者即可展开人工智能算法模型与人工智能处理器之间的调试工作，是急需解决的问题。

发明内容

本申请实施例提供一种数据处理方法及相关产品，不管人工智能处理器是否流片，本技术方案都能够提前实现人工智能算法模型与人工智能处理器之间的调试工作。

为实现上述目的，本申请提出一种数据处理方法，所述方法应用于云侧人工智能处理器上；包括：

接收人工智能学习任务；其中，所述人工智能学习任务是根据端侧人工智能处理器的设备信息生成的二进制指令确定的；

执行所述人工智能学习任务，生成运行结果。

可选地，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

可选地，所述云侧人工智能处理器包括人工智能处理器硬件实体、现场可编程门阵列、模拟器中的至少其中之一。

可选地，所述人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

为实现上述目的，本申请提出一种人工智能处理器，包括：

接收模块，用于接收人工智能学习任务；其中，所述人工智能学习任务是根据端侧人工智能处理器的设备信息生成的二进制指令确定的；

执行模块，用于执行所述人工智能学习任务，生成运行结果。

可选地，所述执行模块生成的运行结果包括所述人工智能学习任务在所述云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

本技术方案的技术效果为：本技术方案提供一软件开发平台，客户可以在该软件开发平台上完成算法与人工智能处理器之间的功能、性能、精度调试，调试完成后生成的离线运行文件可以在使用兼容架构上的多种SoC芯片上部署，带来的好处是客户无需拿到硬件实体就可提前对算法与人工智能处理器之间功能、性能、精度调试，大大缩短了产品开发周期。并且，无需为每个SoC芯片单独开发或者适配一套开发环境。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1是本技术方案的架构示意图；

图2是人工智能处理器的软件栈结构示意图；

图3是本技术方案的应用场景示意图之一；

图4是本技术方案的应用场景示意图之二；

图5是本申请提出的一种数据处理方法流程图之一；

图6是人工智能学习库支持的多种类型的基本算子的示意图；

图7是本申请提出的一种数据处理方法流程图之二；

图8是本申请提出的一种数据处理方法流程图之三；

图9是本申请提出的一种数据处理方法流程图之四；

图10是本申请提出的一种数据处理装置功能框图；

图11是本申请提出的一种人工智能处理器功能框图之一；

图12是本申请提出的一种人工智能处理器功能框图之二；

图13是本申请提出的一种数据处理系统的结构示意图。

具体实施方式

下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述参考在附图中示出并在以下描述中详述的非限制性示例实施例，更加全面地说明本公开的示例实施例和它们的多种特征及有利细节。应注意的是，图中示出的特征不是必须按照比例绘制。本公开省略了已知材料、组件和工艺技术的描述，从而不使本公开的示例实施例模糊。所给出的示例仅旨在有利于理解本公开示例实施例的实施，以及进一步使本领域技术人员能够实施示例实施例。因而，这些示例不应被理解为对本公开的实施例的范围的限制。

除非另外特别定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。此外，在本公开各个实施例中，相同或类似的参考标号表示相同或类似的构件。

为了便于更好的理解本技术方案，下面先解释本申请实施例所涉及的技术术语：

流片：在集成电路设计领域，流片是指试生产，也即在设计完满足预设功能的集成电路之后，先生产几片或几十片供测试用，如果满足测试需求，则按照当前满足测试需求的集成电路的结构进行大规模生产。

人工智能处理器的软件栈：参见图2，该软件栈结构20包括人工智能应用200、人工智能框架202、人工智能学习库204、人工智能运行时库206以及驱动208。接下来对其进行具体阐述：

人工智能应用200对应不同的应用场景，提供对应的人工智能算法模型。该算法模型可以直接被人工智能框架202的编程接口解析，在其中一个可能的实现方式中，通过人工智能学习库204将人工智能算法模型转换为二进制指令，调用人工智能运行时库206对二进制指令转换为人工智能学习任务，将该人工智能学习任务放在任务队列中，由驱动208调度任务队列中的人工智能学习任务让底层的人工智能处理器执行。在其中另一个可能的实现方式中，也可以直接调用人工智能运行时库206，运行先前已固化生成的离线运行文件，减少软件架构的中间开销，提高运行效率。

二进制指令：是底层的人工智能处理器可以识别的信息。

人工智能处理器：也称之为专用处理器，针对特定应用或者领域的处理器。例如：图形处理器(Graphics Processing Unit，缩写：GPU)，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的专用处理器。又例如：神经网络处理器(Neural Processing Unit，缩写：NPU)，是一种在人工智能领域的应用中针对矩阵乘法运算的专用处理器，采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。

可重构体系结构：如果某一人工智能处理器能够利用可重用的硬件资源，根据不同的应用需求，灵活的改变自身的体系结构，以便为每个特定的应用需求提供与之相匹配的体系结构，那么这一人工智能处理器就称为可重构的计算系统，其体系结构称为可重构的体系结构。

专用编程语言：基于特定的硬件开发的高级编程语言。例如：Cuda C。

下面结合附图，对本公开实施例提供的一种数据处理方法及相关产品的具体实施方式进行详细说明。

现有技术中，算法应用开发者只有在对应版本硬件实体上完成人工智能算法模型与人工智能处理器之间的适配调试工作。可以理解的是，现有技术的实现方案并不能实现未流片的芯片与算法之间的调试过程，这样就需要专门的时间去完成算法模型与芯片之间的适配工作，因而产品问市的期限就要往后拖延，很容易因时间问题错过占领市场的机会。

基于此，本申请提出一种技术方案，不管是否流片，根据端侧人工智能处理器的设备信息从云侧中匹配出合适的人工智能处理器来模拟端侧人工智能处理器，本技术方案中的软件开发平台对客户提供的算法模型经过一系列处理，得到对应的人工智能学习任务，该人工智能学习任务在云侧人工智能处理器上运行，得到运行结果。根据运行结果在软件开发平台上对人工智能学习任务进行调整，对于本技术方案来说，不管是否调整人工智能算法模型，通过优化人工智能学习库和/或调整端侧人工智能处理器的设备信息，均可以达到调整人工智能学习任务的目的，实现端侧人工智能处理器与人工智能算法模型之间的适配。

参见图1所示，是本技术方案的系统架构图，如图1所示，该系统架构包括：云侧设备101、软件开发平台102、端侧设备103。

具体实现中，软件开发平台102提供了用于应用开发、性能调优、功能调试等一系列工具包。其中，应用开发工具包括人工智能学习库、人工智能运行时库、编译器和特定领域(如视频分析)的软件开发工具。功能调试工具可以满足编程框架、人工智能学习库等不同层次的调试需求；性能调优工具包括性能剖析工具和系统监控工具等。编译器可以包括C++语言的传统编译器，还可以包括基于类C语言的机器学习编译器，也可以基于其他高级语言或者专门设计的领域专用编程语言(Domain Specific Language)的机器学习编译器。可选地，该软件开发平台可以运行在云侧设备101的处理器上运行，也可以运行在本地(host)的计算机设备的处理器上，该本地的计算机设备可以包括通用处理器(如CPU)和显示器等，此处不做具体限定。进一步可选地，上述软件开发平台可以以客户端的形式运行在本地的计算机设备上，或者云端设备上，本申请实施例不作具体限定。如图3所示，该图示意性给出本技术方案的应用场景之一。用户在一台式电脑上登录软件开发平台，在软件开发平台上生成算法模型对应的人工智能学习任务，根据人工智能学习任务在云侧人工智能处理器上运行结果对人工智能学习任务进行调整。如图4所示，该图示意性给出本技术方案的应用场景之二。在云端设备101上设置有人工智能软件开发客户端。具体地，云侧设备是完整的计算机系统，可以包括通用处理器和至少一个人工智能处理器。例如：人工智能处理器可以包括8个集群(cluster)，每个cluster中包括4个人工智能处理器核。在实际中，软件开发平台102维护一份用户记录，该用户记录通过数据块等工具保存，记录内容包括用户个人信息(账户信息等)、用户所需要的服务信息。其中，服务信息包括但不限于调试需求，端侧人工智能处理器的设备信息。该调试需求包括但不限于功能调试和性能调试。设备信息包括硬件架构信息和运行环境参数。运行环境参数包括但不限于端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器的运算器类型。

具体实现中，云侧设备101上设置有人工智能处理器，该人工智能处理器称为云侧人工智能处理器。云侧人工智能处理器包括但不限于人工智能处理器芯片、现场可编程门阵列、模拟器。其中，人工智能处理器芯片可以可重构型芯片，也可以是非重构型芯片。云侧设备101是服务器板卡或服务器板卡集群。

具体实现中，端侧设备103上设置有人工智能处理器，该人工智能处理器称为端侧人工智能处理器。端侧设备可以是终端设备，比如：平板电脑、移动电话。端侧设备也可以是边缘端设备，比如：摄像头。需要说明的是，在本申请实施例中，端侧设备103可以是未流片状态的设备，也可以是已流片的设备。

本技术方案的工作原理为：在软件开发平台102上，驱动程序根据端侧人工智能处理器的设备信息从云侧设备101中筛选与端侧设备103相适配的人工智能处理器。筛选出的云侧人工智能处理器的硬件架构信息兼容对应的端侧人工智能处理器的硬件架构信息，且云侧人工智能处理器的指令集兼容对应的端侧人工智能处理器的指令集。这里，云侧人工智能处理器的硬件架构信息兼容对应的端侧人工智能处理器的硬件架构信息可以包括：云侧人工智能处理器的计算能力大于或等于端侧人工智能处理器的计算能力。

在软件开发平台102上，根据端侧人工智能处理器的设备信息设置人工智能学习库的编译接口对应的软件参数，结合编程框架获得的算法模型，调用已设置好的人工智能学习库的编译接口来编译，获得对应的端侧人工智能处理器的二进制指令。该二进制指令经运行时库处理生成人工智能学习任务。将人工智能学习任务放入任务队列，最终由驱动器调度任务队列中的人工智能学习任务让云侧人工智能处理器执行。

根据云侧人工智能处理器执行的人工智能学习任务，反馈运行结果至软件开发平台102上。可选地，软件开发平台102可以显示运行结果。根据运行结果，软件开发平台102接收用户的操作指令，调整所述端侧人工智能处理器的硬件架构信息、调整所述端侧人工智能处理器的运行环境参数、优化人工智能学习任务这三种方式中的至少其中之一，均可实现二进制指令的调整。将调整后的二进制指令转换为对应的人工智能学习任务，放入任务队列中，由驱动器调度任务队列中的人工智能学习任务让云侧人工智能处理器执行。直至云侧人工智能处理器反馈的运行结果符合预期。

在本技术方案中，端侧人工智能处理器的设备信息与人工智能学习库的编译接口的软件参数相对应，该软件参数包含更多信息，比如：Ram size、Cache大小、是否通过Cache缓存等。这些信息关系到生成二进制指令时分配的操作域，因此，在人工智能算法模型不改变的情况下，更改端侧人工智能处理器的设备信息，就可以调整二进制指令，从而调整人工智能学习任务。不管端侧人工智能处理器是否流片，根据端侧人工智能处理器的设备信息从云侧设备101中适配出可以替代端侧人工智能处理器，在云侧人工智能处理器上执行对应的人工智能学习任务。根据运行结果，在该软件开发平台上完成算法模型与人工智能处理器之间的功能、性能、精度调试，调试完成后生成的离线运行文件可以在使用兼容架构上的多种端侧的SoC芯片上部署，带来的好处是客户无需拿到硬件实体就可提前对算法模型与人工智能处理器之间功能、性能、精度调试，大大缩短了产品开发周期。并且，无需为每个端侧的SoC芯片单独开发或者适配一套开发环境。

更进一步地，本技术方案中，云侧人工智能处理器的设备信息对应的当前运行环境参数可以与其实际运行环境参数相同，也可以与其实际运行参数不同。根据云侧人工智能处理器对特定人工智能学习任务的执行结果，确定端侧人工智能处理器的设备信息是否符合预期条件。当端侧人工智能处理器的设备信息不符合预期条件时，可以进一步调整端侧人工智能处理器的设备信息，直至该端侧人工智能处理器的设备信息符合预期条件。因此，对于本技术方案来说，端侧人工智能处理器的架构在设计阶段时，还可以基于应用来评定端侧的SoC芯片设计规格。

基于上述描述，如图5所示，为本申请提出的一种数据处理方法流程图之一。所述方法应用于通用处理器，对应图1中的软件开发平台。正如前文所述，该通用处理器可以是云侧设备101的通用处理器，也可以是本地(host)的计算机设备的通用处理器。包括：

步骤501)：所述通用处理器根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务。

在本技术方案中，软件开发平台102中集成了多种编程框架，例如，谷歌张量流图人工智能学习系统TensorFlow、深度学习框架Caffe、Caffe2、MXNet等等。以Caffe为例，Caffe的核心模块有三个，分别是Blobs、Layers和Nets。其中，Blobs用来进行数据存储、数据交互和处理，通过Blobs，统一制定了数据内存的接口。Layers是神经网络的核心，定义了许多层级结构，它将Blobs视为输入输出。Nets是一系列Layers的集合，并且这些层结构通过连接形成一个网图。

对于本步骤来说，根据端侧人工智能处理器的设备信息设置人工智能学习库的编译接口对应的软件参数，结合编程框架获得的算法模型，调用已设置好的人工智能学习库的编译接口来编译，获得对应的端侧人工智能处理器的二进制指令。该二进制指令经运行时库处理生成人工智能学习任务。将人工智能学习任务放入任务队列，最终由驱动器调度任务队列中的人工智能学习任务让云侧人工智能处理器执行。

在实际应用中，人工智能学习库用于在人工智能处理器上加速各种人工智能学习算法。这里，人工智能学习算法包括但不限于深度学习算法，例如，卷积神经网络算法、循环神经网络算法等。具体地，人工智能学习库主要包括以下几个特性：

(1)支持多种类型的基本算子

具体实现中，通过基本算子的组合，可以实现多样的机器学习算法，从而满足通用性、灵活性、可扩展性需求。

具体地，这里所涉及的多种类型的基本算子可以包括：常见的神经网络算子1、矩阵、向量、标量算子2、循环神经网络算子3。参见图6，是本申请实施例提供的一种人工智能学习库支持的多种类型的基本算子的示意图，如图6所示，人工智能学习库支持的多种类型的基本算子包括常见的神经网络算子1包括卷积/反卷积算子11，池化算子12，激活算子13、LRN/批规范化算子14，Softmax算子15，全连接算子16。其中，激活算子13可以包括但不限于ReLU、Sigmoid、Tanh以及其他可以用插值方式实现的算子。矩阵、向量、标量算子2包括矩阵乘算子21、张量加、减算子22、张量逻辑运算算子23、Tensor变换算子24、ROIPooling算子25、Proposal算子26。其中，Tensor变换算子24可以包括但不限于Crop、Reshape、Slice、Concat等；循环神经网络算子3包括LSTM算子31、基本循环神经网络RNN(Recurrent NeuralNetwork,RNN)、循环神经网络RNN算子32、SVDF算子33。在实际应用中，用户还可以根据自身需求自由在人工智能学习库中添加新算子或更改不同版本的人工智能学习库，这里不再详述，会在调试人工智能学习任务时详细描述在软件开发平台上如何基于人工智能学习库优化人工智能学习任务。

(2)支持对基本算子进行融合

具体实现中，融合后的算子在编译期间会采用内存复用、访存优化、指令流水、数据类型优化(例如，针对可以适用的不同的数据类型进行选择)等编译优化手段，从而显著提升融合算子的整体性能。

(3)支持生成离线运行文件

这里，生成离线运行文件可以包含人工智能算法模型中各个计算节点的网络权值以及指令等必要的网络结构信息，指令可以用于表明该计算节点用于执行何种计算功能，其具体可以包括人工智能学习模型中各个计算节点的计算属性以及各个计算节点之间的连接关系等信息。

具体实现中，离线运行文件可以脱离人工智能学习库，基于人工智能运行时库单独运行。在实际应用中，由于离线运行文件脱离了上层软件栈，使得离线运行文件的执行具有更好的性能和通用性。

步骤502)：所述通用处理器发送所述人工智能学习任务。

对于本技术方案来说，根据端侧人工智能处理器的设备信息从云侧设备101中适配出可以替代端侧人工智能处理器。那么，在软件开发平台102上生成的人工智能学习任务发送至云侧人工智能处理器上运行。

步骤503)：所述通用处理器接收所述人工智能学习任务对应的运行结果。

云侧人工智能处理器在执行人工智能学习任务时，生成运行结果，该运行结果反馈至软件开发平台102上显示。对于本技术方案来说，运行结果可以包括但不限于所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的一种或多种。在本技术方案中，云侧人工智能处理系统包括通用处理器和云侧人工智能处理器。在执行所述人工智能学习任务时，不仅需要获知执行所述人工智能学习任务时占用云侧人工智能处理器的负载信息，还要获知执行过程中占用内存信息以及通用处理器占用率等。运行结果中包含负载信息的原因在于：如果一个人工智能学习任务在通用处理器上所需的资源过多，很有可能在端侧设备上运行时会效果很差或者运行不起来。

步骤504)：所述通用处理器根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

应该清楚地，离线运行文件包括：离线运行文件版本信息、人工智能处理器版本信息、二进制指令、常数表、输入/输出数据规模、数据布局描述信息和参数信息。具体来说，离线运行文件的版本信息是指离线运行文件的版本信息；人工智能处理器版本信息是指端侧人工智能处理器的硬件架构信息。比如：可以通过芯片架构版本号来表示硬件架构信息，也可以通过功能描述来表示架构信息。数据布局描述信息是指基于硬件特性对输入/输出数据布局及类型等进行预处理；常数表、输入/输出数据规模和参数信息基于开发好的人工智能算法模型确定。其中，参数信息可以为人工智能算法模型中的权值数据。在常数表中，存储有执行二进制指令运算过程中需要使用的数据。

端侧人工智能处理器的设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。其中，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小，端侧人工智能处理器的核数以及端侧人工智能处理器的运算器类型中的至少其中之一。

在本技术方案中，若所述运行结果满足预设要求，则根据满足所述预设要求的二进制指令生成对应的离线运行文件。若所述运行结果不满足预设要求，通过功能调试工具和/或性能调优工具执行如下过程中的至少一种优化方式，直至运行结果满足所述预设要求，并根据满足所述预设要求的二进制指令生成对应的离线运行文件；其中，所述优化方式包括：调整所述端侧人工智能处理器的硬件架构信息；调整所述端侧人工智能处理器的运行环境参数；优化人工智能学习任务。

具体来说，云侧人工智能处理器反馈的运行结果若符合预设要求，当前执行人工智能学习任务对应的二进制指令通过离线方式固化成离线运行文件。

云侧人工智能处理器反馈的运行结果若不符合预设要求，调试人工智能学习任务分为两种应用场景。第一种应用场景为：在芯片设计阶段，基于应用，利用本技术方案来评定芯片设计规格。这种情况下，芯片的硬件架构信息和运行环境参数均可以更改。那么，在软件开发平台上，执行包括：调整所述端侧人工智能处理器的硬件架构信息；调整所述端侧人工智能处理器的运行环境参数；优化人工智能学习任务这三种优化方式中的至少一种优化方式，均可相应调整人工智能学习任务对应的二进制指令。每一次调整后，由驱动调度任务队列中调整后的人工智能学习任务，让对应的云侧人工智能处理器执行，获得新的运行结果。如果新的运行结果还是不符合预期，用户可以重复上述步骤，直至运行结果符合预期。最终调试获得的二进制指令通过离线方式固化成离线运行文件。

第二种应用场景为：不管端侧人工智能处理器是否流片，客户基于软件开发平台就可以展开设计开发，实现端侧人工智能处理器与人工智能算法模型之间的适配。这种情况下，在实际中，除非重新购买其他架构版本的芯片使用权，否则，芯片的硬件架构信息不会轻易发生变化。假设芯片的硬件架构信息不发生变化，那么，在软件开发平台上，执行包括：在当前硬件架构信息对应的芯片所支持的运行环境参数范围内调整运行环境参数、优化人工智能学习任务这两种优化方式中的至少一种优化方式，均可相应调整人工智能学习任务对应的二进制指令。每一次调整后，由驱动调度任务队列中调整后的人工智能学习任务，让对应的云侧人工智能处理器执行，获得新的运行结果。如果新的运行结果还是不符合预期，用户可以重复上述步骤，直至运行结果符合预期。最终调试获得的二进制指令通过离线方式固化成离线运行文件。

关键地，为了能够实现离线运行文件即可以运行在云侧人工智能处理器上，也可以运行在端侧人工智能处理器上，且人工智能学习任务在云侧人工智能处理器上执行时生成的运行结果与在端侧人工智能处理器上执行时生成的运行结果完全一致或在一定的允许误差范围之内，在本技术方案中，根据端侧人工智能处理器的设备信息从云侧人工智能处理器集合中筛选出能够替代对应端侧人工智能处理器的人工智能处理器，筛选出的云侧人工智能处理器的硬件架构信息兼容对应端侧人工智能处理器的硬件架构信息，云侧人工智能处理器的指令集兼容对应端侧人工智能处理器的指令集，从而可以实现离线运行文件的无缝迁移。

在本技术方案中，可以在软件开发平台102上预先存储不同类型的端侧人工智能处理器的设备信息。根据实际需要，从预选存储的设备信息中选取目标信息，依据目标信息从云侧设备101中确定替代端侧人工智能处理器的人工智能处理器。对于本技术方案来说，另一种可行的方案是，根据实际需要，每一次调整设备信息时，用户在软件开发平台102设置不同的设备信息，软件开发平台102接收端侧人工智能处理器的设备信息，依据当前接收到的端侧人工智能处理器的设备信息，从云侧设备101中选出云侧人工智能处理器来替代端侧人工智能处理器的人工智能处理器。需要说明的是，上述获取端侧人工智能处理器的设备信息的方式仅仅是例举的部分情况，而不是穷举，本领域技术人员在理解本申请技术方案的精髓的情况下，可能会在本申请技术方案的基础上产生其它的变形或者变换，比如：端侧设备103发送请求信息至软件开发平台102，软件开发平台102对请求信息进行解析，获得端侧人工智能处理器的设备信息。但只要其实现的功能以及达到的技术效果与本申请类似，那么均应当属于本申请的保护范围。

在实际应用中，从云侧设备101中选出云侧人工智能处理来替代端侧人工智能处理器时，将当前启用的端侧设备信息写入驱动程序中，以根据驱动程序中的设备信息适配云侧人工智能处理器。其中，适配云侧人工智能处理器的过程包括：

根据端侧人工智能处理器的硬件架构信息筛选出云侧人工智能处理器；其中，筛选出的云侧人工智能处理器的硬件架构信息兼容对应端侧人工智能处理器的硬件架构信息，云侧人工智能处理器的指令集兼容对应端侧人工智能处理器的指令集；

根据端侧人工智能处理器的运行环境参数对筛选出的云侧人工智能处理器进行调频调带。

另外，针对优化人工智能学习任务来说，可以有四种方式。第一种方式：用户可以在软件开发平台上基于编程语言实现文件编译成动态链接库，在框架中调用该动态链接库。

第二种方式：用户可以在软件开发平台上基于编程语言开发新的算子，结合本地已拥有的人工智能学习库，以得到新的离线运行文件。比如：以proposal算子为例。我们将Faster-R-Cnn中Proposal算子，替换为PluginOp算子，调用专用编程语言编写的proposal_kernel.mlu算子，Cambricon-Caffe框架中的Proposal算子就通过PluginOp替换成了专用编程语言实现的ProposalKernel，从而将专用编程语言与现有的人工智能学习库联系到一起，支持了人工智能学习库中的各种特性及在线、离线、逐层、融合等运行模式。

由第一种方式和第二种方式可知，在框架中已经支持了大量层和算子，一般的模型都可以全部放到云的服务器板卡上运行。但算法更新变化快，个人或组织可能也积累了一些自定义的算子、算法，一来不希望暴露自定义的算法，二来通过底层库直接对实际应用进行支持效率不能满足需求，所以提供了专用编程语言来帮助开发者进行自主的算法开发，满足之前的开发模式中不够灵活的痛点。

第三种方式：用户可以在软件开发平台上从当前本地已拥有人工智能学习库的版本中选择其中之一，并匹配对应的人工智能运行时库，如果当前本地已拥有的人工智能学习库无法满足需求，通过软件开发平台发送请求，以达到升级本地人工智能学习库的版本的目的。软件开发平台运营方根据请求给软件开发平台提供相应的新版本的人工智能学习库以及对应的人工智能运行时库，用户在软件开发平台上选用最新版本的人工智能学习库以及对应的人工智能运行时库，基于最新版本的人工智能学习库获得调试后的二进制指令。

第四种方式：用户可以调整人工智能算法模型来达到优化人工智能学习任务的目的。

在实际应用中，上述四种优化人工智能学习任务的方式中采用至少其中一种方式均达到优化人工智能学习任务的目的。不管是否调整人工智能算法模型，通过优化人工智能学习库和/或调整端侧人工智能处理器的设备信息，均可以达到调整人工智能学习任务的目的，实现端侧人工智能处理器与人工智能算法模型之间的适配。

图5所示的方案提供一软件开发平台，客户可以在该软件开发平台上完成算法与人工智能处理器之间的功能、性能、精度调试，调试完成后生成的离线运行文件可以在使用兼容架构上的多种端侧的SoC芯片上部署，带来的好处是客户无需拿到硬件实体就可提前对算法与人工智能处理器之间功能、性能、精度调试，大大缩短了产品开发周期。并且，无需为每个端侧的SoC芯片单独开发或者适配一套开发环境。

如图7所示，为本申请提供的一种数据处理方法流程图之二。所述方法应用于云侧人工智能处理器上；包括：

步骤701)：接收人工智能学习任务；其中，所述人工智能学习任务是根据端侧人工智能处理器的设备信息生成的二进制指令确定的；

步骤702)：执行所述人工智能学习任务，生成运行结果。

在本步骤中，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

需要强调的是，图5所示的所有相关技术方案内容均适用于图7所示的技术方案，这里不再赘述。

这里需要明确的是，对云侧设备101来说，一种应用场景是：在云侧人工智能处理器集合中，尽可能涵盖端侧人工智能处理器的所有版本的硬件架构信息。例如：型号与硬件架构信息的版本对应，端侧人工智能处理器的型号有A、B、C等。在云侧人工智能处理器集合中，均包含型号为A的人工智能处理器、型号为B的人工智能处理器、型号为C的人工智能处理器。另一种应用场景是：在云侧人工智能处理器集合中，人工智能处理器均具有高配置版本的硬件架构信息。例如：针对不同的应用场景和实际需求，将高配置版本的人工智能处理器的部分功能砍掉，转换为低配置版本的人工智能处理器或中配置版本的人工智能处理器来满足不同客户的需求。这种情况下，本技术方案中的软件开发平台102在生成二进制指令时是基于端侧人工智能处理器的设备信息，并且，通过驱动程序更改筛选出的云侧人工智能处理器所支持的不同的运行环境参数，使得高配置版本的人工智能处理器中的部分功能被屏蔽，仅仅在实现的功能上与对应的端侧人工智能处理器的功能相适配。因此，高配置版本的人工智能处理器的运行环境参数的取值范围包含端侧人工智能处理器所支持的所有运行环境参数。比如：云侧人工智能处理器的片上内存大小为100M，端侧人工智能处理器的片上内存大小为小于100M的某个值均可。

进一步地，利用分时复用的方法，通过虚拟机技术，根据用户使用云侧设备101的人工智能处理器的资源的时间段，合理分配云侧设备101的人工智能处理器，可以将资源分配给不同时间段的人工智能学习任务，减少需要部署的云侧人工智能处理器的开发环境数量。

更进一步地，在云侧设备101的人工智能处理器集合中，并不一定必须都是芯片实体，可以是FPGA。参考现代IC设计验证的技术主流，以硬件描述语言(Verilog或VHDL)所完成的电路设计，可以经过简单的综合与布局，快速的烧录至FPGA上。对于本技术方案来说，若在云侧人工智能处理器中不存在适配的芯片实体，可以使用FPGA来为用户提供服务。根据端侧人工智能处理器的设备信息筛选出符合需求的FPGA，该FPGA具有与端侧人工智能处理器的硬件架构信息所对应的镜像文件。若不存在符合需求的FPGA，软件开发平台102可以将端侧人工智能处理器的硬件架构信息对应的镜像文件烧录至一空闲的FPGA上，该FPGA去执行软件开发平台发送过来的人工智能学习任务。

对于云侧人工智能处理器来说，可以提供更细粒度的资源配置。如用户A在软件开发平台102上基于M个core构成端侧人工智能处理器生成人工智能学习任务，而适配出的云侧人工智能处理器具有core的总数为N，且N个core中的P个core已经被用户B发起的人工智能学习任务所使用。若满足M+P<＝N，且用户A对应的端侧人工智能处理器的设备信息与用户B对应的端侧人工智能处理器的设备信息必须相同，软件开发平台102中的人工智能运行时库对不同用户发起的人工智能学习任务在不同的core上执行不同的人工智能学习任务，达到对云侧人工智能处理器的资源更细粒度的分配。

还有，针对云侧人工智能处理器来说，可以是常规的非可重构体系结构的人工智能处理器，也可以是可重构体系结构的人工智能处理器。对于可重构体系结构的人工智能处理器来说，利用驱动程序中的设备信息去调整可重构型芯片内部的环境运行参数，并根据软件开发平台102发送过来的人工智能学习任务来调用重构型芯片内部对应的功能模块。也就是说，根据实际应用的不同，去调整可重构型芯片内部的功能模块，使得重构后的芯片来替换端侧人工智能处理器。

基于上述关于云端人工智能处理器的描述，对于本技术方案来说，软件开发平台102统计一段时间内各个时间段使用不同硬件架构信息的云侧人工智能处理器的用户量，估计得到能够满足用户需求的最小值V，该数字V是云侧人工智能处理器的数量配置的最小值。在此基础上添加少量W个冗余的人工智能处理器来进行容错或防止用户量突增的情况，则(V+W)为云侧设备101需要配置的人工智能处理器的数量。同时，软件开发平台102会定期统计用户量的变化情况，改变云侧设备101中部署的人工智能处理器的数量来满足用户的需求且降低云端开销。

综上，由上述描述可知，采用实时部署的方式，根据软件开发平台发送过来的人工智能学习任务，动态调整云侧设备101中部署的人工智能处理器资源，达到在用户不感知的情况下，同一云侧人工智能处理器资源，利用分时复用的方法，根据用户使用云侧设备101的人工智能处理器的资源的时间段，通过配置不同的开发环境，可以将资源分配给不同时间段的人工智能学习任务，减少需要部署的云侧人工智能处理器的开发环境数量。

如图8所示，为本申请提出的一种数据处理方法流程图之三。所述方法应用于端侧人工智能处理器上；包括：

步骤801)：读取离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令确定。

需要强调的是，图5、图7所示的所有相关技术方案内容均适用于图8所示的技术方案，这里不再赘述。

针对端侧人工智能处理器生成的人工智能学习任务，在软件开发平台102上根据云侧人工智能处理器反馈的运行结果对人工智能学习任务进行优化调试，在运行结果达到预期要求后，调试后的人工智能学习任务的二进制指令经固化处理转换为离线运行文件，实现之前的调试和性能成果的固化。之后需要编写离线的应用程序，脱离编程框架保证实际应用场景下精度正常，就可以交叉编译到端侧设备103上进行实地部署了。

如图9所示，为本申请提出的一种数据处理流程图之四。所述系统包括通用处理器和云侧人工智能处理器；包括：

步骤a：所述通用处理器根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务；将所述人工智能学习任务发送至云侧人工智能处理器上运行；

步骤b：所述云侧人工智能处理器接收人工智能学习任务，执行所述人工智能学习任务，生成运行结果；

步骤c：所述通用处理器接收所述人工智能学习任务对应的运行结果，根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

需要强调的是，图5、图7所示的所有相关技术方案内容均适用于图9所示的技术方案，这里不再赘述。

如图10所示，为一种数据处理装置功能框图之一。所述装置包括：存储器及通用处理器，所述存储器上存储有可在所述通用处理器上运行的计算机程序，所述通用处理器执行所述计算机程序时实现数据处理流程包括：

根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务；

发送所述人工智能学习任务至云侧人工智能处理器上运行；

接收所述人工智能学习任务对应的运行结果；

根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

可选地，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

可选地，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器中的运算器类型中的至少其中之一。

可选地，所述通用处理器执行所述计算机程序时实现数据处理流程还包括：

接收所述端侧人工智能处理器的设备信息。

将设备信息写入驱动程序中，以根据所述驱动程序中的设备信息适配云侧人工智能处理器。

可选地，所述通用处理器根据所述运行结果确定所述离线运行文件时执行所述计算机程序时实现数据处理流程包括：

若所述运行结果满足预设要求，则根据满足所述预设要求的二进制指令生成对应的离线运行文件。

可选地，所述通用处理器根据所述运行结果确定所述离线运行文件时执行所述计算机程序时实现数据处理流程还包括：

若所述运行结果不满足预设要求，执行如下过程中的至少一种优化方式，直至运行结果满足所述预设要求，并根据满足所述预设要求的二进制指令生成对应的离线运行文件；其中，所述优化方式包括：

调整所述端侧人工智能处理器的硬件架构信息；

调整所述端侧人工智能处理器的运行环境参数；

或优化人工智能学习任务。

可选地，所述通用处理器优化人工智能学习任务时实现数据处理流程包括：

通过专用编程语言来优化人工智能学习任务。

可选地，所述通用处理器优化人工智能学习任务时实现数据处理流程还包括：

更新人工智能学习库的版本来优化人工智能学习任务。

调整人工智能算法模型。

可选地，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧的人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

其存储器和通用处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述通用处理器可以按任何适当的方式实现。例如，所述通用处理器可以采取例如微处理器或通用处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

如图11所示，为一种人工智能处理器功能框图之一。包括：

接收模块1101，用于接收人工智能学习任务；其中，所述人工智能学习任务是根据端侧人工智能处理器的设备信息生成的二进制指令确定的；

执行模块1102，用于执行所述人工智能学习任务，生成运行结果。

如图12所示，为一种人工智能处理器功能框图之二。包括：

获取模块1201，用于获取离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令确定的。

可选地，还包括：

发送模块，用于发送请求信息，其中，所述请求信息包括所述端侧人工智能处理器的设备信息。

可选地，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器的运算器类型中的至少其中之一。

如图13所示，为一种数据处理系统。包括：通用处理器1310和云侧人工智能处理器1320。可以理解的是，在本实施例中，关于通用处理器1310以及云侧人工智能处理器1320的具体实现请参考前述描述，此处不多加赘述。

在本实施例中，本申请实施例还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述图5、图7、图8、图9所示的数据处理方法。

由上可见，本申请实施例提供一种数据处理方法及相关产品，不管人工智能处理器是否流片，本技术方案就能够提前实现人工智能算法模型与人工智能处理器之间的调试工作。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现客户端和服务器以外，完全可以通过将方法步骤进行逻辑编程来使得客户端和服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种客户端和服务器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对客户端和服务器的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

A1.一种数据处理方法，所述方法应用于数据处理系统，所述数据系统包括通用处理器和云侧人工智能处理器；其中，

所述通用处理器根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务；将所述人工智能学习任务发送至云侧人工智能处理器上运行；

所述云侧人工智能处理器接收人工智能学习任务，执行所述人工智能学习任务，生成运行结果；

所述通用处理器接收所述人工智能学习任务对应的运行结果，根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

A2.根据A1所述的方法，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

A3.根据A2所述的方法，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器的运算器类型中的至少其中之一。

A4.根据A1所述的方法，还包括：

所述通用处理器接收所述端侧人工智能处理器的设备信息。

A5.根据A4所述的方法，还包括：

所述通用处理器将设备信息写入驱动程序中，以根据所述驱动程序中的设备信息适配云侧人工智能处理器。

A6.根据A1所述的方法，所述根据所述运行结果确定所述离线运行文件，包括：

A7.根据A1所述的方法，所述根据所述运行结果确定所述离线运行文件，还包括：

调整所述端侧人工智能处理器的硬件架构信息；

调整所述端侧人工智能处理器的运行环境参数；

或优化人工智能学习任务。

A8.根据A7所述的方法，所述优化人工智能学习任务的步骤包括：

通过专用编程语言来优化人工智能学习任务。

A9.根据A7或A8所述的方法，所述优化人工智能学习任务的步骤还包括：

更新人工智能学习库的版本来优化人工智能学习任务。

A10.根据A7-A9任一项所述的方法，所述优化人工智能学习任务的步骤还包括：

调整人工智能算法模型。

A11.根据权利要求A1-A10任一项所述的方法，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

A12.根据A1所述的方法，所述云侧人工智能处理器包括人工智能处理器硬件实体、现场可编程门阵列、模拟器中至少其中之一。

A13.根据A12所述的方法，所述人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

B14.一种数据处理装置，所述装置包括：存储器、通用处理器以及云侧人工智能处理器；所述存储器上存储有可在所述通用处理器和/或所述云侧人工智能处理器上运行的计算机程序，其中，

所述通用处理器，用于根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务；将所述人工智能学习任务发送至云侧人工智能处理器上运行；

所述云侧人工智能处理器，用于接收人工智能学习任务，执行所述人工智能学习任务，生成运行结果；

所述通用处理器，还用于接收所述人工智能学习任务对应的运行结果，根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

B15.根据B14所述的装置，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

B16.根据B15所述的装置，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器的运算器类型中的至少其中之一。

B17.根据B14所述的装置，所述通用处理器，还用于：

接收所述端侧人工智能处理器的设备信息。

B18.根据B17所述的装置，所述通用处理器，还用于：

B19.根据B14所述的装置，所述通用处理器，还用于根据所述运行结果确定所述离线运行文件，包括：

B20.根据B14所述的装置，所述通用处理器，还用于根据所述运行结果确定所述离线运行文件，包括：

调整所述端侧人工智能处理器的硬件架构信息；

调整所述端侧人工智能处理器的运行环境参数；

或优化人工智能学习任务。

B21.根据B20所述的装置，所述优化人工智能学习任务的步骤包括：

通过专用编程语言来优化人工智能学习任务。

B22.根据B20或B21所述的装置，所述优化人工智能学习任务的步骤还包括：

更新人工智能学习库的版本来优化人工智能学习任务。

B23.根据B20-B22任一项所述的装置，所述优化人工智能学习任务的步骤还包括：

调整人工智能算法模型。

B24.根据B14-B23任一项所述的装置，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

B25.根据B14所述的装置，所述云侧人工智能处理器包括人工智能处理器硬件实体、现场可编程门阵列、模拟器中的至少其中之一。

B26.根据B25所述的装置，所述人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

C1.一种数据处理方法，所述方法应用于通用处理器，包括：

所述通用处理器根据端侧人工智能处理器的设备信息生成二进制指令，并根据所述二进制指令生成人工智能学习任务；

所述通用处理器发送所述人工智能学习任务至云侧人工智能处理器上运行；

所述通用处理器接收所述人工智能学习任务对应的运行结果；

所述通用处理器根据所述运行结果确定离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

C2.根据C1所述的方法，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

C3.根据C2所述的方法，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器的运算器类型中的至少其中之一。

C4.根据C1所述的方法，还包括：

所述通用处理器接收所述端侧人工智能处理器的设备信息。

C5.根据C4所述的方法，还包括：

C6.根据C1所述的方法，所述根据所述运行结果确定所述离线运行文件，包括：

C7.根据C1所述的方法，所述根据所述运行结果确定所述离线运行文件，还包括：

调整所述端侧人工智能处理器的硬件架构信息；

调整所述端侧人工智能处理器的运行环境参数；

或优化人工智能学习任务。

C8.根据C7所述的方法，所述优化人工智能学习任务的步骤包括：

通过专用编程语言来优化人工智能学习任务。

C9.根据C7或C8所述的方法，所述优化人工智能学习任务的步骤还包括：

更新人工智能学习库的版本来优化人工智能学习任务。

C10.根据C7-C9任一项所述的方法，所述优化人工智能学习任务的步骤还包括：

调整人工智能算法模型。

C11.根据C1-C10任一项所述的方法，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

D12.一种数据处理装置，所述装置包括：存储器及通用处理器，所述存储器上存储有可在所述通用处理器上运行的计算机程序，所述通用处理器执行所述计算机程序时实现数据处理流程包括：

发送所述人工智能学习任务至云侧人工智能处理器上运行；

接收所述人工智能学习任务对应的运行结果；

D13.根据D12所述的装置，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

D14.根据D13所述的装置，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器中的运算器类型中的至少其中之一。

D15.根据D12所述的装置，所述通用处理器执行所述计算机程序时实现数据处理流程还包括：

接收所述端侧人工智能处理器的设备信息。

D16.根据D12或D15所述的装置，所述通用处理器执行所述计算机程序时实现数据处理流程还包括：

D17.根据D12所述的装置，所述通用处理器根据所述运行结果确定所述离线运行文件时执行所述计算机程序时实现数据处理流程包括：

D18.根据D12所述的装置，所述通用处理器根据所述运行结果确定所述离线运行文件时执行所述计算机程序时实现数据处理流程还包括：

调整所述端侧人工智能处理器的硬件架构信息；

调整所述端侧人工智能处理器的运行环境参数；

或优化人工智能学习任务。

D19.根据D18所述的装置，所述通用处理器优化人工智能学习任务时实现数据处理流程包括：

通过专用编程语言来优化人工智能学习任务。

D20.根据D18或D19所述的装置，所述通用处理器优化人工智能学习任务时实现数据处理流程还包括：

更新人工智能学习库的版本来优化人工智能学习任务。

D21.根据D18-D20任一项所述的装置，所述通用处理器优化人工智能学习任务时实现数据处理流程还包括：

调整人工智能算法模型。

D22.根据权利要求D12-D21任一项所述的装置，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧的人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

E23.一种数据处理方法，所述方法应用于云侧人工智能处理器上；包括：

执行所述人工智能学习任务，生成运行结果。

E24.根据E23所述的方法，所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

E25.根据E23所述的方法，所述云侧人工智能处理器包括人工智能处理器硬件实体、现场可编程门阵列、模拟器中的至少其中之一。

E26.根据E25所述的方法，所述云侧人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

F27.一种人工智能处理器，包括：

F28.根据F27所述的人工智能处理器，所述执行模块生成的运行结果包括所述人工智能学习任务在所述云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一。

F29.根据F27所述的人工智能处理器，所述云侧人工智能处理器包括人工智能处理器硬件实体、现场可编程门阵列、模拟器种的至少其中之一。

F30.根据F29所述的人工智能处理器，所述云侧人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

G31.一种数据处理方法，所述方法应用于端侧人工智能处理器上；包括：

获取离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

G32.根据G31所述的方法，所述方法还包括：

发送请求信息；其中，所述请求信息包括所述端侧人工智能处理器的设备信息。

G33.根据G31所述的方法，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

G34.根据G33所述的方法，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器中的运算器的类型中的至少其中之一。

H35.一种人工智能处理器，包括：

获取模块，用于获取离线运行文件；其中，所述离线运行文件是根据运行结果满足预设要求时对应的所述端侧人工智能处理器的设备信息和二进制指令生成的。

H36.根据H35所述的人工智能处理器，还包括：

H37.根据H36所述的人工智能处理器，所述设备信息包括所述端侧人工智能处理器的硬件架构信息和运行环境参数。

H38.根据H37所述的人工智能处理器，所述运行环境参数包括所述端侧人工智能处理器的运行主频率、片外存储器到端侧人工智能处理器之间的访存带宽、片上存储大小、端侧人工智能处理器的核数、端侧人工智能处理器中的运算器的类型中的至少其中之一。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于云侧人工智能处理器上；包括：

执行所述人工智能学习任务，生成运行结果；

所述运行结果包括所述人工智能学习任务在云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一；所述运行结果用于调整端侧人工智能处理器的设备信息。

2.根据权利要求1所述的方法，其特征在于，所述云侧人工智能处理器包括人工智能处理器硬件实体、现场可编程门阵列、模拟器中的至少其中之一。

3.根据权利要求2所述的方法，其特征在于，所述人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

4.一种云侧人工智能处理器，其特征在于，包括：

执行模块，用于执行所述人工智能学习任务，生成运行结果；

所述执行模块生成的运行结果包括所述人工智能学习任务在所述云侧人工智能处理器上的运行时间、执行所述人工智能学习任务时占用云侧人工智能处理系统的负载信息、执行人工智能学习任务的结果是否符合预期要求中的至少其中之一；所述运行结果用于调整端侧人工智能处理器的设备信息。

5.根据权利要求4所述的人工智能处理器，其特征在于，所述云侧人工智能处理器包括人工智能处理器芯片、现场可编程门阵列、模拟器中的至少其中之一。

6.根据权利要求5所述的人工智能处理器，其特征在于，所述人工智能处理器硬件实体是可重构体系结构的人工智能处理器。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于云侧人工智能处理器执行的程序代码，所述程序代码包括如权利要求1-3任一项所述的数据处理方法。