CN113110931B

CN113110931B - 内核运算优化方法、装置及系统

Info

Publication number: CN113110931B
Application number: CN202010027511.8A
Authority: CN
Inventors: 刘琦; 何亮亮
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2024-06-04
Anticipated expiration: 2040-01-10
Also published as: CN113110931A

Abstract

本公开是关于一种内核运算优化方法、装置及系统。涉及深度神经网络技术，解决了一般的调优方案无法兼顾高性能和通用性的问题。该方法包括：在执行计算任务之前，检查各内核函数的内核执行参数是否为优化后的内核执行参数；在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数；接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数。本公开提供的技术方案适用于多内核并行计算场景，实现了具有普遍性的调优方案，保证了高运算效率。

Description

内核运算优化方法、装置及系统

技术领域

本公开涉及深度神经网络技术，尤其涉及一种内核运算优化方法、装置及系统。

背景技术

随着手机等设备端的芯片计算能力越来越强，越来越多的应用会将一部分计算任务交给设备端，在带来更好的用户体验的同时，可以有效节省服务器资源。近几年深度神经网络的火热更是推动了设备端计算的发展，各种设备的计算能力都在飞速的进步，各种深度学习专有计算设备也是层出不穷。由于专有芯片的使用门槛较高，目前使用最为广泛的仍然是中央处理器(CPU)和图像处理器(GPU)。GPU相对于CPU在高性能计算上有很大的优势，所以GPU成为了设备端运行深度神经网络的首选。

在GPU这类高性能计算中会涉及到多种计算内核，每种计算内核的内核函数由于输入信息或者运行设备环境不同会造成效率差异巨大，需要依据输入信息和设备算力动态调整内核函数的相关参数(主要是用来划分并行计算中多个任务)，以实现最优调度。而对于移动设备，由于计算内核众多，很难提前针对所有计算内核全部进行调优。

可针对各种计算内核的计算方式，设置一套通用的参数，对于任何输入大小和设备算力都使用该通用的参数。但此种方法运算忽略了不同计算内核的差异性，由于不同的输入信息和运行设备环境都需要特定的参数才能实现效率最大化，因此通用参数方案会导致设备的运算性能低。

还可以依据计算任务，针对不同的计算内核提前调优相关参数。但此方案要求在全部计算内核上提前完成参数调优，较难保证，导致此方案的通用性差。

发明内容

为克服相关技术中存在的问题，本公开提供一种内核运算优化方法、装置及系统。

根据本公开实施例的第一方面，提供一种内核运算优化方法，包括：

在执行计算任务之前，检查各内核函数的内核执行参数是否为优化后的内核执行参数；

在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数；

接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数。

优选的，所述向远端服务器请求所述内核函数的优化后的内核执行参数的步骤包括：

向所述远端服务器发送优化请求，在所述优化请求中至少携带以下信息中的任一或任意多项：

设备信息，计算内核信息，输入信息。

优选的，所述优化方案包括所述优化后的内核执行参数，所述接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数的步骤包括：

自所述优化方案中提取所述优化后的内核执行参数。

优选的，所述优化方案包括调优任务，所述接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数的步骤包括：

执行所述调优任务，获取所述优化后的内核执行参数。

根据本公开实施例的第二方面，提供了一种内核运算优化方法，包括：

接收设备端获取内核函数的优化后的内核执行参数的请求；

根据所述请求，向所述设备端反馈所述内核执行参数的优化方案。

优选的，所述请求包括优化请求，所述优化请求中至少携带以下信息中的任一或任意多项：

设备信息，计算内核信息，输入信息，

所述根据所述请求，向所述设备端反馈优化方案的步骤包括：

根据所述优化请求，查找本地存储的优化后的内核执行参数；

在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端反馈所述优化后的内核执行参数。

优选的，所述根据所述优化请求，查找本地存储的优化后的内核执行参数的步骤之后，还包括：

在没有查找到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端和/或同类的其他设备端下发调优任务，供所述设备端和/或同类的所述其他设备端执行所述调优任务获取优化后的内核执行参数。

优选的，在同时存在多个待向所述设备端下发的调优任务的情况下，所述向所述设备端和/或同类的其他设备端下发调优任务的步骤包括：

根据各设备端的空余算力和所述调优任务所需的算力，在所述设备端和所述同类的其他设备端进行负载均衡，选择所述设备端或一个所述同类的其他设备端下发所述调优任务。

优选的，所述向所述设备端和/或同类的其他设备端下发调优任务的步骤之后，还包括：

接收并存储所述设备端和/或所述同类的其他设备端执行所述调优任务后获取的优化后的内核执行参数。

根据本公开实施例的第三方面，提供了一种内核运算优化装置，包括：

优化情况检查模块，用于在执行计算任务之前，检查各内核函数的内核执行参数是否为优化后的内核执行参数；

优化参数请求模块，用于在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数；

参数获取模块，用于接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数。

优选的，所述优化参数请求模块包括：

优化请求发送子模块，用于向所述远端服务器发送优化请求，在所述优化请求中至少携带以下信息中的任一或任意多项：

设备信息，计算内核信息，输入信息。

优选的，所述优化方案包括所述优化后的内核执行参数，所述参数获取模块包括：

参数提取子模块，用于自所述优化方案中提取所述优化后的内核执行参数。

优选的，所述优化方案包括调优任务，所述参数获取模块还包括：

调优任务执行子模块，用于执行所述调优任务，获取所述优化后的内核执行参数。

根据本公开实施例的第四方面，提供了一种内核运算优化装置，包括：

请求接收模块，用于接收设备端获取内核函数的优化后的内核执行参数的请求；

方案反馈模块，用于根据所述请求，向所述设备端反馈所述内核执行参数的优化方案。

设备信息，计算内核信息，输入信息，

所述方案反馈模块包括：

本地参数查找子模块，用于根据所述优化请求，查找本地存储的优化后的内核执行参数；

参数反馈子模块，用于在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端反馈所述优化后的内核执行参数。

优选的，所述方案反馈模块还包括：

调优任务下发子模块，用于在没有查找到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端和/或同类的其他设备端下发调优任务，供所述设备端和/或同类的所述其他设备端执行所述调优任务获取优化后的内核执行参数。

优选的，所述调优任务下发子模块，用于根据各设备端的空余算力和所述调优任务所需的算力，在所述设备端和所述同类的其他设备端进行负载均衡，选择所述设备端或一个所述同类的其他设备端下发所述调优任务。

优选的，该装置还包括：

存储模块，用于接收并存储所述设备端和/或所述同类的其他设备端执行所述调优任务后获取的优化后的内核执行参数。

根据本公开实施例的第五方面，提供了一种内核运算优化系统，包括远程服务器和至少一个设备端；

所述设备端，用于在执行计算任务之前，检查各内核函数的内核执行参数是否为优化后的内核执行参数，在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数，并接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数；

所述远程服务器，用于接收设备端获取内核函数的优化后的内核执行参数的请求，根据所述请求，向所述设备端反馈所述内核执行参数的优化方案。

根据本公开实施例的第六方面，提供了一种计算机装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

优选的，所述处理器进一步被配置为执行本公开实施例提供的内核运算优化方法。

根据本公开实施例的第七方面，提供了一种服务器装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收设备端获取内核函数的优化后的内核执行参数的请求；

根据本公开实施例的第八方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种内核运算优化方法，所述方法包括：

优选的，所述方法进一步包含本公开的实施例提供的内核运算优化方法的步骤。

根据本公开实施例的第九方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种内核运算优化方法，所述方法包括：

接收设备端获取内核函数的优化后的内核执行参数的请求；

本公开的实施例提供的技术方案可以包括以下有益效果：本公开的实施例提供了一种内核运算优化方法、装置及系统，在执行计算任务之前，设备端检查各内核函数的内核执行参数是否为优化后的内核执行参数，在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数，由远程服务端根据所述请求，向所述设备端反馈优化方案；设备端依据远程服务器反馈的所述内核执行参数的优化方案，获取所述优化后的内核执行参数。基于远程服务器，实现了对不同类型的内核函数的优化，提供了具有普遍性的调优方案，保证了高运算效率，解决了一般的调优方案无法兼顾高性能和通用性的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种内核运算优化方法的流程图。

图2是根据一示例性实施例示出的一种内核运算优化方法的流程图。

图3是根据一示例性实施例示出的一种内核运算优化装置的框图。

图4是根据一示例性实施例示出的优化参数请求模块302的结构框图。

图5是根据一示例性实施例示出的参数获取模块303的结构框图。

图6是根据一示例性实施例示出的一种内核运算优化装置的框图。

图7是根据一示例性实施例示出的一种方案反馈模块602的结构框图。

图8是根据一示例性实施例示出的一种装置的框图(移动终端的一般结构)。

图9是根据一示例性实施例示出的一种装置的框图(服务器的一般结构)。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决上述问题，本公开的实施例提供了一种内核运算优化方法、装置及系统。通过在执行计算任务之前，检测各内核函数的内核执行参数的优化情况，并向远端服务器请求优化后的内核执行参数，根据反馈的优化方案完成本设备端的调优工作，GPU并行计算能够依据输入信息和设备算力动态调整内核函数的相关参数，解决了一般的调优方案无法兼顾高性能和通用性的问题。高性能是指在特定输入和设备端上保持计算的高效，通用性是指所有内核函数在所有设备端上的计算都要是高性能的。

本公开的一示例性实施例提供了一种内核运算优化方法，使用该方法完成调优的流程如图1所示，包括：

步骤101、设备端在执行计算任务之前，检查各内核函数的内核执行参数是否为优化后的内核执行参数。

较为常见的深度学习框架都会将一个深度学习的模型抽象成为一个由一些基本运算符(Operator)组成的有向无环的数据流图(DAG)，然后再由下层计算引擎按照某一种拓扑序来依次调度并执行这些节点对应的内核函数，从而完成一个模型的执行。为了能够支持在不同的硬件上进行计算，一个Operator往往会对应多个内核函数的实现，例如，GPU上的内核函数是由CUDA或者一些GPU的函数库(如cuDNN、cuBLAS等)提供的操作组合而成。

为了提供较好的灵活性，大多深度学习框架中的Operator都是定义在了代数运算符这个粒度上，例如向量的加、减、乘、除和矩阵乘法等等，一般的计算框架都会有几百甚至上千个Operator。由于这些运算符的抽象粒度较低，所以一个真实的训练模型的数据流图往往会包括数千个节点，这些节点在GPU上的执行就会变成数千次GPU上的内核执行。

本公开实施例中，在运行计算任务前，对各个内核函数的内核执行参数都要进行调优操作，以优化内核执行参数。本步骤中，设备端检查各内核函数对应的内核执行参数的优化情况。具体的，可为每个内核函数分配一个调优标识，通过该调优标识的内容来标记内核函数是否已进行过调优。根据该调优标记的内容，即可确定哪些内核函数的内核执行参数是优化后的，哪些是未优化的。

如果所有内核执行参数均是已调优的，则设备端直接执行程序完成计算任务。

步骤102、设备端在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数，远端服务器接收设备端获取内核函数的优化后的内核执行参数的请求。

本步骤中，在发现未优化的内核执行参数的内核函数的情况下，设备端向云端等远端服务器平台请求内核函数的优化后的内核执行参数。

具体的，向所述远端服务器发送优化请求，在所述优化请求中至少携带以下信息中的任一或任意多项：

设备信息，计算内核信息，输入信息。

上述信息能够反应内核函数当前的执行环境，根据执行环境，可匹配得到优化后的内核执行参数。

步骤103、远端服务器根据所述请求，向所述设备端反馈所述内核执行参数的优化方案。

本步骤中，远端服务器根据设备端的请求，向设备端下发优化后的内核执行参数或调优任务作为优化方案，以使得设备端的全部内核函数的内核执行参数均得到优化。

步骤104、设备端接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数。

本步骤中，设备端根据接收到的优化方案，获取优化后的内核执行参数，完成对设备端上各内核函数有针对性的全面调优；上述步骤会反复执行，直到所有的内核执行参数均是已调优参数。

本公开的一示例性实施例还提供了一种内核运算方法，远端服务器在接收到设备端的请求后，向设备端反馈优化方案的流程如图2所示，包括：

步骤201、远端服务器根据所述优化请求，查找本地存储的优化后的内核执行参数。

本步骤中，远端服务器在接收到设备端发送的优化请求后，首先查找本地存储的优化后的内核执行参数，确定是否存在与优化请求匹配的优化后的内核执行参数。

步骤202、在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端反馈所述优化后的内核执行参数。

本步骤中，在本地存在相应的优化后的内核执行参数的情况下，直接将该内核执行参数返回。相应的，在设备端一侧，进行如步骤203的处理。

步骤203、设备端自所述优化方案中提取所述优化后的内核执行参数。

本步骤中，设备端自优化方案中提取内核执行参数，根据该内核执行参数完成对内核函数运行环境的配置，执行计算任务。

步骤204、在没有查找到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端和/或同类的其他设备端下发调优任务，供所述设备端和/或同类的所述其他设备端执行所述调优任务获取优化后的内核执行参数。

本步骤中，在远端服务器本地没有已存在的优化后的内核执行参数的情况下，需要下发调优任务，供设备端运行以得到优化后的内核执行参数。

不同的内核函数运行环境会影响内核函数的运算性能，如何选取最佳的参数组合的内核执行参数，即是调优任务的执行目标。通过运行调优任务，尝试不同的参数组合，即可获取内核函数对应的优化后的内核执行参数，实现调优。

本步骤中，在下发调优任务时，可向发出请求的设备端下发。也可从请求的设备端和与之同类的其他设备端中选择适合运行调优任务的设备端下发，具体的，根据各设备端的空余算力和所述调优任务所需的算力，在所述设备端和所述同类的其他设备端进行负载均衡，选择所述设备端或一个所述同类的其他设备端下发所述调优任务。

例如，在某个时刻针对某种设备端会存在n个调优任务，每个调优任务所需的算力是w，每个设备端的空余算力为p。则针对每个调优任务，将满足p>w的所有设备端按照各自的p值进行降序排列，选出排序第一(即空余算力最多)的设备端，将该调优任务分配给该设备端。同时更新该设备端的空余算力，来实现整体上的负载均衡。

对于被分配到调优任务的设备端，其对于调优任务的执行处理如步骤205所示。

步骤205、设备端执行所述调优任务，获取所述优化后的内核执行参数。

本步骤中，设备端执行调优任务，获取优化后的内核执行参数。如果是本设备端目前需要的内核执行参数，则依据该优化后的内核执行参数对内核函数的运行环境进行配置。

此外，还可将运行得到的优化后的内核执行参数返回给远端服务器，供其他同类设备端查找使用。

优选的，设备端会创建单独的线程用于执行调优任务。

步骤206、远端服务器接收并存储所述设备端和/或所述同类的其他设备端执行所述调优任务后获取的优化后的执行参数。

本步骤中，远端服务器在下发调优任务后，接收相应设备端返回的优化后的内核执行参数并保存，供后续其他设备端查询使用。

本公开的一示例性实施例还提供了一种内核运算优化装置，其结构如图3所示，包括：

优化情况检查模块301，用于在执行计算任务之前，检查各内核函数的内核执行参数是否为优化后的内核执行参数；

优化参数请求模块302，用于在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数；

参数获取模块303，用于接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数。

优选的，所述优化参数请求模块302的结构如图4所示，包括：

优化请求发送子模块401，用于向所述远端服务器发送优化请求，在所述优化请求中至少携带以下信息中的任一或任意多项：

设备信息，计算内核信息，输入信息。

优选的，所述优化方案包括所述优化后的内核执行参数，所述参数获取模块303的结构如图5所示，包括：

参数提取子模块501，用于自所述优化方案中提取所述优化后的内核执行参数。

优选的，所述优化方案包括调优任务，所述参数获取模块303还包括：

调优任务执行子模块502，用于执行所述调优任务，获取所述优化后的内核执行参数。

如图3至5所示的内核运算优化装置可集成于移动终端等设备端中，由设备端实现相应功能。

本公开的一示例性实施例还提供了一种内核运算优化装置，其结构如图6所示，包括：

请求接收模块601，用于接收设备端获取内核函数的优化后的内核执行参数的请求；

方案反馈模块602，用于根据所述请求，向所述设备端反馈所述内核执行参数的优化方案。

设备信息，计算内核信息，输入信息，

所述方案反馈模块602的结构如图7所示，包括：

本地参数查找子模块701，用于根据所述优化请求，查找本地存储的优化后的内核执行参数；

参数反馈子模块702，用于在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端反馈所述优化后的内核执行参数。

优选的，所述方案反馈模块602还包括：

调优任务下发子模块703，用于在没有查找到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端和/或同类的其他设备端下发调优任务，供所述设备端和/或同类的所述其他设备端执行所述调优任务获取优化后的内核执行参数。

优选的，所述调优任务下发子模块703，具体用于根据各设备端的空余算力和所述调优任务所需的算力，在所述设备端和所述同类的其他设备端进行负载均衡，选择所述设备端或一个所述同类的其他设备端下发所述调优任务。

优选的，该装置还包括：

存储模块603，用于接收并存储所述设备端和/或所述同类的其他设备端执行所述调优任务后获取的优化后的内核执行参数。

如图6和7所示的内核运算优化装置，可集成于如远程服务器等服务器端中，由服务器端实现相应功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的一示例性实施例还提供了一种内核运算优化系统，包括远程服务器和至少一个设备端；

关于上述实施例中的系统，其中各个设备的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的一示例性实施例还提供了一种计算机装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

优选的，所述处理器进一步被配置为执行本公开的实施例提供的一种内核运算优化方法，尤其是其中设备端所执行的方法步骤。

本公开的一示例性实施例还提供了一种服务器装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收设备端获取内核函数的优化后的内核执行参数的请求；

优选的，所述处理器进一步被配置为执行本公开的实施例提供的一种内核运算优化方法，尤其是其中服务器端所执行的方法步骤。

图8是根据一示例性实施例示出的一种用于内核运算的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种内核运算优化方法，所述方法包括：

优选的，所述方法包括本公开的实施例提供的一种内核运算优化方法，尤其是其中设备端所执行的方法步骤。

图9是根据一示例性实施例示出的一种用于内核运算优化的装置900的框图。例如，装置900可以被提供为一服务器。参照图9，装置900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述方法.

装置900还可以包括一个电源组件926被配置为执行装置900的电源管理，一个有线或无线网络接口950被配置为将装置900连接到网络，和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

接收设备端获取内核函数的优化后的内核执行参数的请求；

优选的，所述方法包括本公开的实施例提供的一种内核运算优化方法，尤其是其中服务器端所执行的方法步骤。

本公开的实施例提供了一种内核运算优化方法、装置及系统，在执行计算任务之前，设备端检查各内核函数的内核执行参数是否为优化后的内核执行参数，在发现有未优化内核执行参数的内核函数的情况下，向远端服务器请求所述内核函数的优化后的内核执行参数，由远程服务端根据所述请求，向所述设备端反馈优化方案；设备端依据远程服务器反馈的所述内核执行参数的优化方案，获取所述优化后的内核执行参数。基于远程服务器，实现了对不同类型的内核函数的优化，提供了具有普遍性的调优方案，保证了高运算效率，解决了一般的调优方案无法兼顾高性能和通用性的问题。

尤其在移动端GPU类并行计算场景下，使用本公开的实施例提供的技术方案能够针对各内核函数的输入大小和设备算力调整运行参数，实现了设备的高性能运算。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种内核运算优化方法，其特征在于，包括：

接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数；

所述向远端服务器请求所述内核函数的优化后的内核执行参数的步骤包括：

设备信息，计算内核信息，输入信息；

其中，所述内核执行参数按照下述方式获得：

所述远端服务器查找本地存储的优化后的内核执行参数；

在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向设备端反馈所述优化后的内核执行参数；

在没有查找到与所述优化请求匹配的优化后的内核执行参数的情况下，向设备端和/或同类的其他设备端下发调优任务，供所述设备端和/或同类的所述其他设备端执行所述调优任务获取优化后的内核执行参数。

2.根据权利要求1所述的内核运算优化方法，其特征在于，所述优化方案包括所述优化后的内核执行参数，所述接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数的步骤包括：

自所述优化方案中提取所述优化后的内核执行参数。

3.根据权利要求1所述的内核运算优化方法，其特征在于，所述优化方案包括调优任务，所述接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数的步骤包括：

执行所述调优任务，获取所述优化后的内核执行参数。

4.一种内核运算优化方法，其特征在于，包括：

接收设备端获取内核函数的优化后的内核执行参数的请求；

根据所述请求，向所述设备端反馈所述内核执行参数的优化方案；

所述请求包括优化请求，所述优化请求中至少携带以下信息中的任一或任意多项：

设备信息，计算内核信息，输入信息，

在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端反馈所述优化后的内核执行参数；

所述根据所述优化请求，查找本地存储的优化后的内核执行参数的步骤之后，还包括：

5.根据权利要求4所述的内核运算优化方法，其特征在于，在同时存在多个待向所述设备端下发的调优任务的情况下，所述向所述设备端和/或同类的其他设备端下发调优任务的步骤包括：

6.根据权利要求4所述的内核运算优化方法，其特征在于，所述向所述设备端和/或同类的其他设备端下发调优任务的步骤之后，还包括：

7.一种内核运算优化装置，其特征在于，包括：

参数获取模块，用于接收所述远端服务器反馈的所述内核执行参数的优化方案，根据所述优化方案获取所述优化后的内核执行参数；

所述优化参数请求模块包括：

设备信息，计算内核信息，输入信息；

其中，参数获取模块包括：

所述远端服务器查找本地存储的优化后的内核执行参数；

8.根据权利要求7所述的内核运算优化装置，其特征在于，所述优化方案包括所述优化后的内核执行参数，所述参数获取模块包括：

9.根据权利要求7所述的内核运算优化装置，其特征在于，所述优化方案包括调优任务，所述参数获取模块还包括：

10.一种内核运算优化装置，其特征在于，包括：

方案反馈模块，用于根据所述请求，向所述设备端反馈所述内核执行参数的优化方案；

设备信息，计算内核信息，输入信息，

所述方案反馈模块包括：

参数反馈子模块，用于在查找得到与所述优化请求匹配的优化后的内核执行参数的情况下，向所述设备端反馈所述优化后的内核执行参数；

所述方案反馈模块还包括：

11.根据权利要求10所述的内核运算优化装置，其特征在于，

所述调优任务下发子模块，用于根据各设备端的空余算力和所述调优任务所需的算力，在所述设备端和所述同类的其他设备端进行负载均衡，选择所述设备端或一个所述同类的其他设备端下发所述调优任务。

12.根据权利要求10所述的内核运算优化装置，其特征在于，该装置还包括：

13.一种内核运算优化系统，其特征在于，包括远程服务器和至少一个设备端；

所述远程服务器，用于接收设备端获取内核函数的优化后的内核执行参数的请求，根据所述请求，向所述设备端反馈所述内核执行参数的优化方案；

设备信息，计算内核信息，输入信息；

其中，所述内核执行参数按照下述方式获得：

所述远端服务器查找本地存储的优化后的内核执行参数；

14.一种计算机装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

设备信息，计算内核信息，输入信息；

其中，所述内核执行参数按照下述方式获得：

所述远端服务器查找本地存储的优化后的内核执行参数；

15.根据权利要求14所述的计算机装置，其特征在于，所述处理器进一步被配置为执行权利要求2－3的方法。

16.一种服务器装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收设备端获取内核函数的优化后的内核执行参数的请求；

设备信息，计算内核信息，输入信息，

17.根据权利要求16所述的服务器装置，其特征在于，所述处理器进一步被配置为执行5－6的方法。

18.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种内核运算优化方法，所述方法包括：

设备信息，计算内核信息，输入信息；

其中，所述内核执行参数按照下述方式获得：

所述远端服务器查找本地存储的优化后的内核执行参数；

19.根据权利要求18所述的非临时性计算机可读存储介质，所述方法还包括如权利要求2－3的步骤。

20.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种内核运算优化方法，所述方法包括：

接收设备端获取内核函数的优化后的内核执行参数的请求；

设备信息，计算内核信息，输入信息，

21.根据权利要求20所述的非临时性计算机可读存储介质，所述方法还包括权利要求4－6的步骤。