CN109933429A

CN109933429A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN109933429A
Application number: CN201910165494.1A
Authority: CN
Inventors: 曹效伦
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-06-25

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质，该方法包括：在接收到目标客户端的数据处理请求后，为目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同；通过目标应用计算资源，对目标客户端的数据处理请求进行预处理，得到目标预处理数据；通过GPU对目标预处理数据进行处理，得到目标处理结果。将CPU逻辑划分为多个应用计算资源，不同应用计算资源处理不同客户端的数据处理请求，实现了不同客户端的数据处理请求的并行处理。CPU与GPU的程序进行并行化，隐藏了CPU的计算时间，消除GPU的闲置时间，增加GPU的有效计算的时间占比，提高了整体的推理服务的性能。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是数据处理方法、装置、电子设备及存储介质。

背景技术

随着机器学习技术的快速发展，深度学习技术在越来越多的业务场景中扮演了不可替代的角色。深度学习的计算量较大，随着需求量的增长，使用擅长并行计算的GPU(Graphics Processing Unit，图形处理器)作为计算设备是目前的主流方案。使用训练好的深度模型进行计算的过程被称为“推理”。为了使模型可以被更灵活的使用，先在一台配备了GPU的机器上启动加载了深度学习模型的程序，再通过客户端向其发送远程请求以获得计算结果，成为了深度学习的推理业务的普遍实现方式。

相关技术中，远程服务调用方式为RPC(Remote Procedure Call，远程过程调用)服务的过程包括：在服务端创建一个加载了深度学习模型的方法，等待客户端发送请求。在客户端上调用服务器中的方法，该方法的返回值即为深度学习的计算结果，服务器与客户端之间通过远程协议实现通信具体可以如图1所示。服务器在处理请求时(即深度学习的推理时)，第一步是对原始数据进行Pre-process(预处理)，第二步将预处理好的数据输入模型进行Inference(推理计算)，推理计算的速度决定了深度学习的性能。服务器中的特定方法接收到客户端发送来的原始数据后，先在CPU(Central Processing Unit，中央处理器)上进行预处理，再将处理好的数据拷贝到GPU的存储器中，由GPU读取并进行计算，计算完成后将结果拷贝回CPU，再返回给客户端完成服务。

然而在上述方法中，当一个客户端向服务器发起请求后，服务器即被该客户端所占用，在返回响应之前无法处理其他客户端的请求。由于数据的接收机发送均需要占用时间，使得服务器的CPU及GPU出现闲置，当客户端数量庞大时，服务器按顺序处理每个客户端的请求，处理效率低。

发明内容

本申请实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质，以实现增加服务器的数据处理效率。具体技术方案如下：

第一方面，本申请实施例提供了一种数据处理方法，应用于服务器，所述服务器包括中央处理器CPU及图形处理器GPU，所述CPU被逻辑划分为多个应用计算资源，每个所述应用计算资源包括至少一个进程或线程，所述方法包括：

在接收到目标客户端的数据处理请求后，为所述目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同；

通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据；

通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果。

可选的，在所述通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据之后，所述方法还包括：

将所述目标预处理数据存储到指定内存空间中；

利用所述GPU从所述指定内存空间中读取所述目标预处理数据。

可选的，所述利用所述GPU从所述指定内存空间中读取所述目标预处理数据，包括：

所述GPU获取所述目标预处理数据在所述指定内存空间中的相应指针；

所述GPU按照所述相应指针，从所述指定内存空间中读取所述目标预处理数据。

可选的，所述GPU被逻辑划分为单个或多个计算进程，所述方法还包括：

在所述GPU的计算进程中确定用于处理所述目标预处理数据的目标计算进程；

通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果，包括：

通过所述目标计算进程对所述目标预处理数据进行处理，得到所述目标处理结果。

可选的，在所述通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果之后，所述方法还包括：

将所述目标处理结果加入到所述目标客户端的返回消息队列中。

第二方面，本申请实施例提供了一种数据处理装置，位于服务器，所述服务器包括中央处理器CPU及图形处理器GPU，所述CPU被逻辑划分为多个应用计算资源，每个所述应用计算资源包括至少一个进程或线程，所述装置包括：

应用计算资源配置模块，被配置为在接收到目标客户端的数据处理请求后，为所述目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同；

CPU处理模块，被配置为通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据；

GPU处理模块，被配置为通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果。

可选的，本申请实施例的数据处理装置还包括：

数据存储模块，被配置为将所述目标预处理数据存储到指定内存空间中；

数据读取模块，被配置为利用所述GPU从所述指定内存空间中读取所述目标预处理数据。

可选的，所述数据读取模块，包括：

指针获取子模块，被配置为通过所述GPU获取所述目标预处理数据在所述指定内存空间中的相应指针；

数据获取子模块，被配置为通过所述GPU按照所述相应指针，从所述指定内存空间中读取所述目标预处理数据。

可选的，所述GPU被逻辑划分为单个或多个计算进程，所述装置还包括：

计算进程分配模块，被配置为在所述GPU的计算进程中确定用于处理所述目标预处理数据的目标计算进程；

所述GPU处理模块，具体用于：

可选的，本申请实施例的数据处理装置还包括：

结果返回准备模块，被配置为将所述目标处理结果加入到所述目标客户端的返回消息队列中。

第三方面，本申请实施例提供了一种电子设备，包括：

CPU与GPU；

用于存储CPU与GPU可执行指令的存储器；

其中，所述CPU被逻辑划分为多个应用计算资源，每个所述应用计算资源包括至少一个进程或线程，所述CPU被配置为：在接收到目标客户端的数据处理请求后，为所述目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同；通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据；

所述GPU被配置为：对所述目标预处理数据进行处理，得到目标处理结果。

可选的，所述CPU还可以执行：将所述目标预处理数据存储到指定内存空间中；

所述GPU还可以执行：从所述指定内存空间中读取所述目标预处理数据。

可选的，所述GPU从所述指定内存空间中读取所述目标预处理数据，包括：

可选的，所述GPU被逻辑划分为单个或多个计算进程，所GPU还可以执行：在所述GPU的计算进程中确定用于处理所述目标预处理数据的目标计算进程；

所述GPU具体用于执行：通过所述目标计算进程对所述目标预处理数据进行处理，得到目标处理结果。

可选的，所述GPU还可以执行：将所述目标处理结果加入到所述目标客户端的返回消息队列中。

第四方面，本申请实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的CPU与GPU执行时，使得服务器能够执行一种数据处理方法，所述方法包括：

将所述目标预处理数据存储到指定内存空间中；

所述GPU获取所述目标预处理数据在所述指定内存空间的相应指针；

所述通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果，包括：

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品在CPU及GPU上被执行时，实现上述第一方面任一所述的数据处理方法。

本申请的实施例提供的技术方案可以包括以下有益效果：将CPU逻辑划分为多个应用计算资源，不同应用计算资源处理不同客户端的数据处理请求，实现了不同客户端的数据处理请求的并行处理。CPU与GPU的程序进行并行化，隐藏了CPU处理时间，消除GPU的闲置时间，增加GPU的有效计算的时间占比，提高了整体的推理服务的性能。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中数据处理方法的一种示意图；

图2为本申请实施例的数据处理方法的第一种示意图；

图3为本申请实施例的数据处理方法的第二种示意图；

图4为本申请实施例的数据处理装置的一种示意图；

图5为本申请实施例的电子设备的第一种示意图；

图6为本申请实施例的电子设备的第二种示意图；

图7为本申请实施例的电子设备的第三种示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请实施例中的术语进行解释。

RPC(Remote Procedure Call，远程过程调用)，是一种通过网络向远程计算机程序发送请求并获得应答的通信技术。RPC跨越了传输层与应用层，采用服务器/客户端的模式，由服务器提供服务进程，客户机发送一个带有进程参数的调用信息到服务器的服务进程，并等待应答信息。

GPU(Graphics Processing Unit，图形处理器)，又称显示芯片，是一种专门在个人电脑，游戏机，移动设备等上进行绘图运算的处理器。因其具有数百或数千内核，适合并行大规模计算，被广泛用于数据分析，深度学习和机器学习算法的计算工作。

CPU(Central Processing Unit，中央处理器)，是计算机的主要设备之一，中负责解释计算机指令以及处理计算机软件中的数据。因其支持复杂的条件判断与丰富的数据类型，但缺乏并行计算能力，被广泛用于数据的预处理工作。

为了提高服务器的数据处理效率，本申请实施例提供了一种数据处理方法，应用于服务器，上述服务器包括CPU及GPU，上述CPU被逻辑划分为多个应用计算资源，每个上述应用计算资源包括至少一个线程或进程，各应用计算资源对应相互独立的CPU资源。参见图2，该方法包括：

S201，在接收到目标客户端的数据处理请求后，为上述目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同。

本申请实施例的数据处理方法应用于服务器，因此可以通过服务器实现。目标客户端为任一客户端，目标客户端向服务器发送数据处理请求，服务器在接收到目标客户端的数据处理请求后，为目标客户端分配一个应用计算资源，即目标应用计算资源。服务器可以同时处理多个客户端的数据处理请求，同一时刻各客户端的应用计算资源不同。针对多线程发送的数据处理请求，视为多个客户端的情况。

S202，通过上述目标应用计算资源，对上述目标客户端的数据处理请求进行预处理，得到目标预处理数据。

所述预处理包括一切作用在原始请求数据上的CPU端的操作，亦即输入GPU之前的对原始数据做的一切操作，皆被称为预处理。服务器利用目标应用计算资源，对目标客户端的数据处理请求进行预处理，得到目标预处理数据。针对多个客户端，服务器可以同时通过多个应用计算资源，分别处理不同的客户端的数据处理请求，得到各客户端的数据处理请求的预处理数据。

S203，通过上述GPU对上述目标预处理数据进行处理，得到目标处理结果。

服务器利用GPU对目标预处理数据进行处理，得到目标客户端的数据处理请求的目标处理结果。

在本申请实施例中，将CPU逻辑划分为多个应用计算资源，不同应用计算资源处理不同客户端的数据处理请求，实现了不同客户端的数据处理请求的并行处理。CPU与GPU的程序进行并行化，消除GPU的闲置时间，增加GPU的有效计算的时间占比，提高了整体的推理服务的性能。

可选的，在上述通过上述GPU对上述目标预处理数据进行处理，得到目标处理结果之后，上述方法还包括：

将上述目标处理结果加入到上述目标客户端的返回消息队列中。

不同的客户端对应不同的返回消息队列，将目标处理结果加入到目标客户端的返回消息队列中，后续服务器将目标处理结果发送给目标客户端。

可选的，在上述通过上述目标应用计算资源，对上述目标客户端的数据处理请求进行预处理，得到目标预处理数据之后，上述方法还包括：

步骤一，将上述目标预处理数据存储到指定内存空间中。

目标应用计算资源将目标预处理数据存储到指定内存空间中。

步骤二，利用上述GPU从上述指定内存空间中读取上述目标预处理数据。

在GPU检测到该指定内存空间中有处理好的目标预处理数据后，GPU从指定内存空间中读取目标预处理数据。

可选的，上述利用上述GPU从上述指定内存空间中读取上述目标预处理数据，包括：

步骤一，上述GPU获取上述目标预处理数据在上述指定内存空间中的相应指针。

指定内存空间的相应指针表征目标预处理数据在指定内存空间中的偏移地址，目标应用计算资源将指定内存空间的相应指针发送给GPU，GPU获取该相应指针。

步骤二，上述GPU按照上述相应指针，从上述指定内存空间中读取上述目标预处理数据。

在本申请实施例中，CPU与GPU进程间采用无内存拷贝的方式，使GPU进程可以尽可能地进行有效计算，提高了GPU的利用效率，提高服务器的效率。

可选的，上述GPU被逻辑划分为单个或多个计算进程，各计算进程对应相互独立的GPU资源，上述方法还包括：

在上述GPU的计算进程中确定用于处理上述目标预处理数据的目标计算进程。

上述通过上述GPU对上述目标预处理数据进行处理，得到目标处理结果，包括：

通过上述目标计算进程对上述目标预处理数据进行处理，得到目标处理结果。

在本申请实施例中，GPU可以逻辑划分为单个或多个计算进程，多个计算进程并行处理各预处理数据，以提高服务器的并行处理能力，从而进一步提高服务器的处理效率。

本申请实施例的数据处理方法还可以如图3所示。

服务器的CPU逻辑划分为多个应用计算资源，GPU逻辑划分为一个或多个计算进程。每个CPU应用计算资源称为一个“Worker”，分配相互独立的CPU资源执行预处理。每个GPU计算进程被称为一个“Predictor”，分配相互独立的GPU资源，负责对Worker预处理完的数据进行推理计算。

当一个客户端向服务器发起请求后，服务器分配一个Worker处理该客户端的请求，同时该客户端进入等待阶段。在此过程中如果有其他客户端发起请求，则分配其他Worker进行并行处理，因此可以大幅提高服务器对多客户端请求的处理能力。多线程发送的请求，本质上也属于多客户端的情况。

多个Worker对多个客户端的请求进行预处理，并将各自预处理好的数据放入指定内存空间。Predictor检测到该内存空间中有已与处理好的数据后进行推理计算。在客户端数量增多，数据处理请求数变大时，因为多个Worker并行预处理，指定内存空间中会一直有预处理数据，GPU可以持续从指定内存空间中取出预处理数据进行计算，消除了闲置时间，提高了GPU利用率，提高了深度学习的服务性能。

为了保证GPU利用率的最大化，在Predictor中传入存放预处理数据的内存空间的相应指针，使从Worker到GPU进程之间的数据传递不需要拷贝。Predictor进程可以最大限度的耗时在计算上，保证了GPU利用率可以接近理论水平。当GPU完成计算后，根据每个请求所属的客户端标识，将Predictor的处理结果放入对应的返回消息队列中，每个客户端都在其对应的返回消息队列中获取相应的处理结果，保证了数据的一致性。

本申请实施例的数据处理方法，在应对大量深度学习推理请求的场合，充分发挥了GPU的计算能力，大幅提高了深度学习推理的执行效率与服务性能。性能提升的程度依据预处理的数据量与深度学习模型的复杂度的不同而不同，表1中列举了几个Inception模型下的性能提升的实验数据。输入均为图片，性能通过每秒处理的图片数来衡量，可以看到本申请实施例的数据处理方法能够提高服务器深度学习远程服务的性能。

表1

本申请实施例的数据处理方法，不只是对深度学习，同样适用于其他需要使用GPU进行大规模计算的远程服务。将深度学习的远程服务进行并行化，改良了现有的远程服务方式，提高了对高并发请求的响应能力，胜任大量客户端发送请求的场景。将CPU与GPU的程序进行并行化，消除GPU的闲置时间，增加GPU的有效计算的时间占比，提高了整体的推理服务的性能。在CPU与GPU进程间的数据传输采用无内存拷贝的方式，使GPU进程可以尽可能地进行有效计算，提高了GPU的利用效率，将性能提高到理论水平。在不同的语言环境下与不同的GPU模型下，均获得了实现并且展示出优异的性能，可以推广到各类GPU远程服务中，具有良好的泛用性。

本申请实施例提供了一种数据处理装置，位于服务器，所述服务器包括中央处理器CPU及图形处理器GPU，所述CPU被逻辑划分为多个应用计算资源，每个所述应用资源包括至少一个进程或线程，参见图4，该装置包括：

应用计算资源配置模块401，被配置为在接收到目标客户端的数据处理请求后，为所述目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同；

CPU处理模块402，被配置为通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据；

GPU处理模块403，被配置为通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果。

可选的，本申请实施例的数据处理装置还包括：

可选的，所述数据读取模块，包括：

可选的，所述GPU被逻辑划分为单个或多个计算进程，本申请实施例的数据处理装置还包括：

所述GPU处理模块403，具体用于：

通过所述目标计算进程对所述目标预处理数据进行处理，得到目标处理结果。

可选的，本申请实施例的数据处理装置还包括：

本申请实施例还提供了一种电子设备，参见图5，包括：

CPU501与GPU502；

用于存储CPU与GPU可执行指令的存储器503；

其中，所述CPU501被逻辑划分为多个应用计算资源，每个所述应用资源包括至少一个进程或线程，所述CPU501被配置为：在接收到目标客户端的数据处理请求后，为所述目标客户端分配目标应用计算资源，其中，同一时刻不同客户端的应用计算资源不同；通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据；

所述GPU502被配置为：对所述目标预处理数据进行处理，得到目标处理结果。

可选的，所述CPU501还可以执行：将所述目标预处理数据存储到指定内存空间中；

所述GPU502还可以执行：从所述指定内存空间中读取所述目标预处理数据。

可选的，所述GPU502从所述指定内存空间中读取所述目标预处理数据，包括：

所述GPU502获取所述目标预处理数据在所述指定内存空间中的相应指针；

所述GPU502按照所述相应指针，从所述指定内存空间中读取所述目标预处理数据。

可选的，所述GPU502被逻辑划分为单个或多个计算进程，所GPU502还可以执行：在所述GPU的计算进程中确定用于处理所述目标预处理数据的目标计算进程；

所述GPU502具体用于执行：通过所述目标计算进程对所述目标预处理数据进行处理，得到目标处理结果。

可选的，所述GPU502还可以执行：将所述目标处理结果加入到所述目标客户端的返回消息队列中。

图6是根据一示例性实施例示出的电子设备1200的框图。例如，电子设备1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电力组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制电子设备1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括多个处理器1220(处理器1220包括CPU及GPU)来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在电子设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为电子设备1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述电子设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当电子设备1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为电子设备1200提供各个方面的状态评估。例如，传感器组件1214可以检测到电子设备1200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1200的显示器和小键盘，传感器组件1214还可以检测电子设备1200或电子设备1200一个组件的位置改变，用户与电子设备1200接触的存在或不存在，电子设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。

在示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是根据一示例性实施例示出的一种电子设备1300的框图。参照图7，电子设备1300包括处理组件1322(处理组件1322包括CPU及GPU)，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。

电子设备1300还可以包括一个电源组件1326被配置为执行电子设备1300的电源管理，一个有线或无线网络接口1350被配置为将电子设备1300连接到网络，和一个输入输出(I/O)接口1358。电子设备1300可以操作基于存储在存储器1332的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本申请实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的CPU与GPU执行时，使得服务器能够执行一种数据处理方法，所述方法包括：

将所述目标预处理数据存储到指定内存空间中；

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在在CPU及GPU上被执行时，能够执行一种数据处理方法，该方法包括：

将所述目标预处理数据存储到指定内存空间中；

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，应用于服务器，所述服务器包括中央处理器CPU及图形处理器GPU，所述CPU被逻辑划分为多个应用计算资源，每个所述应用计算资源包括至少一个进程或线程，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述通过所述目标应用计算资源，对所述目标客户端的数据处理请求进行预处理，得到目标预处理数据之后，所述方法还包括：

将所述目标预处理数据存储到指定内存空间中；

3.根据权利要求2所述的方法，其特征在于，所述利用所述GPU从所述指定内存空间中读取所述目标预处理数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述GPU被逻辑划分为单个或多个计算进程，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在所述通过所述GPU对所述目标预处理数据进行处理，得到目标处理结果之后，所述方法还包括：

6.一种数据处理装置，其特征在于，位于服务器，所述服务器包括中央处理器CPU及图形处理器GPU，所述CPU被逻辑划分为多个应用计算资源，每个所述应用计算资源包括至少一个进程或线程，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述数据读取模块，包括：

9.一种电子设备，其特征在于，包括：

CPU与GPU；

用于存储CPU与GPU可执行指令的存储器；

其中，所述CPU与所述GPU被配置为执行权利要求1-5中任一所述的数据处理方法。

10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的CPU与GPU执行时，使得服务器能够执行一种数据处理方法，其特征在于，所述方法包括：