CN115964181A

CN115964181A - 一种数据处理的方法、装置、存储介质及电子设备

Info

Publication number: CN115964181A
Application number: CN202310247250.4A
Authority: CN
Inventors: 李勇; 赵来平; 黎杰; 程稳; 陈�光; 曾令仿
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-04-14
Anticipated expiration: 2043-03-10
Also published as: CN115964181B

Abstract

本说明书公开了一种数据处理的方法、装置、存储介质及电子设备。该数据处理的方法包括：获取各待处理数据，判断数据处理模型在当前处理进程下是否能够处理不少于设定数量的待处理数据，若否，调取所述数据处理模型在不同配置组合下的数据处理时间，针对每种配置组合下的数据处理时间，确定所述数据处理模型在该数据处理时间内能够处理的数据量，作为目标数据量，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程对所述待处理数据进行数据处理。

Description

一种数据处理的方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种数据处理的方法、装置、存储介质及电子设备。

背景技术

近年来，由于机器学习特别是深度学习算法的广泛应用，诸如物联网、移动应用后端等场景严重依赖于机器学习和深度学习模型的推理服务。而无服务器计算模式因其易用性，低成本，自动扩缩容等特点而被各大主流云服务提供商所支持并迅速推广。越来越多的工作开始构建基于无服务器平台的推理服务，由于目前的无服务器推理系统通常为内存密集型，其内存消耗的问题已经逐渐成为该项技术发展的瓶颈问题。

在数据处理的过程中，每有一个待处理数据，服务器就会生成相应的处理请求，对于每一个处理请求，服务器都会调用一个处理进程对其进行处理，而为了减少处理进程对服务器内存的占用，目前通常会对处理请求进行批处理，从而将多个请求合成一个较大的请求，以共享一个处理进程。然而，请求批处理会引入额外的请求排队时间，尤其是当服务器的配置较低时，往往无法进行请求的批处理，这种方法反而会提高数据处理过程的延时。

因此，如何在不增加数据处理过程的延时时间的前提下，减少对服务器内存资源的占用，是一个亟待解决的问题。

发明内容

本说明书提供一种数据处理的方法、装置、介质及设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种数据处理的方法，包括：

获取各待处理数据；

判断数据处理模型在当前处理进程下是否能够处理不少于设定数量的待处理数据，若否，调取所述数据处理模型在不同配置组合下的数据处理时间；

针对每种配置组合下的数据处理时间，确定所述数据处理模型在该数据处理时间内能够处理的数据量，作为目标数据量；

以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程；

根据创建的所述目标配置组合下的处理进程，对所述各待处理数据进行数据处理。

可选地，所述配置组合中包含有：中央处理器CPU个数、批处理大小、数据并行度以及各模型算子对应的参数张量的存储位置中的至少一种，所述参数张量的存储位置包括：本地内存节点以及远端内存节点。

可选地，调取所述数据处理模型在不同配置下的数据处理时间之前，所述方法还包括：

将不同的配置组合输入预设的性能预估模型，针对每种配置组合，通过所述性能预估模型确定所述数据处理模型中包含的各模型算子在该配置组合下对应的数据处理时间；

根据每个模型算子在该配置下对应的数据处理时间，确定所述数据处理模型在该配置组合下对应的数据处理时间。

可选地，所述方法还包括：

若所述数据处理模型包含有至少两个并行的线性网络，则确定每个线性网络在该配置组合下对应的数据处理时间；

将各线性网络在该配置组合下对应的数据处理时间的最大值作为所述数据处理模型在该配置组合下对应的数据处理时间。

可选地，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程，具体包括：

根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程；

判断创建所述目标配置组合下的处理进程后，所述数据处理模型是否能够处理不少于所述设定数量的待处理数据；

若否，则继续根据所述目标数据量，在除所述目标配置组合外的其他配置组合中，确定出下一目标配置组合，并创建所述下一目标配置组合下的处理进程，直至所述数据处理模型能够处理不少于所述设定数量的待处理数据。

针对每个目标配置组合，将该目标配置组合中各参数张量的存储位置均设为远端内存节点；

根据所述处理模型的实际目标数据量，将多余的处理进程进行删除。

可选地，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，具体包括：

针对每种配置组合，若该配置组合中各参数张量均存储在所述本地内存节点，确定该配置组合下所述数据处理模型对应的数据处理时间，作为第一处理时间；

针对每个参数张量，确定将该参数张量存储在所述远端内存节点时，所述数据处理模型对应的数据处理时间，作为第二处理时间；

根据所述第一处理时间以及所述第二处理时间，确定将该参数张量由存储在所述本地内存节点更改为存储在所述远点内存节点后，增加的数据处理时间，作为延迟上升时间；

根据该参数张量所占内存大小以及该参数张量对应的延时上升时间，确定该参数张量对应的贪心系数，并将贪心系数最高的参数张量作为允许进行远端访问的目标参数张量；

确定将所述目标参数张量存储在所述远端内存后，所述数据处理模型对应的数据处理时间，并确定此时的数据处理时间是否大于预设的服务质量约束时长；

若是，将所述目标参数张量存储在远端内存时的该配置组合作为目标配置组合。

可选地，所述延时上升时间与所述贪心系数呈负相关关系，该张量所占内存大小与所述贪心系数呈正相关关系。

可选地，所述方法还包括：

若将所述目标参数张量存储在所述远端内存后，所述数据处理时间小于所述服务质量约束时长，则继续确定下一个目标参数张量，直至所述数据处理时间大于所述服务质量约束时长。

可选地，根据创建的所述目标配置组合下的处理进程对所述各待处理数据进行数据处理，具体包括：

根据各处理进程对应的目标配置组合，确定每个处理进程对应的目标数据量；

根据每个处理进程对应的目标数据量，对所述各处理进程所需处理的待处理数据进行分配。

确定所述数据处理模型需要加载的参数张量；

针对每个参数张量，查询本地内存节点中是否存储有该参数张量；

若是，以内存映射的方式映射所述本地内存节点中的参数张量内存并加载所述参数张量，否则确定当前配置下所述参数张量是否被允许存储在远端内存节点；

若是，则当查询到所述远端内存节点中存储该参数张量后，以内存映射的方式映射所述远端内存节点中的参数张量内存并加载所述参数张量；

根据创建的各目标配置组合下的处理进程以及加载的各参数张量，对所述待处理数据进行数据处理。

可选地，所述方法还包括：

若当前配置组合下该参数张量不被允许存储在所述远端内存节点，则在本地内存中创建内存区域，并将该参数张量添加到所述内存区域对应的本地内存节点中。

可选地，所述方法还包括：

若确定当前配置组合下该参数张量允许存储在所述远端内存节点，但所述远端内存节点中未存储该参数张量，则在本地内存中创建内存区域，并将该参数张量添加到所述内存区域对应的本地内存节点中。

可选地，针对每个参数张量，查询所述本地内存节点中是否存储有该参数张量，具体包括：

针对每个参数张量，确定该参数张量对应的哈希值；

以所述哈希值为该参数张量对应的身份验证信息，访问所述本地内存节点，并查询所述本地内存节点中是否存储有该参数张量。

可选地，根据创建的所述目标配置组合下的处理进程，对所述各待处理数据进行数据处理，具体包括：

根据所述数据处理模型中包含的各处理进程，确定各参数张量对应的映射次数；

根据所述映射次数，确定各参数张量对应的引用计数；

针对每个参数张量，若在对所述待处理数据进行数据处理的过程中该参数张量对应的引用计数清零，则对该参数张量对应的张量内存进行回收。

可选地，创建所述目标配置组合下的处理进程，具体包括：

针对每个处理进程，根据该处理进程对应的内存大小以及CPU数量，筛选掉不满足该配置组合需求的服务器节点，并将剩余的服务器节点作为候选服务器节点；

针对每个候选服务器节点，确定该候选服务器节点上允许共享的最大内存；

根据各候选服务器节点上允许共享的最大内存，选取指定的服务器节点作为目标服务器节点，并将该处理进程调度到所述目标服务器节点。

可选地，所述方法应用于无服务器平台，所述本地内存节点以及所述远端内存节点为非统一内存访问NUMA内存上的内存节点。

本说明书提供了一种数据处理的装置，包括：

获取模块，获取各待处理数据；

调取模块，判断数据处理模型在当前处理进程下是否能够处理不少于设定数量的待处理数据，若否，调取所述数据处理模型在不同配置组合下的数据处理时间；

确定模块，针对每种配置组合下的数据处理时间，确定所述数据处理模型在该数据处理时间内能够处理的数据量，作为目标数据量；

创建模块，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程；

处理模块，根据创建的所述目标配置组合下的处理进程，对所述各待处理数据进行数据处理。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理的方法。

本说明书提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述数据处理的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的数据处理的方法中，服务器获取各待处理数据，判断数据处理模型在当前处理进程下是否能够处理不少于设定数量的待处理数据，若否，调取所述数据处理模型在不同配置组合下的数据处理时间，针对每种配置组合下的数据处理时间，确定所述数据处理模型在该数据处理时间内能够处理的数据量，作为目标数据量，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程对所述待处理数据进行数据处理。

从上述方法可以看出，本方案能够在数据处理过程中，当确定数据处理模型在当前处理进程下不能一次性处理所有待处理数据时，确定数据处理模型在不同配置组合下的目标数据量，进而选取出相应的目标配置来扩展出新的处理进程，从而保证在扩展出较少的处理进程的前提下，数据处理模型能够一次性将预设数量的待处理数据处理完成，在不增加数据处理过程的延时时间的前提下，减少对服务器内存资源的占用。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种数据处理的方法的流程示意图；

图2为本说明书中提供的一种访问NUMA内存节点产生的性能损耗示意图；

图3为本说明书提供的一种单服务器节点中的参数张量的映射方式示意图；

图4为本说明书中提供的一种数据处理系统的结构示意图；

图5为本说明书中提供的一种数据处理系统决策层的结构示意图；

图6为本说明书中提供的一种数据处理的装置示意图；

图7为本说明书提供的一种对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种数据处理的方法的流程示意图，包括以下步骤：

S101：获取待处理数据。

目前，当使用现有无服务器计算平台（如AWS Lambda）部署推理服务时，一来难以部署大模型，例如，AWS Lambda将函数的内存占用限制为≤10GB，而最近的MT-NLG语言模型甚至需要2TB的内存来加载其5300亿个参数。二来会造成巨大的内存浪费，如AWS Lambda的请求与函数的一对一映射策略，造成了函数实例（处理进程）之间运行时，库以及模型张量在内存中的大量的重复。而另一方面由于无服务器推理函数具有被触发频率低，执行时间短，在内存中的缓存时间长等特点，使得无服务器推理函数通常占用较少的系统CPU时间而占用大量的系统内存，使得优化无服务器推理系统的内存消耗显得尤为重要。

另一方面，当前数据中心大规模使用基于非一致性内存访问（Non-UniformMemory Access，NUMA）体系结构的服务器。在NUMA体系结构下，每个CPU Socket都有相对应的本地内存节点，且访问本地内存节点的速度要远大于访问远端内存节点。对于机器学习以及深度学习模型的数据处理任务来说，其执行过程中需要访问大量的模型参数，此时访问远端内存节点会造成推理延迟的大幅上升（访问NUMA内存节点产生的性能损耗如图2所示。

图2为本说明书中提供的一种访问NUMA内存节点产生的性能损耗示意图。

图中所示的NUMA内存节点1为本地内存节点，NUMA内存节点2为远端内存节点，在数据处理模型进行数据处理的过程中，其访问内存节点所产生的性能损耗（延时）会由于访问远端内存节点而增加。

因此，为了降低推理延迟，在NUMA体系结构下通常会将部署数据处理模型的容器绑定在单独的CPU Socket上，并且限制其只能访问本地内存节点，而这种限制也进一步加剧了系统的整体内存消耗。

为了减少对内存占用，现有的工作提出了运行时共享的方法以减少处理进程的运行时冗余，即通过进行请求的批处理或者增加处理进程的并行度等方式在同一个处理进程中同时执行多个请求，从而减少系统中处理进程的个数，进而降低对服务器内存的消耗。

然而无服务器推理系统中的张量内存存在大量的冗余问题。张量冗余通常是由于同一个数据处理模型的多个处理进程的横向扩展所造成的，这是由于同一个数据处理模型的多个处理进程都共享相同的模型参数，且由于普遍存在的预训练模型或迁移学习技术，大量不同的数据处理模型之间也会存在大量的张量冗余。而为了优化内存消耗，就必须消除内存中张量的冗余。

然而在NUMA体系结构下，减少处理进程的运行时冗余与张量冗余是困难的，其原因在于数据处理模型的参数张量在NUMA内存节点上的分布情况会极大影响模型的推理延迟。

例如，若将机器内存中的所有参数张量冗余都消除，而只在其中一个NUMA内存节点上保留一份副本，那么所有其他CPU Socket上部署的推理容器都会由于访问远端内存节点产生大幅的推理延迟上升，因此需要合理设计系统以在降低内存消耗的同时平衡由于访问NUMA内存节点所造成的性能损失，最终实现在保证用户延迟要求的前提下最小化系统中消耗的内存。

基于此，本说明书提供了一种数据处理的方法，其中，服务器需要获取待处理数据。

在本说明书中，该服务器可以是无服务器平台中的服务器，并且，服务器每接收到一个待处理数据，就会生成一个相应的处理请求，同时会在当前处理进程下通过数据处理模型对待处理数据进行数据处理。

在无服务器系统中，每一个处理请求服务器都会生成一个对应的函数实例，每个函数实例对应一个处理进程，并部署在服务器对应的容器当中。

需要说明的是，本说明书提到的无服务器系统是一种云原生开发模型，可使开发人员专注构建和运行应用，而无需管理服务器。无服务器系统中仍然有服务器，但它们已从应用开发中抽离了出来。云提供商负责置备、维护和扩展服务器基础架构等例行工作。开发人员可以简单地将代码打包到容器中进行部署。部署之后，无服务器系统即可响应用户的数据处理请求。

S102：判断数据处理模型在当前处理进程下是否能够处理不少于设定数量的待处理数据，若否，调取所述数据处理模型在不同配置组合下的数据处理时间。

在服务器通过数据处理模型进行数据处理的过程中，当负载上升时，部分待处理数据可能无法处理设定数量的待处理数据，需要排队进行等待，这无疑会增加数据处理的整体时间，因此，当服务器判断数据处理模型在当前处理进程下不能一次性处理设定数量的待处理数据（服务器当前不能执行设定数量的处理请求）时，服务器可以确定出不能被执行的处理请求，进而确定出剩余的不能被处理的待处理数据。

在本说明书中，上述设定数量可以为当前用户发送的全部待处理数据或全部处理请求，当然，也可以根据实际情况进行设定，本说明书对此不做具体限定。

在此过程中，服务器可以预先部署相应的性能预估模块，并通过该性能预估模块来确定数据处理模型在每种配置组合下对应的数据处理时间。

服务器可以通过性能预估模块调取数据处理模型在不同配置组合下的数据处理时间，具体的，由于数据处理模型是由多个计算单元组成的，每个计算单元即为一个算子（Operator，OP），对于每个算子来说，其执行时间受到分配中央处理器（CPU）个数、批处理大小、数据并行度以及所调用的参数张量的存储位置的影响，因此，上述配置组合中可以包含有：中央处理器（CPU）个数、批处理大小、数据并行度以及各模型算子对应的参数张量的存储位置等，其中，上述批处理大小可以为请求批处理大小，用于表征当前进程所允许处理的数据量。当然，还可以包含有分配给每个算子的内存容量，本说明书对此不做具体限定。

需要说明的是，对于需要输入参数张量的op来说，其执行时间会受到输入参数张量对应存储位置的影响，在本说明书中，该存储位置可以为参数张量在NUMA内存节点上的分布位置，包括NUMA的本地内存节点以及远端内存节点，在实际应用中，凡是需要算子跨节点访问的非本地NUMA节点都可以作为远端内存节点。

性能预估模块可以采用刻画的方法，对于每个算子都记录所有配置组合下的实际处理性能，由于算子的处理性能与其对应的数据处理时间相对应，所以，其处理性能也可以通过数据处理时间来进行表示。对于每个算子对应的处理性能，该算子对应的处理时间可以表示为，其中， c为分配的CPU的个数，b为批处理的大小（batch size），p为数据并行度的大小，L是一个布尔变量集合代表该op的每个输入参数张量是否存储在NUMA的远端内存节点，而f则代表了这些配置和处理时间之间的映射关系，实际f是通过刻画的方式得到的。

性能预估模块可以将不同的配置组合输入预先训练的性能预估模型，从而通过该性能预估模型确定数据处理模型中的各模型算子在该配置组合下对应的数据处理时间。

在此过程中，对于数据处理模型，服务器会通过性能预估模块会不断修改其配置，且对于每个包含输入参数张量的op都不断修改其输入参数张量的存储位置，并对于每个配置组合，都执行多次推理，并且记录下每个op的平均处理时间，最终得到所有配置组合下op的处理时间，从而得到该op的性能函数f，而性能刻画的输出便是数据处理模型中所有的性能模型。

需要说明的是，对于数据处理模型，配置是整个模型网络中所有与节点共享的，即整个数据处理模型中的每个模型算子都享有相同的CPU数量，批处理大小以及并行度大小。但是，由于每个算子所需的参数张量不同，所以每个算子对应参数张量的存储位置可能是不同的。因此，在服务器设置每个算子对应的参数张量的存储位置时，实际设置的是该算子输入的每个参数张量的存储位置是否存储在NUMA的远端内存节点上。

对于该数据处理模型不同的执行环境配置，以及每个参数张量的存储位置集合（各参数张量是否存储在远端内存节点），性能预估模块可以先计算每个节点输入的参数张量的存储位置，S集合与L集合的示例如图5所示，而后对于每个配置组合，针对每个op，服务器可以估算出在该配置组合下该op的处理时间，而后确定出整个数据处理模型的处理时间。

具体的，若该数据处理模型的模型结构为一个简单的线性网络，则该数据处理模型对应的处理时间可以为所有op的处理时间之和，即，而若该数据处理模型中包含有多个并行的线性网络分支，则其执行数据处理的过程可以认为是由多个线性网络并行执行，假设每个线性网络的执行时间为，那么服务器可以将所有线性网络推理时间的最大值作为整个数据处理模型对应的数据处理时间，即。

S103：根据所述数据处理时间，确定所述数据处理模型在不同配置组合下的数据吞吐量。

由于不同的配置组合下数据处理模型处理进程的性能也有所不同，为了保证降低数据处理延迟的同时，最小化数据处理过程中对服务器内存的消耗，当服务器负载上升时，服务器可以确定出当前不能被处理的待处理数据，并确定出需要扩展的处理进程以及每个处理进程对应的配置。为了使内存消耗最小化，服务器可以贪心的选择拥有最大吞吐量且满足数据吞吐量要求的配置组合，直到扩展出的实例的处理能力综合能够满足当前数据吞吐量的需求，即能够一次性处理当前的所有待处理数据。而当负载下降时，为了最小化内存消耗，服务器可以将数据吞吐量最小的部分处理进程进行释放。

其中，服务器可以预先部署相应的处理进程扩缩容模块，并通过该扩缩容模块来完成对处理进程的扩展以及对冗余的处理进程继续删除。

具体的，服务器可以先通过扩缩容模块确定数据处理模型无法处理的待处理数据对应的处理请求，扩缩容模块可以先根据每种配置组合下数据处理模型N对应的处理时间，进而根据该处理时间计算数据处理模型在该数据处理时间内能够处理的数据量，并将作为目标数据量。其中，。在实际应用中，该目标数据量可以等同于数据处理模型在该配置组合下的数据吞吐量。

S104：以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程。

S105：根据创建的所述目标配置组合下的处理进程，对所述各待处理数据进行数据处理。

在上述过程中，为了保证满足当前待处理数据对应处理请求的数据量的同时最小化内存的消耗，扩缩容模块可以首先就算出不同配置组合对应的目标数据量，接着每次选择目标数据量最大的配置组合作为目标配置组合，并创建该目标配置组合下的处理进程（函数实例），此时剩余的处理请求也会减少，而后服务器可以再选择下一个目标数据量最大的配置组合作为目标配置组合，并继续创建新的处理进程，直至数据处理模型在当前进程下能够一次性处理设定数量的待处理数据，服务器能够完成全部的处理请求。

换句话说，设数据处理模型无法处理的待处理数据的数据量为R，而每生成一个新的处理进程，R也会相应的减少，即，在此过程中会不断选择目标数据量最大的配置组合作为目标配置组合并扩展出新的处理进程，直至，说明数据处理模型在扩展后的处理进程下能够一次性处理设定数量的待处理数据，服务器能一次性的完成全部处理请求，此时扩展出的处理进程的数量是最少的。

需要说明的是，由于在此过程中扩缩容模块事先并不知道扩展出的处理进程会被调度到哪一个服务器节点，也不知道调度后的实例中的哪些op访问的是NUMA的远端内存节点，因此扩缩容模块可以假设数据处理模型中的至少部分节点访问远端内存节点，并在这样的假设下构建新的处理进程。

换句话说，若在数据处理模型的所有op都访问远端内存的情况下，新生成的处理进程能够完成全部处理请求，那么在实际执行实例调度（调度处理进程）时，即使将该处理进程中的部分或者全部算子都变更为访问远端内存节点，也不会造成数据处理过程中的性能损失，这样一来，在处理进程的调度过程中就会有更少的约束以及更大的决策控件，从而减少更多的内存损耗。关于处理进程的调度过程将在下文进行详细的描述，本说明书在此处不做过多赘述。

由于扩缩容模块在扩展处理进程的过程中会将所有配置组合中所有参数张量的存储位置均设为远端内存节点，而这种保守的方式会扩展出过多的实例，从而增加内存损耗，因此，当所有处理进程被调度到服务器节点以后，扩缩容模块可以根据各节点对存储位置的实际访问情况，删除掉冗余的处理进程从而节省内存。在实际应用中，冗余的处理进程可以为在数据处理过程中闲置的处理进程，在此过程中即使将其删除，服务器仍然能够一次性的完成所有的处理请求。

在实际应用中，用户通常会设置相应的服务质量约束时长，即限定服务器完成所有处理请求的延迟不能超过服务器的服务质量约束时长，因此，服务器在确定目标配置组合的过程中，会先确定出不满足要求的配置组合，这些不满足要求的配置组合会使，而后服务器可以通过扩缩容模块将这些不满足要求的配置组合进行过滤。

进一步的，若数据处理模型中所有op都访问远端内存节点时的数据处理时间，而所有op都访问本地内存节点时的数据处理时间为，可能会存在，而。因此对于产生上述情况的配置组合，服务器可以先将中的每个元素都设置成，即假设其所有的都访问本地内存节点。接着对于中的每个元素都分别尝试将其设置成true，即尝试将每个参数张量分别存储到远端内存节点，假设将中的张量存储到远端内存节点，计算由于将改变为存储在远端节点所造成的延迟上升时间，其中，表示将参数张量更改为存储在远端内存节点后数据处理模型整体的第二处理时间与原始情况下将其放在本地NUMA内存节点数据处理模型的第一处理时间的差值，即，这里的整体网络延迟上升时间可以通过调用性能预估模块获得，该性能预估模块将在下文进行详细的描述，在此处不做过多赘述。

接下来扩缩容模块可以计算参数张量的贪心系数，其中表示张量所占的内存大小。扩缩容模块可以每次选择最高的参数张量并将其作为允许进行远端访问的目标参数张量，即将S的第个元素设置为true，并重新计算整个数据处理模型的数据处理时间，重复上述步骤，直到，从而将目标参数张量存储在远端内存时的该配置组合作为目标配置组合。这样一来，服务器便可以通过设置网络中的部分节点访问远端内存，而另一些不访问远端内存在满足用户服务质量约束的前提下尽可能地减少内存消耗。

最后由于扩缩容模块对不同配置组合下数据处理模型处理时长计算的误差以及处理进程扩展过程中的保守策略，可能会导致系统扩展出过多的处理进程，进而造成较多的内存消耗。因此服务器可以通过扩缩容模块不断检查系统中处理进程的实际吞吐量（目标数据量），并将过剩的处理进程进行删除（每次删除实际吞吐量最少的）。

由于不同的处理进程的配置不同，导致其拥有不同的处理能力，所以当对处理请求进行负载均衡时，需要考虑到不同处理进程之间的差异，因此，服务器可预先部署相应的请求转发模块，通过该转发模块转发处理请求，并完成对处理请求的负载均衡。

请求转发模块可以使用加权随机的方法进行负载均衡，即给处理能力强的处理进程转发更多的处理请求，更多的处理请求下对应的待处理数据也相对较少，而给处理能力弱的处理进程转发相对较少的处理请求，较少的处理请求对应的待处理数据也就越少。

具体来说，对于每个处理进程，请求转发模块可以先尝试获取该处理进程的实际数据吞吐量（即服务器中真实记录的值），但是在实际应用中，可能存在处理进程之前没有被访问过的情况，所以实际吞吐量（目标数据量）可能获取不到。在实际目标数据量获取不到的情况下，请求转发模块可以先获取处理进程的实际配置，接着调用性能预估模块得到数据处理模型的数据处理时间，而据此便可以估算出处理进程中数据处理模型的目标数据量。

接着对于所有的处理进程，请求转发模块可以设置其或者为进行负载均衡的权重，最终执行加权随机的负载均衡策略。即处理进程对应的目标数据量越大，负载均衡的权重越大，为其分配的处理请求以及待处理数据也就越多，而目标数据量越小，负载均衡的权重也就越小，为其分配的处理请求以及待处理数据也就越少。

另外，为了解决张量冗余问题，服务器可以在对数据处理模型进行加载的过程中，服务器可以先遍历数据处理模型的计算图，确定数据处理模型对待处理数据的处理过程中需要加载的参数张量，并将这些参数张量加入待加载队列。

服务器可以预先设置并部署相应的模型加载模块，以通过该模型加载模块对数据处理模型需要调用的各参数张量进行加载。

而后服务器可以通过模型加载模块对待加载队列中的各参数张量进行随机化处理，以减少后续锁的竞争。对于待加载队列中的每个参数张量，模型加载模块可以先读取其在预先存储的模型文件中对应的哈希值。

模型加载模块可以根据各参数张量对应的哈希值为身份识别号（Identitydocument，ID），获取各参数张量对应的张量锁，其中，针对每个参数张量，若服务器中不存在该参数张量对应的张量锁，模型加载模块可以根据该参数张量对应的哈希值，创建该参数张量对应的张量锁。

与此同时，模型加载模块可以以该参数张量的哈希值为ID，访问预设的张量存储模块，查询本地内存节点的张量存储模块中是否已经存储有该参数张量，若是，模型加载模块可以以内存映射的方式映射本地内存节点中的参数张量内存并加载该参数张量，否则服务器可以以该参数张量的哈希值为ID，查询配置文件，确定当前配置下该参数张量是否被允许存储在远端内存。

若不允许，模型加载模块可以在本地的张量存储模块中创建相应的内存区域，并从模型文件中读取相应的参数值添加到该内存区域对应的内存节点中。

而若当前配置下该参数张量允许存储在远端内存，则依次在远端内存节点上的张量存储模块，确定远端内存节点中是否存储有该参数张量，若是，模型加载模块可以以内存映射的方式映射远端内存节点中的参数张量内存并加载该参数张量，否则在本地的张量存储模块中创建相应的内存区域，并从模型文件中读取相应的参数值添加到该内存区域对应的内存节点中。

在此过程中，每加载一个参数张量，模型加载模块即可释放该参数张量对应的张量锁，直到上述待加载队列中的每个参数张量被加载完成，模型加载模块可以根据新创建的各目标配置组合下的处理进程以及加载的各参数张量，对待处理数据进行数据处理。

需要说明的是，上述张量存储模块保存所有参数张量的内存（参数、常量等），且张量存储模块默认在服务器节点上的所有处理进程中共享。同一个服务器节点上的每个处理进程都可以访问张量存储模块中的参数张量。由于哈希值与处理模型的底层框架无关，因此，每个参数张量都是由一个哈希值唯一识别，该哈希值可以根据参数张量对应的内容和尺寸进行计算。

另外，每个参数张量也对应有一个相应的张量锁，以确保其构建、映射或回收的安全操作。张量存储模块最初是空的，不持有任何张量或锁。在系统运行过程中，模型加载模块在加载参数张量的过程中会不断向其中添加参数张量。每个参数张量在创建后都被赋予一个引用计数。每当模型加载模块向现有的参数张量添加一个新的映射，引用计数就会增加1。同样，每当一个处理进程完成后被释放，引用计数就会减少1。

而且，虽然参数张量存储模块默认被同一个服务器节点上的所有处理进程共享，但也支持为特定组合的处理进程（如属于同一租户的函数）设置其单独的张量存储模块，而不同的参数张量存储模块之间相互不可见。

由于一个服务器节点上会存在多个NUMA内存节点，服务器可以在每个NUMA内存节点上都创建一个张量存储模块，模型加载模块会在运行时决定将参数张量放到哪个张量存储模块中，而张量回收模块则保证了所有张量存储模块中的张量都被正确回收。

在对待处理数据进行数据处理的过中，由于同一个参数张量的内存可能被多个不同的处理进程同时调用，服务器可以在监测到参数张量的引用计数清0时将其进行回收。

其中，服务器在对参数张量进行加载的过程中，对现有的参数张量每添加一个新的映射，其引用计数就会加1，同样，每当一个调用该参数张量的进程执行完成后被释放，该参数张量对应的引用计数就会减1。因此，服务器可以根据数据处理模型中包含的各处理进程，确定各参数张量对应的映射次数，进而根据映射次数，确定各参数张量对应的引用计数。而后服务器可以针对每个参数张量，当监测到该参数张量对应的引用计数清0时，将该参数张量进行回收，并释放其占用的内存。

为了加速后续处理进程的创建，服务器可以对参数张量进行延迟回收，其中，针对每个参数张量，服务器可以在监测到该参数张量的计数清零后，在内存中保持预设时长后在对该参数张量进行回收，其中，该预设时长可以根据实际情况进行设定，本说明书对此不做具体限定。

另外，服务器也可以设置一个张量存储模块的存储上限值，当服务器监测到张量存储模块达到存储上限值后，服务器可以将未被使用时间最长的参数张量进行回收。

当然，服务器还可以按照每个参数张量过去一段时间访问频率的直方图动态确定每个张量在引用计数清零后在内存中保持的时间。

需要说明的是，服务器对参数张量进行回收的过程可以通过预先设置的张量回收模块来完成，每个服务器节点上都可以部署并运行一个张量回收模块的实例，这个张量回收模块实例会负责该服务器节点中所有NUMA内存节点上的张量存储模块中参数张量内存的回收。为了便于理解，本说明书提供了一种单服务器节点中的参数张量的映射方式示意图，如图3所示。

图3为本说明书提供的一种单服务器节点中的参数张量的映射方式示意图。

其中，一个服务器节点中有多个容器，每个容器对应一个函数实例（处理进程）张量存储模块可以将存储在NUMA内存节点中的数据处理模型的参数张量通过内存映射的方式映射到相应的容器中，另外，在数据处理的过程中，张量回收模块可以对引用计数为0的参数张量的内存进行回收。

由于同一个服务器节点上的所有处理进程可以相互共享参数张量，而不同服务器节点之间的处理进程不能共享，而且不同的进程调度到不同的服务器节点上能共享的参数张量比例不同，所以需要合适地选择处理进程的调度位置，以最小化系统的内存消耗。

具体的，服务器可以设置并部署相应的调度模块，在调度模块接收到调度新处理进程的请求后，调度模块会从请求中解码出需要调度的处理进程的配置组合（如CPU个数，并行度等），以及该处理进程所运行的数据处理模型中的每个参数张量是否允许进行远端NUMA内存访问，而后调度模块可以得到整个数据处理模型中可以进行远端NUMA内存共享的参数张量集合，另外服务器可以设该网络所有参数张量组成的集合为。

在执行调度时，调度模块会首先按照处理进程的内存和CPU需求筛选掉不满足需求的服务器节点。并将满足需求的剩余服务器节点作为候选服务器节点。针对每个候选服务器节点，由于该候选服务器节点上可能存在多个NUMA节点，服务器可以进一步筛选掉不满足资源要求的NUMA节点。

若一个候选服务器节点上有个满足条件的NUMA节点，这个NUMA节点上都有相应的张量存储模块，其中第个张量存储模块中的张量集合为。那么此时如果将处理进程调度到第个NUMA节点上的话，那么该处理进程在本地NUMA节点上可以共享的张量集合为，而该函数在远端内存节点上可以共享的张量集合可以表示为：

而该处理进程在该服务器节点上所能共享的所有张量集合则为：

此时服务器可以计算中所有张量的内存之和。对于所有的，服务器都可以计算出相应的内存之和那么该处理进程在当前服务器节点上所能共享的最大内存量可以表示为：

而后服务器可以计算出所有满足资源条件的服务器节点上的最大内存量，并将处理进程调度到拥有最大的内存量（）的服务器节点上相应的NUMA内存节点上。

在实际执行数据处理的过程中，服务器可以通过上述各个模块来构建出一个完整的数据处理系统，并通过该数据处理系统来完成对待处理数据的处理，为了便于理解，本说明书提供了一种数据处理系的结构示意图，如图4所示。

图4为本说明书中提供的一种数据处理系统的结构示意图。

其中，服务器中部署有开发者提交的数据处理模型，当用户发送数据处理请求后，服务器先通过请求转发模块进行负载均衡，以将处理请求分配给不同的处理进程进行处理，扩缩容模块会根据接收到的处理请求、性能预估模块得到的不同配置组合下的数据吞吐量，对处理进程进行扩展，而后通过调度模块，将扩展的处理进程（函数实例）调度到指定的服务器节点上，并将处理请求进转发。

另外需要说明的是，该数据处理系统中还设有相应的模型加载模块、张量回收模块以及张量存储模块（在图中均未示出），这些模块用于对数据处理模型需要调用的参数张量进行加载、在数据处理过程中对闲置的参数张量进行回收以及对参数张量进程存储。

就上述数据处理系统的整体而言，该系统可以分为两个层次，即决策层和执行层，决策目标旨在NUMA体系结构下以保证推理性能为前提通过内存共享减少系统整体内存消耗。对于每个处理进程而言，其先经过决策层以确定该函数实例的配置，如CPU，内存，批处理大小，并行度大小，数据处理模型包含的每个参数张量所在的内存位置（是否可以被放置在远端内存），函数实例被调度到特定服务器的特定NUMA内存节点等。而执行层则负责根据具体的配置进行处理进程的初始化和参数设置，并设置相应的参数张量内存映射关系。

决策层的组件包括模型推理模块和性能预估模块，扩缩容模块以及实例调度模块。而执行层的组件主要包括张量加载模块，张量存储模块，以及张量回收模块。为了便于理解，本说明书还提供了一种数据处理系统的决策层结构示意图，如图5所示。

图5为本说明书中提供的一种数据处理系统决策层的结构示意图。

其中，决策层的决策参数可以包含有配置组合中的不同配置，这些决策参数用于性能预估模块以及扩缩容模块等决策组件来运行时共享技术，而对于参数张量的节点分布以及对扩展出的处理进程被调度到的服务器节点和NUMA内存节点会作为调度模块运行张量共享技术的有关参数，整个决策层的目标装载于在在NUMA体系结构下以保证推理能力为前提通过内存共享减少系统整体的内存损耗。

需要说明的是，本说明书中所提到的待处理数据可以为图像数据、音频数据以及文本数据，相应的，对待处理数据进行数据处理的过程可以为对图像数据进行图像识别或图像分类，对音频数据进行声纹识别以及对文本数据进行文字提取或者语意识别等，当然，还可以包含有其他类型的待处理数据以及相应的数据处理方式，本说明书对此不做具体限定。

从上述方法可以看出，本方案能够在数据处理过程中，当确定数据处理模型在当前处理进程下不能一次性处理所有待处理数据时，确定数据处理模型在不同配置组合下的数据吞吐量，进而选取出相应的目标配置来扩展出新的处理进程，从而保证在扩展出较少的处理进程的前提下，数据处理模型能够一次性将所有待处理数据处理完成，在不增加数据处理过程的延时时间的前提下，减少对服务器内存资源的占用。

另外，本发明提出了请求批处理与增加处理进程的并行度相结合的运行时共享策略，并针对和结合张量NUMA内存节点分布设计了相应的性能预测以及动态扩缩容算法，在函数扩缩容时内存高效地为每个扩展出的处理进程设置相应的配置，同时设计了相应的针对非一致性函数实例的处理请求转发机制。而针对张量共享，本发明首先提出了相同服务器节点上多个NUMA内存结点间，函数实例间的安全轻量，且性能无感知的张量共享机制，使得多个处理进程之间可以透明地识别并共享相同张量参数的内存，并且由于不同的处理进程调度到不同的服务器节点和NUMA内存节点上共享的参数张量比例不同，本方案通过服务器节点调度的算法可以以充分减少集群级别的服务器节点对内存消耗。

相比于现有的工作，本方案具有显著的效果。本方案与现有最新的无服务器推理系统相比，降低了高达93%的内存占用，并增加30倍的函数部署密度。同时也可以保证数据处理模型的处理效率，并且加速超过90%的函数实例（处理进程）的创建时间，极大地加速了函数实例的冷启动以及扩缩容。

以上为本说明书的一个或多个实施数据处理的方法，基于同样的思路，本说明书还提供了相应的数据处理的装置，如图6所示。

图6为本说明书中提供的一种数据处理的装置示意图，包括：

获取模块601，用于获取各待处理数据；

调取模块602，用于判断数据处理模型在当前处理进程下是否能够处理不少于设定数量的待处理数据，若否，调取所述数据处理模型在不同配置组合下的数据处理时间；

确定模块603，用于针对每种配置组合下的数据处理时间，确定所述数据处理模型在该数据处理时间内能够处理的数据量，作为目标数据量；

创建模块604，用于以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程；

处理模块605，用于根据创建的所述目标配置组合下的处理进程，对所述各待处理数据进行数据处理。

可选地，调取所述数据处理模型在不同配置下的数据处理时间之前，所述调取模块602还用于，将不同的配置组合输入预设的性能预估模型，针对每种配置组合，通过所述性能预估模型确定所述数据处理模型中包含的各模型算子在该配置组合下对应的数据处理时间；根据每个模型算子在该配置下对应的数据处理时间，确定所述数据处理模型在该配置组合下对应的数据处理时间。

可选地，所述调取模块602还用于，若所述数据处理模型包含有至少两个并行的线性网络，则确定每个线性网络在该配置组合下对应的数据处理时间；将各线性网络在该配置组合下对应的数据处理时间的最大值作为所述数据处理模型在该配置组合下对应的数据处理时间。

可选地，所述创建模块604具体用于，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程；判断创建所述目标配置组合下的处理进程后，所述数据处理模型是否能够处理不少于所述设定数量的待处理数据；若否，则继续根据所述目标数据量，在除所述目标配置组合外的其他配置组合中，确定出下一目标配置组合，并创建所述下一目标配置组合下的处理进程，直至所述数据处理模型能够处理不少于所述设定数量的待处理数据。

可选地，所述创建模块604具体用于，针对每个目标配置组合，将该目标配置组合中各参数张量的存储位置均设为远端内存节点；根据所述处理模型的实际目标数据量，将多余的处理进程进行删除。

可选地，所述创建模块604具体用于，针对每种配置组合，若该配置组合中各参数张量均存储在所述本地内存节点，确定该配置组合下所述数据处理模型对应的数据处理时间，作为第一处理时间；针对每个参数张量，确定将该参数张量存储在所述远端内存节点时，所述数据处理模型对应的数据处理时间，作为第二处理时间；根据所述第一处理时间以及所述第二处理时间，确定将该参数张量由存储在所述本地内存节点更改为存储在所述远点内存节点后，增加的数据处理时间，作为延迟上升时间；根据该参数张量所占内存大小以及该参数张量对应的延时上升时间，确定该参数张量对应的贪心系数，并将贪心系数最高的参数张量作为允许进行远端访问的目标参数张量；确定将所述目标参数张量存储在所述远端内存后，所述数据处理模型对应的数据处理时间，并确定此时的数据处理时间是否大于预设的服务质量约束时长；若是，将所述目标参数张量存储在远端内存时的该配置组合作为目标配置组合。

可选地，所述创建模块604还用于，若将所述目标参数张量存储在所述远端内存后，所述数据处理时间小于所述服务质量约束时长，则继续确定下一个目标参数张量，直至所述数据处理时间大于所述服务质量约束时长。

可选地，所述处理模块605具体用于，根据各处理进程对应的目标配置组合，确定每个处理进程对应的目标数据量；根据每个处理进程对应的目标数据量，对所述各处理进程所需处理的待处理数据进行分配。

可选地，所述处理模块605具体用于，确定所述数据处理模型需要加载的参数张量；针对每个参数张量，查询本地内存节点中是否存储有该参数张量；若是，以内存映射的方式映射所述本地内存节点中的参数张量内存并加载所述参数张量，否则确定当前配置下所述参数张量是否被允许存储在远端内存节点；若是，则当查询到所述远端内存节点中存储该参数张量后，以内存映射的方式映射所述远端内存节点中的参数张量内存并加载所述参数张量；根据创建的各目标配置组合下的处理进程以及加载的各参数张量，对所述待处理数据进行数据处理。

可选地，所述处理模块605还用于，若当前配置组合下该参数张量不被允许存储在所述远端内存节点，则在本地内存中创建内存区域，并将该参数张量添加到所述内存区域对应的本地内存节点中。

可选地，所述处理模块605还用于，若确定当前配置组合下该参数张量允许存储在所述远端内存节点，但所述远端内存节点中未存储该参数张量，则在本地内存中创建内存区域，并将该参数张量添加到所述内存区域对应的本地内存节点中。

可选地，所述处理模块605还用于，针对每个参数张量，确定该参数张量对应的哈希值；以所述哈希值为该参数张量对应的身份验证信息，访问所述本地内存节点，并查询所述本地内存节点中是否存储有该参数张量。

可选地，所述处理模块605还用于，根据所述数据处理模型中包含的各处理进程，确定各参数张量对应的映射次数；根据所述映射次数，确定各参数张量对应的引用计数；针对每个参数张量，若在对所述待处理数据进行数据处理的过程中该参数张量对应的引用计数清零，则对该参数张量对应的张量内存进行回收。

可选地，所述创建模块604具体用于，针对每个处理进程，根据该处理进程对应的内存大小以及CPU数量，筛选掉不满足该配置组合需求的服务器节点，并将剩余的服务器节点作为候选服务器节点；针对每个候选服务器节点，确定该候选服务器节点上允许共享的最大内存；根据各候选服务器节点上允许共享的最大内存，选取指定的服务器节点作为目标服务器节点，并将该处理进程调度到所述目标服务器节点。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种数据处理的方法。

本说明书还提供了图7所示的一种对应于图1的电子设备的示意结构图。如图7所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的数据处理的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取各待处理数据；

2.如权利要求1所述的方法，其特征在于，所述配置组合中包含有：中央处理器CPU个数、批处理大小、数据并行度以及各模型算子对应的参数张量的存储位置中的至少一种，所述参数张量的存储位置包括：本地内存节点以及远端内存节点。

3.如权利要求2所述的方法，其特征在于，调取所述数据处理模型在不同配置下的数据处理时间之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程，具体包括：

6.如权利要求2所述的方法，其特征在于，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，并创建所述目标配置组合下的处理进程，具体包括：

7.如权利要求2所述的方法，其特征在于，以所述数据处理模型能够处理不少于设定数量的待处理数据为目标，根据所述目标数据量，从各配置组合中选取出目标配置组合，具体包括：

根据所述第一处理时间以及所述第二处理时间，确定将该参数张量由存储在所述本地内存节点更改为存储在所述远端内存节点后，增加的数据处理时间，作为延迟上升时间；

8.如权利要求7所述的方法，其特征在于，所述延时上升时间与所述贪心系数呈负相关关系，该张量所占内存大小与所述贪心系数呈正相关关系。

9.如权利要求7所述的方法，其特征在于，所述方法还包括：

10.如权利要求1所述的方法，其特征在于，根据创建的所述目标配置组合下的处理进程对所述各待处理数据进行数据处理，具体包括：

11.如权利要求1所述的方法，其特征在于，根据创建的所述目标配置组合下的处理进程对所述各待处理数据进行数据处理，具体包括：

确定所述数据处理模型需要加载的参数张量；

12.如权利要求11所述的方法，其特征在于，所述方法还包括：

13.如权利要求11所述的方法，其特征在于，所述方法还包括：

14.如权利要求11所述的方法，其特征在于，针对每个参数张量，查询所述本地内存节点中是否存储有该参数张量，具体包括：

针对每个参数张量，确定该参数张量对应的哈希值；

15.如权利要求11所述的方法，其特征在于，根据创建的所述目标配置组合下的处理进程，对所述各待处理数据进行数据处理，具体包括：

根据所述映射次数，确定各参数张量对应的引用计数；

16.如权利要求2所述的方法，其特征在于，创建所述目标配置组合下的处理进程，具体包括：

17.如权利要求2所述的方法，其特征在于，所述方法应用于无服务器平台，所述本地内存节点以及所述远端内存节点为非统一内存访问NUMA内存上的内存节点。

18.一种数据处理的装置，其特征在于，包括：

获取模块，获取各待处理数据；

19.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~17任一项所述的方法。

20.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~17任一项所述的方法。