CN115981870B

CN115981870B - 一种数据处理的方法、装置、存储介质及电子设备

Info

Publication number: CN115981870B
Application number: CN202310250917.6A
Authority: CN
Inventors: 刘振德; 张丽娜; 张吴越; 王彤; 刘鹏; 王维东
Original assignee: Zhejiang University ZJU; Zhejiang Lab
Current assignee: Zhejiang University ZJU; Zhejiang Lab
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-13
Anticipated expiration: 2043-03-10
Also published as: CN115981870A

Abstract

本说明书公开了一种数据处理的方法、装置、存储介质及电子设备。该数据处理的方法包括：获取初始处理模型，并确定初始处理模型中包含的各目标模型算子，针对每个目标模型算子，根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子，根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子，根据各融合算子确定优化后处理模型并部署，在接收到数据处理请求后，将获取到的待处理数据输入所述优化后处理模型，以通过所述优化后处理模型对所述待处理数据进行数据处理。

Description

一种数据处理的方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种数据处理的方法、装置、存储介质及电子设备。

背景技术

随着深度学习技术的不断发展，深度学习算法被广泛应用在诸如图像处理、自然语言处理、语音识别等领域。但是随着深度学习模型规模的不断地增大，其计算量、占用的空间以及内存访问量也随之快速地增加，远远超出了硬件的处理能力。这就需要对深度学习模型进行优化，以使其与硬件的处理能力相匹配。

然而，深度学习模型是由计算密集型算子和访存密集型算子组合而成的，随着计算架构的不断进化，访存效率成为深度学习模型训练和推理过程中的瓶颈。随着深度学习模型体量的增大，对内存的访存次数也会随之增加，而访存次数越多，所消耗的时间也就越长，从而降低整个模型的运算效率。

因此，如何有效减少模型对内存的访问次数，提高模型整体的运算效率，是一个亟待解决的问题。

发明内容

本说明书提供一种数据处理的方法、装置、介质及设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种数据处理的方法，包括：

获取初始处理模型，并确定所述初始处理模型中包含的各目标模型算子；

针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子；

根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子；

根据各融合算子确定优化后处理模型并部署，在接收到数据处理请求后，将获取到的待处理数据输入所述优化后处理模型，以通过所述优化后处理模型对所述待处理数据进行数据处理。

可选地，所述目标模型算子包括：归一化算子、激活算子、池化算子以及卷积算子中的至少一种。

可选地，针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子，具体包括：

根据执行所述归一化算子时涉及的对数据的均值和方差进行计算的处理步骤，确定所述归一化算子包含的均值方差算子，以及，根据确定出的均值和方差对所述数据进行归一化处理的处理步骤，确定所述归一化算子包含的子归一化算子；

将所述均值方差算子以及所述子归一化算子作为所述归一化算子的子模型算子。

根据执行所述池化算子时涉及的对数据进行行向池化处理的处理步骤，确定所述池化算子包含的行向池化算子，以及，根据对确定出的行向池化结果进行列向池化处理的处理步骤，确定所述池化算子包含的列向池化算子；

将所述行向池化算子以及所述列向池化算子作为所述池化算子的子模型算子。

可选地，根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子，具体包括：

将所述子归一化算子、所述激活算子以及所述行向池化算子进行融合，得到第一融合算子，以及，将所述列向池化算子、所述卷积算子以及所述均值方差算子进行融合，得到第二融合算子。

可选地，通过所述优化后处理模型对所述待处理数据进行数据处理，具体包括：

获取待处理数据；

将所述待处理数据输入所述优化后处理模型，通过所述第一融合算子，确定所述待处理数据对应的行向池化结果；

将所述行向池化结果输入所述第二融合算子，以通过所述第二融合算子确定所述待处理数据对应的数据处理结果。

可选地，获取待处理数据，具体包括：

从存储设备中读取预设数量的待处理数据，并将所述待处理数据存储在本地的缓存中。

可选地，将所述待处理数据输入所述优化后处理模型，通过所述第一融合算子，确定所述待处理数据对应的行向池化结果，具体包括：

确定所述待处理数据对应的均值和方差；

通过所述第一融合算子，根据所述均值和方差对所述待处理数据进行归一化处理，得到归一化数据；

通过指定的激活函数，对所述归一化数据进行激活处理，得到激活后数据；

对所述激活后数据进行行向池化处理，得到所述待处理数据对应的行向池化结果。

可选地，对所述激活后数据进行行向池化处理，得到所述待处理数据对应的行向池化结果，具体包括：

针对所述激活后数据的每一步行向池化，若该步行向池化对应的部分激活后数据已经在上一步行向池化时进行过池化，则根据上一步所述部分激活后数据进行行向池化的池化结果，确定该步行向池化对应的行向池化结果。

可选地，将所述行向池化结果输入所述第二融合算子，以通过所述第二融合算子确定所述待处理数据对应的数据处理结果，具体包括：

通过所述第二融合算子，对所述行向池化结果进行列向池化处理，得到列向池化结果；

对所述列向池化结果进行卷积计算，得到所述待处理数据对应的数据处理结果。

可选地，通过所述第二融合算子，对所述行向池化结果进行列向池化处理，得到列向池化结果，具体包括：

针对所述行向池化结果的每一步列向池化，若该步列向池化对应的部分行向池化结果已经在上一步列向池化时进行过池化，则根据上一步对所述部分行向池化结果进行列向池化的池化结果，确定该步列向池化对应的列向池化结果。

可选地，所述方法还包括：

通过所述第二融合算子，对所述列向池化结果进行至少一轮卷积计算；

针对每轮卷积计算，根据该轮卷积计算对应的卷积结果，确定该轮卷积计算对应卷积结果的均值以及方差，作为局部均值和局部方差；

根据每轮卷积计算对应的卷积结果，确定所述待处理数据对应的数据处理结果，以及，根据每轮卷积计算对应的局部均值和局部方差，确定所述待处理数据对应的全局均值和全局方差，以将所述全局均值和所述全局方差作为下一个归一化算子或第一融合算子的输入。

本说明书提供一种数据处理的装置，包括：

获取模块，获取初始处理模型，并确定所述初始处理模型中包含的各目标模型算子；

拆分模块，针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子；

融合模块，根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子；

处理模块，根据各融合算子确定优化后处理模型并部署，在接收到数据处理请求后，将获取到的待处理数据输入所述优化后处理模型，以通过所述优化后处理模型对所述待处理数据进行数据处理。

可选地，所述拆分模块具体用于，根据执行所述归一化算子时涉及的对数据的均值和方差进行计算的处理步骤，确定所述归一化算子包含的均值方差算子，以及，根据确定出的均值和方差对所述数据进行归一化处理的处理步骤，确定所述归一化算子包含的子归一化算子；将所述均值方差算子以及所述子归一化算子作为所述归一化算子的子模型算子。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理的方法。

本说明书提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述数据处理的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的数据处理的方法中，服务器会获取初始处理模型，并确定初始处理模型中包含的各目标模型算子，针对每个目标模型算子，根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子，根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子，根据各融合算子确定优化后处理模型并部署，在接收到数据处理请求后，将获取到的待处理数据输入所述优化后处理模型，以通过所述优化后处理模型对所述待处理数据进行数据处理。

从上述方法可以看出，本方案能够将初始处理模型中的模型算子进行拆分，并将拆分后得到的子模型算子与未被拆分的模型算子进行融合，从而得到较少的融合模型算子，相比于目前的方法，本方案能够有效的减少模型算子的数量，从而降低模型对内存的访问次数，进一步提高模型的运算效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种数据处理的方法的流程示意图；

图2为本说明书中提供的一种目标模型算子的拆分过程示意图；

图3为本说明书中提供的一种数据处理的流程示意图；

图4为本说明书中提供的一种数据处理的装置示意图；

图5为本说明书提供的一种对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种模型训练的方法的流程示意图，包括以下步骤：

S101：获取初始处理模型，并确定所述初始处理模型中包含的各目标模型算子。

通常情况下，应用于图像处理、自然语言处理、语音识别等领域的深度学习模型由归一化层、激活层、池化层、卷积层等多个网络层构成。在进行数据处理的过程中，深度学习模型会以原始数据（如图像数据、音频数据、文本数据等）作为输入，先通过归一化层进行归一化（Normalization）处理，而后经过激活层，通过诸如Relu，LeakyRelu等激活函数进行激活（Act），并通过池化层对激活结果进行池化（Pooling），最后再通过卷积层对池化结果进行卷积运算（Convolution），其中，每个网络层即可对应为一个模型算子，并且卷积算子为计算密集型算子，通常会被转化为矩阵乘法的形式，使用处理计算密集型的加速卡来加速计算。

在实际应用中，由于内部存储器（片内存储器）的存储空间有限，因此在每一个模型算子执行运算后，都会将运算结果存储在外部存储器（片外存储器）中，下一个模型算子需要对片外存储器中存储的上一运算结果进行读取，才能进行下一步的运算。这就会导致深度学习模型中的多个模型算子需要消耗大量的时间访问片外存储器，以对其中的数据进行存储和读取，严重拖慢了整个模型的运算效率。

基于此，本说明书提供了一种数据处理的方法，其中，服务器需要获取初始处理模型，并确定初始处理模型中包含的各目标模型算子。该初始处理模型可以为预先经过训练的深度学习模型，各目标模型算子可以为上述各网络层对应的模型算子，包括：归一化层对应的归一化算子，激活层对应的激活算子，池化层对应的池化算子以及卷积层对应的卷积算子，当然，还可以包含其他网络层对应的模型算子，如分类层对应的分类算子以及特征提取层对应的特征提取算子等，本说明书对此不做具体限定。

其中，由于归一化操作的输入和输出之间的关系为一一对应的关系，激活操作的输入与输出结果之间的关系也为一一对应的关系，所以归一化算子以及激活算子为一对一（One-to-One）型算子。而由于池化操作的输入和输出间的关系并不是一一对应的，卷积操作的输入与输出间的关系也不是一一对应的，所以池化算子以及卷积算子为多对多（Many-to-Many）型算子。

需要说明的是，本说明书提供的数据处理方法可以用于对图像数据、文本数据、视频数据以及音频数据等不同类型的数据的数据处理，相应的，初始处理模型的类型可以包括图像处理（如图像识别、图像分类等）模型，文本处理模型（如自然语言处理，语义识别等）模型，视频处理模型以及音频处理（如语音识别）模型等，本说明书对此不做具体限定。

在本说明书中，用于实现数据处理的方法的执行主体，可以指服务器等设置于业务平台的指定设备，为了便于描述，本说明书仅以服务器是执行主体为例，对本说明书提供的一种数据处理的方法进行说明。

S102：针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子。

在初始处理模型中，存在部分目标模型算子在执行的过程中涉及到多个处理步骤，例如，对于归一化算子，在执行时会涉及对当前输入的待处理数据的均值和方差进行计算的处理步骤，以及根据计算出的方差和均值进行批归一化处理的处理步骤，而执行池化算子时涉及以行优先的方式读取数据并对数据进行行向池化的步骤，以及以列优先的方式读取行向池化结果并对行向池化结果进行列向池化的步骤。

因此，服务器可以根据归一化算子对数据的均值和方差进行计算的处理步骤，确定归一化算子包含的均值方差算子，以及，根据确定出的均值和方差对所述数据进行归一化处理的处理步骤，确定归一化算子包含的子归一化算子，进而将均值方差算子以及子归一化算子作为归一化算子的子模型算子。

此外，服务器还可以根据执行池化算子时涉及的对数据进行行向池化处理的处理步骤，确定归一化算子包含的行向池化算子，以及，根据对确定出的行向池化结果进行列向池化处理的处理步骤，确定归一化算子包含的列向池化算子，进而将行向池化算子以及列向池化算子作为池化算子的子模型算子。

而由于激活算子和卷积算子只包含有一个处理步骤，所以服务器可以不对这两个目标模型算子进行拆分，作为未被拆分的目标模型算子。为了便于理解，本说明书提供了一种目标模型算子的拆分过程示意图，如图2所示。

图2为本说明书中提供的一种目标模型算子的拆分过程示意图。

其中，服务器可以将初始处理模型中的归一化算子拆分为均值方差算子和子归一化算子这两个子模型算子，将池化算子拆分为行向池化算子和列向池化算子两个子模型算子，而对于激活算子和卷积算子这两个目标模型算子则不进行拆分。

S103：根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子。

在本说明书中，各目标算子对应的计算顺序可以用于表示通过将一个模型算子输出的结果作为参数输入到另一个算子中所形成的数据处理路径，以上述各子模型算子和未被拆分的目标模型算子为例，这些模型算子之间的计算顺序可以依次为：均值方差算子、子归一化算子、激活算子、行向池化算子、列向池化算子、卷积算子，需要说明的是，由于处理模型中存在有部分位于模型中间的均值方差算子，需要以上一个卷积算子的卷积计算结果作为输入，所以该均值方差算子也可以认为与卷积算子之间具有相邻的计算顺序，即先执行卷积算子的计算，再执行均值方差算子的计算。

具体的，服务器可以将子归一化算子、激活算子以及行向池化算子进行融合，得到第一融合算子，以及，将列向池化算子、卷积算子以及所述均值方差算子进行融合，得到第二融合算子。

需要说明的是，服务器确定出融合算子的数量可以少于目标模型算子的数量，才能有效的减少处理模型对内存的访问次数。以上述目标模型算子为例，当处理模型中有四个目标模型算子时，融合后会得到两个模型算子，从而有效减少数据的访问次数。

当然，服务器也可以按照上述计算顺序，将各子模型算子以及未被拆分的目标模型算子融合为一个模型算子。

S104：根据各融合算子确定优化后处理模型并部署，在接收到数据处理请求后，将获取到的待处理数据输入所述优化后处理模型，以通过所述优化后处理模型对所述待处理数据进行数据处理。

确定第一融合算子和第二融合算子后，服务器可以根据该第一融合算子和第二融合算子确定出优化后处理模型并将其进行部署，从而通过该优化后处理模型对待处理数据进行数据处理。

具体的，服务器可以根据预设的批归一化参数（如每批次的待处理数据数量），从存储设备中读取预设数量的待处理数据，并将待处理数据存储在本地的缓存中。其中，该存储设备可以为片外存储设备。

而后服务器可以将待处理数据输入上述优化后处理模型，通过优化后处理模型第一融合算子，确定待处理数据经过第一融合算子计算后的结果（即行向池化结果），并将该行向池化结果存储在存储设备中。

而后第二融合算子可以从存储设备中读取上述行向池化结果并作为输入，以确定待处理数据对应的数据处理结果。

进一步的，当将待处理数输入第一融合算子时，还需要确定待处理数据对应的均值和方差，其中，当该第一融合算子为待处理数据输入模型后的第一个算子时，服务器可以先通过独立的均值方差算子，确定待处理数据对应的均值和方差，而若待处理数据为经过其他的第二融合算子的处理后的数据，则可以根据上述其他第二融合算子输入的均值和方差作为待处理数据对应的均值和方差。

而后服务器可以以行优先的方式读取该批次待处理数据中的一行或多行数据，并将这部分待处理数据通过第一融合算子进行归一化处理，得到归一化数据，而后通过指定的激活函数，对归一化数据进行激活处理，得到激活后数据。

其中，针对激活后数据的每一步行向池化，向量宽度等于池化宽度的整数倍，服务器可以通过诸如单指令多数据流(Single Instruction Multiple Data，SIMD)或单指令多线程（Single Instruction Multiple Threads，SIMT）等向量组织方法，对融合算子需要处理的数据进行向量化处理，在向量化处理的过程中，向量内元素是内存中连续保存的行向数据，对该向量内元素并行进行归一化和激活，然后对结果向量做行向池化，从而得到待处理数据对应的行向池化结果。

若该步行向池化对应的部分激活后数据已经在上一步行向池化时进行过池化，则根据上一步该部分激活后数据进行行向池化的池化结果，确定该步行向池化对应的行向池化结果，直至完成全部行向池化处理，得到行向池化结果。

换句话说，如果行向池化操作的步长（stride）小于行向池化的池化宽度，则（行向池化宽度－步长）*行向池化高度的数据不需要重新进行池化计算，可复用上一步行向池化的结果，减少数据的访问。

需要说明的是，在通过第一融合算子获得待处理数据对应的行向池化结果的过程中，每一处理步骤对应的处理结果都不需要存储在存储设备中，当其中一个处理步骤执行结束后，其对应的处理结果会直接交给下一处理步骤进行计算，直至计算出待处理数据对应的行向池化结果。

而后服务器可以将第一融合算子输出的行向池化结果输入第二融合算子，通过第二融合算子，以列优先的读取方式，读取该待处理数据对应的行向池化结果，读取数据的大小可以为卷积核高*卷积核宽*池化高度*n (n为正整数，由缓存大小和卷积加速卡来决定。而后服务器可以通过SIMD或SIMT向量化对行向池化结果进行列向池化计算，从而得到列向池化结果，作为目标数据，进而对目标数据进行卷积计算，得到待处理数据对应的数据处理结果。

其中，针对行向池化结果的每一步列向池化，若该步列向池化对应的部分行向池化结果已经在上一步列向池化时进行过池化，则根据上一步对部分行向池化结果进行列向池化的池化结果，确定该步列向池化对应的列向池化结果，直至完成全部列向池化处理，得到目标数据。

换句话说，如果列向池化操作的步长（stride）小于列向池化的池化高度，则（列向池化宽度－步长）*n的数据不需要重新进行池化计算，可复用上一步列向池化的结果，减少数据访问。

在实际应用中，对数据进行池化处理的方式可以有多种，如最大池化处理、平均池化处理等，因此，不同的类型的池化处理方式对应的目标数据也可以是不同的，若是最大池化处理则是计算列向最大值后得到的目标数据，如果是平均池化则计算列向平均值后的到的目标数据。

在对列向池化结果（目标数据）进行卷积计算的过程中，服务器可以通过第二融合算子对目标数据进行至少一轮卷积计算，在完成所有卷积计算后，服务器可以确定出待处理数据对应的数据处理结果，并根据该数据处理结果进行诸如图像识别、图像分类、图像处理、自然语言识别、音频识别等业务。

例如，服务器可以将获取到的图像数据作为待处理数据，并将该图像数据输入部署好的优化后处理模型，从而通过该部署好的优化后处理模型对该图像数据进行图像识别，从而得到图像识别结果。

再例如，服务器可以将获取到的文本数据作为待处理数据，并将该文本数据输入部署好的优化后处理模型，从而通过该部署好的优化后处理模型对该文本数据进行文本识别，从而得到文本识别结果（如文本数据的语意信息、关键词等）。

进一步的，针对每轮卷积计算，服务器可以根据该轮卷积计算对应的卷积结果，确定该轮卷积计算对应卷积结果的均值以及方差，作为局部均值和局部方差，该局部均值可以通过如下公式进行表示：

其中，

为该轮次卷积结果对应的局部均值，/>

为该轮次卷积的目标数据，n为该轮次目标数据的数量。

上述局部方差可以通过如下公式进行表示：

其中，

为该轮次卷积结果对应的局部方差。

而后服务器可以通过第二融合算子计算完成全部卷积计算得到卷积结果（待处理数据的数据处理结果）的全局均值和全局方差，该全局均值可以通过如下公式进行表示：

其中，

为待处理数据的数据处理结果对应的全局均值。/>

上述全局方差可以通过如下公式进行表示：

其中，

为待处理数据的数据处理结果对应的全局方差。

若该第二融合算子的下游模块仍为归一化算子或第一融合算子，则服务器可以将该全局均值、全局方差以及第二融合算子输出的卷积结果直接作为下一个第一融合算子的输入，而若下游模块不为第一融合算子，则服务可以只将该第二融合算子输出的卷积结果作为下游模块的输入。

为了便于理解，本说明书提供了一种数据处理的过程示意图，如图3所示。

图3为本说明书中提供的一种数据处理的流程示意图。

其中，服务器需要先读取待处理数据，并确定待处理数据的均值和方差，该均值和方差可以是由上一个第二融合算子计算得到的，而后将该均值、方差和待处理数据输入融合有子归一化算子、激活算子、行向池化算子的第一融合算子，依次对待处理数据进行归一化、激活以及行向池化处理，从而得到待处理数据对应的行向池化结果，并存储在存储设备中。

融合有列向池化算子、卷积算子以及均值方差算子的第二融合算子可以从存储设备中读取上述行向池化结果，依次对行向池化结果进行列向池化、卷积处理并计算卷积结果的均值和方差。而后可以将卷积结果作为待处理数据对应的数据处理结果，作为下游模块的输入，将根据卷积结果计算出的全局均值和全局方差作为下一个第一融合算子的输入。

以上为本说明书的一个或多个实施数据处理的方法，基于同样的思路，本说明书还提供了相应的数据处理的装置，如图4所示。

图4为本说明书中提供的一种数据处理的装置示意图，包括：

获取模块401，用于获取初始处理模型，并确定所述初始处理模型中包含的各目标模型算子；

拆分模块402，用于针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子；

融合模块403，用于根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子；

处理模块404，用于根据各融合算子确定优化后处理模型并部署，在接收到数据处理请求后，将获取到的待处理数据输入所述优化后处理模型，以通过所述优化后处理模型对所述待处理数据进行数据处理。

可选地，所述拆分模块402具体用于，根据执行所述归一化算子时涉及的对数据的均值和方差进行计算的处理步骤，确定所述归一化算子包含的均值方差算子，以及，根据确定出的均值和方差对所述数据进行归一化处理的处理步骤，确定所述归一化算子包含的子归一化算子；将所述均值方差算子以及所述子归一化算子作为所述归一化算子的子模型算子。

可选地，所述拆分模块402具体用于，根据执行所述池化算子时涉及的对数据进行行向池化处理的处理步骤，确定所述池化算子包含的行向池化算子，以及，根据对确定出的行向池化结果进行列向池化处理的处理步骤，确定所述池化算子包含的列向池化算子；将所述行向池化算子以及所述列向池化算子作为所述池化算子的子模型算子。

可选地，所述融合模块403具体用于，将所述子归一化算子、所述激活算子以及所述行向池化算子进行融合，得到第一融合算子，以及，将所述列向池化算子、所述卷积算子以及所述均值方差算子进行融合，得到第二融合算子。

可选地，所述处理模块404具体用于，获取待处理数据；将所述待处理数据输入所述优化后处理模型，通过所述第一融合算子，确定所述待处理数据对应的行向池化结果；将所述行向池化结果输入所述第二融合算子，以通过所述第二融合算子确定所述待处理数据对应的数据处理结果。

可选地，所述处理模块404具体用于，从存储设备中读取预设数量的待处理数据，并将所述待处理数据存储在本地的缓存中。

可选地，所述处理模块404具体用于，确定所述待处理数据对应的均值和方差；通过所述第一融合算子，根据所述均值和方差对所述待处理数据进行归一化处理，得到归一化数据；通过指定的激活函数，对所述归一化数据进行激活处理，得到激活后数据；对所述激活后数据进行行向池化处理，得到所述待处理数据对应的行向池化结果。

可选地，所述处理模块404具体用于，针对所述激活后数据的每一步行向池化，若该步行向池化对应的部分激活后数据已经在上一步行向池化时进行过池化，则根据上一步所述部分激活后数据进行行向池化的池化结果，确定该步行向池化对应的行向池化结果。

可选地，所述处理模块404具体用于，通过所述第二融合算子，对所述行向池化结果进行列向池化处理，得到列向池化结果；对所述列向池化结果进行卷积计算，得到所述待处理数据对应的数据处理结果。

可选地，所述处理模块404具体用于，针对所述行向池化结果的每一步列向池化，若该步列向池化对应的部分行向池化结果已经在上一步列向池化时进行过池化，则根据上一步对所述部分行向池化结果进行列向池化的池化结果，确定该步列向池化对应的列向池化结果。

可选地，所述处理模块404还用于，通过所述第二融合算子，对所述列向池化结果进行至少一轮卷积计算；针对每轮卷积计算，根据该轮卷积计算对应的卷积结果，确定该轮卷积计算对应卷积结果的均值以及方差，作为局部均值和局部方差；根据每轮卷积计算对应的卷积结果，确定所述待处理数据对应的数据处理结果，以及，根据每轮卷积计算对应的局部均值和局部方差，确定所述待处理数据对应的全局均值和全局方差，以将所述全局均值和所述全局方差作为下一个归一化算子或第一融合算子的输入。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种数据处理的方法。

本说明书还提供了图5所示的一种对应于图1的电子设备的示意结构图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的数据处理的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取初始处理模型，并确定所述初始处理模型中包含的各目标模型算子，目标模型算子包括：归一化算子、激活算子、池化算子以及卷积算子中的至少一种；

针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子，其中，根据执行所述归一化算子时涉及的对数据的均值和方差进行计算的处理步骤，确定所述归一化算子包含的均值方差算子，以及，根据确定出的均值和方差对所述数据进行归一化处理的处理步骤，确定所述归一化算子包含的子归一化算子，将所述均值方差算子以及所述子归一化算子作为所述归一化算子的子模型算子，以及根据执行所述池化算子时涉及的对数据进行行向池化处理的处理步骤，确定所述池化算子包含的行向池化算子，以及，根据对确定出的行向池化结果进行列向池化处理的处理步骤，确定所述池化算子包含的列向池化算子，将所述行向池化算子以及所述列向池化算子作为所述池化算子的子模型算子；

根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子，其中，将所述子归一化算子、所述激活算子以及所述行向池化算子进行融合，得到第一融合算子，以及，将所述列向池化算子、所述卷积算子以及所述均值方差算子进行融合，得到第二融合算子；

2.如权利要求1所述的方法，其特征在于，通过所述优化后处理模型对所述待处理数据进行数据处理，具体包括：

获取待处理数据；

3.如权利要求2所述的方法，其特征在于，获取待处理数据，具体包括：

4.如权利要求2所述的方法，其特征在于，将所述待处理数据输入所述优化后处理模型，通过所述第一融合算子，确定所述待处理数据对应的行向池化结果，具体包括：

确定所述待处理数据对应的均值和方差；

5.如权利要求4所述的方法，其特征在于，对所述激活后数据进行行向池化处理，得到所述待处理数据对应的行向池化结果，具体包括：

6.如权利要求2所述的方法，其特征在于，将所述行向池化结果输入所述第二融合算子，以通过所述第二融合算子确定所述待处理数据对应的数据处理结果，具体包括：

7.如权利要求6所述的方法，其特征在于，通过所述第二融合算子，对所述行向池化结果进行列向池化处理，得到列向池化结果，具体包括：

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

9.一种数据处理的装置，其特征在于，包括：

获取模块，获取初始处理模型，并确定所述初始处理模型中包含的各目标模型算子，目标模型算子包括：归一化算子、激活算子、池化算子以及卷积算子中的至少一种；

拆分模块，针对每个目标模型算子，若确定在执行该目标模型算子对应的数据处理过程时至少涉及两个数据处理步骤，则根据各处理步骤对该模型算子进行拆分，得到该模型算子包含的各子模型算子，其中，根据执行所述归一化算子时涉及的对数据的均值和方差进行计算的处理步骤，确定所述归一化算子包含的均值方差算子，以及，根据确定出的均值和方差对所述数据进行归一化处理的处理步骤，确定所述归一化算子包含的子归一化算子，将所述均值方差算子以及所述子归一化算子作为所述归一化算子的子模型算子，以及根据执行所述池化算子时涉及的对数据进行行向池化处理的处理步骤，确定所述池化算子包含的行向池化算子，以及，根据对确定出的行向池化结果进行列向池化处理的处理步骤，确定所述池化算子包含的列向池化算子，将所述行向池化算子以及所述列向池化算子作为所述池化算子的子模型算子；

融合模块，根据每个子模型算子和未被拆分的目标模型算子对应的计算顺序，以融合后得到的各融合算子在数据处理过程中对存储设备的访存次数小于所述各目标算子在数据处理过程中对存储设备的访存次数为目标，将各子模型算子以及未被拆分的各目标模型算子进行融合，得到至少一个融合算子，其中，将所述子归一化算子、所述激活算子以及所述行向池化算子进行融合，得到第一融合算子，以及，将所述列向池化算子、所述卷积算子以及所述均值方差算子进行融合，得到第二融合算子；

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。