CN112651489A

CN112651489A - 操作处理方法、装置、用于操作处理的装置及存储介质

Info

Publication number: CN112651489A
Application number: CN202011530803.XA
Authority: CN
Inventors: 张强; 彭飞; 李明星
Original assignee: Longxin Zhongke Hefei Technology Co ltd
Current assignee: Longxin Zhongke Hefei Technology Co ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-13

Abstract

本发明实施例提供了一种操作处理方法、装置、用于操作处理的装置以及存储介质，应用于卷积神经网络模型，其中的方法包括：从所述卷积神经网络模型的池化算子中提取待转换的循环结构；确定循环结构中参与循环计算的操作数；定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数；将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的单指令多数据流SIMD指令；执行转换后的循环结构，并且在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。本发明实施例可以优化循环结构，减少循环次数，进而提高深度学习模型的性能。

Description

操作处理方法、装置、用于操作处理的装置及存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种操作处理方法、一种操作处理装置、一种用于操作处理的装置以及一种存储介质。

背景技术

深度学习是人工智能领域一个热门方向，广泛应用于搜索技术、图形图像处理、数据挖掘、机器学习、机器翻译、自然语言处理等各个领域。典型的深度学习模型有CNN(Convolutional Neural Networks，卷积神经网络)模型，主要应用于图形图像处理方面。

基于CNN的深度学习模型中通常大量使用循环结构，在循环次数较大的情况下，不仅循环次数较多，导致循环操作较为耗时，而且大量的循环计算需要多次进行内存访问，严重影响深度学习模型的性能。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种操作处理方法，以优化卷积神经网络模型中的循环结构，减少循环次数，进而提高深度学习模型的性能。

相应的，本发明实施例还提供了一种操作处理装置、一种用于操作处理的装置以及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种操作处理方法，应用于卷积神经网络模型，所述方法包括：

从所述卷积神经网络模型的池化算子中提取待转换的循环结构；

确定循环结构中参与循环计算的操作数；

定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数；

将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的单指令多数据流SIMD指令；

执行转换后的循环结构，并且在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。

本发明实施例还公开了一种内存访问的装置，应用于卷积神经网络模型，所述装置包括：

结构确定模块，用于从所述卷积神经网络模型的池化算子中提取待转换的循环结构；

数据确定模块，用于确定循环结构中参与循环计算的操作数；

向量定义模块，用于定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数；

指令转换模块，用于将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的单指令多数据流SIMD指令；

指令执行模块，用于执行转换后的循环结构，并且在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。

本发明实施例还公开了一种用于操作处理的装置，应用于卷积神经网络模型，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定循环结构中参与循环计算的操作数；

本发明实施例还公开了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时能够实现本发明实施例中一个或多个所述的操作处理方法。

本发明实施例包括以下优点：

本发明实施例基于单指令多数据流SIMD指令对卷积神经网络CNN模型的池化算子中的循环结构进行优化，将所述循环结构中对操作数进行循环计算的循环体语句转换为对向量数据进行循环计算的SIMD指令。其中，每个向量数据包含预设个数的操作数，由此，执行转换后的循环结构，可以在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。通过本发明实施例，将原有的串行的循环操作改为并行的循环操作，可以减少循环计算的次数，提高循环计算的效率，提高深度学习模型的性能，尤其对于大量使用循环结构的池化算子，可以极大提高池化算子的计算效率，进而可以提高基于CNN的深度学习模型的性能。

附图说明

图1是本发明的一种操作处理方法实施例的步骤流程图；

图2是本发明的一种操作处理装置实施例的结构框图；

图3是本发明的一种用于数据处理的装置800的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

方法实施例

参照图1，示出了本发明的一种操作处理方法实施例的步骤流程图，所述方法可应用于卷积神经网络模型，所述方法具体可以包括如下步骤：

步骤101、从所述卷积神经网络模型的池化算子中提取待转换的循环结构；

步骤102、确定循环结构中参与循环计算的操作数；

步骤103、定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数；

步骤104、将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的单指令多数据流SIMD指令；

步骤105、执行转换后的循环结构，并且在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。

池化算子(Pooling)是大多数基于CNN的深度学习模型中必不可少的关键性算法。Pooling的作用是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值或平均值。通过Pooling可以减少模型参数的数量，防止过拟合现象的发生。池化算子中的循环结构通常具有循环次数较多的特点，导致循环操作较为耗时，而且大量的循环计算需要多次进行内存访问，严重影响深度学习模型的性能。

为解决该问题，本发明实施例基于SIMD(Single Instruction Multiple Data，单指令多数据流)指令对卷积神经网络模型的池化算子中的循环结构进行优化，以减少循环计算的次数，提升深度学习模型的性能。SIMD是CPU(Central Processing Unit，中央处理器)设计中的一项重要技术，是CPU基本指令集的扩展，SIMD以同步方式，在同一时间内执行同一条指令。以加法指令为例，SISD(Single instruction,Single data，单指令单数据)的CPU对加法指令译码后，执行部件先访问内存，取得第一个操作数；之后再一次访问内存，取得第二个操作数；随后才能进行求和运算。而在SIMD型的CPU中，指令译码后几个执行部件同时访问内存，一次性获得所有操作数进行运算。

本发明实施例将循环结构中对操作数进行循环计算的循环体语句转换为对向量数据进行循环计算的SIMD指令，进而可以将原有的串行的循环操作改为并行的循环操作，以减少循环计算的次数，提高循环计算的效率，提高深度学习模型的性能，尤其对于大量使用循环结构的池化算子，可以极大提高池化算子的计算效率，进而可以提高基于CNN的深度学习模型的性能。

进一步地，在对循环结构进行优化之前，本发明实施例首先从所述卷积神经网络模型的池化算子中提取待转换的循环结构。在卷积神经网络模型中通常存在多种循环结构，本发明实施例从中提取待转换的循环结构进行优化，待转换的循环结构指对卷积神经网络模型的性能具有较大影响的循环结构。

可选地，所述待转换的循环结构的循环次数超过第一阈值，和/或，所述待转换的循环结构的被调用次数超过第二阈值。

当循环结构的循环次数较多或者循环结构被调用次数较多时，该循环结构的执行效率将直接影响整个卷积神经网络模型的性能，而卷积神经网络模型的池化算子中通常使用大量的循环结构，因此，本发明实施例对卷积神经网络模型的池化算子中的循环结构进行有选择性的优化，从卷积神经网络模型的池化算子中提取循环次数超过第一阈值的循环结构，和/或，从卷积神经网络模型的池化算子中提取被调用次数超过第二阈值的循环结构，作为待转换的循环结构，并且对待转换的循环结构进行优化转换，由此可以显著提升卷积神经网络模型的性能。

在本发明的一种可选实施例中，所述SIMD指令可以为MIPS(Microprocessorwithout interlocked piped stages，无内部互锁流水级的微处理器)平台中的MSA指令。

目前计算机主要的体系架构可以分为两类，CISC(Complex Instruction SetComputing，复杂指令集计算机)和RISC(Reduced Instruction Set Computing，精简指令集计算机)。MIPS平台属于一种RISC体系架构。

MIPS平台上的MSA(MIPS SIMD Architecture，MIPS单指令多数据流架构)指令是一种基于SIMD(Single Instruction Multiple Data，单指令多数据流)的指令。

MSA指令是MIPS平台上的SIMD指令，MSA指令为128位，指令位宽较大，可以同时对多个操作数执行一次循环计算，对于基于MIPS平台的架构，如LoongArch架构，本发明实施例可以利用MSA指令对MIPS平台上执行的循环结构进行优化，使得在一次循环计算的过程中，可以对多个操作数同时进行一次循环计算，将原有的串行的循环操作改为并行的循环操作，可以减少循环计算的次数，提高循环计算的效率，对于大量使用循环结构的深度学习模型，可以提高深度学习模型的性能。

可以理解的是，本发明实施例对所述卷积神经网络模型的应用平台不做限制。例如，所述卷积神经网络模型的应用平台可以为MIPS平台，SIMD指令可以为MIPS平台中的MSA指令。或者，所述卷积神经网络模型的应用平台还可以为x86平台，SIMD指令可以为x86平台中的MMX(Multi Media eXtension，多媒体扩展指令集)\SSE(Streaming SIMDExtensions，单指令多数据流扩展)\AVX(Advanced Vector Extensions，高级矢量扩展指令集)等。

为便于描述，本发明实施例中主要以所述卷积神经网络模型应用于MIPS平台，以及SIMD指令为MIPS平台中的MSA指令为例进行说明。x86平台以及其他平台下的执行过程相似，相互参照即可。

需要说明的是，本发明实施例对所述深度学习模型的应用场景不做限制。例如，所述深度学习模型可应用于人工智能领域，如智能教育、闸机、安防、智能家居等应用场景。所述深度学习模型包括但不限于AlexNet、VGG、GoogLeNet、ResNet等。

进一步地，所述循环结构可以为池化算子(Pooling)中的for循环结构。在基于CNN的深度学习模型中，池化算子采用大量的for循环结构，极大影响池化算子的性能，进而影响基于CNN的深度学习模型的性能。

在具体应用中，池化算子包括最大池化法MaxPooling和平均池化法AvgPooling。最大池化法MaxPooling即对每个子区域输出最大值；平均池化法AvgPooling即对每个子区域输出平均值。基于CNN的深度学习模型中通常采用最大池化法MaxPooling，最大池化法MaxPooling包括前向池化操作和反向池化操作，前向池化操作和反向池化操作中都大量使用了for循环结构。

示例1，如下示出了池化算子中常用的一种for循环结构：

for(int oc＝0；oc<OC；++oc){

d[oc]＝nstl::max(s[oc],d[oc])；

}

示例1所示的循环结构用于在两个大数组中取两个数中较大者，并赋值。

示例2，如下示出了池化算子中常用的另一种for循环结构：

示例2所示的循环结构用于对大数组赋值。

需要说明的是，在实际应用中，除了for循环结构，深度学习模型中还可能包括其他类型的循环结构，如goto循环、while循环、do…while循环等。本发明实施例中主要以优化for循环结构为例进行说明，其他类型的循环结构的优化方法类似，相互参照即可。

针对池化算子中大量的循环结构导致池化算子性能较低，进而影响深度学习模型的性能的问题，本发明实施例利用SIMD指令针对卷积神经网络模型的池化算子中的循环结构进行优化，以减少循环次数以及内存访问次数，提升深度学习模型的性能。

具体地，首先确定循环结构中参与循环计算的操作数。

使用循环结构可以多次重复地执行多条语句，这里的“多条语句”称为循环体。循环体被重复执行的次数由循环条件控制，称为控制表达式。

本发明实施例确定循环结构中参与循环计算的操作数，也即，确定循环体中的操作数。以示例一为例，操作数包括数组s[oc]和数组d[oc]。示例一中的循环体用于在每一次的循环计算中，分别从数组s[oc]和数组d[oc]中各取一个数据进行比较，将两者中的较大者存入数组d[oc]。

为了能够利用SIMD指令(如MIPS平台的MSA指令)对循环结构进行优化，本发明实施例定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数。

以示例一为例，操作数包括数组s[oc]和数组d[oc]，数组s[oc]和数组d[oc]的数据类型为int8，也即数组s[oc]和数组d[oc]中存储的均为int8类型的数据。以MIPS平台的MSA指令为例，在MSA指令中，与数据类型int8相匹配的向量数据类型为v16i8，向量数据类型v16i8表示每一个向量数据包含16个的int8类型的数据。

因此，在示例一中，可以定义一个向量数据类型为v16i8的向量数据，每一个这样的向量数据包含数组s[oc]中的16个int8类型的数据。同样地，可以定义另一个向量数据类型为v16i8的向量数据，每一个这样的向量数据包含数组d[oc]中的16个int8类型的数据。由此，每次对一个向量数据进行处理时，可以一次从内存中读取16个int8类型的数据，并且对这16个int8类型的数据同时处理，可以提高计算效率。

可以理解的是，本发明实施例对参与循环计算的操作数的数据类型不做限制。例如，所述操作数的数据类型可以为int8、int32、float32等。

另一个示例中，参与循环计算的操作数的数据类型为int32时，与该数据类型相匹配的向量数据类型为v4i32，可以定义与数据类型int32相匹配的向量数据类型为v4i32的向量数据，每一个这样的向量数据包含4个int32类型的数据。又如，参与循环计算的操作数的数据类型为float32时，与该数据类型相匹配的向量数据类型为v4f32，可以定义与数据类型float32相匹配的向量数据类型为v4f32的向量数据，每一个这样的向量数据包含4个float32类型的数据。

接下来，将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的单指令多数据流SIMD指令，如转换为MIPS单指令多数据流架构MSA指令。

例如，在示例一中，可以将原本的循环体语句“d[oc]＝nstl::max(s[oc],d[oc])”转换为如下MSA指令“*(v16i8*)d＝_msa_max_s_b(*(v16i8*)s,*(v16i8*)d)”。这样，在执行到转换后的循环结构时，可以在一次循环计算中同时对预设个数(16个)的操作数并行进行一次循环计算，也即，分别从数组s[oc]和数组d[oc]中一次性取出16个数据，并且分别对二者进行比较以及将较大者进行赋值。由此可以在一次循环计算中同时处理16个数据。在下一次循环中，分别从数组s[oc]和数组d[oc]中再一次性取出下一组的16个数据进行并行处理。

同理，在示例二中，在将原本的循环体语句转换为MSA指令之后，在执行到转换后的循环结构时，可以在一次循环计算中同时对预设个数(4个)的操作数并行进行一次循环计算，也即，在一次循环计算中可以对4个操作数同时进行处理，在下一次循环计算中，再对下一组的4个操作数同时进行处理。

在本发明的一种可选实施例中，所述将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令之前，所述方法还包括：确定所述循环结构中循环体语句的操作类型；

所述将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令，包括：

确定与所述操作类型相匹配的SIMD指令内置函数；

基于所述SIMD指令内置函数，将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令。

进一步地，所述操作类型可以包括但不限于比较操作类型和/或赋值操作类型。

示例一所示的循环结构中循环体语句的操作类型包括比较操作类型，示例二所示的循环结构中循环体语句的操作类型包括赋值操作类型。

其中，SIMD指令内置函数可以为预先封装好的函数接口，通过调用该内置函数，可以将循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令。

以MIPS平台的MSA指令为例，在示例一中，可以确定与所述操作类型(比较操作类型)相匹配的MSA指令内置函数为“_msa_max_s_b”。基于该MSA指令内置函数，可以将循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的MSA指令，如“*(v16i8*)d＝_msa_max_s_b(*(v16i8*)s,*(v16i8*)d)”。

在示例二中，可以确定与所述操作类型(赋值操作类型)相匹配的MSA指令内置函数为“_msa_fill_w”。基于该MSA指令内置函数，可以将循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的MSA指令，如“v4f32 data_tmp＝(v4f32)_msa_fill_w(0.f)”。

可以理解的是，对于x86平台，可以确定该平台中相应的SIMD指令内置函数，通过该内置函数，可以将循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的符合x86平台的SIMD指令，如MMX\SSE\AVX指令等。

需要说明的是，本发明实施例对所述循环结构采用的编程语言的种类不做限制，本发明实施例中均以C++语言为例。当然，循环结构采用的编程语言可以包括但不限于C++语言、Python语言、Java语言、C语言、R语言。

在本发明的一种可选实施例中，所述将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令之前，所述方法还包括：定义用于指向所述操作数的偏移地址的指针变量；

所述在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算，包括：

在至少一次的循环计算中，根据所述指针变量指向的偏移地址读取所述预设个数的操作数；

通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算；

所述通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算之后，所述方法还包括：

将所述偏移地址移动所述预设个数的操作数对应的长度，并将移动后的偏移地址赋值给所述指针变量，以在下一次的循环计算中依据移动后的偏移地址读取预设个数的操作数。

以MIPS平台的MSA指令为例，一个示例中，本发明实施例利用MSA指令对示例一所示的循环结构进行优化，得到转换后的循环结构如下所示：

在示例一中，由于参与循环计算的操作数s[oc]和d[oc]的数据类型为int8，因此采用与该数据类型相匹配的向量类型v16i8。

在上述示例一转换后的循环结构中，第一行和第二行代码定义了用于指向操作数的偏移地址的指针变量s和d。

由于示例一中循环结构的循环次数为OC，本发明实施例在使用MSA指令对该循环结构进行优化后，一次循环可以同时处理16个操作数，循环次数由原来的OC次降为OC除以16次。因此，可以将OC除以16得到的商作为转换后的循环结构的循环次数。如上述转换后的循环结构中，第三行代码“int len＝OC>>4”用于将OC右移四位后赋值给变量len，其中，右移四位相当于对OC除以16取商。也即，转换后的循环结构的循环次数为len。

第四行代码“*(v16i8*)d＝_msa_max_s_b(*(v16i8*)s,*(v16i8*)d)”为原本的循环体语句转换后的MSA指令。通过执行该MSA指令可以在一次的循环计算中，对预设个数(16个)的操作数并行计算。

第五行和第六行代码“s+＝16”和“d+＝16”用于将偏移地址移动所述预设个数(16个)的操作数对应的长度，并将移动后的偏移地址赋值给指针变量s和d，以在下一次的循环计算中依据移动后的偏移地址读取下一组预设个数(16个)的操作数。

需要说明的是，上述转换后的循环结构的代码由高级语言所编写，因此需要对上述代码进行编译，得到计算机可识别的汇编指令。其中，MSA指令“*(v16i8*)d＝_msa_max_s_b(*(v16i8*)s,*(v16i8*)d)”在经过编译之后，会产生MSA汇编指令。

以MIPS平台的MSA指令为例，一个示例中，本发明实施例利用MSA指令对示例二所示的循环结构进行优化，得到转换后的循环结构如下所示：

在示例二中，由于参与循环计算的操作数的数据类型为float32，因此采用与该数据类型相匹配的向量类型v4f32。

在上述示例二转换后的循环结构中，第一行代码“int len＝OC>>2”用于将循环次数OC右移两位后赋值给变量len，其中，右移两位相当于对OC除以4取商。也即，转换后的循环结构的循环次数为len。第二行代码定义了用于指向操作数的偏移地址的指针变量diff_src_offset。第三行代码“v4f32data_tmp＝(v4f32)_msa_fill_w(0.f)”为原本的循环体语句转换后的MSA指令。通过执行该MSA指令可以在一次的循环计算中，对预设个数(4个)的操作数并行计算。其中，data_tmp为操作数0.f对应的向量数据，一个向量数据data_tmp包含4个float32类型的数据0.f。原本的赋值操作“diff_src_fp32[oc]＝0.f”和“diff_src[src_offset_init+oc]＝0.f”每次只能分别将数组diff_src_fp32[oc]和数组diff_src[src_offset_init+oc]中的一个数据赋值为0.f。在使用MSA指令优化之后，可以使用向量数据data_tmp对数组diff_src_fp32[oc]和数组diff_src[src_offset_init+oc]进行赋值，因此，每次可以分别将数组diff_src_fp32[oc]和数组diff_src[src_offset_init+oc]中的4个数据同时赋值为0.f，对应代码如第四行和第五行代码所示。

第六行和第七行代码“diff_src_fp32+＝4”和“diff_src_offset+＝4”用于将偏移地址移动所述预设个数(4个)的操作数对应的长度，并将移动后的偏移地址赋值给指针变量，以在下一次的循环计算中依据移动后的偏移地址读取下一组预设个数(4个)的操作数。

需要说明的是，MSA指令“v4f32 data_tmp＝(v4f32)_msa_fill_w(0.f)”在经过编译之后，会产生MSA汇编指令。

在本发明的一种可选实施例中，所述在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算，包括：

若所述循环结构的循环次数是所述预设个数的整数倍，则在每一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算，直到循环结束；或者，

若所述循环结构的循环次数不是所述预设个数的整数倍，则在最后一次的循环计算中，通过执行转换前的循环体语句对剩余的操作数进行循环计算。

以MIPS平台的MSA指令为例，在实际应用中，MSA指令一次可以对预设个数的操作数并行处理。如果循环次数是预设个数的整数倍，则在每一次的循环计算中，可以通过MSA指令同时对预设个数的操作数并行处理。例如，如果循环次数OC为48，对于示例一中的循环结构，在未优化的情况下，需要执行48次循环计算。优化后，每一次循环可以同时处理16个操作数，仅需执行48/16＝3次循环，极大减少了循环计算的次数。

如果循环次数不是预设个数(16个)的整数倍，则按照转换前的循环结构中的循环体语句对剩余的操作数进行循环计算。例如，如果循环次数OC为50，对于示例一中的循环结构，优化后，由于50不是16的整数倍(50除以16的商为3余数为2)，因此，在前3次的循环计算过程中，每一次都可以利用MSA指令同时对16个操作数并行处理。对于剩余的2个操作数仍然按照转换前的循环体语句进行循环计算，也即，仍需进行2次循环计算。在OC为50的情况下，总共需要执行3+2＝5次循环计算。相对于未优化需要执行50次循环计算，仍然极大减少了循环计算的次数。

具体地，对于剩余的2个操作数可以按照如下for循环体执行计算：

同理，对于示例二，如果循环次数不是预设个数(4个)的整数倍，则首先通过MSA指令同时对预设个数的操作数并行处理。对于剩余的操作数仍然按照转换前的循环体语句进行循环计算。例如，对于剩余的操作数可以按照如下for循环体执行计算：

本发明实施例通过SIMD指令对卷积神经网络CNN模型的池化算子中的循环结构进行优化，将循环结构中对操作数进行循环计算的循环体语句转换为对向量数据进行循环计算的SIMD指令，从而将原有的串行的循环操作改为并行的循环操作，在至少一次的循环计算中，执行一次所述SIMD指令即可对预设个数的操作数并行进行循环计算。

可以理解的是，对于不同平台中不同的SIMD指令，如x86平台的MMX\SSE\AVX指令等，一次SIMD指令可以并行循环计算的操作数的预设个数可能会有所不同。因此，所述预设个数可以根据不同平台中SIMD指令支持的并行处理位数以及平台的硬件条件进行设置。

综上，本发明实施例基于单指令多数据流SIMD指令对卷积神经网络CNN模型的池化算子中的循环结构进行优化，将所述循环结构中对操作数进行循环计算的循环体语句转换为对向量数据进行循环计算的SIMD指令。其中，每个向量数据包含预设个数的操作数，由此，执行转换后的循环结构，可以在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。通过本发明实施例，将原有的串行的循环操作改为并行的循环操作，可以减少循环计算的次数，提高循环计算的效率，提高深度学习模型的性能，尤其对于大量使用循环结构的池化算子，可以极大提高池化算子的计算效率，进而可以提高基于CNN的深度学习模型的性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种操作处理装置实施例的结构框图，所述装置可应用于卷积神经网络模型，所述装置具体可以包括如下模块：

结构确定模块201，用于从所述卷积神经网络模型的池化算子中提取待转换的循环结构；

数据确定模块202，用于确定循环结构中参与循环计算的操作数；

向量定义模块203，用于定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数；

指令转换模块204，用于将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的单指令多数据流SIMD指令；

指令执行模块205，用于执行转换后的循环结构，并且在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算。

可选地，所述指令执行模块，包括：

第一执行子模块，用于若所述循环结构的循环次数是所述预设个数的整数倍，则在每一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算，直到循环结束；或者，

第二执行子模块，用于若所述循环结构的循环次数不是所述预设个数的整数倍，则在最后一次的循环计算中，通过执行转换前的循环体语句对剩余的操作数进行循环计算。

可选地，所述装置还包括：

变量定义模块，用于定义用于指向所述操作数的偏移地址的指针变量；

所述指令执行模块，包括：

数据读取子模块，用于在至少一次的循环计算中，根据所述指针变量指向的偏移地址读取所述预设个数的操作数；

指令执行子模块，用于通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算；

所述装置还包括：

地址偏移模块，用于将所述偏移地址移动所述预设个数的操作数对应的长度，并将移动后的偏移地址赋值给所述指针变量，以在下一次的循环计算中依据移动后的偏移地址读取预设个数的操作数。

可选地，所述装置还包括：

类型确定模块，用于确定所述循环结构中循环体语句的操作类型；

所述指令转换模块，包括：

函数确定子模块，用于确定与所述操作类型相匹配的SIMD指令内置函数；

指令转换子模块，用于基于所述SIMD指令内置函数，将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令。

可选地，所述操作类型包括比较操作类型和/或赋值操作类型。

可选地，所述SIMD指令为无内部互锁流水级的微处理器MIPS平台中的MSA指令。

可选地，所述循环结构为池化算子中的for循环结构。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例提供了一种用于操作处理的装置，应用于卷积神经网络模型，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定循环结构中参与循环计算的操作数；

图3是根据一示例性实施例示出的一种用于操作处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的程序或处理器执行时，使得终端能够执行一种操作处理方法，所述方法包括：确定循环结构中参与循环计算的操作数；定义与所述操作数的数据类型相匹配向量数据，其中，每个向量数据包含预设个数的操作数；将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的MIPS单指令多数据流架构MSA指令；执行转换后的循环结构，并且在至少一次的循环计算中，通过执行所述MSA指令对所述预设个数的操作数并行进行循环计算。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以预测方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种操作处理方法和装置、一种用于操作处理的装置以及一种存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种操作处理方法，其特征在于，应用于卷积神经网络模型，所述方法包括：

确定循环结构中参与循环计算的操作数；

2.根据权利要求1所述的方法，其特征在于，所述在至少一次的循环计算中，通过执行所述SIMD指令对所述预设个数的操作数并行进行循环计算，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令之前，所述方法还包括：

定义用于指向所述操作数的偏移地址的指针变量；

4.根据权利要求1所述的方法，其特征在于，所述将所述循环结构中对所述操作数进行循环计算的循环体语句转换为对所述向量数据进行循环计算的SIMD指令之前，所述方法还包括：

确定所述循环结构中循环体语句的操作类型；

确定与所述操作类型相匹配的SIMD指令内置函数；

5.根据权利要求4所述的方法，其特征在于，所述操作类型包括比较操作类型和/或赋值操作类型。

6.根据权利要求1至5任一所述的方法，其特征在于，所述待转换的循环结构的循环次数超过第一阈值，和/或，所述待转换的循环结构的被调用次数超过第二阈值。

7.根据权利要求1至5任一所述的方法，其特征在于，所述SIMD指令为无内部互锁流水级的微处理器MIPS平台中的MSA指令。

8.一种操作处理装置，其特征在于，应用于卷积神经网络模型，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述指令执行模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述指令执行模块，包括：

所述装置还包括：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述指令转换模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述操作类型包括比较操作类型和/或赋值操作类型。

13.根据权利要求8至12任一所述的装置，其特征在于，所述待转换的循环结构的循环次数超过第一阈值，和/或，所述待转换的循环结构的被调用次数超过第二阈值。

14.根据权利要求8至12任一所述的装置，其特征在于，所述SIMD指令为无内部互锁流水级的微处理器MIPS平台中的MSA指令。

15.一种用于操作处理的装置，其特征在于，应用于卷积神经网络模型，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

确定循环结构中参与循环计算的操作数；

16.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7任一所述的操作处理方法的步骤。