CN109255438B

CN109255438B - 调整张量数据的方法和装置

Info

Publication number: CN109255438B
Application number: CN201811080262.8A
Authority: CN
Inventors: 李德林; 李建军; 凌坤; 王振江
Original assignee: Horizon Shanghai Artificial Intelligence Technology Co Ltd
Current assignee: Horizon Shanghai Artificial Intelligence Technology Co Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2020-07-17
Anticipated expiration: 2038-09-17
Also published as: CN109255438A

Abstract

公开了一种调整张量数据的方法和装置。该方法包括：根据第一张量和作为第一张量的调整目标的第二张量确定第三张量和第四张量；确定卷积核序列，使得第四张量对应于基于第三张量和卷积核序列的卷积运算的结果；以及使用卷积核序列对第三张量执行卷积运算。通过该方法和装置，能够利用存储数据的连续性高效率地实现张量数据的调整。

Description

调整张量数据的方法和装置

技术领域

本公开总体上涉及人工神经网络的技术领域，并且具体地涉及一种调整张量数据的方法和装置。

背景技术

基于卷积神经网络的深度学习技术已经被广泛地应用于图像识别、视频分析、自然语言处理、辅助驾驶等不同的领域。

卷积神经网络中的运算量通常很大，为此可以通过诸如卷积神经网络加速器这样的专用硬件高效地执行卷积神经网络中的运算。

为了满足诸如运算效率、卷积神经网络加速器中的片上存储器的利用率、数据存取效率等不同方面的要求，可能需要在将张量数据(也称为“特征数据”)相应的卷积核提供给卷积神经网络加速器执行处理之前调整张量数据。

通常，可以从存储器中读取张量数据，然后可以在通用处理器的控制下，借助于多个寄存器并通过执行多个数据交换指令来实现张量数据的调整。

然而，要提供给卷积神经网络加速器的张量数据往往很大，导致通常的调整方式的处理效率极低，并且需要消耗大量的硬件(例如，寄存器)资源。期望能够高效率地调整张量数据。

发明内容

一方面，本公开提供了一种调整张量数据的方法，该方法可以包括：根据第一张量和第二张量确定第三张量和第四张量，前述第二张量是前述第一张量的调整目标并且与前述第一张量具有相同的高度、宽度和通道数量，前述第三张量的存储数据序列与前述第一张量的存储数据序列相同，前述第四张量的存储数据序列与前述第二张量的存储数据序列相同；确定卷积核序列，使得前述第四张量对应于基于前述第三张量和前述卷积核序列的卷积运算的结果；以及使用前述卷积核序列对前述第三张量执行卷积运算。

另一方面，本公开还提供了一种计算机可读取的非临时性存储介质，在其上存储有程序指令，前述程序指令可以在被执行时执行上述方法。

另一方面，本公开还提供了一种调整张量数据的装置。该装置可以包括处理器，并且处理器可以被配置为在被启动时至少执行上述方法。

另一方面，本公开还提供了一种调整张量数据的装置。该装置可以包括处理器和卷积引擎。处理器可以被配置为根据第一张量和第二张量确定第三张量和第四张量，以及确定卷积核序列使得前述第四张量对应于基于前述第三张量和前述卷积核序列的卷积运算的结果，前述第二张量是前述第一张量的调整目标并且与前述第一张量具有相同的高度、宽度和通道数量，前述第三张量的存储数据序列与前述第一张量的存储数据序列相同，前述第四张量的存储数据序列与前述第二张量的存储数据序列相同。卷积引擎可以被配置为使用前述卷积核序列对前述第三张量执行卷积运算。

通过根据本公开的实施例的方法和装置，能够利用存储数据的连续性高效率地实现张量数据的调整。

附图说明

图1示出根据本公开的实施例的调整张量数据的方法的示例。

图2示出根据本公开的实施例的张量与存储数据序列之间的对应关系的示例。

图3示出根据本公开的实施例的在通道方向上调整张量的示例。

图4示出根据本公开的实施例的在宽度方向上调整张量的示例。

图5示出根据本公开的实施例的在宽度方向上调整张量的示例。

图6示出根据本公开的实施例的在宽度方向上调整张量的示例。

图7示出根据本公开的实施例的在宽度方向上调整张量的示例。

图8示出根据本公开的实施例的在宽度方向上调整张量的示例。

图9示出根据本公开的实施例的在高度方向上调整张量的示例。

图10示出根据本公开的实施例的在高度方向上调整张量的示例。

图11示出根据本公开的实施例的在高度方向上调整张量的示例。

图12示出根据本公开的实施例的调整张量的示例。

图13示出根据本公开的实施例的调整张量数据的装置的示例。

具体实施方式

如前文所述，在实际的应用中，根据不同的需求，可能需要先调整张量数据，然后再将调整后的张量数据提供给卷积神经网络加速器。

例如，通过调整张量的通道、切片(包括行切片和列切片)、甚至体素的次序或位置，可以提高卷积神经网络加速器中的片上存储器的利用率和数据存取效率，并且也可以满足例如与卷积神经网络加速器的输出有关的数据后处理过程中的某些特殊处理要求，或者提高数据后处理的效率。

图1示出根据本公开的实施例的用于调整张量数据的方法的示例100。根据本公开的实施例的方法可以应用于例如卷积神经网络编译器或者卷积神经网络加速器或者卷积神经网络后处理器中。

如1所示，在示例方法100的步骤S110中，可以根据第一张量和第二张量确定第三张量和第四张量，其中，第一张量是要调整的张量数据，第二张量是第一张量的调整目标并且与第一张量具有相同的高度、宽度和通道数量，第三张量的存储数据序列与第一张量的存储数据序列相同，并且第四张量的存储数据序列与第二张量的存储数据序列相同。

然后，在示例方法100的步骤S120中，可以确定卷积核序列，使得第四张量对应于基于第三张量和所确定的卷积核序列的卷积运算的结果。

然后，在示例方法100的步骤S130中，可以使用所确定的卷积核序列对第三张量执行卷积运算。

在本文中，诸如“第一”、“第二”、“第三”等不带量词的充数词旨在用于区分不同的元素/元件/部件等，而不是用于强调次序或重要程度，而诸如“第一个”、“第二个”、“第三个”、“第i个”、“第i列”、“第i行”等带有量词的充数词可以用于表示一个序列中的不同元素或实体的次序或所在位置或重要程度。

另外，在本文中，按照描述张量数据的通常方式，对于高度、宽度和通道数量(也被称为“深度”)分别为H、W和C的任一张量T，T.W_x(0≤x<W)表示张量数据中按照从左到右的次序的第x个列的数据切片(也被称为“列切片”)，T.H_y(0≤y<H)表示张量数据中按照从上到下的次序的第y个行的数据切片(也被称为“行切片”)，并且T.C_z(0≤z<C)表示张量数据中按照从前到后的次序的第z个通道的数据切片(也被称为“通道切片”)。

进一步地，例如，T_i.C_z’→T_j.C_z”可以表示张量T_i的通道切片T_i.C_z’被调整为张量T_j的通道切片T_j.C_z”(或者说，张量T_i的通道切片T_i.C_z’对应于张量T_j的通道切片T_j.C_z”)，使得与张量T_i的通道切片T_i.C_z’相对应的二维张量数据和与张量T_j的通道切片T_j.C_z”相对应的二维张量数据完全相同；例如，T_i.H_y.P_k→T_j.H_y’.P_k’可以表示张量T_i的行切片T_i.H_y的部分P_k被调整为张量T_j的行切片T_j.H_y’的部分P_k’；诸如此类。

另外，例如在采用从0开始计数的方式的情况下，如果示例方法100中的第一张量T₀的高度、宽度和通道数量分别为H、W和C，则第一张量T₀可以包括H×W×Z个体素(Voxel)。

在本文中，同时属于列切片T₀.W_x、行切片T₀.H_y和通道切片T₀.C_z的体素可以表示为T₀.W_x.H_y.C_z或T₀.E_x,y,z，其中，体素在张量T₀中的位置索引或坐标可以表示为三元组(x,y,z)，并且相应的值为V_Cx+CWy+z。

为了描述要调整的张量、作为调整目标的张量以及中间张量的对应关系，在本文中，对于作为调整目标的张量(即，示例方法100中的第二张量)和其他中间张量(例如，示例方法100中的第三张量和第四张量)中的各个体素，不重新编号。

于是，例如，T₀.C₀→T₁.C₁可以意味着，对于任意的x(0≤x<W)和y(0≤y<H)，体素T₀.E_x,y,0的值和体素T₁.E_x,y,1的值均为V_Cx+CWy；例如，T₀.C₃→T₁.C₂可以意味着，对于任意的x(0≤x<W)和y(0≤y<H)，体素T₀.E_x,y,3的值和体素T₁.E_x,y,2的值均为V_Cx+CWy+3；例如，T₀.H₃→T₁.H₂可以意味着，对于任意的x(0≤x<W)和z(0≤z<C)，体素T₀.E_x,3,z的值和体素T₁.E_x,2,z的值均为V_Cx+3CW+z；例如，T’₀.W₀.P₀＝T₀.W₀并且T’₀.W₀.P₁＝T₀.W₁可以意味着，对于任意的y(0≤y<H)和z(0≤z<C)，体素T₀.E_0,y,z的值和体素T₁.E_0,y,z的值均为V_CWy+z，并且体素T₀.E_1,y,z的值和体素T₁.E_0,y,C+z的值均为V_C+CWy+z；诸如此类。

然而，应当理解，本公开不局限于任何特定的张量表示方式、编号方式、计数方式等。

对于用于卷积运算的卷积核，也可以采用类似的方式描述。例如，对于卷积核K，K.E_0,0,3＝1表示卷积核K中位于(0,0,3)处的体素K.E_0,0,3的值为1，K.E_0,0,2＝0表示卷积核K中位于(0,0,2)处的体素K.E_0,0,2的值为0，K.C₀＝1表示卷积核K中的通道切片K.C₀上的所有体素的值均为1，K.C₃＝0表示卷积核K中的通道切片K.C₃上的所有体素的值均为0，K.W₁＝1表示卷积核K中的列切片K.W₁上的所有体素的值均为1，诸如此类。

通常，在一个张量或卷积核中，如果一个切片(可以是列切片或行切片或通道切片)包括非零体素(即，体素的值不等于0)，则可以将该切片称为“非零切片”(在非零切片是通道切片的情况下，也可以称为“非零通道”)，而如果一个切片(可以是列切片或行切片或通道切片)中的所有体素的值均为0，则可以将该切片称为“零切片”。

通常，数据按照线性序列的形式而连续地存储到存储器中。线性连续存储使得存储器中的相同的存储数据序列可以按照不同的数据格式或解读方式而对应于不同的张量数据。

例如，如图2所示，根据不同的数据格式或解读方式，连续地存储在存储器MEM(单行容量为16)中的地址ADDR_0至ADDR_3处的存储数据序列V₀至V₆₃可以对应于张量T(高度、宽度和通道数量分别为4、4和4)，也可以对应于张量T’(高度、宽度和通道数量分别为4、2和8)，还可以对应于张量T”(高度、宽度和通道数量分别为4、1和16)或T”’(高度、宽度和通道数量分别为2、8和4)。

以张量T为参考，例如，张量T’的列切片T’.W₀的子切片T’.W₀.P₀对应于张量T的列切片T.W₀(在图2中表示为“T’.W₀.P₀＝T.W₀”)，并且张量T’的列切片T’.W₀的子切片T’.W₀.P₁对应于张量T的列切片T.W₁(在图2中表示为“T’.W.P₁＝T.W₁”)；张量T”’的行切片T”’.H₁的子切片T”’.H₁.P₂对应于张量T的行切片T.H₃(在图2中表示为“T”’.H₁.P₂＝T.H₃”)。

也就是说，图2的示例中的张量T、T’、T’和T”’具有不同的数据格式或表示形式，但是在存储到存储器中之后对应于相同的存储数据序列。

另外，图2中的存储数据序列V₀至V₆₃还可以对应于其他形式的张量。例如，图2中的存储数据序列V₀至V₆₃可以对应于高度、宽度和通道数量分别为1、1和64的张量T””(未示出)，其中，T””.C₀至T””.C₆₃可以分别对应于V₀至V₆₃。

示例方法100利用在存储器中存储的数据的连续性，将从第一张量到第二张量的调整转换成从第三张量到第四张量的调整，并且通过卷积运算从第三张量获得第四张量。

然后，由于存储数据的连续性，获得第四张量也就意味着获得第二张量。例如，可以将所获得的第四张量存储到存储器中，从而获得第二张量的存储数据序列；然后，在后续的使用过程中，可以按照第二张量的数据格式读取存储数据序列，从而直接获得第二张量。由此，实现从第三张量到第四张量的调整相当于实现从第一张量到第二张量的调整。

数据存储的连续性使得前述转换不需要额外的处理代价，并且卷积运算可以直接使用卷积神经网络加速器来执行。由此，根据本公开的实施例的用于调整张量数据的方法能够通过诸如卷积神经网络加速器这样的硬件高效率且低成本地实现张量数据的调整。

通过根据本公开的实施例的方法，可以在通道方向上将第一张量T₀调整为第二张量T₁，其中，假设第一张量T₀和第二张量T₁中的每一个的高度、宽度和通道数量分别为H、W和C。

为此，在示例方法100的步骤S110中，可以使第三张量T’₀与第一张量T₀相同，并且使第四张量T’₁与第二张量T₁相同。于是，第三张量T’₀和第二张量T’₁中的每一个的高度、宽度和通道数量也分别为H、W和C。

于是，对于所期望的一个或多个调整中的任一调整T₀.C_z→T₁.C_z’(0≤z<C，0≤z’<C)，示例方法100可以将其转换为T’₀.C_z→T’₁.C_z’。

相应地，在示例方法100的步骤S120中，可以使卷积核序列包括C(即，第三张量T’₀的通道数量)个卷积核，其中，卷积核序列中的每个卷积核K_i(0≤i<C)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别等于1、1、1、1和C，并且每个卷积核K_i在通道方向上可以具有唯一非零通道，其中，对于任一调整T₀.C_z→T₁.C_z’或T’₀.C_z→T’₁.C_z’，卷积核序列可以包括卷积核K_z’，并且卷积核K_z’中的唯一非零通道为K_z’.C_z。

然后，在示例方法100的步骤S130中，可以使用所确定的卷积核序列对第三张量T’₀执行普通卷积运算，从而获得第四张量T’₁。

由于第四张量T’₁和第二张量T₁对应于相同的存储数据序列，所以获得第四张量T’₁相当于获得第二张量T₁。由此，通过卷积运算实现从第一张量T₀到第二张量T₁的调整。

图3示出通过根据本公开的实施例的方法在通道方向上调整张量数据的示例。

在图3的示例中，第一张量T₀的高度、宽度和通道数量分别为H＝4、W＝4和C＝4，并且包括H×W×Z＝4×4×4＝64个体素，各个体素T₀.E_x,y,z(0≤x<4，0≤y<4，0≤z<4)的值分别为V_4x+16y+z(从V₀至V₆₃)，并且期望在通道方向上调整张量T₀的各个通道切片的次序以获得第二张量T₁，其中，所期望的调整包括T₀.C₀→T₁.C₁、T₀.C₁→T₁.C₂、T₀.C₂→T₁.C₃和T₀.C₃→T₁.C₀。

为此，可以在示例方法100的步骤S110中，使得第三张量T’₀和第四张量T’₁设置为分别与第一张量T₀和第二张量T₁相同，并且T₀.C₀→T₁.C₁、T₀.C₁→T₁.C₂、T₀.C₂→T₁.C₃和T₀.C₃→T₁.C₀分别等同于T’₀.C₀→T’₁.C₁、T’₀.C₁→T’₁.C₂、T’₀.C’₂→T’₁.C’₃和T’₀.C₃→T’₁.C₀。

然后，在步骤S120中，可以确定卷积核序列K₀→K₁→K₂→K₃，其中，K₀至K₃中的每个卷积核K_i(0≤i<4)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、1、1、1和第三张量T’₀的通道数量(即，4)。

如图3所示，与T’₀.C₀→T’₁.C₁相对应地，卷积核序列可以包括卷积核K₁，卷积核K₁在卷积核序列中的位置(i＝1)可以取决于张量T’₁中的通道切片T’₁.C₁在张量T’₁中的位置(第1个通道)，并且K₁中的唯一非零通道K₁.C₀的位置可以取决于张量T’₀中的通道切片T’₀.C₀在张量T’₀中的位置(第0个通道)。

与T’₀.C₁→T’₁.C₂相对应地，卷积核序列可以包括卷积核K₂，卷积核K₂在卷积核序列中的位置(i＝2)可以取决于张量T’₁中的通道切片T’₁.C₂在张量T’₁中的位置(第2个通道)，并且K₂中的唯一非零通道K₂.C₁的位置可以取决于张量T’₀中的通道切片T’₀.C₁在张量T’₀中的位置(第1个通道)。

与T’₀.C₂→T’₁.C₃相对应地，卷积核序列可以包括卷积核K₃，卷积核K₃在卷积核序列中的位置(i＝3)可以取决于张量T’₁中的通道切片T’₁.C₃在张量T’₁中的位置(第3个通道)，并且K₃中的唯一非零通道K₃.C₂的位置可以取决于张量T’₀中的通道切片T’₀.C₂在张量T’₀中的位置(第2个通道)。

与T’₀.C₃→T’₁.C₀相对应地，卷积核序列可以包括卷积核K₀，卷积核K₀在卷积核序列中的位置(i＝0)可以取决于张量T’₁中的通道切片T’₁.C₀在张量T’₁中的位置(第0个通道)，并且K₀中的唯一非零通道K₀.C₃的位置可以取决于张量T’₀中的通道切片T’₀.C₃在张量T’₀中的位置(第3个通道)。

然后，可以在示例方法100的步骤S130中，使用所确定的卷积核序列K₀→K₁→K₂→K₃对第三张量T’₀执行普通卷积运算并获得第四张量T’₁，从而在通道方向上将第一张量T₀调整为第二张量T₁。

通过根据本公开的实施例的方法，还可以在宽度方向上将第一张量T₀调整为第二张量T₁，其中，同样假设第一张量T₀和第二张量T₁中的每一个的高度、宽度和通道数量分别为H、W和C。

第一张量T₀可以对应于在宽度方向上的列切块序列Q₀。第一张量T₀或列切块序列Q₀可以包括N(1≤N<W)个列切块。在W可以被N整除的情况下，列切块序列Q₀中的每个列切块B_0,j(0≤j<N)可以包括第一张量T₀在宽度方向上的连续的R＝W/N个列切片T₀.W_jR至T₀.W_jR+R-1。

同时，第二张量T₁可以对应于在宽度方向上的列切块序列Q₁。第二张量T₁或列切块序列Q₁可以包括N个列切块。在W可以被N整除的情况下，列切块序列Q₁中的每个列切块B_1,j可以包括第二张量T₁在宽度方向上的连续的R＝W/N个列切片T₁.W_jR至T₁.W_jR+R-1。

于是，在宽度方向上将第一张量T₀调整为第二张量T₁可以包括将第一张量T₀的每个列切块B_0,j以相同的列切片位置调整方式调整为第二张量T₁的列切块B_1,j，即，所期望的调整包括集合{T₀.W_jR+k→T₁.W_jR+k’|0≤j<N，0≤k<R，0≤k’<R}＝{T₀.W_jR→T₁.W_jR，……，T₀.W_jR+R-1→T₁.W_jR+R-1|0≤j<N}。

R可以被称为在宽度方向上的调整范围。在R＝W(即，N＝1)的情况下，意味着对第一张量T₀在整个宽度范围内的所有列切片的位置进行调整。在N>1的情况下，意味着对第一张量T₀的每个局部范围内的所有列切片的位置以相同的方式进行调整。例如，在W无法被N整除的情况下，可以考虑使R＝W，从而在整个宽度范围内调整第一张量T₀。

在示例方法的步骤S110中，可以利用存储数据的连续性，根据第一张量T₀确定与第一张量T₀对应于相同存储数据序列的第三张量T’₀，并且根据第二张量T₁确定与第二张量T₀对应于相同存储数据序列的第四张量T’₁。

在一个实施例中，可以使第三张量T’₀和第四张量T’₁中的每一个的高度、宽度和通道数量均分别为H、N＝W/R和R×C，其中，第三张量T’₀的第j(0≤j<N)个列切片T’₀.W_j对应于第一张量T₀或列切块序列Q₀的第j个列切块B_0,j中的所有列切片按照宽度方向次序在通道方向上的拼接结果，即，T’₀.W_j.P_k＝T₀.W_jR+k(0≤k<R)，并且第四张量T’₁的第j个列切片T’₁.W_j对应于第二张量T₁或列切块序列Q₁的第j个列切块B_1,j中的所有列切片按照宽度方向次序在通道方向上的拼接结果，即，T’₁.W_j.P_k’＝T₁.W_jR+k’(0≤k’<R)。

于是，从第一张量T₀到第二张量T₁的调整{T₀.W_jR+k→T₁.W_jR+k’|0≤j<N，0≤k<R，0≤k’<R}被转换为从第三张量T’₀到第四张量T’₁的调整{T’₀.W_j.P_k→T’₁.W_j.P_k’|0≤j<N，0≤k<R，0≤k’<R}，而由于{T’₀.W_j.P_k→T’₁.W_j.P_k’|0≤j<N，0≤k<R，0≤k’<R}和{T’₀.C_kC+z→T’₁.C_k’C+z|0≤z<C}对应于相同的调整操作，所以从第一张量T₀到第二张量T₁的在宽度方向上的调整{T₀.W_jR+k→T₁.W_jR+k’|0≤j<N，0≤k<R，0≤k’<R}实际上被转换为从第三张量T’₀到第四张量T’₁的在通道方向上的调整{T’₀.C_kC+z→T’₁.C_k’C+z|0≤z<C}。

相应地，在该实施例中，在示例方法100的步骤S120中，可以使卷积核序列包括R×C(即，第三张量T’₀的通道数量)个卷积核，其中，卷积核序列中的每个卷积核K_i(0≤i<R×C)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别等于1、1、1、1和R×C，并且每个卷积核K_i在通道方向上可以具有唯一非零通道，其中，对于任一调整T’₀.C_kC+z→T’₁.C_k’C+z，卷积核序列可以包括卷积核K_k’C+z，并且卷积核K_k’C+z中的唯一非零通道为K_k’C+ _z.C_kC+z。

然后，在该实施例中，可以在示例方法100的步骤S130中，使用卷积核序列对第三张量T’₀执行普通卷积运算，从而获得第四张量T’₁。由于存储数据的连续性，获得第四张量T’₁相当于获得第二张量T₁，从而实现从第一张量T₀到第二张量T₁的宽度方向上的调整。

图4示出通过根据本公开的实施例的方法在宽度方向上调整张量数据的示例。

在图4的示例中，第一张量T₀的高度、宽度和通道数量分别为H＝4、W＝4和C＝4，并且包括H×W×Z＝4×4×4＝64个体素，各个体素T₀.E_x,y,z(0≤x<4，0≤y<4，0≤z<4)的值分别为V_4x+16y+z(从V₀至V₆₃)，并且期望在宽度方向上调整张量T₀的各个列切片的次序以获得第二张量T₁，其中，所期望的调整包括T₀.W₀→T₁.W₁、T₀.W₁→T₁.W₃、T₀.W₂→T₁.W₀和T₀.W₃→T₁.W₂，并且R＝4且N＝W/R＝1，即，期望调整第一张量T₀在整个宽度范围内的所有列切片的位置。

为此，在示例方法100的步骤S110中，可以根据张量T₀确定第三张量T’₀，并且可以根据张量T₁确定第四张量T’₁，其中，T’₀.W₀.P₀＝T₀.W₀、T’₀.W₀.P₁＝T₀.W₁、T’₀.W₀.P₂＝T₀.W₂、T’₀.W₀.P₃＝T₀.W₃、T’₁.W₀.P₀＝T₁.W₀、T’₁.W₀.P₁＝T₁.W₁、T’₁.W₀.P₂＝T₁.W₂、T’₁.W₀.P₃＝T₁.W₃，使得第三张量T’₀和第四张量T’₁中的每一个的高度、宽度和高度分别为H＝4、N＝W/R＝4/4＝1和R×C＝4×4＝16。

于是，所期望的调整T₀.W₀→T₁.W₁、T₀.W₁→T₁.W₃、T₀.W₂→T₁.W₀和T₀.W₃→T₁.W₂分别转换为T’₀.W₀.P₀→T’₁.W₀.P₁、T’₀.W₀.P₁→T’₁.W₀.P₃、T’₀.W₀.P₂→T’₁.W₀.P₀和T’₀.W₀.P₃→T’₁.W₀.P₂，其分别等同于{T’₀.C₀→T’₁.C₄，T’₀.C₁→T’₁.C₅，T’₀.C₂→T’₁.C₆，T’₀.C₃→T’₁.C₇}、{T’₀.C₄→T’₁.C₁₂，T’₀.C₅→T’₁.C₁₃，T’₀.C₆→T’₁.C₁₄，T’₀.C₇→T’₁.C₁₅}、{T’₀.C₈→T’₁.C₀，T’₀.C₉→T’₁.C₁，T’₀.C₁₀→T’₁.C₂，T’₀.C₁₁→T’₁.C₃}和{T’₀.C₁₂→T’₁.C₈，T’₀.C₁₃→T’₁.C₉，T’₀.C₁₄→T’₁.C₁₀，T’₀.C₁₅→T’₁.C₁₁}。

然后，如图5所示，在步骤S120中，可以确定卷积核序列K₀→K₁→……→K₁₄→K₁₅，其中，K₀至K₁₅中的每个卷积核K_i(0≤i<16)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、1、1、1和张量T’₀的通道数量(即，16)。

如图4和图5所示，与T’₀.C₀→T’₁.C₄相对应地，卷积核序列可以包括卷积核K₄，卷积核K₄在卷积核序列中的位置(i＝4)可以取决于张量T’₁中的通道切片T’₁.C₄在张量T’₁中的位置(第4个通道)，并且K₄中的唯一非零通道K₄.C₀的位置可以取决于张量T’₀中的通道切片T’₀.C₀在张量T’₀中的位置(第0个通道)。类似地，还可以确定卷积核序列中的其他卷积核K₀至K₃以及K₅至K₁₅。

然后，可以在示例方法100的步骤S130中，使用所确定的卷积核序列K₀→K₁→……→K₁₄→K₁₅对第三张量T’₀执行普通卷积运算，并获得第四张量T’₁。由于存储数据的连续性，获得第四张量T’₁相当于获得第二张量T₁，从而实现从第一张量T₀到第二张量T₁的宽度方向上的调整。

图6示出通过根据本公开的实施例的方法在宽度方向上调整张量数据的另一示例。

在图6的示例中，第一张量T₀的高度、宽度和通道数量分别为H＝4、W＝4和C＝4，并且包括H×W×Z＝4×4×4＝64个体素，各个体素T₀.E_x,y,z(0≤x<4，0≤y<4，0≤z<4)的值分别为V_4x+16y+z(从V₀至V₆₃)，并且期望在宽度方向上调整张量T₀的各个列切片的次序以获得第二张量T₁，其中，所期望的调整包括T₀.W₀→T₁.W₁、T₀.W₁→T₁.W₀、T₀.W₂→T₁.W₃和T₀.W₃→T₁.W₂，并且R＝2且N＝W/R＝2，即，期望调整第一张量T₀在每个宽度为2的局部范围内的所有列切片的位置。

为此，在示例方法100的步骤S110中，可以根据第一张量T₀确定第三张量T’₀，并且可以根据第二张量T₁确定第四张量T’₁，其中，T’₀.W₀.P₀＝T₀.W₀、T’₀.W₀.P₁＝T₀.W₁、T’₀.W₁.P₀＝T₀.W₂、T’₀.W₁.P₁＝T₀.W₃、T’₁.W₀.P₀＝T₁.W₀、T’₁.W₀.P₁＝T₁.W₁、T’₁.W₁.P₀＝T₁.W₂、T’₁.W₁.P₁＝T₁.W₃，使得第三张量T’₀和第四张量T’₁中的每一个的高度、宽度和高度分别为H＝4、N＝2和R×C＝2×4＝8。

于是，所期望的调整T₀.W₀→T₁.W₁、T₀.W₁→T₁.W₀、T₀.W₂→T₁.W₃和T₀.W₃→T₁.W₂分别转换为T’₀.W₀.P₀→T’₁.W₀.P₁、T’₀.W₀.P₁→T’₁.W₀.P₀、T’₀.W₁.P₀→T’₁.W₁.P₁和T’₀.W₁.P₁→T’₁.W₁.P₀，其中，{T’₀.W_x.P₀→T’₁.W₀.P₁|0≤x<2}＝{T’₀.W₀.P₀→T’₁.W₀.P₁，T’₀.W₁.P₀→T’₁.W₁.P₁}等同于{T’₀.C_z→T’₁.C_z+4|0≤z<4}＝{T’₀.C₀→T’₁.C₄，T’₀.C₁→T’₁.C₅，T’₀.C₂→T’₁.C₆，T’₀.C₃→T’₁.C₇}，并且{T’₀.W_x.P₁→T’₁.W₀.P₀|0≤x<2}＝{T’₀.W₀.P₁→T’₁.W₀.P₀，T’₀.W₁.P₁→T’₁.W₁.P₀}等同于{T’₀.C_z+4→T’₁.C_z|0≤z<4}{T’₀.C₄→T’₁.C₀，T’₀.C₅→T’₁.C₁，T’₀.C₆→T’₁.C₂，T’₀.C₇→T’₁.C₃}。

然后，如图7所示，在步骤S120中，可以确定卷积核序列K₀→K₁→K₂→K₃→K₄→K₅→K₆→K₇，其中，K₀至K₇中的每个卷积核K_i(0≤i<8)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、1、1、1和张量T’₀的通道数量(即，8)。

如图6和图7所示，与T’₀.C₀→T’₁.C₄相对应地，卷积核序列可以包括卷积核K₄，卷积核K₄在卷积核序列中的位置(i＝4)可以取决于张量T’₁中的通道切片T’₁.C₄在张量T’₁中的位置(第4个通道)，并且K₄中的唯一非零通道K₄.C₀的位置可以取决于张量T’₀中的通道切片T’₀.C₀在张量T’₀中的位置(第0个通道)。类似地，还可以确定卷积核序列中的其他卷积核K₀至K₃以及K₅至K₇。

然后，可以在示例方法100的步骤S130中，使用所确定的卷积核序列K₀→K₁→K₂→K₃→K₄→K₅→K₆→K₇对第三张量T’₀执行普通卷积运算，并获得第四张量T’₁。由于存储数据的连续性，获得第四张量T’₁相当于获得第二张量T₁，从而实现从第一张量T₀到第二张量T₁的宽度方向上的调整。

在另一个实施例中，在期望在宽度方向上将第一张量T₀调整为第二张量T₁的情况下，在示例方法100的步骤S110中，也可以使第三张量T’₀与第一张量T₀相同(高度、宽度和通道数量分别为H、W和C)，并且使第四张量T’₁的高度、宽度和通道数量分别为H、N＝W/R和R×C，其中，第四张量T’₁的第j(0≤j<N)个列切片T’₁.W_j对应于第二张量T₁或列切块序列Q₁的第j个列切块B_1,j中的所有列切片按照宽度方向次序在通道方向上的拼接结果，即，T’₁.W_j.P_k’＝T₁.W_jR+k’(0≤k’<R)。

相应地，在该实施例中，在示例方法100的步骤S120中，可以使卷积核序列包括R个卷积核的数量，其中，卷积核序列中的每个卷积核K_i(0≤i<R)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别等于1、R、1、R和C(即，第三张量T’₀的通道数量)，并且每个卷积核K_i在宽度方向上可以具有唯一非零列切片，其中，对于任一调整T₀.W_jR+k→T₁.W_jR+k’(0≤j<N，0≤k<R，0≤k’<R)，卷积核序列可以包括卷积核K_k’，并且卷积核K_k’中的唯一非零列切片为K_k’.W_k。

然后，在该实施例中，可以在示例方法100的步骤S130中，使用卷积核序列对第三张量T’₀执行深度可分离卷积(Depthwise Separable Convolution)运算，从而获得第四张量T’₁。由于存储数据的连续性，获得第四张量T’₁相当于获得第二张量T₁，从而实现从第一张量T₀到第二张量T₁的宽度方向上的调整。

图8示出通过根据本公开的实施例的方法在宽度方向上调整张量数据的另一示例。

在图8的示例中，第一张量T₀的高度、宽度和通道数量分别为H＝4、W＝4和C＝4，并且包括H×W×Z＝4×4×4＝64个体素，各个体素T₀.E_x,y,z(0≤x<4，0≤y<4，0≤z<4)的值分别为V_4x+16y+z(从V₀至V₆₃)，并且期望在宽度方向上调整张量T₀的各个列切片的次序以获得第二张量T₁，其中，所期望的调整包括T₀.W₀→T₁.W₁、T₀.W₁→T₁.W₃、T₀.W₂→T₁.W₀和T₀.W₃→T₁.W₂，并且R＝4且N＝W/R＝1，即，期望调整第一张量T₀在整个宽度范围内的所有列切片的位置。

为此，在示例方法100的步骤S110中，可以根据张量T₀确定第三张量T’₀，并且可以根据张量T₁确定第四张量T’₁，其中，T’₀＝T₀、T’₁.W₀.P₀＝T₁.W₀、T’₁.W₀.P₁＝T₁.W₁、T’₁.W₀.P₂＝T₁.W₂、T’₁.W₀.P₃＝T₁.W₃，使得第三张量T’₀的高度、宽度和高度分别为H＝4、W＝4和C＝4，并且第四张量T’₁的高度、宽度和高度分别为H＝4、N＝W/R＝4/2＝2和R×C＝2×4＝8。

然后，如图8所示，在步骤S120中，可以确定卷积核序列K₀→K₁，其中，K₀至K₁中的每个卷积核K_i(0≤i<2)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、2、1、2和4。

与{T₀.W_0×2+0→T₁.W_0×2+1，T₀.W_1×2+0→T₁.W_1×2+1}相对应地，卷积核序列可以包括卷积核K₁，卷积核K₁在卷积核序列中的位置(i＝1)可以取决于切片T₁.W_0×2+1在张量T₁的列切块B_1,0中的位置或者切片T₁.W_1×2+1在张量T₁的列切块B_1,1中的位置(k’＝1)，并且K₁中的唯一非零列切片K₁.W₀的位置可以取决于切片T₀.W_0×2+0在张量T₀的列切块B_0,0中的位置或者切片T₀.W_1×2+0在张量T₁的列切块B_0,1中的位置(k＝0)。

与{T₀.W_0×2+1→T₁.W_0×2+0，T₀.W_1×2+1→T₁.W_1×2+0}相对应地，卷积核序列可以包括卷积核K₀，卷积核K₀在卷积核序列中的位置(i＝0)可以取决于切片T₁.W_0×2+0在张量T₁的列切块B_1,0中的位置或者切片T₁.W_1×2+0在张量T₁的列切块B_1,1中的位置(k’＝0)，并且K₀中的唯一非零列切片K₁.W₁的位置可以取决于切片T₀.W_0×2+1在张量T₀的列切块B_0,0中的位置或者切片T₀.W_1×2+1在张量T₁的列切块B_0,1中的位置(k＝1)。

然后，如图8所示，可以在示例方法100的步骤S130中，使用卷积核序列对第三张量T’₀执行深度可分离卷积运算，从而获得第四张量T’₁。由于存储数据的连续性，获得第四张量T’₁相当于获得第二张量T₁，从而实现从第一张量T₀到第二张量T₁的宽度方向上的调整。

在另外的实施例中，可以总是使R＝W，从而始终在整个宽度范围内进行调整，而不必关心是否在每个局部范围内具有重复或相同的调整操作。

通过根据本公开的实施例的方法，还可以在高度方向上将第一张量T₀调整为第二张量T₁，其中，同样假设第一张量T₀和第二张量T₁中的每一个的高度、宽度和通道数量分别为H、W和C。

第一张量T₀可以对应于在高度方向上的行切块序列Q’₀。第一张量T₀或行切块序列Q’₀可以包括N’(1≤N’<H)个行切块。在H可以被N’整除的情况下，行切块序列Q’₀中的每个行切块B’_0,j(0≤j<N’)可以包括第一张量T₀在高度方向上的连续的R’＝H/N’个行切片T₀.H_jR’至T₀.H_jR’+R’-1。

同时，第二张量T₁可以对应于在高度方向上的行切块序列Q’₁。第二张量T₁或行切块序列Q’₁可以包括N’个行切块。在H可以被N’整除的情况下，行切块序列Q’₁中的每个行切块B’_1,j可以包括第二张量T₁在高度方向上的连续的R’＝H/N’个行切片T₁.H_jR’至T₁.H_jR’+R’-1。

于是，在高度方向上将第一张量T₀调整为第二张量T₁可以包括将第一张量T₀的每个行切块B’_0,j以相同的列切片位置调整方式调整为第二张量T₁的列切块B_1,j，即，所期望的调整包括集合{T₀.H_jR’+k→T₁.H_jR’+k’|0≤j<N’，0≤k<R’，0≤k’<R’}＝{T₀.H_jR’→T₁.H_jR’，……，T₀.H_jR’+R’-1→T₁.H_jR’+R’-1|0≤j<N’}。

R’可以被称为在高度方向上的调整范围。在R’＝H(即，N’＝1)的情况下，意味着对第一张量T₀在整个高度范围内的所有行切片的位置进行调整。在N’>1的情况下，意味着对第一张量T₀的每个局部范围内的所有行切片的位置以相同的方式进行调整。例如，在H无法被N’整除的情况下，可以考虑使R’＝H，从而在整个高度范围内调整第一张量T₀。

在一个实施例中，在示例方法的步骤S110中，可以先确定与第一张量T₀对应于相同存储数据序列的张量T”₀以及与第二张量T₁对应于相同存储数据序列的张量T”₁，其中，张量T”₀和张量T”₁中的每一个的高度、宽度和通道数量均分别为N’＝H/R’、W×R和C，张量T”₀的第j(0≤j<N’)个行切片T”₀.H_j对应于第一张量T₀或行切块序列Q’₀的第j个行切块B’_0,j中的所有行切片按照宽度方向次序在通道方向上的拼接结果，即，T”₀.H_j.P_k＝T₀.H_jR’+k(0≤k<R’)，并且张量T”₁的第j个行切片T”₁.H_j对应于第二张量T₁或行切块序列Q’₁的第j个行切块B’_1,j中的所有行切片按照宽度方向次序在通道方向上的拼接结果，即，T”₁.H_j.P_k’＝T₁.H_jR’+k’(0≤k’<R’)。

于是，从第一张量T₀到第二张量T₁的调整{T₀.H_jR’+k→T₁.H_jR’+k’|0≤j<N’，0≤k<R’，0≤k’<R’}被转换为从张量T”₀到张量T”₁的调整{T”₀.H_j.P_k→T”₁.H_j.P_k’|0≤j<N’，0≤k<R’，0≤k’<R’}，而由于{T”₀.H_j.P_k→T”₁.H_j.P_k’|0≤j<N’，0≤k<R’，0≤k’<R’}和集合{T”₀.W_jW+k→T”₁.W_jW+k’|0≤j<N’，0≤k<R’，0≤k’<R’}对应于相同的调整操作，所以从第一张量T₀到第二张量T₁的在高度方向上的调整{T₀.H_jR’+k→T₁.H_jR’+k’|0≤j<N’，0≤k<R’，0≤k’<R’}实际上被转换为从张量T”₀到张量T”₁的宽度方向上的调整{T”₀.W_jW+k→T”₁.W_jW+k’|0≤j<N’，0≤k<R’，0≤k’<R’}，并且在宽度上的调整范围为张量T”₀的宽度W×R。

然后，可以按照在宽度方向上调整张量的方式，确定与张量T”₀对应于相同存储数据序列的第三张量T’₀以及与张量T”₁对应于相同存储数据序列的第四张量T’₁，并确定相应的卷积核序列，使得能够通过使用所确定的卷积核序列对第三张量T’₀执行卷积运算来获得第四张量T’₁。

例如，在步骤S110中，可以使第三张量T’₀对应于张量T”₀的所有列切片按照宽度方向次序在通道方向上的拼接结果，并且使第四张量T’₁对应于张量T”₁的所有列切片按照宽度方向次序在通道方向上的拼接结果。然后，在步骤S120中，可以参照与图4和图5中的示例相类似的方式确定卷积核序列，并在步骤S130中使用所确定的卷积核序列对第三张量T’₀执行普通卷积运算，从而获得第四张量T’₁。

例如，在步骤S110中，也可以使第三张量T’₀与张量T”₀相同，并且使第四张量T’₁对应于张量T”₁的所有列切片按照宽度方向次序在通道方向上的拼接结果。然后，在步骤S120中，可以参照与图8中的示例相类似的方式确定卷积核序列，并在步骤S130中使用所确定的卷积核序列对第三张量T’₀执行深度可分离卷积运算，从而获得第四张量T’₁。

在另外的实施例中，无论所期望的调整是在整个高度范围内的、还是针对每个局部范围内的，可以总是使R’＝H(相应地，N’＝H/R’＝1)。

由于第四张量T’₁、张量T”₁和第二张量T₁对应于相同存储数据序列，所以获得第四张量T’₁相当于获得第二张量T₁。

图9示出通过根据本公开的实施例的方法在高度方向上调整张量数据的示例。

在图9的示例中，第一张量T₀的高度、宽度和通道数量分别为H＝4、W＝2和C＝2，并且包括H×W×Z＝4×2×2＝16个体素，各个体素T₀.E_x,y,z(0≤x<2，0≤y<4，0≤z<2)的值分别为V_2x+4y+z(从V₀至V₁₅)，并且期望在高度方向上调整张量T₀的各个行切片的次序以获得第二张量T₁，其中，所期望的调整包括T₀.H₀→T₁.H₁、T₀.H₁→T₁.H₀、T₀.H₂→T₁.H₃和T₀.H₃→T₁.H₂，并且R’＝2且N’＝H/R’＝2，即，期望调整第一张量T₀在每个高度为2的局部范围内的所有行切片的位置。

为此，在示例方法100的步骤S110中，可以先根据第一张量T₀确定张量T”₀，并且可以根据第二张量T₁确定张量T”₁，使得T”₀.H₀.P₀＝T₀.H₀、T”₀.H₀.P₁＝T₀.H₁、T”₀.H₁.P₀＝T₀.H₂、T”₀.H₁.P₁＝T₀.H₃、T”₁.H₀.P₀＝T₁.H₀、T”₁.H₀.P₁＝T₁.H₁、T”₁.H₁.P₀＝T₁.H₂、T”₁.H₁.P₁＝T₁.H₃，其中，张量T”₀和张量T”₁中的每一个的高度、宽度和高度均分别为N’＝2、R×W＝2×2＝4和C＝4，并且张量T”₀和第一张量T₀在存储器中对应于相同的存储数据序列，张量T”₁和第二张量T₁在存储器中对应于相同的存储数据序列。

于是，所期望的调整T₀.H₀→T₁.H₁、T₀.H₁→T₁.H₀、T₀.H₂→T₁.H₃和T₀.H₃→T₁.H₂可以分别转换为T”₀.H₀.P₀→T”₁.H₀.P₁、T”₀.H₀.P₁→T”₁.H₀.P₀、T”₀.H₁.P₀→T”₁.H₁.P₁和T”₀.H₁.P₁→T”₁.H₁.P₀。

如图9所示，对于张量T”₀和张量T”₁，操作{T”₀.H₀.P₀→T”₁.H₀.P₁，T”₀.H₀.P₁→T”₁.H₀.P₀，T”₀.H₁.P₀→T”₁.H₁.P₁，T”₀.H₁.P₁→T”₁.H₁.P₀}等同于操作{T”₀.W₀→T”₁.W₂，T”₀.W₁→T”₁.W₃，T”₀.W₂→T”₁.W₀，T”₀.W₃→T”₁.W₁}，使得在高度方向上所期望的从第一张量T₀到第二张量T₁的调整{T₀.H₀→T₁.H₁，T₀.H₁→T₁.H₀，T₀.H₂→T₁.H₃，T₀.H₃→T₁.H₂}转换为在宽度方向上的从张量T”₀到张量T”₁的调整{T”₀.W₀→T”₁.W₂，T”₀.W₁→T”₁.W₃，T”₀.W₂→T”₁.W₀，T”₀.W₃→T”₁.W₁}。

进一步地，可以按照在宽度方向上在整个宽度范围内调整张量的方式，确定与张量T”₀对应于相同存储数据序列的第三张量T’₀以及与张量T”₁对应于相同存储数据序列的第四张量T’₁，并确定相应的卷积核序列。

如图10所示，在步骤S110中，可以参考图4和图5的示例的方式，确定第三张量T’₀和第四张量T’₁，使得T’₀.W₀.P₀＝T”₀.W₀、T’₀.W₀.P₁＝T”₀.W₁、T’₀.W₀.P₂＝T”₀.W₂、T’₀.W₀.P₃＝T”₀.W₃、T’₁.W₀.P₀＝T”₁.W₀、T’₁.W₀.P₁＝T’₁.W₁、T’₁.W₀.P₂＝T”₁.W₂、T’₁.W₀.P₃＝T”₁.W₃，从而将在宽度方向上的从张量T”₀到张量T”₁的调整{T”₀.W₀→T”₁.W₂，T”₀.W₁→T”₁.W₃，T”₀.W₂→T”₁.W₀，T”₀.W₃→T”₁.W₁}转换为在通道方向上的从第三张量T’₀到第四张量T’₁的调整{T’₀.C₀→T’₁.C₄，T’₀.C₁→T’₁.C₅，T’₀.C₂→T’₁.C₆，T’₀.C₃→T’₁.C₇，T’₀.C₄→T’₁.C₀，T’₀.C₅→T’₁.C₁，T’₀.C₆→T’₁.C₂，T’₀.C₇→T’₁.C₃}。

然后，如图10所示，在步骤S120中，可以参考图4和图5的示例的方式，确定卷积核序列卷积核序列K₀→K₁→……→K₆→K₇，其中，K₀至K₇中的每个卷积核K_i(0≤i<8)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、1、1、1和张量T’₀的通道数量(即，8)。

如图10所示，例如，与T’₀.C₀→T’₁.C₄相对应地，卷积核序列可以包括卷积核K₄，卷积核K₄在卷积核序列中的位置(i＝4)可以取决于张量T’₁中的通道切片T’₁.C₄在张量T’₁中的位置(第4个通道)，并且K₄中的唯一非零通道K₄.C₀的位置可以取决于张量T’₀中的通道切片T’₀.C₀在张量T’₀中的位置(第0个通道)。类似地，还可以确定卷积核序列中的其他卷积核K₀至K₃以及K₅至K₇。

然后，在步骤S130中，可以使用所确定的卷积核序列K₀→K₁→……→K₆→K₇对第三张量T’₀执行普通卷积运算，从而获得第四张量T’₁。

另外，如图11所示，在步骤S110中，可以参考图8的示例的方式，确定第三张量T’₀和第四张量T’₁，使得T’₀＝T”₀、T’₁.W₀.P₀＝T”₁.W₀、T’₁.W₀.P₁＝T’₁.W₁、T’₁.W₀.P₂＝T”₁.W₂、T’₁.W₀.P₃＝T”₁.W₃。与图8的示例不同地，在图11的示例中，在宽度方向上在整个宽度范围内调整张量T”₀，即，对于图11的示例中的在宽度方向上从T”₀或T’₀到T”₁的调整而言，相应的调整范围R＝4，并且张量T”₀或T’₀以及张量T”₁中的每一个均只包括一个等同于张量本身的列切块。

然后，如图11所示，在步骤S120中，可以参考图8的示例的方式，确定卷积核序列卷积核序列K₀→K₁→K₂→K₃，其中，K₀至K₃中的每个卷积核K_i(0≤i<4)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、4、1、4和2。

与T’₀.W_0×4+0→T”₁.W_0×4+2相对应地，卷积核序列可以包括卷积核K₂，卷积核K₂在卷积核序列中的位置(i＝2)可以取决于切片T”₁.W_0×4+2在张量T”₁(或其列切块)中的位置(k’＝2)，并且K₂中的唯一非零列切片K₂.W₀的位置可以取决于切片T”₀.W_0×4+0在张量T”₀(或其列切块)中的位置切片T’₀.W_0×4+0在张量T’₀(或其列切块)中的位置(k＝0)。

类似地，可以确定卷积核序列中的卷积核K₀、卷积核K₁和卷积核K₃。

然后，在步骤S130中，可以使用所确定的卷积核序列K₀→K₁→K₂→K₃对第三张量T’₀执行深度可分离卷积运算，从而获得第四张量T’₁。

在图4至图11的示例中，分别示出通过根据本公开的实施例的方法，在通道方向、宽度方向和高度方向中的一个维度方向上调整张量的示例。在另外的实施例中，可以结合各个示例并实现在通道方向、宽度方向和高度方向中的至少两个维度方向上调整张量。

另外，通过根据本公开的实施例的方法，还可以实现调整第一张量T₀中的任何一个或多个体素。

为此，在示例方法的步骤S110中，可以利用存储数据的连续性，根据第一张量T₀确定与第一张量T₀对应于相同存储数据序列的第三张量T’₀，并且根据第二张量T₁确定与第二张量T₀对应于相同存储数据序列的第四张量T’₁。

假设第一张量T₀和作为第一张量T₀的调整目标的第二张量T₁中的每一个的高度、宽度和通道数量分别为H、W和C，则第三张量T’₀和第四张量T’₁中的每一个的高度、宽度和通道数量可以分别为1、1和H×W×C，其中，第一张量T₀中的每个体素T₀.E_x,y,z对应于第三张量T’₀中的每个通道上的唯一体素T’₀.E_0,0,Cx+CWy+z(0≤x<W，0≤y<H，0≤z<C)，并且第二张量T’₁中的每个体素T’₁.E_x,y,z对应于第四张量T”₁中的每个通道上的唯一体素T’₁.E_0,0,Cx+CWy+z(0≤x<W，0≤y<H，0≤z<C)。

第三张量T’₀可以被视为张量T”₀的所有行切片按照高度方向次序在通道方向上的拼接结果，其中，张量T”₀对应于第一张量T₀的所有列切片按照宽度方向次序在通道方向上的拼接结果。另外，第三张量T’₀也可以被视为张量T”₀的所有列切片按照宽度方向次序在通道方向上的拼接结果，其中，张量T”₀对应于第一张量T₀的所有行切片按照高度方向次序在通道方向上的拼接结果。

类似地，第四张量T’₁可以被视为张量T”₁的所有行切片按照高度方向次序在通道方向上的拼接结果，其中，张量T”₁对应于第二张量T₁的所有列切片按照宽度方向次序在通道方向上的拼接结果。另外，第四张量T’₁也可以被视为张量T”₁的所有列切片按照宽度方向次序在通道方向上的拼接结果，其中，张量T”₁对应于第二张量T₁的所有行切片按照高度方向次序在通道方向上的拼接结果。

然后，从第一张量T₀到第二张量T₁的任一调整T₀.E_x,y,z→T₁.E_{x’,y’,z’}可以转换为从第三张量T’₀到第四张量T’₁的在通道方向上的调整T’₀.C_Cx+CWy+z→T’₁.C_{Cx’+CWy’+z’}，其中，0≤x<W，0≤y<H，0≤z<C，0≤x’<W，0≤y’<H，0≤z’<C。

然后，在示例方法的步骤S120中，可以使卷积核序列包括H×W×C(即，第三张量T’₀的通道数量)个卷积核，其中，卷积核序列中的每个卷积核K_i(0≤i<H×W×C)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别等于1、1、1、1和H×W×C，并且每个卷积核K_i在通道方向上可以具有唯一非零通道，其中，对于任一调整T₀.E_x,y,z→T₁.E_{x’,y’,z’}或T’₀.C_Cx+CWy+z→T’₁.C_{Cx’+CWy’+z’}，卷积核序列可以包括卷积核K _{Cx’+CWy’+z’}，并且卷积核K_{Cx’+CWy’+z’}中的唯一非零通道为K_{Cx’+CWy’+z’}.C_Cx+CWy+z。

图12示出通过根据本公开的实施例的方法调整第一张量T₀中的若干体素的位置的示例。

在图12的示例中，第一张量T₀的高度、宽度和通道数量分别为H＝2、W＝2和C＝2，并且包括H×W×Z＝2×2×2＝8个体素，各个体素T₀.E_x,y,z(0≤x<2，0≤y<2，0≤z<2)的值分别为V_2x+4y+z(从V₀至V₇)，并且从第一张量T₀到第二张量T₁的期望的调整包括T₀.E_0,0,0→T₁.E_0,0,0、T₀.E_0,0,1→T₁.E_0,0,1、T₀.E_1,0,0→T₁.E_0,1,0、T₀.E_1,0,1→T₁.E_0,1,1、T₀.E_0,1,0→T₁.E_1,0,0、T₀.E_0,1,1→T₁.E_1,0,1、T₀.E_1,1,0→T₁.E_1,1,0、T₀.E_1,1,1→T₁.E_1,1,1。

为此，可以在示例方法100的步骤S110中，根据第一张量T₀确定与第一张量T₀对应于相同存储数据序列的第三张量T’₀，并且根据第二张量T₁确定与第二张量T₀对应于相同存储数据序列的第四张量T’₁，其中，第一张量T₀中的每个体素T₀.E_x,y,z对应于第三张量T’₀中的每个通道上的唯一体素T’₀.E_0,0,Cx+CWy+z(0≤x<2，0≤y<2，0≤z<2)，并且第二张量T’₁中的每个体素T’₁.E_x,y,z对应于第四张量T”₁中的每个通道上的唯一体素T’₁.E_0,0,Cx+CWy+z(0≤x<2，0≤y<2，0≤z<2)。

于是，所期望的调整T₀.E_0,0,0→T₁.E_0,0,0、T₀.E_0,0,1→T₁.E_0,0,1、T₀.E_1,0,0→T₁.E_0,1,0、T₀.E_1,0,1→T₁.E_0,1,1、T₀.E_0,1,0→T₁.E_1,0,0、T₀.E_0,1,1→T₁.E_1,0,1、T₀.E_1,1,0→T₁.E_1,1,0、T₀.E_1,1,1→T₁.E_1,1,1被转换为T’₀.C₀→T’₁.C₀、T’₀.C₁→T’₁.C₁、T’₀.C₂→T’₁.C₄、T’₀.C₃→T’₁.C₅、T’₀.C₄→T’₁.C₂、T’₀.C₅→T’₁.C₃、T’₀.C₆→T’₁.C₆、T’₀.C₇→T’₁.C₇。

然后，在示例方法100的步骤S120中，可以确定卷积核序列K₀→K₁→K₂→K₃→K₄→K₅→K₆→K₇，其中，K₀至K₇中的每个卷积核K_i(0≤i<8)的高度、宽度、高度方向步长、宽度方向步长和通道数量可以分别1、1、1、1和第三张量T’₀的通道数量(即，8)。

如图12所示，例如，与T₀.E_1,0,0→T₁.E_0,1,0或T’₀.C₂→T’₁.C₄相对应地，卷积核序列可以包括卷积核K₄，卷积核K₄在卷积核序列中的位置(i＝4)可以取决于张量T’₁中的通道切片T’₁.C₄在张量T’₁中的位置(第4个通道)，并且K₄中的唯一非零通道K₄.C₂的位置可以取决于张量T’₀中的通道切片T’₀.C₂在张量T’₀中的位置(第2个通道)。

类似地，可以确定卷积核序列中的其他卷积核K₀至K₃和K₅至K₇。

然后，可以在示例方法100的步骤S130中，使用所确定的卷积核序列K₀→K₁→K₂→K₃→K₄→K₅→K₆→K₇对第三张量T’₀执行普通卷积运算并获得第四张量T’₁，从而按照所期望的调整将第一张量T₀调整为第二张量T₁。

根据本公开的实施例的方法(例如，示例方法100)利用在存储器中存储的数据的连续性，将从第一张量T₀到第二张量T₁的调整转换成从第三张量T’₀到第四张量T’₁的调整，并且通过卷积运算从第三张量T’₀获得第四张量T’₁。

然后，由于存储数据的连续性，获得第四张量T’₁也就意味着获得第二张量T₁。例如，可以将所获得的第四张量T’₁存储到存储器中，从而获得第二张量T₁的存储数据序列；然后，在后续的使用过程中，可以按照第二张量T₁的数据格式读取存储数据序列，从而直接获得第二张量T₁。由此，实现从第三张量T’₀到第四张量T’₁的调整相当于实现从第一张量T₀到第二张量T₁的调整。

数据存储的连续性使得前述转换不需要额外的处理代价，并且卷积运算可以直接使用卷积神经网络加速器来执行。由此，根据本公开的实施例的方法(例如，示例方法100)能够通过诸如卷积神经网络加速器这样的硬件高效率且低成本地实现张量数据的调整。

如前文所述，根据本公开的实施例的方法(例如，示例方法100)可以应用于例如卷积神经网络编译器或者卷积神经网络加速器或者卷积神经网络后处理器中。

例如，卷积神经网络后处理器在接收到来自卷积神经网络加速器的张量数据之后，可以例如分析准备对所接收的张量数据执行的后处理操作的程序指令或程序代码，并根据期望的处理效率和/或性能要求，确定期望对所接收的张量数据执行的调整操作和相应的目标张量。然后，卷积神经网络后处理器可以执行例如示例方法100中的步骤S110和S120。然后，卷积神经网络后处理器可以将所确定的第三张量和卷积核序列提供给例如卷积神经网络加速器，并指示卷积神经网络加速器执行普通卷积运算或深度可分离卷积运算，从而获得与第二张量相对应的存储数据序列。

例如，也可以由卷积神经网络编译器分析准备对所接收的张量数据执行的后处理操作的程序指令或程序代码，并根据在后处理中期望的处理效率和/或性能要求，确定在后处理操作中要求或期望的调整操作和相应的目标张量。然后，卷积神经网络编译器可以将所确定的第三张量和卷积核序列，例如修改预先设计好的卷积神经网络，例如可以在卷积神经网络的输出层之后添加一个或多个卷积层。

图13示出能够应用根据本公开的实施例的方法(例如，示例方法100)的装置的示例200。该示例装置200可以是卷积神经网络编译器或者卷积神经网络后处理器，也可以是卷积神经网络编译器或者卷积神经网络后处理器中的部件。

如图13所示，示例装置200可以包括至少一个处理器PU。

根据不同的实施例，处理器PU可以是具有数据处理能力和/或指令执行能力的任何形式的处理单元，例如通用处理器CPU、图形处理器GPU、现场可编程门阵列FPGA等，也可以是专用的神经网络处理器或加速器等。

处理器PU可以被配置为在启动(例如，通电)时至少执行根据本公开的实施例的方法(例如，示例方法100)的步骤。

例如，处理器PU还可以被配置为分析准备对所接收的张量数据执行的后处理操作的程序指令或程序代码COD。

另外，如图13所示，示例装置200还可以包括存储器MEM和I/O接口，并且处理器PU可以通过总线系统和/或其他形式的连接机构与存储器MEM以及I/O接口相连。

根据不同的实施例，存储器MEM可以包括各种形式的计算机可读写存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。

I/O接口可以用于向处理器PU提供参数或数据并且输出经过处理器PU处理的结果数据，并且根据不同的实施例，I/O接口可以包括有线或无线形式的网络接口、串行总线接口、红外线接口等任何适当形式的数据传输接口。

如图13所示，示例装置200可以通过I/O接口将经过扩展的张量数据和卷积核提供给卷积神经网络加速器CA。

在一个实施例中，卷积神经网络加速器CA可以包括输入缓冲器IB、权重缓冲器WB、控制器CTL、计算核心电路CC和输出缓冲器OB等部件。计算核心电路CC可以包括输入寄存器IR、一个或多个卷积引擎CE、一个或多个输出寄存器OR以及一个或多个池化电路PL等部件，其中，每个卷积引擎CE可以包括处理器阵列PA，例如可以是乘加器阵列。

应当理解，图13所示的示例装置200仅是示例性，而非限制性的。根据本公开的实施例的装置还可以具有其他部件和/或结构。

在另外的实施例中，根据本公开的实施例的装置还可以包括处理器和卷积引擎，其中，处理器可以被配置为根据第一张量和第二张量确定第三张量和第四张量，以及确定卷积核序列使得所述第四张量对应于基于所述第三张量和所述卷积核序列的卷积运算的结果，并且卷积引擎可以被配置为使用所确定的卷积核序列对第三张量执行卷积运算。

根据不同的实施例，处理器可以是具有数据处理能力和/或指令执行能力的任何形式的处理单元，例如通用处理器CPU、图形处理器GPU、现场可编程门阵列FPGA等。

在一个实施例中，卷积引擎可以是例如图13的示例中的卷积神经网络加速器CA或者图13的示例中的卷积神经网络加速器CA中的卷积引擎CE。

另外，在一个实施例中，可以在一个或多个计算机可读取的非临时性存储介质上存储或实施能够执行根据本公开的实施例的方法的各个步骤的程序指令，使得这样的非临时性存储介质能够在被计算机或其他计算装置(例如处理器)读取时提供相应的程序指令，并使得计算机或其他计算装置能够根据所读取的程序指令执行相应的操作。根据不同的实施例，程序指令能够以诸如源代码、二进制代码、中间代码等各种形式或各种形式的不同组合而实施或存储在非临时性存储介质上。

贯穿说明书和权利要求书，除非上下文清楚地另有要求，否则措词“包括”、“包含”等应当以与排他性或穷尽性的意义相反的包括性的意义来解释，也就是说，应当以“包括但不限于”的意义来解释。另外，措词“在本文中”、“上文”、“下文”以及相似含义的措词在本申请中使用时应当指作为整体的本申请，而不是本申请的任何具体部分。在上下文允许时，在使用单数或复数的以上描述中的措词也可以分别包括复数或单数。关于在提及两个或多个项目的列表时的措词“或”，该措词涵盖该措词的以下解释中的全部：列表中的任何项目，列表中的所有项目，以及列表中的项目的任何组合。

另外，在本文中，诸如“至少两个”、“多个”(等同于“至少两个”)、“两个”等明确指示数量多于一个的修饰词用于强调被修饰的对象具有复数形式。诸如“一个”、“每个”、“任何一个”、“任意一个”、“任一”等明确指示数量等于一个的修饰词用于强调被修饰的对象具有单数形式。诸如“至少一个”、“一个或多个”等修饰词用于强调被修饰的对象可以具有复数形式，也可以具有单数形式。在没有上述修饰词的情况下，或者在使用诸如“任何”等数量含义不明确的修饰词的情况下，意味着本公开的技术方案不关注或不局限于所描述的对象的特定数量，并且可以根据上下文，将所描述的对象理解为可以具有单数形式或复数形式。

虽然已经描述了本公开的一些实施例，但是这些实施例仅作为示例而呈现，而不打算限制本公开的范围。实际上，在本文中所描述的方法和系统可以采用多种其他形式来实施。另外，可以在不脱离本公开的范围的情况下，在本文中所描述的方法和装置的形式上做出各种省略、替换和改变。

Claims

1.一种调整张量数据的方法，包括：

根据第一张量和第二张量确定第三张量和第四张量，所述第二张量是所述第一张量的调整目标并且与所述第一张量具有相同的高度、宽度和通道数量，所述第三张量的存储数据序列与所述第一张量的存储数据序列相同，所述第四张量的存储数据序列与所述第二张量的存储数据序列相同；

确定卷积核序列，使得所述第四张量对应于基于所述第三张量和所述卷积核序列的卷积运算的结果；以及

使用所述卷积核序列对所述第三张量执行卷积运算；

其中，所述第二张量是在所述第一张量的通道方向、宽度方向和高度方向中的一个维度方向上或至少两个维度方向上对所述第一张量进行调整获得的。

2.根据权利要求1所述的方法，其中，所述第三张量与所述第一张量相同，并且所述第四张量与所述第二张量相同。

3.根据权利要求1所述的方法，其中，

所述第一张量在宽度方向上的第一列切块序列包括第一数量的第一列切块，每个第一列切块包括第二数量的列切片，所述第二张量在宽度方向上的第二列切块序列包括所述第一数量的第二列切块，每个第二列切块包括所述第二数量的列切片，每个第一列切块以相同的列切片位置调整方式调整为对应的第二列切块，

所述第三张量在宽度方向上的每个列切片对应于所述第一列切块序列中的相应的第一列切块中的所有列切片按照宽度方向次序在通道方向上的拼接结果，并且

所述第四张量在宽度方向上的每个列切片对应于所述第二列切块序列中的相应的第二列切块中的所有列切片按照宽度方向次序在通道方向上的拼接结果。

4.根据权利要求1所述的方法，其中，

所述第一张量在高度方向上的第一行切块序列包括第一数量的第一行切块，每个第一行切块包括第二数量的行切片，所述第二张量在高度方向上的第二行切块序列包括所述第一数量的第二行切块，每个第二行切块包括所述第二数量的行切片，每个第一行切块以相同的行切片位置调整方式调整为对应的第二行切块，

所述第三张量对应于第五张量的所有列切片按照宽度方向次序在通道方向上的拼接结果，所述第五张量在高度方向上的每个行切片对应于所述第一行切块序列中的相应的第一行切块中的所有行切片按照高度方向次序在宽度方向上的拼接结果，并且

所述第四张量对应于第六张量的所有列切片按照宽度方向次序在通道方向上的拼接结果，所述第六张量在高度方向上的每个行切片对应于所述第二行切块序列中的相应的第二行切块中的所有行切片按照高度方向次序在宽度方向上的拼接结果。

5.根据权利要求4所述的方法，其中，所述第二数量等于1。

6.根据权利要求1所述的方法，其中，

所述第三张量对应于第五张量的所有行切片按照高度方向次序在通道方向上的拼接结果，所述第五张量对应于所述第一张量的所有列切片按照宽度方向次序在通道方向上的拼接结果，并且

所述第四张量对应于第六张量的所有行切片按照高度方向次序在通道方向上的拼接结果，所述第六张量对应于所述第二张量的所有列切片按照宽度方向次序在通道方向上的拼接结果。

7.根据权利要求2至6中的任一项所述的方法，其中，

所述卷积核序列中的卷积核的数量等于所述第三张量的通道数量，

所述卷积核序列中的每个卷积核的高度、宽度、高度方向步长、宽度方向步长和通道数量分别等于1、1、1、1和所述第三张量的通道数量，

所述卷积核序列中的每个卷积核在通道方向上具有唯一非零通道，所述唯一非零通道上的每个体素的值为1，并且

对于所述第三张量中的第一通道和所述第四张量中与所述第一通道相对应的第二通道，所述卷积核序列包括第一卷积核，所述第一卷积核在所述卷积核序列中的位置取决于所述第二通道在所述第四张量中的位置，并且所述第一卷积核中的唯一非零通道的位置取决于所述第一通道在所述第三张量中的位置。

8.根据权利要求7所述的方法，其中，所述卷积运算为普通卷积运算。

9.根据权利要求1所述的方法，其中，

所述第三张量与所述第一张量相同，并且

10.根据权利要求9所述的方法，其中，

所述卷积核序列中的卷积核的数量等于所述第二数量，

所述卷积核序列中的每个卷积核的高度、宽度、高度方向步长、宽度方向步长和通道数量分别等于1、所述第二数量、1、所述第二数量和所述第三张量的通道数量，

所述卷积核序列中的每个卷积核在宽度方向上具有唯一非零列切片，所述唯一非零列切片上的每个体素的值为1，

对于每个第一列切块中的第一列切片和对应的第二列切块中的对应的第二列切片，所述卷积核序列包括第一卷积核，所述第一卷积核在所述卷积核序列中的位置取决于所述第二列切片在所述第二列切块中的位置，并且所述第一卷积核中的唯一非零列切片的位置取决于所述第一列切片在所述第一列切块中的位置。

11.根据权利要求10所述的方法，其中，所述卷积运算为深度可分离卷积运算。

12.根据权利要求1所述的方法，其中，

所述第三张量对应于所述第一行切块序列中的相应的第一行切块中的所有行切片按照高度方向次序在宽度方向上的拼接结果，并且

所述第四张量对应于第五张量的所有列切片按照宽度方向次序在通道方向上的拼接结果，所述第五张量在高度方向上的每个行切片对应于所述第二行切块序列中的相应的第二行切块中的所有行切片按照高度方向次序在宽度方向上的拼接结果。

13.根据权利要求12所述的方法，其中，

所述卷积核序列中的卷积核的数量等于所述第三张量的宽度，

所述卷积核序列中的每个卷积核的高度、宽度、高度方向步长、宽度方向步长和通道数量分别等于1、所述第三张量的宽度、1、所述第三张量的宽度和所述第三张量的通道数量，

对于所述第三张量中的第一行切片中的第一列切片和所述第五张量中的相同位置处的第二行切片中的对应的第二列切片，所述卷积核序列包括第一卷积核，所述第一卷积核在所述卷积核序列中的位置取决于所述第二列切片在所述第二行切片中的位置，并且所述第一卷积核中的唯一非零列切片的位置取决于所述第一列切片在所述第三张量中的位置。

14.根据权利要求13所述的方法，其中，所述卷积运算为深度可分离卷积运算。

15.一种计算机可读取的非临时性存储介质，在其上存储有程序指令，所述程序指令在被执行时执行根据权利要求1至14中的任一项所述的方法。

16.一种调整张量数据的装置，包括：

处理器，被配置为在被启动时至少执行根据权利要求1至14中的任一项所述的方法。

17.一种调整张量数据的装置，包括：

处理器，被配置为根据第一张量和第二张量确定第三张量和第四张量，以及确定卷积核序列使得所述第四张量对应于基于所述第三张量和所述卷积核序列的卷积运算的结果，所述第二张量是所述第一张量的调整目标并且与所述第一张量具有相同的高度、宽度和通道数量，所述第三张量的存储数据序列与所述第一张量的存储数据序列相同，所述第四张量的存储数据序列与所述第二张量的存储数据序列相同；以及

卷积引擎，被配置为使用所述卷积核序列对所述第三张量执行卷积运算；