CN111213177A

CN111213177A - 数据处理方法和设备

Info

Publication number: CN111213177A
Application number: CN201980005020.9A
Authority: CN
Inventors: 任子木; 陆正杰; 吴穹蔗; 仇晓颖
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd; Shenzhen DJ Innovation Industry Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2020-05-29
Also published as: WO2020211049A1

Abstract

一种数据处理方法和设备，可以在对图像的滤波过程中提高处理效率。方法用于利用系数矩阵对待处理矩阵的滤波处理中，待处理矩阵的子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，系数矩阵包括H组系数，每组系数包括W个系数；方法包括：读取并寄存子矩阵中的第i组数据；读取并寄存系数矩阵中的第i组系数；将第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的；将子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理。

Description

数据处理方法和设备

版权申明

技术领域

本申请涉及数据处理领域，并且更具体地，涉及一种数据处理方法和设备。

背景技术

在图像处理中，可以对图像数据进行滤波处理，从而可以实现例如对图像的噪声的抑制。

在对图像进行滤波处理时，可以采用滤波器对图像进行处理，如何在对图像的滤波过程中提高处理效率是一项亟待解决的问题。

发明内容

本申请实施例提供一种数据处理方法和设备，可以在对图像的滤波过程中提高处理效率。

第一方面，提供了一种数据处理方法，所述方法用于利用系数矩阵对待处理矩阵的滤波处理中，所述待处理矩阵包括至少一个子矩阵，所述子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，所述系数矩阵包括H组系数，每组系数包括W个系数，其中，所述N、所述H、所述W为正整数；所述方法包括：读取并在第一寄存器寄存所述子矩阵中的第i组数据，其中，i为取值从1到H的整数；读取并在第二寄存器寄存所述系数矩阵中的第i组系数；将所述第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，其中，j为取值从1到W的整数，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的；将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据。

第二方面，提供了一种数据处理设备，所述设备用于利用系数矩阵对待处理矩阵的滤波处理中，所述待处理矩阵包括至少一个子矩阵，所述子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，所述系数矩阵包括H组系数，每组系数包括W个系数，其中，所述N、所述H、所述W为正整数；所述设备包括控制电路、乘法电路、加法电路、第一寄存器和第二寄存器；控制电路，用于：读取并在第一寄存器中寄存所述子矩阵中的第i组数据，其中，i为取值从1到H的整数；读取并在第二寄存器中寄存所述系数矩阵中的第i组系数；乘法电路，用于：将所述第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，其中，j为取值从1到W的整数，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的；加法电路，用于：将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据。

因此，在本申请实施例中，利用系数矩阵对待处理矩阵的滤波处理中，至少子矩阵的第i组数据的第j个滑窗中的N个数据与第i组系数中的第j个系数的N次相乘处理是并行处理的，以及将子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据，从而可以在实现滤波处理的同时，由于多次相乘处理是并行的，可以提高硬件的利用率，并且可以进一步提高数据处理效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的滑窗操作的一种示意性图。

图2是本申请实施例的滑窗操作的另一种示意性图。

图3是本申请实施例的滑窗操作的另一种示意性图。

图4是本申请实施例的滑窗操作的另一种示意性图。

图5是本申请实施例的子矩阵与系数矩阵相乘的一种示意性图。

图6是本申请实施例的子矩阵与系数矩阵相乘的另一种示意性图。

图7是本申请实施例的子矩阵与系数矩阵相乘的另一种示意性图。

图8是本申请实施例的滑窗与系数矩阵相乘的另一种示意性图。

图9是本申请实施例的滑的一行与系数矩阵的一行相乘的一种示意性图。

图10是本申请实施例的数据处理方法的示意性流程图。

图11是本申请实施例的待处理矩阵中数据读取方式的一种示意性图。

图12是本申请实施例的寄存器及复用器的一种示意性图。

图13是本申请实施例的寄存器及复用器的另一种示意性图。

图14是本申请实施例的滑的一行与系数矩阵的一行相乘的另一种示意性图。

图15是本申请实施例的各个周期的操作的一种示意性图。

图16是本申请实施例的各个周期的操作的另一种示意性图。

图17是本申请实施例的一种硬件组件的示意性图。

图18是本申请实施例的一种数据读取方式的另一种示意性图。

图19是本申请实施例的一种数据处理设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

在对图像进行滤波处理时，可以采用滤波器对图像进行处理，本申请实施例提到的滤波器可以由系数矩阵来实现，可以将滤波器在图像数据的待处理矩阵上进行滑窗操作来实现滤波操作，该滑窗操作可以应用在各类图像处理算法中。

具体地，可以将该系数矩阵在待处理矩阵上进行滑动，每次滑动之后，可以将待处理矩阵上被系数矩阵所覆盖的部分与系数矩阵进行相乘处理，并可以输出一个值。在系数矩阵在待处理矩阵上进行滑动时，可以以先行后列的方式进行滑动，也可以先列后行的方式进行滑动。

以下将结合图1描述滑窗操作所要实现的功能。图1中是以大小为3x3的系数矩阵

为例进行说明。在本申请实施例中，每次滑动所覆盖的窗口可以称为滑窗。

如图1所示，滑窗

与系数矩阵相乘可以得到一个值O_(1,1)，然后按照步长1在行的方向上滑动，滑动之后得到的滑窗为如图2所示的

将该滑窗与系数矩阵相乘得到数据O_(1,2)，并以此类推，直到在行的方向上滑动完毕，在列的方向上按照步长1进行一次滑动，并继续按照步长1在行的方向上滑动以及进行相乘处理，直到在对应行上滑动完毕，可以如图3和如图4所示得到系数O_(2,1)，O_(2,2)，…以此类推，直到在待处理矩阵上全部滑动完毕。

待处理矩阵上的滑窗与系数矩阵的相乘处理可以是相同位置上的数据进行相乘，以及相乘得到的数据进行相加操作，即得到一个输出值。

例如，以输出值O_(1,1)为例，该输出值的计算公式可以如下式1)所示：

以输出值O_(1,2)为例，该输出值的计算公式可以如下式2)所示：

本申请实施例提供了一种滑窗操作的处理方式，可以同时实现滑窗操作中的多个相乘操作，从而可以在实现上述滑窗操作的同时，提到硬件使用率和数据处理效率。

以下将首先介绍本申请实施例的操作原理。从以上式1)和式2)以及图1-图4可以看出，对于α_(1,1)而言，需要与待处理矩阵的第一行中的数据p_(1,1)、p_(1,2)…一直到该行的倒数第三个数据分别进行相乘，对于α_(1,2)而言，需要与待处理矩阵的第一行中的数据p_(1,2)、p_(1,3)…一直到该行的倒数第二个数据分别进行相乘，以及对于α_(1,3)而言，需要与待处理矩阵的第一行中的数据p_(1,3)、p_(1,4)…一直到该行的倒数第一个数据分别进行相乘。除了待处理矩阵的第一行中的数据，对于α_(1,1)、α_(1,2)以及α_(1,3)而言，需要相乘处理的还存在待处理矩阵的第二行、第三行…一直到倒数第三行，在各个行需要相乘的数据的位置类似于第一行。

相应地，对于α_(2,1)而言，需要与待处理矩阵的第二行中的数据p_(2,1)、p_(2,2)…一直到该行的倒数第三个数据分别进行相乘，对于α_(2,2)而言，需要与待处理矩阵的第二行中的数据p_(2,2)、p_(2,3)…一直到该行的倒数第二个数据分别进行相乘，以及对于α_(2,3)而言，需要与待处理矩阵的第二行中的数据p_(2,3)、p_(2,4)…一直到该行的倒数第一个数据分别进行相乘。除了待处理矩阵的第二行中的数据，对于α_(2,1)、α_(2,2)以及α_(2,3)而言，需要相乘处理的还存在待处理矩阵的第三行、第四行…一直到倒数第二行，在各个行需要相乘的数据的位置类似于第二行。

以及，对于α_(3,1)而言，需要与待处理矩阵的第三行中的数据p_(3,1)、p_(3,2)…一直到该行的倒数第三个数据分别进行相乘，对于α_(3,2)而言，需要与待处理矩阵的第三行中的数据p_(3,2)、p_(3,3)…一直到该行的倒数第二个数据分别进行相乘，以及对于α_(3,3)而言，需要与待处理矩阵的第三行中的数据p_(3,3)、p_(3,4)…一直到该行的倒数第一个数据分别进行相乘。除了待处理矩阵的第三行中的数据，对于α_(3,1)、α_(3,2)以及α_(3,3)而言，需要相乘处理的还存在待处理矩阵的第四行、第五行…一直到倒数第一行，在各个行需要相乘的数据的位置类似于第三行。

在本申请实施例中，如图5-7所示，假设系数矩阵为高度为H宽度为W的H×W的矩阵，可以将待处理矩阵划分为多个子矩阵，每个子矩阵的高度为H，以及宽度为N+W-1，其中，占据相同行的相邻两个子矩阵，第一列相差N列，以及占据相同列的相邻两个子矩阵，第一行相差一行。如图5和图6所示，子矩阵1的第一列和子矩阵2的第一列相差N列，以及如图5和7所示，子矩阵1的和子矩阵3的第一行相差1行。

如图5-7所示，系数矩阵与子矩阵1相乘可以得到输出矩阵的第一行的N个数据，以及系数矩阵与子矩阵2相乘可以得到输出矩阵的第一行的第N+1个数据至第2N个数据。以及系数矩阵与子矩阵3相乘可以得到输出矩阵的第二行的前N个数据，以此类推。

按照以上式1)和式2)中示出的得到输出矩阵中的元素的公式，可以推出，系数矩阵的第i行中的第j个系数需要与子矩阵的第j个滑窗中第i行的每个元素分别进行相乘处理，每个滑窗分别包括N个元素，也就是每个系数需要进行N次的相乘处理，对于同一个子矩阵而言，在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，得到N个输出数据。也就是说，系数矩阵可以在子矩阵上进行滑窗操作，可以得到N个数据。

以数据[O_(1,1),O_(1,2),...O_(1,N)]为例，其计算过程可以如图8所示，在图8所示中，α_(1,1)可以与子矩阵1的第一行的一个滑窗中各个数据分别进行相乘处理，α_(1,2)可以与子矩阵1的第一行的第二个滑窗中各个数据分别进行相乘处理，以此类推，直到α_(1,w)与子矩阵1的第一行的第W个滑窗中各个数据分别进行相乘处理。对于第二行而言，α_(2,1)可以与子矩阵1的第二行的一个滑窗中各个数据分别进行相乘处理，α_(2,2)可以与子矩阵1的第二行的第二个滑窗中各个数据分别进行相乘处理，以此类推，直到α_(2,w)与子矩阵1的第二行的第W个滑窗中各个数据分别进行相乘处理。其他行以此类推。其中，在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据[O_(1,1),O_(1,2),...O_(1,N)]。

基于以上分析，以及结合图9可以看到，以第1行为例，在行的方向的计算可以等效于：在长度为(N+W-1)的输入序列上，进行W次的内部滑窗，该内部滑窗的宽度为N，同时在长度为W的系数序列上，也进行W次内部滑窗，该内部滑窗的宽度为1，具体实现可以如图9所示，可以得到[T_(1,1),T_(1,2),...T_(1,N)]。当第一行的(N+W-1)个数据处理完毕之后，可以再读入第二行的(N+W-1)个数据，并重复上述操作，以此类推。

从以上描述可以看出，对于滑窗操作，对于系数矩阵中的系数，一个系数可以与一个滑窗窗口中的所有数据进行相乘，不同的系数可以与不同的滑动窗口的数据相乘，各个滑窗窗口得到的相乘结果可以按照位置进行相加。因此，一个系数针对一个窗口的多次相乘处理可以并行处理，从而可以提高滑窗操作的效率，并且由于设备的结构中通常存在多个乘法器，则该多个乘法器可以被同时使用，从而可以提高硬件的利用率。

图10是根据本申请实施例的数据处理方法100的示意性方法的流程图。该方法可以由数据处理设备执行。本申请实施例中的数据处理设备可以是滤波器、编码器、解码器或编解码器等。

该方法100可以用于利用系数矩阵对待处理矩阵的滤波处理中，所述待处理矩阵包括至少一个子矩阵，所述子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，所述系数矩阵包括H组系数，每组系数包括W个系数，其中，所述N、所述H、所述W为正整数。

在一种实现方式中，所述H组数据中每组数据为所述子矩阵的一行数据，所述H组系数中每组系数为所述系数矩阵的一行系数。

也就是说，所述子矩阵包括H行数据，每行数据包括W个滑窗，每个滑窗包括N个数据，系数矩阵包括H行系数，每行系数包括W个系数。

在本申请实施例中，系数矩阵在子矩阵中滑动的步长可以为1，则此时，子矩阵一行包括的数据可以是N+W-1个，也就是说该子矩阵可以具有N+W-1列。

例如，如图5-7中所示的子矩阵1、子矩阵2和子矩阵3即为本申请实施例提到的子矩阵，

在该种实现方式中，相邻两个子矩阵相差N列数据。例如，如图5和6所示，第一个子矩阵向右移动N列得到了第二个子矩阵。

在一种实现方式中，所述H组数据中每组数据为所述子矩阵的一列数据，所述H组系数中每组系数为所述系数矩阵的一列系数。

也就是说，所述子矩阵包括N列数据，每列数据包括W个滑窗，每个滑窗包括N个数据，系数矩阵包括N列系数，每列系数包括W个系数。

在本申请实施例中，滑窗在子矩阵中滑动的步长可以为1，则此时，子矩阵一列包括的数据可以是N+W-1个，也就是说具有N+W-1行，子矩阵具有H列。在该种实现方式中，相邻两个所述子矩阵相差N行数据。

在110中，数据处理设备读取并在第一寄存器中寄存子矩阵中的第i组数据，其中，i为取值从1到H的整数。

可选地，在本申请实施例中，数据处理设备可以利用多个周期读取该第i组数据，例如，假设每组数据包括N+W-1个数据，每个周期可以读取N个数据，并可以在多个周期内对该数据进行读取完毕。

例如，如图11，可以采用如下的方式读取子矩阵：

1)针对第1行，可以先读入N个数据，再读入N个数据，直到读入的数据为N+W-1。

2)第2行，先读入N个数据，再读入N个数据，直到读入的数据为N+W-1。

3)以此类推，一直到H行全部读完。

可选地，在本申请实施例中，可以存在多个第一寄存器用于寄存子矩阵中的数据。

可选地，在本申请实施例中，N的取值是基于用于寄存所述子矩阵的第一寄存器的容量和/或乘法器的数量确定的。

具体地，由于用于寄存子矩阵的寄存器的容量是有限的，则限制了每个周期读取的数据量，以及读取的数据是用于进行乘法处理的，乘法器也可以用于限制每个周期读取子矩阵的数据量。

可选地，N小于或等于W。

在120中，数据处理设备读取并在第二寄存器中寄存所述系数矩阵中的第i组系数。

可选地，在本申请实施例中，在读取所述第i组数据的多个周期的第一个周期内，所述第i组系数中的至少一个系数被读取。

具体而言，由于在读取子矩阵中的数据之后，需要与系数矩阵中的系数进行相乘处理，为了保证能够及时进行该相乘处理，可以在读取第i组数据的第一个周期内，即进行系数的读取。也就是说，在第一个周期内，可以并行进行系数与数据的读取。

其中，由于系数矩阵中各组系数的数据量较小，可以在该第一个周期内，读取所述第i组系数中的W个系数。

在130中，数据处理设备将所述第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，其中，j为取值从1到W的整数，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的。

例如，如图9所示，α_(1,1)与数据[p_(1,1),p_(1,2),...p_(1,N)]中各个数据进行的相乘处理可以是并行进行的，α_(1,2)与数据[p_(1,2),p_(1,3),...p_(1,N+1)]中各个数据进行的相乘处理可以是并行进行的，以此类推。

在140中，数据处理设备将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据。

具体地，数据处理设备可以将所有滑窗中的相同位置的数据对应的相乘处理结果进行相加处理，以得到N个数据。例如，可以将所有滑窗中的第一个数据对应的相乘结果进行相加处理，得到N个数据中的第一个数据，将所有滑窗中的第二个数据对应的相乘结果进行相加处理，得到N个数据中的第二个数据，以此类推，直到得到N个数据。

可选地，在本申请实施例中，在所述第一个周期读取且寄存数据之后以及第二个周期读取的数据寄存之前，第一个滑窗中的N个数据与第一个系数的N次相乘处理是并行处理的，以得到第一个滑窗对应的N个第一处理结果。

可选地，在本申请实施例中，将所述第一个滑窗对应的所述N个第一处理结果输出到第一寄存器，用于结合W*H个滑窗中除所述第一个滑窗之外的其他滑窗得到的处理结果，以得到所述N个输出数据。

具体而言，在第一个周期中，由于第一个滑窗得到的处理结果需要与其他的滑窗得到处理结果进行相加处理，而其他的滑窗操作需要在其他的周期进行处理，因此，可以在第一寄存器中先寄存该数据。

可选地，在本申请实施例中，在第二个周期读取并寄存数据之后，s个滑窗对应的s*N个相乘处理是并行处理的，其中，s为大于或等于2且小于等于W-1的整数。

具体而言，在第一个周期被读取之后，在其他的周期内，由于读取了新的数据，在滑窗的步长较小的情况下，例如为1的情况下，已存储的数据可以对应于多个滑窗，从而存在多个滑窗的相乘处理是并行进行的。

其中，s的取值可以是根据可用的乘法器的数量确定的。

此处提到的s是整数，也就是说整数个滑窗中的相乘处理可以是并行进行的。但应理解，本申请实施例并不限于此，本申请实施例中，也可以是非整数个滑窗中的相乘处理是并行进行的。

可选地，在本申请实施例中，将所述s个滑窗中在滑窗内具有相同位置的数据对应的相乘结果进行相加处理，以得到N个第二处理结果；将所述N个第二处理结果存储到第三寄存器，用于结合W*H个滑窗中除所述s个滑窗之外的其他滑窗得到的处理结果，以得到所述N个输出数据。

在本申请实施例中，在当前子矩阵的所有图像数据进行了相乘处理之后，可以将各个滑窗内具有相同位置的相乘结果进行相加处理。或者，在本申请实施例中，也可以在部分图像数据进行了相乘处理之后，将在滑窗内具有相同位置的相乘结果进行相加处理，相加处理得到的值再与其他的具有相同位置的相乘结果进行相加处理。

可选地，在本申请实施例中，在任一数据从第一寄存器被读取用于相乘处理后，将所述任一数据从所述第一寄存器中删除。

具体而言，由于子矩阵中的数据可以仅用于一次的相乘处理，在进行相乘处理之后，该数据将是无效的数据，此时可以将该数据从第一寄存器中进行删除。

可选地，在本申请实施例中，在所述任一数据被从第一寄存器中删除之后，移动所述第i组数据中剩余的数据，使得所述任一数据占用的存储位置被占用。

具体而言，由于数据的读取是按照一定的顺序的，则可以将剩余的数据进行移动，空余的位置可以填充新的数据。

为了更加清楚地理解本申请，以下将以下场景举例进行说明：N＝32，W＝32，每个端口可用的系统带宽为512比特，存在3个寄存器，分别为寄存器0、寄存器1和寄存器2，寄存器0可以用于存储系数，寄存器1和2可以用于存储图像数据，每个寄存器的位宽可以是512比特，也即每个寄存器可以存储512比特的数据，每个数据所占用的比特数量为16比特，存在两个端口a和b，分别用于读取子矩阵中的图像数据和系数矩阵中的系数，每个端口可用系统带宽为512比特，可用的乘法器的数量为64。

由于寄存器的位宽是512比特，则可以存储32个图像数据，则32个图像数据与系数的相乘处理可以是并行进行的。

在每个周期内，可以进行一个系数的相乘处理，也就是说存在32个乘法器被利用到，如果内部存在多于32的乘法器，例如，64个乘法器，则乘法器的利用率为50％。

在处理电路读取数据时，在周期A内，可以将通过端口a读取的32个图像数据寄存到寄存器1中，以及将通过端口b读取的32个系数寄存到寄存器0中。以及在该周期A的下一个周期，可以将通过端口a读取的32个图像数据寄存到寄存器2(其中，部分数据可以寄存到寄存器1)中，则此时可以存在64个图像数据。

则针对周期A存储的数据，可以进行第1个系数的同步相乘处理。而针对该周期A的下一个周期存储的数据，可以进行两个系数的同步相乘处理，这是由于存储的数据已经到达了64个数据，第2个系数需要相乘的数据是第2至33个图像数据，而第3个系数需要相乘的图像数据为第3至34个图像数据。

因此，为了提高乘法器的利用率，可以在除了用于相乘处理的第一个周期之外的其他周期，可以并行进行多个系数两个系数的乘法处理，例如，2个系数的相乘处理，也就是说，可以存在64个乘法器被利用到，此时乘法器的利用率可以通过以下式3)得到：

其中，W可以是指每行数据包括的系数的数量。

在本申请实施例中，每个寄存器可以对应有一个复用器，复用器可以存在多个选择信号，其中，该多个选择信号中的每个选择信号分别对应寄存器的一种处理，复用器收到一种选择信号时，可以使能寄存器进行对应的处理。

例如，存在三个选择信号，即信号0、信号1和信号2。对于信号0而言，可以选择交叉开关矩阵(crossbar)上准备的数据或系数，并存储到寄存器(例如以下的寄存器0或1)中，或者不进行数据的读取和寄存(例如，以下的寄存器2)；对于信号1而言，寄存器中的X比特的数据或系数被读取并消除该数据或系数(例如以下的寄存器0、1和2)；对于信号2而言，寄存器中的Y比特的数据或系数被读取并消除该数据或系数(例如以下的寄存器0、1和2)。其中，X的取值和Y的取值可以不相同。

如图12所示，对于用于存储系数的寄存器0而言，在第一个周期，复用器收到的选择信号可以为0，此时，处理电路可以选择交叉开关矩阵(crossbar)上准备的系数，并将该系数存储到寄存器0中(交叉开关矩阵上选择数据与在寄存器中寄存数据可以延迟一个周期)，在第二个周期，复用器收到的选择信号可以为1，此时寄存器0中的一个系数被读取用于进行滤波处理中的相乘处理(如图14中的a))，则可以消除寄存器中该系数(16比特)，具体可以将寄存器中的数据右移16比特。在第三个周期起之后的周期，复用器收到的选择信号可以为2，此时，寄存器0中的两个系数可以被读取用于滤波处理中的乘法处理，则可以消除寄存器0中2个系数(32比特)，具体可以将寄存器0中的数据右移32比特。

如图13所示，对于用于存储图像数据的寄存器1和2，在第一个周期，寄存器1的复用器和寄存器2的复用器收到的选择信号可以为0，此时可以选择交叉开关矩阵上准备的32个图像数据，并将该图像数据存储到寄存器1中(从交叉开关矩阵上选择数据与在寄存器中寄存数据可以延迟一个周期)，寄存器2中不存储数据；在第二个周期，寄存器1和寄存器2的复用器收到的选择信号为1，第一个系数的相乘处理开始(如图14中的a))，第一个图像数据在被相乘处理之后，可以删除，此时可以将寄存器1中的数据向右移动16比特；可以将读取的512比特的数据中低位数据存储到寄存器1中的高位，以及将剩余的496比特的数据存储到寄存器2中；从第三个周期开始，寄存器1和寄存器2的复用器收到的选择信号是2，每个周期进行2个系数的相乘处理(如图14中的b)和c)同步进行)，则可以删除掉2个图像数据，则此时可以将寄存器1和寄存器2作为一个整体向右移动32比特的数据，直到一行数据被处理完毕。

应理解，针对寄存器，以向右移动来消除一定比特的数据或系数为例进行说明的，但是本申请实施例并不限于此，也可以通过向左移动来消除一定比特的数据或系数。

按照以上提到的处理方式，系数矩阵中的一行系数进行的相乘处理需要的周期数T可以通过以下公式4)得到：

其中，W可以是指每行数据包括的系数的数量。

在本申请实施例中，可以设置一种计数器(如图15所示的计数器2)，该计数器可以用来确定寄存器当前应有的状态，当处理电路接收到启动信号之后，可以进行针对一行系数的处理(具体，具体开始为向交叉开关矩阵获取数据)，此时可以从0开始进行计数器的计数，每经历一个周期，计数器加1，当计数器计数到T-1时，也就是计算完系数矩阵的一行数据后，计算器的值可以变为0，开始进行下一行系数矩阵的处理，对于一个H行和W列的系数矩阵，可以执行H次上述操作。

如图15所示，假设T＝W，则计数器2的计数可以是从0到W-1，在计数器2的计数为0时，寄存器的选择信号为0，在计数器的计数为1时，寄存器的选择信号为1，在计数器的计数为从2到W-1时，寄存器的选择信号为2。

在本申请实施例中，寄存器中寄存的图像数据和系数可以是交叉开关矩阵上已准备好的数据，上述计数器的起始点可以是向交叉开关矩阵获取数据，以用于存储到寄存器中，在本申请实施例中，在将图像数据和系数在交叉开关矩阵上准备好之前，需要使能上述提到的a端口和b端口，以向存储有图像数据的和系数的存储器发送读请求，存储器接收到读请求之后，将会返回图像数据和系数，这将会带来一定的延迟，例如，如图15所示，从a端口和b端口发出使能信号，到向交叉开关矩阵上获取数据以存储到寄存器中存在三个周期的延迟，在该种情况下，可以设置另一个计数器(例如，如图15所示的计数器1)，该计数器1可以用于确定端口a和b应有的状态，例如，如图15所示，在计数器1的计数为0时，端口a和b发出使能信号，在计数器1的计数为1时，端口a发出使能信号。

本申请实施例可以实现待处理矩阵中的数据的流水式处理，图16所示的是在系数矩阵为3*5时的滑窗过程的流水式处理。

在系数矩阵为3*5时，针对待处理的矩阵，每行的数据处理是3个周期，数据在交叉开关矩阵上被准备相比于读请求的发出，延迟3个周期，从数据被寄存到寄存器中相比于其在交叉开关矩阵上被准备好延迟一个周期；其中，请求1和请求2可以是针对第一行数据的读请求，数据1和数据2是分别由请求1和请求2请求得到的数据，请求3和请求4可以是针对第二行数据的读请求，数据3和数据4是分别由请求3和请求4请求得到的数据，请求5和请求6可以是针对第三行数据的读请求，数据5和数据6是分别由请求5和请求6请求得到的数据，在对数据与系数进行相乘处理之前，可以对数据进行预处理，从图16中可以看出，预处理的数据可以是连续的。以及相乘处理也是连续的，这是由于数据1和数据2中分别包括了较多数量的数据，而每个周期仅进行一个系数或两个系数的相乘处理，每次需要删除一个或两个数据，从而可以保证数据处理的连续性，实现乘法器利用的最大化，从而可以提高处理效率。

应理解，以上图16所示的方案是以系数矩阵中每行的系数是3个为例进行说明的，但是本申请实施例并不限于此，此时，请求2和请求3之间的周期的数量可以是T-2。

以上介绍了本申请实施例的数据处理方法，以上的数据处理方法可以采用如图17所示的硬件组件。

在如图17所示的硬件组件中，可以包括至少一个用于存储输入数据(或系数)的并行流式存储器、并行执行单元(可以是上文提到的处理电路)和至少一个用于存储输出数据的并行流式存储器。

用于存储输入数据(或系数)的并行流式存储器可以包括例如如图17所示的并行流式存储器A、并行流式存储器B，用于存储输出数据的并行流式存储器可以例如如图17所示的并行流式存储器C，每个并行流式存储器可以包括至少一个随机接入存储器(RandomAccess Memory，RAM)，例如，如图17所示的RAM#1,#2,#3…#N。

并行执行单元可以包括至少一个输入端口(例如，端口a和b(可以对应于上文提到的a和b)，分别连接至至少一个用于存储输入数据(或系数)的并行流式存储器，以及并行执行单元的输出端口c可以连接至用于存储输出数据的并行流式存储器。如图17所示，并行执行单元的输入端口a和b分别连接至并行流式存储器A和并行流式存储器B，并行执行单元的输出端口c分别连接至并行流式存储器C。

用于存储输入数据(或系数)的并行流式存储器可以包括地址生成单元(AddressGeneration Unit，AGU)，该地址生成单元可以基于并行执行单元发出的读请求生成用于RAM输出数据的并行读地址。以及用于存储输出数据的并行流式存储器可以包括AGU，该AGU可以基于并行执行单元的写请求生成写地址。

以下介绍该硬件组件的工作过程。该工作过程具体可以如下所示。

1)并行执行单元的输入端口a/b发出读请求给并行流式存储器A/B的AGU。其中，每个并行读请求包含N个数据(或系数)的读请求。

2)并行流式存储器A/B的AGU产生N个数据(或系数)的并行读地址给N个RAM。

3)并行流式存储器A/B分别输出N个并行读数据(或系数)。

4)并行执行单元处理从输入端口A/B获得的数据(或系数)，然后通过输出端口C发出1个并行写请求给并行流式存储器C的AGU、以及N个并行写数据是给并行流式存储器C。其中，每个并行写请求可以包含N个数据的写请求。

5)并行流式存储器C的AGU产生N个并行写地址给N个RAM，并行写数据被写入这些RAM。

6)可以重复(1)～(5)。

基于以上所述的硬件组件可以看出，并行流式存储器可以并行地输出/输入N个数据。其中，AGU产生N个数据的地址，给N个不同的RAM。并行执行单元可以并行地输入/处理/输出N个数据。

图18示出的数据处理的示意性图。如图18所示，每个数据占用的地址长度可以为地址长度1，针对第一行，以基地址1为基准，可以从RAM中读取W个数据，也即图18中的灰色部分，后面的虚线框代表后续需要读取的数据，直到N+W-1个数据被读入。

在计数器重新变为0时，针对第二行，基地址变为地址2(地址1与地址2之间的地址长度为地址长度2)，可以以地址2为基准，读取N+W-1个具有地址长度1的数据(读取方式类似于第一行)，依次类推，直到把图18中所示的左部分的多行数据被读取。

然后可以跳转到图18中右部分的数据，此时计数器可以为0，针对第一行，基地址变为地址3(地址1与地址3之间的地址长度为地址长度3)，可以以地址3为基准，读取N+W-1个具有地址长度为1的数据，类似于左部分的数据的处理，直到把该右部分的多行数据处理完毕。

其中，在从RAM中读取数据时，可以采用图17所示的硬件组件，针对每一行的数据，可以先分别从N个RAM中每个读取一个数据，再从N个RAM中的每个读取一个数据，直到读取N+W-1个数据。

图19是根据本申请实施例的数据处理设备200的示意性框图。如图19所示，该设备用于利用系数矩阵对待处理矩阵的滤波处理中，所述待处理矩阵包括至少一个子矩阵，所述子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，所述系数矩阵包括H组系数，每组系数包括W个系数，其中，所述N、所述H、所述W为正整数；

所述设备200包括控制电路210、乘法电路220、加法电路230、第一寄存器240和第二寄存器250；

控制电路210，用于：读取并在第一寄存器240中寄存所述子矩阵中的第i组数据，其中，i为取值从1到H的整数；读取并在第二寄存器250中寄存所述系数矩阵中的第i组系数；

乘法电路220，用于：将所述第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，其中，j为取值从1到W的整数，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的；

加法电路230，用于：将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据。

可选地，本申请实施例中的乘法电路可以包括至少一个乘法器。可选地，本申请实施例中的加法电路可以包括至少一个加法器。

可选地，在本申请实施例中，所述第i组数据由多个周期读取，每个周期读取N个数据；

在读取所述第i组数据的多个周期的第一个周期内，所述第i组系数中的至少一个系数被读取。

可选地，在本申请实施例中，在所述第一个周期内，所述第i组系数中的W个系数被读取。

可选地，在本申请实施例中，设备200还包括第三寄存器260，所述控制电路210，用于：

将所述第一个滑窗对应的所述N个第一处理结果输出到第三寄存器，用于结合W*H个滑窗中除所述第一个滑窗之外的其他滑窗得到的处理结果，以得到所述N个输出数据。

可选地，在本申请实施例中，所述s的取值是基于可用乘法器的数量确定的。

可选地，在本申请实施例中，将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘结果进行相加处理，以输出N个数据，包括：

将所述s个滑窗中在滑窗内具有相同位置的数据对应的相乘结果进行相加处理，以得到N个第二处理结果；

将所述N个第二处理结果存储到所述第三寄存器，用于结合W*H个滑窗中除所述s个滑窗之外的其他滑窗得到的处理结果，以得到所述N个输出数据。

可选地，在本申请实施例中，所述W小于或等于N。

可选地，在本申请实施例中，所述N的取值是基于用于寄存所述第一寄存器的容量和/或乘法电路包括的乘法器的数量确定的。

可选地，在本申请实施例中，所述控制电路210进一步用于：

在所述第i组数据中任一数据从所述第一寄存器被读取用于相乘处理后，将所述任一数据从所述第一寄存器中删除。

可选地，在本申请实施例中，所述控制电路210进一步用于：

在所述任一数据被从所述第一寄存器中删除之后，移动所述第i组数据中剩余的数据，使得所述任一数据占用的存储位置被占用。

可选地，在本申请实施例中，所述H组数据中每组数据为所述子矩阵的一行数据，所述H组系数中每组系数为所述系数矩阵的一行系数。

可选地，在本申请实施例中，在行的方向上，相邻两个所述子矩阵相差N列数据。

可选地，在本申请实施例中，所述H组数据中每组数据为所述子矩阵的一列数据，所述H组系数中每组系数为所述系数矩阵的一列系数。

可选地，在本申请实施例中，在行的方向上，相邻两个所述子矩阵相差N行数据。

应理解，该设备200可以用于实现上述方法实施例中由数据处理设备实现的相应操作，为了简洁，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法用于利用系数矩阵对待处理矩阵的滤波处理中，所述待处理矩阵包括至少一个子矩阵，所述子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，所述系数矩阵包括H组系数，每组系数包括W个系数，其中，所述N、所述H、所述W为正整数；

所述方法包括：

读取并在第一寄存器寄存所述子矩阵中的第i组数据，其中，i为取值从1到H的整数；

读取并在第二寄存器寄存所述系数矩阵中的第i组系数；

将所述第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，其中，j为取值从1到W的整数，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的；

将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据。

2.根据权利要求1所述的方法，其特征在于，所述第i组数据由多个周期读取，每个周期读取N个数据；

3.根据权利要求2所述的方法，其特征在于，在所述第一个周期内，所述第i组系数中的W个系数被读取。

4.根据权利要求2或3所述的方法，其特征在于，在所述第一个周期读取且寄存数据之后以及第二个周期读取的数据寄存之前，第一个滑窗中的N个数据与第一个系数的N次相乘处理是并行处理的，以得到第一个滑窗对应的N个第一处理结果。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2至5中任一项所述的方法，其特征在于，在第二个周期读取并寄存数据之后，s个滑窗对应的s*N个相乘处理是并行处理的，其中，s为大于或等于2且小于等于W-1的整数。

7.根据权利要求6所述的方法，其特征在于，所述s的取值是基于可用乘法器的数量确定的。

8.根据权利要求6或7所述的方法，其特征在于，将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘结果进行相加处理，以输出N个数据，包括：

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述W小于或等于N。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述N的取值是基于用于寄存所述第一寄存器的容量和/或用于相乘处理的乘法器的数量确定的。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述H组数据中每组数据为所述子矩阵的一行数据，所述H组系数中每组系数为所述系数矩阵的一行系数。

14.根据权利要求13所述的方法，其特征在于，在行的方向上，相邻两个所述子矩阵相差N列数据。

15.根据权利要求1至12中任一项所述的方法，其特征在于，所述H组数据中每组数据为所述子矩阵的一列数据，所述H组系数中每组系数为所述系数矩阵的一列系数。

16.根据权利要求15所述的方法，其特征在于，在行的方向上，相邻两个所述子矩阵相差N行数据。

17.一种数据处理设备，其特征在于，所述设备用于利用系数矩阵对待处理矩阵的滤波处理中，所述待处理矩阵包括至少一个子矩阵，所述子矩阵包括H组数据，每组数据包括W个滑窗，每个滑窗具有N个数据，所述系数矩阵包括H组系数，每组系数包括W个系数，其中，所述N、所述H、所述W为正整数；

所述设备包括控制电路、乘法电路、加法电路、第一寄存器和第二寄存器；

所述控制电路，用于：读取并在所述第一寄存器中寄存所述子矩阵中的第i组数据，其中，i为取值从1到H的整数；读取并在所述第二寄存器中寄存所述系数矩阵中的第i组系数；

所述乘法电路，用于：将所述第i组数据包括的W个滑窗中的第j个滑窗中的N个数据与第i组系数包括的W个系数中的第j个系数分别进行相乘处理，其中，j为取值从1到W的整数，至少第j个滑窗中的N个数据与第j个系数的N次相乘处理是并行处理的；

所述加法电路，用于：将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘处理结果进行相加处理，以得到N个输出数据。

18.根据权利要求17所述的设备，其特征在于，所述第i组数据由多个周期读取，每个周期读取N个数据；

19.根据权利要求18所述的设备，其特征在于，在所述第一个周期内，所述第i组系数中的W个系数被读取。

20.根据权利要求18或19所述的设备，其特征在于，在所述第一个周期读取且寄存数据之后以及第二个周期读取的数据寄存之前，第一个滑窗中的N个数据与第一个系数的N次相乘处理是并行处理的，以得到第一个滑窗对应的N个第一处理结果。

21.根据权利要求20所述的设备，其特征在于，还包括第三寄存器，所述控制电路，用于：

22.根据权利要求18至21中任一项所述的设备，其特征在于，在第二个周期读取并寄存数据之后，s个滑窗对应的s*N个相乘处理是并行处理的，其中，s为大于或等于2且小于等于W-1的整数。

23.根据权利要求22所述的设备，其特征在于，所述s的取值是基于可用乘法器的数量确定的。

24.根据权利要求22或23所述的设备，其特征在于，将所述子矩阵包括的W*H个滑窗中在滑窗内具有相同位置的数据对应的相乘结果进行相加处理，以输出N个数据，包括：

25.根据权利要求17至24中任一项所述的设备，其特征在于，所述W小于或等于N。

26.根据权利要求17至25中任一项所述的设备，其特征在于，所述N的取值是基于用于寄存所述第一寄存器的容量和/或乘法电路包括的乘法器的数量确定的。

27.根据权利要求17至26中任一项所述的设备，其特征在于，所述设备还包括：

28.根据权利要求27所述的设备，其特征在于，所述设备还包括：

29.根据权利要求17至28中任一项所述的设备，其特征在于，所述H组数据中每组数据为所述子矩阵的一行数据，所述H组系数中每组系数为所述系数矩阵的一行系数。

30.根据权利要求29所述的设备，其特征在于，在行的方向上，相邻两个所述子矩阵相差N列数据。

31.根据权利要求17至28中任一项所述的设备，其特征在于，所述H组数据中每组数据为所述子矩阵的一列数据，所述H组系数中每组系数为所述系数矩阵的一列系数。

32.根据权利要求31所述的设备，其特征在于，在行的方向上，相邻两个所述子矩阵相差N行数据。