CN104238994A

CN104238994A - 一种提高协处理器运算效率的方法

Info

Publication number: CN104238994A
Application number: CN201410440429.2A
Authority: CN
Inventors: 王可; 曾永红; 朱天成; 周津; 鲁毅; 纪策
Original assignee: No 8357 Research Institute of Third Academy of CASIC
Current assignee: Tianjin Jinhang Computing Technology Research Institute
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2014-12-24
Anticipated expiration: 2034-09-01
Also published as: CN104238994B

Abstract

本发明公开了一种提高协处理器运算效率的方法。该方法向协处理器中开辟的向量数据存储空间不再是一整块内存，而是由n个N长度的存储块组成的存储块阵列。这样的内存结构可在一个时钟内同时对n个存储块进行读操作，一次读出n个数据。当数据进入协处理器时，协处理器根据存储块阵列的结构，将数据写入存储块阵列中，每当完成一个完整向量数据的接收，则产生一次互相关使能信号，启动数据准备逻辑电路。在上述高效内存结构下，数据准备逻辑电路可以实现一个时钟周期即准备好互相关向量，提供给互相关运算电路，支持该运算电路的流水化计算。这样就可使得协处理器在接收数据、准备数据的同时进行数据的互相关计算。

Description

一种提高协处理器运算效率的方法

技术领域

本发明涉及计算机硬件方法设计领域，具体是一种提高协处理器运算效率的方法。

背景技术

在图像处理、模式识别和信息搜索等众多领域，都需要对协处理器中的多个一维向量进行相关匹配运算，以考查向量间的相关性。常用的相关运算有绝对差、均方差和积相关等多种，在实际中会根据具体应用，从精度、效率和通用性三个方面来衡量以选择较优的算法。虽然相关算法有所不同，但归根结底都是两个向量对应点的遍历计算。对于一个有N个n点向量的集合，向量互相关(两两相关)需要进行次运算(运算次数是O(N²)级)，同时相关运算本身也较为复杂，所以一维向量互相关是运算密集的算法，运算量较大，在实时性要求严格的领域都需要通过FPGA实现算法协处理器来辅助计算。

对于N个n点一维向量的互相关算法来说，传统按部就班的设计方法和工作流程如下(参见图1)：

(1)外部处理单元将N个向量(第一向量、第二向量、……、第N向量，共N×n个点数据)发送给协处理器，协处理器接收到向量数据并保存在预先开辟的一整块足够大的内存空间中；

(2)协处理器完成所有N个向量的数据接收和存储后启动互相关运算流程。互相关运算流程中包括数据准备和互相关运算两个步骤。其中数据准备是将要进行互相关运算的两个向量缓存到运算缓存区A和运算缓存区B；而互相关运算本身则是成熟的硬件电路，实现对运算缓存区A和运算缓存区B中的数据进行相关运算，能够流水化计算；

(3)在数据准备时，协处理中的数据准备逻辑电路首先从内存中读取第一向量缓存到运算缓存区A，再读取第二向量缓存到运算缓存区B，再将运算缓存区A中的第一向量与运算缓存区B中的第二向量进行互相关运算；

(4)协处理器完成步骤(3)的互相关运算后读取第三向量缓存到运算缓存区B，再将运算缓存区A中的第一向量与运算缓存区B中的第三向量进行互相关运算。以此类推，即可完成第一向量与第N向量的互相关运算；

(5)再从内存空间读取第二向量缓存到运算缓存区A，再读取第三向量缓存到运算缓存区B，将运算缓存区A中的第二向量与运算缓存区B中的第三向量进行互相关运算，后续按照(4)中步骤再依次完成第二向量与第四向量、第五向量到第N向量的互相关运算；

(6)按向量顺序重复步骤(5)，完成后续所有向量的两两互相关运算。

以上传统设计的不足在于数据接收与运算顺序进行。一方面在完成全部向量数据接收后才启动运算，一定程度上浪费了时间；另一方面，由于每次数据准备工作需要将协处理器内存中数据缓存到缓存区，直接的内存数据读取操作较慢(即读一个向量的n个点数据要n个硬件时钟周期)，这就使得协处理器一直处于数据准备→运算→数据准备→运算……的顺序流程中，即无法并行工作，也无法发挥互相关电路的流水计算能力，极大的降低了协处理器的运算效率。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是：设计一种提高协处理器运算效率的方法。该方法向协处理器中开辟的向量数据存储空间不再是一整块内存，而是由n个N长度的存储块组成的存储块阵列。这样的内存结构可在一个时钟内同时对n个存储块进行读操作，一次读出n个数据。当数据进入协处理器时，协处理器根据存储块阵列的结构，将数据写入存储块阵列中，每当完成一个完整向量数据的接收，则产生一次互相关使能信号，启动数据准备逻辑电路。在上述高效内存结构下，数据准备逻辑电路可以实现一个时钟周期即准备好互相关向量，提供给互相关运算电路，支持该运算电路的流水化计算。这样就可使得协处理器在接收数据、准备数据的同时进行数据的互相关计算。

本发明解决所述技术问题的技术解决方案是：设计一种提高协处理器运算效率的方法，所述协处理器包括存储块阵列、存储块阵列电路、数据准备逻辑电路、运算缓存区A、运算缓存区B和互相关运算电路；所述存储块阵列分别与存储块阵列电路和数据准备逻辑电路相连接，所述存储块阵列电路分别与存储块阵列和数据准备逻辑电路相连接，所述数据准备逻辑电路相连接分别与存储块阵列、存储块阵列电路、运算缓存区A、运算缓存区B和互相关运算电路相连接，所述运算缓存区A分别与数据准备逻辑电路和互相关运算电路相连接，所述运算缓存B分别与数据准备逻辑电路和互相关运算电路相连接，所述互相关运算电路分别与数据准备逻辑电路、运算缓存区A和运算缓存区B相连接；其特征在于具体步骤如下：

(1)外部串行数据发送给协处理器，按照如下方式保存到协处理器存储块阵列中：将N个向量存储到协处理器的n个存储块中，每个向量包含n个数据，第一向量中的n个数据(D1、D2、……、Dn)进入后依次保存到第一存储块的第一地址处、第二存储块的第一地址处、……、第n存储块的第一地址处；第二向量中的n个数据进入后依次保存到第一存储块的第二地址处、第二存储块的第二地址处、……、第n存储块的第二地址处；以此类推完成N个向量数据的存储；

(2)在进行步骤(1)的数据存储过程中，当完成第一向量的n个数据存储后没有特殊操作，协处理器继续接收数据；但当第二向量的n个数据都进入协处理器并完成存储时，协处理器存储块阵列电路会产生一个互相关使能信号；后续每当一个向量，即第二向量到第N向量的n个数据都进入协处理器并完成存储时，存储块阵列电路都会产生一个互相关使能信号；

(3)存储块阵列电路发送的互相关使能信号使数据准备逻辑电路启动；数据准备逻辑电路首先从存储块阵列中读取最后进入协处理器并完成存储的第M向量，所述M的取值范围是2≤M≤N，放到运算缓存区A中，再读取第一向量到运算缓存区B，同时向互相关运算电路给出运算使能信号，启动互相关运算电路，计算运算缓存区A和运算缓存区B中两个向量的互相关；

(4)在电路设计时序上紧随步骤(3)，数据准备逻辑电路按时钟依次再读取第二向量、第三向量、……、第M-1向量到运算缓存区B，以连续的数据流支持互相关运算电路的计算流水，流水化的计算第M向量与第一向量、第二向量、……、第M-1向量的互相关；

(5)完成步骤(4)中的工作后，数据准备逻辑电路判断是否有新的产生于步骤(2)中的互相关使能信号，如果没有，则挂起数据准备逻辑电路和互相关运算电路，等待新的互相关使能信号；一旦数据准备逻辑电路获取新的互相关使能信号，则按照步骤(3)、步骤(4)完成新进入协处理器的第M+1向量与第一向量、第二向量、……、第M向量的互相关运算；

(6)重复上述步骤直至完成所有N个向量的两两互相关运算，由互相关运算电路将最终的计算结果输出，从而完成提高协处理器运算效率。

与现有技术相比，本发明的有益效果是：

(1)数据存储空间不再是一整块内存，而是由n个N长度的存储块组成的存储块阵列，提高了向量数据的读取效率；

(2)在协处理器接收向量数据的同时对向量开展互相关运算，不用等到所有数据接收完，提高了协处理器的运算效率；

(3)通过设计数据管理维护逻辑，实现了高速的向量数据准备，支持了互相关运算模块的流水化计算要求，进一步提高了协处理器的运算效率和内部性能和内部性能。

附图说明

图1是传统的一维向量互相关电路设计算法工作流程图；

图2是本发明提高协处理器运算效率的方法设计的存储块阵列及向量数据存储方法示意图；

图3是本发明提高协处理器运算效率的方法的方法流程图；

图4是本发明提高协处理器运算效率的方法一种实施例设计的存储块阵列及向量数据存储方法示意图；

图5是本发明提高协处理器运算效率的方法一种实施例的方法流程图；

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明设计的一种提高协处理器运算效率的方法，该方法向协处理器中开辟的向量数据存储空间不再是一整块内存，而是由n个N长度的存储块组成的存储块阵列(参见图2)。这样的内存结构可在一个时钟内同时对n个存储块进行读操作，一次读出n个数据。当数据进入协处理器时，协处理器根据存储块阵列的结构，将数据写入存储块阵列中，每当完成一个完整向量数据的接收，则产生一次互相关使能信号，启动数据准备逻辑电路。在上述高效内存结构下，数据准备逻辑电路可以实现一个时钟周期即准备好互相关向量，提供给互相关运算电路，支持该运算电路的流水化计算。这样就可使得协处理器在接收数据、准备数据的同时进行数据的互相关计算。

本发明设计的一种提高协处理器运算效率的方法，所述协处理器包括数据准备逻辑电路、存储块阵列、存储块阵列电路、运算缓存区A、运算缓存区B和互相关运算电路；所述存储块阵列分别与存储块阵列电路和数据准备逻辑电路相连接，所述存储块阵列电路分别与存储块阵列和数据准备逻辑电路相连接，所述数据准备逻辑电路相连接分别与存储块阵列、存储块阵列电路、运算缓存区A、运算缓存区B和互相关运算电路相连接，所述运算缓存区A分别与数据准备逻辑电路和互相关运算电路相连接，所述运算缓存B分别与数据准备逻辑电路和互相关运算电路相连接，所述互相关运算电路分别与数据准备逻辑电路、运算缓存区A和运算缓存区B相连接；具体步骤如下(参见图3)：

实施例1

本发明设计的一种提高协处理器运算效率的方法，以10个向量，每个向量包括6个数据为例，具体实施方式包括以下步骤(参见图4、图5)：

(1)外部串行数据发送给协处理器，按照如下方式保存到协处理器存储块阵列中：将10个向量存储到协处理器的6个存储块中，每个向量包含6个数据，第一向量中的6个数据(D1、D2、D3、D4、D5、D6)进入后依次保存到第一存储块的第一地址处、第二存储块的第一地址处、……、第六存储块的第一地址处；第二向量中的6个数据进入后依次保存到第一存储块的第二地址处、第二存储块的第二地址处、……、第六存储块的第二地址处；以此类推完成十个向量数据的存储；

(2)在进行步骤(1)的数据存储过程中，当完成第一向量的6个数据存储后没有特殊操作，协处理器继续接收数据。但当第二向量的6个数据都进入协处理器并完成存储时，协处理器存储块阵列电路会产生一个互相关使能信号；后续每当一个向量的6个数据都进入协处理器并完成存储时，存储块阵列电路都会产生一个互相关使能信号；

(3)存储块阵列电路发送的互相关使能信号使数据准备逻辑电路启动。数据准备逻辑电路首先从存储块阵列中读取最后进入协处理器并完成存储的第六向量(以第六向量为例)，放到运算缓存区A中，再读取第一向量到运算缓存区B，同时向互相关运算电路给出运算使能信号，启动互相关运算电路，计算运算缓存区A和运算缓存区B中两个向量的互相关；

(4)在电路设计时序上紧随步骤(3)，数据准备逻辑电路按时钟依次再读取第二向量、第三向量、……、第五向量到运算缓存区B，以连续的数据流支持互相关运算电路的计算流水，流水化的计算第六向量与第一向量、第二向量、……、第五向量的互相关；

(5)完成步骤(4)中的工作后，第七向量按照此方法进入协处理器，产生新的互相关使能信号，数据准备逻辑电路判断有新的产生于步骤(2)中的互相关使能信号，按照步骤(3)、步骤(4)完成新进入协处理器的第七向量与第一向量、第二向量、……、第六向量的互相关运算；

(6)重复上述步骤直至完成所有十个向量的两两互相关运算，由互相关运算电路将最终的计算结果输出，从而完成提高协处理器运算效率。

Claims

1.一种提高协处理器运算效率的方法，所述协处理器包括存储块阵列、存储块阵列电路、数据准备逻辑电路、运算缓存区A、运算缓存区B和互相关运算电路；所述存储块阵列分别与存储块阵列电路和数据准备逻辑电路相连接，所述存储块阵列电路分别与存储块阵列和数据准备逻辑电路相连接，所述数据准备逻辑电路相连接分别与存储块阵列、存储块阵列电路、运算缓存区A、运算缓存区B和互相关运算电路相连接，所述运算缓存区A分别与数据准备逻辑电路和互相关运算电路相连接，所述运算缓存B分别与数据准备逻辑电路和互相关运算电路相连接，所述互相关运算电路分别与数据准备逻辑电路、运算缓存区A和运算缓存区B相连接；其特征在于具体步骤如下：

（1）外部串行数据发送给协处理器，按照如下方式保存到协处理器存储块阵列中：将N个向量存储到协处理器的n个存储块中，每个向量包含n个数据，第一向量中的n个数据（D1、D2、……、Dn）进入后依次保存到第一存储块的第一地址处、第二存储块的第一地址处、……、第n存储块的第一地址处；第二向量中的n个数据进入后依次保存到第一存储块的第二地址处、第二存储块的第二地址处、……、第n存储块的第二地址处；以此类推完成N个向量数据的存储；

（2）在进行步骤（1）的数据存储过程中，当完成第一向量的n个数据存储后没有特殊操作，协处理器继续接收数据；但当第二向量的n个数据都进入协处理器并完成存储时，协处理器存储块阵列电路会产生一个互相关使能信号；后续每当一个向量，即第二向量到第N向量-的n个数据都进入协处理器并完成存储时，存储块阵列电路都会产生一个互相关使能信号；

（3）存储块阵列电路发送的互相关使能信号使数据准备逻辑电路启动；数据准备逻辑电路首先从存储块阵列中读取最后进入协处理器并完成存储的第M向量，所述M的取值范围是2≤M≤N，放到运算缓存区A中，再读取第一向量到运算缓存区B，同时向互相关运算电路给出运算使能信号，启动互相关运算电路，计算运算缓存区A和运算缓存区B中两个向量的互相关；

（4）在电路设计时序上紧随步骤（3），数据准备逻辑电路按时钟依次再读取第二向量、第三向量、……、第M-1向量到运算缓存区B，以连续的数据流支持互相关运算电路的计算流水，流水化的计算第M向量与第一向量、第二向量、……、第M-1向量的互相关；

（5）完成步骤（4）中的工作后，数据准备逻辑电路判断是否有新的产生于步骤（2）中的互相关使能信号，如果没有，则挂起数据准备逻辑电路和互相关运算电路，等待新的互相关使能信号；一旦数据准备逻辑电路获取新的互相关使能信号，则按照步骤（3）、步骤（4）完成新进入协处理器的第M+1向量与第一向量、第二向量、……、第M向量的互相关运算；

（6）重复上述步骤直至完成所有N个向量的两两互相关运算，由互相关运算电路将最终的计算结果输出，从而完成提高协处理器运算效率。