CN110119375A

CN110119375A - 一种将多个标量核链接为单核向量处理阵列的控制方法

Info

Publication number: CN110119375A
Application number: CN201910405897.9A
Authority: CN
Inventors: 万江华; 汪东; 陈虎
Original assignee: Hunan Huoliang Microelectronics Co Ltd
Current assignee: National University of Defense Technology
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-13
Anticipated expiration: 2039-05-16
Also published as: CN110119375B

Abstract

本发明公开了一种将多个标量核链接为单核向量处理阵列的控制方法，依据计算任务进行链接，所述链接是将多个标量处理器变为单个向量处理器的向量阵列的操作，链接后含有若干向量处理器的多核处理器成为新向量处理器；其中向量阵列是分组构建的，若干个标量处理器组成一个向量组，M个向量组的集合是新向量处理器M个向量处理器的向量运算部件的阵列。本发明具有能够并行地为不同向量元素提供差异化处理、能够提高向量处理单元利用率等优点。

Description

一种将多个标量核链接为单核向量处理阵列的控制方法

技术领域

本发明主要涉及到微处理器领域，特指一种将多个标量处理器核链接为单处理器核内的向量处理阵列的控制方法。

背景技术

现实计算任务如信号处理、图像处理、高性能计算、人工智能等应用算法中包含大量向量操作，如滤波、矩阵乘、矩阵协方差等，这时通常会采用向量处理器来对这些向量操作提供高效支持。

单核的向量处理器（以下简称向量处理器）内部往往只有一套指令获取以及一套数据存取部件，且一条向量指令能够同时完成多个向量元素的处理，从而大大节省了处理器的控制开销，也大大提高了访存带宽利用率。向量操作中涉及的向量元素越多，效率就越高，因此向量处理器内部集成的处理单元数目（或称向量宽度）越来越大。

然而，一个计算系统中通常仅有部分程序适合向量处理，而另外一些只适合标量处理。此外，随着向量处理器所支持的向量宽度（假设为N）不断增大，向量处理单元的利用率问题也越来越突出。

一方面，当算法要求的向量宽度不是N的整数倍时，向量处理器只能通过屏蔽部分向量处理单元（运算或存储）去匹配算法所要求的向量宽度。这种方法将导致向量处理单元利用率降低，特别是当算法中存在大量宽度量小于N的向量操作时。这种情况在算法要求为每个向量元素做差异化处理时尤为突出，此时向量处理器退化为标量处理器，通过串行执行为每个向量元素提供的不同处理。

另一方面，不同算法、不同算法参数对于向量宽度的要求多种多样，这导致传统向量处理器无法在向量处理单元利用率和向量处理能力上做任何折中，因为高向量处理单元利用率本质上要求向量宽度尽量短，而高向量处理能力本质上要求向量宽度尽量宽。显然，传统向量处理器无法解决两者之间的矛盾。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种能够并行地为不同向量元素提供差异化处理、能够提高向量处理单元利用率的将多个标量核链接为单核向量处理阵列的控制方法。

为解决上述技术问题，本发明采用以下技术方案：

一种将多个标量核链接为单核向量处理阵列的控制方法，依据计算任务进行链接，所述链接是将多个标量处理器变为单个向量处理器的向量阵列的操作，链接后含有若干向量处理器的多核处理器成为新向量处理器；其中向量阵列是分组构建的，若干个标量处理器组成一个向量组，M个向量组的集合是新向量处理器M个向量处理器的向量运算部件的阵列。

作为本发明方法的进一步改进：每个向量组具有唯一编号，每个标量处理器具有唯一序号，且在一次链接下仅参与一个向量组。

作为本发明方法的进一步改进：当在计算任务中每个标量处理器发生多次链接时，每次链接以执行向量分支或者向量存取指令为标志。

作为本发明方法的进一步改进：设置向量分组信息表，所述向量分组信息表用行号对应关联的标量处理器编号，每行用向量组号和序号来唯一表征所关联的标量处理器。

作为本发明方法的进一步改进：所述向量分组信息表集中存放在处理器的某一模块中，每次链接前，处理器通过该模块设置每个小核的向量组编号和向量组内序号。

作为本发明方法的进一步改进：所述向量分组信息表分布存放在各个标量处理器当中；或者，所述向量分组信息表在处理器中其他地方存放。

作为本发明方法的进一步改进：当计算任务中的应用需要是为不同元素提供差异化处理时，由每个标量处理器对不用元素进行差异化的、并行的标量处理，不需要同步执行，无需参与链接；当不同算法、不同算法参数对于向量宽度要求不一致时，仅需重新配置前述标识，使得由多个标量处理器构成的向量宽度适应这些算法或者参数的需求。

作为本发明方法的进一步改进：当构成向量组的标量处理器在执行标量操作时，这些标量处理器各自独立运行；开始执行向量操作时，这些标量处理器开始链接并按同步方式执行；所谓同步执行，是指这些标量处理器在执行向量操作时将相互等待，直到它们均执行到向量操作的某个特定阶段；所谓向量操作的某个特定阶段，是指但不限于在开始实际访存之前、靠近实际访存的指令流水阶段。

作为本发明方法的进一步改进：一个向量组内的多个标量处理器之间实现栅栏同步，向量组内的所有标量处理器执行向量分支指令，然后再执行一条向量指令，最后直接返回。

作为本发明方法的进一步改进：一个向量组内的多个标量处理器之间实现共享数据访问的同步。

与现有技术相比，本发明的优点在于：

1、本发明为一种将多个标量处理器内核链接为向量处理器的向量处理阵列的控制方法，通过本发明方法所构成的向量处理阵列能够并行地为不同向量元素提供差异化处理，而且能够提高向量处理单元利用率。

2、本发明在执行向量程序时具有与向量处理器相同的取指及数据存取带宽利用率，并能够实现与向量处理器相同效果的栅栏同步以及共享数据访问同步。

3、本发明能够克服向量处理器在处理不规则的向量操作时的不适应性，即允许向量各元素的处理流程存在较大差异、允许多个标量处理器以任意方式进行向量组合、允许向量元素数据的存储位置不连续。

附图说明

图1是现有技术中向量处理方式的原理示意图。

图2是本发明控制方法在具体实施例中的原理示意图。

图3是本发明控制方法在具体实施例中不同的向量分组信息表的原理示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

本发明的控制方法为：依据计算任务进行链接，所述链接是将多个标量处理器变为单个向量处理器的向量阵列的操作，链接后含有若干向量处理器的多核处理器成为新向量处理器；其中向量阵列是分组构建的，若干个标量处理器组成一个向量组，M个向量组的集合是新向量处理器M个向量处理器的向量运算部件的阵列。通过本发明的上述配置，多个标量处理器的计算、存储资源可以灵活地构成各种宽度的向量的计算、存储资源。

为方便表述，以下将本发明的这种多个标量核（标量处理器）变为单个向量核（向量处理器）的向量阵列的操作称为“链接”。称链接相关的每个标量处理器为“小核”，一组小核新链接而成的向量处理器核为“大核”。称链接前为“原多核处理器”；称链接后含有若干大核处理器的多核处理器为“新向量处理器”；在讨论链接前后未发生改变的技术内容时统称为“处理器”。

其中，每个向量组具有唯一编号；每个小核具有唯一序号，且在一次链接下仅参与一个向量组。

在具体应用实例中，计算任务中每个小核可能发生多次链接，每次链接以其执行向量分支或者向量存取指令为标志。大核对应的向量阵列是分组构建的，若干个（不限于2的幂次方个）小核组成一个向量组，M个向量组的集合是新向量处理器M个大核的向量运算部件的阵列。

例如，可以由核0与核1、核2和核3链接成2个2元素的向量，也可以在下次链接中由核0、核1、核2和核3构成1个4元素的向量。任意时刻任意一个小核仅可属于一个向量组。

在具体应用实例中，在处理器中设置向量分组信息表，该向量分组信息表用行号对应关联的小核编号，每行用向量组号和序号来唯一表征所关联的小核。

在具体应用实例中，上述向量分组信息表可以集中存放在处理器的某一模块中，或者分布存放在各个小核当中，或者在处理器的任意其他地方存放。但为表述方便，以下假设这些信息存放在处理器中的某一模块中。每次链接前，处理器可通过该模块设置每个小核的向量组编号和向量组内序号。

基于本发明的上述方法，当应用需要为不同元素提供差异化处理时，可由每个标量核对不用元素进行差异化的、并行的标量处理，不需要同步执行，无需参与链接；当不同算法、不同算法参数对于向量宽度要求不一致时，仅需重新配置前述标识，使得由多个小核构成的向量宽度适应这些算法或者参数的需求。

当构成向量组的小核在执行标量操作时，这些小核各自独立运行；开始执行向量操作（包括但不限于向量分支指令、向量存取指令）时，这些小核开始链接并按同步方式执行。所谓同步执行，是指这些小核在执行向量操作时将相互等待，直到它们均执行到向量操作的某个特定阶段。所谓向量操作的某个特定阶段，一般是指（但不限于）在开始实际访存之前，但尽量靠近实际访存的指令流水阶段。

基于上述方法，本发明可以尽量保证这些标量核均达到或接近访存阶段，便于下级存储层次识别并合并多个标量核的访问请求，从而达到与大核向量处理接近的访存带宽利用率。

此外，一个向量组内的多个小核之间还能够实现栅栏同步，以及共享数据访问的同步。尽管上述向量分支指令和向量存取指令本身并不能保证各个标量核在实际访存（含获取指令和存取数据）时的先后顺序，即不能保证在某一个核完成实际访存时其他核也完成了，但是通过后续向量指令的再次同步可以保证全部小核均已完成前面向量指令的实际访存。

对于栅栏同步，向量组内的所有小核执行向量分支指令，然后再执行一条向量指令，最后直接返回。由于向量分支指令内嵌了同步过程，当所有小核进行第二条向量指令的同步时，可以保证所有小核均已开始执行第一条向量指令所指向的分支目标的指令，因而等效实现了栅栏同步。对于共享数据访问的同步，由于向量存取指令的同步过程发生在实际访存之前，因此向量存取指令本身并不能保证各个小核在实际访存时的先后顺序，但是在该向量存取指令之后若执行向量分支指令或者向量存取指令，则这些指令内嵌的同步能够保证所有小核之前发出的向量存取指令已经完成。

如图1所示，以向量宽度为16的向量处理器为例，它具有16个处理单元（PE）构成的向量计算单元阵列、统一的指令获取和译码单元、统一的向量数据存取控制器及存储器。指令获取单元根据程序流控指令的地址计算结果，从外部获取指令，获取到的指令经过译码后将不同类型的指令分别发送给指令获取单元（程序流控指令）、向量计算单元阵列（运算指令）以及向量数据存取指令控制器（向量数据存取指令）。向量数据存取控制器负责向量数据存取地址的产生以及存储器的访问。向量数据存取控制器通常仅包含一套地址产生单元，即基于一个基地址对存储器进行连续的数据访问，其中获取的数据长度由向量宽度指定，数据类型则由向量数据存取指令指定。由于向量处理器仅使用一套指令获取和译码单元、一套向量地址产生单元和向量数据访存单元，这使得向量处理器的运算阵列在整个向量处理器中的比重很大，从而能够大大提高向量处理器的能耗比。

但基于同样的原因，向量处理器也存在下列问题：1）向量处理器要求运算阵列内的所有PE对每个向量元素均执行相同的运算操作，一旦出现需要根据向量元素特征进行不同的操作时，向量处理器就可能无法进行处理；2）向量处理器要求运算阵列的操作和向量数据存取均以向量长度为单位进行，当向量长度发生改变时，要么不能处理，要么需要通过屏蔽部分运算阵列的方式实现，大大降低了运算阵列的利用率；3）向量处理器要求向量数据存取是以基地址为起始的、连续的数据访问，然而很多应用的数据并不满足这一要求，例如稀疏矩阵。上述这些问题使得大量应用不能在向量处理器上高效地执行。

如图2所示，本发明的控制方法在一个具体的应用实例中，以4个小核组成的处理器为例，假定该系统将向量分组信息表存放于向量同步模块。

系统通过配置向量分组信息表，确定各个核所属向量组和向量组内序号。组成向量组的多个（不限于2的幂次方个）小核分别具有不同的序号，以便区分不同的核。

当小核发现准备执行的指令（即该指令处于派发或译码等能够识别出指令类型但又未开始执行的阶段）中存在向量操作（包括但不限于向量分支指令、向量存取指令）时，小核进行链接的同步触发操作，即向向量同步模块发出指令同步请求。向量同步模块根据来自各个小核的指令同步请求，以及向量分组信息，产生向量同步信号，即查询向量分组表每一分组，看表内的第K分组的全部小核是否均已发出同步请求，若是，则向量同步模块向相应第K向量分组的所有小核发送同步完成信号，否则不发送。小核在向量操作的特定流水阶段进行同步检测，即检测上述同步完成信号是否到达，若是则继续执行，否则进入等待状态，直到同步完成信号到达。所谓向量操作的某个特定阶段，一般是指（但不限于）在开始实际访存之前，但尽量靠近实际访存的指令流水阶段。在上述阶段进行同步，可以尽量保证向量组内的小核均达到或接近访存阶段，便于下级存储层次识别并合并多个标量核的访问请求，从而达到与向量处理器接近的访存带宽利用率。例如，对于向量分支指令，同一向量组内的多个小核在指令获取部件向下级存储层次发出请求之前已经进行了一次同步，这次同步将使得后续这些小核发出的指令（向量分支目标指向的指令）获取请求能够在较短的时间内全部到达下级存储层次。通常，由于存储访问延迟，此时下级存储层次通常还未来得及向这些小核返回所请求的指令，因此可以轻易地识别这些标量的请求地址是否一致。若多个小核的请求地址一致，下级存储层次就可以将这些请求合并，并而无需进行多次访问和返回。若不一致，则表明这些小核需要进行差异化处理，应进行多次访问，从而获取不同指令。

类似地，对于向量访存指令，下级存储层次也可以通过上述过程合并来自不同小核的访存请求。同时，由于同一向量组内的各个小核具有不同的地址产生单元，可以不同的基地址、甚至是偏移地址，因此可以很直接地处理地址不连续的访问请求。

如图3所示，本发明的控制方法在一个具体的应用实例中，通过对向量分组信息表的配置，处理器可以任意对小核进行分组，如图3（a）所示核0、核1、核2和核3构成1个4元素的向量组0；如图3（b）所示核0与核1构成1个2元素的向量组0，核2和核3构成1个2元素的向量组1；如图3（c）所示每个向量组中只有一个小核，这是处理器信息表链接前的初始设置，意味着小核不需要与其他核进行同步，即各个小核独立运行，适合处理标量元素。任意时刻任一小核仅可属于一个向量组。由此可见，通过本发明的上述配置，多个小核可以灵活地构成各种向量宽度。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，依据计算任务进行链接，所述链接是将多个标量处理器变为单个向量处理器的向量阵列的操作，链接后含有若干向量处理器的多核处理器成为新向量处理器；其中向量阵列是分组构建的，若干个标量处理器组成一个向量组，M个向量组的集合是新向量处理器M个向量处理器的向量运算部件的阵列。

2.根据权利要求1所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，每个向量组具有唯一编号，每个标量处理器具有唯一序号，且在一次链接下仅参与一个向量组。

3.根据权利要求2所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，当在计算任务中每个标量处理器发生多次链接时，每次链接以执行向量分支或者向量存取指令为标志。

4.根据权利要求1所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，设置向量分组信息表，所述向量分组信息表用行号对应关联的标量处理器编号，每行用向量组号和序号来唯一表征所关联的标量处理器。

5.根据权利要求4所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，所述向量分组信息表集中存放在处理器的某一模块中，每次链接前，处理器通过该模块设置每个标量核的向量组编号和向量组内序号。

6.根据权利要求4所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，所述向量分组信息表分布存放在各个标量处理器当中；或者，所述向量分组信息表在处理器中其他地方存放。

7.根据权利要求1-6中任意一个所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，当计算任务中的应用需要是为不同元素提供差异化处理时，由每个标量处理器对不同元素进行差异化的、并行的标量处理，不需要同步执行，无需参与链接；当不同算法、不同算法参数对于向量宽度要求不一致时，仅需重新配置前述标识，使得由多个标量处理器构成的向量宽度适应这些算法或者参数的需求。

8.根据权利要求1-6中任意一个所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，当构成向量组的标量处理器在执行标量操作时，这些标量处理器各自独立运行；开始执行向量操作时，这些标量处理器开始链接并按同步方式执行；所谓同步执行，是指这些标量处理器在执行向量操作时将相互等待，直到它们均执行到向量操作的某个特定阶段；所谓向量操作的某个特定阶段，是指但不限于在开始实际访存之前、靠近实际访存的指令流水阶段。

9.根据权利要求1-6中任意一个所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，一个向量组内的多个标量处理器之间实现栅栏同步，向量组内的所有标量处理器执行向量分支指令，然后再执行一条向量指令，最后直接返回。

10.根据权利要求1-6中任意一个所述的将多个标量核链接为单核向量处理阵列的控制方法，其特征在于，一个向量组内的多个标量处理器之间实现共享数据访问的同步。