CN110147253B

CN110147253B - 一种基于延迟栅栏同步操作指令的多核处理器同步方法

Info

Publication number: CN110147253B
Application number: CN201910405943.5A
Authority: CN
Inventors: 万江华; 陈虎; 汪东
Original assignee: Hunan Guliang Microelectronics Co ltd
Current assignee: National University of Defense Technology
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2020-10-20
Anticipated expiration: 2039-05-16
Also published as: CN110147253A

Abstract

本发明公开了一种基于延迟栅栏同步操作指令的多核处理器同步方法，为：所有参与核处理器在“同步达到站”发出该核处理器已到达同步的信号，在“同步检查站”确认参与栅栏同步的其他核处理器是否全部到达；若是，则该核处理器继续执行，否则进入等待状态，直到最后一个到达的核处理器发出的信号且被该核处理器检查到。所述“同步达到站”为“自身同步状态更新”所在的流水站；所述“同步检查站”为“查询他核同步状态”所在的流水站，且当“同步检查站”与“同步达到站”不是同一流水站且不紧邻的同步方式为“延迟同步”。本发明具有基于任意指令类型实现、能减少额外的栅栏同步操作、提高事务同步的效率等优点。

Description

一种基于延迟栅栏同步操作指令的多核处理器同步方法

技术领域

本发明主要涉及到微处理器领域，特指一种具有支持延迟栅栏同步操作指令的多核处理器同步方法。

背景技术

在现代处理器中，一条指令从获取到执行完成通常需要经过多个流水线站，例如指令地址产生、指令存储器访问、指令发射、译码以及多个（1-N）个执行站等。

栅栏同步是多核处理过程中经常涉及的操作，它保证了多核之间的事务处理顺序。栅栏同步的实现方式均使用Load/Store类型指令操作存储器或内存映射寄存器，例如，有些处理器提供原子操作指令，通过这些原子操作指令对存储器进行操作，从而构建栅栏同步操作；还有一些处理器提供了硬件栅栏同步，软件通过存取指令操作相应内存映射寄存器，实现同步操作。

尽管栅栏同步操作广泛存在于现有处理器及系统当中，但是仍然有些不足。

首先，完成传统同步操作都需要额外的指令来进行，而这些指令所进行的数据访问仅与同步变量有关，而与被同步的事务毫无关系。在事务本身执行时间很短的情形下，这种额外操作的开销将超过事务本身。

其次，传统的同步操作将自身同步状态更新和查询他核同步状态两者绑定在一起执行，如原子操作的读改写。这种绑定意味自身同步状态更新和查询他核同步状态需要在同一指令周期或是紧邻的指令周期完成。然而，在一个多核处理器中核之间的物理距离往往较远，导致一个核的状态更新到该状态被其他核感知，通常需要耗费几个甚至十几个时钟周期。特别是在连续多次同步的情况下，即便多个核在刚刚完成同步不久，再次完成同步仍然需要等待最后一个核到达并被其他核感知。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种基于任意指令类型实现、能减少额外的栅栏同步操作、提高事务同步的效率的基于延迟栅栏同步操作指令的多核处理器同步方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于延迟栅栏同步操作指令的多核处理器同步方法，为：

所有参与栅栏同步的核处理器设置相同的同步计数，即所有参与栅栏同步的核处理器数量；所有参与栅栏同步的核处理器在进行同步时，均执行一条同步指令，同步指令在该指令的一指令流水站，发出该核处理器已到达栅栏的信号，该指令流水站为作为“同步达到站”；并在该同步指令的后续指令流水站确认参与栅栏同步的其他核处理器是否全部到达，该后续指令流水站为“同步检查站”；若是，则该核处理器继续执行，否则进入等待状态，直到最后一个到达的核处理器发出同步点达到信号且被该核处理器检查到；

所述“同步达到站”为“自身同步状态更新”所在的流水站；所述“同步检查站”为“查询他核同步状态”所在的流水站，且当“同步检查站”与“同步达到站”不是同一流水站且不紧邻的同步方式为“延迟同步”。

作为本发明的进一步改进：当采用同步分支指令时，所有参与栅栏同步的核处理器均通过所述同步分支指令分支到事务本身所在的程序；参与栅栏同步的任意核处理器在执行到同步分支指令的“同步达到站”时，发出该核处理器已到达同步的信号，但此时该核处理器并不检查其他核处理器是否已经到达栅栏，直到该核处理器在“同步检查站”才确认参与栅栏同步的其他核处理器是否全部到达；若是，则称该核处理器开始执行分支目标所在指令，否则进入等待状态，直到最后一个到达的核处理器发出的信号且被该核处理器检查到；根据上述过程，在任意参与栅栏同步的核处理器通过“同步检查站”时，保证其他参与栅栏同步的核处理器均已到达“同步达到站”。

作为本发明的进一步改进：当采用同步Load/Store指令时，同步多个核处理器对共享数据的访问操作，所有参与栅栏同步的核处理器在“同步达到站”发出该核处理器已到达同步的信号，此时该核处理器不检查其他核处理器是否已经到达，直到“同步检查站”才确认参与栅栏同步的其他核处理器是否全部到达；若是，则称该核处理器继续执行，否则进入等待状态，直到最后一个到达的核处理器发出的信号且被该核检查到。

作为本发明的进一步改进：参与栅栏同步的任意核处理器通过“同步检查站”时，确认其他核处理器均已达到“同步达到站”，在“同步达到站”和“同步检查站”之间不插入任何与事务相关的处理，形成栅栏同步。

作为本发明的进一步改进：在连续同步的过程中，若多个核处理器已经进入同步，后续再次同步时，所有参与同步的核处理器都在“同步达到站”就发出了到达信号，由于“同步达到站”和“同步检查站”之间相隔多个指令流水站，这段时间允许任意核处理器的到达信号，传递给其他核处理器。

作为本发明的进一步改进：当所有核处理器进入“同步检查站”时已经收到其他核处理器的同步信息，不必进入等待状态。

与现有技术相比，本发明的优点在于：

本发明的基于延迟栅栏同步操作指令的多核处理器同步方法，可以基于任意指令类型实现，减少额外的栅栏同步操作，提高事务同步的效率，即能够提高多核同步效率，降低同步开销，还能够构造出传统栅栏同步，保证系统兼容性。本发明可以与其他指令流水技术结合，为微处理器的设计指出了一个新的方向。

附图说明

图1 是现有技术的同步信息栅栏操作示意图。

图2是本发明在具体实施例中双核延迟同步结构示意图。

图3是本发明在具体实施例中双核延迟同步程序和指令流水时空示意图。

图4是本发明在具体实施例中双核延迟同步数据加载程序和指令流水时空示意图。

图5是本发明在具体实施例中基于延迟同步构建双核传统栅栏同步程序示意图。

图6是本发明在具体实施例中双核连续延迟程序同步和指令流水时空示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

本发明的一种基于延迟栅栏同步操作指令的多核处理器同步方法，为：所有参与核处理器在“同步达到站”发出该核处理器已到达同步的信号，在“同步检查站”确认参与栅栏同步的其他核处理器是否全部到达；若是，则该核处理器继续执行，否则进入等待状态，直到最后一个到达的核处理器发出的信号且被该核处理器检查到。

在包含多个核的处理器中，参与同步的核通过执行一种特殊的同步操作指令（包含但不限于同步分支、同步数据存取等）进行同步。它们与传统同步操作不同，其自身同步状态更新和查询他核同步状态并不处于相同或紧邻的指令流水站。为了方便表述，以下称“自身同步状态更新”所在的流水站为“同步达到站”，而“查询他核同步状态”所在的流水站为“同步检查站”，且称“同步检查站”与“同步达到站”不是同一流水站且不紧邻的同步方式为“延迟同步”。

为了完成多核之间的特殊同步操作，所有参与栅栏同步的核执行相同的特殊同步操作指令，这种特殊同步操作可以采用任意指令类型，而不是仅限于Load/Store类型的指令。

以同步分支指令为例，所有参与栅栏同步的核均通过该同步分支指令分支到事务本身所在的程序。参与栅栏同步的任意核在执行到同步分支指令的“同步达到站”时，发出该核已到达同步的信号，但此时该核并不检查其他核是否已经到达栅栏，直到该核在“同步检查站”才确认参与栅栏同步的其他核是否全部到达。若是，则称该核开始执行分支目标所在指令，否则进入等待状态，直到最后一个到达的核发出的信号且被该核检查到。根据上述过程，在任意参与栅栏同步的核通过“同步检查站”时，可以保证其他参与栅栏同步的核均已到达“同步达到站”。

例如，对于同步分支指令，任意参与栅栏同步的核在开始执行分支目标指令（即同步检查站）时，可以确认其他参与栅栏同步的核均已完成分支目标指令的地址产生（即同步达到站）。“同步达到站”和“同步检查站”在流水线中的位置在实现时通常根据设计需要（如核间通讯延迟）而定义。

同步Load/Store指令可以同步多个核对共享数据的访问操作，其操作过程与同步分支指令类似，即所有参与栅栏同步的核在“同步达到站”发出该核已到达同步的信号，但此时该核并不检查其他核是否已经到达，直到“同步检查站”才确认参与栅栏同步的其他核是否全部到达。若是，则称该核继续执行，否则进入等待状态，直到最后一个到达的核发出的信号且被该核检查到。

通过上述同步分支指令和同步Load/Store指令的操作过程可以看出，它们都可以直接服务于事务本身，如通过同步Load加载共享数据、通过同步分支跳转到事务所在程序，而不需要额外的同步操作。

进一步，本发明的方法中参与栅栏同步的任意核通过“同步检查站”时，可以确认其他核均已达到“同步达到站”，因此只要在“同步达到站”和“同步检查站”之间不插入任何与事务相关的处理，就可以认为这是一个传统的栅栏同步。

进一步，本发明的方法中在连续同步的过程中，若多个核已经进入同步，后续再次同步时，所有参与同步的核都在“同步达到站”就发出了到达信号，由于“同步达到站”和“同步检查站”之间相隔多个指令流水站，这段时间允许任意核的到达信号，传递给其他核。

作为较佳的实施例，在最佳情况下，当所有核进入“同步检查站”时已经收到其他核的同步信息，因而不必进入等待状态，降低了同步开销。

如图1所示，这里展示了现有技术实现的双核（核0和核1）栅栏同步过程。每个核的指令流水线分为三个主要阶段：指令获取、指令译码/发射、执行。根据处理器实现细节的不同，每个阶段又可细分为多个流水站。尽管本发明不依赖于任何指令流水线结构，但为了表述方便，统一使用一种流水线结构表示，即指令获取阶段分为指令地址产生（IAG）和指令存储器访问（IMA）两个流水站，执行站由Ex1-Ex4等流水站构成，并假定Load/Store类指令在Ex3站完成存储器访问。

现有技术实现的栅栏同步均是基于Load/Store类指令的，通过这类指令完成对存储器或内存映射寄存器的操作，并最终通过同步信息收集和传递模块将同步信息通知到每个核。以双核栅栏同步过程为例，核0执行栅栏同步指令后，将在Ex3站发送本核同步到达信息给同步信息收集和传递模块。同步信息收集和传递模块接收到核0的同步达到信息，并将该信息传递给核1。对于核1也是类似的过程。考虑核0先到达同步的情况，由于核1没有达到，所以核0将进入等待状态，直到核1达到。核1到达后，核1可以继续执行。此时，核0仍处于等待状态，直到核0收到同步信息收集和传递模块发来的核1达到信息。由于同步信息的传递需要1至几个周期，因此在上述过程中即便两个核同时到达，也需要等待同步信息收集和传递模块将对方的到达信息传递过来。

如图2所示，展示了本发明实现的双核（核0和核1）栅栏同步过程。以同步Load指令为例，核0在Ex1站（同步到达站）就发出同步到达信息，并且在Ex4站检查同步信息收集和传递模块发送来的核1是否同步到达的信息。考虑两个核同时到达的情况，核0和核1同时将同步达到信息通过同步信息收集和传递模块发送给对方。由于两个核在Ex2和Ex3站并不检查对方是否到达，因此可以继续执行。直到Ex4站（同步信息检查），两个核检查对方是否达到，因此只要同步信息的传递时间小于3站，这两个核的同步都无需等待，降低了同步开销。

如图3所示，本发明基于同步分支指令实现的双核栅栏同步过程及相应汇编程序。核0和核1均执行一条同步分支指令SBR TG，其中TG通常是需要同步的事务所在的程序。SBR指令在Ex1站（分支地址计算）发出同步达到信息，由于SBR指令将触发TG所在程序的执行，因此可以认为TG所在程序的获取、译码发射以及执行都是SBR指令流水线的延伸。图右上方是内核时钟周期T0-T7，假设核0和核1之间未能精确同步，而是分别在T0和T1时刻完成SBR指令所在位置的程序地址产生。从图中可以看出核0在T3时刻发出同步达到信息，而核1在T4时刻发出同步达到信息。若同步信息相互传递的时间为2拍，则核0在T6时刻进行同步检查时就不会进入等待状态。

如图4所示，本发明基于同步Load指令实现的双核栅栏同步过程及相应汇编程序。核0和核1均执行一条同步Load指令SLD R0, *R1++。SLD指令在Ex1站（数据地址计算）发出同步达到信息。假设核0和核1之间未能精确同步，而是分别在T0和T1时刻完成SLD指令所在位置的程序地址产生。从图中可以看出核0在T3时刻发出同步达到信息，而核1在T4时刻发出同步达到信息。若同步信息相互传递的时间为2拍，则核0在T6时刻进行同步检查时就不会进入等待状态。

如图5所示，本发明实施例的基于延迟同步构建双核传统栅栏同步程序。核0和核1均执行一条同步分支指令SBR TG，其中TG通常是需要同步的事务所在的程序。SBR指令执行后发出同步达到信息，而在执行TG所在程序的第一条指令时检查同步达到信息。由前述流水线结构可知，当任意核执行TG所在程序的第一条指令时，若未收到另一个核的同步达到信息，则进入等待状态，反之则继续执行。由上述过程可知，一旦开始执行TG所在程序，则意味着所有参与同步的核均已达到，从而可以确认这些核已在程序标号Barrier处同步，即完成了与传统栅栏同步等价的功能。

如图6所示，描述了双核连续延迟程序同步和指令流水时空图。核0和核1均连续执行同步Load指令SLD R0, *R1++和SLD R1, *R1++。假设核0和核1之间已精确同步，均在T0时刻完成第一条SLD指令所在位置的程序地址产生。核0和核1在T3时刻（第一条SLD指令的Ex1站）发出第一次同步达到信息，在T4时刻（第二条SLD指令的Ex1站）发出第二次同步达到信息。若同步信息相互传递的时间为3拍，则核0和核1在T6时刻进行第一次同步检查时就不会进入等待状态，且在T7时刻进行第二次同步检查时也不会进入等待状态。由上述过程可知，在满足同步信息传递时间的情况下，本发明在连续同步的过程中不会引起核的等待，降低了同步开销。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于延迟栅栏同步操作指令的多核处理器同步方法，其特征在于：

所有参与栅栏同步的核处理器设置相同的同步计数，即所有参与栅栏同步的核处理器数量；所有参与栅栏同步的核处理器在进行同步时，均执行一条同步指令，同步指令在该指令的一指令流水站，发出当前核处理器已到达栅栏的信号，该指令流水站为作为“同步达到站”；并在该同步指令的后续指令流水站确认参与栅栏同步的其他核处理器是否全部到达，该后续指令流水站为“同步检查站”；若是，则当前核处理器继续执行，否则进入等待状态，直到最后一个到达的核处理器发出同步点达到信号且被当前核处理器检查到；所述“同步达到站”为“自身同步状态更新”所在的流水站；所述“同步检查站”为“查询他核同步状态”所在的流水站，且当“同步检查站”与“同步达到站”不是同一流水站且不紧邻的同步方式为“延迟同步”；当采用同步分支指令时，所有参与栅栏同步的核处理器均通过所述同步分支指令分支到事务本身所在的程序；参与栅栏同步的任意核处理器在执行到同步分支指令的“同步达到站”时，发出当前核处理器已到达同步的信号，但此时当前核处理器并不检查其他核处理器是否已经到达栅栏，直到当前核处理器在“同步检查站”才确认参与栅栏同步的其他核处理器是否全部到达；若是，则称当前核处理器开始执行分支目标所在指令，否则进入等待状态，直到最后一个到达的核处理器发出的信号且被当前核处理器检查到；在任意参与栅栏同步的核处理器通过“同步检查站”时，保证其他参与栅栏同步的核处理器均已到达“同步达到站”。

2.根据权利要求1所述的基于延迟栅栏同步操作指令的多核处理器同步方法，其特征在于：当采用同步Load/Store指令时，同步多个核处理器对共享数据的访问操作，所有参与栅栏同步的核处理器在“同步达到站”发出当前核处理器已到达同步的信号，此时当前核处理器不检查其他核处理器是否已经到达，直到“同步检查站”才确认参与栅栏同步的其他核处理器是否全部到达；若是，则称当前核处理器继续执行，否则进入等待状态，直到最后一个到达的核处理器发出的信号且被当前核检查到。

3.根据权利要求1或2所述的基于延迟栅栏同步操作指令的多核处理器同步方法，其特征在于：参与栅栏同步的任意核处理器通过“同步检查站”时，确认其他核处理器均已达到“同步达到站”，在“同步达到站”和“同步检查站”之间不插入任何与事务相关的处理，形成栅栏同步。

4.根据权利要求1或2所述的基于延迟栅栏同步操作指令的多核处理器同步方法，其特征在于：在连续同步的过程中，若多个核处理器已经进入同步，后续再次同步时，所有参与同步的核处理器都在“同步达到站”就发出了到达信号，由于“同步达到站”和“同步检查站”之间相隔多个指令流水站，这段时间允许任意核处理器的到达信号，传递给其他核处理器。

5.根据权利要求1或2所述的基于延迟栅栏同步操作指令的多核处理器同步方法，其特征在于：当所有核处理器进入“同步检查站”时已经收到其他核处理器的同步信息，不必进入等待状态。