CN117827284A

CN117827284A - 向量处理器访存指令处理方法、系统、设备及存储介质

Info

Publication number: CN117827284A
Application number: CN202410239357.9A
Authority: CN
Inventors: 胡振波; 彭剑英; 罗成
Original assignee: Shin Lai Zhirong Semiconductor Technology Shanghai Co ltd
Current assignee: Shin Lai Zhirong Semiconductor Technology Shanghai Co ltd
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-04-05
Anticipated expiration: 2044-03-04
Also published as: CN117827284B

Abstract

本申请实施例提供一种向量处理器访存指令处理方法、系统、设备及存储介质，涉及存储技术领域。其中，本申请的方法包括：通过向量处理器中向量访存单元接收上游读/写指令后，将上游读/写指令按照指令字段进行拆分；通过至少两个通道将拆分后的上游读/写指令发送至下游；通过向量访存单元接收下游的返回信息，并将返回信息进行合并处理后进行写回。通过本申请提供的方法，将读/写指令分别从独立通道送到下游进行处理，大大提高了整体数据存取效率。此外，将元素顺序信息置于独立通道，也进一步提升了向量访存单元的整体运行效率。

Description

向量处理器访存指令处理方法、系统、设备及存储介质

技术领域

本申请涉及存储技术领域，具体地，涉及一种向量处理器访存指令处理方法、系统、设备及存储介质。

背景技术

向量处理器中，一个元素为所需处理的最小单元，而影响向量处理器整体性能的一个重要因素在于，向量访存单元是否能够快速高效的从外存或者是CPU内部缓存读取数据（一个或多个元素）并写回用于其他向量运算模块使用。

在现有技术中，向量访存单元在收到来自于上游的微指令后，根据该微指令对应的指令类型快速计算出数据存/取地址，并直接发出相应总线命令及其元素信息用于下游做进一步的访存处理。

而由于读操作和写操作存在天然的区别（即读操作在发出读指令后仅需从外部返回数据，而写操作需要同时将该指令的操作数写出外存），因此，将上游指令直接发送至下游，存在效率低下、影响向量处理器整体性能的问题。此外，向量访存单元除了通过总线命令送往下游外，还需提供当前指令的元素信息，以使下游在检查到地址错误时去更新相应的寄存器，但计算元素信息需要大量时序逻辑，会伤害到整体逻辑时序，进一步影响整体处理效率。

发明内容

为了解决上述技术缺陷之一，本申请实施例中提供了一种向量处理器访存指令处理方法、系统、设备及存储介质。

根据本申请实施例的第一个方面，提供了一种向量处理器访存指令处理方法，该方法包括：

通过向量处理器中向量访存单元接收上游读/写指令后，将上游读/写指令按照指令字段进行拆分；

通过至少两个通道将拆分后的上游读/写指令发送至下游；

通过向量访存单元接收下游的返回信息，并将返回信息进行合并处理后进行写回。

在本申请一个可选的实施例中，通过向量处理器中向量访存单元接收上游读/写指令后，将上游读/写指令按照指令字段进行拆分的步骤还包括：

向量访存单元接收上游读指令后，将上游读指令拆分为读地址信息和读指令元素顺序信息。

在本申请一个可选的实施例中，通过至少两个通道将拆分后的上游读/写指令发送至下游的步骤还包括：

通过第一通道将读地址信息发送至下游；

通过第二通道将读指令元素顺序信息发送至下游。

向量访存单元接收上游写指令后，将上游写指令拆分为写地址信息、写数据信息和写指令元素顺序信息。

通过第一通道将写地址信息发送至下游；

通过第二通道将写指令元素顺序信息发送至下游；

通过第三通道将写指令元素顺序信息发送至下游。

根据本申请实施例的第二个方面，提供了一种向量处理器访存指令处理系统，该系统包括上游分发单元、电性连接于上游分发单元的向量访存单元和电性连接于向量访存单元的下游存储单元；

向量访存单元接收上游分发单元下发的读/写指令，并将读/写指令按照指令字段进行拆分，通过至少两个通道将拆分后的读/写指令发送至下游存储单元；

向量访存单元接收下游存储单元的返回信息，并将返回信息进行合并处理后进行写回。

在本申请一个可选的实施例中，向量访存单元接收读指令后，将读指令拆分为读地址信息和读指令元素顺序信息，通过第一通道将读地址信息发送至下游存储单元，通过第二通道将读指令元素顺序信息发送至下游存储单元。

在本申请一个可选的实施例中，向量访存单元接收写指令后，将写指令拆分为写地址信息、写数据信息和写指令元素顺序信息，通过第一通道将写地址信息发送至下游存储单元，通过第二通道将写指令元素顺序信息发送至下游存储单元，通过第三通道将写指令元素顺序信息发送至下游存储单元。

根据本申请实施例的第三个方面，提供了一种计算机设备，包括：存储器；

处理器；以及计算机程序；其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现如本申请实施例的第一个方面任一项方法的步骤。

根据本申请实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行以实现如本申请实施例的第一个方面任一项方法的步骤。

采用本申请实施例中提供的向量处理器访存指令处理方法，具有以下有益效果：

由于向量访存单元往下游尽快不卡顿的发送对应总线命令是提高向量处理器性能的关键点，因此，本申请实施例将读/写指令分别从独立通道送到下游进行处理，会大大提高整体数据存取效率。此外，本申请实施例将元素顺序信息置于独立通道，也可以进一步提升向量访存单元的整体运行效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的向量处理器访存指令处理方法的流程图；

图2为本申请实施例提供的向量处理器访存指令处理系统的结构图；

图3为本申请一个实施例提供的计算机设备结构示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

向量处理器系统（Vector Processor System，VPS），是面向向量型并行计算，以流水线结构为主的并行处理计算机系统。采用先行控制和重叠操作技术、运算流水线、交叉访问的并行存储器等并行处理结构，对提高运算速度有重要作用。但在实际运行时还不能充分发挥并行处理潜力。向量运算很适合于流水线计算机的结构特点。向量型并行计算与流水线结构相结合，能在很大程度上克服通常流水线计算机中指令处理量太大、存储访问不均匀、相关等待严重、流水不畅等缺点，并可充分发挥并行处理结构的潜力，显著提高运算速度。在向量处理器技术领域，读操作（Load）为把外部存储器数据加载到处理器的寄存器中，写操作（Store）就是把寄存器中的数据存储到外部存储器中。

本申请发明人发现，由于读操作和写操作存在天然的区别（即读操作在发出读指令后仅需从外部返回数据，而写操作需要同时将该指令的操作数写出外存），因此，在现有的向量处理器访存指令处理方法中，将上游指令直接发送至下游，存在效率低下、影响向量处理器整体性能的问题。此外，向量访存单元除了通过总线命令送往下游外，还需提供当前指令的元素信息，以使下游在检查到地址错误时去更新相应的寄存器，但计算元素信息需要大量时序逻辑，会伤害到整体逻辑时序，进一步影响整体处理效率。

而为了达到高性能的需求，也配合下游对读写操作的独立处理能力，将读写指令(包括地址、大小等信息)和写数据分别从独立通道送到下游进行处理，会大大提高整体数据存取效率。并且，将元素顺序信息置于独立通道，也可以进一步提升向量访存单元的整体运行效率。

基于此，请参见图1，本申请的向量处理器访存指令处理方法包括：

S1:通过向量处理器中向量访存单元接收上游读/写指令后，将上游读/写指令按照指令字段进行拆分。

在具体实施中，向量访存单元（Vector Load/Store Unit，VLSU）是向量处理器中用于读或写一个向量到主存的单元，向量访存单元接收来自上游分发的微操作（Micro-operation，μOP）,并将这些微操作转化为多个独立通道向下游发送一条读/写（load/store）指令所需的信息。

在具体实施中，向量处理器提供了高层的对于向量（线性数组）的操作。一个典型的向量操作是两个64浮点元素的向量相加得到一个新的64元素的向量。这条向量指令等同于一整个循环，每一次迭代计算出一个元素的结果，更新循环变量，然后跳转回循环头部继续执行。基于此，向下游发送一条读/写指令所需的信息包括读写地址信息、写数据信息、元素个数顺序信息等，以这种结构达到性能和时序的最优化。

S2：通过至少两个通道将拆分后的上游读/写指令发送至下游。

在本申请的其中一些实施例中，向量访存单元接收上游读指令后，将上游读指令拆分为读地址信息和读指令元素顺序信息。基于此，该条指令应该发出什么地址、读多少数据量以及相应的元素顺序等信息可通过不同通道下发，大大提高整体数据存取效率。

具体的，通过第一通道将读地址信息发送至下游；通过第二通道将读指令元素顺序信息发送至下游。

在具体实施中，第一通道即总线命令通道，第二通道即元素顺序通道。

在具体实施中，上游分发将指令拆解后的单个小信息（即μOP）逐次发送到VLSU的先入先出队列（First Input First Output，FIFO），VLSU逻辑将FIFO的每个μOP进行分析，先入先出队列是一种传统的按序执行方法，先进入的指令先完成并引退，跟着才执行第二条指令。解析出该条指令应该发出什么地址、读多少数据量等信息，将其转换成相应的控制信息通过总线命令通道和元素顺序通道发送到下游。具体的，拆分为包含地址和大小的读地址信息、包含元素个数顺序的读指令元素顺序信息，通过总线命令通道将读地址信息发送至下游，通过元素顺序通道将读指令元素顺序信息发送至下游。基于此，通过将指令信息按照其目的和数据内容分类，将应该发出什么地址、读多少数据量为一类通过第一通道下发，将读指令元素顺序为一类通过第二通道下发，进一步提高了整体数据存取效率。

在本申请的其中一些实施例中，向量访存单元接收上游写指令后，将上游写指令拆分为写地址信息、写数据信息和写指令元素顺序信息。基于此，该条指令应该发出什么地址、写出哪些有用数据量以及相应的元素顺序等信息可通过不同通道下发，大大提高整体数据存取效率。

通过第一通道将写地址信息发送至下游，通过第二通道将写指令元素顺序信息发送至下游，通过第三通道将写指令元素顺序信息发送至下游。

在具体实施中，第三通道即写数据通道。

在具体实施中，上游分发将指令拆解后的μOP逐次发送到VLSU FIFO，VLSU逻辑将FIFO的每个μOP进行分析，解析出该条指令应该发出什么地址、写出哪些有用数据量等信息，将其转换成相应的控制信息通过总线命令通道、写数据通道及元素顺序通道发送到下游。具体的，拆分为包含地址和大小的写地址信息、包含数据有效性的写数据信息和包含元素个数顺序的读指令元素顺序信息，通过总线命令通道将写地址信息发送至下游，通过写数据通道将写数据信息发送至下游，通过元素顺序通道将写指令元素顺序信息发送至下游。基于此，通过将指令信息按照其目的和数据内容分类，将应该发出什么地址、写多少数据量为一类通过第一通道下发，将写指令元素顺序为一类通过第二通道下发，并单独设立第三通道，将数据有效性这一写指令特有需求作为单独一类单设通道，进一步提高了整体数据存取效率。

S3：通过向量访存单元接收下游的返回信息，并将返回信息进行合并处理后进行写回。

在具体实施中，VLSU在往下游发送读信息的同时，需要提取一定的写回信息存入到特定FIFO，具体的，特定FIFO为写回信息（WB_INFO）FIFO。待返回的写完成信息通过下游进入VLSU，相应的逻辑进行返回信息的相关处理，将处理后的返回信息及部分原始μOP信息进行合并选择做最后写回。

基于此，本申请实施例通过在VLSU和下游处理间的多通道信息传输架构，可达到同时提升性能及时序优化的效果。

应该理解的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参见图2，本申请一个实施例提供了向量处理器访存指令处理系统，包括上游分发单元10、电性连接于上游分发单元10的向量访存单元20和电性连接于向量访存单元20的下游存储单元30：

向量访存单元20接收上游分发单元10下发的读/写指令，并将读/写指令按照指令字段进行拆分，通过至少两个通道将拆分后的读/写指令发送至下游存储单元30；

向量访存单元20接收下游存储单元30的返回信息，并将返回信息进行合并处理后进行写回。

在本申请的其中一些实施例中，向量访存单元20接收读指令后，将读指令拆分为读地址信息和读指令元素顺序信息，通过第一通道将读地址信息发送至下游存储单元30，通过第二通道将读指令元素顺序信息发送至下游存储单元30。

如图2所示，在具体实施中，向量访存单元20与下游存储单元30，即地址生成单元（Address GenerationUnit，AGU）间存在总线命令通道（即第一通道）和元素顺序通道（即第二通道）。

在具体实施中，上游分发单元10（Dispatch）将指令拆解后的μOP逐次发送到VLSUFIFO，VLSU逻辑将FIFO的每个μOP进行分析，解析出该条指令应该发出什么地址、读多少数据量等信息，将其转换成相应的控制信息通过总线命令通道和元素顺序通道发送到AGU。VLSU在往AGU发送读信息的同时，需要提取一定的写回信息存入到特定FIFO：WB_INFOFIFO。

进一步的，待读回的数据通过下游的读/写单元（load/storeunit）40进入VLSU，相应的逻辑进行返回数据的合并处理等，将处理后的返回数据及部分原始μOP信息进行合并选择做最后写回。

在本申请的其中一些实施例中，向量访存单元20接收写指令后，将写指令拆分为写地址信息、写数据信息和写指令元素顺序信息，通过第一通道将写地址信息发送至下游存储单元30，通过第二通道将写指令元素顺序信息发送至下游存储单元30，通过第三通道将写指令元素顺序信息发送至下游存储单元30。

如图2所示，在具体实施中，向量访存单元20与下游存储单元30间还存在写数据通道（即第三通道）。

在具体实施中，设定以通道选择为内容的总线信息运算处理逻辑，进行通道的选择。

在具体实施中，Dispatch将指令拆解后的μOP逐次发送到VLSUFIFO，VLSU逻辑将FIFO的每个μOP进行分析，解析出该条指令应该发出什么地址、写出哪些有用数据量等信息，将其转换成相应的控制信息通过总线命令通道、写数据通道及元素顺序通道发送到AGU，VLSU在往下游发送读信息的同时，需要提取一定的写回信息存入到特定FIFO：WB_INFOFIFO，待返回的写完成信息通过下游load/storeunit进入VLSU，相应的逻辑进行返回信息的相关处理，将处理后的返回信息及部分原始μOP信息进行合并选择做最后写回。

关于上述向量处理器访存指令处理系统的具体限定可以参见上文中对于向量处理器访存指令处理方法的限定，在此不再赘述。上述向量处理器访存指令处理系统中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个单元对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备的内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现如上的一种向量处理器访存指令处理方法。包括：存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上视频信号处理方法中的任一步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时可以实现如上向量处理器访存指令处理方法中的任一步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，C语言、VHDL语言、Verilog语言、面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种向量处理器访存指令处理方法，其特征在于，包括：

通过向量处理器中向量访存单元接收上游读/写指令后，将所述上游读/写指令按照指令字段进行拆分，包括：将所述上游读指令拆分为读地址信息和读指令元素顺序信息；将所述上游写指令拆分为写地址信息、写数据信息和写指令元素顺序信息；

通过至少两个通道将拆分后的所述上游读/写指令发送至下游；

通过所述向量访存单元接收所述下游的返回信息，并将所述返回信息进行合并处理后进行写回。

2.根据权利要求1所述的向量处理器访存指令处理方法，其特征在于，所述通过至少两个通道将拆分后的所述上游读/写指令发送至下游的步骤还包括：

通过第一通道将所述读地址信息发送至所述下游；

通过第二通道将所述读指令元素顺序信息发送至所述下游。

3.根据权利要求2所述的向量处理器访存指令处理方法，其特征在于，所述通过至少两个通道将拆分后的所述上游读/写指令发送至下游的步骤还包括：

通过所述第一通道将所述写地址信息发送至所述下游；

通过所述第二通道将所述写指令元素顺序信息发送至所述下游；

通过第三通道将所述写指令元素顺序信息发送至所述下游。

4.一种向量处理器访存指令处理系统，其特征在于，包括：

上游分发单元、电性连接于所述上游分发单元的向量访存单元和电性连接于所述向量访存单元的下游存储单元；

所述向量访存单元接收所述上游分发单元下发的读/写指令，并将所述读/写指令按照指令字段进行拆分，包括：将所述上游读指令拆分为读地址信息和读指令元素顺序信息；将所述上游写指令拆分为写地址信息、写数据信息和写指令元素顺序信息；

通过至少两个通道将拆分后的所述读/写指令发送至所述下游存储单元；

所述向量访存单元接收所述下游存储单元的返回信息，并将所述返回信息进行合并处理后进行写回。

5.根据权利要求4所述的向量处理器访存指令处理系统，其特征在于，所述向量访存单元接收所述读指令后，通过第一通道将所述读地址信息发送至所述下游存储单元，通过第二通道将所述读指令元素顺序信息发送至所述下游存储单元。

6.根据权利要求5所述的向量处理器访存指令处理系统，其特征在于，所述向量访存单元接收所述写指令后，通过所述第一通道将所述写地址信息发送至所述下游存储单元，通过所述第二通道将所述写指令元素顺序信息发送至所述下游存储单元，通过第三通道将所述写指令元素顺序信息发送至所述下游存储单元。

7.一种计算机设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-3任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行以实现如权利要求1-3任一项所述的方法。