CN117742794A

CN117742794A - 数据处理系统、方法、装置及存储介质

Info

Publication number: CN117742794A
Application number: CN202311659916.3A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-03-22

Abstract

本公开实施例公开了一种数据处理系统、方法、装置及存储介质。该系统包括：指令调度电路，用于发送待执行的指令；操作数控制单元，与指令调度电路连接，并与多个数据资源单元连接；其中，操作数控制单元用于根据指令生成操作数读取请求，并发送至数据资源单元；多个数据资源单元，分别连接多个执行单元，数据资源单元用于基于操作数读取请求向对应的执行单元发送操作数据；多个执行单元，连接指令调度电路；执行单元用于接收指令和操作数据，并基于操作数据执行指令。本公开实施例中的数据处理系统，无需仲裁器，访问资源时可以减少冲突。

Description

数据处理系统、方法、装置及存储介质

技术领域

本公开实施例涉及计算机技术领域，涉及但不限于一种数据处理系统、方法、装置及存储介质。

背景技术

在SIMD(Single Instruction Multiple Data，单指令流多数据流)的架构中，多个线程组成一个线程组，多个线程组之间进行调度执行来增加并行性，隐藏执行延迟。线程组内多个线程共享相同的指令程序地址，线程组之间的调度实际是指令间的调度。

线程组调度可执行指令，发送到相应的执行单元，再由执行单元进行操作数处理请求资源反馈操作数据。由于多个执行单元并行地顺序处理多个指令，个执行单元与资源之间存在竞争，在指令较多时，容易阻塞指令的执行。

发明内容

有鉴于此，本公开实施例提供一种数据处理系统、方法、装置及存储介质。第一方面，本公开实施例提供一种数据处理系统，包括：

指令调度电路，用于发送待执行的指令；

操作数控制单元，与所述指令调度电路连接，并与多个数据资源单元连接；其中，所述操作数控制单元用于根据所述指令生成操作数读取请求，并发送至所述数据资源单元；

多个所述数据资源单元，分别连接多个执行单元，所述数据资源单元用于基于所述操作数读取请求向对应的所述执行单元发送操作数据；

所述多个执行单元，连接所述指令调度电路；所述执行单元用于接收所述指令和所述操作数据，并基于所述操作数据执行所述指令。

在一些实施例中，每个所述数据资源单元连接至每个所述执行单元。

在一些实施例中，所述指令调度电路，包括：指令调度单元和调度接口电路；

所述调度接口电路，连接所述指令调度单元，用于将所述指令调度单元传输的指令发送至所述操作数控制单元和所述执行单元。

在一些实施例中，所述指令调度电路同时分别将待执行的指令发送至所述执行单元和所述操作数控制单元。

在一些实施例中，所述指令中包括执行单元的标识信息，所述操作数控制单元根据所述指令生成的操作数读取请求携带有所述标识信息，所述数据资源单元根据所述操作数读取请求，向所述标识信息对应的执行单元发送操作数据。

在一些实施例中，所述执行单元包括：

指令缓存单元，用于在所述执行单元接收到所述操作数据之前缓存所述指令。

第二方面，本公开实施例提供一种数据处理方法，应用于数据处理系统，所述数据处理系统包括指令调度电路、操作数控制单元、数据资源单元和多个执行单元，所述方法包括：

指令调度电路向执行单元和操作数控制单元发送待执行的指令；其中，所述指令中包含有执行单元的标识信息；

所述操作数控制单元根据所述指令生成操作数读取请求，并发送至数据资源单元；其中，所述操作数读取请求携带有所述标识信息；

所述数据资源单元根据所述操作数读取请求，向所述标识信息指定的所述执行单元发送操作数据；

所述执行单元基于所述操作数据执行所述指令。

在一些实施例中，所述执行单元基于所述操作数据执行所述指令，包括：

所述执行单元接收所述指令后，缓存所述指令；

所述执行单元接收到所述操作数据后，读取缓存的所述指令，并基于所述操作数据执行所述指令。

第三方面，本公开实施例提供一种数据处理装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行时实现上述任一数据处理方法中的步骤。

第四方面，本公开实施例提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得所述装置能够执行上述任一数据处理方法中的步骤。

通过本公开实施例的上述技术方案，利用单独连接指令调度电路与多个数据资源单元的操作数控制单元，基于指令向数据资源单元请求数据。由于操作数控制单元每次针对一条指令发送读取请求，可以按照指令依次访问资源。如此，一方面可以减少多请求仲裁导致的冲突，提高指令执行效率，另一方面，这种结构不需要额外的仲裁器，简化了电路结构。

附图说明

图1为本公开实施例提供的一种数据处理系统的结构示意图；

图2为本公开实施例提供的一种数据处理系统的结构示意图；

图3为本公开实施例提供的一种数据处理系统的结构示意图；

图4为本公开实施例提供的一种数据处理系统的结构示意图；

图5为本公开实施例提供的一种数据处理方法的流程图；

图6为本公开实施例提供的一种数据处理装置的结构框图；

图7为本公开实施例提供的另一种数据处理系统的结构示意图；

图8为本公开实施例提供的又一种数据处理系统的结构示意图。

具体实施方式

为了便于理解本公开，下面将参照相关附图对本公开进行更全面的描述。附图中给出了本公开的首选实施例。但是，本公开可以以多种不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使本公开的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中在本公开的说明书中所使用的术语只是为了实现描述具体的实施例的目的，不是旨在限制本公开。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本公开实施例提供一种数据处理系统100，包括：

指令调度电路110，用于发送待执行的指令；

操作数控制单元120，与所述指令调度电路110连接，并与多个数据资源单元130连接；其中，所述操作数控制单元120用于根据所述指令生成操作数读取请求，并发送至所述数据资源单元130；

多个所述数据资源单元130，分别连接多个执行单元140，所述数据资源单元130用于基于所述操作数读取请求向对应的所述执行单元140发送操作数据；

所述多个执行单元140，连接所述指令调度电路110；所述执行单元140用于接收所述指令和所述操作数据，并基于所述操作数据执行所述指令。

计算机系统中，SIMD架构是一种单指令多数据流的结构，这种结构的处理器可以把待处理的长数据分解为多个较短的数据，直接使用一条指令就可以同时并行完成多条短数据的处理，从而提高低位宽数据的处理能力。SIMD结构可以采用一个控制器来控制多个处理器，同时对一组数据中的每个数据分别执行相同的操作，从而实现空间上的并行性。即一个指令能够同时处理多个数据。

在SIMD架构中，多个线程组之间可以进行调度执行来增加并行性，隐藏执行延迟。组内多个线程共享相同的指令程序地址，进程组之间的调度实际是指令间的调度。

在本公开实施例中，由上述指令调度电路执行进程组的调度即指令调度。指令调度电路每次调度一条待执行的指令。该指令中包含有执行该指令的目标执行单元的相关信息，例如pipe类型(管道类型)。因此，每条指令对应有一个执行该指令的执行单元。执行该指令还需要相应的操作数据，因此，执行单元需要针对指令进行操作数控制，向资源发起读请求，读取操作数据后再执行相应的指令。

在一实施例中，每个执行单元进行操作数控制，向相应的资源发起读请求。由于多个执行单元会同时向相同的资源发起读请求，导致这些读请求会发生竞争。因此需要在资源侧首先进行仲裁，获得仲裁权的请求能够读取操作数据并返回到相应的执行单元。没有获得仲裁权的请求将处于等待状态，直到获得仲裁权。在等待的过程中，对应的执行单元由于无法获得操作数据，导致该执行单元无法进行操作，从而阻塞该指令的执行。

因此，在本公开实施例中，上述数据处理系统100包括独立的操作数控制单元120，该操作数控制单元120与指令调度电路110连接，并与多个数据资源单元130连接。这样，指令调度电路110发送的指令会直接到达操作数控制单元120。操作数控制单元120依据指令进行操作数控制，向资源侧请求数据。

由于指令中携带有执行单元140的相关信息，因此，操作数控制单元120可以将该信息发送至数据资源单元130，即发送操作数读取请求时告知资源侧需向哪个执行单元140返回数据。如此，数据资源单元130可以基于上述操作数读取请求向指定的执行单元140发送操作数据。

指令调度电路110还与多个执行单元140连接，当指令调度电路110调度一条待执行的指令时，会依据其携带的执行单元140的相关信息，如Pipe类型，将该指令发送至相应的执行单元140。执行单元140接收到指令后则可以等待由数据资源单元130发送的操作数据，若接收到操作数据，即可执行相应的指令。

可以理解的是，在指令调度电路110每调度一条待执行的指令，都直接由操作数控制单元120向数据资源单元130请求操作数据。由于指令调度电路110每次调度一条指令，因此，每次到达操作数控制单元120的也只有一条指令。操作数控制单元120产生的读取请求也是唯一的，其指向该指令所需的数据资源单元130。执行单元140则无需进行操作数处理，数据资源单元130每次只收到一个数据读取请求，因此也无需进行数据请求的仲裁操作。

如此，本公开实施例的上述电路，可以减少多请求仲裁导致的冲突，各执行单元也可以较快的得到操作数据进行执行，从而提高了指令执行的效率。并且由于访问资源的请求数减少，因此不需要仲裁器等电路结构，可以简化电路。

在一些实施例中，如图2所示，每个所述数据资源单元130连接至每个所述多个执行单元140。

上述每个执行单元140可能需要任一数据资源单元130提供的操作数据，因此，每个执行单元140一一连接每个数据资源单元130，从而可以达到数据资源的最大化利用。

在一些实施例中，如图3所示，所述指令调度电路110，包括：指令调度单元111和调度接口电路112；

所述调度接口电路112，连接所述指令调度单元111，用于将所述指令调度单元110传输的指令发送至所述操作数控制单元120和所述执行单元140。

这里，指令调度单元111可以针对执行线程组的调度，选出可执行的指令，并将该指令送入调度接口电路112。

在一些实施例中，所述指令调度电路可以同时分别将待执行的指令发送至所述执行单元和所述操作数控制单元。

在本公开实施例中，线程组调度选择出一条可以被执行的指令，并将该指令通过调度接口电路发送到执行单元，同时，还将该指令同时发送至操作数控制单元进行操作数控制。指令中可以携带有指示执行该指令的执行单元的标识信息，例如pipe类型，因此，操作数控制单元可以依据指令将携带有该标识信息的操作数读取请求发送至数据资源单元。

在一些实施例中，如图4所述，所述执行单元包括：

指令缓存单元141，用于在执行单140接收到所述操作数据之前缓存所述指令。

由于执行单元140以及操作数控制单元120并行地与指令调度电路110连接，执行单元140接收到指令时，操作数控制单元120也同时接收到指令。此时操作数控制单元120尚未进行操作数控制，没有数据资源单元130也尚未将操作数据发送至执行单元，因此执行单元140还无法执行指令。

因此，在本公开实施例中，执行单元140的前段设置有指令缓存单元141，当指令到达执行单元140时，首先进入指令缓存单元141进行缓存。当执行单元140接收到数据资源单元130发送的操作数据时，再从指令缓存单元141读取指令，并依据操作数据执行该指令。

如图5所示，本公开实施例还提供一种数据处理方法，该方法应用于上述任一实施例中的数据处理系统，该方法包括：

步骤101，同时分别向执行单元和操作数控制单元发送待执行的指令；其中，所述指令中包含有执行单元的标识信息；

步骤102，所述操作数控制单元根据所述指令生成操作数读取请求，并发送至数据资源单元；其中，所述操作数读取请求携带有所述标识信息；

步骤103，所述数据资源单元根据所述操作数读取请求，向所述标识信息指定的所述执行单元发送操作数据；

步骤104，所述执行单元基于所述操作数据执行所述指令。

在一些实施例中，上述指令中可以携带有执行单元的标识信息，用于指示由哪个执行单元执行该指令。当操作数控制单元接收到指令后，根据该指令生成操作数读取请求，可以将上述标识信息携带在该操作数读取请求中，并发送至数据资源单元。数据资源单元根据操作数读取请求调取相应的操作数据，可以发送至上述标识信息指定的执行单元。

数据资源单元则依据上述标识信息向指定的执行单元发送操作数据。

这样，当执行单元接收到操作数据时就可以依据该操作数据执行该指令。

可以理解的是，操作数控制单元每次基于一条待执行的指令向数据资源单元发起数据读取请求，即执行操作数控制操作。这样，数据资源单元也基于该条指令反馈相应的操作数据到执行单元。执行单元接收到指令后则无需进行操作数控制，直接等待所需的操作数据执行该指令即可，因此数据资源单元也无需进行数据请求的仲裁操作。

如此，通过上述方法，可以使得执行单元快速得到操作数据进行执行，提高了执行效率，并且由于访问资源的请求数减少，因此无需仲裁等操作，也不会发生因仲裁产生的冲突。

所述执行单元接收所述指令后，缓存所述指令；

由于执行单元与操作数控制单元并行接收指令，因此，执行单元接收到指令时，还无法同时接收到操作数据，需要等待操作数控制单元进行操作数控制，向数据资源单元发送数据读取请求，当数据资源单元基于该数据读取请求向执行单元发送操作数据后，执行单元可以再读取缓存的指令，基于该操作数据执行指令。

如图6所示，本公开实施例提供一种数据处理装置300，该装置应用于上述任一实施例中的数据处理系统，该装置300包括：

第一发送模块310，配置为同时分别向执行单元和操作数控制单元发送待执行的指令；其中，所述指令中包含有执行单元的标识信息；

生成模块320，配置为根据所述指令生成操作数读取请求；

第二发送模块330，配置为将所述操作数读取请求发送至数据资源单元；其中，所述操作数读取请求携带有所述标识信息；

接收模块340，配置为接收所述数据资源单元根据所述操作数读取请求发送的操作数据；

执行模块350，配置为基于所述操作数据执行所述指令。

在一些实施例中，所述执行模块包括：

缓存模块，配置为缓存所述指令；

所述执行模块，具体配置为：接收到到所述操作数据后，读取缓存的所述指令，并基于所述操作数据执行所述指令。

本公开实施例提供一种数据处理装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行时实现上述任一数据处理方法中的步骤。

本公开实施例提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得所述装置能够执行上述任一数据处理方法中的步骤。

本公开实施例还提供如下示例：

在SIMD的架构中，多个线程组成一个组，多个组之间进行调度执行来增加并行性，隐藏执行延迟。组内多个线程共享相同的指令程序地址，组之间的调度实际是指令间的调度。

在一些实施例中，线程组调度单元选出一条可以被执行的指令，该指令送入调度接口(dispatch port)通过携带的pipe类型，将该指令发射到对应的执行单元，如图7所示pipe0,pipe1,…。各执行单元前端是一个指令缓存单元。指令首先进入指令缓存单元，然后依次进行操作数处理，产生读取请求，数据返回之后进行相应的计算。在每个执行单元中，指令都是顺序处理的。各执行单元在进行操作数控制时，由于多个执行单元会同时向相同的资源发起读请求，这些读请求会发生竞争。因此在资源侧首先通过仲裁器(arb)进行仲裁，获得仲裁权的请求能够读取操作数据返回到相应的执行单元。没有获得仲裁权的请求将处于等待的状态，直到获得仲裁权。在等待的过程中，对应的执行单元由于无法获得操作数据，导致该执行单元无法进行操作，从而阻塞该指令的执行。同时在芯片实现的过程中，由于请求数量较多，对时序和布局布线都有一定的影响。

上述实施例中，多个执行单元同时向同一资源发起请求，导致之间存在竞争，无法或者仲裁权的指令由于无法取得相应执行所需要的操作数，从而被阻塞，影响指令的执行效率，浪费了计算资源。同时也会对芯片后端实现过程中的时序和布局布线产生影响。而本公开实施例提供的方案中，基于发射端口指令的唯一性，将操作数控制提前到进入执行单元之前，减少对资源访问的冲突，使执行单元能够更快的拿到操作数数据，提高指令执行效率，同时对芯片后端实现中的时序和布局布线有一定优化。

如图8所示，线程组调度选出一条可以被执行的指令，该指令送入dispatch port，dispatch port通过携带的pipe类型，将该指令发射到对应的执行单元，如图所示pipe0,pipe1,…。各执行单元前端是一个指令缓存单元，指令首先进入指令缓存单元等待操作数据的返回。Dispatch port在发射指令到执行单元的同时，也将该指令送入操作数控制(operand ctrl)单元进行操作数的控制，产生该指令执行所需的操作数读取请求，同时该读取请求携带pipe信息。由于此时只有一条指令，产生的读取请求也是唯一的，不会与其他的指令产生读取冲突。该请求到达相应资源后，读取需要的操作数据，根据携带的pipe信息返回操作数数据到相应的执行单元。由于减少了多请求仲裁导致的冲突，各执行单元可以较快的得到操作数据进行执行，提高了指令执行效率。同时由于访问资源的请求数减少，也不需要仲裁器等电路结构，对时序以及布局布线都有一定的优化。

应理解，说明书通篇中提到的“一些实施例”、“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述，仅为本公开的实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理系统，其特征在于，包括：

指令调度电路，用于发送待执行的指令；

2.根据权利要求1所述的数据处理系统，其特征在于，每个所述数据资源单元连接至每个所述执行单元。

3.根据权利要求1所述的数据处理系统，其特征在于，所述指令调度电路，包括：指令调度单元和调度接口电路；

4.根据权利要求1所述的数据处理系统，其特征在于，所述指令调度电路同时分别将待执行的指令发送至所述执行单元和所述操作数控制单元。

5.根据权利要求1所述的数据处理系统，其特征在于，所述指令中包括执行单元的标识信息，所述操作数控制单元根据所述指令生成的操作数读取请求携带有所述标识信息，所述数据资源单元根据所述操作数读取请求，向所述标识信息对应的执行单元发送操作数据。

6.根据权利要求1所述的数据处理系统，其特征在于，所述执行单元包括：

7.一种数据处理方法，其特征在于，应用于数据处理系统，所述数据处理系统包括指令调度电路、操作数控制单元、数据资源单元和多个执行单元，所述方法包括：

所述执行单元基于所述操作数据执行所述指令。

8.根据权利要求7所述的方法，其特征在于，所述执行单元基于所述操作数据执行所述指令，包括：

所述执行单元接收所述指令后，缓存所述指令；

9.一种数据处理装置，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行时实现上述权利要求7或8中的数据处理方法中的步骤。

10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得所述装置能够执行上述权利要求7或8中的数据处理方法中的步骤。