CN114925139B

CN114925139B - 分级同步数据链的方法、装置及电子设备

Info

Publication number: CN114925139B
Application number: CN202210855908.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: Muxi Technology Chengdu Co ltd
Current assignee: Muxi Technology Chengdu Co ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-18
Anticipated expiration: 2042-07-21
Also published as: CN114925139A

Abstract

本发明提供一种分级同步数据链的方法、装置及电子设备，涉及计算机技术，包括接收下层分解单元响应线程束请求生成的调度信息，所述调度信息由下层分解单元通过适配检查得到；根据存储器对所述调度信息进行存储；接收上层分解单元针对着色器生成的发射许可，基于所述发射许可，将所述调度信息发射给着色器执行。本发明只要缓存深度合适，资源无短缺，可以完全消除口令链带来的等待，所有着色器的资源分发可以一直处于连续状态，流水线无气泡。本实施例在维护发射次序的前提下，达到了理论上的最大吞吐量。

Description

分级同步数据链的方法、装置及电子设备

技术领域

本发明涉及计算机技术，尤其涉及一种分级同步数据链的方法、装置及电子设备。

背景技术

软件将任务以网格(grid)为单位交付给硬件。

因为尽力提高并行度的需求，所有任务都是乱序执行。但出于支持场景切换能力的考虑，要求硬件支持随时打断现有网格的分发，并尽快开始执行优先级更高的其它网格。这就提出了设置网格分发断点的需求。如果只按简单的“有资源则分配”原则，则断点无法设置。因为在乱序执行的前提下，某个线程束被分发，不代表在前一个着色器中的上一个线程束已被分发。传统的解决方案，是在着色器之间增加口令链(baton chain)。所有着色器被口令链连成1个圈。任何1个着色器的下层分解单元在做适配检查之前，必须从它在口令链上的上一个着色器获得其线程束已通过适配检查的口令，口令未到则需等待。例外仅限于网格的第一个线程束，它可以在自身适配检查通过的前提下，自由分发，无需等待口令。网格的最后一个线程束，不会向之后的着色器发出口令，以免造成误解。图1为顶层布局。

然而，口令链的传递需要时间，会造成越后面的着色器，额外的延迟越大的情况出现，而整个系统的吞吐量，将受限于延时最长的任务，因此，如何提高吞吐量成为了急需解决的问题。

发明内容

本发明实施例提供一种分级同步数据链的方法、装置及电子设备，目的在于提高吞吐量。

本发明实施例的第一方面，提供一种分级同步数据链的方法，执行于服务器，包括：

接收下层分解单元响应线程束请求生成的调度信息，所述调度信息由下层分解单元通过适配检查得到；

根据存储器对所述调度信息进行存储；

接收上层分解单元针对着色器生成的发射许可；

基于所述发射许可，将所述调度信息发射给着色器执行。

可选地，在第一方面的一种可能实现方式中，根据存储器对所述调度信息进行存储，包括：

根据FIFO存储器对所述调度信息进行存储。

可选地，在第一方面的一种可能实现方式中，在接收下层分解单元响应线程束请求生成的调度信息之后，还包括：

生成下层分解单元通过适配检查的通过信息，将所述通过信息发送给所述上层分解单元。

可选地，在第一方面的一种可能实现方式中，接收上层分解单元针对着色器生成的发射许可，包括：

接收上层分解单元根据所述通过信息针对着色器生成的发射许可；

其中，生成针对着色器的发射许可，包括：

响应所述通过信息，以当前着色器为定位点，检测位于所述当前着色器之前的所有着色器是否都已通过适配检查；

若是，生成所述当前着色器的发射许可。

本发明实施例的第二方面，提供一种分级同步数据链的方法，执行于上层分解单元，包括：

生成针对着色器的发射许可。

可选地，在第二方面的一种可能实现方式中，还包括：

接收服务器生成的所述通过信息。

可选地，在第二方面的一种可能实现方式中，生成针对着色器的发射许可，包括：

若是，生成所述当前着色器的发射许可。

本发明实施例的第四方面，提供一种分级同步数据链的装置，执行于服务器，包括：

检查模块，用于接收下层分解单元响应线程束请求生成的调度信息，所述调度信息由下层分解单元通过适配检查得到；

存储模块，用于根据存储器对所述调度信息进行存储；

发射模块，用于接收上层分解单元针对着色器生成的发射许可；

执行模块，用于基于所述发射许可，将所述调度信息发射给着色器执行。

本发明实施例的第四方面，提供一种电子设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行本发明第一方面及第二方面各种可能涉及的所述方法。

本发明实施例的第五方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第二方面各种可能涉及的所述方法。

本发明提供的一种分级同步数据链的方法、装置及电子设备，通过将由下层分解单元通过适配检查得到的调度信息缓存到存储器中，并在接收上层分解单元针对着色器生成的发射许可后，将调度信息发射给着色器执行。只要缓存深度合适，资源无短缺，可以完全消除口令链带来的等待，所有着色器的资源分发可以一直处于连续状态，流水线无气泡。本实施例在维护发射次序的前提下，达到了理论上的最大吞吐量。

附图说明

图1为背景技术中顶层布局的示意图。

图2为现有技术中口令链损害吞吐量的示意图。

图3是本发明实施例提供的一种分级同步数据链的方法的流程示意图。

图4是本发明实施例提供的一种分发流程的示意图。

图5是本发明实施例提供的一种发射许可的示意图。

图6是本发明实施例提供的一种流水线连续发射时序的示意图。

图7是本发明实施例提供的一种分级同步数据链的装置的结构示意图。

图8是本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

现有技术中，由于口令链的传递需要时间，着色器面积巨大，着色器间的口令不可能在1周期内完成传递，一般至少需要2周期以上。即便上层分解单元有能力给所有着色器同时分发线程束，位于口令链后面的着色器也只能等待口令依次从最前面的着色器传过来。哪怕增加再多的着色器，也不能缓解口令链对系统吞吐量(throughput)的伤害。

参见图2，描述了口令链后面的着色器等待前面的口令，造成越后面的着色器，额外的延迟越大的情况。假定从着色器0开始，其发射在周期2；着色器1的发射在周期4；…着色器7的发射在周期16。用公式总结，对第i个线程束，若资源一直充足，则其发射在第(2i+2)周期。理想情况，应该是第(i/N+c)周期，其中N为着色器数，c为常数。整个系统的吞吐量，将受限于延时最长的任务。在口令链的架构下，编号越后面的线程束将不得不忍受越来越长的等待，可能是数以万计的周期。因此，现有技术中对整个系统的吞吐量影响较大，使得吞吐量的提升比较困难。

为了解决上述技术问题，参见图3，是本发明实施例提供的一种分级同步数据链的方法的流程示意图，图3所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个：用户设备、网络设备等。其中，用户设备可以包括但不限于计算机、智能手机、个人数字助理（Personal Digital Assistant，简称：PDA）及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。该分级同步数据链的方法包括步骤S101至步骤S104，具体如下：

S101，服务器接收下层分解单元响应线程束请求生成的调度信息，所述调度信息由下层分解单元通过适配检查得到。

具体的，为提高并行度，传统上硬件会分两个层次来分发任务，首先是唯一的上层分解单元将网格拆解为线程束，并将线程束依次发送给每个着色器(shader)都有1个的下层分解单元，下层分解单元将做适配检查，判断计算单元的资源是否能容纳整个线程束的请求，若适配检查通过，则将线程束拆解为计算单元可直接执行的波前，并分发给相应资源执行，若适配检查失败，则需等待已在着色器的部分波前执行完毕，释放资源后再做适配检查。

本步骤在下层分解单元接收到线程束请求后，如果适配检查通过，会生成对应的调度信息，以便于后续着色器的执行。

在一些实施例中，生成下层分解单元通过适配检查的通过信息，将通过信息发送给上层分解单元，相应的，上层分解单元接收服务器生成的所述通过信息。

可以理解的是，通过信息传输给上层分解单元后，上层分解单元可以知道该下层分解单元通过适配检查，可以为其做资源调度。

需要说明的是，由于有多个下层分解单元，则会产生相应的多个调度信息。

S102，服务器根据存储器对所述调度信息进行存储。

具体的，本方案在得到多个调度信息后，不会把调度信息直接发射给着色器，而是先缓存在存储器中进行存储，等待上层分解单元的指令后再进行发射。

在实际应用中，存储器可以是FIFO存储器，即根据FIFO存储器对所述调度信息进行存储。

可以理解的是，FIFO存储器是一个先入先出的双口缓冲器，即第一个进入其内的数据第一个被移出，其中一个是存储器的输入口，另一个口是存储器的输出口。

示例性的，参见图4，其中①代表线程束请求，②代表适配检查通过，③代表调度结果缓存，④代表发射许可，⑤代表发射波前。

S103，服务器接收上层分解单元针对着色器生成的发射许可。

具体的，可以是接收上层分解单元根据通过信息针对着色器生成的发射许可。

可以理解的是，上层分解单元可以根据同时收到的所有下层分解单元的适配检查信息，确定哪些下层分解单元获得发射许可。

在实际应用中，上层分解单元生成针对着色器的发射许可，包括：

若是，生成所述当前着色器的发射许可。

示例性的，参见图5，某网格拆解后，从着色器2开始发送线程束。则着色器2只需自身通过适配检查，而着色器3需要着色器2和3都通过适配检查，…着色器1需要着色器2~7以及着色器0~1都通过适配检查。

发射许可[2] = 适配检查[2];

发射许可[3] = 适配检查[2]&适配检查[3];

发射许可[4] = 适配检查[2]&适配检查[3]&适配检查[4];

…

发射许可[1] = 适配检查[2]& …&适配检查[7]&适配检查[0]&适配检查[1];

若本次着色器2和3都通过适配检查，而着色器4失败，那么着色器4以及其之后的着色器无法获得发射许可。

S104，基于所述发射许可，将所述调度信息发射给着色器执行。

可以理解的是，下层分解单元收到发射许可后，从FIFO存储器中读出调度信息，发射给着色器执行即可。

假定着色器和上层分解单元之间的传递同样需要2周期，新方案的时序如图6。假设资源一直充足，则每个着色器的时序都一致。第6周期发射8个线程束，第9周期也发射8个线程束，…无论线程束编号多少，从请求产生到发射的周期数都恒定不变，如果有更多的着色器，吞吐量将呈正比上升。

本实施例提供的分级同步数据链的方法，只要缓存深度合适，资源无短缺，可以完全消除口令链带来的等待，所有着色器的资源分发可以一直处于连续状态，流水线无气泡。本实施例在维护发射次序的前提下，达到了理论上的最大吞吐量。

参见图7，是本发明实施例提供的一种分级同步数据链的装置的结构示意图，该分级同步数据链的装置执行于服务器，包括：

存储模块，用于根据存储器对所述调度信息进行存储；

图7所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。图1中，core代表整个图的内容，包括8个shader、上层分解单元、下层分解单元等。CU代表计算单元compute unit。

参见图8，是本发明实施例提供的一种电子设备的硬件结构示意图，该电子设备80包括：处理器81、存储器82和计算机程序；其中

存储器82，用于存储所述计算机程序，该存储器还可以是闪存（flash）。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器81，用于执行所述存储器存储的计算机程序，以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器82既可以是独立的，也可以跟处理器81集成在一起。

当所述存储器82是独立于处理器81之外的器件时，所述设备还可以包括：

总线83，用于连接所述存储器82和处理器81。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元（英文：CentralProcessing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：DigitalSignal Processor，简称：DSP）、专用集成电路（英文：Application Specific IntegratedCircuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种分级同步数据链的方法，其特征在于，执行于服务器，包括：

生成下层分解单元通过适配检查的通过信息，将所述通过信息发送给上层分解单元；

根据存储器对所述调度信息进行存储；

接收上层分解单元根据所述通过信息针对着色器生成的发射许可，其中，生成针对着色器的发射许可包括：响应所述通过信息，以当前着色器为定位点，检测位于所述当前着色器之前的所有着色器是否都已通过适配检查；若是，生成所述当前着色器的发射许可；

基于所述发射许可，将所述调度信息发射给着色器执行。

2.根据权利要求1所述的方法，其特征在于，根据存储器对所述调度信息进行存储，包括：

根据FIFO存储器对所述调度信息进行存储。

3.一种分级同步数据链的装置，其特征在于，执行于服务器，包括：

生成模块，用于生成下层分解单元通过适配检查的通过信息，将所述通过信息发送给上层分解单元；还用于生成针对着色器的发射许可，包括：响应所述通过信息，以当前着色器为定位点，检测位于所述当前着色器之前的所有着色器是否都已通过适配检查；若是，生成所述当前着色器的发射许可；

存储模块，用于根据存储器对所述调度信息进行存储；

4.一种电子设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行权利要求1或2所述的方法。

5.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1或2所述的方法。