CN113672413B

CN113672413B - 独立显卡的数据流控制方法、装置和独立显卡

Info

Publication number: CN113672413B
Application number: CN202111237131.8A
Authority: CN
Inventors: 潘修立
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-02-11
Anticipated expiration: 2041-10-25
Also published as: CN113672413A

Abstract

本申请提供一种独立显卡的数据流控制方法、装置和独立显卡。该方法包括：接收任务，分析执行任务所需的节点序列、节点序列中每个节点所需执行的子任务、以及节点序列中相邻节点间传输的数据流量，其中，每一个节点为独立显卡中的一个子系统；配置任务，其中，为节点序列中相邻两个节点配置独立显卡内的高速数据通道以及对相邻两个节点中的在后节点配置同步逻辑，以使相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至相邻两个节点中的在后节点并且使在后节点根据同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。该方法减少独立显卡内各子系统之间数据传输延时且任务衔接紧凑。

Description

独立显卡的数据流控制方法、装置和独立显卡

技术领域

本申请属于显卡技术领域，具体涉及一种独立显卡的数据流控制方法、装置和独立显卡。

背景技术

独立显卡所要处理的任务量和数据量是巨大的。传统的计算机中通常有主机端处理器（例如是CPU）的用户态或内核态驱动程序控制各个任务的数据流在独立显卡中的各个子系统之间的流转。数据在子系统之间的传输以及子系统之间的同步逻辑（例如是fence机制或者中断机制）都会消耗时间，这使得子系统之间的信息流转存在较大延时。

发明内容

本申请的目的在于针对现有技术的不足之处，提供一种独立显卡的数据流控制方法、装置和独立显卡。

为解决上述技术问题，本申请采用如下技术方案：一种独立显卡的数据流控制方法，包括：

接收任务，分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量，其中，每一个所述节点为所述独立显卡中的一个子系统；

配置任务，其中，为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道以及对所述相邻两个节点中的在后节点配置同步逻辑，以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。

为解决上述技术问题，本申请采用如下技术方案：一种独立显卡的数据流控制装置，包括：

分析模块，用于接收任务，分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量，其中，每一个所述节点为所述独立显卡中的一个子系统；

配置模块，用于配置任务，其中，为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道，并对所述相邻两个节点中的在后节点配置同步逻辑，以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。

为解决上述技术问题，本申请采用如下技术方案：一种独立显卡的数据流控制装置，包括：存储器和处理器，所述存储器存储指令，所述处理器运行所述指令而执行前述的独立显卡的数据流控制方法。

为解决上述技术问题，本申请采用如下技术方案：一种独立显卡，包括：多个子系统、以及前述的独立显卡的数据流控制装置。

与现有技术相比，本申请的有益效果为：由于子系统之间的数据传输都是通过高速数据通道实现的，并且相互衔接的两个子系统的任务交接几乎没有延时（在后节点的启动是由硬件脉冲信号进行逻辑运算而控制实现的，而非fence或者中断），这都极大降低了子系统之间的信息流转的延时。并且全程不需要主机端处理器参与，减少了与主机端处理器的信息交互所造成的延时。

附图说明

图1是根据本申请实施例的独立显卡的数据流控制方法的流程示意图。

图2是根据本申请实施例的独立显卡的数据流控制装置的结构示意图。

图3是根据本申请另一实施例的独立显卡的数据流控制装置的结构示意图。

图4是根据本申请实施例的独立显卡的结构框图。

具体实施方式

在本申请中，应理解，诸如“包括”或“具有”等术语旨在指示本说明书中存在所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，但是并不排除存在一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。

另外还需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

下面结合附图所示的实施例对本申请作进一步说明。

参考图1并结合图4，本申请的实施例提供一种独立显卡的数据流控制方法。从硬件角度而言，该方法的执行主体为独立显卡的数据流控制装置。独立显卡的数据流控制装置可以是一个可编程的控制器（例如是MCU），从程序角度而言，该方法的执行主体可以是可编程的控制器上运行的固件程序，或者是专用的固定功能控制器。该方法包括以下步骤。

步骤101、接收任务，分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量，其中，每一个所述节点为所述独立显卡中的一个子系统。

步骤102、配置任务，其中，为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道，并对所述相邻两个节点中的在后节点配置同步逻辑，以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。

具体地，所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。

例如，在前节点完成自身的子任务之后，通常会产生一个任务完成信号。在后节点检测到这个任务完成信号之后即启动对应的子任务。

又例如，高速数据通道将数据传输至在后节点之后，会产生一个传输完成信号。在后节点检测到这个传输完成信号后即启动对应的子任务。

当然，在一些可能的实施方式中，在前节点也会产生同步信号以触发高速数据通道的数据传输。例如高速数据通道在检测到在前节点的任务完成信号后启动数据传输。

由于子系统之间的数据传输都是通过高速数据通道实现的，并且相互衔接的两个子系统的任务交接（由硬件脉冲信号经逻辑运算而实现）几乎没有延时，这都极大降低了子系统之间的信息流转的延时。并且全程不需要主机端处理器参与，减少了与主机端处理器的信息交互所造成的延时。

具体地，所述子系统包括：图形渲染子系统、显示控制子系统、通用计算子系统、音频编解码子系统和视频编解码子系统中的至少一项。

图形渲染子系统的作用是进行2D渲染或者3D渲染。

通用计算子系统的作用是将数据通过任务附带的程序进行并行通用计算。

音频编解码子系统的作用是进行音频的编解码，并发送给音频输出端口。

视频编解码子系统的作用是对图像渲染子系统渲染得到的图像（存储在帧缓冲区内）进行视频编码、或者对控制端（即主机端）发送的压缩视频进行解码获得图像（存储在帧缓冲区内）。

显示控制子系统可用于将图形渲染子系统和视频编解码子系统存储在帧缓冲区内的图像输出到显示器上。

独立显卡内的子系统不限于此，本领域技术人员可以按照现有技术进行设计。

具体地，所述高速数据通道包括：高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。

高速共享内存的作用是暂存子任务产生、消耗的数据。如果所述节点序列中相邻两个节点间有高速共享内存时，数据流控制装置将配置在前节点的数据输出在高速共享内存中，同时配置后节点的数据输入为同一高速共享内存。共享内存可以减少数据在缓存或内存中的复制加速数据传输速率。

高速FIFO（先进先出队列）的作用是通过先进先出队列，将产生、消耗的数据序列化。在所述节点序列中相邻两个节点符合配置条件时，数据流控制装置将在前节点配置为将先进先出队列生产者，在后节点配置为先进先出队列的消耗者。

高速总线的作用是通过总线，将数据从生成子系统发送消耗给子系统。在所述节点序列中相邻两个节点符合配置条件时，数据流控制装置将前节点发送的数据接收者配置为后节点。

高速直接存储器访问的作用是将在前的子系统缓存中生产的数据高速拷贝到在后的消耗子系统缓存内。在所述节点序列中相邻两个节点符合配置条件时，数据流控制装置将在前节点缓存中的数据通过直接存储器访问模块拷贝到后节点缓存中。

在一些实施例中，所述方法还包括：在存在多个任务并发执行的情况下，确定任务的优先级，为高优先级任务优先配置高速数据通道。

每当有新任务下发到数据流控制装置时，数据流控制装置首先分析各个任务的优先级、各子系统之间的数据流量；然后优先为高优先级的任务的子系统配置高速数据通道；然后根据优先级对剩余的数据通道进行配置。以上逻辑在每次新任务下发时可以重复执行，以求保证高优先级任务总能使用更多的高速数据通道，以获得更小的延迟。

以下介绍独立显卡的数据流控制方法的完整实施流程。

第一步，独立显卡的数据流控制装置接受到独立显卡的驱动程序（运行在主机端处理器）下发的任务后，分析该任务需要调用的子系统和子系统间的数据流量。

第二步，独立显卡的数据流控制装置将高速数据通路与子系统的映射关系写入高速数据通路的配置寄存器，同时将同步逻辑的配置信息写入各个子系统的寄存器。

第三步，将任务进行分解并下发给各个子系统。例如依次需要子系统A、B和C配合完成该任务。

在此之后，子系统A完成对应的子任务后，产生的数据会通过已配置好的高速数据通路发送给流水线中后一个子系统B。同时，高速数据通路的同步逻辑会在数据传输到子系统B后，触发子系统B开始继续执行接下来的任务。子系统B会同理按照事先配置触发子系统C继续执行后续任务。

以图形渲染子系统、通用计算子系统、和视频编解码子系统处理一段特效渲染视频任务为例。

该任务需要图形渲染子系统将基础3D场景渲染成功，使用人工智能模型（使用通用计算子系统实现）将特效加入场景，并且将场景保存为压缩的视频格式。

该任务中使用高速共享内存和高速直接存储器访问作为高速通道。

本例中通过分析决定：将在图形渲染子系统和通用计算子系统间使用高速共享内存，通用计算子系统和视频编解码子系统间使用高速直接存储器访问作为高速数据通道。

本例中图形渲染子系统的数据输出地址被配置为高速共享内存内的一个地址A，通用计算子系统的数据输入地址被配置为高速共享内存内的前述的同一地址A。通用计算子系统的触发逻辑被配置为图形渲染子系统完成时触发。

通用计算子系统的数据输出地址被配置为高速内存内的另一地址B，视频编解码子系统的数据输入地址为视频编解码子系统的高速缓存地址C。高速直接存储器访问控制器的数据来源地址被配置为B，目标地址被配置为C。

通用计算子系统的完成信号被配置为高速直接存储器的触发逻辑，高速直接存储器的完成信号被配置为视频编解码子系统的触发逻辑。

第三步，将任务进行分解并下发给各个子系统。本例中依次需要子系统图形渲染子系统、通用计算子系统、和视频编解码子系统配合完成该任务。

图形渲染子系统完成基础的3D模型渲染任务后，产生的数据保存在高速共享内存地址A中。同时触发通用计算子系统开始执行人工智能任务，以保存在高速共享内存地址A中的基础3D模型作为输入进行特效的计算与添加，并将输出数据保存在同一高速共享内存地址B中。

通用计算子系统完成任务后，将触发高速直接存储器访问控制器，将高速共享内存中地址B的输出数据拷贝到视频编解码子系统内的高速缓存地址C内。数据传输完成后触发视频编解码子系统开始执行编码任务。

基于与前述方法实施例相同的发明构思，参考图2，本申请的实施例还提供一种独立显卡的数据流控制装置，包括：

分析模块1，用于接收任务，分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量，其中，每一个所述节点为所述独立显卡中的一个子系统；

配置模块2，用于配置任务，其中，为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道以及同步逻辑，并对所述相邻两个节点中的在后节点配置同步逻辑，以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点，并使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。

具体地，所述子系统包括：图形渲染子系统、通用计算子系统、音频编解码子系统、显示控制子系统和视频编解码子系统中的至少一项。

可选地，所述装置还包括：优先级管理模块3，用于在存在多个任务并发执行的情况下，确定任务的优先级，为高优先级任务优先配置高速数据通道。

基于与前述方法实施例相同的发明构思，参考图3，本申请的实施例还提供一种独立显卡的数据流控制装置，包括：存储器1000和处理器2000，所述存储器1000存储指令，所述处理器2000运行所述指令而执行前述的独立显卡的数据流控制方法。

参考图4，本申请的实施例还提供一种独立显卡，包括：多个子系统40、50、60和多个高速数据通道20、30、以及前述的独立显卡的数据流控制装置10。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

本申请的保护范围不限于上述的实施例，显然，本领域的技术人员可以对本申请进行各种改动和变形而不脱离本申请的范围和精神。倘若这些改动和变形属于本申请权利要求及其等同技术的范围，则本申请的意图也包含这些改动和变形在内。

Claims

1.一种独立显卡的数据流控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。

3.根据权利要求1所述的方法，其特征在于，所述子系统包括：图形渲染子系统、显示控制子系统、通用计算子系统、音频编解码子系统和视频编解码子系统中的至少一项。

4.根据权利要求1所述的方法，其特征在于，所述高速数据通道包括：高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：在存在多个任务并发执行的情况下，确定任务的优先级，为高优先级任务优先配置高速数据通道。

6.一种独立显卡的数据流控制装置，其特征在于，包括：

配置模块，用于为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道，并对所述相邻两个节点中的在后节点配置同步逻辑，以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。

7.根据权利要求6所述的装置，其特征在于，所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。

8.根据权利要求6所述的装置，其特征在于，所述子系统包括：图形渲染子系统、显示控制子系统、通用计算子系统、音频编解码子系统和视频编解码子系统中的至少一项。

9.根据权利要求6所述的装置，其特征在于，所述高速数据通道包括：高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：优先级管理模块，用于在存在多个任务并发执行的情况下，确定任务的优先级，为高优先级任务优先配置高速数据通道。

11.一种独立显卡的数据流控制装置，其特征在于，包括：存储器和处理器，所述存储器存储指令，所述处理器运行所述指令而执行根据权利要求1至5中任一项所述的独立显卡的数据流控制方法。

12.一种独立显卡，其特征在于，包括：多个子系统和多个高速数据通道、以及根据权利要求6至11中任一项所述的独立显卡的数据流控制装置。