CN113672413B - 独立显卡的数据流控制方法、装置和独立显卡 - Google Patents

独立显卡的数据流控制方法、装置和独立显卡 Download PDF

Info

Publication number
CN113672413B
CN113672413B CN202111237131.8A CN202111237131A CN113672413B CN 113672413 B CN113672413 B CN 113672413B CN 202111237131 A CN202111237131 A CN 202111237131A CN 113672413 B CN113672413 B CN 113672413B
Authority
CN
China
Prior art keywords
node
subsystem
task
adjacent nodes
high speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111237131.8A
Other languages
English (en)
Other versions
CN113672413A (zh
Inventor
潘修立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Threads Technology Co Ltd
Original Assignee
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Threads Technology Co Ltd filed Critical Moore Threads Technology Co Ltd
Priority to CN202111237131.8A priority Critical patent/CN113672413B/zh
Publication of CN113672413A publication Critical patent/CN113672413A/zh
Application granted granted Critical
Publication of CN113672413B publication Critical patent/CN113672413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/17Interprocessor communication using an input/output type connection, e.g. channel, I/O port
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17325Synchronisation; Hardware support therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本申请提供一种独立显卡的数据流控制方法、装置和独立显卡。该方法包括:接收任务,分析执行任务所需的节点序列、节点序列中每个节点所需执行的子任务、以及节点序列中相邻节点间传输的数据流量,其中,每一个节点为独立显卡中的一个子系统;配置任务,其中,为节点序列中相邻两个节点配置独立显卡内的高速数据通道以及对相邻两个节点中的在后节点配置同步逻辑,以使相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至相邻两个节点中的在后节点并且使在后节点根据同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。该方法减少独立显卡内各子系统之间数据传输延时且任务衔接紧凑。

Description

独立显卡的数据流控制方法、装置和独立显卡
技术领域
本申请属于显卡技术领域,具体涉及一种独立显卡的数据流控制方法、装置和独立显卡。
背景技术
独立显卡所要处理的任务量和数据量是巨大的。传统的计算机中通常有主机端处理器(例如是CPU)的用户态或内核态驱动程序控制各个任务的数据流在独立显卡中的各个子系统之间的流转。数据在子系统之间的传输以及子系统之间的同步逻辑(例如是fence机制或者中断机制)都会消耗时间,这使得子系统之间的信息流转存在较大延时。
发明内容
本申请的目的在于针对现有技术的不足之处,提供一种独立显卡的数据流控制方法、装置和独立显卡。
为解决上述技术问题,本申请采用如下技术方案:一种独立显卡的数据流控制方法,包括:
接收任务,分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量,其中,每一个所述节点为所述独立显卡中的一个子系统;
配置任务,其中,为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道以及对所述相邻两个节点中的在后节点配置同步逻辑,以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。
为解决上述技术问题,本申请采用如下技术方案:一种独立显卡的数据流控制装置,包括:
分析模块,用于接收任务,分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量,其中,每一个所述节点为所述独立显卡中的一个子系统;
配置模块,用于配置任务,其中,为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道,并对所述相邻两个节点中的在后节点配置同步逻辑,以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。
为解决上述技术问题,本申请采用如下技术方案:一种独立显卡的数据流控制装置,包括:存储器和处理器,所述存储器存储指令,所述处理器运行所述指令而执行前述的独立显卡的数据流控制方法。
为解决上述技术问题,本申请采用如下技术方案:一种独立显卡,包括:多个子系统、以及前述的独立显卡的数据流控制装置。
与现有技术相比,本申请的有益效果为:由于子系统之间的数据传输都是通过高速数据通道实现的,并且相互衔接的两个子系统的任务交接几乎没有延时(在后节点的启动是由硬件脉冲信号进行逻辑运算而控制实现的,而非fence或者中断),这都极大降低了子系统之间的信息流转的延时。并且全程不需要主机端处理器参与,减少了与主机端处理器的信息交互所造成的延时。
附图说明
图1是根据本申请实施例的独立显卡的数据流控制方法的流程示意图。
图2是根据本申请实施例的独立显卡的数据流控制装置的结构示意图。
图3是根据本申请另一实施例的独立显卡的数据流控制装置的结构示意图。
图4是根据本申请实施例的独立显卡的结构框图。
具体实施方式
在本申请中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中存在所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,但是并不排除存在一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
下面结合附图所示的实施例对本申请作进一步说明。
参考图1并结合图4,本申请的实施例提供一种独立显卡的数据流控制方法。从硬件角度而言,该方法的执行主体为独立显卡的数据流控制装置。独立显卡的数据流控制装置可以是一个可编程的控制器(例如是MCU),从程序角度而言,该方法的执行主体可以是可编程的控制器上运行的固件程序,或者是专用的固定功能控制器。该方法包括以下步骤。
步骤101、接收任务,分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量,其中,每一个所述节点为所述独立显卡中的一个子系统。
步骤102、配置任务,其中,为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道,并对所述相邻两个节点中的在后节点配置同步逻辑,以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。
具体地,所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。
例如,在前节点完成自身的子任务之后,通常会产生一个任务完成信号。在后节点检测到这个任务完成信号之后即启动对应的子任务。
又例如,高速数据通道将数据传输至在后节点之后,会产生一个传输完成信号。在后节点检测到这个传输完成信号后即启动对应的子任务。
当然,在一些可能的实施方式中,在前节点也会产生同步信号以触发高速数据通道的数据传输。例如高速数据通道在检测到在前节点的任务完成信号后启动数据传输。
由于子系统之间的数据传输都是通过高速数据通道实现的,并且相互衔接的两个子系统的任务交接(由硬件脉冲信号经逻辑运算而实现)几乎没有延时,这都极大降低了子系统之间的信息流转的延时。并且全程不需要主机端处理器参与,减少了与主机端处理器的信息交互所造成的延时。
具体地,所述子系统包括:图形渲染子系统、显示控制子系统、通用计算子系统、音频编解码子系统和视频编解码子系统中的至少一项。
图形渲染子系统的作用是进行2D渲染或者3D渲染。
通用计算子系统的作用是将数据通过任务附带的程序进行并行通用计算。
音频编解码子系统的作用是进行音频的编解码,并发送给音频输出端口。
视频编解码子系统的作用是对图像渲染子系统渲染得到的图像(存储在帧缓冲区内)进行视频编码、或者对控制端(即主机端)发送的压缩视频进行解码获得图像(存储在帧缓冲区内)。
显示控制子系统可用于将图形渲染子系统和视频编解码子系统存储在帧缓冲区内的图像输出到显示器上。
独立显卡内的子系统不限于此,本领域技术人员可以按照现有技术进行设计。
具体地,所述高速数据通道包括:高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。
高速共享内存的作用是暂存子任务产生、消耗的数据。如果所述节点序列中相邻两个节点间有高速共享内存时,数据流控制装置将配置在前节点的数据输出在高速共享内存中,同时配置后节点的数据输入为同一高速共享内存。共享内存可以减少数据在缓存或内存中的复制加速数据传输速率。
高速FIFO(先进先出队列)的作用是通过先进先出队列,将产生、消耗的数据序列化。在所述节点序列中相邻两个节点符合配置条件时,数据流控制装置将在前节点配置为将先进先出队列生产者,在后节点配置为先进先出队列的消耗者。
高速总线的作用是通过总线,将数据从生成子系统发送消耗给子系统。在所述节点序列中相邻两个节点符合配置条件时,数据流控制装置将前节点发送的数据接收者配置为后节点。
高速直接存储器访问的作用是将在前的子系统缓存中生产的数据高速拷贝到在后的消耗子系统缓存内。在所述节点序列中相邻两个节点符合配置条件时,数据流控制装置将在前节点缓存中的数据通过直接存储器访问模块拷贝到后节点缓存中。
在一些实施例中,所述方法还包括:在存在多个任务并发执行的情况下,确定任务的优先级,为高优先级任务优先配置高速数据通道。
每当有新任务下发到数据流控制装置时,数据流控制装置首先分析各个任务的优先级、各子系统之间的数据流量;然后优先为高优先级的任务的子系统配置高速数据通道;然后根据优先级对剩余的数据通道进行配置。以上逻辑在每次新任务下发时可以重复执行,以求保证高优先级任务总能使用更多的高速数据通道,以获得更小的延迟。
以下介绍独立显卡的数据流控制方法的完整实施流程。
第一步,独立显卡的数据流控制装置接受到独立显卡的驱动程序(运行在主机端处理器)下发的任务后,分析该任务需要调用的子系统和子系统间的数据流量。
第二步,独立显卡的数据流控制装置将高速数据通路与子系统的映射关系写入高速数据通路的配置寄存器,同时将同步逻辑的配置信息写入各个子系统的寄存器。
第三步,将任务进行分解并下发给各个子系统。例如依次需要子系统A、B和C配合完成该任务。
在此之后,子系统A完成对应的子任务后,产生的数据会通过已配置好的高速数据通路发送给流水线中后一个子系统B。同时,高速数据通路的同步逻辑会在数据传输到子系统B后,触发子系统B开始继续执行接下来的任务。子系统B会同理按照事先配置触发子系统C继续执行后续任务。
以图形渲染子系统、通用计算子系统、和视频编解码子系统处理一段特效渲染视频任务为例。
该任务需要图形渲染子系统将基础3D场景渲染成功,使用人工智能模型(使用通用计算子系统实现)将特效加入场景,并且将场景保存为压缩的视频格式。
该任务中使用高速共享内存和高速直接存储器访问作为高速通道。
第一步,独立显卡的数据流控制装置接受到独立显卡的驱动程序(运行在主机端处理器)下发的任务后,分析该任务需要调用的子系统和子系统间的数据流量。
本例中通过分析决定:将在图形渲染子系统和通用计算子系统间使用高速共享内存,通用计算子系统和视频编解码子系统间使用高速直接存储器访问作为高速数据通道。
第二步,独立显卡的数据流控制装置将高速数据通路与子系统的映射关系写入高速数据通路的配置寄存器,同时将同步逻辑的配置信息写入各个子系统的寄存器。
本例中图形渲染子系统的数据输出地址被配置为高速共享内存内的一个地址A,通用计算子系统的数据输入地址被配置为高速共享内存内的前述的同一地址A。通用计算子系统的触发逻辑被配置为图形渲染子系统完成时触发。
通用计算子系统的数据输出地址被配置为高速内存内的另一地址B,视频编解码子系统的数据输入地址为视频编解码子系统的高速缓存地址C。高速直接存储器访问控制器的数据来源地址被配置为B,目标地址被配置为C。
通用计算子系统的完成信号被配置为高速直接存储器的触发逻辑,高速直接存储器的完成信号被配置为视频编解码子系统的触发逻辑。
第三步,将任务进行分解并下发给各个子系统。本例中依次需要子系统图形渲染子系统、通用计算子系统、和视频编解码子系统配合完成该任务。
图形渲染子系统完成基础的3D模型渲染任务后,产生的数据保存在高速共享内存地址A中。同时触发通用计算子系统开始执行人工智能任务,以保存在高速共享内存地址A中的基础3D模型作为输入进行特效的计算与添加,并将输出数据保存在同一高速共享内存地址B中。
通用计算子系统完成任务后,将触发高速直接存储器访问控制器,将高速共享内存中地址B的输出数据拷贝到视频编解码子系统内的高速缓存地址C内。数据传输完成后触发视频编解码子系统开始执行编码任务。
基于与前述方法实施例相同的发明构思,参考图2,本申请的实施例还提供一种独立显卡的数据流控制装置,包括:
分析模块1,用于接收任务,分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量,其中,每一个所述节点为所述独立显卡中的一个子系统;
配置模块2,用于配置任务,其中,为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道以及同步逻辑,并对所述相邻两个节点中的在后节点配置同步逻辑,以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点,并使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。
具体地,所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。
具体地,所述子系统包括:图形渲染子系统、通用计算子系统、音频编解码子系统、显示控制子系统和视频编解码子系统中的至少一项。
具体地,所述高速数据通道包括:高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。
可选地,所述装置还包括:优先级管理模块3,用于在存在多个任务并发执行的情况下,确定任务的优先级,为高优先级任务优先配置高速数据通道。
基于与前述方法实施例相同的发明构思,参考图3,本申请的实施例还提供一种独立显卡的数据流控制装置,包括:存储器1000和处理器2000,所述存储器1000存储指令,所述处理器2000运行所述指令而执行前述的独立显卡的数据流控制方法。
参考图4,本申请的实施例还提供一种独立显卡,包括:多个子系统40、50、60和多个高速数据通道20、30、以及前述的独立显卡的数据流控制装置10。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
本申请的保护范围不限于上述的实施例,显然,本领域的技术人员可以对本申请进行各种改动和变形而不脱离本申请的范围和精神。倘若这些改动和变形属于本申请权利要求及其等同技术的范围,则本申请的意图也包含这些改动和变形在内。

Claims (12)

1.一种独立显卡的数据流控制方法,其特征在于,包括:
接收任务,分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量,其中,每一个所述节点为所述独立显卡中的一个子系统;
配置任务,其中,为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道以及对所述相邻两个节点中的在后节点配置同步逻辑,以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。
2.根据权利要求1所述的方法,其特征在于,所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。
3.根据权利要求1所述的方法,其特征在于,所述子系统包括:图形渲染子系统、显示控制子系统、通用计算子系统、音频编解码子系统和视频编解码子系统中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述高速数据通道包括:高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在存在多个任务并发执行的情况下,确定任务的优先级,为高优先级任务优先配置高速数据通道。
6.一种独立显卡的数据流控制装置,其特征在于,包括:
分析模块,用于接收任务,分析执行所述任务所需的节点序列、所述节点序列中每个节点所需执行的子任务、以及所述节点序列中相邻节点间传输的数据流量,其中,每一个所述节点为所述独立显卡中的一个子系统;
配置模块,用于为所述节点序列中相邻两个节点配置所述独立显卡内的高速数据通道,并对所述相邻两个节点中的在后节点配置同步逻辑,以使所述相邻两个节点中的在前节点在完成对应的子任务后通过已经配置好的高速数据通道将运算结果发送至所述相邻两个节点中的在后节点并且使所述在后节点根据所述同步逻辑基于对硬件脉冲信号的逻辑运算而启动该在后节点的子任务。
7.根据权利要求6所述的装置,其特征在于,所述同步逻辑将所述在前节点的任务完成信号或者所述高速数据通道的传输完成信号作为所述在后节点的任务启动信号。
8.根据权利要求6所述的装置,其特征在于,所述子系统包括:图形渲染子系统、显示控制子系统、通用计算子系统、音频编解码子系统和视频编解码子系统中的至少一项。
9.根据权利要求6所述的装置,其特征在于,所述高速数据通道包括:高速共享内存、高速FIFO、高速总线和高速直接存储器访问中的至少一项。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:优先级管理模块,用于在存在多个任务并发执行的情况下,确定任务的优先级,为高优先级任务优先配置高速数据通道。
11.一种独立显卡的数据流控制装置,其特征在于,包括:存储器和处理器,所述存储器存储指令,所述处理器运行所述指令而执行根据权利要求1至5中任一项所述的独立显卡的数据流控制方法。
12.一种独立显卡,其特征在于,包括:多个子系统和多个高速数据通道、以及根据权利要求6至11中任一项所述的独立显卡的数据流控制装置。
CN202111237131.8A 2021-10-25 2021-10-25 独立显卡的数据流控制方法、装置和独立显卡 Active CN113672413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111237131.8A CN113672413B (zh) 2021-10-25 2021-10-25 独立显卡的数据流控制方法、装置和独立显卡

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111237131.8A CN113672413B (zh) 2021-10-25 2021-10-25 独立显卡的数据流控制方法、装置和独立显卡

Publications (2)

Publication Number Publication Date
CN113672413A CN113672413A (zh) 2021-11-19
CN113672413B true CN113672413B (zh) 2022-02-11

Family

ID=78550954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111237131.8A Active CN113672413B (zh) 2021-10-25 2021-10-25 独立显卡的数据流控制方法、装置和独立显卡

Country Status (1)

Country Link
CN (1) CN113672413B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441615A (zh) * 2008-11-24 2009-05-27 中国人民解放军信息工程大学 面向任务流的高效能立体并行柔性可重构计算架构模型
CN101707558A (zh) * 2009-10-14 2010-05-12 北京东方广视科技股份有限公司 一种组建高速共享网络的方法及设备
CN103838533A (zh) * 2012-11-21 2014-06-04 北京同步科技有限公司 计算机集群拼接显示系统中图形信号的同步方法及同步卡
CN107168810A (zh) * 2017-05-10 2017-09-15 郑州云海信息技术有限公司 一种计算节点内存共享系统及读、写操作内存共享方法
CN109933438A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 高速共享内存数据收发系统
CN112866747A (zh) * 2021-01-04 2021-05-28 深圳市君创视讯科技有限公司 一种基于Zynq异构平台的超低延时视频传输方法及其装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100208729A1 (en) * 2008-10-17 2010-08-19 John Oddie Method and System for Receiving Market Data Across Multiple Markets and Accelerating the Execution of Orders
JP2011076584A (ja) * 2009-09-02 2011-04-14 Renesas Electronics Corp 半導体集積回路装置
US11010338B2 (en) * 2017-04-06 2021-05-18 Shanghai Cambricon Information Technology Co., Ltd Data screening device and method
CN111314191A (zh) * 2020-04-15 2020-06-19 联合华芯电子有限公司 一种数据传输系统和方法
CN111897750A (zh) * 2020-08-07 2020-11-06 航天科工微电子系统研究院有限公司 一种应用于舵机控制系统的SoC芯片结构

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441615A (zh) * 2008-11-24 2009-05-27 中国人民解放军信息工程大学 面向任务流的高效能立体并行柔性可重构计算架构模型
CN101707558A (zh) * 2009-10-14 2010-05-12 北京东方广视科技股份有限公司 一种组建高速共享网络的方法及设备
CN103838533A (zh) * 2012-11-21 2014-06-04 北京同步科技有限公司 计算机集群拼接显示系统中图形信号的同步方法及同步卡
CN107168810A (zh) * 2017-05-10 2017-09-15 郑州云海信息技术有限公司 一种计算节点内存共享系统及读、写操作内存共享方法
CN109933438A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 高速共享内存数据收发系统
CN112866747A (zh) * 2021-01-04 2021-05-28 深圳市君创视讯科技有限公司 一种基于Zynq异构平台的超低延时视频传输方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CPU+GPU异构模式下并行计算效率研究;蔡镇河;《计算机与现代化》;20120515;全文 *
Slicing FIFOs for on-chip memory bandwidth exhaustion;Mattis Hasler;《IEEE》;20181231;全文 *

Also Published As

Publication number Publication date
CN113672413A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
US9342857B2 (en) Techniques for locally modifying draw calls
US7447873B1 (en) Multithreaded SIMD parallel processor with loading of groups of threads
US7594095B1 (en) Multithreaded SIMD parallel processor with launching of groups of threads
US10002031B2 (en) Low overhead thread synchronization using hardware-accelerated bounded circular queues
JP6390021B2 (ja) グラフィック処理ユニットのためのワークロードバッチサブミットメカニズム
US9996394B2 (en) Scheduling accelerator tasks on accelerators using graphs
US10977037B2 (en) Techniques for comprehensively synchronizing execution threads
US11182207B2 (en) Pre-fetching task descriptors of dependent tasks
US20130198760A1 (en) Automatic dependent task launch
JP2000057329A (ja) 処理分担動的変更方法及びコンピュータ
CN110751676A (zh) 一种基于目标检测的异构计算系统、方法和可读存储介质
US9030480B2 (en) Triggering performance event capture via pipelined state bundles
WO2017088456A1 (zh) 多输入多输出处理器流水线数据同步装置及方法
CN113672413B (zh) 独立显卡的数据流控制方法、装置和独立显卡
US8325194B1 (en) Mitigating main crossbar load using dedicated connections for certain traffic types
US8065465B1 (en) Mitigating main crossbar load using dedicated connections for certain traffic types
US7400326B1 (en) System and method for delivering multiple data streams via multiple buses
CN116680042A (zh) 一种图像处理的方法及相关装置和系统
CN114371920A (zh) 一种基于图形处理器加速优化的网络功能虚拟化系统
US10817295B2 (en) Thread-level sleep in a multithreaded architecture
US9147224B2 (en) Method for handling state transitions in a network of virtual processing nodes
US9367487B1 (en) Mitigating main crossbar load using dedicated connections for certain traffic types
US8976185B2 (en) Method for handling state transitions in a network of virtual processing nodes
US7917736B1 (en) Latency tolerant pipeline synchronization
CN112395249A (zh) 用于多个异步消耗者的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant