CN113687955B - 一种高效处理gpu片内和片间缓存一致性的数字电路设计方法 - Google Patents
一种高效处理gpu片内和片间缓存一致性的数字电路设计方法 Download PDFInfo
- Publication number
- CN113687955B CN113687955B CN202110680159.2A CN202110680159A CN113687955B CN 113687955 B CN113687955 B CN 113687955B CN 202110680159 A CN202110680159 A CN 202110680159A CN 113687955 B CN113687955 B CN 113687955B
- Authority
- CN
- China
- Prior art keywords
- cache
- pgl2
- gpu
- region
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明公开了一种高效处理GPU片内和片间缓存一致性的数字电路设计方法,包括:步骤1:划分地址区域并增加PGL2,实现GPU的缓存一致性具有可扩展性;步骤2:当GPU规模增大或需要支持片间GPU互联或更多片间GPU互联时,同等增加区域和PGL2,实现缓存一致性。本发明通过划分区域,添加的代理PGL2,及互联的数字逻辑电路,仅在第一次跨区域读取和写回时需要发生交互,避免了上述场景反复来回交互的情况,缩短了该场景下的一致性交互时间,减少了数据的流动,提高了完成硬件一致性的效率。
Description
技术领域
本发明属于数字电路技术领域,具体涉及一种高效处理GPU片内和片间缓存一致性的数字电路设计方法。
背景技术
早期GPU既不频繁同步也不共享数据,而是通过把线程信息和缓存结构暴露给程序员,让程序员在没有硬件一致性的情况下,通过软件实现同步和数据共享。现在,GPGPU越来越流行。技术人员开始用GPU架构做通用的任务(general purpose workloads)。这类任务需要频繁的同步和更普遍的数据共享,因此GPU的架构需要有一个能保证所有线程可以同步的直观、严格的访存一致性(consistency)模型。此外要有又能确保访存一致性正确又能允许数据高效共享和同步的缓存一致性(coherency)协议。同时这个协议要保证足够简单能过够满足图形任务占主导的传统GPU架构。
LRCC(LAZY released consistency-direct coherence)是一种适合GPU实现数据同步和共享的缓存一致性协议。该协议主要基于“生产者-消费者”访存一致性模型,通过acquire-release(消费者-生产者)机制实现片内L1缓存之间的数据共享和同步。同步发生在消费者去试图获取(acquire)生产者已经释放(release)的flag,作为生产者一侧的L1缓存在发生同步时把缓存内已更新的共享数据写回到消费者可见的点(一般是公共可见的L2缓存),而作为消费者一侧的L1缓存则需要在完成同步时无效缓存内旧的数据,以避免后续访存请求仍旧读到过时的缓存数据,而是可以从同步点读取到最新的数据。L2缓存作为L1缓存共享数据的同步点,负责记录缓存行的状态--归属情况,当发生同步时,作为生产者、消费者的桥梁,通过请求交互,来指示生产者、消费者的L1开始数据同步及完成数据同步。其中L1在LRCC协议中的逻辑行为如图1所示,L2在LRCC协议中的逻辑行为如图2所示。图中的GetV和GetO是LRCC定义的两种类型的读请求,GetV不要求获得该地址的所有权(owner),GetO需要获得该地址的所有权。具体LRCC协议缓存一致性数据同步流程如图3所示。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种高效处理GPU片内和片间缓存一致性的数字电路设计方法,能够解决一般GPU的数据共享和同步问题。还考虑到随着芯片规模增大或存在GPU-GPU互联时,LRCC协议生产者-消费者的同步路径变得很长,解决缓存一致性可能变得低效,本发明能够提高上述场景下,数据共享和同步的效率,且具有扩展性,是一个可扩展的解决GPU片间及片内一致性的数字设计方法。
为实现上述技术目的,本发明采取的技术方案为:
一种高效处理GPU片内和片间缓存一致性的数字电路设计方法,包括:
步骤1:划分地址区域并增加PGL2,实现GPU的缓存一致性具有可扩展性;
步骤2:当GPU规模增大或需要支持片间GPU互联或更多片间GPU互联时,同等增加区域和PGL2,实现缓存一致性。
为优化上述技术方案,采取的具体措施还包括:
上述的每个或几个GPU内核设有独立的私有缓存,即L1缓存,每个独立L1缓存缓存属于任意设备内存地址空间的数据;
当存在GPU-GPU片间互联时,也包含缓存属于其他GPU设备内存的地址空间的数据。
上述的步骤1所述划分地址区域,具体为:
将整个GPU系统的L2和设备内存都根据地址空间划成N个区域,一个区域一个L2缓存块;
一个区域的L2缓存块与该区域的设备内存地址空间对应,该L2缓存块定义为该区域设备内存地址空间的原始拥有者缓存;
原始拥有者缓存负责记录所有属于该区域设备内存地址空间的数据被缓存的缓存块状态,并负责最终将被缓存的缓存块写回该区域的设备内存。
上述的步骤1所述增加PGL2,具体为:
设置代理二级缓存PGL2;
将PGL2分成若干份,每个区域都有一份PGL2;
一个区域内的PGL2不缓存属于本区域地址空间的数据,而只缓存非本区域地址空间的数据,其所共享的数据需与本区域L1及非本区域的原始拥有者缓存通过设定的逻辑行为完成交互,来实现数据共享和同步。
上述的设定的逻辑行为,包括:L1非占有状态在收到acquire请求发送GetV给L2时带上acquire指示进行拓展。
上述的设定的逻辑行为,包括:
对原本L2和设备内存的访问请求,根据请求地址是否属于本区域,将属于本区域的请求路由到本区域的原始拥有者缓存,而将非属于本区域的请求路由到PGL2;
PGL2与所有其他区域的原始拥有着有一个物理上的连接通路,连接通路基于具体系统架构实际情况而定;
对于存在片内划分的不同设备内存地址区域,PGL2和其他区域的原始拥有者通过新增的片内互联总线直接连接,对与GPU-GPU片间的不同区域,PGL2通过片间互联总线,路由到其他GPU上,再通过特定的连接通路连接到原始拥有者。
本发明具有以下有益效果:
1.原本LRCC一致性协议需要L1(生产者)-L2(地址原始拥有者)-L1(消费者)之间的握手交互,随着GPU的片内规模增大及片间一致性的需求,当需要同步的地址空间属于距离L1较远的L2/设备内存时,可能需要反复来回通过非常长的片内通路或片间通路,如图8所示。本发明通过划分区域,添加的代理PGL2,及互联的数字逻辑电路,仅在第一次跨区域读取和写回时需要发生交互,避免了上述场景反复来回交互的情况,缩短了该场景下的一致性交互时间,减少了数据的流动,提高了完成硬件一致性的效率,如图9所示。
2.本发明划分地址区域增加PGL2的方法来实现GPU的缓存一致性具有可扩展性,当GPU规模增大或需要支持片间GPU互联或更多片间GPU互联时,基于本发明方法只需要同等增加区域和PGL2即仍然可支持它们之间的缓存一致性。
附图说明
图1是LRCC协议,L1缓存的逻辑行为;
图2是LRCC协议,L2缓存的逻辑行为;
图3是LRCC协议缓存一致性数据同步流程;
图4是本发明定义的L1缓存的逻辑行为;
图5是本发明L2和设备主存地址映射关系及区域划分示意图;
图6是本发明定义的PGL2缓存的逻辑行为;
图7是本发明访存子系统互联示意图;
图8基于LRCC的长路径同步示意图;
图9是本发明与图8相同场景下,同步交互示意图;
图10是一例基于本发明数字设计方法的单GPU内划分两个设备区域的,仅展示必要参与缓存一致性模块的同步流程示意图;
图11展示了场景2生产者、消费者属于同一个区域,要同步的数据属于另一个区域的情况下的同步流程示意图;
图12展示了场景3生产者和需同步数据属于同一区域,消费者属于另一个区域的情况下的同步流程示意图;
图14是进一步扩展,一例基于本发明数字设计方法的2个GPU互联下,仅展示必要参与缓存一致性模块的顶层示意框图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
一种高效处理GPU片内和片间缓存一致性的数字电路设计方法,包括:
步骤1:划分地址区域并增加PGL2,实现GPU的缓存一致性具有可扩展性;
步骤2:当GPU规模增大或需要支持片间GPU互联或更多片间GPU互联时,同等增加区域和PGL2,实现缓存一致性。
实施例中,本发明和一般实现硬件一致性的GPU一样,每个或几个GPU内核都可以有其独立的私有缓存,即L1缓存。每个独立L1缓存都可以缓存属于任意设备内存(即devicememory与CPU主存的host memory对应)地址空间的数据,当存在GPU-GPU片间互联时,也包含缓存属于其他GPU设备内存的地址空间的数据。与一般LRCC协议不同,本发明的拓展协议需要L1非占有状态在收到acquire请求发送GetV给L2时带上acquire指示(acquiqreindicate),如图4所示,其目的在发明3中描述。
实施例中,L2是二级公共缓存,本发明规定了L2和设备主存地址空间之间的映射关系如图5所示,
首先将整个GPU系统的L2和设备内存都根据地址空间划成N个区域,一个区域一个L2缓存块(数字电路设计上,为了提高带宽可以把一个区域内的L2缓存块根据地址分配再分成若干缓存子块,非本发明描述重点,后续为描述方便,会将一个区域L2只视为一个整体缓存块)。一个区域的L2缓存块与该区域的设备内存地址空间对应,该L2缓存块定义为该区域设备内存地址空间的原始拥有者缓存。原始拥有者缓存需负责记录所有属于该区域设备内存地址空间的数据被缓存的缓存块状态,并负责最终将被缓存的缓存块写回该区域的设备内存。
实施例中,本发明定义了一种特殊的缓存模块,命名为代理二级缓存(PGL2)。PGL2也分成若干份,每个区域都由一份PGL2。一个区域内的PGL2不缓存属于本区域地址空间的数据,而只缓存非本区域地址空间的数据。其所共享的数据需与本区域L1及非本区域的原始拥有者缓存通过本发明定义的逻辑行为完成交互,来实现数据共享和同步。本发明逻辑行为定义如图6所示。区别于普通L2,特别注意PGL2收到GetV(acquire indicate)时的逻辑行为。
实施例中,本发明的访存子系统互联结构如图7所示,对原本L2和设备内存的访问请求,根据请求地址是否属于本区域,将属于本区域的请求路由到本区域的原始拥有者缓存,而将非属于本区域的请求路由到PGL2。PGL2与所有其他区域的原始拥有着有一个物理上的连接通路。连接通路基于具体系统架构实际情况而定。对于存在片内划分的不同设备内存地址区域,PGL2和其他区域的原始拥有者可以通过新增的片内互联总线直接连接,对与GPU-GPU片间的不同区域,PGL2需要通过片间互联总线(如PCIE P2P),路由到其他GPU上,再通过特定的连接通路连接到原始拥有者。
实施例:
图10是一例基于本发明数字设计方法的单GPU内划分两个设备区域的,仅展示必要参与缓存一致性模块的同步流程示意图,场景1:生产者、消费者及要同步的数据都属于同一个区域的情况。基本同步流程:
①生产者release flag,根据图4的行为逻辑,发送GetO flag请求到互联总线,互联总线根据flag地址属于区域1路由到flag地址的原始拥有者L2。
②消费者acquire flag,根据图4的行为逻辑,发送GetV flag请求到互联总线,互联总线根据flag地址属于区域1路由到flag地址的原始拥有者L2。
③原始拥有者L2根据图2的行为逻辑,发送“请求写回”给生产者。
④生产者根据图4的行为逻辑,写回同步数据和flag。
⑤原始拥有者L2根据图2的行为逻辑,响应消费者的GetV flag请求。消费者收到响应,根据图4的行为逻辑,无效自己的非占有数据,完成数据一致性同步。
图11展示了场景2生产者、消费者属于同一个区域,要同步的数据属于另一个区域的情况下的同步流程示意图。基本同步流程:
①生产者release flag,根据图4的行为逻辑,发送GetO flag请求到区域1互联总线,区域1互联总线根据flag地址属于区域2,路由到区域1的PGL2。
②PGL2根据图6的行为逻辑,将GetO flag请求forward给flag所属区域2的原始拥有者L2缓存。L2根据图2的行为逻辑,更新flag占有状态。
③消费者acquire flag,根据图4的行为逻辑,发送GetV flag请求到区域1互联总线,区域1互联总线根据flag地址属于区域2,路由到区域1的PGL2。
④PGL2根据图6的行为逻辑,发送“请求写回”给生产者。
⑤生产者根据图4的行为逻辑,写回同步数据和flag到PGL2。
⑥PGL2根据图6的行为逻辑,响应消费者的GetV flag请求。消费者收到响应,根据图4的行为逻辑,无效自己的非占有数据,完成数据一致性同步。
图12展示了场景3生产者和需同步数据属于同一区域,消费者属于另一个区域的情况下的同步流程示意图。基本同步流程:
①生产者release flag,根据图4的行为逻辑,发送GetO flag请求到区域1互联总线,互联总线根据flag地址属于区域1路由到flag地址的原始拥有者L2。
②消费者acquire flag,根据图4的行为逻辑,发送GetV flag请求到区域2互联总线,区域2互联总线根据flag地址属于区域1,所以先路由到区域2的PGL2。
③PGL2的flag为无效状态,根据图6的行为逻辑将GetV通过区域1互联总线发给flag的原始拥有者L2。
④原始拥有者L2根据图2的行为逻辑,发送“请求写回”给生产者。
⑤生产者根据图4的行为逻辑,写回同步数据和flag。
⑥原始拥有者L2根据图2的行为逻辑,响应PGL2的GetV flag请求。PGL2收到响应,根据图7的行为逻辑,无效自己的非占有数据。
⑦PGL2完成无效后响应消费者GetV flag请求。消费者收到响应,根据图4的行为逻辑,无效自己的非占有数据。完成整个数据同步。(生产者写回,消费者和PGL2无效旧数据)。
图13展示了场景4,消费者和数据属于同一区域,生产者属于另一个区域的情况下的同步流程示意图。基本同步流程:
①生产者release flag,根据图4的行为逻辑,发送GetO flag请求到区域1互联总线,区域1互联总线根据flag地址属于区域2,路由到区域1的PGL2。
②PGL2根据图6的行为逻辑,将GetO flag请求forward给flag所属区域2的原始拥有者L2缓存。L2根据图2的行为逻辑,更新flag占有状态。
③消费者acquire flag,根据图4的行为逻辑,发送GetV flag请求到区域2互联总线,区域2互联总线根据flag地址属于区域2,路由到区域2的flag原始拥有者L2。
④原始拥有者L2根据图2的行为逻辑,发送“请求写回”给区域1PGL2。
⑤PGL2根据图6的行为逻辑,发送“请求写回”给生产者。
⑥生产者根据图4的行为逻辑,写回同步数据和flag到PGL2。
⑦PGL2根据图6的行为逻辑,在收到生产者写回的flag后,将自己非占有数据也全部写回。再将flag写回原始拥有者L2。
⑧原始拥有者L2收到区域1PGL2写回的flag后,根据图2的行为逻辑,响应消费者的GetV flag请求。消费者收到响应,根据图4的行为逻辑,无效自己的非占有数据,完成数据一致性同步。
图14是进一步扩展,一例基于本发明数字设计方法的2个GPU互联下,仅展示必要参与缓存一致性模块的顶层示意框图,场景5生产者、消费者、和需同步的数据分属于三个不同区域的情况下的同步流程示意图。基本同步流程:
①GPU1区域1生产者release flag,根据图4的行为逻辑,发送GetO flag请求到GPU1区域1互联总线,GPU1区域1互联总线根据flag地址属于GPU1区域2,路由到GPU1区域1的PGL2。
②PGL2根据图6的行为逻辑,将GetO flag请求forward给flag所属GPU1区域2的原始拥有者L2缓存。L2根据图2的行为逻辑,更新flag占有状态。
③GPU2区域2消费者acquire flag,根据图4的行为逻辑,发送GetV flag请求到GPU2区域2互联总线,GPU2区域2互联总线根据flag地址属于GPU1区域2,路由到GPU2区域2的PGL2。
④GPU2区域2的PGL2的flag为无效状态,根据图6的行为逻辑将GetV通过片间互联总线发给flag的原始拥有者GPU1区域2的L2。
⑤原始拥有者L2根据图2的行为逻辑,发送“请求写回”给GPU1区域1PGL2。
⑥GPU1区域1的PGL2根据图6的行为逻辑,发送“请求写回”给生产者。
⑦生产者根据图4的行为逻辑,写回同步数据和flag到PGL2。
⑧GPU1区域1的PGL2根据图6的行为逻辑,在收到生产者写回的flag后,将自己非占有数据也全部写回。再将flag写回原始拥有者L2。
⑨原始拥有者L2收到GPU1区域1PGL2写回的flag后,根据图3的行为逻辑,响应GPU2区域2的PGL2的GetV flag请求。GPU2区域2的PGL2收到响应,根据图6的行为逻辑,无效自己的非占有数据。
①0GPU2区域2的PGL2完成无效后响应消费者GetV flag请求。消费者收到响应,根据图4的行为逻辑,无效自己的非占有数据。完成整个数据同步。(生产者写回,消费者和消费者所属区域的PGL2无效旧数据)。
综上所述,原本LRCC一致性协议需要L1(生产者)-L2(地址原始拥有者)-L1(消费者)之间的握手交互,随着GPU的片内规模增大及片间一致性的需求,当需要同步的地址空间属于距离L1较远的L2/设备内存时,可能需要反复来回通过非常长的片内通路或片间通路,如图8所示。本发明通过划分区域,添加的代理PGL2,及互联的数字逻辑电路,仅在第一次跨区域读取和写回时需要发生交互,避免了上述场景反复来回交互的情况,缩短了该场景下的一致性交互时间,减少了数据的流动,提高了完成硬件一致性的效率,如图9所示。
本发明划分地址区域增加PGL2的方法来实现GPU的缓存一致性具有可扩展性,当GPU规模增大或需要支持片间GPU互联或更多片间GPU互联时,基于本发明方法只需要同等增加区域和PGL2即仍然可支持它们之间的缓存一致性。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (2)
1.一种高效处理GPU片内和片间缓存一致性的数字电路设计方法,其特征在于,包括:
步骤1:划分地址区域并增加代理二级缓存PGL2,实现GPU的缓存一致性具有可扩展性;
所述划分地址区域,具体为:
将整个GPU系统的二级公共缓存L2和设备内存都根据地址空间划成N个区域,一个区域一个L2缓存块;
一个区域的L2缓存块与该区域的设备内存地址空间对应,该L2缓存块定义为该区域设备内存地址空间的原始拥有者缓存;
原始拥有者缓存负责记录所有属于该区域设备内存地址空间的数据被缓存的缓存块状态,并负责最终将被缓存的缓存块写回该区域的设备内存;
所述增加PGL2,具体为:
设置代理二级缓存PGL2;
将PGL2分成若干份,每个区域都有一份PGL2;
一个区域内的PGL2不缓存属于本区域地址空间的数据,而只缓存非本区域地址空间的数据,其所共享的数据需与本区域L1缓存及非本区域的原始拥有者缓存通过设定的逻辑行为完成交互,来实现数据共享和同步;
设定的逻辑行为,包括:本区域L1缓存非占有状态在收到acquire请求发送GetV给L2缓存块时带上acquire指示进行拓展;
设定的逻辑行为,还包括:
对原本L2缓存块和设备内存的访问请求,根据请求地址是否属于本区域,将属于本区域的请求路由到本区域的原始拥有者缓存,而将非属于本区域的请求路由到PGL2;
PGL2与所有其他区域的原始拥有着有一个物理上的连接通路,连接通路基于具体系统架构实际情况而定;
对于存在片内划分的不同设备内存地址区域,PGL2和其他区域的原始拥有者通过新增的片内互联总线直接连接,对与GPU-GPU片间的不同区域,PGL2通过片间互联总线,路由到其他GPU上,再通过特定的连接通路连接到原始拥有者;
步骤2:当GPU规模增大或需要支持片间GPU互联或更多片间GPU互联时,同等增加区域和PGL2,实现缓存一致性。
2.根据权利要求1所述的一种高效处理GPU片内和片间缓存一致性的数字电路设计方法,其特征在于,每个或几个GPU内核设有独立的私有缓存,即L1缓存,每个独立L1缓存缓存属于任意设备内存地址空间的数据;
当存在GPU-GPU片间互联时,也包含缓存属于其他GPU设备内存的地址空间的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680159.2A CN113687955B (zh) | 2021-06-18 | 2021-06-18 | 一种高效处理gpu片内和片间缓存一致性的数字电路设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680159.2A CN113687955B (zh) | 2021-06-18 | 2021-06-18 | 一种高效处理gpu片内和片间缓存一致性的数字电路设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113687955A CN113687955A (zh) | 2021-11-23 |
CN113687955B true CN113687955B (zh) | 2023-03-17 |
Family
ID=78576568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110680159.2A Active CN113687955B (zh) | 2021-06-18 | 2021-06-18 | 一种高效处理gpu片内和片间缓存一致性的数字电路设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113687955B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609065A (zh) * | 2021-07-16 | 2021-11-05 | 山东云海国创云计算装备产业创新中心有限公司 | 一种cpu和gpu数据交互的方法、装置、设备及可读介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8589629B2 (en) * | 2009-03-27 | 2013-11-19 | Advanced Micro Devices, Inc. | Method for way allocation and way locking in a cache |
US10282811B2 (en) * | 2017-04-07 | 2019-05-07 | Intel Corporation | Apparatus and method for managing data bias in a graphics processing architecture |
CN111104775B (zh) * | 2019-11-22 | 2023-09-15 | 核芯互联科技(青岛)有限公司 | 一种片上网络拓扑结构及其实现方法 |
CN113312299B (zh) * | 2021-04-12 | 2023-03-28 | 北京航空航天大学 | 一种多核异构域控制器核间安全通信系统 |
-
2021
- 2021-06-18 CN CN202110680159.2A patent/CN113687955B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609065A (zh) * | 2021-07-16 | 2021-11-05 | 山东云海国创云计算装备产业创新中心有限公司 | 一种cpu和gpu数据交互的方法、装置、设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113687955A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10310979B2 (en) | Snoop filter for cache coherency in a data processing system | |
US10078592B2 (en) | Resolving multi-core shared cache access conflicts | |
US9792210B2 (en) | Region probe filter for distributed memory system | |
JP4960989B2 (ja) | インバリデーショントランザクションのスヌープフィルタからの削除 | |
US9208092B2 (en) | Coherent attached processor proxy having hybrid directory | |
CN109154910A (zh) | 用于存储器中处理的高速缓存一致性 | |
WO2002027497A2 (en) | Method and apparatus for scalable disambiguated coherence in shared storage hierarchies | |
KR20110031361A (ko) | 스누프 필터링 메커니즘 | |
US11687457B2 (en) | Hardware coherence for memory controller | |
CN111143244B (zh) | 计算机设备的内存访问方法和计算机设备 | |
US20090006668A1 (en) | Performing direct data transactions with a cache memory | |
JPH10154100A (ja) | 情報処理システム及び装置及びその制御方法 | |
US20140229678A1 (en) | Method and apparatus for accelerated shared data migration | |
JP2004199677A (ja) | キャッシュを動作させるためのシステム及び方法 | |
CN113687955B (zh) | 一种高效处理gpu片内和片间缓存一致性的数字电路设计方法 | |
CN110737407A (zh) | 一种支持混合写策略的数据缓冲存储器实现方法 | |
US10489292B2 (en) | Ownership tracking updates across multiple simultaneous operations | |
CN113435153B (zh) | 一种gpu缓存子系统互联的数字电路设计方法 | |
CN118435160A (zh) | 一致性块读取实现 | |
JP2003242028A (ja) | 複数のタグおよび細分化された大容量アレイへの複数のエントリの使用による簡易化したキャッシュ階層 | |
CN118369651A (zh) | 探测过滤器目录管理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |