CN106250348A - 一种基于gpu访存特性的异构多核架构缓存管理方法 - Google Patents
一种基于gpu访存特性的异构多核架构缓存管理方法 Download PDFInfo
- Publication number
- CN106250348A CN106250348A CN201610567040.3A CN201610567040A CN106250348A CN 106250348 A CN106250348 A CN 106250348A CN 201610567040 A CN201610567040 A CN 201610567040A CN 106250348 A CN106250348 A CN 106250348A
- Authority
- CN
- China
- Prior art keywords
- cache
- data
- gpu
- message
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/167—Interprocessor communication using a common memory, e.g. mailbox
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Multi Processors (AREA)
Abstract
本发明公开一种基于GPU访存特性的异构多核架构缓存管理方法,首先进行消息的区分,对来自CPU和GPU核心L1 Cache的不同消息进行不同的处理;如果GPU L1 Cache请求的数据块在L2 Cache中,直接读取该数据块返回给GPU L1 Cache;如果请求的数据块不在L2 Cache中,但L2 Cache中有空闲,则从MEMORY中读取数据写入到L2 Cache中,并将数据返回给GPU L1 Cache;如果请求的数据块不在L2 Cache中,且L2 Cache中没有空闲,则直接发送请求消息给MEMORY,从MEMORY中读取消息,返回给GPU L1 Cache,并将该数据写入相应L1 Cache。本发明的方法减少了GPU应用程序所需数据在L2 Cache中的替换,将多余的空间留给CPU程序使用,提升了CPU应用程序的性能,从而提升异构多核系统的整体性能。
Description
技术领域
本发明属于计算机体系缓存系统结构领域,尤其涉及一种基于GPU访存特性的异构多核架构缓存管理方法。
背景技术
多核处理器在一个芯片上拥有多个功能相同的处理器核心,其主要通过主频和每时钟周期所执行的指令数来提高性能,并且多核处理器能很好的平衡功耗与性能的关系。但是,提升处理器的性能仅仅通过增加同种内核的方法存在一定的局限性,在系统达到极限值之后,处理器性能的提高就无法再随着内核数量的增加来实现了,这遵循著名的Amdahl定律。研究人员开始研究能替换同构CPU芯片的异构CPU芯片。
异构多核处理器(HMP-Heterogeneous Multi-core Processor)将具有不同计算能力的处理器融合到一起,被广泛应用于航空航天、工业控制、仪器仪表等行业,以满足系统性能需求,降低功耗和成本。HMP由于集成了不同特点和性能的处理器核,可将不同类型的计算任务分配到不同类型的处理器核上并行处理,比如,快速复杂的核可以执行串行代码部分,而较简单的核则能并行处理数字,从而为不同需求的应用提供更加灵活、高效的处理机制,满足多种应用环境对系统实时性、功耗、可靠性和成本的要求,成为当今研究的热点。事实也证明在浮点运算、并行计算等方面,GPU可以提供数十倍乃至于上百倍于CPU的性能。
异构多核处理器上CPU和GPU的集成,对共享片上资源提出新的挑战。最后一级共享Cache(The shared last-level Cache,简称共享LLC)是影响性能的最重要的共享资源。随着处理器和存储器之间速度差距的不断扩大,最后一级高速缓存对处理器访存性能的影响也将逐渐增大,最后一级高速缓存的重要性日益凸显。对最后一级高速缓存进行有效管理,提高最后一级高速缓存利用率对于优化计算机系统的整体性能具有重要的意义。
GPU的核心数量非常多,这和CPU有本质的区别,一般GPU都内置了数百个内核,甚至上千个,GPU的工作原理就是并行计算,在并行处理特定数据的时候,GPU比CPU高效非常多。当前的缓存管理策略下,当CPU应用程序和GPU应用程序共同执行时,会争夺共享LLC,导致CPU应用程序对于共享LLC的访问会明显降低,对于很多CPU应用程序而言,减少了对共享LLC的访问会明显降低系统性能。而GPU应用程序有足够的线程级并行(TLP),可以在一定程度上容忍增加的内存访问延迟,因而对其性能影响不是很大。因此,在异构多核系统中,共享LLC的管理对于系统性能和功耗的影响至关重要。此时,一个合理高效的缓存管理策略对于提升处理器性能和降低功耗十分必要。
发明内容
本发明要解决的技术问题是,提供一种基于GPU访存特性的异构多核架构缓存管理方法,综合分析CPU应用程序和GPU应用程序的特征,考虑到在LLC的访问上,GPU应用程序占据了大量LLC空间,所以,通过限制GPU应用程序对LLC的访问,转而访问内存,来实现CPU和GPU应用程序对共享缓存访问的分离,缓解CPU应用程序和GPU应用程序对共享缓存的争夺,从整体上提升系统性能。
为达到上述目的,本发明采用以下技术方案。
一种基于GPU访存特性的异构多核架构缓存管理方法,异构多核架构由若干个CPU和GPU内核组成,所述CPU和GPU拥有各自的L1 Cache,共同访问L2 Cache,L1 Cache由L1Cache Controller来控制,L2 Cache由L2 Cache Controller来控制,该方法包括如下步骤:
步骤1、区分GPU核心和CPU核心的L1 Cache Controller;
步骤2、跟踪消息传递过程,在每个消息上添加标志位来标记该消息的来源;
步骤3、在L2 Cache Controller上进行消息类型判断,对来自CPU和GPU的L1Cache请求做不同处理;
步骤4、在Directory Controller中判断,如果是该消息请求者,类型为L1 Cache,则触发事件执行,赋其消息请求者为L1 Cache,读取内存数据;
步骤5、在Directory Controller的内存消息响应队列中判断,如果消息原始请求者类型为L1 Cache,则触发相应事件,将该数据发送给L1 Cache Controller;
步骤6、在L1 Cache Controller中接收到Directory Controller发回的数据时,将该数据块写入L1 Cache,并将数据发送给需要该数据的GPU核心;
步骤7、当L1 Cache Controller进行替换或写回时,如果该数据块在L2 Cache中,直接替换,并进行数据状态及shares的改变,但如果不在L2 Cache中时,则将其发送给Directory Controller,进行数据替换及相应操作。
作为优选,步骤S3包括以下步骤:
步骤3.1、在L2 Cache的请求缓冲队列L1RequestToL2Cache中,识别不同消息,判断该消息标记位,如果是来自于GPU核心的L1 Cache Controller,首先判断L2中是否包含所请求的数据块,如果包含,直接根据消息类型执行相应的动作,将所需要的数据发送给请求者;
步骤3.2、如果L2 Cache Controller中不包含该请求所需要的数据块,且L2Cache中仍然有空间来存放数据,则触发响应事件去取得该数据存入L2Cache中,之后将该数据发送给L1请求者;
步骤3.3、如果L2 Cache Controller中不包含该请求者所需要的数据,且没有多余空间来存放数据,则直接发送请求给MEMORY,请求获得相应的数据,消息传递过程中,将请求者赋值为原始消息请求者。
与现有技术相比,本发明具有以下优点:
分析CPU应用程序和GPU应用程序的特点,考虑到GPU应用程序有足够的线程级并行(TLP),可以在一定程度上容忍增加的内存访问延迟。所以,为限制GPU应用程序对LLC的访问,可通过减少GPU应用程序在LLC中的数据替换,而从MEMORY中直接读取数据来实现CPU和GPU应用程序对缓存访问的分离,缓解CPU应用程序和GPU应用程序对共享缓存的争夺。通过本方法可在CPU应用程序和GPU应用程序共同执行情况下,提高CPU应用程序对LLC的使用率,达到提高异构多核系统整体性能的目的。
附图说明
为使本发明的目的,方案更加通俗易懂,下面将结合附图对本发明进一步说明。
图1为异构多核处理器系统的结构图,该异构多核处理器由2个CPU核心和4个GPU核心组成,每个核心都有自己的私有Cache。这些核心共享LLC和DRAM(MEMORY),并通过片上互连网络模块进行通信;
图2为SLICC运行机制图;
图3为GPU访存过程流程图。
具体实施方式
为使本发明的目的,技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。
本发明提供一种基于GPU访存特性的异构多核架构缓存管理方法,异构多核架构由若干个CPU和GPU内核组成,每个核心都有自己的私有Cache。这些核心共享LLC和DRAM(MEMORY),并通过片上互连网络模块进行通信。本发明依赖MESI_Two_Level缓存一致性协议,该协议中CPU和GPU拥有各自的L1 Cache,共同访问L2 Cache,如图1所示。
本发明方法首先进行消息的区分,对来自CPU和GPU核心L1 Cache的不同消息进行不同的处理。如果GPU L1 Cache请求的数据块在L2 Cache中,直接读取该数据块返回给GPUL1 Cache;如果请求的数据块不在L2 Cache中,但L2 Cache中有空闲,则从MEMORY中读取数据写入到L2 Cache中,并将数据返回给GPU L1 Cache;如果请求的数据块不在L2 Cache中,且L2 Cache中没有空闲,则直接发送请求消息给MEMORY,从MEMORY中读取消息,返回给GPUL1 Cache,并将该数据写入相应L1 Cache。该方法减少了GPU应用程序所需数据在L2 Cache中的替换,将多余的空间留给CPU程序使用。提升了CPU应用程序的性能,从而提升异构多核系统的整体性能。
本发明实施例所涉及的是基于GPU访存特性的异构多核架构缓存管理方法,以一个具有两个CPU核心、四个GPU核心,每个核心均拥有各自的L1 Cache但共享一个L2 Cache的异构处理器为例。运行的CPU测试程序是单线程的SPEC CPU2006,GPU应用程序为Rodinia。每一个workload由一个CPU测试程序和一个GPU应用程序组成。在模拟器中,使用SLICC(specification language for implementing cache coherence)脚本语言来描述一致性协议。如图2所示,为SLICC运行机制图。具体步骤如下:
步骤1,区分GPU和CPU的L1 Cache Controller,自定义标记给每一个Cache编号,区分L1 Cache是属于CPU核心还是GPU核心。
运行一个workload group(2个测试程序),一个CPU核上运行一个CPU测试程序SPEC2006,另一个CPU核引导GPU应用程序rodinia运行在4个GPU核心上。因为每个核心独有各自的L1 Cache,总计有六个。所以为了区分这六个L1 Cache,在L1 Cache Controller上添加标记cpuorgpu。初始化时为这六个L1 Cache赋不同的值。
步骤2,跟踪消息传递过程,在每个消息上添加标志位来标记该消息的来源。
从L1 Cache Controller开始,在执行相应action时,会往输出消息队列中添加消息,为能在L2 Cache Controller中区分来自不同L1 Cache Controller的消息,需在消息上添加标记ContextIDxx。在消息的定义中添加属性ContextIDxx。当插入消息进入消息队列时,为该属性ContextIDxx赋值。L2 Cache Controller中同理。
步骤3,当L1 Cache Controller消息到达L2 Cache Controller时,在端口L1RequestL2Network_in上进行消息类型判断,对来自CPU和GPU核心的L1 Cache请求做不同的处理,GPU访存过程如图3所示。
步骤3.1,在L2 Cache Controller的请求缓冲队列L1RequestToL2Cache中,识别不同消息。判断该消息标记位(in_msg.ContextIDxx),如果该消息是来自CPU核心的L1Cache Controller,则不做特殊处理。但如果该消息是来自于GPU核心的L1 CacheController,必须对其进行分类处理。首先判断L2 Cache Controller中是否包含所请求的数据块cache_entry,可用语句is_valid(cache_entry)实现,如果包含,直接根据消息类型(in_msg.Type)执行相应的动作,将所需要的数据发送给请求者。
步骤3.2,如果L2 Cache Controller中不包含该请求所需要的数据块,但L2中仍然有空间来存放数据,则触发响应事件取得该数据存入L2中。之后将该数据发送给L1请求者。
步骤3.3,如果L2 Cache Controller中不包含该请求者所需要的数据,且没有多余空间来存放数据,一般情况下,此时需要进行数据的替换,但考虑到如果该数据块为CPU核心所需要的,将其替换后会延缓单线程CPU应用程序的执行,而且考虑到GPU应用程序的多并发线程的特性,延缓该线程的运行仍可执行其他线程。故对于GPU应用程序所需的数据不在L2 Cache Controller中的情况,不执行替换操作,而是直接发送请求给MEMORY,请求获得相应的数据块。此时,需要自定义Event实现该操作。在实现过程中,因L1 CacheController发送的不同消息类型,如GETS、GET_INSTR、GETX等。所以对于不同的消息类型,要定义不同的Event。而且要考虑到当前地址的数据块的状态。因为不做数据的替换,所以,也不进行状态的转变。不同的Event,但都要执行从MEMORY读取数据的操作。自定义该操作,将输出的请求消息发送者赋值为输入的请求消息发送者(其消息请求者类型为L1 Cache)。
步骤4,在SLICC/Ruby下,Directory Controller也就是Memory Controller。异构多核架构下,存储模型为Ruby。故对MEMORY的请求是在Directory Controller中控制的。在Directory Controller的端口requestNetwork_in中判断,依次检查requestToDir消息缓冲队列中的每条请求消息,如果是该消息请求者类型为L2 Cache,不做特殊处理。如果该消息请求者类型为L1 Cache,则需定义Event,实现L1 Cache Controller对MEMORY的请求。在该Event中触发内存读取请求时,需要将消息的原始请求者赋值为L1 Cache,读取内存数据。
步骤5,在Directory Controller的端口memQueue_in中,对内存消息响应队列responseFromMemory中的消息依次进行判断,如果消息原始请求者类型为L1 Cache,仍需自定义Event,自定义action,将该数据块发送给L1 Cache Controller。发送的消息类型不同于发送给L2 Cache Controller的。
步骤6,在L1 Cache Controller中接收到Directory Controller发回的数据时,将该数据块写入L1 Cache,并将数据发送给需要该数据的GPU核心。
步骤7,当L1 Cache Controller进行替换或写回时,如果该数据块在L2 Cache中,直接替换,并进行数据状态及shares的改变,但如果不在L2 Cache中时,则将其发送给Directory Controller,进行数据替换及相应操作。
本发明的一种基于GPU访存特性的异构多核架构缓存管理方法,异构多核架构下,CPU应用程序和GPU应用程序共同执行,综合分析CPU应用程序和GPU应用程序的特征,当两种程序同时执行时,会争夺共享LLC,GPU应用程序将占据大量LLC空间,导致CPU应用程序对共享LLC的访问明显降低,严重影响CPU应用程序的性能。考虑到GPU应用程序有足够的线程级并行(TLP),可以在一定程度上容忍增加的内存访问延迟。所以,为限制GPU应用程序对LLC的访问,可通过减少GPU应用程序在LLC中的数据替换,而从MEMORY中直接读取数据来实现CPU和GPU应用程序对缓存访问的分离,缓解CPU应用程序和GPU应用程序对共享缓存的争夺,从而达到从整体上提升系统性能。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (2)
1.一种基于GPU访存特性的异构多核架构缓存管理方法,其特征在于,异构多核架构由若干个CPU和GPU内核组成,所述CPU和GPU拥有各自的L1 Cache,共同访问L2 Cache,L1Cache由L1 Cache Controller来控制,L2 Cache由L2 Cache Controller来控制,该方法包括如下步骤:
步骤1、区分GPU核心和CPU核心的L1 Cache Controller;
步骤2、跟踪消息传递过程,在每个消息上添加标志位来标记该消息的来源;
步骤3、在L2 Cache Controller上进行消息类型判断,对来自CPU和GPU的L1Cache请求做不同处理;
步骤4、在Directory Controller中判断,如果是该消息请求者,类型为L1 Cache,则触发事件执行,赋其消息请求者为L1 Cache,读取内存数据;
步骤5、在Directory Controller的内存消息响应队列中判断,如果消息原始请求者类型为L1 Cache,则触发相应事件,将该数据发送给L1 Cache Controller;
步骤6、在L1 Cache Controller中接收到Directory Controller发回的数据时,将该数据块写入L1Cache,并将数据发送给需要该数据的GPU核心;
步骤7、当L1 Cache Controller进行替换或写回时,如果该数据块在L2 Cache中,直接替换,并进行数据状态及shares的改变,但如果不在L2 Cache中时,则将其发送给Directory Controller,进行数据替换及相应操作。
2.如权利要求1所述的基于GPU访存特性的异构多核架构缓存管理方法,其特征在于,步骤S3包括以下步骤:
步骤3.1、在L2 Cache的请求缓冲队列L1RequestToL2Cache中,识别不同消息,判断该消息标记位,如果是来自于GPU核心的L1 Cache Controller,首先判断L2中是否包含所请求的数据块,如果包含,直接根据消息类型执行相应的动作,将所需要的数据发送给请求者;
步骤3.2、如果L2 Cache Controller中不包含该请求所需要的数据块,且L2 Cache中仍然有空间来存放数据,则触发响应事件去取得该数据存入L2Cache中,之后将该数据发送给L1请求者;
步骤3.3、如果L2 Cache Controller中不包含该请求者所需要的数据,且没有多余空间来存放数据,则直接发送请求给MEMORY,请求获得相应的数据,消息传递过程中,将请求者赋值为原始消息请求者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610567040.3A CN106250348B (zh) | 2016-07-19 | 2016-07-19 | 一种基于gpu访存特性的异构多核架构缓存管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610567040.3A CN106250348B (zh) | 2016-07-19 | 2016-07-19 | 一种基于gpu访存特性的异构多核架构缓存管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106250348A true CN106250348A (zh) | 2016-12-21 |
CN106250348B CN106250348B (zh) | 2019-02-12 |
Family
ID=57613299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610567040.3A Expired - Fee Related CN106250348B (zh) | 2016-07-19 | 2016-07-19 | 一种基于gpu访存特性的异构多核架构缓存管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250348B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463510A (zh) * | 2017-08-21 | 2017-12-12 | 北京工业大学 | 一种面向高性能的异构多核共享cache缓冲管理方法 |
CN108053361A (zh) * | 2017-12-29 | 2018-05-18 | 中国科学院半导体研究所 | 多互连视觉处理器及采用其的图像处理方法 |
CN108614782A (zh) * | 2018-04-28 | 2018-10-02 | 张家口浩扬科技有限公司 | 一种用于数据处理系统的高速缓存访问方法 |
CN112395242A (zh) * | 2020-11-30 | 2021-02-23 | 重庆紫光华山智安科技有限公司 | 多芯片控制方法、装置、电子设备和计算机可读存储介质 |
CN117806992A (zh) * | 2024-02-29 | 2024-04-02 | 山东云海国创云计算装备产业创新中心有限公司 | 数据块替换方法、装置、电子设备及存储介质 |
CN117806992B (zh) * | 2024-02-29 | 2024-06-07 | 山东云海国创云计算装备产业创新中心有限公司 | 数据块替换方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063406A (zh) * | 2010-12-21 | 2011-05-18 | 清华大学 | 用于多核处理器的网络共享Cache及其目录控制方法 |
CN102687128A (zh) * | 2009-12-25 | 2012-09-19 | 富士通株式会社 | 运算处理装置 |
CN104731729A (zh) * | 2015-03-23 | 2015-06-24 | 华为技术有限公司 | 一种基于异构系统的表连接优化方法、cpu和加速器 |
CN104937539A (zh) * | 2012-11-28 | 2015-09-23 | 英特尔公司 | 用于提供推入缓冲器复制和存储功能的指令和逻辑 |
US20160179662A1 (en) * | 2014-12-23 | 2016-06-23 | David Pardo Keppel | Instruction and logic for page table walk change-bits |
-
2016
- 2016-07-19 CN CN201610567040.3A patent/CN106250348B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102687128A (zh) * | 2009-12-25 | 2012-09-19 | 富士通株式会社 | 运算处理装置 |
CN102063406A (zh) * | 2010-12-21 | 2011-05-18 | 清华大学 | 用于多核处理器的网络共享Cache及其目录控制方法 |
CN104937539A (zh) * | 2012-11-28 | 2015-09-23 | 英特尔公司 | 用于提供推入缓冲器复制和存储功能的指令和逻辑 |
US20160179662A1 (en) * | 2014-12-23 | 2016-06-23 | David Pardo Keppel | Instruction and logic for page table walk change-bits |
CN104731729A (zh) * | 2015-03-23 | 2015-06-24 | 华为技术有限公司 | 一种基于异构系统的表连接优化方法、cpu和加速器 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463510A (zh) * | 2017-08-21 | 2017-12-12 | 北京工业大学 | 一种面向高性能的异构多核共享cache缓冲管理方法 |
CN107463510B (zh) * | 2017-08-21 | 2020-05-08 | 北京工业大学 | 一种面向高性能的异构多核共享cache缓冲管理方法 |
CN108053361A (zh) * | 2017-12-29 | 2018-05-18 | 中国科学院半导体研究所 | 多互连视觉处理器及采用其的图像处理方法 |
CN108614782A (zh) * | 2018-04-28 | 2018-10-02 | 张家口浩扬科技有限公司 | 一种用于数据处理系统的高速缓存访问方法 |
CN112395242A (zh) * | 2020-11-30 | 2021-02-23 | 重庆紫光华山智安科技有限公司 | 多芯片控制方法、装置、电子设备和计算机可读存储介质 |
CN112395242B (zh) * | 2020-11-30 | 2024-01-30 | 重庆紫光华山智安科技有限公司 | 多芯片控制方法、装置、电子设备和计算机可读存储介质 |
CN117806992A (zh) * | 2024-02-29 | 2024-04-02 | 山东云海国创云计算装备产业创新中心有限公司 | 数据块替换方法、装置、电子设备及存储介质 |
CN117806992B (zh) * | 2024-02-29 | 2024-06-07 | 山东云海国创云计算装备产业创新中心有限公司 | 数据块替换方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106250348B (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
de Souza Carvalho et al. | Dynamic task mapping for MPSoCs | |
US10355966B2 (en) | Managing variations among nodes in parallel system frameworks | |
US9009711B2 (en) | Grouping and parallel execution of tasks based on functional dependencies and immediate transmission of data results upon availability | |
US20150095008A1 (en) | Extension cache coherence protocol-based multi-level coherency domain simulation verification and test method | |
CN111742305A (zh) | 调度具有不统一等待时间的存储器请求 | |
CN103455371B (zh) | 用于优化的管芯内小节点间消息通信的方法和系统 | |
CN106250348A (zh) | 一种基于gpu访存特性的异构多核架构缓存管理方法 | |
CN108604209A (zh) | 扁平化端口桥 | |
CN103744644A (zh) | 采用四核结构搭建的四核处理器系统及数据交换方法 | |
Singh et al. | Run-time mapping of multiple communicating tasks on MPSoC platforms | |
CN115098412B (zh) | 外设访问控制器、数据访问装置及对应方法、介质和芯片 | |
CN111190735A (zh) | 一种基于Linux的片上CPU/GPU流水化计算方法及计算机系统 | |
CN108958848A (zh) | 近存储器计算体系结构 | |
Li et al. | Analysis of NUMA effects in modern multicore systems for the design of high-performance data transfer applications | |
US8863060B2 (en) | Programmable intelligent storage architecture based on application and business requirements | |
US10915470B2 (en) | Memory system | |
EP4184324A1 (en) | Efficient accelerator offload in multi-accelerator framework | |
CN109117247A (zh) | 一种基于异构多核拓扑感知的虚拟资源管理系统及方法 | |
Kaushik et al. | Preprocessing-based run-time mapping of applications on NoC-based MPSoCs | |
JP2023544911A (ja) | 並列量子コンピューティングのための方法及び装置 | |
Möller et al. | Comparative analysis of dynamic task mapping heuristics in heterogeneous NoC-based MPSoCs | |
Andreozzi et al. | A MILP approach to DRAM access worst-case analysis | |
Zhao et al. | A method of fast evaluation of an MC placement for network-on-chip | |
Zhao et al. | Hcma: Supporting high concurrency of memory accesses with scratchpad memory in fpgas | |
Kim et al. | A cost-effective latency-aware memory bus for symmetric multiprocessor systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190403 Address after: Room 106-3, 11th floor, 28 Ningshuang Road, Yuhuatai District, Nanjing, Jiangsu Province, 210012 Patentee after: Nanjing Xinlan Youtu Information Technology Co., Ltd. Address before: No. 100, Chaoyang District flat Park, Beijing, Beijing Patentee before: Beijing University of Technology |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190212 Termination date: 20210719 |
|
CF01 | Termination of patent right due to non-payment of annual fee |