CN112394807B - 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 - Google Patents
一种降低片上网络功耗的方法、装置、cpu芯片及服务器 Download PDFInfo
- Publication number
- CN112394807B CN112394807B CN202011284050.9A CN202011284050A CN112394807B CN 112394807 B CN112394807 B CN 112394807B CN 202011284050 A CN202011284050 A CN 202011284050A CN 112394807 B CN112394807 B CN 112394807B
- Authority
- CN
- China
- Prior art keywords
- noc
- region
- operating frequency
- area
- clock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000004044 response Effects 0.000 claims description 86
- 238000011056 performance test Methods 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000002945 steepest descent method Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Power Sources (AREA)
Abstract
本发明的实施例公开了一种降低片上网络功耗的方法、装置、CPU芯片及服务器,涉及计算机技术领域,能够有效降低片上网络的功耗。所述方法包括:将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;获取NoC的路由单元RU的工作状态数据;根据所述工作状态数据,计算NoC各个区域的预期工作频率;将NoC各个区域的工作频率调整至所述预期工作频率。本发明适用于降低片上网络功耗的场合。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种降低片上网络功耗的方法、装置、CPU芯片及服务器。
背景技术
随着集成电路的发展和工艺的提升,芯片的集成度在不断提升,大规模SOC(System on Chip,系统级芯片)设计已成为主流。NoC(Network on Chip,片上网络)用于实现SOC中各个设备的片上互联,主要包括多个网络接口单元(Network Interface Unit,NIU)和路由单元(Router Unit,RU),如图1所示,NIU在NoC的边界,每个NIU用于连接一个挂载设备,并负责管理该设备发出的所有请求和发送给该设备的所有请求。对于设备发送的每个请求,NIU均会记录相关信息并转发给RU,在收到RU转发的响应后,NIU将响应转发给设备并清除相关记录。对于从RU发送给设备的每个请求,NIU均会记录相关信息并转发给设备,在收到设备的响应之后,NIU将响应转发给RU并清除相关记录。RU在NoC的内部,实现NIU之间的互联,负责将NIU或其他RU转发的每一笔请求或响应按照预设的路由规则转发给指定的NIU,RU的拓扑结构可根据设计需求制定,包括网状拓扑、环状拓扑等,RU会暂存收到的每笔请求或响应,在转发之后删除相关记录。
考虑到NoC的性能决定了整个SOC片上通信的效率,与SOC的性能息息相关,NoC一般都具有高带宽低延时的特性。由于NoC分布在SOC各处,占SOC设计比重大,NoC消耗了SOC相当大比例的功耗。因此,提升NoC设计的能效显得尤为重要。
现有的SOC设计中,NoC通常被设计为同步单频模式,频率分为固定模式和可变模式两种。固定频率类型NoC多用于早期嵌入式SOC设计,整个NoC使用统一的工作时钟,时钟频率在系统正常运行之后不再改变,这类设计能效比一般较差,目前已不多见。可变频率类型NoC目前已广泛应用于当前各类SOC设计中,设计人员预先确定系统的典型应用场景,根据应用场景对NoC带宽和延时的要求,确定各应用场景下NoC的工作频率并记录。系统运行时,根据当前的工作场景为NoC选择预设的工作频率,只有当工作场景发生改变时,才更新NoC的工作频率。此类变频技术能够在一定程度上优化SOC的能耗比,但是由于整个NoC运行在统一的工作频率,而且不能自适应调整工作频率,还有很大的改善和提升空间。
发明内容
有鉴于此,本发明实施例提供一种降低片上网络功耗的方法、装置、CPU芯片及服务器,能够有效降低片上网络的功耗。
第一方面,本发明实施例提供一种降低片上网络功耗的方法,包括:
将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;
获取NoC的路由单元RU的工作状态数据;
根据所述工作状态数据,计算NoC各个区域的预期工作频率;
将NoC各个区域的工作频率调整至所述预期工作频率。
结合第一方面,在第一方面的一种实施方式中,NoC各个区域的工作时钟为同相位倍频时钟。
结合第一方面,在第一方面的另一种实施方式中,所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
结合第一方面,在第一方面的再一种实施方式中,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+ 1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k;b)每个RU中每类已缓存未转发请求/响应个数,即T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
结合第一方面,在第一方面的又一种实施方式中,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn:
其中,
Jn=∑(fn,k-fen,k)2 公式二
第二方面,本发明实施例提供一种降低片上网络功耗的装置,包括:
划分模块,用于将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;
获取模块,用于获取NoC的路由单元RU的工作状态数据;
计算模块,用于根据所述工作状态数据,计算NoC各个区域的预期工作频率;
调整模块,用于将NoC各个区域的工作频率调整至所述预期工作频率。
结合第二方面,在第二方面的一种实施方式中,NoC各个区域的工作时钟为同相位倍频时钟。
结合第二方面,在第二方面的另一种实施方式中,所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
结合第二方面,在第二方面的再一种实施方式中,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+ 1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k:b)每个RU中每类已缓存未转发请求/响应个数,即T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
结合第二方面,在第二方面的又一种实施方式中,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn;
其中,
Jn=∑(fn,k-fen,k)2 公式二
第三方面,本发明实施例提供一种CPU芯片,包括:处理器核心;
所述处理器核心,用于将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;获取NoC的路由单元RU的工作状态数据;根据所述工作状态数据,计算NoC各个区域的预期工作频率;将NoC各个区域的工作频率调整至所述预期工作频率。
结合第三方面,在第三方面的一种实施方式中,NoC各个区域的工作时钟为同相位倍频时钟。
结合第三方面,在第三方面的另一种实施方式中,所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
结合第三方面,在第三方面的再一种实施方式中,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+ 1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k;b)每个RU中每类已缓存未转发请求/响应个数,即T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
结合第三方面,在第三方面的又一种实施方式中,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn;
其中,
Jn=∑(fn,k-fen,k)2 公式二
第四方面,本发明实施例提供一种服务器,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述服务器的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一所述的方法。
第五方面,本发明实施例还提供一种CPU芯片,包括片上网络NoC、为所述NoC提供工作时钟的时钟模块、以及用于控制所述时钟模块的系统控制单元SCU,所述NoC包括若干路由单元RU,每个RU均包括未转发请求/响应统计模块和初级运算模块;所述SCU包括二级运算模块和时钟控制模块,其中:
所述未转发请求/响应统计模块用于统计当前时间窗口内未转发的读请求、写请求、读响应和写响应数目,所述未转发请求/响应统计模块的输出端连接至所述初级运算模块的输入端,所述初级运算模块用于实现公式五的运算;
每个RU的初级运算模块的输出端连接至所述二级运算模块的输入端,所述二级运算模块的输出端连接所述时钟控制模块,所述时钟控制模块的输出端控制所述时钟模块,所述二级运算模块用于实现公式四的运算;
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
本发明实施例提供的降低片上网络功耗的方法、装置、CPU芯片及服务器,首先将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟,然后获取NoC的路由单元RU的工作状态数据,之后根据所述工作状态数据,计算NoC各个区域的预期工作频率,最后将NoC各个区域的工作频率调整至所述预期工作频率。这样,通过对NoC进行分区管理,动态调整不同区域的工作频率,保证NoC各区域的工作频率与工作负荷相适配,在NoC工作负荷高的区域采用高工作频率以保证SOC性能,在NoC工作负荷低的区域采用低工作频率以减少无效功耗,能够在提升NoC性能的同时降低NoC的无效功耗,优化NoC的能效比,有效降低片上网络的功耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为现有技术中片上网络的连接结构原理图;
图2为本发明的降低片上网络功耗的方法一个实施例的流程示意图;
图3为本发明中片上网络的区域划分示例图;
图4为本发明的降低片上网络功耗的装置一个实施例的结构示意图;
图5为本发明的服务器一个实施例的结构示意图;
图6为本发明的CPU芯片中路由单元RU的结构示意图;
图7为本发明的CPU芯片的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一方面,本发明实施例提供一种降低片上网络功耗的方法,如图2所示,本实施例的方法可以包括:
步骤101:将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;
由于每个NIU挂载的设备不尽相同,每个设备在不同时间范围内对NoC带宽的需求也是不一样的,因此可以通过将NoC划分为多个互不交叠的区域,每个区域各自使用独立的工作时钟,时钟频率通过分析区域内RU的工作负荷进行合理选择,使NoC每个区域内的工作时钟频率自适应与工作负荷。
区域划分时,如图3所示,可采用十字形划分,每个区域包含至少一个NIU和至少一个RU,图3所示实施例中划分出了4个区域,也可根据需要划分成更多区域。
在数字电路设计中,不同时钟域的信号为了避免出现亚稳态问题需要经过异步处理后才能使用,而异步处理会带来较大延时,延时对NoC性能有重要影响,因此在NoC设计中应避免跨时钟域,保证整个NoC为同步设计。然而,在对延时要求不高的场合,也可以在NoC各个区域边界采用异步处理电路,NoC各个区域之间为异步设计,在此方案下对NoC各个区域的工作时钟没有任何限制,但是会引入额外的异步处理延时。
考虑到NoC不同区域工作负荷可能会有较大差异,可以运行不同的工作频率,因此从系统特性上可以将NoC划分为多个区域,每个区域时钟互相独立。为了保证整个NoC为同步设计,优选采用同相位倍频时钟(同步多频)设计技术,即NoC每个区域的时钟相位相同,频率只能是基频fb的2的幂次倍数。由于NoC各个区域的时钟相位相同,频率为倍数关系,因此信号跨越不同区域时可以当作同步信号,无需异步处理,避免了额外的延时。
具体实施时,SCU负责管理NoC每个区域的时钟频率,SCU需要将每个区域与相邻区域的时钟频率关系配置给处于区域边缘的RU。对于任意两个互联的RU,记为RU1和RU2,如果RU1和RU2的工作频率相同,那么RU1和RU2之间的互联信号可按正常的同步信号使用;如果RU1和RU2的工作频率不同,假设RU1的工作频率为RU2的工作频率的2k倍,那么RU2可以将与RU1之间的互联信号均当作普通同步信号使用,RU1需要将互联信号做2k倍同步降频处理后再发送给RU2,对于从RU2发送过来的互联信号,RU1需要做2k倍同步降采样后再使用。
步骤102:获取NoC的路由单元RU的工作状态数据;
NIU和RU中记录的请求和响应信息表示尚未完成的工作量,可以用于评估NoC网络的工作负荷。
本步骤中,工作状态数据优选包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目,这样获取在最近一段时间窗口(可根据系统配置进行调整,例如设置为10毫秒、20毫秒等)内RU中已缓存未转发的请求和响应数目以用于评估RU的工作负荷,进而用于评估NoC各区域的工作负荷。
以图3所示NoC设计为例,NoC中一共有12个NIU和24个RU,整个NoC被分为了4个区域,每个区域有3个NIU和6个RU,综合考虑模型精度和运算成本,该实例对RU中已缓存未转发的读请求、写请求、读响应和写响应共四种类型的请求/响应进行统计。
步骤103:根据所述工作状态数据,计算NoC各个区域的预期工作频率;
在NoC拓扑和配置不变的情况下,NoC能够提供的带宽与工作频率成正比,RU中已接收但尚未转发的请求和响应数目与NoC工作负荷(即NoC所需提供的带宽)成正比。但是,不同类型的请求对NoC工作负荷的贡献度是不同的,NoC拓扑中不同位置的RU对NoC带宽的影响也是不同的,因此需要结合NoC拓扑和配置对NoC工作负荷进行建模。为了避免系统临时突发请求导致模型计算的NoC工作频率频繁大幅度变化,需要在模型中考虑时间因素。
作为一种可选的实施例,综合考虑模型精度与模型复杂度,采用一阶模型分别对NoC每个区域的预期工作频率进行建模(如需更精确的模型精度,可采用更高阶模型或其它类型模型进行建模),如公式一所示。
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。需要说明的是,公式中仅涉及数值上的计算和建模,不考虑单位的影响。
公式一中Qn,t,r可以由RU进行统计,An,t,r和Bn与NoC拓扑、配置及区域划分相关,需要根据NoC性能测试结果进行拟合。
进一步的,公式一中An,t,r和Bn参数需要根据NoC单区域性能测试结果进行拟合。进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,本实施例中x可以为2(满足2jfn,k≤fmax<xj+1fn,k,fmax为NoC支持的最高工作频率),需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽。一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k;b)每个RU中每类已缓存未转发请求/响应个数,即T*R个测试数据RQn,t,r,k;由于An,t,r和B一共有T*R+1个参数,为了保证拟合结果的正确性和鲁棒性,需要保证NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
Jn=∑(fn,k-fen,k)2 公式二
为提高计算效率和准确度,具体计算时优选的,根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn。
继续以图3所示NoC设计为例,由于需要统计四种响应/请求,NoC每个区域中一共有6个RU,因此每个区域总共有4*6+1=25个参数需要计算。在NoC的工作频率范围内随机选择100个频率点,按前述要求分别配置NoC待测区域n和其他区域的工作频率,不断加大NoC待测区域n的工作负荷直到达到该工作频率下的最大工作负荷,等待100毫秒后,读取待测区域n各个RU的Qn,t,r,k(r=1,2,…,6;t=1,2,3,4;)共24个数据记为一组测试数据。基于100组测试数据,根据公式二,采用最速梯度下降法计算得到25个参数。
步骤104:将NoC各个区域的工作频率调整至所述预期工作频率。
时钟模块负责向NoC各个区域分别提供工作时钟,一般可以通过修改配置改变各个输出时钟频率。SOC设计中通常由系统控制单元(SCU)(或其它控制逻辑)负责配置时钟模块输出预期频率的时钟。SCU通过实时监控并计算当前NoC各个区域的合理工作频率,动态修改时钟模块配置,可以实现NoC各个区域的动态变频。
本步骤中,在系统运行时,每经过一个时间窗口的时长,可以根据公式一实时对NoC各个区域最优工作频率进行一次预测和调整。具体实施时,SCU根据计算得到的NoC各个区域的预期工作频率对NoC各个区域的工作时钟频率分别配置,在采用同相位倍频时钟设计技术情况下,当2i-1fb<fen≤2ifb时,可将NoC第n个区域的工作频率设置为2ifb。
现有NoC设计为了保证性能通常采用同步单频设计以减少内部延时,即整个NoC工作在同一个工作时钟下。然而挂载在NoC上的不同设备不同时刻对带宽的需求是不同的,NoC如果采用同步单频设计,为了满足设备对带宽的要求,只能根据对带宽需求最大的设备来设置NoC的工作频率,并不能根据NoC各个区域的实际带宽需求来独立选择工作频率,严重地降低了NoC的能效。
本发明实施例通过对NoC进行分区管理,动态调整不同区域的工作频率,保证NoC各区域的工作频率与工作负荷相适配,在NoC工作负荷高的区域采用高工作频率以保证SOC性能,在NoC工作负荷低的区域采用低工作频率以减少无效功耗,能够在提升NoC性能的同时降低NoC的无效功耗,优化NoC的能效比,有效降低片上网络的功耗。
另一方面,本发明实施例提供一种降低片上网络功耗的装置,如图4所示,该装置可以包括:
划分模块11,用于将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;
获取模块12,用于获取NoC的路由单元RU的工作状态数据;
计算模块13,用于根据所述工作状态数据,计算NoC各个区域的预期工作频率;
调整模块14,用于将NoC各个区域的工作频率调整至所述预期工作频率。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
优选的,NoC各个区域的工作时钟为同相位倍频时钟。
优选的,所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
优选的,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+ 1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k;b)每个RU中每类已缓存未转发请求/响应个数,即T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
优选的,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn;
其中,
Jn=∑(fn,k-fen,k)2 公式二
再一方面,本发明实施例提供一种CPU芯片,包括:处理器核心;
所述处理器核心,用于将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟;获取NoC的路由单元RU的工作状态数据;根据所述工作状态数据,计算NoC各个区域的预期工作频率;将NoC各个区域的工作频率调整至所述预期工作频率。
本实施例的CPU芯片,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
优选的,NoC各个区域的工作时钟为同相位倍频时钟。
优选的,所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
优选的,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+ 1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k:b)每个RU中每类已缓存未转发请求/响应个数,即T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
优选的,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn;
其中,
Jn=∑(fn,k-fen,k)2 公式二
又一方面,本发明实施例还提供一种服务器,图5为本发明服务器一个实施例的结构示意图,可以实现本发明图2所示实施例的流程,如图5所示,上述服务器可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述服务器的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一方法实施例所述的方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图2所示实施例的描述,在此不再赘述。
再一方面,为较好的实施前述降低片上网络功耗的方法,本发明实施例提供一种对硬件实体结构进行改进后的CPU芯片,如图6-7所示,该CPU芯片包括片上网络NoC、为所述NoC提供工作时钟的时钟模块、以及用于控制所述时钟模块的系统控制单元SCU,所述NoC包括若干路由单元RU,每个RU均包括未转发请求/响应统计模块和初级运算模块;所述SCU包括二级运算模块和时钟控制模块,其中:
所述未转发请求/响应统计模块用于统计当前时间窗口内未转发的读请求、写请求、读响应和写响应数目,具体的,以图3为例,统计值可记为Qn,1,r、Qn,2,r、Qn,3,r和Qn,4,r,,其中n为NoC区域序号,n=1,2,3,4,r为RU序号,r=1,2,…,6;
所述未转发请求/响应统计模块的输出端连接至所述初级运算模块的输入端,所述初级运算模块用于实现公式五的运算;
RU中实现了所述未转发请求/响应统计模块和初级运算模块,以获取NoC的工作状态数据(即最近一段时间窗口内RU中已缓存未转发的请求和响应数目);通过对公式一变换,可以将部分运算工作分配给各个RU进行,如公式四和公式五所示;初级运算模块用于计算公式五中的frun,r,并将运算结果送给SCU进行下一步运算;
每个RU的初级运算模块的输出端(即图7中所示的区域1初级计算结果至区域N初级计算结果)连接至所述二级运算模块的输入端,所述二级运算模块的输出端连接所述时钟控制模块,所述时钟控制模块的输出端控制所述时钟模块,所述二级运算模块用于实现公式四的运算;
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
此处,相关参数的计算、基于该结构的CPU芯片所执行的方法流程,前面已详细介绍,此处不再赘述。在图6中,请求缓存模块、请求路由模块、请求转发模块、响应缓存模块、响应路由模块、响应转发模块和仲裁模块均为RU原有功能模块,未做改动,此处不再赘述。所述未转发请求/响应统计模块的输入端可连接至所述请求缓存模块和响应缓存模块,以便于进行数据统计。
如图7所示,SCU中实现了二级运算模块和时钟控制模块,二级运算模块根据公式四计算NoC各个区域的工作频率fen,具体实施时,为了保证系统的稳定性,对NoC各个区域的工作频率调整可采用步进调整策略,即当fen大于实际工作频率fn且持续时间超过S时(具体时间可根据系统配置),时钟控制模块将NoC该区域工作时钟频率调整为2fn,当fen小于实际工作频率fn的一半且持续时间超过S时(具体时间可根据系统配置),时钟控制模块将NoC该区域工作时钟频率调整为fn/2,以实现NoC多区域工作频率的动态调整。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种降低片上网络功耗的方法,其特征在于,包括:
将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟,每个区域包括至少一个路由单元RU;
获取NoC各个区域的RU的工作状态数据;所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目;
根据NoC各个区域的RU的数目、各个区域中每个RU在NoC拓扑中的位置、各个区域中每个RU中请求/响应的种类和所述工作状态数据,计算NoC各个区域的预期工作频率;
将NoC各个区域的工作频率调整至所述预期工作频率。
2.根据权利要求1所述的方法,其特征在于,NoC各个区域的工作时钟为同相位倍频时钟。
3.根据权利要求1或2所述的方法,其特征在于,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示在最近一段时间窗口内第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
4.根据权利要求3所述的方法,其特征在于,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k;b)T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
5.根据权利要求4所述的方法,其特征在于,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn;
其中,
Jn=∑(fn,k-fen,k)2公式二
6.一种降低片上网络功耗的装置,其特征在于,包括:
划分模块,用于将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟,每个区域包括至少一个路由单元RU;
获取模块,用于获取NoC各个区域的RU的工作状态数据;所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目;
计算模块,用于根据NoC各个区域的RU的数目、各个区域中每个RU在NoC拓扑中的位置、各个区域中每个RU中请求/响应的种类和所述工作状态数据,计算NoC各个区域的预期工作频率;
调整模块,用于将NoC各个区域的工作频率调整至所述预期工作频率。
7.根据权利要求6所述的装置,其特征在于,NoC各个区域的工作时钟为同相位倍频时钟。
8.根据权利要求6或7所述的装置,其特征在于,所述NoC各个区域的预期工作频率的计算公式为:
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示在最近一段时间窗口内第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
9.根据权利要求8所述的装置,其特征在于,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到;
其中,进行NoC性能测试时按NoC的每个区域分别进行,将待测区域n的工作频率设为fn,k,其他区域工作频率设为xjfn,k,x表示时钟的倍频数的底数,满足xjfn,k≤fmax<xj+1fn,k,fmax为NoC支持的最高工作频率;需要保证NoC处于稳定工作状态,并使NoC该区域带宽达到当前工作频率下最大带宽;一组NoC单区域性能测试数据包括:a)NoC待测区域工作频率fn,k;b)T*R个测试数据RQn,t,r,k;NoC性能测试数据在NoC全工作频率范围内随机分布,且测试数据组数K远大于待拟合参数数目。
10.根据权利要求9所述的装置,其特征在于,所述公式一中参数An,t,r和Bn根据NoC性能测试结果进行拟合得到,包括:
根据公式二定义的残差函数Jn,通过使用最速梯度下降法求得使残差函数Jn最小的一组参数An,t,r和Bn,即得所述公式一中参数An,t,r和Bn;
其中,
11.一种CPU芯片,其特征在于,包括:处理器核心;
所述处理器核心,用于将片上网络NoC划分为两个以上互不交叠的区域,每个区域各自使用独立的工作时钟,每个区域包括至少一个路由单元RU;获取NoC各个区域的RU的工作状态数据;所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目;根据NoC各个区域的RU的数目、各个区域中每个RU在NoC拓扑中的位置、各个区域中每个RU中请求/响应的种类和所述工作状态数据,计算NoC各个区域的预期工作频率;将NoC各个区域的工作频率调整至所述预期工作频率。
12.一种服务器,其特征在于,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述服务器的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1-5任一所述的方法。
13.一种CPU芯片,包括片上网络NoC、为所述NoC提供工作时钟的时钟模块、以及用于控制所述时钟模块的系统控制单元SCU,所述NoC包括若干路由单元RU,其特征在于,每个RU均包括未转发请求/响应统计模块和初级运算模块;所述SCU包括二级运算模块和时钟控制模块,其中:
所述未转发请求/响应统计模块用于统计当前时间窗口内未转发的读请求、写请求、读响应和写响应数目,所述未转发请求/响应统计模块的输出端连接至所述初级运算模块的输入端,所述初级运算模块用于实现公式五的运算;
每个RU的初级运算模块的输出端连接至所述二级运算模块的输入端,所述二级运算模块的输出端连接所述时钟控制模块,所述时钟控制模块的输出端控制所述时钟模块,所述二级运算模块用于实现公式四的运算;
其中,fen表示预测的NoC第n个区域的工作频率,R表示NoC第n个区域中RU的数目,T表示NoC支持的请求和响应种类数目,Qn,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目,An,t,r表示第r个RU中第t类请求/响应的权值,Bn表示偏置参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284050.9A CN112394807B (zh) | 2020-11-17 | 2020-11-17 | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284050.9A CN112394807B (zh) | 2020-11-17 | 2020-11-17 | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112394807A CN112394807A (zh) | 2021-02-23 |
CN112394807B true CN112394807B (zh) | 2023-08-29 |
Family
ID=74600499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011284050.9A Active CN112394807B (zh) | 2020-11-17 | 2020-11-17 | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112394807B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519318B (zh) * | 2022-02-15 | 2024-04-09 | 海光信息技术股份有限公司 | Noc设计方法、装置、相关器件和设备 |
CN118316860B (zh) * | 2024-06-05 | 2024-08-30 | 湖北省楚天云有限公司 | 基于cpu工作频率的路由决策更新方法、系统及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103581031A (zh) * | 2013-10-15 | 2014-02-12 | 复旦大学 | 一种用于异构多核片上网络建模的可配置片上路由器模型 |
CN103678245A (zh) * | 2013-12-20 | 2014-03-26 | 武汉科技大学 | 一种低功耗的片上网络任务映射方法 |
CN105550159A (zh) * | 2015-12-16 | 2016-05-04 | 广州中国科学院先进技术研究所 | 多核处理器片上网络的功率分配方法 |
CN106649192A (zh) * | 2016-11-11 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 基于预测的三维片上网络动态频率调整方法 |
CN109150717A (zh) * | 2018-07-04 | 2019-01-04 | 东南大学 | 一种优化片上网络功耗的组合路由方法 |
CN109587081A (zh) * | 2017-09-29 | 2019-04-05 | 邢筱丹 | 一种基于拓扑划分的片上网络快速映射算法 |
CN110912718A (zh) * | 2018-09-14 | 2020-03-24 | 天津工业大学 | 一种降低异构三维片上网络布图功耗的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9160627B2 (en) * | 2013-04-04 | 2015-10-13 | Netspeed Systems | Multiple heterogeneous NoC layers |
US10452124B2 (en) * | 2016-09-12 | 2019-10-22 | Netspeed Systems, Inc. | Systems and methods for facilitating low power on a network-on-chip |
-
2020
- 2020-11-17 CN CN202011284050.9A patent/CN112394807B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103581031A (zh) * | 2013-10-15 | 2014-02-12 | 复旦大学 | 一种用于异构多核片上网络建模的可配置片上路由器模型 |
CN103678245A (zh) * | 2013-12-20 | 2014-03-26 | 武汉科技大学 | 一种低功耗的片上网络任务映射方法 |
CN105550159A (zh) * | 2015-12-16 | 2016-05-04 | 广州中国科学院先进技术研究所 | 多核处理器片上网络的功率分配方法 |
CN106649192A (zh) * | 2016-11-11 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 基于预测的三维片上网络动态频率调整方法 |
CN109587081A (zh) * | 2017-09-29 | 2019-04-05 | 邢筱丹 | 一种基于拓扑划分的片上网络快速映射算法 |
CN109150717A (zh) * | 2018-07-04 | 2019-01-04 | 东南大学 | 一种优化片上网络功耗的组合路由方法 |
CN110912718A (zh) * | 2018-09-14 | 2020-03-24 | 天津工业大学 | 一种降低异构三维片上网络布图功耗的方法 |
Non-Patent Citations (1)
Title |
---|
翟亮等.基于门控时钟的片上网络路由单元低功耗设计.南京师范大学学报(工程技术版).2009,第9卷(第3期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112394807A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112394807B (zh) | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 | |
CN106992770B (zh) | 时钟电路及其传输时钟信号的方法 | |
JP5923525B2 (ja) | バス相互接続のためのバスクロック周波数スケーリング、ならびに関係するデバイス、システム、および方法 | |
Demmel et al. | Avoiding communication in sparse matrix computations | |
US20230048899A1 (en) | Clock Frequency Adjustment For Semi-Conductor Devices | |
CN100367260C (zh) | 在检测到的静态循环中对总线信号终端进行补偿的装置和方法 | |
US10671404B2 (en) | Systems, methods and devices for dynamic power management of devices using game theory | |
US20020138686A1 (en) | Method for programming memory controller in a high performance microprocessor | |
CN108537331A (zh) | 一种基于异步逻辑的可重构卷积神经网络加速电路 | |
CN107850927A (zh) | 具有功率开关仲裁器的功率管理器 | |
JP2021514084A (ja) | 活発な更新を伴う分散パラメータサーバを使用したニューラルネットワークの最適化された非同期トレーニング | |
CN112363609B (zh) | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 | |
US20110295586A1 (en) | Clock simulation device and methods thereof | |
JP2007179126A (ja) | タイミング解析装置及びタイミング解析手法 | |
CN111723907A (zh) | 一种模型训练设备、方法、系统及计算机可读存储介质 | |
DE112022002956B4 (de) | Multi-die-leistungssynchronisation | |
CN112363610B (zh) | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 | |
Wang et al. | Optimization of communication schemes for DMA-controlled accelerators | |
WO2021036421A1 (zh) | 多核架构的同步信号产生电路、芯片和同步方法及装置 | |
Niyogi et al. | System level power and performance modeling of GALS point-to-point communication interfaces | |
Oxman et al. | An noc simulator that supports deflection routing, gpu/cpu integration, and co-simulation | |
CN112363612A (zh) | 一种降低片上网络功耗的方法、装置、cpu芯片及服务器 | |
CN101236576B (zh) | 一种适用于异质可重构处理器的互联模型 | |
Bedre et al. | A Hybrid arbiter to accelerate performance of high speed soc | |
CN113608992B (zh) | 一种边缘服务器的远程调试系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |