CN112394807B

CN112394807B - 一种降低片上网络功耗的方法、装置、cpu芯片及服务器

Info

Publication number: CN112394807B
Application number: CN202011284050.9A
Authority: CN
Inventors: 徐祥俊; 黄维; 王明波
Original assignee: Hygon Information Technology Co Ltd
Current assignee: Hygon Information Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2023-08-29
Anticipated expiration: 2040-11-17
Also published as: CN112394807A

Abstract

本发明的实施例公开了一种降低片上网络功耗的方法、装置、CPU芯片及服务器，涉及计算机技术领域，能够有效降低片上网络的功耗。所述方法包括：将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟；获取NoC的路由单元RU的工作状态数据；根据所述工作状态数据，计算NoC各个区域的预期工作频率；将NoC各个区域的工作频率调整至所述预期工作频率。本发明适用于降低片上网络功耗的场合。

Description

一种降低片上网络功耗的方法、装置、CPU芯片及服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种降低片上网络功耗的方法、装置、CPU芯片及服务器。

背景技术

随着集成电路的发展和工艺的提升，芯片的集成度在不断提升，大规模SOC(System on Chip，系统级芯片)设计已成为主流。NoC(Network on Chip，片上网络)用于实现SOC中各个设备的片上互联，主要包括多个网络接口单元(Network Interface Unit，NIU)和路由单元(Router Unit，RU)，如图1所示，NIU在NoC的边界，每个NIU用于连接一个挂载设备，并负责管理该设备发出的所有请求和发送给该设备的所有请求。对于设备发送的每个请求，NIU均会记录相关信息并转发给RU，在收到RU转发的响应后，NIU将响应转发给设备并清除相关记录。对于从RU发送给设备的每个请求，NIU均会记录相关信息并转发给设备，在收到设备的响应之后，NIU将响应转发给RU并清除相关记录。RU在NoC的内部，实现NIU之间的互联，负责将NIU或其他RU转发的每一笔请求或响应按照预设的路由规则转发给指定的NIU，RU的拓扑结构可根据设计需求制定，包括网状拓扑、环状拓扑等，RU会暂存收到的每笔请求或响应，在转发之后删除相关记录。

考虑到NoC的性能决定了整个SOC片上通信的效率，与SOC的性能息息相关，NoC一般都具有高带宽低延时的特性。由于NoC分布在SOC各处，占SOC设计比重大，NoC消耗了SOC相当大比例的功耗。因此，提升NoC设计的能效显得尤为重要。

现有的SOC设计中，NoC通常被设计为同步单频模式，频率分为固定模式和可变模式两种。固定频率类型NoC多用于早期嵌入式SOC设计，整个NoC使用统一的工作时钟，时钟频率在系统正常运行之后不再改变，这类设计能效比一般较差，目前已不多见。可变频率类型NoC目前已广泛应用于当前各类SOC设计中，设计人员预先确定系统的典型应用场景，根据应用场景对NoC带宽和延时的要求，确定各应用场景下NoC的工作频率并记录。系统运行时，根据当前的工作场景为NoC选择预设的工作频率，只有当工作场景发生改变时，才更新NoC的工作频率。此类变频技术能够在一定程度上优化SOC的能耗比，但是由于整个NoC运行在统一的工作频率，而且不能自适应调整工作频率，还有很大的改善和提升空间。

发明内容

有鉴于此，本发明实施例提供一种降低片上网络功耗的方法、装置、CPU芯片及服务器，能够有效降低片上网络的功耗。

第一方面，本发明实施例提供一种降低片上网络功耗的方法，包括：

将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟；

获取NoC的路由单元RU的工作状态数据；

根据所述工作状态数据，计算NoC各个区域的预期工作频率；

将NoC各个区域的工作频率调整至所述预期工作频率。

结合第一方面，在第一方面的一种实施方式中，NoC各个区域的工作时钟为同相位倍频时钟。

结合第一方面，在第一方面的另一种实施方式中，所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目，所述NoC各个区域的预期工作频率的计算公式为：

其中，f_en表示预测的NoC第n个区域的工作频率，R表示NoC第n个区域中RU的数目，T表示NoC支持的请求和响应种类数目，Q_n，t，r表示第r个RU中第t类请求/响应的已缓存未转发数目，A_n，t，r表示第r个RU中第t类请求/响应的权值，B_n表示偏置参数。

结合第一方面，在第一方面的再一种实施方式中，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到；

其中，进行NoC性能测试时按NoC的每个区域分别进行，将待测区域n的工作频率设为f_n，k，其他区域工作频率设为x^jf_n，k，x表示时钟的倍频数的底数，满足x^jf_n，k≤f_max＜x^j+ ¹f_n，k，f_max为NoC支持的最高工作频率；需要保证NoC处于稳定工作状态，并使NoC该区域带宽达到当前工作频率下最大带宽；一组NoC单区域性能测试数据包括：a)NoC待测区域工作频率f_n，k；b)每个RU中每类已缓存未转发请求/响应个数，即T*R个测试数据RQ_{n，t，r，k}；NoC性能测试数据在NoC全工作频率范围内随机分布，且测试数据组数K远大于待拟合参数数目。

结合第一方面，在第一方面的又一种实施方式中，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到，包括：

根据公式二定义的残差函数J_n，通过使用最速梯度下降法求得使残差函数J_n最小的一组参数A_n，t，r和B_n，即得所述公式一中参数A_n，t，r和B_n：

其中，

J_n＝∑(f_n，k-f_en，k)² 公式二

第二方面，本发明实施例提供一种降低片上网络功耗的装置，包括：

划分模块，用于将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟；

获取模块，用于获取NoC的路由单元RU的工作状态数据；

计算模块，用于根据所述工作状态数据，计算NoC各个区域的预期工作频率；

调整模块，用于将NoC各个区域的工作频率调整至所述预期工作频率。

结合第二方面，在第二方面的一种实施方式中，NoC各个区域的工作时钟为同相位倍频时钟。

结合第二方面，在第二方面的另一种实施方式中，所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目，所述NoC各个区域的预期工作频率的计算公式为：

结合第二方面，在第二方面的再一种实施方式中，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到；

其中，进行NoC性能测试时按NoC的每个区域分别进行，将待测区域n的工作频率设为f_n，k，其他区域工作频率设为x^jf_n，k，x表示时钟的倍频数的底数，满足x^jf_n，k≤f_max＜x^j+ ¹f_n，k，f_max为NoC支持的最高工作频率；需要保证NoC处于稳定工作状态，并使NoC该区域带宽达到当前工作频率下最大带宽；一组NoC单区域性能测试数据包括：a)NoC待测区域工作频率f_n，k：b)每个RU中每类已缓存未转发请求/响应个数，即T*R个测试数据RQ_{n，t，r，k}；NoC性能测试数据在NoC全工作频率范围内随机分布，且测试数据组数K远大于待拟合参数数目。

结合第二方面，在第二方面的又一种实施方式中，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到，包括：

根据公式二定义的残差函数J_n，通过使用最速梯度下降法求得使残差函数J_n最小的一组参数A_n，t，r和B_n，即得所述公式一中参数A_n，t，r和B_n；

其中，

J_n＝∑(f_n，k-f_en，k)² 公式二

第三方面，本发明实施例提供一种CPU芯片，包括：处理器核心；

所述处理器核心，用于将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟；获取NoC的路由单元RU的工作状态数据；根据所述工作状态数据，计算NoC各个区域的预期工作频率；将NoC各个区域的工作频率调整至所述预期工作频率。

结合第三方面，在第三方面的一种实施方式中，NoC各个区域的工作时钟为同相位倍频时钟。

结合第三方面，在第三方面的另一种实施方式中，所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目，所述NoC各个区域的预期工作频率的计算公式为：

结合第三方面，在第三方面的再一种实施方式中，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到；

结合第三方面，在第三方面的又一种实施方式中，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到，包括：

其中，

J_n＝∑(f_n，k-f_en，k)² 公式二

第四方面，本发明实施例提供一种服务器，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述服务器的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一所述的方法。

第五方面，本发明实施例还提供一种CPU芯片，包括片上网络NoC、为所述NoC提供工作时钟的时钟模块、以及用于控制所述时钟模块的系统控制单元SCU，所述NoC包括若干路由单元RU，每个RU均包括未转发请求/响应统计模块和初级运算模块；所述SCU包括二级运算模块和时钟控制模块，其中：

所述未转发请求/响应统计模块用于统计当前时间窗口内未转发的读请求、写请求、读响应和写响应数目，所述未转发请求/响应统计模块的输出端连接至所述初级运算模块的输入端，所述初级运算模块用于实现公式五的运算；

每个RU的初级运算模块的输出端连接至所述二级运算模块的输入端，所述二级运算模块的输出端连接所述时钟控制模块，所述时钟控制模块的输出端控制所述时钟模块，所述二级运算模块用于实现公式四的运算；

本发明实施例提供的降低片上网络功耗的方法、装置、CPU芯片及服务器，首先将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟，然后获取NoC的路由单元RU的工作状态数据，之后根据所述工作状态数据，计算NoC各个区域的预期工作频率，最后将NoC各个区域的工作频率调整至所述预期工作频率。这样，通过对NoC进行分区管理，动态调整不同区域的工作频率，保证NoC各区域的工作频率与工作负荷相适配，在NoC工作负荷高的区域采用高工作频率以保证SOC性能，在NoC工作负荷低的区域采用低工作频率以减少无效功耗，能够在提升NoC性能的同时降低NoC的无效功耗，优化NoC的能效比，有效降低片上网络的功耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为现有技术中片上网络的连接结构原理图；

图2为本发明的降低片上网络功耗的方法一个实施例的流程示意图；

图3为本发明中片上网络的区域划分示例图；

图4为本发明的降低片上网络功耗的装置一个实施例的结构示意图；

图5为本发明的服务器一个实施例的结构示意图；

图6为本发明的CPU芯片中路由单元RU的结构示意图；

图7为本发明的CPU芯片的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一方面，本发明实施例提供一种降低片上网络功耗的方法，如图2所示，本实施例的方法可以包括：

步骤101：将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟；

由于每个NIU挂载的设备不尽相同，每个设备在不同时间范围内对NoC带宽的需求也是不一样的，因此可以通过将NoC划分为多个互不交叠的区域，每个区域各自使用独立的工作时钟，时钟频率通过分析区域内RU的工作负荷进行合理选择，使NoC每个区域内的工作时钟频率自适应与工作负荷。

区域划分时，如图3所示，可采用十字形划分，每个区域包含至少一个NIU和至少一个RU，图3所示实施例中划分出了4个区域，也可根据需要划分成更多区域。

在数字电路设计中，不同时钟域的信号为了避免出现亚稳态问题需要经过异步处理后才能使用，而异步处理会带来较大延时，延时对NoC性能有重要影响，因此在NoC设计中应避免跨时钟域，保证整个NoC为同步设计。然而，在对延时要求不高的场合，也可以在NoC各个区域边界采用异步处理电路，NoC各个区域之间为异步设计，在此方案下对NoC各个区域的工作时钟没有任何限制，但是会引入额外的异步处理延时。

考虑到NoC不同区域工作负荷可能会有较大差异，可以运行不同的工作频率，因此从系统特性上可以将NoC划分为多个区域，每个区域时钟互相独立。为了保证整个NoC为同步设计，优选采用同相位倍频时钟(同步多频)设计技术，即NoC每个区域的时钟相位相同，频率只能是基频f_b的2的幂次倍数。由于NoC各个区域的时钟相位相同，频率为倍数关系，因此信号跨越不同区域时可以当作同步信号，无需异步处理，避免了额外的延时。

具体实施时，SCU负责管理NoC每个区域的时钟频率，SCU需要将每个区域与相邻区域的时钟频率关系配置给处于区域边缘的RU。对于任意两个互联的RU，记为RU1和RU2，如果RU1和RU2的工作频率相同，那么RU1和RU2之间的互联信号可按正常的同步信号使用；如果RU1和RU2的工作频率不同，假设RU1的工作频率为RU2的工作频率的2k倍，那么RU2可以将与RU1之间的互联信号均当作普通同步信号使用，RU1需要将互联信号做2^k倍同步降频处理后再发送给RU2，对于从RU2发送过来的互联信号，RU1需要做2^k倍同步降采样后再使用。

步骤102：获取NoC的路由单元RU的工作状态数据；

NIU和RU中记录的请求和响应信息表示尚未完成的工作量，可以用于评估NoC网络的工作负荷。

本步骤中，工作状态数据优选包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目，这样获取在最近一段时间窗口(可根据系统配置进行调整，例如设置为10毫秒、20毫秒等)内RU中已缓存未转发的请求和响应数目以用于评估RU的工作负荷，进而用于评估NoC各区域的工作负荷。

以图3所示NoC设计为例，NoC中一共有12个NIU和24个RU，整个NoC被分为了4个区域，每个区域有3个NIU和6个RU，综合考虑模型精度和运算成本，该实例对RU中已缓存未转发的读请求、写请求、读响应和写响应共四种类型的请求/响应进行统计。

步骤103：根据所述工作状态数据，计算NoC各个区域的预期工作频率；

在NoC拓扑和配置不变的情况下，NoC能够提供的带宽与工作频率成正比，RU中已接收但尚未转发的请求和响应数目与NoC工作负荷(即NoC所需提供的带宽)成正比。但是，不同类型的请求对NoC工作负荷的贡献度是不同的，NoC拓扑中不同位置的RU对NoC带宽的影响也是不同的，因此需要结合NoC拓扑和配置对NoC工作负荷进行建模。为了避免系统临时突发请求导致模型计算的NoC工作频率频繁大幅度变化，需要在模型中考虑时间因素。

作为一种可选的实施例，综合考虑模型精度与模型复杂度，采用一阶模型分别对NoC每个区域的预期工作频率进行建模(如需更精确的模型精度，可采用更高阶模型或其它类型模型进行建模)，如公式一所示。

其中，f_en表示预测的NoC第n个区域的工作频率，R表示NoC第n个区域中RU的数目，T表示NoC支持的请求和响应种类数目，Q_n，t，r表示第r个RU中第t类请求/响应的已缓存未转发数目，A_n，t，r表示第r个RU中第t类请求/响应的权值，B_n表示偏置参数。需要说明的是，公式中仅涉及数值上的计算和建模，不考虑单位的影响。

公式一中Q_n，t，r可以由RU进行统计，A_n，t，r和B_n与NoC拓扑、配置及区域划分相关，需要根据NoC性能测试结果进行拟合。

进一步的，公式一中A_n，t，r和B_n参数需要根据NoC单区域性能测试结果进行拟合。进行NoC性能测试时按NoC的每个区域分别进行，将待测区域n的工作频率设为f_n，k，其他区域工作频率设为x^jf_n，k，x表示时钟的倍频数的底数，本实施例中x可以为2(满足2^jf_n，k≤f_max＜x^j+1f_n，k，f_max为NoC支持的最高工作频率)，需要保证NoC处于稳定工作状态，并使NoC该区域带宽达到当前工作频率下最大带宽。一组NoC单区域性能测试数据包括：a)NoC待测区域工作频率f_n，k；b)每个RU中每类已缓存未转发请求/响应个数，即T*R个测试数据RQ_{n，t，r，k}；由于A_n，t，r和B一共有T*R+1个参数，为了保证拟合结果的正确性和鲁棒性，需要保证NoC性能测试数据在NoC全工作频率范围内随机分布，且测试数据组数K远大于待拟合参数数目。

J_n＝∑(f_n，k-f_en，k)² 公式二

为提高计算效率和准确度，具体计算时优选的，根据公式二定义的残差函数J_n，通过使用最速梯度下降法求得使残差函数J_n最小的一组参数A_n，t，r和B_n，即得所述公式一中参数A_n，t，r和B_n。

继续以图3所示NoC设计为例，由于需要统计四种响应/请求，NoC每个区域中一共有6个RU，因此每个区域总共有4*6+1＝25个参数需要计算。在NoC的工作频率范围内随机选择100个频率点，按前述要求分别配置NoC待测区域n和其他区域的工作频率，不断加大NoC待测区域n的工作负荷直到达到该工作频率下的最大工作负荷，等待100毫秒后，读取待测区域n各个RU的Q_{n，t，r，k}(r＝1，2，…，6；t＝1，2，3，4；)共24个数据记为一组测试数据。基于100组测试数据，根据公式二，采用最速梯度下降法计算得到25个参数。

步骤104：将NoC各个区域的工作频率调整至所述预期工作频率。

时钟模块负责向NoC各个区域分别提供工作时钟，一般可以通过修改配置改变各个输出时钟频率。SOC设计中通常由系统控制单元(SCU)(或其它控制逻辑)负责配置时钟模块输出预期频率的时钟。SCU通过实时监控并计算当前NoC各个区域的合理工作频率，动态修改时钟模块配置，可以实现NoC各个区域的动态变频。

本步骤中，在系统运行时，每经过一个时间窗口的时长，可以根据公式一实时对NoC各个区域最优工作频率进行一次预测和调整。具体实施时，SCU根据计算得到的NoC各个区域的预期工作频率对NoC各个区域的工作时钟频率分别配置，在采用同相位倍频时钟设计技术情况下，当2^i-1f_b＜f_en≤2ⁱf_b时，可将NoC第n个区域的工作频率设置为2ⁱf_b。

现有NoC设计为了保证性能通常采用同步单频设计以减少内部延时，即整个NoC工作在同一个工作时钟下。然而挂载在NoC上的不同设备不同时刻对带宽的需求是不同的，NoC如果采用同步单频设计，为了满足设备对带宽的要求，只能根据对带宽需求最大的设备来设置NoC的工作频率，并不能根据NoC各个区域的实际带宽需求来独立选择工作频率，严重地降低了NoC的能效。

本发明实施例通过对NoC进行分区管理，动态调整不同区域的工作频率，保证NoC各区域的工作频率与工作负荷相适配，在NoC工作负荷高的区域采用高工作频率以保证SOC性能，在NoC工作负荷低的区域采用低工作频率以减少无效功耗，能够在提升NoC性能的同时降低NoC的无效功耗，优化NoC的能效比，有效降低片上网络的功耗。

另一方面，本发明实施例提供一种降低片上网络功耗的装置，如图4所示，该装置可以包括：

划分模块11，用于将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟；

获取模块12，用于获取NoC的路由单元RU的工作状态数据；

计算模块13，用于根据所述工作状态数据，计算NoC各个区域的预期工作频率；

调整模块14，用于将NoC各个区域的工作频率调整至所述预期工作频率。

本实施例的装置，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

优选的，NoC各个区域的工作时钟为同相位倍频时钟。

优选的，所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目，所述NoC各个区域的预期工作频率的计算公式为：

优选的，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到；

优选的，所述公式一中参数A_n，t，r和B_n根据NoC性能测试结果进行拟合得到，包括：

其中，

J_n＝∑(f_n，k-f_en，k)² 公式二

再一方面，本发明实施例提供一种CPU芯片，包括：处理器核心；

本实施例的CPU芯片，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

优选的，NoC各个区域的工作时钟为同相位倍频时钟。

根据公式二定义的残差函数Jn，通过使用最速梯度下降法求得使残差函数J_n最小的一组参数A_n，t，r和B_n，即得所述公式一中参数A_n，t，r和B_n；

其中，

J_n＝∑(f_n，k-f_en，k)² 公式二

又一方面，本发明实施例还提供一种服务器，图5为本发明服务器一个实施例的结构示意图，可以实现本发明图2所示实施例的流程，如图5所示，上述服务器可以包括：壳体41、处理器42、存储器43、电路板44和电源电路45，其中，电路板44安置在壳体41围成的空间内部，处理器42和存储器43设置在电路板44上；电源电路45，用于为上述服务器的各个电路或器件供电；存储器43用于存储可执行程序代码；处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一方法实施例所述的方法。

处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图2所示实施例的描述，在此不再赘述。

再一方面，为较好的实施前述降低片上网络功耗的方法，本发明实施例提供一种对硬件实体结构进行改进后的CPU芯片，如图6-7所示，该CPU芯片包括片上网络NoC、为所述NoC提供工作时钟的时钟模块、以及用于控制所述时钟模块的系统控制单元SCU，所述NoC包括若干路由单元RU，每个RU均包括未转发请求/响应统计模块和初级运算模块；所述SCU包括二级运算模块和时钟控制模块，其中：

所述未转发请求/响应统计模块用于统计当前时间窗口内未转发的读请求、写请求、读响应和写响应数目，具体的，以图3为例，统计值可记为Q_n，1，r、Q_n，2，r、Q_n，3，r和Q_n，4，r，，其中n为NoC区域序号，n＝1，2，3，4，r为RU序号，r＝1，2，…，6；

所述未转发请求/响应统计模块的输出端连接至所述初级运算模块的输入端，所述初级运算模块用于实现公式五的运算；

RU中实现了所述未转发请求/响应统计模块和初级运算模块，以获取NoC的工作状态数据(即最近一段时间窗口内RU中已缓存未转发的请求和响应数目)；通过对公式一变换，可以将部分运算工作分配给各个RU进行，如公式四和公式五所示；初级运算模块用于计算公式五中的fru_n，r，并将运算结果送给SCU进行下一步运算；

每个RU的初级运算模块的输出端(即图7中所示的区域1初级计算结果至区域N初级计算结果)连接至所述二级运算模块的输入端，所述二级运算模块的输出端连接所述时钟控制模块，所述时钟控制模块的输出端控制所述时钟模块，所述二级运算模块用于实现公式四的运算；

此处，相关参数的计算、基于该结构的CPU芯片所执行的方法流程，前面已详细介绍，此处不再赘述。在图6中，请求缓存模块、请求路由模块、请求转发模块、响应缓存模块、响应路由模块、响应转发模块和仲裁模块均为RU原有功能模块，未做改动，此处不再赘述。所述未转发请求/响应统计模块的输入端可连接至所述请求缓存模块和响应缓存模块，以便于进行数据统计。

如图7所示，SCU中实现了二级运算模块和时钟控制模块，二级运算模块根据公式四计算NoC各个区域的工作频率f_en，具体实施时，为了保证系统的稳定性，对NoC各个区域的工作频率调整可采用步进调整策略，即当f_en大于实际工作频率f_n且持续时间超过S时(具体时间可根据系统配置)，时钟控制模块将NoC该区域工作时钟频率调整为2f_n，当f_en小于实际工作频率f_n的一半且持续时间超过S时(具体时间可根据系统配置)，时钟控制模块将NoC该区域工作时钟频率调整为f_n/2，以实现NoC多区域工作频率的动态调整。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。为了描述的方便，描述以上装置是以功能分为各种单元/模块分别描述。当然，在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种降低片上网络功耗的方法，其特征在于，包括：

将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟，每个区域包括至少一个路由单元RU；

获取NoC各个区域的RU的工作状态数据；所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目；

根据NoC各个区域的RU的数目、各个区域中每个RU在NoC拓扑中的位置、各个区域中每个RU中请求/响应的种类和所述工作状态数据，计算NoC各个区域的预期工作频率；

将NoC各个区域的工作频率调整至所述预期工作频率。

2.根据权利要求1所述的方法，其特征在于，NoC各个区域的工作时钟为同相位倍频时钟。

3.根据权利要求1或2所述的方法，其特征在于，所述NoC各个区域的预期工作频率的计算公式为：

其中，f_en表示预测的NoC第n个区域的工作频率，R表示NoC第n个区域中RU的数目，T表示NoC支持的请求和响应种类数目，Q_n,t,r表示在最近一段时间窗口内第r个RU中第t类请求/响应的已缓存未转发数目，A_n,t,r表示第r个RU中第t类请求/响应的权值，B_n表示偏置参数。

4.根据权利要求3所述的方法，其特征在于，所述公式一中参数A_n,t,r和B_n根据NoC性能测试结果进行拟合得到；

其中，进行NoC性能测试时按NoC的每个区域分别进行，将待测区域n的工作频率设为f_n,k，其他区域工作频率设为x^jf_n,k，x表示时钟的倍频数的底数，满足x^jf_n,k≤f_max＜x^j+1f_n,k，f_max为NoC支持的最高工作频率；需要保证NoC处于稳定工作状态，并使NoC该区域带宽达到当前工作频率下最大带宽；一组NoC单区域性能测试数据包括：a)NoC待测区域工作频率f_n,k；b)T*R个测试数据RQ_n,t,r,k；NoC性能测试数据在NoC全工作频率范围内随机分布，且测试数据组数K远大于待拟合参数数目。

5.根据权利要求4所述的方法，其特征在于，所述公式一中参数A_n,t,r和B_n根据NoC性能测试结果进行拟合得到，包括：

根据公式二定义的残差函数J_n，通过使用最速梯度下降法求得使残差函数J_n最小的一组参数A_n,t,r和B_n，即得所述公式一中参数A_n,t,r和B_n；

其中，

J_n＝∑(f_n,k-f_en,k)²公式二

6.一种降低片上网络功耗的装置，其特征在于，包括：

划分模块，用于将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟，每个区域包括至少一个路由单元RU；

获取模块，用于获取NoC各个区域的RU的工作状态数据；所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目；

计算模块，用于根据NoC各个区域的RU的数目、各个区域中每个RU在NoC拓扑中的位置、各个区域中每个RU中请求/响应的种类和所述工作状态数据，计算NoC各个区域的预期工作频率；

7.根据权利要求6所述的装置，其特征在于，NoC各个区域的工作时钟为同相位倍频时钟。

8.根据权利要求6或7所述的装置，其特征在于，所述NoC各个区域的预期工作频率的计算公式为：

9.根据权利要求8所述的装置，其特征在于，所述公式一中参数A_n,t,r和B_n根据NoC性能测试结果进行拟合得到；

10.根据权利要求9所述的装置，其特征在于，所述公式一中参数A_n,t,r和B_n根据NoC性能测试结果进行拟合得到，包括：

其中，

11.一种CPU芯片，其特征在于，包括：处理器核心；

所述处理器核心，用于将片上网络NoC划分为两个以上互不交叠的区域，每个区域各自使用独立的工作时钟，每个区域包括至少一个路由单元RU；获取NoC各个区域的RU的工作状态数据；所述工作状态数据包括在最近一段时间窗口内RU中已缓存未转发的请求和响应数目；根据NoC各个区域的RU的数目、各个区域中每个RU在NoC拓扑中的位置、各个区域中每个RU中请求/响应的种类和所述工作状态数据，计算NoC各个区域的预期工作频率；将NoC各个区域的工作频率调整至所述预期工作频率。

12.一种服务器，其特征在于，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述服务器的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述权利要求1-5任一所述的方法。

13.一种CPU芯片，包括片上网络NoC、为所述NoC提供工作时钟的时钟模块、以及用于控制所述时钟模块的系统控制单元SCU，所述NoC包括若干路由单元RU，其特征在于，每个RU均包括未转发请求/响应统计模块和初级运算模块；所述SCU包括二级运算模块和时钟控制模块，其中：

其中，f_en表示预测的NoC第n个区域的工作频率，R表示NoC第n个区域中RU的数目，T表示NoC支持的请求和响应种类数目，Q_n,t,r表示第r个RU中第t类请求/响应的已缓存未转发数目，A_n,t,r表示第r个RU中第t类请求/响应的权值，B_n表示偏置参数。