CN107861689B

CN107861689B - 一种芯片面积与功耗优化方法及系统

Info

Publication number: CN107861689B
Application number: CN201711078974.1A
Authority: CN
Inventors: 李易; 李涵; 张�浩; 吴冬冬; 范东睿
Original assignee: Beijing Zhongke Ruixin Intelligent Computer Industrial Research Institute Co ltd
Current assignee: Shanghai Ruiwu Technology Co ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2021-03-05
Anticipated expiration: 2037-11-06
Also published as: CN107861689A

Abstract

本发明提供一种芯片面积与功耗优化方法及系统，其中，芯片面积与功耗优化方法包括如下步骤：对寄存器单个时钟周期有多少读写进行分析；如果所述寄存器单个时钟周期里的读写少量时，进行SRAM规格选择；将所述寄存器替换成SRAM；进行数据读同步。本发明可以有效的降低处理器的面积和功耗，同时对性能影响不大，整体提高了处理器的性能功耗比。

Description

一种芯片面积与功耗优化方法及系统

技术领域

本发明涉及芯片设计和结构优化领域，特别涉及一种芯片面积与功耗优化方法及系统。

背景技术

随着计算机体系结构的发展，领域专用的计算机体系结构成为主要发展趋势.在面向特定应用时，专用型结构利用应用特征对结构进行相应的优化，从而更好地发挥出硬件的计算性能。在高性能计算领域，数据流计算是领域专用计算结构的一个重要分支，数据流计算表现出了较好的性能和适用性。

目前数据流结构处理器芯片集成大量存储单元，这些存储单元事先存储需要执行的指令、数据和控制信息，这样可以避免频繁访问内存，提高执行效率，但是需要付出大量存储的代价。对于一款数据流结构处理器，其中存储所占的面积占一大部分，并且一个处理器芯片面积是有限制的，这样留给其他逻辑功能的面积不多。造成这种原因，是由于寄存器结构存储单元使用方便，与SRAM存储结构相比，其在读写独立性和速度上具有很好优势，因此目前数据流结构处理器不少存储单元使用寄存器结构，从而使其存储所占面积不小。

一般寄存器是指由基本的RS触发器结构衍生出来的D触发器构成的，而D触发器就是由一些与非门构成的结构，而SRAM则有自己的工艺，一般1Bit由6个MOS管构成，所以这两者的物理结构不一样也导致了两者的性能不同。寄存器访问速度快，但是所占面积大，而SRAM相反，所占面积和功耗要低些，可以做成大些存储器，但访问速度相对慢一点。处理器里的逻辑处理单元里面包含寄存器，比如加法执行单元ALU，也有用寄存器专门用来储存数据的情况，比如说移位寄存器数组(shift寄存器ister array)，但是它们的存储容量通常非常小，因为几个KB大小的寄存器的占用面积就是相当惊人的。这两种存储结构除了以上区别外，还有在存储单元独立性上的区别，寄存器可以按位存取，而且每一位都可以独立存取。对于一块SRAM,读写端口受限，一般是单写单读，并且读写一次的数据量通常是几十到几百Bit,所以比同等存储大小寄存器的带宽要小。

但是在目前数据流结构处理器和一些异构计算加速处理器中，有的存储采取寄存器结构，比如指令存储模块，但是由于这些处理器中执行单元受限，无法一个时钟周期内执行大量指令，而是往往只能执行几条指令，而指令存储模块存储了成百上千条指令，所以并没有充分利用寄存器独立读的特点，对于使用寄存器是一种浪费，也是对芯片宝贵的面积资源浪费，由于面积与功耗成正比关系，所以也造成功耗浪费。

因此，如何将上述问题加以解决，而研究出一种芯片面积与功耗优化方法，即为本领域技术人员的研究方向所在。

发明内容

本发明的主要目的是提供一种芯片面积与功耗优化方法及系统，以解决上述现有技术中所存在的问题。

为了达到上述目的，本发明提供一种芯片面积与功耗优化方法，，包括如下步骤：

对寄存器单个时钟周期有多少读写进行分析；

如果所述寄存器单个时钟周期里的读写少量时，进行SRAM规格选择；

将所述寄存器替换成SRAM；

进行数据读同步。

较佳的实施方式，在对寄存器单个时钟周期有多少读写进行分析的步骤中是分析所述寄存器单个时钟周期里有多少读写，并确定读写是否为少量。

较佳的实施方式，在进行SRAM规格选择方法的步骤中，通过选择多个不同SRAM的规格，用以组成寄存器的规格大小。

较佳的实施方式，根据寄存器的规格，选择对应的SRAM的规格，规格是A×B的形式，其中A代表存储行数，B代表每行存储的位宽。

较佳的实施方式，选择规格A和B接近的SRAM。

较佳的实施方式，在将所述寄存器替换成SRAM的步骤中，将所述SRAM扩展成多个相同的SRAM,所述多个相同的SRAM存储的数据始终保持一致。

较佳的实施方式，在进行数据读同步的步骤中，是通过增加寄存器级数进行同步控制。

较佳的实施方式，所述SRAM读数据是2个时钟周期时，需增加1级寄存器进行同步。

较佳的实施方式，所述进行数据读同步包括如下子步骤：

通过对SRAM和寄存器写数据，对SRAM和寄存器里面的基本存储单元进行初始化；

对SRAM和寄存器发送读请求；

寄存器和SRAM响应读请求的第一个时钟周期后，把读出的数据存到同步寄存器中等待一个时钟周期；

寄存器和SRAM响应读请求的第二个时钟周期后，输出读请求对应的数据，数据读同步。

本发明还提供一种芯片面积与功耗优化系统，包括：

读写请求模块，所述读写请求模块用于对寄存器单个时钟周期有多少读写进行分析；

存储模块，所述存储模块用于进行SRAM规格选择，将部分寄存器替换成SRAM；

数据同步模块，所述数据同步模块用于将读出寄存器和SRAM的数据同步。与现有技术相比，本发明的有益效果在于：

本发明根据寄存器和SRAM之间的优缺点，提出将寄存器替换成SRAM的方法，该方法分析处理器寄存器特点，满足读写端口少的情况下，可以将寄存器替换成等效的SRAM，同时提出了对应的数据读同步逻辑，确保了替换后功能正确性。本发明可以有效的降低处理器的面积和功耗，同时对性能影响不大，整体提高了处理器的性能功耗比。

附图说明

图1为本发明一种芯片面积与功耗优化系统的的实例结构图；

图2为本发明寄存器128X128替换多个SRAM128X128过程；

图3为本发明替换为多个SRAM128X128的整体存储结构；

图4为本发明数据读同步流程(给寄存器和SRAM写数据后状态)；

图5为本发明数据读同步流程(给寄存器和SRAM读请求状态)；

图6为本发明数据读同步流程(寄存器和SRAM响应读请求第一时钟周期后状态)；

图7为本发明数据读同步流程(寄存器和SRAM响应读请求第二时钟周期后状态)。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，为本发明一种芯片面积与功耗优化系统的实例结果示意图，本发明的一种芯片面积与功耗优化系统包括：读写请求模块、存储模块和数据同步模块。读写请求模块主要功能是解析读写请求，把请求分别给寄存器和SRAM读写控制模块，并对寄存器单个时钟周期有多少读写进行分析，其中给组合SRAM0-n的写数据是保持一致，而读请求是独立的。存储模块的主要功能是如果所述寄存器单个时钟周期里的读写少量时，进行SRAM规格选择，将部分寄存器替换成SRAM，因此，包括两部分，一部分是寄存器存储，另一部分是SRAM存储，其中组合SRAM0-n存储结构一样，都是由多种规格小SRAM组合而成。数据读同步模块负责将同时对寄存器和SRAM读数据，组合SRAM0-n的读数据是独立的，因为SRAM0-n的读请求是独立的。由于读SRAM花的时钟周期多，所以在寄存器后面加上同步延迟寄存器，这样就可以保持读出寄存器和SRAM的数据是同步的。

本发明的一种芯片面积与功耗优化方法，包括以下步骤：

步骤S1，对寄存器单个时钟周期有多少读写进行分析，本步骤是在决定将寄存器结构存储替换成SRAM结构存储之前，分析这些寄存器单个时钟周期里有多少读写，只有读写少量的时候，才具有替换的优势，原因是同等存储规格的寄存器的面积比SRAM大十倍以上，并且在读写多的情况下，采用替换的SRAM需要多个读写端口，从而所需的面积也会比较大，这样就没有优势。

步骤S2，如果所述寄存器单个时钟周期里的读写少量时，进行SRAM规格选择，本步骤是当确定所述寄存器单个时钟周期里的读写少量时后，将寄存器结构存储替换成SRAM结构存储，需要根据寄存器的规格，选择对应的SRAM的规格，规格是A×B的形式，其中A代表存储行数，B代表每行存储的位宽。SRAM的规格里A和B大小一般为2的倍数，而寄存器的规格大小不一定，所以需要通过选择多个不同SRAM的规格，用以组成寄存器的的规格大小。

同时本发明选择方法会优选选择规格A和B接近的SRAM，因为A与B相等的SRAM面积优化最好。对单时钟周期读写多的寄存器，还需特殊选择SRAM的规则，通过多个SRAM交错存储增加读写端口。

步骤S3：将寄存器替换成SRAM，本步骤根据上述步骤S2选择出的多种规格SRAM，将其组合构建成一个与需要替换寄存器同样规格的SRAM，这种新的SRAM存储容量与替换的寄存器一样，但是读写端口数量不一样，寄存器的读写端口往往比SRAM多，所以还需将新的SRAM进行扩展，就是将该SRAM扩展成多个相同的SRAM,这些SRAM存储的数据始终保持一致，通过这种方式，可以弥补SRAM端口少的缺点，但是会成倍增加面积消耗，因此在步骤S1中，可行性分析说明该发明的优化方法目标对读写端口少的寄存器，虽然扩展SRAM会增加一些面积，只要扩展倍数不大，其带来的面积优势还是很明显。由于要保持这些SRAM数据保持一致，因此需要一些一致性控制读写。

步骤S4：进行数据读同步，在步骤S3中，将寄存器替换成SRAM后，会造成读数据速度降低，从而会引起数据同步问题，此时需要增加数据同步控制逻辑。主要通过增加寄存器级数进行同步控制，如果读SRAM数据需要a个时钟周期，而读寄存器数据需要1个时钟周期，则需要在寄存器存储模块后面增加(a-1)个寄存器与SRAM存储模块进行读同步，但是增加寄存器级数会提高读数据时间。本发明主要优化目标是众核处理器，由于众核处理器普遍主频不高，所以SRAM读数据通常是2个时钟周期，只需增加1级寄存器进行同步。对于数据流处理器，有众多流水线控制，这样可以掩盖多增加的时间，对性能影响不大。

如图2所示，为本发明寄存器128X128替换多个SRAM128X128过程，以下通过一写端口三读端口的寄存器128X128实例介绍替换SRAM的过程：

步骤S11：首先对图2中一写端口三读端口的寄存器128X128(标记为101)进行替换可行性分析，可以发现该寄存器读写端口偏少，改造成SRAM具有不少面积优化优势；

步骤S21：根据128X128规格的寄存器选择SRAM的规格，由于对于底层SRAM库中没有128X128规格的SRAM，所以采用4个64X64规格的SRAM，原因是规格A和B相等时，这个时候组合的面积最小，例如64X4规格的SRAM面积就比16X16规格大。组合后SRAM结构如图1中102所示，通过图中的4个64X64规格的SRAM组合得到,组合的SRAM存储容量与被替换的寄存器容量一样；

步骤S31：通过图2中102结构发现此时读端口只有1个，而替换前的寄存器具有3个读端口，此时需要将图2中102扩展三份，具体结构如S103所示。扩展后的SRAM具有3个独立的读端口，但是也有3写端口，对于这三个写端口，写数据保持一致，而读请求独立，因为写数据保持一致可以保证这三份SRAM中数据始终存储一致。对比替换前的寄存器结构和扩展后SRAM的结构，可以得出这两种结构在逻辑上完全等价，具有相同的功能；

步骤S41：构建完所需的SRAM结构，则需要搭建对应的数据读写请求模块和数据读同步模块，具体搭建如图3所示。

以下在图3结构基础上，介绍数据读同步的过程，同时说明数据读写操作是如何在新的组合SRAM上进行的，其中假设该实例中SRAM需要花两个时钟读数据,具体过程如下：

步骤411：通过对SRAM和寄存器写数据，对SRAM和寄存器里面的基本存储单元进行初始化，具体如图4所示，由于这三块SRAM同时写数据，并且写的数据一样，可以发现三块组合SRAM的存储一样。组合的SRAM的规格为128X128,因此对组合SRAM写一次数据的大小为128bit,而组合SRAM里只有64X64规格的，所以需要把这128bit的写数据拆成两部分，分别写入两个64X64规范的SRAM中，如图中202和205数据为一个128bit整体数据，且这两个数据分别在两块SRAM中存储；

步骤412：对SRAM和寄存器发送读请求，具体如图5所示，对寄存器读数据201，对第一块组合SRAM读数据202与205，对第二块组合SRAM读数据203与206，对第三块组合SRAM读数据204与207。图中对三块组合SRAM都有读情况，但是读请求不一样，因为这三块组合SRAM读数据是独立的，也是与寄存器128X128的三个读端口功能匹配；

步骤413：寄存器和SRAM响应读请求的第一个时钟周期后，具体如图6所示，由于寄存器读速度快，因此只用花一个时钟周期读出数据，并把读出的数据存到同步寄存器中等待一个时钟周期。由于假设该实例SRAM读数据需要两个时钟周期，因此此时三块组合SRAM还在读取数据中，还无法输出读请求对应的数据；

步骤414：寄存器和SRAM响应读请求的第二个时钟周期后，具体如图7所示，此时三块组合SRAM完成各自读请求操作，输出读请求对应的数据，其中SRAM输出时将两个64bit的数据合并成128bit的数据，因此这些SRAM具有读写128bit数据的功能，与替换前寄存器128X128一样。暂存在同步寄存器(延迟)中的数据此时也读到连接同步寄存器(合并)的连线上，这样所有的读数据在同步寄存器(合并)处集合，达到数据读同步的目的。

以上即是如何替换寄存器结构为SRAM结构的过程及数据读同步的过程。

综上所述，本发明的优化方法是将芯片内部寄存器结构存储单元替换成等效的SRAM静态随机存取结构存储单元，由于这两种存储单元数据处理速度存在差异，因此本发明也提出对应的数据同步方法。该发明优化对象是存储结构为寄存器结构，在某些情况下，该存储结构没有充分利用寄存器读特性，从而造成使用寄存器是一种浪费，因为在同等存储大小下，寄存器所占的面积比SRAM结构大的多，并且功耗也是相同效果，因此用SRAM替换寄存器具有很大的收益。由于SRAM速度比寄存器慢，同时读写端口非常少，本发明对这两种不足提出了相应的解决办法。对于速度问题，本发明提出相应数据同步机制；对于读写端口少，本发明提出多SRAM备份存储。在使用这些解决办法同时会增加一些面积和功耗，但是总体上比之前结构有不小的面积和功耗优化，并且对性能影响很小，从而提高芯片性能功耗比。

与现有技术相比，本发明的有益效果在于：

本发明根据寄存器和SRAM之间的优缺点，提出将寄存器替换成SRAM的方法，该方法分析处理器寄存器特点，满足读写端口少的情况下，可以将寄存器替换成等效的SRAM，同时提出了对应的数据读同步逻辑，确保了替换后功能正确性。该发明可以有效的降低处理器的面积和功耗，同时对性能影响不大，整体提高了处理器的性能功耗比。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种芯片面积与功耗优化方法，其特征在于，包括如下步骤：

对寄存器单个时钟周期有多少读写进行分析；

将所述寄存器替换成SRAM；

进行数据读同步。

2.根据权利要求1所述的一种芯片面积与功耗优化方法，其特征在于，在对寄存器单个时钟周期有多少读写进行分析的步骤中是分析所述寄存器单个时钟周期里有多少读写，并确定读写是否为少量。

3.根据权利要求1所述的一种芯片面积与功耗优化方法，其特征在于，在进行SRAM规格选择方法的步骤中，通过选择多个不同SRAM的规格，用以组成寄存器的规格大小。

4.根据权利要求3所述的一种芯片面积与功耗优化方法，其特征在于，根据寄存器的规格，选择对应的SRAM的规格，规格是A×B的形式，其中A代表存储行数，B代表每行存储的位宽。

5.根据权利要求4所述的一种芯片面积与功耗优化方法，其特征在于，选择规格A和B接近的SRAM。

6.根据权利要求1所述的一种芯片面积与功耗优化方法，其特征在于，在将所述寄存器替换成SRAM的步骤中，将所述SRAM扩展成多个相同的SRAM,所述多个相同的SRAM存储的数据始终保持一致。

7.根据权利要求1所述的一种芯片面积与功耗优化方法，其特征在于，在进行数据读同步的步骤中，是通过增加寄存器级数进行同步控制。

8.根据权利要求7所述的一种芯片面积与功耗优化方法，其特征在于，所述SRAM读数据是2个时钟周期时，需增加1级寄存器进行同步。

9.根据权利要求1所述的一种芯片面积与功耗优化方法，其特征在于，所述进行数据读同步包括如下子步骤：

对SRAM和寄存器发送读请求；

10.一种芯片面积与功耗优化系统，其特征在于，包括：

数据同步模块，所述数据同步模块用于将读出寄存器和SRAM的数据同步。