CN113055125B

CN113055125B - 面向gpu数据传输的低能耗分组编码方法

Info

Publication number: CN113055125B
Application number: CN202110254219.4A
Authority: CN
Inventors: 章铁飞
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-05-20
Anticipated expiration: 2041-03-09
Also published as: CN113055125A; AU2021102878A4

Abstract

为降低自DRAM到GPU的数据传输能耗，克服现有技术的不足，本发明提供一种面向GPU数据传输的低能耗分组编码方法。本发明按二进制数0000～1111中的逻辑值1数量，将原始数据按4bit为基本单位划分为不同的分组，统计每个分组中的基本单元数量，并根据不同分组的数量及关系，采用分组值替换编码方法，进一步降低传输数据中逻辑值1的数量，达到降低传输能耗的目的。本发明方法简单，编码涉及的计算量少，代价低；相比于已有的技术，本发明更有利于挖掘原始数据中的能耗优化空间，进一步减少原始数据中逻辑值1的数量，最大限度地降低数据传输能耗。

Description

面向GPU数据传输的低能耗分组编码方法

技术领域

本发明涉及一种由DRAM往GPU发送数据的分组编码方法，目的是降低数据传输能耗。

背景技术

大数据背景下，为应对各种应用对算力的需求，GPU逐渐成为计算机系统中最主要的计算单元。为支持GPU的高速计算，DRAM要保持高带宽的数据传输，比如GDDR5X DRAM接口要提供高达14Gbps的带宽，导致DRAM与GPU之间的数据传输能耗持续增加，并且增加的幅度远大于传输数据带宽的增加幅度。

当前的DRAM与GPU数据传输接口，在电源与传输通道之间设有连接电阻。当传输通道为低电压时，静态电流由电源流经电阻，产生大量的静态能耗；当传输通道为高电压时，无静态电流，因此无静态能耗。传输通道的高低电压，分别代表不同的传输数据值：高电压代表逻辑值0，而低电压代表逻辑值1。因此传输数据中逻辑值1数量较多时，意味着低电压出现频繁，消耗的静态能耗大。要降低静态电流导致的静态能耗，就要减少传输数据中逻辑值1的数量。

DRAM与GPU采用并行数据线传输数据，线宽为32bit，数据块大小为32Bytes，合计256bits，意味着每个数据块需要8次传输，才能将数据块发送完毕。传统的动态反转编码技术统计32bit中逻辑值0与1的比例，如果其中1的占比较大，则反转整个传输数据，将原值为1的逻辑值变换为0，原值为0的逻辑值变换为1，由此降低逻辑值1的数据传输量。接收端收到后，再进行一次反转，即可恢复原始数据。如果原始数据中1的占比大，则不进行反转操作，就按原始数据传输。传统的动态反转编码技术存在诸多不足，每次反转收益有限；另外大多数情况下，原始传输数据中0和1值数量接近，动态反转编码作用有限。

发明内容

本发明的目的是降低自DRAM往GPU的数据传输能耗，克服现有技术的不足，提出一种面向GPU数据传输的低能耗分组编码方式。本发明按二进制数0000～1111中的逻辑值1数量，将原始数据按4bit为基本单位划分为不同的分组，统计每个分组中的基本单元数量，并根据不同分组的数量及关系，采用分组值替换编码方法，进一步降低传输数据中逻辑值1的数量，达到降低传输能耗的目的。

本发明解决上述问题所采用的技术方案是：面向GPU数据传输的低能耗分组编码方法，其特征在于如下步骤：

将0000到1111的16个连续的4位二进制数划分为A、B、C和D四组；每组的数据按从小到大排序；A组包含0000，0001，0010和0100，其中逻辑值1数量共计为3；B组包含1000，0011，0101和0111，其中逻辑值1数量共计为8；C组包含0110，1001，1010和1100，其中逻辑值1的数量共计为8；D组包含1011，1101，1110和1111，其中逻辑值1的数量共计为13。

传输数据的基本大小为32Bytes，按每4个连续bit从低位到高位划分为64个基本单元，每个单元的值落在0000至1111之间，A、B、C和D每个分组中的基本单元已知，按序统计落在每个分组中的单元数量为n_A、n_B、n_C和n_D，满足64＝n_A+n_B+n_C+n_D。

根据n_A、n_B、n_C和n_D的大小，进行值替换的基本步骤包括：

步骤1：统计得到n_A、n_B、n_C和n_D的数值，并从小到大排序为n₁、n₂、n₃、n₄；

步骤2：取n_i，i＝1～4对应分组的逻辑值1的数量(k₁,k₂,k₃,k₄)，k_i的取值范围为{3,8,8,13}；

步骤3：如果k₁！＝3，而k_i＝3，其中i＝2,3,4；则k_i与k₁各自对应的分组进入值替换决策步骤5；

步骤4：如果k₄！＝13，而k_j＝13，其中j＝2,3；如果步骤3中的i不等于4，则k_j与k₄各自对应的分组进入值替换决策步骤5；

步骤5：对于考虑值替换的两个分组f_i与f_j，其中i<j，组f_i与组f_j取值范围{组A,组B,组C,组D}；满足条件n_j>＝n_i+2，则执行步骤6值替换，否则不进行值替换，退出；

步骤6：组f_i中的4位二进制数(a₁,a₂,a₃,a₄)按序与组f_j中的4位二进制数(b₁,b₂,b₃,b₄)交换值，即原来组f_i中的a₁替换为组f_j中的b₁，而组f_j中的b₁替换为组f_i中的a₁，剩余的元素依次同样的操作。

数据发送端完成分组之间的值替换后，再产生对应的信号值；如果原始数据未进行任何值替换操作，信号值设置为000；如果仅组A与组B数值替换，信号值设置为001；如果仅组A与组C值替换，信号值设置为010；如果仅组B与组D值替换，信号值设置为100；如果仅组C与组D值替换，信号值设置为011；如果组A与组B值替换，同时组C与组D值替换，信号值设置为101；如果组A与组C值替换，同时组B与组D值替换，信号值设置为110；如果仅组A与组D值替换，信号值设置为111。值替换后的数据与信号值发往接收端，接收端收到数据后，根据信号值的不同，采取与发送端同样的分组值替换操作，恢复原始数据。

本发明与现有技术相比，具有以下优点和效果：本发明方法简单，编码涉及的计算量少，代价低；相比于已有的技术，本发明更有利于挖掘原始数据中的能耗优化空间，进一步减少原始数据中逻辑值1的数量，最大限度地降低数据传输能耗。

附图说明

图1是本发明DRAM和GPU数据发送与接收的结构图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，本实施例中的面向GPU数据传输的低能耗分组编码方法，包括如下步骤：

每Byte数据包含8位二进制数，由两个4位二进制数构成。每个4位二进制数的取值范围是0000～1111。根据每个值包含逻辑值1的数量，将所有值划分为4个组：A组，B组，C组和D组。每个组中数值按从小到大排列。其中A组包含0000，0001，0010和0100，共计包含逻辑值1数量为3；其中B组包含1000，0011，0101和0111，共计包含逻辑值1数量为8；组C包含0110，1001，1010和1100，共计包含逻辑值1的数量为8；组D包含1011，1101，1110和1111，共计包含逻辑值1的数量为13。

传输数据块的大小为32Bytes，按每4个连续bit从低位到高位划分为64个基本单元，每个单元的值落在0000至1111之间，A、B、C和D每个分组中的基本单元已知，按序统计落在每个分组中的单元数量为n_A、n_B、n_C和n_D，满足64＝n_A+n_B+n_C+n_D。

为降低传输数据过程中的逻辑值1数量，需要根据n_A、n_B、n_C和n_D的大小，按序进行值替换。如果组A和组B中的数值按序值替换，即组A中的数值按序变换为组B中的数值，组B中的数值按序成为组A中的数值。原始传输数据中的数值0000，经过组A和组B之间的数值按序替换，变换为1000，而原始传输数据中的数值1000，则变换为0000。数据接收端接收经过值替换的数据后，再采用反值替换操作，恢复为原始数据。如果组D的n_D数值很大，而组A的n_A很小，那么组A和组D之间进行值替换后，可以极大地降低原始传输数据中逻辑值1的数量。

根据n_A、n_B、n_C和n_D的大小，进行值替换的基本步骤如下：

步骤1：统计得到n_A、n_B、n_C和n_D的数值，并按从小到大排序为n₁、n₂、n₃、n₄；

步骤3：如果k₁！＝3，而k_i＝3，其中i＝2,3,4；则k_i与k₁各自对应的分组执行值替换决策步骤5；

步骤4：如果k₄！＝13，而k_j＝13，其中j＝2,3；如果步骤3中的i不等于4，则k_j与k₄各自对应的分组执行值替换决策步骤5；

步骤6中组A按0000，0001，0010，0100的顺序，按序分别与组B中的0111，1000，0011和0101交换值；组A按0000，0001，0010，0100的顺序，按序分别与组C中的0110，1001，1010和1100交换值；组A按0000，0001，0010，0100的顺序，按序分别与组D中的1111，1011，1101和1110交换值；组B按1000，0011，0101和0111的顺序，按序分别与组D中的1111，1011，1101和1110交换值；组C按0110，1001，1010和1100的顺序，按序分别与组D中的1111，1011，1101和1110交换值。

图1中的发送端完成原始数据的值替换操作，将值替换信息采用编码后的信号值发送给接收端。所有的值替换编码方式见表1。数据发送端完成分组之间的值替换后，再产生对应的信号值。如果原始数据未进行任何值替换操作，信号值设置为000；如果仅组A与组B数值替换，信号值设置为001；如果仅组A与组C值替换，信号值设置为010；如果仅组B与组D值替换，信号值设置为100；如果仅组C与组D值替换，信号值设置为011；如果组A与组B值替换，同时组C与组D值替换，信号值设置为101；如果组A与组C值替换，同时组B与组D值替换，信号值设置为110；如果仅组A与组D值替换，信号值设置为111。

序号	编码	信号值
			0	不进行值替换	000
1	仅AB值替换	001
			2	仅AC值替换	010
3	仅CD值替换	011
			4	仅BD值替换	100
5	AB值替换，CD值替换	101
			6	AC值替换，BD值替换	110
7	仅AD值替换	111

表1值替换编码

信号值与值替换后的数据先后发往接收端，接收端根据接收到的信号值，判断数据的值替换方式，并采用与发送端同样的值替换操作，即表1的值替换编码方式，恢复原始数据。为降低信号值发送代价，发送端采用单次多发信号值的方式，分摊每个信号值的发送成本。由于DRAM与GPU之间的线宽为32bit，每个信号值占据3bit，因此每次的传输数据最多容纳10个信号值。发送端对缓存的每10个数据块，按数据块执行分组值替换操作，获得共计10组信号值并一次性发送到接收端，然后按序依次发送每个数据块，共计发送次数80。相比于直接发送数据，采用分组值替换编码的方式，每81次数据发送中存在1次信号值发送的代价，代价率为1.25％。传统的动态反转编码方式，不仅需要额外的硬件布线，而且每次发送数据时，需要发送信号值，相比之下，本方法1.25％的发送代价低。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所作的举例说明。凡依据本发明专利构思所述的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.面向GPU数据传输的低能耗分组编码方法，其特征在于：将0000到1111的16个连续的4位二进制数划分为A、B、C和D四组；每组的数据按从小到大排序；A组包含0000，0001，0010和0100，其中逻辑值1数量共计为3；B组包含1000，0011，0101和0111，其中逻辑值1数量共计为8；C组包含0110，1001，1010和1100，其中逻辑值1的数量共计为8；D组包含1011，1101，1110和1111，其中逻辑值1的数量共计为13；GPU传输数据的基本大小为32Bytes，按每4个连续bit从低位到高位划分为64个基本单元，每个单元的值落在0000至1111之间，A、B、C和D每个分组中的基本单元已知，按序统计落在每个分组中的单元数量为n_A、n_B、n_C和n_D，满足64＝n_A+n_B+n_C+n_D；再根据n_A、n_B、n_C和n_D的大小，进行值替换的基本步骤包括：

步骤5：对于考虑值替换的两个分组f_i与f_j，其中i＜j，组f_i与组f_j取值范围{组A,组B,组C,组D}；满足条件n_j＞＝n_i+2，则执行步骤6值替换，否则不进行值替换，退出；

2.根据权利要求1所述的面向GPU数据传输的低能耗分组编码方法，其特征在于：值替换基本步骤6中，组A按0000，0001，0010，0100的顺序，按序分别与组B中的0111，1000，0011和0101交换值；组A按0000，0001，0010，0100的顺序，按序分别与组C中的0110，1001，1010和1100交换值；组A按0000，0001，0010，0100的顺序，按序分别与组D中的1111，1011，1101和1110交换值；组B按1000，0011，0101和0111的顺序，按序分别与组D中的1111，1011，1101和1110交换值；组C按0110，1001，1010和1100的顺序，按序分别与组D中的1111，1011，1101和1110交换值。

3.根据权利要求1所述的面向GPU数据传输的低能耗分组编码方法，其特征在于：数据发送端完成分组之间的值替换后，再产生对应的信号值；如果原始数据未进行任何值替换操作，信号值设置为000；如果仅组A与组B数值替换，信号值设置为001；如果仅组A与组C值替换，信号值设置为010；如果仅组B与组D值替换，信号值设置为100；如果仅组C与组D值替换，信号值设置为011；如果组A与组B值替换，同时组C与组D值替换，信号值设置为101；如果组A与组C值替换，同时组B与组D值替换，信号值设置为110；如果仅组A与组D值替换，信号值设置为111。

4.根据权利要求1所述的面向GPU数据传输的低能耗分组编码方法，其特征在于：值替换后的数据与信号值先后发往接收端，接收端收到数据后，根据信号值的不同，采取基本步骤6中同样的值替换操作，恢复原始数据。