CN110069527A

CN110069527A - 一种面向数据库的gpu和cpu异构加速方法

Info

Publication number: CN110069527A
Application number: CN201910323990.5A
Authority: CN
Inventors: 段翰聪; 闵革勇; 赖立; 敖齐平; 冯杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-07-30
Anticipated expiration: 2039-04-22
Also published as: CN110069527B

Abstract

本发明公开了一种面向数据库的GPU和CPU异构加速方法，所述方法包括：当数据库需要对预设数据进行处理时，对预设数据进行位域切割处理，将预设数据切割为第一部分数据和第二部分数据，将第一部分数据传输给数据库中的GPU处理器进行处理，将第二部分数据传输给数据库中的CPU处理器进行处理；对于数据库中的同一个数据库算子，将该数据库算子分成GPU近似计算算子和CPU精确计算算子两种；将数据库需要处理的预设数据首先通过GPU近似计算算子进行筛选，对于筛选后的数据，使用CPU精确计算算子进行计算得到计算结果，本方法充分利用GPU对数据库执行器进行加速，并克服由于总线传输带宽和GPU显存有限导而致对GPU性能限制问题。

Description

一种面向数据库的GPU和CPU异构加速方法

技术领域

本发明涉及计算机领域中的数据库执行技术领域，具体地，涉及一种面向数据库的GPU和CPU异构加速方法。

背景技术

现有的数据库执行方法大多是基于CPU的，然而现代化的硬件设备越来越多样化。今天，单个机器可以包含几个不同的并行处理器，如多核CPU或GPU。这种多样性预计在未来几年将进一步增长，使数据库引擎准备好利用这种多样化的并行处理平台的能力将是未来数据库的主要挑战之一。显然单纯使用CPU以无法充分利用已有的计算器资源。

近年特别是对图形处理单元GPU的利用逐渐广泛。然而,目前的方法将GPU本身视为系统，未能为高效的CPU和GPU异构协作加速数据库提供通用方法由于其并行计算能力强大,GPU已被用于加速数据库。现行的主要方法是在GPU上有效实现经典关系运算符,以及在运行时选择GPU或CPU运算符。通常,GPU运算符通过缓慢的PCI-E总线传输其输入、处理它们、传输结果并可能缓存数据以供以后重用。虽然供应商简化了CPU和GPU通过"统一虚拟寻址"进行的传输,但对于PCI-E瓶颈,几乎无能为力。因此，只有在数据集大小适合GPU显存的情况下,此类方法才能获得良好的性能，但这通常不是常见情况。所以现行的GPU加速数据库的方法所发挥的GPU算力有限。

发明内容

本发明目的在于充分利用GPU对数据库执行器进行加速，并克服由于总线传输带宽和GPU显存有限导而致对GPU性能限制问题，提供一种有效的GPU加速数据库方法。

为实现上述发明目的，本申请提供了一种面向数据库的GPU和CPU异构加速方法，所述方法包括：

当数据库需要对预设数据进行处理时，对预设数据进行位域切割处理，将预设数据切割为第一部分数据和第二部分数据，将第一部分数据传输给数据库中的GPU处理器进行处理，将第二部分数据传输给数据库中的CPU处理器进行处理；

对于数据库中的同一个数据库算子，将该数据库算子分成GPU近似计算算子和CPU精确计算算子两种；将数据库需要处理的预设数据首先通过GPU近似计算算子进行筛选，对于筛选后的数据，使用CPU精确计算算子进行计算得到计算结果。

优选的，对预设数据进行位域切割处理时，首先需要判断预设数据的类型，并根据预设数据的类型分别采用对应的切割方式对数据进行切割处理。

优选的，当预设数据为unsigned char类型时，去除预设数据中的前面若干符号位为0的数据，获得剩下的nbit数据；对剩下的nbit数据进行均分，GPU处理器处理其中bit到n bit的数据，CPU处理器处理0bit到bit的数据。

优选的，当预设数据为int型数据，对预设数据的正负进行判断，当预设数据为正数时，去除预设数据中符号位为0的部分数据，并将剩下位数据均分为两份数据发送给GPU处理器和CPU处理器，在GPU处理器对应份数据bit前加上1bit用作符号位0，0表示正，1表示负；当预设数据为负数时，将预设数据转换成正数，并去除预设数据中符号位为0的部分数据，并将剩下位数据均分为两份数据发送给GPU处理器和CPU处理器，并在GPU处理器对应份数据前增添1bit用作符号位，符号位为1，表示负，符号位为0，表示正。

优选的，当预设数据为浮点型数据，切割位数应该大于等于指数，如果等于指数，意味着GPU处理浮点数的整数部分，CPU处理小数部分。如果大于指数，意味着GPU处理浮点数的整数和部分小数，CPU处理剩下的小数部分。切割的位数即是GPU和CPU处理位数的分界点，指数是指浮点数据中本身的概念，类似于科学计数法中的指数。浮点数的存储方式就是第一位表示符号位，之后8位为指数，余下的为基数。

优选的，对于数据库中的Fliter算子，则先使用GPU处理器控制数据中的高位得到GPU近似计算算子筛选的结果，再使用CPU精确计算算子得到计算结果，CPU处理器控制低位。GPU处理器控制高位(为一个存储数据偏左边的数，比如说十进制数12,1为高位，2为低位。对于二进制数一样，1001，左边的10是高位，右边的01是低位)，再使用CPU精确计算算子得到计算结果，CPU处理器控制低位。比如要筛选仅有3bit表示的数中大于等于5的数据，5用二进制表示就是101，假设通过要求9的切割策略得到GPU处理两位，CPU处理一位，那么在GPU中就只处理前两位，那么前两位为00和01的数据必然不可能大于5，直接过滤掉，而前两位为11的数据必然大于5，只有前两位为10的数据才需要进一步交由CPU细化比较，若最后一位是0，有CPU过滤掉，是1则通过。

优选的，对于数据库中的Group算子，若需要对预设数据进行处理时，先使用GPU近似计算Group算子对高位(为一个存储数据偏左边的数，比如说十进制数12,1为高位，2为低位。对于二进制数一样，1001，左边的10是高位，右边的01是低位)进行分组，获得预设数据的分组结果；使用CPU精确计算Group算子按照低位(为一个存储数据偏右边的数)对分组后的数据继续进行细化分组。

优选的，对于数据库中的对于Join算子，若需要对预设数据进行处理时，Hash表使用一种双层机制，第一次Hash时使用GPU近似计算Join算子处理部分bit，将其散列到第一层的Hash桶中；在每个第一层Hash桶中，进行第二次细化Hash，第二次Hash时使用CPU精确计算Join算子处理剩余部分bit，映射到第二层Hash桶中；当两次Hash均命中数据库中的缓存数据时，则认为Hash均命中数据库中的缓存数据。

优选的，当数据库需要对预设数据进行处理时，对预设数据进行位域切割处理，根据预设数据的类型、数据所表示的值域范围值域、算子类型、CPU处理器数量、GPU处理器数量、显卡的显存大小，使用最小二乘法、决策树、启发算法、强化学习来确定位域的切割点。具体的切割策略本质上是一种优化方法，可以使用强化学习算法进行优化。现将前面的各种变量量化、归一化、再使用无监督的强化学习算法得到较好的切割策略。根据切割策略最后得到运行时间，运行时间短是一个正向激励，运行时间长是一个负向激励，运行时间作为一个reward来反馈到算法模型中，根据强化学习算法理论，reward会自动对算法模型进行调优，得到一个稳定的优化结果，也就是我们的切割策略。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明克服了前述的现有技术仅仅使用CPU来执行数据库算子的局限性，引入GPU来大大加速数据库执行的效率。

并提出了基于位域切割的办法来缓解GPU显存有限以及总线带宽有限的问题，提出了位域切割的指导思想，并提供了几种具体得出位域切割点的思路，提出了配套的逻辑计划优化策略的指导思想，进一步提高了数据库执行效率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中unsigned char类型数据的位域切割示意图；

图2是本申请中使用GPU近似计算算子和CPU精确计算算子进行筛选和精确计的示意图；

图3是本申请中SQL执行计划示意图；

图4是本申请中使用GPU近似算子和CPU精确算子后的执行计划示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本方法使用位域切割解决总线和显存瓶颈，提高GPU利用率。GPU近似计算不使用所有的数据位，仅仅使用局部位，如图1所示。以一个unsigned char类型为例，其他数值类型使用类似的方法。忽略前面无用的4个0，在剩下的4bit数据中，如果采用CPU、GPU均分的方法，GPU处理其中较高的2bit，CPU处理较低的2bit。这意味着原本需要通过总线传递给GPU 8bit，现在只需要传递给GPU 2bit，极大地减轻了总线压力，也意味着每次GPU并行计算可以装载更多的数据，过滤更多数据。

A)如果是一个int型数据，我们需要区分其正负，对于正数，要消除前面无用的0，对于负数，消除前面无用的1。具体做法如下：a、对于正数，先去除无效的0，剩下位均分给GPU和CPU，最后在GPU的那一份bit前加上1bit用作符号位0，0表示正，1表示负。b、对于负数，先转换成正数，再去除无效的0，剩下位均分给GPU和CPU，再在GPU的那部分数据前增添1bit用作符号位，符号位为1，表示负。

B)如果是一个浮点型数据，切割位数应该大于等于指数，如果等于指数，意味着GPU处理浮点数的整数部分，CPU处理小数部分。如果大于指数，意味着GPU处理浮点数的整数和部分小数，CPU处理剩下的小数部分。

本方法对于同一个数据库算子，分成GPU近似计算算子和CPU精确计算算子两种。先将海量数据通过GPU进行快速筛选，之后再将结果通过CPU进行精确计算，得到正确的结果。如图2所示。

A)对于一个Fliter算子，要选出小于2的所有数据，先使用GPU选出所有小于4的数据，GPU控制1位再使用CPU得到精确结果，CPU控制最后两位。

B)对于一个Group算子，先使用GPU近似Group算子对高位进行分组，此时同一组里面可能还能继续分组，但不同组之间必然不会有相同的组，再使用CPU精确Group算子按照低位对GPU分好的组继续进行分组细化。

C)对于Join算子。主要考虑Hash Join的情况，Hash表使用一种双层机制，第一次Hash使用GPU部分bit，在每个Hash桶中，进行第二次Hash，第二次Hash使用CPU部分的bit。只有两级Hash都命中才命中。使用GPU近似Join算子进行第一级Hash，命中的数据反馈给CPU精确Join算子进行精确匹配。

本方法使用位域切割策略。通常情况下的切割方案是先去除前面无效的0，在剩下的bit中平分给GPU和CPU。但是这通常不是最优的切割方案，GPU算子处理的位数越多，结果越精确，但是对总线压力更大，效率更低。GPU算子处理的位数越少，结果越模糊，但是速度越快。最优的位域切割点取决于：要处理的数据类型、值域、算子类型、CPU数量、GPU数量、显存大小、总线速率……可以使用最小二乘法、决策树、启发算法、强化学习等更好地来确定位域的切割点。

本方法采用基于异构算子逻辑计划优化策略。算子改变势必会导致逻辑计划的改变，GPU近似算子会往下沉，而CPU精确算子往上提。通过这种逻辑计划优化方案在GPU中过快速滤掉绝大部分数据。

如：SQL语句：

select t1,t2,sum(t2.c3)

from t1,t2

where t1.c2＝t2.c2

group by t1.c2

having sun(t2.c3)>＝10；

步骤一：对SQL语句进行词法分析、语法分析……生成执行计划,如图3所示。

步骤二：扫描执行计划，对可以优化的算子修改成先使用GPU近似算子，再使用CPU精确算子。得到新的执行计划如图4所示。可以看到GPU近似算子总是在CPU精确算子下面，因为我们期望通过GPU过滤掉绝大部分数据。需要说明的是CPU和GPU并不是串行工作的，图4只是未分裂执行计划，通过执行计划分裂，CPU和GPU都是并行工作的。

步骤三：按照新的执行计划分配算子，进行执行。具体执行步骤如下：

A、两个scan算子分别对t1和t2两张表进行扫表。得到的数据进行位切割，将GPU处理的位数发送给GPU，完整数据发送给CPU；

B、GPU Join按照本发明方法进行一级Hash，筛去不符合条件的数据，将符合条件的数据发送给下一级的CPU Join算子；

C、CPU Join进行精确Hash，得到正确的结果后传给下一个算子。将数据进行位切割，将GPU处理的数据发送给GPU Group算子，完整数据发送给CPU Group；

D、GPU Group算子按照本发明的方法进行初步分组，结果发送给CPU Group算子；

E、CPU Group算子进行精确的分组，结果发送给下一个Fliter算子；数据进行位切割，GPU处理的数据发送给GPU算子，完整数据发送给CPU算子；

F、GPU Fliter按照本发明的方法进行初步过滤，符合条件的数据发送给CPUFliter进行精确筛选；

G、CPU Fliter进行精确筛选后得到正确结果；

H、Project算子将结果显示出来。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向数据库的GPU和CPU异构加速方法，其特征在于，所述方法包括：

2.根据权利要求1所述的面向数据库的GPU和CPU异构加速方法，其特征在于，对预设数据进行位域切割处理时，首先需要判断预设数据的类型，并根据预设数据的类型分别采用对应的切割方式对数据进行切割处理。

3.根据权利要求2所述的面向数据库的GPU和CPU异构加速方法，其特征在于，

当预设数据为unsigned char类型时，去除预设数据中的前面若干符号位为0的数据，获得剩下的nbit数据；对剩下的nbit数据进行均分，GPU处理器处理其中到n bit的数据，CPU处理器处理0bit到的数据。

4.根据权利要求2所述的面向数据库的GPU和CPU异构加速方法，其特征在于，当预设数据为int型数据，对预设数据的正负进行判断，当预设数据为正数时，去除预设数据中符号位为0的部分数据，并将剩下位数据均分为两份数据发送给GPU处理器和CPU处理器，在GPU处理器对应份数据bit前加上1bit用作符号位0，0表示正，1表示负；当预设数据为负数时，将预设数据转换成正数，并去除预设数据中符号位为0的部分数据，并将剩下位数据均分为两份数据发送给GPU处理器和CPU处理器，并在GPU处理器对应份数据前增添1bit用作符号位，符号位为1，表示负，符号位为0，表示正。

5.根据权利要求2所述的面向数据库的GPU和CPU异构加速方法，其特征在于，当预设数据为浮点型数据，切割位数大于或等于指数；若如果切割位数等于指数，则GPU处理器处理浮点数的整数部分，CPU处理器处理小数部分；若如果切割位数大于指数，则GPU处理器处理浮点数的整数和部分小数，CPU处理器处理剩下的小数部分。

6.根据权利要求1所述的面向数据库的GPU和CPU异构加速方法，其特征在于，对于数据库中的Fliter算子，则先使用GPU处理器控制数据中的高位得到GPU近似计算算子筛选的结果，再使用CPU精确计算算子得到计算结果，CPU处理器控制低位。

7.根据权利要求1所述的面向数据库的GPU和CPU异构加速方法，其特征在于，对于数据库中的Group算子，若需要对预设数据进行处理时，先使用GPU近似计算Group算子对数据高位进行分组，获得预设数据的分组结果；使用CPU精确计算Group算子按照数据低位对分组后的数据继续进行细化分组。

8.根据权利要求1所述的面向数据库的GPU和CPU异构加速方法，其特征在于，对于数据库中的对于Join算子，若需要对预设数据进行处理时，Hash表使用一种双层机制，第一次Hash时使用GPU近似计算Join算子处理部分bit，将其散列到第一层的Hash桶中；在每个第一层Hash桶中，进行第二次细化Hash，第二次Hash时使用CPU精确计算Join算子处理剩余部分bit，映射到第二层Hash桶中；当两次Hash均命中数据库中的缓存数据时，则认为Hash均命中数据库中的缓存数据。

9.根据权利要求1所述的面向数据库的GPU和CPU异构加速方法，其特征在于，当数据库需要对预设数据进行处理时，对预设数据进行位域切割处理，根据预设数据的类型、数据所表示的值域范围值域、算子类型、CPU处理器数量、GPU处理器数量、显卡的显存大小，使用最小二乘法、决策树、启发算法、强化学习来确定位域的切割点。