CN110879753B

CN110879753B - 基于自动化集群资源管理的gpu加速性能优化方法和系统

Info

Publication number: CN110879753B
Application number: CN201911135767.4A
Authority: CN
Inventors: 梁猛; 陈彬; 戴传智
Original assignee: China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2024-04-05
Anticipated expiration: 2039-11-19
Also published as: CN110879753A

Abstract

本发明提供一种基于自动化集群资源管理的GPU加速性能优化方法和系统，方法包括S1：搭建多节点GPU环境、Spark集群和Hadoop集群；S2：利用移动运营商的家宽DNS xdr数据集，从外部Kafka推送，借助内部Flume接收，并入库到HDFS分布式文件系统；S3：读取HDFS数据；S4：GPU+Spark集群计算分析实现包括mapPartitions算子的操作，分析家宽DNS xdr数据中的指定业务逻辑；S5：把Spark程序提交到yarn集群上运行，将得到的分析结果存入HDFS；S6：利用指标监控工具监控CPU或GPU的指标。本发明1.自动化配置集群资源，无需在资源申请、资源分配、DAG生成、stage划分与任务执行等阶段引入对GPU资源的标识，继承了所有yarn和Spark的优点，避免单机HadoopHadoop/spark，Hadoop/spark开发的局限性。

Description

基于自动化集群资源管理的GPU加速性能优化方法和系统

技术领域

本发明涉及移动数据业务和分布式并行计算领域，更具体地，涉及一种基于自动化集群资源管理的GPU加速性能优化和系统。

背景技术

随着移动业务的不断发展，智能终端迅速普及、移动数据流量迅猛增长。当前每日产生的234G信令详单数据已超过300TB/天，当前海量信令数据处理主要基于X86服务器集群方式，受限于X86服务器CPU核数及集群规模的扩展可能性(投资受限、机房空间不足等因素)，为了提高移动业务数据的计算能力，研究基于自动化集群资源管理的GPU分布式并行计算性能优化的方法刻不容缓。

目前业界已知的解决方案有：

1.中国专利CN201710270400.8，一种基于Spark与GPU的并行计算系统该发明公开了一种基于Spark与GPU的并行计算框架系统。所述系统包括：(1)改进的资源管理平台，使其支持对GPU、CPU与内存等多维资源进行调度与管理；(2)改进的Spark分布式计算框架，使其支持对GPU型任务的调度与执行。该发明利用改进的资源管理平台和改进的Spark分布式计算框架实现了将Spark与GPU进行整合，使其能够有效的处理数据密集型与计算密集型作业，极大提高了作业处理效率。但是，该发明中的系统也存在一定的缺陷：其一，改进实施点较多，对于资源管理平台，包括了资源表示模型、资源调度模型、资源抢占模型、资源隔离机制及GPU设备的动态绑定机制的改进，对于Spark分布式计算框架，在资源申请、资源分配、DAG生成、stage划分与任务执行等阶段引入对GPU资源的标识，这些部分的改动比较复杂，需要耗费大量的人力成本；其二，系统改变了Yarn的资源管理平台和Spark的内核机制，扩展性较差。

2.中国专利CN201610942935.02，基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法

该发明公开了一种基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法。该方法主要包括：构建GPU计算分析框架和Hadoop/Spark计算分析框架，选择GPU或者Hadoop/Spark计算分析框架来处理实时或者离线的网络流量。该发明构建GPU计算分析框架和Hadoop/Spark计算分析框架，选择GPU或者Hadoop/Spark计算分析框架来处理实时或者离线的网络流量，可以有效地应对高速网络流量的实时或者离线统计分析处理，便于运营、维护、管理人员回溯分析数据。但是，该发明所述的GPU计算分析框架部署在装有GPU的单机节点上，并没有实现分布式的功能，导致当GPU的可用内存的大小小于或者等于两倍的网络流量数据的大小时，则必须采用Hadoop/Spark计算框架的分布式处理系统，具有很大的局限性。

发明内容

本发明的首要目的是提供一种基于自动化集群资源管理的GPU加速性能优化方法，使得GPU对分布式并行计算任务进行加速。

本发明的进一步目的是提供一种基于自动化集群资源管理的GPU加速性能优化系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于自动化集群资源管理的GPU加速性能优化方法，包括以下步骤：

S1：搭建多节点GPU环境、Spark集群和Hadoop集群；

S2：利用移动运营商的家宽DNS xdr数据集，从外部Kafka推送，借助内部Flume接收，并入库到HDFS分布式文件系统；

S3：读取HDFS数据；

S4：GPU+Spark集群计算分析实现包括mapPartitions算子的操作，分析家宽DNSxdr数据中的指定业务逻辑；

S5：把Spark程序提交到yarn集群上运行，将得到的分析结果存入HDFS；

S6：利用指标监控工具监控CPU或GPU的指标。

优选地，步骤S1中多节点GPU环境的搭建包括NVIDIA驱动、cuda的安装及相应的环境配置。

优选地，步骤S3中HDFS数据指HDFS中的家宽DNS xdr数据。

优选地，步骤S3中读取HDFS数据的主要字段有TCP/UDP流结束时间Procedure_End_Time、上行流量UL_Data、下行流量DL_Data、DNS响应码RCode、DNS请求重传次数DNSReq_Num、DNS请求响应时延Response_Time。

优选地，读取后的HDFS数据类型为RDD数据类型。

优选地，步骤S4中mapPartitions算子表示先将需要处理的RDD数据随机分为多个Partition，再对每个Partiton进行map函数操作，这样有助于提高算法的效率。

优选地，map函数具体过程为：

(1)将Partition里的RDD数据转化为Numpy类型数据，作为输入数据集；

(2)从host将数据拷贝到device上，其中host为CPU及其内存，而用device为GPU及其内存；

(3)为GPU核函数设置grid、block，GPU核函数在device上执行时启动多线程，一个GPU核函数所启动的所有线程称为一个grid，而grid又可以分为若干block，一个block里面包含若干线程；

(4)结合指定的业务逻辑编写GPU核函数，并在device上完成计算；

(5)从device将结果拷贝到host上。

优选地，block设置为256。

优选地，步骤S4中家宽DNS xdr数据中的常用业务逻辑有以下几种：

(1)上行流量；

(2)下行流量；

(3)DNS请求次数；

(4)DNS响应次数；

(5)DNS响应总时延；

(6)DNS成功总时延；

(7)DNS记录数。

一种基于自动化集群资源管理的GPU加速性能优化系统，权利要求1至9任一项所述的基于自动化集群资源管理的GPU加速性能优化方法应用于该GPU加速性能优化系统系统上，包括：

环境部署模块，环境部署模块包括GPU环境、Spark集群和Hadoop集群的搭建，并搭建多节点GPU环境；

数据集入库模块，数据集入库模块利用移动运营商的家宽DNS xdr数据集，从外部Kafka推送，借助内部Flume接收，并入库到HDFS分布式文件系统；

数据集提取模块，数据集提取模块完成读取HDFS数据；

GPU+Spark集群计算分析框架模块，GPU+Spark集群计算分析框架模块完成包括mapPartitions算子的操作，分析家宽DNS xdr数据中的指定业务逻辑；

结果入库模块，结果入库模块是把Spark程序提交到yarn集群上运行，将得到的分析结果存入HDFS分布式文件系统；

指标监控模块，指标监控模块利用指标监控工具监控CPU或GPU的指标。

与现有技术相比，本发明技术方案的有益效果是：

1.自动化配置集群资源，无需在资源申请、资源分配、DAG生成、stage划分与任务执行等阶段引入对GPU资源的标识

本发明所使用的GPU与Spark结合的方法是使用的一种外在的框架，这个GPU框架通过计算编译机制(JIT)优化python代码，可以针对本机的硬件环境进行优化，同时支持GPU的优化，只需要在函数上方加上相关的指令标记，并且编写相应的内核函数，无需在资源申请、资源分配、DAG生成、stage划分与任务执行等阶段引入对GPU资源的标识，并且也无需改变Yarn的资源管理平台和Spark的内核机制，继承Spark的原生优点，降低GPU与Spark结合的技术研究，释放人力去计算更深层次的业务，实现在不影响原生集群性能情况下，自动化配置集群资源。

2.利用yarn作为统一的资源管理，使用Spark作为底层的计算框架，继承了所有yarn和Spark的优点

本发明所使用的基于GPU对Spark进行加速的方法无需改变Yarn的资源管理平台和Spark的内核机制，利用yarn作为统一的资源管理，使用Spark作为底层的计算框架，继承了所有yarn和Spark的优点。

3.GPU计算分析框架部署在装有GPU的集群节点上，避免单机Hadoop/spark开发的局限性

本发明使用的GPU计算分析框架能够部署在装有GPU的集群节点上，并且能与Spark结合使用，Spark机制能自动识别GPU计算分析框架中的GPU算子计算，把Spark程序提交到yarn集群上运行，便间接实现了GPU的分布式集群计算。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的系统连接示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于自动化集群资源管理的GPU加速性能优化方法，如图1，包括以下步骤：

S1：搭建多节点GPU环境、Spark集群和Hadoop集群；

S3：读取HDFS数据；

S6：利用指标监控工具监控CPU或GPU的指标。

步骤S1中多节点GPU环境的搭建包括NVIDIA驱动、cuda的安装及相应的环境配置。

步骤S3中HDFS数据指HDFS中的家宽DNS xdr数据。

步骤S3中读取HDFS数据的主要字段有TCP/UDP流结束时间Procedure_End_Time、上行流量UL_Data、下行流量DL_Data、DNS响应码RCode、DNS请求重传次数DNSReq_Num、DNS请求响应时延Response_Time。

读取后的HDFS数据类型为RDD数据类型。

步骤S4中mapPartitions算子表示先将需要处理的RDD数据随机分为多个Partition，再对每个Partiton进行map函数操作。

map函数具体过程为：

(5)从device将结果拷贝到host上。

block设置为256。

步骤S4中家宽DNS xdr数据中的常用业务逻辑有以下几种：

(1)上行流量；

(2)下行流量；

(3)DNS请求次数；

(4)DNS响应次数；

(5)DNS响应总时延；

(6)DNS成功总时延；

(7)DNS记录数。

在具体实施过程中：

S1：在3台装有GTX GeForce1080Ti的服务器上进行环境部署，包括GPU环境、Spark集群和Hadoop集群的搭建，并将GPU计算分析框架搭建在装有GPU环境的多节点上。GPU环境的搭建包括NVIDIA驱动、cuda的安装及相应的环境配置。

S2：利用移动运营商的家宽DNS xdr数据集，从外部Kafka推送，借助内部Flume接收，并入库到HDFS分布式文件系统。

S3：读取HDFS中的家宽DNS xdr数据，并进行数据提取，提取的主要数据字段有TCP/UDP流结束时间Procedure_End_Time、上行流量UL_Data、下行流量DL_Data、DNS响应码RCode、DNS请求重传次数DNSReq_Num、DNS请求响应时延Response_Time。经提取后的数据类型为RDD数据类型。表1为提取数据字段的定义表。

表1提取数据字段定义表

S4：对S3中的RDD数据进行基于GPU的mapPartitions算子操作，mapPartitions算子是指先将需要处理的RDD数据随机分为多个Partition，再对每个Partiton进行map函数操作，这样有助于提高算法的效率。这里的map函数具体过程分为5步：

将Partition里的RDD数据转化为Numpy类型数据，作为输入数据集inp。

从host将数据拷贝到device上，其中在CUDA中，host和device是两个重要的概念，用host指代CPU及其内存，而用device指代GPU及其内存。

为GPU核函数设置grid、block，GPU核函数在device上执行时实际上是启动很多线程，一个GPU核函数所启动的所有线程称为一个grid，而grid又可以分为很多block，一个block里面包含很多线程。其中block设置为256，grid＝int((len(inp)+block-1)/block)。

结合指定的业务逻辑编写GPU核函数，并在device上完成计算。其中，指定的业务逻辑有：上行流量；下行流量；DNS请求次数；DNS响应次数；DNS响应总时延；DNS成功总时延；DNS记录数。

从device将结果拷贝到host上。

S5：把Spark程序提交到yarn集群上运行，将得到的分析结果存入HDFS分布式文件系统。

S6：指标监控工具监控CPU或GPU的指标。结果表明：使用GPU计算框架下的峰值GPU使用率达到66％，为Spark大数据计算的执行时间带来了20％～50％的提速。并且GPU框架计算的时间占主程序运行时间的1％，绝大部分时间浪费在线程内部通信(CPU与GPU交替)和数据的类型转化上面。

实施例2

本实施例提供一种基于自动化集群资源管理的GPU加速性能优化系统，其特征在于，实施例1所述的基于自动化集群资源管理的GPU加速性能优化方法应用于实施例2所述的GPU加速性能优化系统系统上，如图2，包括：

数据集提取模块，数据集提取模块完成读取HDFS数据；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于自动化集群资源管理的GPU加速性能优化方法，其特征在于，包括以下步骤：

S1：搭建多节点GPU环境、Spark集群和Hadoop集群；

S3：读取HDFS数据；

S4：GPU+Spark集群计算分析实现包括mapPartitions算子的操作，分析家宽DNS xdr数据中的指定业务逻辑；

S6：利用指标监控工具监控CPU或GPU的指标；

读取后的HDFS数据类型为RDD数据类型；

步骤S4中mapPartitions算子表示先将需要处理的RDD数据随机分为多个Partition，再对每个Partiton进行map函数操作；

map函数具体过程为：

(5)从device将结果拷贝到host上。

2.根据权利要求1所述的基于自动化集群资源管理的GPU加速性能优化方法，其特征在于，步骤S1中多节点GPU环境的搭建包括NVIDIA驱动、cuda的安装及相应的环境配置。

3.根据权利要求1所述的基于自动化集群资源管理的GPU加速性能优化方法，其特征在于，步骤S3中HDFS数据指HDFS中的家宽DNS xdr数据。

4.根据权利要求1所述的基于自动化集群资源管理的GPU加速性能优化方法，其特征在于，步骤S3中读取HDFS数据的主要字段有TCP/UDP流结束时间Procedure_End_Time、上行流量UL_Data、下行流量DL_Data、DNS响应码RCode、DNS请求重传次数DNSReq_Num、DNS请求响应时延Response_Time。

5.根据权利要求1所述的基于自动化集群资源管理的GPU加速性能优化方法，其特征在于，block设置为256。

6.根据权利要求1所述的基于自动化集群资源管理的GPU加速性能优化方法，其特征在于，步骤S4中家宽DNS xdr数据中的常用业务逻辑有以下几种：

(1)上行流量；

(2)下行流量；

(3)DNS请求次数；

(4)DNS响应次数；

(5)DNS响应总时延；

(6)DNS成功总时延；

(7)DNS记录数。

7.一种基于自动化集群资源管理的GPU加速性能优化系统，其特征在于，权利要求1至6任一项所述的基于自动化集群资源管理的GPU加速性能优化方法应用于该GPU加速性能优化系统系统上，包括：

数据集提取模块，数据集提取模块完成读取HDFS数据；