CN107707582A

CN107707582A - 一种基于Host-Device架构的MapReduce计算方法

Info

Publication number: CN107707582A
Application number: CN201511035837.0A
Authority: CN
Inventors: 张京梅
Original assignee: Beijing Dian Zan Science And Technology Ltd
Current assignee: Beijing Dian Zan Science And Technology Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2018-02-16

Abstract

本发明公开一种基于Host‑Device架构的MapReduce计算方法，高密度计算服务器的总体计算节点包含有Host节点、Device节点，Host节点为服务器的主核心，Device节点为通过高速总线与Host进行交互的计算子节点；利用PCIe总线实现MapReduce算法，在物理传输上就有限于网络传输，PCIex8基本传输速率为16Gbps远高于1Gbps的网络架构，理论速度为其16倍，利用GPU算法优化Map函数，GPU资源的使用既可以有效释放CPU，同时其高度并行的计算方式使各种数学统计类算法、多媒体处理类算法得到重大加速提高，设计新颖，是一种很好的创新方案，很有市场推广前景。

Description

一种基于Host-Device架构的MapReduce计算方法

技术领域

本发明涉计算机数据处理领域，特别是涉及一种基于Host-Device架构的MapReduce计算方法。

背景技术

基于互联网的大数据计算分析架构方案，但其中也存在一些问题。主要体现在，1)数据处理的方式主要为离线处理，数据本身与计算实体之间存在物理间隔，并以网络联系。以Hadoop为例，其内部MapReduce架构建立在HDFS分布式存储之上，分布式存储以网络交换实现，因此这种框架很大程度上受限于网络和存储的IO速度。2)不适应新型高密度计算服务器的计算环境。这里描述的新型高密度计算服务器是指当下在一个4U或2U的机柜机箱内部存在多达数十个计算处理节点，其之间的链接既有网络形式，又可以有其他高速总线方式。其最大的特点就是数据存储和处理已经可以使用高速的线和内存来解决，在这种计算环境下传统的MapReduce大数据计算架构已经不再适合了。

综上所述，针对现有技术的缺陷，特别需要一种基于Host-Device架构的MapReduce计算方法，以解决现有技术的不足。

发明内容

针对现有技术中计算机数据处理中存在的不足，影响实际的处理效果，本发明提出一种基于Host-Device架构的MapReduce计算方法，设计新颖，以提高大数据分析的实时性、数据吞吐速，解决实效性问题，已解决现有技术的缺陷。

为了实现上述目的，本发明的技术方案如下：

一种基于Host-Device架构的MapReduce计算方法，高密度计算服务器的总体计算节点包含有Host节点、Device节点，Host节点为服务器的主核心，Device节点为通过高速总线与Host进行交互的计算子节点；

Host节点的任务：

c.服务器主CPU。；

d.负责所有Task作业的调度和管理；

提供对外所有扩展接口；

Device节点的任务；

e.服务器的辅助计算CPU或者GPU；

f.负责执行计算Host节点下发的计算任务；

g.其上部署嵌入式操作系统和MapReduce运行代理；

h.每个Device节点与Host节点之间通过高速总线连接。

进一步，每个高密度服务器是由一个Host节点加多个Device节点构成。

MapReduce计算方法的主要运行步骤：

a.向Master-Host节点提交User Program作业处理任务；

b.Host节点根据现有Device资源使用情况，分配执行任务的MapNode-Device节点和PCIe总线处理时隙；

c.Device节点通过PCIe总线获取待处理数据；

d.Device节点运算处理；

e.Device节点根据任务规则向Host节点提交任务结果及状态。

本发明的有益效果是：本产品利用PCIe总线实现MapReduce算法，在物理传输上就有限于网络传输，PCIe x8基本传输速率为16Gbps远高于1Gbps的网络架构，理论速度为其16倍，利用GPU算法优化Map函数，GPU资源的使用既可以有效释放CPU，同时其高度并行的计算方式使各种数学统计类算法、多媒体处理类算法得到重大加速提高，设计新颖，是一种很好的创新方案，很有市场推广前景。

附图说明

下面结合附图和具体实施方式来详细说明本发明：

图1为本发明的高密度服务器计算模型示意图。

图2为本发明的MapReduce原理架构示意图。

图3为本发明的HD-MapReduce架构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

参见图1、一种基于Host-Device架构的MapReduce计算方法，高密度计算服务器的总体计算节点包含有Host节点、Device节点，Host节点为服务器的主核心，Device节点为通过高速总线与Host进行交互的计算子节点；

Host节点的任务：

e.服务器主CPU。；

f.负责所有Task作业的调度和管理；

提供对外所有扩展接口；

Device节点的任务；

i.服务器的辅助计算CPU或者GPU；

j.负责执行计算Host节点下发的计算任务；

k.其上部署嵌入式操作系统和MapReduce运行代理；

1.每个Device节点与Host节点之间通过高速总线连接。

另外，每个高密度服务器是由一个Host节点加多个Device节点构成。

参见图2、图3针对高密度服务器本发明主要进行了以下方面技术创新：

a.编写了全新的底层总线交互驱动，以总线交换的方式取代了原有的网络交换方式，因为Host节点和Device节点之间是采用PCIe总线方式连接，与普通的采用网络连接方式实现的MapReduce架构在任务分配、数据传递中使用的资源是不同的，PCIe具有时分专用性，所以需要时间同步和定点指向，也就是说计算架构中的每个节点是采用PCIe总线方式进行进行获取数据及交换处理结果的，所以本方法实现了通过PCIe总线加载读取、交换数据的驱动模式，这样可以使得每个Node节点可以通过PCIe总线向Master节点请求获取处理数据，以及通过PCIe总线方式向Master提交reduce处理结果。

b.编写了全新的计算资源调度管理模块，以实现配合在单一Host节点下同时运行管理多个作业任务。总体规划中Host节点只有一个，在多任务处理时候每一个任务分到的Device计算资源是不确定的，同时调度需要综合处理整个服务器的性能。

c.在MapReduce架构中增加了对GPU计算支持的加速计算模块。如基于GPU的视频处理处理算法、基于GPU的图像处理算法，基于GPU的机器学习算法等。

要计算流程及理论速度对比：

a.向Master-Host节点提交User Program作业处理任务；

c.Device节点通过PCIe总线获取待处理数据；

d.Device节点运算处理；

e.Device节点根据任务规则向Host节点提交任务结果及状态。

本产品利用PCIe总线实现MapReduce算法，在物理传输上就有限于网络传输，PCIe x8基本传输速率为16Gbps远高于1Gbps的网络架构，理论速度为其16倍，利用GPU算法优化Map函数，GPU资源的使用既可以有效释放CPU，同时其高度并行的计算方式使各种数学统计类算法、多媒体处理类算法得到重大加速提高，设计新颖，是一种很好的创新方案，很有市场推广前景。

具有MapReduce并行计算吞吐量大，解决实时性问题，新型高密度计算服务器匹配等优点。

本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于Host-Device架构的MapReduce计算方法，其特征在于：高密度计算服务器的总体计算节点包含有Host节点、Device节点，Host节点为服务器的主核心，Device节点为通过高速总线与Host进行交互的计算子节点；

Host节点的任务：

a.服务器主CPU。；

b.负责所有Task作业的调度和管理；

提供对外所有扩展接口；

Device节点的任务；

a.服务器的辅助计算CPU或者GPU；

b.负责执行计算Host节点下发的计算任务；

c.其上部署嵌入式操作系统和MapReduce运行代理；

d.每个Device节点与Host节点之间通过高速总线连接。

2.根据权利要求1所述一种基于Host-Device架构的MapReduce计算方法，其特征在于：每个高密度服务器是由一个Host节点加多个Device节点构成。

3.根据权利要求1所述一种基于Host-Device架构的MapReduce计算方法，其特征在于：MapReduce计算方法的主要运行步骤：

a.向Master-Host节点提交User Program作业处理任务；

c.Device节点通过PCIe总线获取待处理数据；

d.Device节点运算处理；

e.Device节点根据任务规则向Host节点提交任务结果及状态。