CN107341057A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN107341057A
CN107341057A CN201710554490.3A CN201710554490A CN107341057A CN 107341057 A CN107341057 A CN 107341057A CN 201710554490 A CN201710554490 A CN 201710554490A CN 107341057 A CN107341057 A CN 107341057A
Authority
CN
China
Prior art keywords
data processing
calculate node
processing request
selection
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710554490.3A
Other languages
English (en)
Inventor
宋书涛
吴韶华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710554490.3A priority Critical patent/CN107341057A/zh
Publication of CN107341057A publication Critical patent/CN107341057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种数据处理方法及装置,上述方法包括以下步骤:控制设备获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;所述计算节点对所述数据处理请求进行处理。上述技术方案中,通过根据计算节点负载特征信息进行数据处理请求分配,实现了各计算节点间的负载均衡,系统设备利用率高,且不同计算节点彼此相互不等待,系统中计算节点不出现空闲状态,整个系统将实现高效运转。

Description

一种数据处理方法及装置
技术领域
本发明属于高性能计算领域,尤其涉及一种数据处理方法及装置。
背景技术
随着人工智能技术不断发展,相继出现了caffe、tensorflow、cntk等深度学习框架,但是在扩展性方面,有的不支持多机、有的扩展性很差,但是越来越大的数据量与越来越复杂的深度学习网络对深度学习框架的扩展性提出越来越高的要求。
基于caffe的深度学习框架,存在当前服务器计算机系统计算网络带宽不足、内存带宽和容量小等问题,无法对较大规模数据进行处理。
发明内容
本发明提供一种数据处理方法及装置,以解决上述问题。
本发明提供一种数据处理方法,包括以下步骤:控制设备获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;
所述计算节点对所述数据处理请求进行处理。
本发明提供一种数据处理装置,包括:控制设备、多个计算节点;其中,所述控制设备与所述多个计算节点连接;
控制设备,用于获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;
所述计算节点,用于对所述数据处理请求进行处理。
本发明实施例提供的技术方案:控制设备获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;所述计算节点对所述数据处理请求进行处理。
上述技术方案中,通过根据计算节点负载特征信息进行数据处理请求分配,实现了各计算节点间的负载均衡,系统设备利用率高,且不同计算节点彼此相互不等待,系统中计算节点不出现空闲状态,整个系统将实现高效运转。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的数据处理方法流程图;
图2所示为本发明实施例2的CPU+GPU集群拓扑结构图;
图3所示为本发明实施例3的并行化架构图;
图4所示为本发明实施例4的数据处理装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的数据处理方法流程图,包括以下步骤:
步骤101:控制设备获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;
进一步地,所述负载特征信息包括:预设时段内存平均利用率、预设时段CPU平均利用率。
其中,控制设备获取数据处理请求后,选择所述预设时段内存平均利用率小于第一预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点对所述数据处理请求进行处理。
其中,控制设备获取数据处理请求后,选择所述预设时段CPU平均利用率小于第二预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点对所述数据处理请求进行处理。
由此可知:集群系统中各计算节点间实现负载均衡,系统设备利用率高,不同计算节点可以实现计算均衡,彼此相互不等待,系统中计算节点不出现空闲状态,整个集群系统将实现高效运转。
本发明实施例扩展到多台服务器上,能够处理较大规模的图像数据,并实现集群系统的计算节点间、计算节点内的计算,从而最大限度的利用CPU+GPU的性能,提高系统的整体运行效率,大大缩短程序的运行时间。
步骤102:所述计算节点对所述数据处理请求进行处理。
进一步地,所述计算节点对所述数据处理请求进行处理后,将处理结果传输至所述控制设备或存储设备。
进一步地,所述计算节点内部的多个图形处理单元GPU之间通过信息传递应用程序接口函数进行通信。
其中,所述信息传递应用程序接口函数为MPI_Allreduce函数。
下面对本发明方案进行详细说明:
本发明提供了一种数据处理系统,包括:
计算集群系统,包括CPU+GPU集群系统,IB高速网络以及远程直接数据存取技术即RDMA技术,本发明在充分利用CPU+GPU的硬件的基础上,实现了深度学习框架即Caffe框架的CPU+GPU多节点集群平台的加速;
存储系统,该系统分共享存储系统和本地存储系统,计算集群共享一个存储系统即共享存储系统,控制系统拥有自己的本地存储系统。共享存储系统存储大规模计算数据,控制系统存储参数数据及计算结果数据;
高速网络,用于连接集群中计算节点,计算节点可以互相实现高速通信;
RDMA技术,GPU卡与卡直连技术,实现高速通信。
本发明实施例通过高速网络将计算集群中的计算节点、控制设备及存储设备连接,组成集中式的集群系统,控制设备控制计算节点,并对计算节点进行统一调度。可以实现数据的统一分配,同时在此系统上通信传输与并行计算的异步执行,提高了系统的整体的运行效率,满足了高性能应用的要求,改变算法,充分利用CPU+GPU平台的硬件技术,提出了一种充分利用高速网络的Caffe深度学习框架的加速技术。
本发明实施例具有一定的扩展性,每个GPU独立处理图片,只是在权值数据更新时需要相互通信。所以该发明实施例的并行度是非常高的,具有一定的扩展性。
本发明实施例的主要贡献在于Caffe深度学习框架的并行化上,通过加入MPI通信技术,实现了Caffe深度学习框架的并行化,最终得到了Caffe深度学习框架的多机版本。
本发明实施例是运行在CPU+GPU集群平台上,其中CPU+GPU集群拓扑结构如图1所示,从图中可以看出,整个集群系统采用文件共享系统共享文件,计算节点之间通过告诉通信网络连接,实现了计算节点之间的RDMA技术。
本发明的并行化架构如图2所示,首先MPI程序启动,在每个节点上开启一个进程来控制当前节点CPU+GPU设备,每个节点内部通过开启多线程控制GPU卡来参与计算,在计算过程中,卡与卡之间前后向计算是独立的,只是在权值数据更新的时候需要MPI_Allreduce函数来通信数据,在Allreduce过程中通过RDMA技术实现了告诉网络通信。
图4所示为本发明实施例4的数据处理装置结构图,包括:控制设备、多个计算节点;其中,所述控制设备与所述多个计算节点连接;
控制设备,用于获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;
所述计算节点,用于对所述数据处理请求进行处理。
进一步,控制设备,还用于获取数据处理请求后,选择所述预设时段内存平均利用率小于第一预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点,用于对所述数据处理请求进行处理。
进一步地,控制设备,用于获取数据处理请求后,选择所述预设时段CPU平均利用率小于第二预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点,用于对所述数据处理请求进行处理。
本发明实施例提供的技术方案:控制设备获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;所述计算节点对所述数据处理请求进行处理。
上述技术方案中,通过根据计算节点负载特征信息进行数据处理请求分配,实现了各计算节点间的负载均衡,系统设备利用率高,且不同计算节点彼此相互不等待,系统中计算节点不出现空闲状态,整个系统将实现高效运转。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括以下步骤:
控制设备获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;
所述计算节点对所述数据处理请求进行处理。
2.根据权利要求1所述的方法,其特征在于,负载特征信息包括:预设时段内存平均利用率、预设时段CPU平均利用率。
3.根据权利要求2所述的方法,其特征在于,控制设备获取数据处理请求后,选择所述预设时段内存平均利用率小于第一预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点对所述数据处理请求进行处理。
4.根据权利要求2所述的方法,其特征在于,控制设备获取数据处理请求后,选择所述预设时段CPU平均利用率小于第二预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点对所述数据处理请求进行处理。
5.根据权利要求1所述的方法,其特征在于,所述计算节点对所述数据处理请求进行处理后,将处理结果传输至所述控制设备或存储设备。
6.根据权利要求5所述的方法,其特征在于,所述计算节点内部的多个图形处理单元GPU之间通过信息传递应用程序接口函数进行通信。
7.根据权利要求6所述的方法,其特征在于,所述信息传递应用程序接口函数为MPI_Allreduce函数。
8.一种数据处理装置,其特征在于,包括:控制设备、多个计算节点;其中,所述控制设备与所述多个计算节点连接;
控制设备,用于获取数据处理请求后,根据各个计算节点负载特征信息,将所述数据处理请求分配至对应的计算节点;
所述计算节点,用于对所述数据处理请求进行处理。
9.根据权利要求8所述的装置,其特征在于,控制设备,还用于获取数据处理请求后,选择所述预设时段内存平均利用率小于第一预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点,用于对所述数据处理请求进行处理。
10.根据权利要求8所述的装置,其特征在于,控制设备,用于获取数据处理请求后,选择所述预设时段CPU平均利用率小于第二预设值的计算节点,将所述数据处理请求分配至选择的计算节点;
所述选择的计算节点,用于对所述数据处理请求进行处理。
CN201710554490.3A 2017-07-07 2017-07-07 一种数据处理方法及装置 Pending CN107341057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710554490.3A CN107341057A (zh) 2017-07-07 2017-07-07 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710554490.3A CN107341057A (zh) 2017-07-07 2017-07-07 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN107341057A true CN107341057A (zh) 2017-11-10

Family

ID=60218466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710554490.3A Pending CN107341057A (zh) 2017-07-07 2017-07-07 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107341057A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096367A (zh) * 2019-05-14 2019-08-06 宁夏融媒科技有限公司 一种基于多gpu的全景实时视频流处理方法
CN111159078A (zh) * 2019-12-30 2020-05-15 联想长风科技(北京)有限公司 一种电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753461A (zh) * 2010-01-14 2010-06-23 中国建设银行股份有限公司 实现负载均衡的方法、负载均衡服务器以及集群系统
US20110208696A1 (en) * 2010-02-25 2011-08-25 Pang Youlun Temporary session data storage
CN102469126A (zh) * 2010-11-10 2012-05-23 中国移动通信集团公司 一种应用调度系统、方法和相关装置
CN103617086A (zh) * 2013-11-20 2014-03-05 东软集团股份有限公司 一种并行计算方法及系统
CN105007337A (zh) * 2015-08-20 2015-10-28 浪潮(北京)电子信息产业有限公司 集群系统负载均衡的方法和系统
CN105049509A (zh) * 2015-07-23 2015-11-11 浪潮电子信息产业股份有限公司 一种集群调度方法、负载均衡器以及集群系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753461A (zh) * 2010-01-14 2010-06-23 中国建设银行股份有限公司 实现负载均衡的方法、负载均衡服务器以及集群系统
US20110208696A1 (en) * 2010-02-25 2011-08-25 Pang Youlun Temporary session data storage
CN102469126A (zh) * 2010-11-10 2012-05-23 中国移动通信集团公司 一种应用调度系统、方法和相关装置
CN103617086A (zh) * 2013-11-20 2014-03-05 东软集团股份有限公司 一种并行计算方法及系统
CN105049509A (zh) * 2015-07-23 2015-11-11 浪潮电子信息产业股份有限公司 一种集群调度方法、负载均衡器以及集群系统
CN105007337A (zh) * 2015-08-20 2015-10-28 浪潮(北京)电子信息产业有限公司 集群系统负载均衡的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096367A (zh) * 2019-05-14 2019-08-06 宁夏融媒科技有限公司 一种基于多gpu的全景实时视频流处理方法
CN111159078A (zh) * 2019-12-30 2020-05-15 联想长风科技(北京)有限公司 一种电子设备
CN111159078B (zh) * 2019-12-30 2022-05-06 联想长风科技(北京)有限公司 一种电子设备

Similar Documents

Publication Publication Date Title
CN110134495B (zh) 一种容器跨主机在线迁移方法、存储介质及终端设备
CN105391797B (zh) 基于sdn的云服务器负载均衡方法及装置
Alam et al. Issues and challenges of load balancing algorithm in cloud computing environment
CN108111586A (zh) 一种高并发支持的web集群系统及方法
US11005925B2 (en) Load balancing with power of random choices
CN103441918A (zh) 一种自组织集群服务器系统及其自组织方法
Dhurandher et al. A cluster-based load balancing algorithm in cloud computing
Sami et al. Fscaler: Automatic resource scaling of containers in fog clusters using reinforcement learning
US20220121928A1 (en) Enhanced reconfigurable interconnect network
CN105117292A (zh) 随机扩散动态负载均衡方法
CN107463448A (zh) 一种深度学习权值更新方法和系统
CN109729113A (zh) 管理专用处理资源的方法、服务器系统和计算机程序产品
Zhang et al. Effect: Energy-efficient fog computing framework for real-time video processing
Kanwal et al. A genetic based leader election algorithm for IoT cloud data processing
Convolbo et al. DRASH: A data replication-aware scheduler in geo-distributed data centers
CN107341057A (zh) 一种数据处理方法及装置
Xu et al. Online learning algorithms for offloading augmented reality requests with uncertain demands in MECs
Salehnia et al. SDN-based optimal task scheduling method in Fog-IoT network using combination of AO and WOA
CN104104736A (zh) 一种云服务器及其使用方法
CN106209683B (zh) 基于数据中心广域网的数据传输方法及系统
US20150127799A1 (en) Hierarchical distribution of control information in a massively scalable network server
CN108540407A (zh) 一种大数据平台中Spark Streaming接收器动态配置方法及装置
CN105046393A (zh) 基于云计算的交通资源管理系统
US20160006617A1 (en) Cloud application bandwidth modeling
Li et al. Progressive forwarding disaster backup among cloud datacenters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171110