CN106850628A - 一种基于mpi的广域高性能计算网络优化方法 - Google Patents

一种基于mpi的广域高性能计算网络优化方法 Download PDF

Info

Publication number
CN106850628A
CN106850628A CN201710071227.9A CN201710071227A CN106850628A CN 106850628 A CN106850628 A CN 106850628A CN 201710071227 A CN201710071227 A CN 201710071227A CN 106850628 A CN106850628 A CN 106850628A
Authority
CN
China
Prior art keywords
mpi
modules
protocol
renewal
wide area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710071227.9A
Other languages
English (en)
Inventor
赵海涛
唐紫浩
沈箬怡
于洪苏
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710071227.9A priority Critical patent/CN106850628A/zh
Publication of CN106850628A publication Critical patent/CN106850628A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/26Special purpose or proprietary protocols or architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于MPI的广域高性能计算网络优化方法,包括如下步骤:创建SCTP‑CMT协议块;将所述STCP‑CMT作为代替TCP协议的模块移植到MPI组件架构的PTL模块中;将更新后的MPI协议栈更新至MPI组件架构;基于更新后的MPI特性,在MPI组件架构的PML模块中创建SCM模块,对更新后的MPI组件架构起到管理作用;对OPEN MPI结构内部的上层接口进行调整,使其兼容新的框架模型。本发明通过在MPI协议栈中使用SCTP并行多路径传输技术扩展协议代替TCP协议,继而与OPEN MPI相结合,提出了一种新的OPEN MPI框架模型。本发明对于高性能计算网络的多宿主特性提供了端到端的高效通信,减少了高性能网络中集群处理器之间不必要的通信,可以达到较小的通信时延、较高的频带利用率以及提高通信的可靠性。

Description

一种基于MPI的广域高性能计算网络优化方法
技术领域
本发明属于通信领域,涉及基于MPI的广域高性能网络在智能交通系统中应用的技术,具体涉及一种基于MPI的广域高性能计算网络优化方法。
背景技术
随着社会经济的快速发展,我国交通建设的规模及交通系统的复杂性也迅速增加,尤其近几年城市人口增多,汽车数量持续增加,与此同时带来的交通问题也越来越突出,利用智能交通系统解决日益严重的交通问题越来越受到国内外政府、专家的重视。所谓智能交通系统,是将先进的信息技术、数据通讯传输技术、电子传感技术、电子控制技术以及计算机处理技术等有效地集成运用于整个交通运输管理体系,而建立起的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合运输和管理系统,它通过对传统交通系统进行变革,提升交通系统的信息化、智能化、集成化和网络化,从而保障人、车、路与环境之间的相互交流,进而提高交通系统的效率、机动性、安全性、可达性、经济性,达到保护环境,降低能耗的作用。
目前,我国有关智能交通系统的各类交通运输管理主体分散在不同地区与主管部门,呈现出条块分割的现象。涉及交通的“有关部门”超过10个,每个部门都有自己的信息化系统,且这些数据信息只存在于垂直业务和单一应用中,与邻近业务系统需要通过大型智能交通系统网络进行共通联动。据调查报告可知,在各城市区域的智能交通系统中时时刻刻有大量的安全信息和车辆状态数据进行传输,数据总量水平在GB/S级别,这些数据需要在全国车联网层面、车辆调度、交警监控系统分析等应用中共享,结合智能交通系统本身强调数据的实时性、计算的高性能的特点,对网络传输性能、数据存储性能、数据分析处理性能都会提出很高的要求。智能交通系统通信网的广域网络部分以SDH系统为主,各级异构网接入的汇聚网部分以太网技术为主,端到端的数据网以TCP/IP为主,构成了以太网+SDH的TCP/IP网络解决方案,大量的研究和测试表明,与高速、高性能计算网络相比,这样一个网络方案在带宽、时延和稳定性方面与充分发挥智能交通系统作用的需求差距很大。高性能计算通常是指并行计算,使用多处理器或者几台计算机集群通过高带宽、低延时的异构网络互联,具有紧密耦合的特性。这些能够在集群主机之间提供极高通信性能的网络称之为高性能计算网络。目前高性能计算网络技术主要的应用场景是数据中心的计算机集群网络,因此应用在智能交通系统环境下可以充分发挥网络的高性能特点。高性能网络中紧密耦合的集群和并行处理器是通过广域网络进行连接,在跨越广域网进行通信时,若使高性能计算网络这种分布式系统高效运行,则通信链路的同步问题需要得到有效的解决。
对于高性能计算网络的系统特性,通常所用的编程范式是采用MPI(MessagePassing Interface)标准(消息传递接口),MPI对种类繁多的并行计算体系结构的便捷式编程提供了基础。目前MPI在广域网的实施主要依赖于TCP,大多数如MPICH-G2、PACX-MPI、FT-MPI、LAM-MPI等MPI模式要实现广域网的分布式计算环境都是通过TCP建立的。但是在智能交通系统系统采用高性能计算网络在广域网中使用基于TCP的MPI协议栈会引起的典型问题就是具有很大的延迟效应以及对可用带宽的频带利用率较低,进而导致进程运行拖延,影响数据的发送与接收。另一个突出的问题是可拓展性,TCP的协议报头不支持对多宿主主机同时建立连接,从而MPI应用程序需要建立大量的TCP连接(1对1的Socket套接字)来与应用程序中的其它进程进行通信,这就会导致操作系统需要维持大量的socket描述符从而影响到系统的整体性能。在MPI应用程序的协议栈上用UDP来代替TCP的问题上有各种方法已经被提出。当广域网中传输的信息数据跨越多个网络接口时,使用UDP也可以通过信息分段化来达到容错率。UDP是一种无连接的传输层协议,可以避免在TCP中存在的”报头过重”引起的延迟较大问题,从而来达到更好的性能。但是,UDP是提供面向事务的简单不可靠信息传送服务,如果在报头增加了可靠性,这种优势荡然无存。因此我们认为智能交通系统使用高性能计算网络在广域网环境下通信时,TCP和UDP并不能与MPI应用程序很好地兼容。
Open MPI是在LAM/MPI,LA-MPI,and FT-MPI的基础上的一种全新的基于构件概念的MPI实现,是基于MPI上开发的一种高性能消息传递库,突出的优点是它的模块化结构更易于集成新的模块,同时支持多路径、多宿主的信息流传递。在OPEN MPI点到点通信系统框架中,有两个主要模块是PTL(Point-to-point Transport Layer)和PML(Point-to-pointManagement Layer)分别对应不同的功能。此外它还内置TEG(点到点通信容错模块),可以最大限度地提高网络带宽的频带利用率。SCTP(Stream Control Transmission Protocol,流量控制传输协议)作为一个传输层协议,已经由IETF标准化,采用定向消息传输机制。SCTP兼有TCP及UDP两者的特点,支持多宿主连接,且一个SCTP连接(Association)同时可以支持多个流(stream),每个流包含一系列用户所需的消息数据(chunk),从而这些特性使它们能在计算机集群中使用。在网络安全方面,SCTP也增加了防止恶意攻击的措施。SCTP继承了TCP较为完善的拥塞控制功能并改进了TCP的一些不足之处,可以看作是TCP的改进协议。SCTP由于在报文设计时充分的考虑了可扩展性,且SCTP的多宿性也为CMT(ConcurrentMultipath Transfer,多路径并行传输)提供了可能。STCP-CMT是在SCTP基础上提出并行多路径传输(CMT)机制,利用SCTP的多宿特性,完善了SCTP在实际中应用的不足。更适合满足高性能计算网络的分布式系统特性。
针对上述在智能交通系统采用高性能计算网络在广域网中使用基于TCP的MPI协议栈会引起的延迟效应、频带利用率较低,进程运行拖延和可拓展性等问题,现在技术中还没有披露过相关的有效解决方法。
发明内容
本发明的目的在于改善智能交通系统中各个子区域大量车辆通信数据应用高性能计算网络在广域网通信时的高延时和可用带宽的频带利用率较低等问题。
为达到上述目的,本发明提出的技术方案是一种基于MPI的广域高性能计算网络优化方法,包括如下步骤:
步骤1:创建SCTP-CMT协议块;
步骤2:将所述STCP-CMT作为代替TCP协议的模块移植到MPI组件架构的PTL模块中;
步骤3:将更新后的MPI协议栈更新至MPI组件架构;
步骤4:基于更新后的MPI特性,在MPI组件架构的PML模块中创建SCM模块,对更新后的MPI组件架构起到管理作用;
步骤5:对OPEN MPI结构内部的上层接口进行调整,使其兼容新的框架模型。
进一步,步骤1中,创建SCTP-CMT协议块具体包括调用MPI_INIT程序,完成程序所有初始化工作,设置内部传输协议为SCTP-CMT,建立起运行的环境。
进一步,步骤2中,将STCP-CMP移植到MPI组件架构的PTL模块中具体包括:在文件系统中定位检查点映像文件,并根据MPI任务使用的STCP-CMP协议块,重新建立每个MPI任务的PTL模块,最后调用cr_restart函数恢复任务的执行,当MPI任务从cr_checkpoint函数的调用点返回时,可以通过PTL模块获取新的任务信息,并通过环境变量中定义的参数和作业管理系统建立连接。
步骤3中,将更新后的MPI协议栈更新至MPI组件架构具体包括:在更新MPI协议栈阶段所有的任务都需要通过登记新的通信资源消息,然后使用PML接口在任务间进行同步更新。
步骤4中,创建SCM模块具体包括:更新后的MPI协议栈初始化后,使用MPI库函数提供的MPI_COMM_WORLD函数,其包括使用更新协议后的所有进程,在原有通信域管理的基础上,定义新的SCM模块。
步骤5中,对OPEN MPI结构内部的上层接口进行调整具体包括:调用MPI_Comm_rank函数来标识各个MPI进程,给出调用该函数的进程的进程号,设置函数MPI_Get_processor_name用于获得计算机名,并存放在processor_name中,长度为namelen。
与现有技术相比,本发明的有益效果:
1,通过在MPI协议栈中使用SCTP-CMT(SCTP并行多路径传输技术)扩展协议代替TCP协议,继而与OPEN MPI相结合,提出了一种新的OPEN MPI框架模型。
2,本发明的方法对于高性能计算网络的多宿主特性提供了端到端的高效通信,减少了高性能网络中集群处理器之间不必要的通信,可以达到较小的通信时延、较高的频带利用率以及提高通信的可靠性。
附图说明
图1为本发明的OPEN MPI框架模型示意图。
图2为原始的Open MPI和修改过后的Open MPI的运行情况比较图。
具体实施方式
现结合附图对本发明创造作进一步的详细说明。
基于将SCTP协议整合进MPI协议栈的理论依据,本发明的总体实施方案为:在MPI协议栈中用SCTP-CMT(SCTP并行多路径传输技术)来代替TCP,进而与OPEN MPI相整合,构建一种新的OPEN MPI框架模型。
OPEN MPI是一个性能优异的平台框架,在使用中提供一个基于组件的方法。这种基于开源软件的模块化结构不仅能完全支持并发多线程应用,匹配高性能计算的特性,也为我们解决实际问题提供较大的便捷性。
如图1所示,在OPEN MPI的组件框架有几个主要的模块,每个模块致力于单独的任务,例如提供并行任务控制或执行MPI集合操作。一旦需要,系统会发现、加载、使用、卸载模块。每个模块有不同的机制和使用场景,有些在一个时刻只用一个模块,而有些会同时用到所有模块。
MPI组件架构(MCA):是Open MPI的核心,为所有其它层次提供管理服务的基础组件结构;MCA管理不同的组件框架以及每个框架管理不同的模块,这些模块都是一些可以在运行时随时部署的软件单元。
PML(点到点管理层):PML的主要功能是为MPI层和所有可用的PTL模块之间提供报文分段、调度和重新装配服务,对模块起到管理作用。
PTL(点到点传输层):一个PTL模块相当于一个专用的网络协议和设备,主要负责MPI进程间字节传递的“有线协议”。PTL模块需要识别MPI的语义,多个PTL模块可以在一个进程中使用,同时允许多个网络的使用。
TEG:TEG为OPEN MPI提供了一种点到点的通信模块,它具有的容错能力可以使通信链路中的频带利用率最大化。
IP模块:OPEN MPI通过将信息分段到不同的NIC(网卡)上,通过部署其字节传输层的模块来实现多路径传输,每个动态分配的IP地址绑定一个特定的子网模块。
以下是具体实施步骤:
步骤1:创建SCTP-CMT(SCTP并行多路径传输技术)协议块;调用MPI_INIT(IERROR)程序,它完成程序所有初始化工作,设置内部传输协议为SCTP-CMT,建立起运行的环境。
步骤2:将所述STCP-CMT作为代替TCP协议的模块移植到MPI组件架构的PTL模块中;在文件系统中定位检查点映像文件(我们在单机检查点文件的命名方式中编码任务的rank号),并根据MPI任务使用的STCP-CMP协议块,重新建立每个MPI任务的PTL模块,最后调用cr_restart()恢复任务的执行,当MPI任务从cr_checkpoint()的函数调用点返回时,可以通过PTL模块获取新的任务信息,并通过环境变量中定义的参数和作业管理系统建立连接。
步骤3:将更新后的MPI协议栈更新至MPI组件架构;在更新MPI协议栈阶段,所有的任务都需要通过登记新的通信资源消息,然后使用PMI接口在任务间进行同步更新。
步骤4:基于更新后的MPI特性,在MPI组件架构的PML模块中创建SCM(基于SCTP-CMT的MPI)模块,对更新后的MPI组件架构起到管理作用;更新后的MPI协议栈初始化后,使用MPI库函数提供的MPI_COMM_WORLD(),它包括了使用更新协议后的所有进程,在原有通信域管理的基础上,定义新的SCM模块。
步骤5:对OPEN MPI结构内部的上层接口进行调整,使其兼容新的框架模型。
更新后的MPI协议栈初始化后,使用MPI库函数提供的MPI_COMM_WORLD(),它包括了使用更新协议后的所有进程,在原有通信域管理的基础上,定义新的SCM模块。
在基于OPEN MPI中间件的SCTP-CMT经过修改后,我们已经进行了一系列的通信基准程序来评估性能指标。
测试结果与分析:
图2展示了原始的Open MPI和修改过后的Open MPI运行情况,缩写O-MPI表示最初的基于TCP的Open MPI,而M-MPI表示修改后的基于SCTP的Open MPI,总通信时间用秒来表示。仿真报告表明SCTP实现了比TCP更好的性能,减少广域网中的MPI的总体通信延迟。这是因为SCTP并没有因为流量的控制而导致发送方发送速度降低,这使得SCTP更适合在广域网的网络环境中使用。本发明提出的方法改善了MPI在广域网中应用的适配性,进而增强了车辆数据在广域高性能计算网络传输的整体性能。

Claims (6)

1.一种基于MPI的广域高性能计算网络优化方法,其特征在于,包括如下步骤:
步骤1:创建SCTP-CMT协议块;
步骤2:将所述STCP-CMT作为代替TCP协议的模块移植到MPI组件架构的PTL模块中;
步骤3:将更新后的MPI协议栈更新至MPI组件架构;
步骤4:基于更新后的MPI特性,在MPI组件架构的PML模块中创建SCM模块,对更新后的MPI组件架构起到管理作用;
步骤5:对OPEN MPI结构内部的上层接口进行调整,使其兼容新的框架模型。
2.根据权利要求1所述的基于MPI的广域高性能计算网络优化方法,其特征在于步骤1中,创建SCTP-CMT协议块具体包括调用MPI_INIT程序,完成程序所有初始化工作,设置内部传输协议为SCTP-CMT,建立起运行的环境。
3.根据权利要求1所述的基于MPI的广域高性能计算网络的优化方法,其特征在于步骤2中,将STCP-CMP移植到MPI组件架构的PTL模块中具体包括:在文件系统中定位检查点映像文件,并根据MPI任务使用的STCP-CMP协议块,重新建立每个MPI任务的PTL模块,最后调用cr_restart函数恢复任务的执行,当MPI任务从cr_checkpoint函数的调用点返回时,可以通过PTL模块获取新的任务信息,并通过环境变量中定义的参数和作业管理系统建立连接。
4.根据权利要求1所述的基于MPI的广域高性能计算网络的优化方法,其特征在于步骤3中,将更新后的MPI协议栈更新至MPI组件架构具体包括:在更新MPI协议栈阶段所有的任务都需要通过登记新的通信资源消息,然后使用PML接口在任务间进行同步更新。
5.根据权利要求1所述的基于MPI的广域高性能计算网络的优化方法,其特征在于步骤4中,创建SCM模块具体包括:更新后的MPI协议栈初始化后,使用MPI库函数提供的MPI_COMM_WORLD函数,其包括使用更新协议后的所有进程,在原有通信域管理的基础上,定义新的SCM模块。
6.根据权利要求1所述的基于MPI的广域高性能计算网络的优化方法,其特征在于步骤5中,对OPEN MPI结构内部的上层接口进行调整具体包括:调用MPI_Comm_rank函数来标识各个MPI进程,给出调用该函数的进程的进程号,设置函数MPI_Get_processor_name用于获得计算机名,并存放在processor_name中,长度为namelen。
CN201710071227.9A 2017-02-09 2017-02-09 一种基于mpi的广域高性能计算网络优化方法 Pending CN106850628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710071227.9A CN106850628A (zh) 2017-02-09 2017-02-09 一种基于mpi的广域高性能计算网络优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710071227.9A CN106850628A (zh) 2017-02-09 2017-02-09 一种基于mpi的广域高性能计算网络优化方法

Publications (1)

Publication Number Publication Date
CN106850628A true CN106850628A (zh) 2017-06-13

Family

ID=59122199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710071227.9A Pending CN106850628A (zh) 2017-02-09 2017-02-09 一种基于mpi的广域高性能计算网络优化方法

Country Status (1)

Country Link
CN (1) CN106850628A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744643A (zh) * 2014-01-10 2014-04-23 浪潮(北京)电子信息产业有限公司 一种多线程程序下多节点并行架构的方法及装置
US9391845B2 (en) * 2014-09-24 2016-07-12 Intel Corporation System, method and apparatus for improving the performance of collective operations in high performance computing
CN106233692A (zh) * 2014-11-12 2016-12-14 Lg电子株式会社 广播信号发送装置、广播信号接收装置、广播信号发送方法和广播信号接收方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744643A (zh) * 2014-01-10 2014-04-23 浪潮(北京)电子信息产业有限公司 一种多线程程序下多节点并行架构的方法及装置
US9391845B2 (en) * 2014-09-24 2016-07-12 Intel Corporation System, method and apparatus for improving the performance of collective operations in high performance computing
CN106233692A (zh) * 2014-11-12 2016-12-14 Lg电子株式会社 广播信号发送装置、广播信号接收装置、广播信号发送方法和广播信号接收方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RASHID HASSANI等: "《Scalable high performance computing in wide area network", 《2012 INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING & SIMULATION (HPCS)》 *
谢旻等: "《基于Lustre 文件系统的MPI 检查点系统实现技术与性能测试》", 《计算机研究与发展》 *

Similar Documents

Publication Publication Date Title
CN113347164B (zh) 基于区块链的分布式共识系统及方法、设备、存储介质
CN110535831A (zh) 基于Kubernetes和网络域的集群安全管理方法、装置及存储介质
CN104243481B (zh) 一种用电信息采集前置数据处理的方法及系统
CN101442555B (zh) 面向hla的仿真资源代理服务系统
US20070150584A1 (en) Apparatus, system, and method for determining server utilization in hosted computing infrastructure
CN111565113B (zh) 用于sdn控制器的灵活以太网网络拓扑抽象方法及系统
CN108512748A (zh) 一种微服务网关的实现方法
WO2020186807A1 (zh) 一种基于区块链技术的电力数据链接系统及方法
CN103439629A (zh) 基于数据网格的配电网故障诊断系统
CN107276992A (zh) 一种多数据源接入的方法及系统
CN101753359B (zh) 动态组件分布的方法和系统
CN107241274A (zh) 一种物联网集成服务无线路由器和系统
CN102088475B (zh) 控制流集中数据流分布的组合服务执行系统及执行方法
CN114615096A (zh) 基于事件驱动架构的电信计费方法、系统及相关设备
CN1906890B (zh) 用于支持事务的方法和装置
CN101122868A (zh) 一种实现透明进程迁移的装置和方法
CN106131162B (zh) 一种基于iocp机制实现网络服务代理的方法
CN107451092A (zh) 一种基于ib网络的数据传输系统
CN110297748A (zh) 一种定位调用出错的方法、装置和计算机可读存储介质
CN103140851A (zh) 包括中间件机环境的系统
CN106850628A (zh) 一种基于mpi的广域高性能计算网络优化方法
CN101621528B (zh) 基于以太交换机集群管理的会话系统及会话通道实现方法
CN101197705A (zh) 光网络中的软件代理系统和控制方法
CN107181701B (zh) 公共网关接口数据的收集方法及装置
CN111625474B (zh) 一种联盟链的自动测试方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613

RJ01 Rejection of invention patent application after publication