CN110795344A - 面向分布式高性能计算集群调试系统 - Google Patents

面向分布式高性能计算集群调试系统 Download PDF

Info

Publication number
CN110795344A
CN110795344A CN201910972864.2A CN201910972864A CN110795344A CN 110795344 A CN110795344 A CN 110795344A CN 201910972864 A CN201910972864 A CN 201910972864A CN 110795344 A CN110795344 A CN 110795344A
Authority
CN
China
Prior art keywords
task
cluster
debugging
submodule
unified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910972864.2A
Other languages
English (en)
Other versions
CN110795344B (zh
Inventor
康晓琦
刘阳
林帅康
马健
温书豪
赖力鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN201910972864.2A priority Critical patent/CN110795344B/zh
Publication of CN110795344A publication Critical patent/CN110795344A/zh
Application granted granted Critical
Publication of CN110795344B publication Critical patent/CN110795344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Abstract

本发明提供一种面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;集群agent服务提供任务查询、任务调试。本发明提供的面向分布式高性能计算集群调试系统,具有的技术效果有:(1)统一查询多集群中运行的任务;(2)统一入口,分布式调试不同集群中运行的任务;(3)统一用户权限管理,从云厂商资源管理中隔离出来,方便用户操作;(4)快速横向扩展,方便添加新集群。

Description

面向分布式高性能计算集群调试系统
技术领域
本发明属于高性能计算技术领域,具体涉及面向分布式高性能计算集群调试系统。
背景技术
在基于公有云构建的高性能计算系统,在各个不同云厂商申请到计算资源,用mesos或者kubernets资源调度系统对公有云资源管理,任务调度系统将任务调度到计算资源中运行;底层任务的运行时环境为docker container,查看任务实时情况或任务调试,通过docker或者kubernets进入到容器环境进行相应的操作,确定任务的具体情况或调试任务的异常情况,确保任务的正常运行。
公有云环境下,进入容器调试主要有以下的问题:
(1)公有云机器分布在网络上,计算资源都是动态申请的,计算完成后,资源会释放,每次的计算资源都不相同,进入容器调试需要先查找任务所在的节点,然后分配到指定人登陆到具体节点,再进入容器调试,操作不方便。
(2)所有的资源都需要权限管理,无论docker方式,还是kubernets方式进入容器调试,都需要先给调试人在指定资源上分配相应的权限才能顺利进入容器操作,如果调试任务的人多,极大增加管理资源的人的工作量,增加公司运营成本。
发明内容
针对上述问题,本发明提供一种面向分布式高性能计算集群调试系统,实现支持多个云厂商跨多个公有云区域的多集群的调试系统;能统一查询任务,列出任务所在集群,任务调试链接;统一权限管理,什么用户,有查询和调试任务的权限;统一调试界面,通过查询得到调试链接,点开链接直接进入网页调试界面;快速扩展,新建集群能自动注册到调试系统,支持任务查询和调试。
所采用的技术方案为:
面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限(分集群),调试权限(分集群);
集群agent服务提供任务查询、任务调试:
集群agent服务包括任务查询子模块、任务调试子模块;
任务查询子模块,支持查询当前系统正在运行的任务;
任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
本发明提供的面向分布式高性能计算集群调试系统,具有的技术效果有:
(1)统一查询多集群中运行的任务;
(2)统一入口,分布式调试不同集群中运行的任务;
(3)统一用户权限管理,从云厂商资源管理中隔离出来,方便用户操作;
(4)快速横向扩展,方便添加新集群。
附图说明
图1是本发明的系统架构图;
图2是实施例的用户交互图;
图3是实施例的结果对比图。
具体实施方式
结合实施例说明本发明的具体技术方案。
如图1所示,面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限(分集群),调试权限(分集群);
集群agent服务提供任务查询、任务调试:
集群agent服务包括任务查询子模块、任务调试子模块;
任务查询子模块,支持查询当前系统正在运行的任务;
任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
该面向分布式高性能计算集群调试系统的使用具体步骤:
(1)用户通过web进入系统登陆页面,输入用户信息,完成验证登陆;通过统一权限管理子模块的认证后,进入到任务搜索模块;
(2)进入任务搜索页面,输入要搜索的任务handle,点击搜索按钮,即可完成搜索;
(3)任务搜索模块通过与注册的各个agent交互数据,查询当前搜索的任务handle,将任务相关的信息如任务在集群运行的名称,平台,命名空间,调试链接等等作为结果展示出来;
(4)点击结果页上的”shell链接”即可进入任务的调试页面;;
(5)新集群的加入,如图1中 C 集群,通过配置agent 主服务host, C集群就可以主动注册到BB8系统中,然后重复上面 1-4 步骤就可以完成任务查询和调试。
用户通过WEB访问整个系统,在BB8服务中验证权限以及查询任务,通过web-term提供的链接,进入任务内部进行调试;操作参照图2用户交互图,整个系统参照图1系统架构图。
图3中上半部分,本发明前的实施情况,用户是需要登陆到每一个k8s集群查找调试的任务是否在集群中,每个集群重复这个步骤,然后对资源管理的人员需要对不同用户赋予不同权限,查看不同的信息;图中下半部分,为本发明的实施情况,客户通过bb8系统分配的用户,用户对应了相应的权限,对集群哪部分资源可查看等,统一在bb8系统中查找需要调试的任务,找到任务后,通过指定链接跳转到任务容器中进行任务调试。

Claims (3)

1.面向分布式高性能计算集群调试系统,其特征在于,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
集群agent服务提供任务查询、任务调试。
2.根据权利要求1所述的面向分布式高性能计算集群调试系统,其特征在于,所述的主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限,调试权限。
3.根据权利要求1或2所述的面向分布式高性能计算集群调试系统,其特征在于,所述的集群agent服务包括任务查询子模块、任务调试子模块;
所述的任务查询子模块,支持查询当前系统正在运行的任务;
所述的任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
CN201910972864.2A 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统 Active CN110795344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910972864.2A CN110795344B (zh) 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910972864.2A CN110795344B (zh) 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统

Publications (2)

Publication Number Publication Date
CN110795344A true CN110795344A (zh) 2020-02-14
CN110795344B CN110795344B (zh) 2024-01-05

Family

ID=69439030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910972864.2A Active CN110795344B (zh) 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统

Country Status (1)

Country Link
CN (1) CN110795344B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003870A1 (zh) * 2019-10-14 2021-01-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN113760706B (zh) * 2020-09-17 2024-05-17 北京沃东天骏信息技术有限公司 网页调试方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014669A (en) * 1997-10-01 2000-01-11 Sun Microsystems, Inc. Highly-available distributed cluster configuration database
US7673180B1 (en) * 2005-05-05 2010-03-02 Sun Microsystems, Inc. Method and apparatus for dispatching a remote debugging agent in a distributed computing environment
US20110066894A1 (en) * 2009-09-14 2011-03-17 Myspace, Inc. Debugging a map reduce application on a cluster
CN107025139A (zh) * 2017-03-21 2017-08-08 北京天云融创软件技术有限公司 一种基于云计算的高性能计算调度框架
CN107844410A (zh) * 2016-09-18 2018-03-27 阿里巴巴集团控股有限公司 一种分布式集群系统的调试方法和装置
CN110011984A (zh) * 2019-03-19 2019-07-12 西安微电子技术研究所 一种基于rest和rpc的分布式集群系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014669A (en) * 1997-10-01 2000-01-11 Sun Microsystems, Inc. Highly-available distributed cluster configuration database
US7673180B1 (en) * 2005-05-05 2010-03-02 Sun Microsystems, Inc. Method and apparatus for dispatching a remote debugging agent in a distributed computing environment
US20110066894A1 (en) * 2009-09-14 2011-03-17 Myspace, Inc. Debugging a map reduce application on a cluster
CN107844410A (zh) * 2016-09-18 2018-03-27 阿里巴巴集团控股有限公司 一种分布式集群系统的调试方法和装置
CN107025139A (zh) * 2017-03-21 2017-08-08 北京天云融创软件技术有限公司 一种基于云计算的高性能计算调度框架
CN110011984A (zh) * 2019-03-19 2019-07-12 西安微电子技术研究所 一种基于rest和rpc的分布式集群系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭淑丹: "基于Chord的多集群网格系统资源查找算法改进", 《计算机应用》, vol. 29, no. 1, pages 26 - 29 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003870A1 (zh) * 2019-10-14 2021-01-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN113760706B (zh) * 2020-09-17 2024-05-17 北京沃东天骏信息技术有限公司 网页调试方法及装置

Also Published As

Publication number Publication date
CN110795344B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CA2990252C (en) Systems and methods for blueprint-based cloud management
CN111274001B (zh) 微服务管理平台
US11088927B2 (en) SDN controller, system and method for task scheduling, resource provisioning and service providing
CN113127343B (zh) 一种基于微服务架构的电网代码测试分析系统
US20110166952A1 (en) Facilitating dynamic construction of clouds
US20070061304A1 (en) Middleware and a method for implementing business logic using it
US11159604B2 (en) Processing an operation with a plurality of processing steps
CN101587639A (zh) 一种基于网格的城市公交信息管理与调度决策支持系统
CN102306370A (zh) 一种基于云计算的数字图像处理系统
CN110516076A (zh) 一种基于知识图谱的云计算管理方法及系统
CN111045652B (zh) 配电网开发及服务系统
US20180227241A1 (en) Dynamically adaptive cloud computing infrastructure
CN103647663A (zh) 一种服务器集群内资源管理方法
US20050160276A1 (en) System and method for a directory secured user account
WO2017088347A1 (zh) 基于云平台的应用用户使用信息管理的方法、设备及系统
US20210263718A1 (en) Generating predictive metrics for virtualized deployments
CN110795344A (zh) 面向分布式高性能计算集群调试系统
US20200034765A1 (en) Systems and methods for contextual actions using a map interface
US20200351145A1 (en) Systems and methods for selective discovery of services
US11223581B2 (en) Virtual agent portal integration of two frameworks
Naseer et al. Resource discovery in Grids and other distributed environments: States of the art
Liu Typical characteristics of cloud GIS and several key issues of cloud spatial decision support system
CN111431982B (zh) 基于gRPC的系统运维方法、设备、存储介质及装置
US20210232420A1 (en) Restoring the state of paused virtual machine environments with external attached volumes
CN113065801A (zh) 组织架构管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 4th floor, No.9 Hualian Industrial Zone, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant