CN110795344B - 面向分布式高性能计算集群调试系统 - Google Patents

面向分布式高性能计算集群调试系统 Download PDF

Info

Publication number
CN110795344B
CN110795344B CN201910972864.2A CN201910972864A CN110795344B CN 110795344 B CN110795344 B CN 110795344B CN 201910972864 A CN201910972864 A CN 201910972864A CN 110795344 B CN110795344 B CN 110795344B
Authority
CN
China
Prior art keywords
task
debugging
cluster
module
unified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910972864.2A
Other languages
English (en)
Other versions
CN110795344A (zh
Inventor
康晓琦
刘阳
林帅康
马健
温书豪
赖力鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN201910972864.2A priority Critical patent/CN110795344B/zh
Publication of CN110795344A publication Critical patent/CN110795344A/zh
Application granted granted Critical
Publication of CN110795344B publication Critical patent/CN110795344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;集群agent服务提供任务查询、任务调试。本发明提供的面向分布式高性能计算集群调试系统,具有的技术效果有:(1)统一查询多集群中运行的任务;(2)统一入口,分布式调试不同集群中运行的任务;(3)统一用户权限管理,从云厂商资源管理中隔离出来,方便用户操作;(4)快速横向扩展,方便添加新集群。

Description

面向分布式高性能计算集群调试系统
技术领域
本发明属于高性能计算技术领域,具体涉及面向分布式高性能计算集群调试系统。
背景技术
在基于公有云构建的高性能计算系统,在各个不同云厂商申请到计算资源,用mesos或者kubernets资源调度系统对公有云资源管理,任务调度系统将任务调度到计算资源中运行;底层任务的运行时环境为docker container,查看任务实时情况或任务调试,通过docker或者kubernets进入到容器环境进行相应的操作,确定任务的具体情况或调试任务的异常情况,确保任务的正常运行。
公有云环境下,进入容器调试主要有以下的问题:
(1)公有云机器分布在网络上,计算资源都是动态申请的,计算完成后,资源会释放,每次的计算资源都不相同,进入容器调试需要先查找任务所在的节点,然后分配到指定人登陆到具体节点,再进入容器调试,操作不方便。
(2)所有的资源都需要权限管理,无论docker方式,还是kubernets方式进入容器调试,都需要先给调试人在指定资源上分配相应的权限才能顺利进入容器操作,如果调试任务的人多,极大增加管理资源的人的工作量,增加公司运营成本。
发明内容
针对上述问题,本发明提供一种面向分布式高性能计算集群调试系统,实现支持多个云厂商跨多个公有云区域的多集群的调试系统;能统一查询任务,列出任务所在集群,任务调试链接;统一权限管理,什么用户,有查询和调试任务的权限;统一调试界面,通过查询得到调试链接,点开链接直接进入网页调试界面;快速扩展,新建集群能自动注册到调试系统,支持任务查询和调试。
所采用的技术方案为:
面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限(分集群),调试权限(分集群);
集群agent服务提供任务查询、任务调试:
集群agent服务包括任务查询子模块、任务调试子模块;
任务查询子模块,支持查询当前系统正在运行的任务;
任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
本发明提供的面向分布式高性能计算集群调试系统,具有的技术效果有:
(1)统一查询多集群中运行的任务;
(2)统一入口,分布式调试不同集群中运行的任务;
(3)统一用户权限管理,从云厂商资源管理中隔离出来,方便用户操作;
(4)快速横向扩展,方便添加新集群。
附图说明
图1是本发明的系统架构图;
图2是实施例的用户交互图;
图3是实施例的结果对比图。
具体实施方式
结合实施例说明本发明的具体技术方案。
如图1所示,面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限(分集群),调试权限(分集群);
集群agent服务提供任务查询、任务调试:
集群agent服务包括任务查询子模块、任务调试子模块;
任务查询子模块,支持查询当前系统正在运行的任务;
任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
该面向分布式高性能计算集群调试系统的使用具体步骤:
(1)用户通过web进入系统登陆页面,输入用户信息,完成验证登陆;通过统一权限管理子模块的认证后,进入到任务搜索模块;
(2)进入任务搜索页面,输入要搜索的任务handle,点击搜索按钮,即可完成搜索;
(3)任务搜索模块通过与注册的各个agent交互数据,查询当前搜索的任务handle,将任务相关的信息如任务在集群运行的名称,平台,命名空间,调试链接等等作为结果展示出来;
(4)点击结果页上的”shell链接”即可进入任务的调试页面;;
(5)新集群的加入,如图1中 C 集群,通过配置agent 主服务host, C集群就可以主动注册到BB8系统中,然后重复上面 1-4 步骤就可以完成任务查询和调试。
用户通过WEB访问整个系统,在BB8服务中验证权限以及查询任务,通过web-term提供的链接,进入任务内部进行调试;操作参照图2用户交互图,整个系统参照图1系统架构图。
图3中上半部分,本发明前的实施情况,用户是需要登陆到每一个k8s集群查找调试的任务是否在集群中,每个集群重复这个步骤,然后对资源管理的人员需要对不同用户赋予不同权限,查看不同的信息;图中下半部分,为本发明的实施情况,客户通过bb8系统分配的用户,用户对应了相应的权限,对集群哪部分资源可查看等,统一在bb8系统中查找需要调试的任务,找到任务后,通过指定链接跳转到任务容器中进行任务调试。

Claims (1)

1.面向分布式高性能计算集群调试系统,其特征在于,包括主服务部分和集群agent服务;
所述主服务部分提供集群agent注册、统一任务查询、统一权限管理;
集群agent服务提供任务查询、任务调试;
所述主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述统一权限管理子模块,用于划分用户具有什么样的权限,查询权限,调试权限;
所述集群agent服务包括任务查询子模块、任务调试子模块;
所述任务查询子模块,支持查询当前系统正在运行的任务;
所述任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务;
面向分布式高性能计算集群调试系统的使用具体步骤:
(1)用户通过web进入系统登陆页面,输入用户信息,完成验证登陆;通过统一权限管理子模块的认证后,进入到任务搜索模块;
(2)进入任务搜索页面,输入要搜索的任务handle,点击搜索按钮,即可完成搜索;
(3)任务搜索模块通过与注册的各个agent交互数据,查询当前搜索的任务handle,将任务相关的信息,包括任务在集群运行的名称、平台、命名空间、调试链接作为结果展示出来;
(4)点击结果页上的”shell链接”即可进入任务的调试页面;
(5)新集群的加入,通过配置agent 主服务host,主动注册,然后重复步骤(1)-(4)完成任务查询和调试。
CN201910972864.2A 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统 Active CN110795344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910972864.2A CN110795344B (zh) 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910972864.2A CN110795344B (zh) 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统

Publications (2)

Publication Number Publication Date
CN110795344A CN110795344A (zh) 2020-02-14
CN110795344B true CN110795344B (zh) 2024-01-05

Family

ID=69439030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910972864.2A Active CN110795344B (zh) 2019-10-14 2019-10-14 面向分布式高性能计算集群调试系统

Country Status (1)

Country Link
CN (1) CN110795344B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003870A1 (zh) * 2019-10-14 2021-01-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN113760706B (zh) * 2020-09-17 2024-05-17 北京沃东天骏信息技术有限公司 网页调试方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014669A (en) * 1997-10-01 2000-01-11 Sun Microsystems, Inc. Highly-available distributed cluster configuration database
US7673180B1 (en) * 2005-05-05 2010-03-02 Sun Microsystems, Inc. Method and apparatus for dispatching a remote debugging agent in a distributed computing environment
CN107025139A (zh) * 2017-03-21 2017-08-08 北京天云融创软件技术有限公司 一种基于云计算的高性能计算调度框架
CN107844410A (zh) * 2016-09-18 2018-03-27 阿里巴巴集团控股有限公司 一种分布式集群系统的调试方法和装置
CN110011984A (zh) * 2019-03-19 2019-07-12 西安微电子技术研究所 一种基于rest和rpc的分布式集群系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321454B2 (en) * 2009-09-14 2012-11-27 Myspace Llc Double map reduce distributed computing framework

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014669A (en) * 1997-10-01 2000-01-11 Sun Microsystems, Inc. Highly-available distributed cluster configuration database
US7673180B1 (en) * 2005-05-05 2010-03-02 Sun Microsystems, Inc. Method and apparatus for dispatching a remote debugging agent in a distributed computing environment
CN107844410A (zh) * 2016-09-18 2018-03-27 阿里巴巴集团控股有限公司 一种分布式集群系统的调试方法和装置
CN107025139A (zh) * 2017-03-21 2017-08-08 北京天云融创软件技术有限公司 一种基于云计算的高性能计算调度框架
CN110011984A (zh) * 2019-03-19 2019-07-12 西安微电子技术研究所 一种基于rest和rpc的分布式集群系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Chord的多集群网格系统资源查找算法改进;谭淑丹;《计算机应用》;第29卷(第S1期);26-29 *

Also Published As

Publication number Publication date
CN110795344A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN108475360B (zh) 分布式计算依赖管理系统
US11050820B2 (en) Cloud sharing system
US8595262B1 (en) Resource resolution in computing environments using directed graphs
US11372667B2 (en) Restoring the state of paused virtual machine environments with external attached volumes
US8286036B2 (en) Objective assessment of application crashes from a customer environment
Cai et al. A transparent approach of enabling SaaS multi-tenancy in the cloud
US20070088630A1 (en) Assessment and/or deployment of computer network component(s)
Wang et al. Provide virtual machine information for grid computing
CN105468720A (zh) 集成分布式数据处理系统的方法、相应系统及其数据处理方法
CN110516076B (zh) 一种基于知识图谱的云计算管理方法及系统
CN113127343B (zh) 一种基于微服务架构的电网代码测试分析系统
CN110795344B (zh) 面向分布式高性能计算集群调试系统
US10819650B2 (en) Dynamically adaptive cloud computing infrastructure
CN100452726C (zh) 模型化的网格资源定位方法
CN102306370A (zh) 一种基于云计算的数字图像处理系统
CN1842078B (zh) 网格服务系统
CN110278101B (zh) 一种资源管理方法及设备
US11500874B2 (en) Systems and methods for linking metric data to resources
CN113127526A (zh) 一种基于Kubernetes的分布式数据存储和检索系统
US11449326B2 (en) Systems and methods for recomputing services
US10819557B1 (en) Systems and methods for selective discovery of services
Bose et al. A framework for heterogeneous resource allocation in sensor-cloud environment
Zimmermann et al. Data flow dependent component placement of data processing cloud applications
CN113641868B (zh) 一种用于资源保障投入的数据访问控制方法、装置和计算机设备
Liu Typical characteristics of cloud GIS and several key issues of cloud spatial decision support system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 4th floor, No.9 Hualian Industrial Zone, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant