CN110795344B - 面向分布式高性能计算集群调试系统 - Google Patents
面向分布式高性能计算集群调试系统 Download PDFInfo
- Publication number
- CN110795344B CN110795344B CN201910972864.2A CN201910972864A CN110795344B CN 110795344 B CN110795344 B CN 110795344B CN 201910972864 A CN201910972864 A CN 201910972864A CN 110795344 B CN110795344 B CN 110795344B
- Authority
- CN
- China
- Prior art keywords
- task
- debugging
- cluster
- module
- unified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003795 chemical substances by application Substances 0.000 claims description 31
- 230000003993 interaction Effects 0.000 claims description 4
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/362—Software debugging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;集群agent服务提供任务查询、任务调试。本发明提供的面向分布式高性能计算集群调试系统,具有的技术效果有:(1)统一查询多集群中运行的任务;(2)统一入口,分布式调试不同集群中运行的任务;(3)统一用户权限管理,从云厂商资源管理中隔离出来,方便用户操作;(4)快速横向扩展,方便添加新集群。
Description
技术领域
本发明属于高性能计算技术领域,具体涉及面向分布式高性能计算集群调试系统。
背景技术
在基于公有云构建的高性能计算系统,在各个不同云厂商申请到计算资源,用mesos或者kubernets资源调度系统对公有云资源管理,任务调度系统将任务调度到计算资源中运行;底层任务的运行时环境为docker container,查看任务实时情况或任务调试,通过docker或者kubernets进入到容器环境进行相应的操作,确定任务的具体情况或调试任务的异常情况,确保任务的正常运行。
公有云环境下,进入容器调试主要有以下的问题:
(1)公有云机器分布在网络上,计算资源都是动态申请的,计算完成后,资源会释放,每次的计算资源都不相同,进入容器调试需要先查找任务所在的节点,然后分配到指定人登陆到具体节点,再进入容器调试,操作不方便。
(2)所有的资源都需要权限管理,无论docker方式,还是kubernets方式进入容器调试,都需要先给调试人在指定资源上分配相应的权限才能顺利进入容器操作,如果调试任务的人多,极大增加管理资源的人的工作量,增加公司运营成本。
发明内容
针对上述问题,本发明提供一种面向分布式高性能计算集群调试系统,实现支持多个云厂商跨多个公有云区域的多集群的调试系统;能统一查询任务,列出任务所在集群,任务调试链接;统一权限管理,什么用户,有查询和调试任务的权限;统一调试界面,通过查询得到调试链接,点开链接直接进入网页调试界面;快速扩展,新建集群能自动注册到调试系统,支持任务查询和调试。
所采用的技术方案为:
面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限(分集群),调试权限(分集群);
集群agent服务提供任务查询、任务调试:
集群agent服务包括任务查询子模块、任务调试子模块;
任务查询子模块,支持查询当前系统正在运行的任务;
任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
本发明提供的面向分布式高性能计算集群调试系统,具有的技术效果有:
(1)统一查询多集群中运行的任务;
(2)统一入口,分布式调试不同集群中运行的任务;
(3)统一用户权限管理,从云厂商资源管理中隔离出来,方便用户操作;
(4)快速横向扩展,方便添加新集群。
附图说明
图1是本发明的系统架构图;
图2是实施例的用户交互图;
图3是实施例的结果对比图。
具体实施方式
结合实施例说明本发明的具体技术方案。
如图1所示,面向分布式高性能计算集群调试系统,包括主服务部分和集群agent服务;
所述的主服务部分提供集群agent注册、统一任务查询、统一权限管理;
主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述的集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述的统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述的统一权限管理子模块,主要划分用户具有什么样的权限,查询权限(分集群),调试权限(分集群);
集群agent服务提供任务查询、任务调试:
集群agent服务包括任务查询子模块、任务调试子模块;
任务查询子模块,支持查询当前系统正在运行的任务;
任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务。
该面向分布式高性能计算集群调试系统的使用具体步骤:
(1)用户通过web进入系统登陆页面,输入用户信息,完成验证登陆;通过统一权限管理子模块的认证后,进入到任务搜索模块;
(2)进入任务搜索页面,输入要搜索的任务handle,点击搜索按钮,即可完成搜索;
(3)任务搜索模块通过与注册的各个agent交互数据,查询当前搜索的任务handle,将任务相关的信息如任务在集群运行的名称,平台,命名空间,调试链接等等作为结果展示出来;
(4)点击结果页上的”shell链接”即可进入任务的调试页面;;
(5)新集群的加入,如图1中 C 集群,通过配置agent 主服务host, C集群就可以主动注册到BB8系统中,然后重复上面 1-4 步骤就可以完成任务查询和调试。
用户通过WEB访问整个系统,在BB8服务中验证权限以及查询任务,通过web-term提供的链接,进入任务内部进行调试;操作参照图2用户交互图,整个系统参照图1系统架构图。
图3中上半部分,本发明前的实施情况,用户是需要登陆到每一个k8s集群查找调试的任务是否在集群中,每个集群重复这个步骤,然后对资源管理的人员需要对不同用户赋予不同权限,查看不同的信息;图中下半部分,为本发明的实施情况,客户通过bb8系统分配的用户,用户对应了相应的权限,对集群哪部分资源可查看等,统一在bb8系统中查找需要调试的任务,找到任务后,通过指定链接跳转到任务容器中进行任务调试。
Claims (1)
1.面向分布式高性能计算集群调试系统,其特征在于,包括主服务部分和集群agent服务;
所述主服务部分提供集群agent注册、统一任务查询、统一权限管理;
集群agent服务提供任务查询、任务调试;
所述主服务部分包括集群agent注册子模块、统一任务查询子模块,统一权限管理子模块;
所述集群agent注册子模块,支持集群agent将自身注册到主服务,提供后续的任务查询和任务调试;
所述统一任务查询子模块,根据用户提供的任务handle,统一查询当前系统所有集群agent,是否存在该任务,把所有查到任务返回给用户;
所述统一权限管理子模块,用于划分用户具有什么样的权限,查询权限,调试权限;
所述集群agent服务包括任务查询子模块、任务调试子模块;
所述任务查询子模块,支持查询当前系统正在运行的任务;
所述任务调试子模块,提供网页终端服务,通过网页终端连接进入容器,实现网页终端调试任务;
面向分布式高性能计算集群调试系统的使用具体步骤:
(1)用户通过web进入系统登陆页面,输入用户信息,完成验证登陆;通过统一权限管理子模块的认证后,进入到任务搜索模块;
(2)进入任务搜索页面,输入要搜索的任务handle,点击搜索按钮,即可完成搜索;
(3)任务搜索模块通过与注册的各个agent交互数据,查询当前搜索的任务handle,将任务相关的信息,包括任务在集群运行的名称、平台、命名空间、调试链接作为结果展示出来;
(4)点击结果页上的”shell链接”即可进入任务的调试页面;
(5)新集群的加入,通过配置agent 主服务host,主动注册,然后重复步骤(1)-(4)完成任务查询和调试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910972864.2A CN110795344B (zh) | 2019-10-14 | 2019-10-14 | 面向分布式高性能计算集群调试系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910972864.2A CN110795344B (zh) | 2019-10-14 | 2019-10-14 | 面向分布式高性能计算集群调试系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795344A CN110795344A (zh) | 2020-02-14 |
CN110795344B true CN110795344B (zh) | 2024-01-05 |
Family
ID=69439030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910972864.2A Active CN110795344B (zh) | 2019-10-14 | 2019-10-14 | 面向分布式高性能计算集群调试系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795344B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021003870A1 (zh) * | 2019-10-14 | 2021-01-14 | 深圳晶泰科技有限公司 | 面向分布式高性能计算集群调试系统 |
CN113760706B (zh) * | 2020-09-17 | 2024-05-17 | 北京沃东天骏信息技术有限公司 | 网页调试方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6014669A (en) * | 1997-10-01 | 2000-01-11 | Sun Microsystems, Inc. | Highly-available distributed cluster configuration database |
US7673180B1 (en) * | 2005-05-05 | 2010-03-02 | Sun Microsystems, Inc. | Method and apparatus for dispatching a remote debugging agent in a distributed computing environment |
CN107025139A (zh) * | 2017-03-21 | 2017-08-08 | 北京天云融创软件技术有限公司 | 一种基于云计算的高性能计算调度框架 |
CN107844410A (zh) * | 2016-09-18 | 2018-03-27 | 阿里巴巴集团控股有限公司 | 一种分布式集群系统的调试方法和装置 |
CN110011984A (zh) * | 2019-03-19 | 2019-07-12 | 西安微电子技术研究所 | 一种基于rest和rpc的分布式集群系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8321454B2 (en) * | 2009-09-14 | 2012-11-27 | Myspace Llc | Double map reduce distributed computing framework |
-
2019
- 2019-10-14 CN CN201910972864.2A patent/CN110795344B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6014669A (en) * | 1997-10-01 | 2000-01-11 | Sun Microsystems, Inc. | Highly-available distributed cluster configuration database |
US7673180B1 (en) * | 2005-05-05 | 2010-03-02 | Sun Microsystems, Inc. | Method and apparatus for dispatching a remote debugging agent in a distributed computing environment |
CN107844410A (zh) * | 2016-09-18 | 2018-03-27 | 阿里巴巴集团控股有限公司 | 一种分布式集群系统的调试方法和装置 |
CN107025139A (zh) * | 2017-03-21 | 2017-08-08 | 北京天云融创软件技术有限公司 | 一种基于云计算的高性能计算调度框架 |
CN110011984A (zh) * | 2019-03-19 | 2019-07-12 | 西安微电子技术研究所 | 一种基于rest和rpc的分布式集群系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于Chord的多集群网格系统资源查找算法改进;谭淑丹;《计算机应用》;第29卷(第S1期);26-29 * |
Also Published As
Publication number | Publication date |
---|---|
CN110795344A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108475360B (zh) | 分布式计算依赖管理系统 | |
US11050820B2 (en) | Cloud sharing system | |
US8595262B1 (en) | Resource resolution in computing environments using directed graphs | |
US11372667B2 (en) | Restoring the state of paused virtual machine environments with external attached volumes | |
US8286036B2 (en) | Objective assessment of application crashes from a customer environment | |
Cai et al. | A transparent approach of enabling SaaS multi-tenancy in the cloud | |
US20070088630A1 (en) | Assessment and/or deployment of computer network component(s) | |
Wang et al. | Provide virtual machine information for grid computing | |
CN105468720A (zh) | 集成分布式数据处理系统的方法、相应系统及其数据处理方法 | |
CN110516076B (zh) | 一种基于知识图谱的云计算管理方法及系统 | |
CN113127343B (zh) | 一种基于微服务架构的电网代码测试分析系统 | |
CN110795344B (zh) | 面向分布式高性能计算集群调试系统 | |
US10819650B2 (en) | Dynamically adaptive cloud computing infrastructure | |
CN100452726C (zh) | 模型化的网格资源定位方法 | |
CN102306370A (zh) | 一种基于云计算的数字图像处理系统 | |
CN1842078B (zh) | 网格服务系统 | |
CN110278101B (zh) | 一种资源管理方法及设备 | |
US11500874B2 (en) | Systems and methods for linking metric data to resources | |
CN113127526A (zh) | 一种基于Kubernetes的分布式数据存储和检索系统 | |
US11449326B2 (en) | Systems and methods for recomputing services | |
US10819557B1 (en) | Systems and methods for selective discovery of services | |
Bose et al. | A framework for heterogeneous resource allocation in sensor-cloud environment | |
Zimmermann et al. | Data flow dependent component placement of data processing cloud applications | |
CN113641868B (zh) | 一种用于资源保障投入的数据访问控制方法、装置和计算机设备 | |
Liu | Typical characteristics of cloud GIS and several key issues of cloud spatial decision support system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Jingtai Technology Co.,Ltd. Address before: 518000 4th floor, No.9 Hualian Industrial Zone, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province Applicant before: Shenzhen Jingtai Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |