CN112000539A - 一种巡检方法及装置 - Google Patents

一种巡检方法及装置 Download PDF

Info

Publication number
CN112000539A
CN112000539A CN202010692083.0A CN202010692083A CN112000539A CN 112000539 A CN112000539 A CN 112000539A CN 202010692083 A CN202010692083 A CN 202010692083A CN 112000539 A CN112000539 A CN 112000539A
Authority
CN
China
Prior art keywords
host
inspection
cluster
polling
host cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010692083.0A
Other languages
English (en)
Inventor
王祥东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202010692083.0A priority Critical patent/CN112000539A/zh
Publication of CN112000539A publication Critical patent/CN112000539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及融合平台技术领域,特别涉及一种巡检方法及装置。该方法应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,该方法包括:监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;基于所述各目标巡检项目对所述主机集群进行巡检操作;将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。

Description

一种巡检方法及装置
技术领域
本申请涉及融合平台技术领域,特别涉及一种巡检方法及装置。
背景技术
ABC融合平台就是整合了AI(人工智能),大数据和云计算三大业务,是一种为企业提供高效的数字化转型的平台。ABC融合平台在全栈云平台基础之上,深度融合AI、大数据、IoT等多种技术能力及百态行业云场景化能力,以云数平台提供的强大算力与海量存储为基础,以数据智能分析为手段,深度挖掘数据潜在价值,为客户创造更多的、全新的商业机遇,为加速企业数字化转型提供一个具备全栈技术能力和全生命周期服务能力的ABC一体化融合平台。由于ABC融合平台涉及的技术栈更加复杂,之前单独具备AI,大数据,云计算任意一项实施经验的工程师,无法很快的转型成为ABC融合平台的合格的实施工程师。因此迫切的需要一套ABC融合平台部署的整体巡检方案,有效的指导实施工程师进行现场实施,完成ABC融合平台的快速交付,保障ABC融合平台稳定高效运转。
发明内容
本申请提供一种巡检方法及装置,用以解决现有技术中存在的融合平台安装部署过程繁琐,安装部署效率低的问题。
第一方面,本申请实施例提供了一种巡检方法,应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述方法包括:
监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;
基于所述各目标巡检项目对所述主机集群进行巡检操作;
将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
可选地,待部署融合平台为融合了至少两个功能模块的平台,所述至少两个功能模块包括人工智能模块,大数据模块和云计算模块;
所述巡检项目包括以下任意一种或组合:
融合平台的部署模式巡检,主机集群中各主机的基础环境巡检,主机集群中各主机间的网络巡检,主机集群中各主机所支持的协议巡检,主机集群中各主机的磁盘及IO巡检,主机群集中各主机的基础参数巡检,主机集群中内核模块巡检和主机集群部署拓扑巡检。
可选地,在所述各目标巡检项目包括融合平台的部署模式巡检时,基于所述各目标巡检项目对所述主机集群进行巡检操作的步骤包括:
判断所述待部署的融合平台的部署方式为分布式部署模式或超融合部署模式;
在判定所述待部署的融合平台的部署方式为超融合部署方式时,将主机集群中各主机的指定端口设置为保留端口,其中,所述指定端口为在主机上部署人工智能模块、大数据模块或云计算模块时必需使用的端口。
可选地,基于所述各目标巡检项目对所述主机集群进行巡检操作的步骤包括:
在所述各目标巡检项目包括主机集群中各主机的基础环境巡检时,判断主机集群中各主机的型号、品牌、操作系统等参数是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机集群中各主机间的网络巡检时,判断主机集群中各主机间是否互通;
在所述各目标巡检项目包括主机集群中各主机所支持的协议巡检时,判断主机集群中各主机是否支持SSH,并判断主机集群中各管理主机是否支持VXLAN;
在所述各目标巡检项目包括主机集群中各主机的磁盘及IO巡检时,判断主机集群中各主机的磁盘容量大小和IO性能大小是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机群集中各主机的基础参数巡检时,判断主机集群中各主机的主机名的设置是否满足预设要求;
在所述各目标巡检项目包括主机集群中内核模块巡检时,判断主机集群中个主机的内核开启情况是否满足部署对应的功能模块的要求。
可选地,在所述各目标巡检项目包括主机集群部署拓扑巡检时,基于所述各目标巡检项目对所述主机集群进行巡检操作的步骤包括:
根据主机集群中各主机对应部署的功能模块,对各主机进行分类处理。
第二方面,本申请提供了一种巡检装置,应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述装置包括:
监测单元,用于监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;
巡检单元,用于基于所述各目标巡检项目对所述主机集群进行巡检操作;
生成单元,用于将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
可选地,待部署融合平台为融合了至少两个功能模块的平台,所述至少两个功能模块包括人工智能模块,大数据模块和云计算模块;
所述巡检项目包括以下任意一种或组合:
融合平台的部署模式巡检,主机集群中各主机的基础环境巡检,主机集群中各主机间的网络巡检,主机集群中各主机所支持的协议巡检,主机集群中各主机的磁盘及IO巡检,主机群集中各主机的基础参数巡检,主机集群中内核模块巡检和主机集群部署拓扑巡检。
可选地,在所述各目标巡检项目包括融合平台的部署模式巡检,基于所述各目标巡检项目对所述主机集群进行巡检操作时,所述巡检单元具体用于:
判断所述待部署的融合平台的部署方式为分布式部署模式或超融合部署模式;
在判定所述待部署的融合平台的部署方式为超融合部署方式时,将主机集群中各主机的指定端口设置为保留端口,其中,所述指定端口为在主机上部署人工智能模块、大数据模块或云计算模块时必需使用的端口。
可选地,在基于所述各目标巡检项目对所述主机集群进行巡检操作时,所述巡检单元具体用于:
在所述各目标巡检项目包括主机集群中各主机的基础环境巡检时,判断主机集群中各主机的型号、品牌、操作系统等参数是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机集群中各主机间的网络巡检时,判断主机集群中各主机间是否互通;
在所述各目标巡检项目包括主机集群中各主机所支持的协议巡检时,判断主机集群中各主机是否支持SSH,并判断主机集群中各管理主机是否支持VXLAN;
在所述各目标巡检项目包括主机集群中各主机的磁盘及IO巡检时,判断主机集群中各主机的磁盘容量大小和IO性能大小是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机群集中各主机的基础参数巡检时,判断主机集群中各主机的主机名的设置是否满足预设要求;
在所述各目标巡检项目包括主机集群中内核模块巡检时,判断主机集群中个主机的内核开启情况是否满足部署对应的功能模块的要求。
可选地,在所述各目标巡检项目包括主机集群部署拓扑巡检,基于所述各目标巡检项目对所述主机集群进行巡检操作时,所述巡检单元具体用于:
根据主机集群中各主机对应部署的功能模块,对各主机进行分类处理。
第三方面,本申请实施例提供一种巡检终端,该巡检终端包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述方法的步骤。
综上可知,本申请实施例提供的巡检方法,应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述方法包括:监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;基于所述各目标巡检项目对所述主机集群进行巡检操作;将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
采用本申请实施例提供的巡检方法,在融合平台部署之前,综合融合平台包括的各功能模块,对主机集群中各主机的综合环境进行巡检操作,使得实施工程师有计划的根据巡检结果对主机集群进行环境修复,避免了不必要的由于环境功能模块冲突问题而导致反复重装的情况,提升了融合平台部署效率的同时,提升了融合平台部署后的稳定性。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其他的附图。
图1为本申请实施例提供的一种巡检方法的详细流程示意图;
图2为本申请实施例提供的另一种巡检方法的详细流程示意图;
图3为本申请实施例提供的一种巡检装置的结构示意图;
图4为本申请实施例提供的一种巡检终端的结构示意图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
实际应用中,ABC融合平台由三部分功能模块组成:AI、大数据、云计算。由于自身功能模块组件不同的特性,每个功能模块对于部署环境有自己独特的要求。并且不同的功能模块,实现开发的团队也不同,因此在环境部署方面,各个功能模块有各个功能模块的安装部署指导文档,对于环境的要求会出现三个功能模块冲突的情况,比如端口涉及,磁盘个数要求等等。目前都是三大功能模块提供单独的部署手册,通过手册说明进行部署,然而,有些手册对于关键环境技术要求描述,一笔带过,或者对于实施工程师来说,无法看懂。ABC融合平台是一套全新的深度融合的系统,但是我们的很多实施人员,往往都是之前单一模块的实施人员。本身具备自己单一模块的部署经验,因此让他们在短时间之内,吃透整个融合平台的安装部署要求,变得天方夜谭。
本申请可用于ABC融合平台部署前的综合环境巡检,为实施工程师提供可视化、简易、高效的巡检部署方案。该方案可以将AI,大数据和云计算三大功能模块的巡检统一整合,巡检的时机也提前到环境操作系统安装完成之后,ABC融合平台部署之前。这样,如果巡检结果出现问题,可以及时修复,及时处理。该方案由于是三大功能模块同时巡检,综合考量,这样既避免了需要全盘解读三大模块冗长的安装部署文档,有避免单功能模块巡检,功能模块之间冲突,系统重装的情况。该方案生成的巡检报告,可以有效的指导实施工程师,对于系统出现的问题,进行有效的评估和修复,为我们后续其他局点实施积累宝贵的经验。该方案可以快速高效的指导实施工程师完成ABC融合平台的快速有效的交付。
下面将通过具体实施例对本申请的方案进行详细描述,当然,本申请并不限于以下实施例。
示例性的,参阅图1所示,为本申请实施例提供的一种巡检方法的详细流程示意图,该方法应用于巡检终端,该巡检终端与待检测的用于部署融合平台的主机集群通信连接,该方法包括以下步骤:
步骤100:监测用户触发的巡检项目的选择指令,并基于上述选择指令确定需巡检的各目标巡检项目。
本申请实施例中,待部署融合平台为融合了至少两个功能模块的平台,一种较佳地实现方式为,所述至少两个功能模块包括人工智能模块,大数据模块和云计算模块。即融合平台为ABC融合平台。
进一步地,巡检项目可以包括但不限于以下任意一种或组合:融合平台的部署模式巡检,主机集群中各主机的基础环境巡检,主机集群中各主机间的网络巡检,主机集群中各主机所支持的协议巡检,主机集群中各主机的磁盘及IO巡检,主机群集中各主机的基础参数巡检,主机集群中各主机的内核模块巡检和主机集群部署拓扑巡检。
那么,实际应用中,在安装部署融合平台之前,需要预先完成环境架构的安装,即完成硬件主机的配置等,如各硬件设备(各主机、服务器)组网形成主机集群,且该主机集群已完成组网配置,如,各主机拥有自己的通信地址(如,IP地址),该主机集群用于安装部署融合平台,进一步地,该主机集群中第一类主机用于安装部署第一功能模块(如,AI模块),第二类主机用于安装部署第二功能模块(如,大数据模块),第三类主机用于安装部署第三功能模块(如,云计算模块)。那么,在对该主机集群进行巡检时,首先,需要将巡检终端接入主机集群所处的组网中,该巡检终端可与待检测的用于部署融合平台的主机集群通信连接,即基于用户输入,巡检终端知晓到主机集群中各主机的通信地址,以及各主机对应安装部署的功能模块信息。
本申请实施例中,在执行步骤100时,一种较佳地实现方式为,巡检终端显示界面上展示有各巡检项目,那么,用户就可以采用人机交互的模式,通过巡检终端的输入设备(鼠标/键盘、触摸屏)进行需要执行的巡检项目的选择,巡检终端在监测到用户触发的巡检项目选择指令时,基于用户选择指令,确定此次需巡检的各目标巡检项目。
示例性的,参阅图2所示,为本申请实施例提供的另一种巡检方法的详细流程示意图。用户通过巡检终端进行巡检项目选择,巡检终端根据用户选择,确定当前需要巡检的目标巡检项目,并根据目标巡检项目对用于部署融合平台的主机集群进行巡检操作,以及在巡检结束后,生成各目标巡检项目对应的巡检报文以及修复建议。
步骤110:基于上述各目标巡检项目对上述主机集群进行巡检操作。
下面,以目标巡检项目为不同巡检项目为例,分别进行巡检操作过程的详细说明。
本申请实施例中,若上述各目标巡检项目包括融合平台的部署模式巡检那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断上述待部署的融合平台的部署方式为分布式部署模式或超融合部署模式;在判定上述待部署的融合平台的部署方式为超融合部署方式时,将主机集群中各主机的指定端口设置为保留端口,其中,上述指定端口为在主机上部署人工智能模块、大数据模块或云计算模块时必需使用的端口。
例如,同一融合平台对于不同的客户群体有不同的部署模式,对于很多大企业用户,一般采用分布式部署模式,即融合平台的各功能模块会分别占据不同的服务器;而对于一些小的企业客户,本身受资源和使用的限制,一般采用超融合部署模式,各功能模块超融合部署,多个功能模块部署在同一服务器。在超融合部署模式下,为了有效避免功能模块间的部署限制冲突,保障正常部署,需要将主机集群中各主机的,部署任一功能模块必需的指定端口设置为保留端口,以便部署该任一功能模块。如,应用程序A会在运行过程中随机启动端口1,然而,端口1为部署大数据功能模块所必需的端口,那么,此时就需要将端口1设置为保留端口,禁止应用程序A启动占用端口1。
本申请实施例中,若上述各目标巡检项目包括主机集群中各主机的基础环境巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断主机集群中各主机的型号、品牌、操作系统等参数是否满足部署对应的功能模块的要求。
例如,融合平台的部署会有许多针对部署该融合平台的主机的硬件或软件要求/规定,如,安装部署各功能模块的主机,必须满足某些硬件/软件要求(如,主机型号,主机品牌,主机操作系统等参数),即用于安装部署某一功能模块的主机必须兼容该功能模块。本申请实施例中,一种较佳的实现方式为,巡检终端中预设有支持部署融合平台的主机型号、品牌和操作系统等信息,如,针对AI功能模块预设有其对应的第一主机硬件或软件要求/规定,针对大数据功能模块预设有其对应的第二主机硬件或软件要求/规定,针对云计算功能模预设有其对应的第三主机硬件或软件要求/规定,那么,在对主机集群进行基础环境巡检时,获取用于部署AI功能模块的各主机的硬软件参数,并将其与预设的第一主机硬件或软件要求/规定进行匹配,以分别判断各主机是否满足部署AI功能模块的要求;获取用于部署大数据功能模块的各主机的硬软件参数,并将其与预设的第二主机硬件或软件要求/规定进行匹配,以分别判断各主机是否满足部署大数据功能模块的要求;获取用于部署云计算功能模块的各主机的硬软件参数,并将其与预设的第三主机硬件或软件要求/规定进行匹配,以分别判断各主机是否满足部署云计算功能模块的要求。
本申请实施例中,若上述各目标巡检项目包括主机集群中各主机间的网络巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断主机集群中各主机间是否互通。
实际应用中,整个参与部署的主机集群中各主机之间必须能够完成信息交互,这是最基本的部署条件,尤其是作为管理节点的主机,需要向所有的作为业务节点的主机下发任务。原则上所有的主机之间必须要能够互通。常用的方式就巡检终端根据各主机的IP地址,ping各个主机,若各主机均能ping通,则说明主机集群内各主机互通。
本申请实施例中,若上述各目标巡检项目包括主机集群中各主机所支持的协议巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断主机集群中各主机是否支持安全外壳协议SSH,并判断主机集群中各管理主机是否支持虚拟可扩展局域网VXLAN。
例如,由于在安装部署融合平台时,需要在每一台主机上安装各种应用软件,那么,每一台主机均支持SSH是必须的,对主机是否支持SSH的检测方式为,输入需检测主机的IP地址,并行登录到各主机,多次登录验证即可。进一步地,由于K8S集群在安装部署的过程中,需要flannel,但是,flannel的实现需要依赖VXLAN,作为管理节点的主机需要支持VXLAN,较佳地,一种检测方式为,登录连接的交换机进行检测,查看交换机的芯片,从而判断交换机是否支持VXLAN;另一种检测方式为,在各作为管理节点的主机间进行组网测试,本申请实施例中,具体测试过程在此不再赘述。
本申请实施例中,若上述各目标巡检项目包括主机集群中各主机的磁盘及IO巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断主机集群中各主机的磁盘容量大小和IO性能大小是否满足部署对应的功能模块的要求。
例如,由于融合平台涉及的功能模块众多,各功能模块的为了自身数据独立和安全,需要分盘部署和使用,这样既可以解耦应用,又可以防止数据读写的相互干扰。因此磁盘巡检很重要,尤其是作为控制节点的主机,并且很多应用在部署的时候,制定了自己需要使用的磁盘大小规格和盘符。万一出现指定磁盘容量过小,或者使用的磁损坏,那么,整个融合平台的部署就会失败。客户现场主机型号众多,磁盘状态异常复杂。因此,我们需要对于部署中必须使用的磁盘进行巡检。主要的巡检项可以包括:磁盘是否可以格式化(格式化检测,需要甄别系统盘,不要错误的格式化系统盘,此时,可以对系统盘进行保护,即将系统盘标识出来,以免被误格式化等操作)、磁盘是否正常读写、正常创建磁盘分区、磁盘容量是否满足要求、磁盘个数是否满足要求。
在对主机的IO性能进行检测时,一种较佳的实现方式为,模拟主机对于小文件进行频繁读写,如果IO性能差,就会经常导致很多文件传输读写异常,因此,采用小文件对主机进行IO性能测试。本测试只要在各主机准备多个小文件,分别读写,求他的读写平均值,根据求出的平均值,判断其IO性能是否满足预设要求。
本申请实施例中,若上述各目标巡检项目包括主机群集中各主机的基础参数巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断主机集群中各主机的主机名的设置是否满足预设要求。
例如,判断各主机的主机名称是否符合部署要求。如,对于部署大数据模块的主机,主机名有特殊的要求:各个节点的主机名中至少包含3个及3个以上的字符串,且主机名后缀必须保持一致。如:主机名为test1.hde.com、test2.hde.com、test3.hde.com,即主机名后缀统一为.hde.com。
本申请实施例中,若上述各目标巡检项目包括主机集群中内核模块巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,判断主机集群中个主机的内核开启情况是否满足部署对应的功能模块的要求。
例如,实际应用中,主机操作系统安装时会由于勾选的安装模式不同,而导致其开启的内核模块不同,且某些内核模块的开启会对主机本身的功能进行限制,那么,就需要对各主机已开启的内核模块进行检测,以确定其是否满足部署对应的功能模块的要求。如,作为管理节点的主机上的dm_multipath这个内核模块就不能开启,如果开启它,主机磁盘不能被格式化。
本申请实施例中,上述各目标巡检项目包括主机集群部署拓扑巡检,那么,在基于上述各目标巡检项目对上述主机集群进行巡检操作时,一种较佳地实现方式为,根据主机集群中各主机对应部署的功能模块,对各主机进行分类处理。
例如,所谓融合平台,即是指融合了多个功能模块的平台,那么,在安装部署融合平台之前,即已经规划好在哪些主机上部署哪个功能模块,那么,为了后续方便实施工程师高效地在各个主机上安装正确的功能模块,可以预先对主机集群的部署拓扑进行巡检。一种较佳地实现方式为,预设有各主机的IP地址对应的功能模块信息的组网规则,巡检终端基于用户输入的各主机的IP网段,就可以进行主机归类,自动画出网络拓扑图,可以通过显示屏直观展示组网环境。
步骤120:将上述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
本申请实施例中,各目标巡检项目可以并行运行,当任一目标巡检项目巡检完成时,可以将该目标巡检项目置为已完成巡检状态,如,在巡检终端的显示界面上将该目标巡项目的菜单置为灰色,同时,可以生成该目标巡检项目对应的巡检报文和修复建议。如,对于巡检不合格的项单独顶头列出,并且列出指导修复建议,这些修复建议往往都是我们各个模块在自己部署的经验总结,快速指导实施工程师进行修复。对于没有指导意见的可以反馈给维护工程师进行协处理。
基于与上述方法实施例同样的发明构思,示例性的,参阅图3所示,为本申请提供的一种巡检装置的结构示意图,该巡检装置应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述装置包括:
监测单元30,用于监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;
巡检单元31,用于基于所述各目标巡检项目对所述主机集群进行巡检操作;
生成单元32,用于将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
可选地,待部署融合平台为融合了至少两个功能模块的平台,所述至少两个功能模块包括人工智能模块,大数据模块和云计算模块;
所述巡检项目包括以下任意一种或组合:
融合平台的部署模式巡检,主机集群中各主机的基础环境巡检,主机集群中各主机间的网络巡检,主机集群中各主机所支持的协议巡检,主机集群中各主机的磁盘及IO巡检,主机群集中各主机的基础参数巡检,主机集群中内核模块巡检和主机集群部署拓扑巡检。
可选地,在所述各目标巡检项目包括融合平台的部署模式巡检,基于所述各目标巡检项目对所述主机集群进行巡检操作时,巡检单元31具体用于:
判断所述待部署的融合平台的部署方式为分布式部署模式或超融合部署模式;
在判定所述待部署的融合平台的部署方式为超融合部署方式时,将主机集群中各主机的指定端口设置为保留端口,其中,所述指定端口为在主机上部署人工智能模块、大数据模块或云计算模块时必需使用的端口。
可选地,在基于所述各目标巡检项目对所述主机集群进行巡检操作时,巡检单元31具体用于:
在所述各目标巡检项目包括主机集群中各主机的基础环境巡检时,判断主机集群中各主机的型号、品牌、操作系统等参数是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机集群中各主机间的网络巡检时,判断主机集群中各主机间是否互通;
在所述各目标巡检项目包括主机集群中各主机所支持的协议巡检时,判断主机集群中各主机是否支持SSH,并判断主机集群中各管理主机是否支持VXLAN;
在所述各目标巡检项目包括主机集群中各主机的磁盘及IO巡检时,判断主机集群中各主机的磁盘容量大小和IO性能大小是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机群集中各主机的基础参数巡检时,判断主机集群中各主机的主机名的设置是否满足预设要求;
在所述各目标巡检项目包括主机集群中内核模块巡检时,判断主机集群中个主机的内核开启情况是否满足部署对应的功能模块的要求。
可选地,在所述各目标巡检项目包括主机集群部署拓扑巡检,基于所述各目标巡检项目对所述主机集群进行巡检操作时,巡检单元31具体用于:
根据主机集群中各主机对应部署的功能模块,对各主机进行分类处理。
以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个单元通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
综上可知,本申请实施例提供的巡检方法,应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述方法包括:监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;基于所述各目标巡检项目对所述主机集群进行巡检操作;将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
采用本申请实施例提供的巡检方法,在融合平台部署之前,综合融合平台包括的各功能模块,对主机集群中各主机的综合环境进行巡检操作,使得实施工程师有计划的根据巡检结果对主机集群进行环境修复,避免了不必要的由于环境功能模块冲突问题而导致反复重装的情况,提升了融合平台部署效率的同时,提升了融合平台部署后的稳定性。
进一步地,本申请实施例提供的巡检终端,从硬件层面而言,所述巡检终端的硬件架构示意图可以参见图4所示,所述巡检终端可以包括:存储器40和处理器41,
存储器40用于存储程序指令;处理器41调用存储器40中存储的程序指令,按照获得的程序指令执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种巡检终端,包括用于执行上述方法实施例的至少一个处理元件(或芯片)。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使该计算机执行上述方法实施例。
这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种巡检方法,其特征在于,应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述方法包括:
监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;
基于所述各目标巡检项目对所述主机集群进行巡检操作;
将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
2.如权利要求1所述的方法,其特征在于,待部署融合平台为融合了至少两个功能模块的平台,所述至少两个功能模块包括人工智能模块,大数据模块和云计算模块;
所述巡检项目包括以下任意一种或组合:
融合平台的部署模式巡检,主机集群中各主机的基础环境巡检,主机集群中各主机间的网络巡检,主机集群中各主机所支持的协议巡检,主机集群中各主机的磁盘及IO巡检,主机群集中各主机的基础参数巡检,主机集群中各主机的内核模块巡检和主机集群部署拓扑巡检。
3.如权利要求2所述的方法,其特征在于,在所述各目标巡检项目包括融合平台的部署模式巡检时,基于所述各目标巡检项目对所述主机集群进行巡检操作的步骤包括:
判断所述待部署的融合平台的部署方式为分布式部署模式或超融合部署模式;
在判定所述待部署的融合平台的部署方式为超融合部署方式时,将主机集群中各主机的指定端口设置为保留端口,其中,所述指定端口为在主机上部署人工智能模块、大数据模块或云计算模块时必需使用的端口。
4.如权利要求2或3所述的方法,其特征在于,基于所述各目标巡检项目对所述主机集群进行巡检操作的步骤包括:
在所述各目标巡检项目包括主机集群中各主机的基础环境巡检时,判断主机集群中各主机的型号、品牌、操作系统等参数是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机集群中各主机间的网络巡检时,判断主机集群中各主机间是否互通;
在所述各目标巡检项目包括主机集群中各主机所支持的协议巡检时,判断主机集群中各主机是否支持SSH,并判断主机集群中各管理主机是否支持VXLAN;
在所述各目标巡检项目包括主机集群中各主机的磁盘及IO巡检时,判断主机集群中各主机的磁盘容量大小和IO性能大小是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机群集中各主机的基础参数巡检时,判断主机集群中各主机的主机名的设置是否满足预设要求;
在所述各目标巡检项目包括主机集群中内核模块巡检时,判断主机集群中个主机的内核开启情况是否满足部署对应的功能模块的要求。
5.如权利要求2或3所述的方法,其特征在于,在所述各目标巡检项目包括主机集群部署拓扑巡检时,基于所述各目标巡检项目对所述主机集群进行巡检操作的步骤包括:
根据主机集群中各主机对应部署的功能模块,对各主机进行分类处理。
6.一种巡检装置,其特征在于,应用于巡检终端,所述巡检终端与待检测的用于部署融合平台的主机集群通信连接,所述装置包括:
监测单元,用于监测用户触发的巡检项目的选择指令,并基于所述选择指令确定需巡检的各目标巡检项目;
巡检单元,用于基于所述各目标巡检项目对所述主机集群进行巡检操作;
生成单元,用于将所述各目标巡检项目中已完成巡检的项目标记为已完成状态,并生成对应的巡检报告。
7.如权利要求6所述的装置,其特征在于,待部署融合平台为融合了至少两个功能模块的平台,所述至少两个功能模块包括人工智能模块,大数据模块和云计算模块;
所述巡检项目包括以下任意一种或组合:
融合平台的部署模式巡检,主机集群中各主机的基础环境巡检,主机集群中各主机间的网络巡检,主机集群中各主机所支持的协议巡检,主机集群中各主机的磁盘及IO巡检,主机群集中各主机的基础参数巡检,主机集群中内核模块巡检和主机集群部署拓扑巡检。
8.如权利要求7所述的装置,其特征在于,在所述各目标巡检项目包括融合平台的部署模式巡检,基于所述各目标巡检项目对所述主机集群进行巡检操作时,所述巡检单元具体用于:
判断所述待部署的融合平台的部署方式为分布式部署模式或超融合部署模式;
在判定所述待部署的融合平台的部署方式为超融合部署方式时,将主机集群中各主机的指定端口设置为保留端口,其中,所述指定端口为在主机上部署人工智能模块、大数据模块或云计算模块时必需使用的端口。
9.如权利要求7或8所述的装置,其特征在于,在基于所述各目标巡检项目对所述主机集群进行巡检操作时,所述巡检单元具体用于:
在所述各目标巡检项目包括主机集群中各主机的基础环境巡检时,判断主机集群中各主机的型号、品牌、操作系统等参数是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机集群中各主机间的网络巡检时,判断主机集群中各主机间是否互通;
在所述各目标巡检项目包括主机集群中各主机所支持的协议巡检时,判断主机集群中各主机是否支持SSH,并判断主机集群中各管理主机是否支持VXLAN;
在所述各目标巡检项目包括主机集群中各主机的磁盘及IO巡检时,判断主机集群中各主机的磁盘容量大小和IO性能大小是否满足部署对应的功能模块的要求;
在所述各目标巡检项目包括主机群集中各主机的基础参数巡检时,判断主机集群中各主机的主机名的设置是否满足预设要求;
在所述各目标巡检项目包括主机集群中内核模块巡检时,判断主机集群中个主机的内核开启情况是否满足部署对应的功能模块的要求。
10.如权利要求7或8所述的装置,其特征在于,在所述各目标巡检项目包括主机集群部署拓扑巡检,基于所述各目标巡检项目对所述主机集群进行巡检操作时,所述巡检单元具体用于:
根据主机集群中各主机对应部署的功能模块,对各主机进行分类处理。
CN202010692083.0A 2020-07-17 2020-07-17 一种巡检方法及装置 Pending CN112000539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010692083.0A CN112000539A (zh) 2020-07-17 2020-07-17 一种巡检方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010692083.0A CN112000539A (zh) 2020-07-17 2020-07-17 一种巡检方法及装置

Publications (1)

Publication Number Publication Date
CN112000539A true CN112000539A (zh) 2020-11-27

Family

ID=73468237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010692083.0A Pending CN112000539A (zh) 2020-07-17 2020-07-17 一种巡检方法及装置

Country Status (1)

Country Link
CN (1) CN112000539A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472577A (zh) * 2021-06-30 2021-10-01 济南浪潮数据技术有限公司 一种集群巡检方法、装置及系统
CN114090382A (zh) * 2021-11-22 2022-02-25 北京志凌海纳科技有限公司 超融合集群健康巡检方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725699A (zh) * 2004-07-20 2006-01-25 中兴通讯股份有限公司 通讯网络自动巡检的方法
CN1852175A (zh) * 2005-09-08 2006-10-25 华为技术有限公司 一种巡检方法和一种巡检系统
CN1913452A (zh) * 2006-08-18 2007-02-14 亿阳信通股份有限公司 一种通信网络智能巡检的方法及设备
CN101043692A (zh) * 2007-04-30 2007-09-26 华为技术有限公司 巡检方法及巡检服务器
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
CN108055165A (zh) * 2017-12-12 2018-05-18 浙江齐治科技股份有限公司 设备巡检的方法以及设备巡检装置
CN108959037A (zh) * 2018-07-13 2018-12-07 山东汇贸电子口岸有限公司 一种数据中心自动巡检方法及装置
CN109118607A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 设备巡检方法和巡检装置
CN109726830A (zh) * 2018-11-15 2019-05-07 东软集团股份有限公司 设备巡检方法、装置、电子设备及存储介质
CN110691009A (zh) * 2019-10-11 2020-01-14 浪潮云信息技术有限公司 一种网络设备巡检方法和装置
CN110706364A (zh) * 2019-09-30 2020-01-17 凌云天博光电科技股份有限公司 一种应用于网络设备运维的巡检方法及装置
CN110908875A (zh) * 2019-11-27 2020-03-24 中国银行股份有限公司 基于操作终端的巡检方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1725699A (zh) * 2004-07-20 2006-01-25 中兴通讯股份有限公司 通讯网络自动巡检的方法
CN1852175A (zh) * 2005-09-08 2006-10-25 华为技术有限公司 一种巡检方法和一种巡检系统
CN1913452A (zh) * 2006-08-18 2007-02-14 亿阳信通股份有限公司 一种通信网络智能巡检的方法及设备
CN101043692A (zh) * 2007-04-30 2007-09-26 华为技术有限公司 巡检方法及巡检服务器
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
CN108055165A (zh) * 2017-12-12 2018-05-18 浙江齐治科技股份有限公司 设备巡检的方法以及设备巡检装置
CN108959037A (zh) * 2018-07-13 2018-12-07 山东汇贸电子口岸有限公司 一种数据中心自动巡检方法及装置
CN109118607A (zh) * 2018-07-26 2019-01-01 郑州云海信息技术有限公司 设备巡检方法和巡检装置
CN109726830A (zh) * 2018-11-15 2019-05-07 东软集团股份有限公司 设备巡检方法、装置、电子设备及存储介质
CN110706364A (zh) * 2019-09-30 2020-01-17 凌云天博光电科技股份有限公司 一种应用于网络设备运维的巡检方法及装置
CN110691009A (zh) * 2019-10-11 2020-01-14 浪潮云信息技术有限公司 一种网络设备巡检方法和装置
CN110908875A (zh) * 2019-11-27 2020-03-24 中国银行股份有限公司 基于操作终端的巡检方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472577A (zh) * 2021-06-30 2021-10-01 济南浪潮数据技术有限公司 一种集群巡检方法、装置及系统
CN113472577B (zh) * 2021-06-30 2023-07-25 济南浪潮数据技术有限公司 一种集群巡检方法、装置及系统
CN114090382A (zh) * 2021-11-22 2022-02-25 北京志凌海纳科技有限公司 超融合集群健康巡检方法和装置
CN114090382B (zh) * 2021-11-22 2022-07-22 北京志凌海纳科技有限公司 超融合集群健康巡检方法和装置

Similar Documents

Publication Publication Date Title
US11016836B2 (en) Graphical user interface for visualizing a plurality of issues with an infrastructure
US7451201B2 (en) Policy driven autonomic computing-specifying relationships
JP6788178B2 (ja) 設定支援プログラム、設定支援方法及び設定支援装置
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
CN106533753B (zh) 一种分布式系统的角色配置方法及装置
US9223601B2 (en) Control device, control method, and non-transitory computer-readable storage medium for a virtual system deployment
US8381222B2 (en) Policy driven automation—specifying equivalent resources
CN107491371B (zh) 一种监控部署的方法以及装置
US20200371902A1 (en) Systems and methods for software regression detection
CN112000539A (zh) 一种巡检方法及装置
CN109697078B (zh) 非高可用性组件的修复方法、大数据集群和容器服务平台
CN114884838A (zh) Kubernetes组件的监控方法及服务器
CN112162761A (zh) 自动化部署项目至公有云容器化平台的方法、系统及设备
CN109062580B (zh) 一种虚拟化环境部署方法和部署装置
US20180196708A1 (en) System management apparatus and system management method
US20050071449A1 (en) Policy driven autonomic computing-programmatic policy definitions
CN115204539A (zh) 主机安全基线管理方法、装置、设备及介质
CN112214551A (zh) 数据同步方法、系统、装置、电子设备、存储介质
CN110471767B (zh) 一种设备的调度方法
CN112817869A (zh) 测试方法、装置、介质及电子设备
CN117234660A (zh) 基于Docker容器技术的微服务架构下的软件部署及运维的方法
CN114064343B (zh) 一种区块链的异常处置方法及装置
CN114489951A (zh) 目标应用的容器管理方法、装置、电子设备及存储介质
CN102053862B (zh) 一种即时通讯软件中的素材文件的检验方法和设备
CN114996955A (zh) 一种云原生混沌工程实验的靶场环境构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201127

RJ01 Rejection of invention patent application after publication