CN103713986A - 一种多结点mic卡检测方法及系统 - Google Patents

一种多结点mic卡检测方法及系统 Download PDF

Info

Publication number
CN103713986A
CN103713986A CN201410016682.5A CN201410016682A CN103713986A CN 103713986 A CN103713986 A CN 103713986A CN 201410016682 A CN201410016682 A CN 201410016682A CN 103713986 A CN103713986 A CN 103713986A
Authority
CN
China
Prior art keywords
node
ssh
mic
mic card
communicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410016682.5A
Other languages
English (en)
Inventor
陈博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410016682.5A priority Critical patent/CN103713986A/zh
Publication of CN103713986A publication Critical patent/CN103713986A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种多结点MIC卡检测方法及系统,应用于Linux集群管理领域:上述方法包括以下步骤:获取/etc/hosts下各结点IP地址并根据获取的所述各结点IP地址以ssh方式访问各结点;对可连通结点上MIC卡状况进行检测并根据检测结果,进行变量标识并用相应颜色显示;通过实施本发明的技术方案,通过多结点MIC卡检测脚本工具实现多个结点上MIC卡是否正常工作的自动化检测,并通过不同的颜色来提醒操作者各结点的状态,减少手动检测的步骤和工作量。

Description

一种多结点MIC卡检测方法及系统
技术领域
本发明涉及Linux集群管理领域,尤其涉及一种多结点MIC卡检测方法及系统。
背景技术
随着集群以及超级计算机计算能力的快速提高以及广泛应用,可以预见采用加速部件(如MIC卡)进行并行计算加速的情形会越来越多;加速部件可以提供几十甚至成百上千的并行进程,并行进程中的资源竞争是显而易见的,这也使得在使用加速部件时,内存溢出以及其他异常现象会使得加速部件工作不正常。
目前,检测多结点MIC卡,需要手动去登录每一个结点并验证MIC是否工作正常,如果对于上百或上千结点的MIC卡进行检测,将要手动进行登录结点以及MIC基本信息查询及查看等大量操作,此时手动输入将会增加人为因素出错几率,所以对各结点上的加速部件是否正常工作的自动检测,是当前亟待解决的问题。
发明内容
本发明提供一种多结点MIC卡检测方法及系统,以解决上述问题。
本发明提供一种多结点MIC卡检测方法。上述方法包括以下步骤:
获取/etc/hosts下各结点IP地址并根据获取的所述各结点IP地址以ssh方式访问各结点;
对可连通结点上MIC卡状况进行检测并根据检测结果,进行变量标识并用相应颜色显示。
本发明还提供一种多结点MIC卡检测系统,包括:获取模块、访问模块、检测模块、反馈模块;所述获取模块通过所述访问模块与检测模块相连;所述检测模块与所述反馈模块相连;
所述获取模块,用于获取/etc/hosts下各结点IP地址并将获取的各结点IP地址输出给所述访问模块;
所述访问模块,用于根据获取的所述各结点IP地址以ssh方式访问各结点;
所述检测模块,用于对可连通结点上MIC卡状况进行检测并将检测结果输出给所述反馈模块;
所述反馈模块,用于根据检测结果,进行变量标识并用相应颜色显示。
通过实施本发明的技术方案,通过多结点MIC卡检测脚本工具实现多个结点上MIC卡是否正常工作的自动化检测,并通过不同的颜色来提醒操作者各结点的状态,减少手动检测的步骤和工作量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明的实施例1的多结点MIC卡检测方法流程图;
图2所示为本发明的实施例2的多结点MIC卡检测系统结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明提供一种多结点MIC卡检测方法,其特征在于,包括以下步骤:
获取/etc/hosts下各结点IP地址并根据获取的所述各结点IP地址以ssh方式访问各结点;
对可连通结点上MIC卡状况进行检测并根据检测结果,进行变量标识并用相应颜色显示。
其中,获取/etc/hosts下各结点IP地址的过程为:通过脚本读入Linux系统/etc/hosts文件获得各结点IP地址。
其中,将获得的各结点IP地址传入变量中。
其中,根据获取的所述各结点IP地址以ssh方式访问各结点的过程包括:各结点ssh检测及ssh登陆。
其中,各结点ssh检测及ssh登陆是指:依据获得的所述各节点IP地址,进行ssh连通性检测,并登陆到可连通结点。
其中,依据获得的所述各节点IP地址,进行ssh连通性检测,并登陆到可连通结点的过程为:对包含IP地址的变量,使用ssh命令连接相应IP地址,并获得执行ssh命令的返回值,如返回值正常则ssh可连通,如返回至异常则ssh无法连通,对于可连通的IP地址进行ssh登陆。
其中,对可连通结点上MIC卡状况进行检测的过程为:登陆到可连通结点并检测所述可连通结点上MIC卡是否正常工作。
其中,登陆到可连通结点并检测所述可连通结点上MIC卡是否正常工作的过程为:执行Linux系统命令lspci查询pci总线相关信息,将查询获得的pci总线相关信息进行筛选,如果有MIC卡的相关信息,说明系统正常识别MIC卡;若正常识别MIC卡,则执行MIC卡驱动自带命令micinfo,将查询获得的MIC卡相关信息进行筛选,如果有异常信息,说明MIC卡工作异常。
其中,根据检测结果,进行变量标识并用相应颜色显示的过程为:若MIC卡识别异常或MIC卡相关信息异常,则标识该结点的相应变量,并以红色字体闪烁显示该结点及MIC编号;若MIC卡识别正常并且MIC卡相关信息正常,则标识该结点的相应变量,并以绿色字体显示该结点及MIC编号。
本发明通过脚本工具来达到简化操作的目的,适用于多结点MIC卡检测脚本工具主要分为:获取/etc/hosts下各结点IP地址;各结点ssh检测及ssh登陆;各结点MIC状况检测;各结点MIC状况变量标识并用相应颜色显示。
其中:获取/etc/hosts下各结点IP地址是通过脚本读入Linux系统/etc/hosts文件获得各结点IP地址;将获得的各结点IP地址传入变量中。
其中,各结点ssh检测及ssh登陆是依据所获得的IP地址,进行ssh连通性检测,并登陆到可连通结点;各结点ssh检测及ssh登陆是依据所获得的IP地址,进行ssh连通性检测,并登陆到可连通结点的具体过程为:对包含IP地址的变量,使用ssh命令连接相应IP地址,并获得执行ssh命令的返回值,如返回值正常则ssh可连通,如返回至异常则ssh无法连通,对于可连通的IP地址进行ssh登陆。
其中,各结点MIC状况检测是指:登陆到可连通结点并检测所述可连通结点上MIC卡是否正常工作;登陆到可连通结点并检测所述可连通结点上MIC卡是否正常工作的具体过程为:执行Linux系统命令lspci查询pci总线相关信息,将查询获得的pci总线相关信息进行筛选,如果有MIC卡的相关信息,说明系统正常识别MIC卡;若正常识别MIC卡,则执行MIC卡驱动自带命令micinfo,将查询获得的MIC卡相关信息进行筛选,如果有异常信息,说明MIC卡工作异常。
各结点MIC状况变量标识并用相应颜色显示是指:依据MIC卡是否正常工作来标识变量,并用相应的颜色进行显示;其中,各结点MIC状况变量标识并用相应颜色显示是指:依据MIC卡是否正常工作来标识变量,并用相应的颜色进行显示的具体过程为:若MIC卡识别异常或MIC卡相关信息异常,则标识该结点的相应变量,并以红色字体闪烁显示该结点及MIC编号;若MIC卡识别正常并且MIC卡相关信息正常,则标识该结点的相应变量,并以绿色字体显示该结点及MIC编号。
图1所示为本发明的实施例1的多结点MIC卡检测方法流程图,包括以下步骤:
步骤101:获取/etc/hosts下各结点IP地址并根据获取的所述各结点IP地址以ssh方式访问各结点;
步骤102:对可连通结点上MIC卡状况进行检测并根据检测结果,进行变量标识并用相应颜色显示。
图2所示为本发明的实施例2的多结点MIC卡检测系统结构图,包括:获取模块、访问模块、检测模块、反馈模块;所述获取模块通过所述访问模块与检测模块相连;所述检测模块与所述反馈模块相连;
所述获取模块,用于获取/etc/hosts下各结点IP地址并将获取的各结点IP地址输出给所述访问模块;
所述访问模块,用于根据获取的所述各结点IP地址以ssh方式访问各结点;
所述检测模块,用于对可连通结点上MIC卡状况进行检测并将检测结果输出给所述反馈模块;
所述反馈模块,用于根据检测结果,进行变量标识并用相应颜色显示
通过实施本发明的技术方案,通过多结点MIC卡检测脚本工具实现多个结点上MIC卡是否正常工作的自动化检测,并通过不同的颜色来提醒操作者各结点的状态,减少手动检测的步骤和工作量。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多结点MIC卡检测方法,其特征在于,包括以下步骤:
获取/etc/hosts下各结点IP地址并根据获取的所述各结点IP地址以ssh方式访问各结点;
对可连通结点上MIC卡状况进行检测并根据检测结果,进行变量标识并用相应颜色显示。
2.根据权利要求1所述的方法,其特征在于:获取/etc/hosts下各结点IP地址的过程为:通过脚本读入Linux系统/etc/hosts文件获得各结点IP地址。
3.根据权利要求2所述的方法,其特征在于:将获得的各结点IP地址传入变量中。
4.根据权利要求3所述的方法,其特征在于:根据获取的所述各结点IP地址以ssh方式访问各结点的过程包括:各结点ssh检测及ssh登陆。
5.根据权利要求4所述的方法,其特征在于:各结点ssh检测及ssh登陆是指:依据获得的所述各节点IP地址,进行ssh连通性检测,并登陆到可连通结点。
6.根据权利要求5所述的方法,其特征在于:依据获得的所述各节点IP地址,进行ssh连通性检测,并登陆到可连通结点的过程为:对包含IP地址的变量,使用ssh命令连接相应IP地址,并获得执行ssh命令的返回值,如返回值正常则ssh可连通,如返回至异常则ssh无法连通,对于可连通的IP地址进行ssh登陆。
7.根据权利要求1所述的方法,其特征在于:对可连通结点上MIC卡状况进行检测的过程为:登陆到可连通结点并检测所述可连通结点上MIC卡是否正常工作。
8.根据权利要求7所述的方法,其特征在于:登陆到可连通结点并检测所述可连通结点上MIC卡是否正常工作的过程为:执行Linux系统命令lspci查询pci总线相关信息,将查询获得的pci总线相关信息进行筛选,如果有MIC卡的相关信息,说明系统正常识别MIC卡;若正常识别MIC卡,则执行MIC卡驱动自带命令micinfo,将查询获得的MIC卡相关信息进行筛选,如果有异常信息,说明MIC卡工作异常。
9.根据权利要求8所述的方法,其特征在于:根据检测结果,进行变量标识并用相应颜色显示的过程为:若MIC卡识别异常或MIC卡相关信息异常,则标识该结点的相应变量,并以红色字体闪烁显示该结点及MIC编号;若MIC卡识别正常并且MIC卡相关信息正常,则标识该结点的相应变量,并以绿色字体显示该结点及MIC编号。
10.一种多结点MIC卡检测系统,其特征在于,包括:获取模块、访问模块、检测模块、反馈模块;所述获取模块通过所述访问模块与检测模块相连;所述检测模块与所述反馈模块相连;
所述获取模块,用于获取/etc/hosts下各结点IP地址并将获取的各结点IP地址输出给所述访问模块;
所述访问模块,用于根据获取的所述各结点IP地址以ssh方式访问各结点;
所述检测模块,用于对可连通结点上MIC卡状况进行检测并将检测结果输出给所述反馈模块;
所述反馈模块,用于根据检测结果,进行变量标识并用相应颜色显示。
CN201410016682.5A 2014-01-14 2014-01-14 一种多结点mic卡检测方法及系统 Pending CN103713986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410016682.5A CN103713986A (zh) 2014-01-14 2014-01-14 一种多结点mic卡检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410016682.5A CN103713986A (zh) 2014-01-14 2014-01-14 一种多结点mic卡检测方法及系统

Publications (1)

Publication Number Publication Date
CN103713986A true CN103713986A (zh) 2014-04-09

Family

ID=50406986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410016682.5A Pending CN103713986A (zh) 2014-01-14 2014-01-14 一种多结点mic卡检测方法及系统

Country Status (1)

Country Link
CN (1) CN103713986A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487949A (zh) * 2015-11-25 2016-04-13 浪潮电子信息产业股份有限公司 一种mic卡的测试方法及装置
CN108829533A (zh) * 2018-05-22 2018-11-16 中国科学技术大学苏州研究院 一种智能计算机系统的容错检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510343A (zh) * 2011-11-16 2012-06-20 广东新支点技术服务有限公司 基于远程检测和电源管理的高可用集群系统假死解决方法
CN102902589A (zh) * 2012-08-31 2013-01-30 浪潮电子信息产业股份有限公司 一种集群mic作业的管理及调度方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510343A (zh) * 2011-11-16 2012-06-20 广东新支点技术服务有限公司 基于远程检测和电源管理的高可用集群系统假死解决方法
CN102902589A (zh) * 2012-08-31 2013-01-30 浪潮电子信息产业股份有限公司 一种集群mic作业的管理及调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谷珊,陈志阳,IBM DEVELOPERWORKS 中国: "《http://www.ibm.com/developerworks/cn/linux/l-cn-hatesting/》", 25 March 2010, article "Linux 集群环境中高可用性实施和测试", pages: 1 - 8 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487949A (zh) * 2015-11-25 2016-04-13 浪潮电子信息产业股份有限公司 一种mic卡的测试方法及装置
CN108829533A (zh) * 2018-05-22 2018-11-16 中国科学技术大学苏州研究院 一种智能计算机系统的容错检测方法
CN108829533B (zh) * 2018-05-22 2022-03-29 中国科学技术大学苏州研究院 一种智能计算机系统的容错检测方法

Similar Documents

Publication Publication Date Title
CN105205003A (zh) 一种基于集群化系统的自动化测试方法和装置
CN102479138A (zh) 利用图像进行错误侦测的系统及方法
CN104182335A (zh) 软件测试方法和装置
CN107168275B (zh) 一种继电保护功能模块自动识别配置方法及装置
CN107659465B (zh) 一种整车can总线错误帧的排查装置及排查方法
CN104317722A (zh) 一种基于Junit的单元测试方法及装置
CN112463432A (zh) 基于指标数据的巡检方法、装置及系统
CN103713986A (zh) 一种多结点mic卡检测方法及系统
CN116032581A (zh) 网络设备安全管理方法及电子设备
CN116401113B (zh) 一种异构众核架构加速卡的环境验证方法、装置及介质
CN106612213B (zh) 设备测试方法及装置
CN103425558A (zh) 一种基于测试配置表实现板卡io口测试的方法
CN111400191A (zh) 网页安全测试方法、装置及计算机可读存储介质
CN105487925A (zh) 数据扫描方法和装置
CN107704263B (zh) 一种云环境下数据库管理方法及其装置
US20220269901A1 (en) Image processing method, apparatus, computer device and storage medium
CN114896112A (zh) 一种硬盘背板点灯的自动化测试方法、装置
CN114418142A (zh) 设备巡检方法及装置
CA3130988A1 (en) Method and device for identifying repetitive association calculation and computer system
CN203775231U (zh) 一种测试设备
CN110212258B (zh) Bms工程安装配置方法、装置及终端设备
CN104764455B (zh) 一种导航电子地图数据处理方法及装置
CN105352112A (zh) 一种空调机组的运行数据的传输方法及系统
CN111475442A (zh) 多串口扩展电路、多串口升级方法以及多串口电视机板卡
CN107465762B (zh) 一种分布式存储系统的测试方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140409

WD01 Invention patent application deemed withdrawn after publication