CN110611603B - 一种集群网卡监控方法及装置 - Google Patents

一种集群网卡监控方法及装置 Download PDF

Info

Publication number
CN110611603B
CN110611603B CN201910848295.0A CN201910848295A CN110611603B CN 110611603 B CN110611603 B CN 110611603B CN 201910848295 A CN201910848295 A CN 201910848295A CN 110611603 B CN110611603 B CN 110611603B
Authority
CN
China
Prior art keywords
network card
cluster network
working state
node
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910848295.0A
Other languages
English (en)
Other versions
CN110611603A (zh
Inventor
史宗华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910848295.0A priority Critical patent/CN110611603B/zh
Publication of CN110611603A publication Critical patent/CN110611603A/zh
Application granted granted Critical
Publication of CN110611603B publication Critical patent/CN110611603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种集群网卡监控方法及装置,所述方法包括:查询全部集群网卡IP地址,并创建对应的周期检测任务;在一个检测周期内,查询并储存所述集群网卡当前工作状态;比较所述本周期工作状态和上一周期存储的工作状态;当二者不同时,上报分布式存储系统。通过解析IP网段将集群网卡添加至周期检测任务并定期检测集群网卡的工作状态。当某个集群网卡出现故障时,将故障状态同步至全部节点进行存储并上报分布式存储系统。由于所述周期检测任务的检测周期很短,远小于分布式存储系统的心跳周期,因此可以及时检测分布式存储系统中集群网卡的故障状态,并快速进行恢复,大大降低了集群网卡故障对业户业务的影响,提升了分布式存储系统的可靠性。

Description

一种集群网卡监控方法及装置
技术领域
本发明涉及分布式存储系统领域,尤其涉及一种集群网卡监控方法及装置。
背景技术
随着大数据技术的发展,元数据的体量也越来越大。对于大数据而言,元数据的存取性能是整个分布式文件系统性能的关键。目前,常见的元数据存储系统可以分为集中式和分布式元存储系统两类。集中式元数据管理架构采用单一的元数据服务器,实现简单。但是存在单点故障等问题。分布式存储系统则将元数据分散在多个节点上。进而解决了元数据服务器的性能瓶颈等问题,并提高了元数据管理架构的可扩展性。
在分布式存储系统中,不但服务器集群和外部网络需要进行通信,多个服务器节点之间也需要进行通信。因此,分布式存储系统中一般会有两种网卡:集群网卡和业务网卡。其中集群网卡用于分布式存储系统中各个存储服务器之间的通信,业务网卡用于服务器集群与外部客户进行通信。在现有技术中,分布式存储系统可以定期对业务网卡进行扫描,当业务网卡出现故障时及时对其进行修复。
但是当集群网卡出现故障时,当前分布式存储系统无法及时发现故障,只能依靠分布式存储系统每个心跳周期内的故障检测机制发现故障。而所述心跳周期时间较长,无法实现集群网卡故障的及时发现及上报。因此,当分布式存储系统中集群网卡出现故障时,极易影响客户的存储业务,大幅度降低了分布式存储系统的可靠性。
发明内容
有鉴于此,有鉴于此,本发明主要目的在于提供一种分布式存储系统中集群网卡监控方法及装置,实现对集群网卡的实时检测及故障上报,以到达提升分布式存储系统的稳定性的目的。
为了实现上述目的,本发明提供了以下技术方案:
一种集群网卡监控方法,查询集群网卡IP地址并将IP地址对应的集群网卡加入周期检测任务,该方法包括:
基于所述周期检测任务,在一个检测周期内,根据所述IP地址访问所述集群网卡并获取所述集群网卡当前工作状态;
比较所述本周期工作状态和上一周期工作状态;当检测到工作状态变为故障状态时,上报分布式存储系统并储存所述工作状态。
可选地,所述查询集群网卡地址并创建周期监测任务包括:
从存储集群配置文件中解析集群使用的IP网段;
根据所述IP网段在存储节点中查找对应的存储集群IP地址;
将所述IP地址对应的集群网卡加入分布式存储系统的周期检测任务中,并设置检测周期。
可选地,所述查询并存储集群网卡当前工作状态在分布式存储系统各个节点中进行。
可选地,所述比较集群网卡工作状态并上报故障包括:
节点检测到所述集群网卡当前工作状态为故障时,将所述节点内存储的所述集群网卡当前工作状态设为故障状态并通知主节点;
所述主节点将本周期集群网卡当前工作状态与上一周期储存的工作状态进行比较;
当检测到所述集群网卡当前工作状态从正常状态变为故障状态时,所述主节点通知分布式存储系统所述集群网卡出现故障。
可选地,所述主节点为每个检测周期内由分布式存储系统进行配置的。
可选地,所述主节点通知分布式存储系统所述集群网卡出现故障进一步包括:
所述主节点根据节点内存储的集群网卡与节点编号的对应关系查找节点对应的集群网卡,并将集群网卡和编号上报至分布式存储系统。
可选地,所述方法进一步包括:
当所述节点检测到存储集群网卡工作状态恢复正常时,将所述节点内存储的所述集群网卡当前工作状态设为正常状态并通知所述主节点;
更新所述主节点内存储的集群网卡当前工作状态为正常状态。
一种集群网卡监控装置,所述装置包括:
任务创建单元,用于获取所述集群网卡的IP地址并创建周期检测任务;
故障监测单元,用于检测所述集群网卡工作状态,当检测到故障状态时上报分布式存储系统;
存储单元,用于存储所述集群网卡工作状态及节点编号和所述集群网卡对应关系。
可选地,所述获取单元包括:
解析单元,用于解析所述存储集群使用的IP网段;
查找单元,用于查找IP网段对应集群网卡的IP地址。
可选地,所述故障监测单元包括:
检测单元,用于检测所述集群网卡工作状态;
比较单元,用于比较所述工作状态和所述存储单元中存储的工作状态是否相同;
上报单元,用于将所述集群网卡故障状态上报分布式存储系统。
通过上述技术方案可知,本发明有如下有益效果:
本发明实施例提供了一种集群网卡监控方法及装置,通过解析IP网段将集群网卡添加至周期检测任务并定期检测集群网卡的工作状态。当某个集群网卡出现故障时,将故障状态同步至全部节点进行存储并上报分布式存储系统。由于所述周期检测任务的检测周期很短,远小于分布式存储系统的心跳周期,因此可以及时检测分布式存储系统中集群网卡的故障状态,并快速进行恢复,大大降低了集群网卡故障对业户业务的影响,提升了分布式存储系统的可靠性。
附图说明
为更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的集群网卡监控方法流程示意图。
图2为本发明一实施例提供的周期检测任务创建流程示意图。
图3为本发明一实施例提供的周期检测任务执行流程示意图。
图4为本发明一实施例提供的集群网卡监故障监测流程图。
图5为本发明一实施例提供的集群网卡监控装置示意图。
具体实施方式
分布式存储系统,是将数据分散存储在多台独立的设备上,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,提高了系统的可靠性、可用性和存取效率,易于扩展。对于分布式存储系统,可以通过集群网卡和业务网卡实现数据的传输。其中业务网卡用于集群和外部客户的通信,集群网卡用于分布式存储系统内部各个服务器之间相互传输数据。也就是说,集群网卡是分布式存储系统实现“分布”的关键。
目前,分布式存储系统可以实现对业务网卡的实时故障监测,但是对于集群网卡,现有技术无法及时发现其故障,只能通过分布式存储系统本身的周期“心跳”对集群网卡进行故障检测。由于分布式存储系统心跳周期较长,无法实现实时故障监测。因此,当集群网卡出现故障时,无法得到及时维修,极易影响存储业务的进行。
为了解决上述问题,本申请实施例提出了一种集群网卡的监控方法及装置,通过查找IP地址将集群网卡加入分布式存储系统的周期检测任务中,并在每个检测周期内,检测各个节点对应的集群网卡是否出现故障。当发现故障时通知分布式存储系统。实现了集群网卡的实时监测。以下结合说明书附图对本发明的优选实施例进行说明。
图1为本发明一实施例提供的集群网卡监控方法流程示意图,包括:
101:查询全部集群网卡IP地址,并创建对应的周期检测任务。
本实施例中“故障”的概念可以是硬件上的,如网卡过热烧毁;也可以是软件上的,如网卡负载过大导致带宽变小等。而无论是硬件故障还是软件故障,对故障进行监测首先需要将监测对象加入监测任务中,也就是“找到”集群网卡。
当然,本实施例中“找到”集群网卡的动作不是现实意义上的“找到”,而是计算机网络意义上的“找到。作为一种特殊的网卡,分布式存储系统中的集群网卡与传统网卡类似,都拥有唯一的IP地址以及MAC地址。集群网卡的MAC地址是网卡生产商在生产时就预先配置好的,而IP地址则可以在服务器建立时进行配置,相较于MAC地址更加灵活。因此本实施例中可以通过查找集群网卡对应的IP地址,将集群网卡添加至周期检测任务中。
102:在一个检测周期内,查询并储存所述集群网卡当前工作状态。
本实施例中的周期检测任务是一个周期型任务,没过一个检测周期,分布式存储系统中各个节点就会自动执行一遍任务。其中,所述任务周期可以是一个较短的时间间隔。当所述任务周期小于分布式存储系统本身的心跳周期且有足够的冗余时间进行故障处理时,则可以认为周期检测任务实现了对分布式存储系统中集群网卡的实时监测。
集群网卡可以有多种意义上的“工作状态”。如“开机”、“关机”、“繁忙”、“空闲”、“上传”、“下载”等。这些都可以是集群网卡的工作状态。本实施例中的“工作状态”可以包括集群网卡的各种状态,但是可以采用“正常状态”和“故障状态”唯二的两种状态体现集群网卡的工作状态,以能实现集群网卡的故障监测。也就是说,本实施例中的工作状态可以是“正常状态”和“故障状态”,其中“正常状态”可以包括集群网卡正常工作时的一切状态。
另外,本实施例中查询并存储集群网卡当前工作状态的任务是在分布式存储系统中各个节点内完成的。其中,每个节点可以对应一个或者多个服务器,每个服务器可以对应一块或者多块集群网卡。因此在执行周期监测任务时,各个节点可以存储全部集群网卡的工作状态以及各个节点和集群网卡的对应关系。便于后续发现故障状态时根据节点找到对应的集群网卡。
103:比较所述当前工作状态和上一周期存储的工作状态,当二者不同时,将故障网卡上报分布式存储系统。
节点获取集群网卡当前工作状态后,可以将当前工作状态与节点内存储的工作状态相比较,当二者不同时,说明集群网卡当前出现了故障。此时需要主动对集群网卡进行故障排除,防止故障进一步影响分布式存储系统业务的进行。节点可以将故障网卡上报给分布式存储系统。
图2为一实施例提供的周期检测任务创建流程示意图,包括:
201:从存储集群配置文件中解析集群使用的IP网段。
在本实施例中,分布式存储系统在存储集群配置文件中存储了系统所用的全部网段,其中既包括了业务网卡的IP地址,还包括集群网卡的IP地址。而由于分布式存储系统中集群网卡数量较大,因此多个集群网卡的IP地址可以以IP网段的形式储存在存储集群配置文件中。
202:根据所述IP网段在存储节点中查找对应的存储集群IP地址。
在完成IP网段的查找后,分布式存储系统可以在存储节点内找到网段中对应的存储集群IP地址,也就是每块集群网卡对应的IP地址。
203:将所述IP地址对应的集群网卡加入分布式存储系统的周期检测任务中,并设置检测周期。
在得到集群网卡的IP地址后,可以将IP地址对应的集群网卡加入分布式存储系统的周期检测任务中。在每个检测周期内通过集群网卡的IP地址对其进行访问,进行后续的工作状态查询。
本实施例中的周期检测任务是一个周期型任务,没过一个检测周期,分布式存储系统中各个节点就会自动执行一遍任务。其中,所述任务周期可以是一个较短的时间间隔。当所述任务周期小于分布式存储系统本身的心跳周期且有足够的冗余时间进行故障处理时,则可以认为周期检测任务实现了对分布式存储系统中集群网卡的实时监测。
图3为一实施例提供的周期检测任务执行流程示意图,包括:
301:当节点检测到其对应的集群网卡当前工作状态为故障状态时,将本节点内存储的集群网卡当前工作状态设为故障,并发送至主节点。
在本实施例中,分布式存储系统可以包括多个节点,每个节点对应着一块或多块集群网卡。在周期检测任务任务执行时,节点可以通过指令或者访问查询集群网卡当前的工作状态。同时,本实施例中节点还可以存储分布式存储系统内全部集群网卡的工作状态以及各个节点和集群网卡的对应关系。
当节点检测到其对应的集群网卡出现故障时,节点可以将自身存储的集群网卡工作状态更新为故障状态,并将所述故障状态发送给主节点。本实施例中的主节点可以是分布式存储系统中的任意一个节点,由网络管理员预先配置或在每个检测周期内进行配置。
302:所述主节点将本周期集群网卡当前工作状态与上一周期储存的工作状态进行比较。
本实施例中主节点可以接收并存储分布式存储系统中全部节点发送的集群网卡工作状态,并对比这个检测周期获取的集群网卡工作状态和预先存储的工作状态是否相同。当主节点预先存储的集群网卡工作状态为正常状态、本周期接收到的工作状态为正常状态时,不进行后续操作;当主节点预先存储的集群网卡工作状态为故障状态、本周期接收到的工作状态为故障状态时,不进行后续操作;当主节点预先存储的集群网卡工作状态为故障状态、本周期接收到的工作状态为正常状态时,将主节点内存储的集群网卡当前工作状态更改为正常状态并上报分布式存储系统。
303:当检测到所述集群网卡当前工作状态从正常状态变为故障状态时,所述主节点根据主节点存储的集群网卡和节点编号找到所述故障网卡,并通知分布式存储系统所述集群网卡故障。
当主节点预先存储的集群网卡工作状态为正常状态、本周期接收到的故障状态为正常状态时,可以认为集群网卡在本周期出现了故障。此时主节点可以根据主节点存储的集群网卡和节点编号找到具体出故障的集群网卡,并上报分布式存储系统该集群网卡的故障状态,以确保最快速度发现故障网卡并进行维修,减少对业务的影响。
在一个实施例中,主节点可以是在每个检测周期开始时进行配置的。防止主节点网卡损坏导致无法和其他节点进行通信。
在一个实施例中,所述节点可以存储全部集群网卡的工作状态和分布式存储系统中各个节点和集群网卡的对应关系。
在一个实施例中,所述节点检测到集群网卡故障后,可以将故障状态发送至分布式存储系统中其他节点。防止因集群网卡损坏导致当前节点无法与主节点进行通信而无法及时发送故障状态,进一步提升分布式存储系统的可靠性。
图4为本发明一实施例提供的集群网卡监故障监测流程图,为本发明技术方案的一种实现方式,不代表本发明全部技术方案,图中的3个节点只是为了便于表达设计的,实际可能有多个节点。结合图4和实施例,可进一步对本发明技术方案进行说明,包括:
401:循环获取集群网卡当前工作状态。
在每个检测周期中,各个节点都可以通过检测指令获取与其对应的集群网卡当前工作状态。当工作状态始终为正常状态,即故障未发生时,分布式存储系统进行循环检测。
402:在某个检测周期中,某节点检测到对应的某块集群网卡出现故障、
403:所述节点将所述集群网卡故障状态上报主节点。
404:所述节点将所述集群网卡故障状态上报分布式存储系统中其他节点。
本实施例中,检测到故障出现后,节点可以通知主节点和其他节点故障状态,在其他的实施例中,节点可以仅通知主节点故障状态。
405:主节点比较当前工作状态和存储工作状态。
主节点可以比较本周期接收到的集群网卡工作状态和上一周期接收到集群网卡工作状态。当节点对应集群网卡工作状态未发生改变时,主节点不进行后续操作。
406:分布式存储系统内其他节点更新内部存储中对应集群网卡的工作状态
407:当检测到集群网卡工作状态从正常转为不正常时,主节点通知分布式存储系统。
当集群网卡上一周期工作状态为正常状态,本周期工作状态为故障状态时,说明某个集群网卡在本周期内存出现了故障。此时主节点可以上报分布式存储系统,通知管理人员及时进行故障排查恢复。
408:分布式存储系统中其他节点通知主节点集群网卡故障。
在分布式存储系统中,各个节点或者服务器之间可以通过集群网卡实现网络传输连接,也可以通过双绞线等方式实现物理层面的连接。当某个节点仅对应一块集群网卡,且这块集群网卡出现故障时,此节点和主节点之间的通信有一定概率受到干扰,无法及时发送故障状态。因此,本实施例中节点无法发送故障状态时,可以通过其他节点向主节点发送故障信息。
409:主节点接收其他节点发送的故障信息,查找对应的节点和集群网卡并通知分布式存储系统。
进行故障上报后,分布式存储系统可以启动自身的故障恢复程序,也可以通知管理人员进行人工故障恢复。当故障恢复后,需同步各个节点内存储的节点工作状态。
410:在某个检测周期内,节点检测到集群网卡工作状态从故障状态恢复为正常状态。
在集群网卡故障时,分布式存储系统内各个节点仍然执行周期检测任务,保持对集群网卡的实时检测。但是由于主节点内更新了对应集群网卡的故障状态,得到的比较结果是集群网卡一直保持故障状态不变,可以不向分布式存储系统通知故障情况。
因此,当集群网卡的故障被排除时,节点可以在下一个检测周期查询到节点处于正常状态。
411:节点通知主节点集群网卡的工作状态转为正常状态。
412:节点通知其他节点集群网卡的工作状态转为正常状态。
413:主节点更新保存的工作状态。
414:其他节点更新保存的工作状态。
通过410-414五步,可以实现故障排除后集群显卡工作状态的同步。
本实施例中通过节点对分布式存储系统中的集群显卡进行定时检查,当检测周期较短时,可以认为实现了对集群网卡的实时检测。当节点检测到集群网卡出现故障时,可以通知主节点和存储集群里其他节点。主节点比较接收到的集群网卡当前工作状态和存储的上一周期工作状态是否相同。当检测到集群网卡从正常状态转为故障状态时,可以上报分布式存储系统进行故障维护。当维护结束后,再对全部存储的集群网卡工作状态进行同步更新。通过多个节点之间的配合实现了分布式存储系统中集群网卡的监控。可以有效地防止业务中断,提升分布式存储系统的可靠性。
图5为本发明一实施例提供的集群网卡监控装置示意图,包括:
任务创建单元,用于获取所述集群网卡的IP地址并创建周期检测任务。
故障监测单元,用于检测所述集群网卡工作状态,当检测到故障状态时上报分布式存储系统。
在本实施例中,故障检测单元可以包括分布式存储系统中的各个节点和主节点的一部分内,用于监测集群网卡的工作状态并上报分布式存储系统。
存储单元,用于存储所述集群网卡工作状态及节点编号和所述集群网卡对应关系。
在一个实施例中,所述获取单元包括:
解析单元,用于解析所述存储集群使用的IP网段。
查找单元,用于查找IP网段对应集群网卡的IP地址。
在一个实施例中,所述故障监测单元包括:
检测单元,用于检测所述集群网卡工作状态。
比较单元,用于比较所述工作状态和所述存储单元中存储的工作状态是否相同。
上报单元,用于将所述集群网卡故障状态上报分布式存储系统。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中第一用户和第二用户可以是或者也可以不是物理上分开的,作为初始任务模板的部件可以是或者也可以不是代码模板。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。

Claims (8)

1.一种集群网卡监控方法,其特征在于,查询集群网卡IP地址并将IP地址对应的集群网卡加入周期检测任务,该方法包括:
基于所述周期检测任务,在一个检测周期内,根据所述IP地址访问所述集群网卡并获取所述集群网卡当前工作状态;
比较本周期工作状态和上一周期工作状态;当检测到工作状态变为故障状态时,上报分布式存储系统并储存所述工作状态,包括:
节点检测到所述集群网卡当前工作状态为故障时,将所述节点内存储的所述集群网卡当前工作状态设为故障状态并通知主节点;
所述主节点将本周期集群网卡当前工作状态与上一周期储存的工作状态进行比较;
当检测到所述集群网卡当前工作状态从正常状态变为故障状态时,所述主节点通知分布式存储系统所述集群网卡出现故障。
2.根据权利要求1所述的方法,其特征在于,所述查询集群网卡地址并创建周期监测任务包括:
从存储集群配置文件中解析集群使用的IP网段;
根据所述IP网段在存储节点中查找对应的存储集群IP地址;
将所述IP地址对应的集群网卡加入分布式存储系统的周期检测任务中,并设置检测周期。
3.根据权利要求1所述的方法,其特征在于,所述查询并存储集群网卡当前工作状态在分布式存储系统各个节点中进行。
4.根据权利要求1所述的方法,其特征在于,所述主节点为每个检测周期内由分布式存储系统进行配置的。
5.根据权利要求1所述的方法,其特征在于,所述主节点通知分布式存储系统所述集群网卡出现故障进一步包括:
所述主节点根据节点内存储的集群网卡与节点编号的对应关系查找节点对应的集群网卡,并将集群网卡和编号上报至分布式存储系统。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
当所述节点检测到存储集群网卡工作状态恢复正常时,将所述节点内存储的所述集群网卡当前工作状态设为正常状态并通知所述主节点;
更新所述主节点内存储的集群网卡当前工作状态为正常状态。
7.一种集群网卡监控装置,其特征在于,所述装置包括:
任务创建单元,用于获取所述集群网卡的IP地址并创建周期检测任务;
故障监测单元,用于检测所述集群网卡工作状态,当检测到故障状态时上报分布式存储系统;
存储单元,用于存储所述集群网卡工作状态及节点编号和所述集群网卡对应关系;
其中,所述故障监测单元包括:
检测单元,用于检测所述集群网卡工作状态,具体用于基于所述周期检测任务,在一个检测周期内,根据所述IP地址访问所述集群网卡并获取所述集群网卡当前工作状态;
比较单元,用于比较所述工作状态和所述存储单元中存储的工作状态是否相同,具体用于当节点检测到所述集群网卡当前工作状态为故障时,将所述节点内存储的所述集群网卡当前工作状态设为故障状态并通知主节点;所述主节点将本周期集群网卡当前工作状态与上一周期储存的工作状态进行比较;
上报单元,用于将所述集群网卡故障状态上报分布式存储系统,具体用于当检测到所述集群网卡当前工作状态从正常状态变为故障状态时,所述主节点通知分布式存储系统所述集群网卡出现故障。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
解析单元,用于解析所述存储集群使用的IP网段;
查找单元,用于查找IP网段对应集群网卡的IP地址。
CN201910848295.0A 2019-09-09 2019-09-09 一种集群网卡监控方法及装置 Active CN110611603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910848295.0A CN110611603B (zh) 2019-09-09 2019-09-09 一种集群网卡监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910848295.0A CN110611603B (zh) 2019-09-09 2019-09-09 一种集群网卡监控方法及装置

Publications (2)

Publication Number Publication Date
CN110611603A CN110611603A (zh) 2019-12-24
CN110611603B true CN110611603B (zh) 2021-08-31

Family

ID=68892419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910848295.0A Active CN110611603B (zh) 2019-09-09 2019-09-09 一种集群网卡监控方法及装置

Country Status (1)

Country Link
CN (1) CN110611603B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111212127A (zh) * 2019-12-29 2020-05-29 浪潮电子信息产业股份有限公司 一种存储集群及业务数据的维护方法、装置和存储介质
CN112306720B (zh) * 2020-11-23 2022-06-21 迈普通信技术股份有限公司 业务系统集群管理方法
CN113626280B (zh) * 2021-06-30 2024-02-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN115086208A (zh) * 2022-06-14 2022-09-20 深信服科技股份有限公司 一种网卡检测方法、装置及电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897499A (zh) * 2015-12-07 2016-08-24 乐视云计算有限公司 分布式存储系统节点状态监控方法、中心节点及系统
CN106656682A (zh) * 2017-02-27 2017-05-10 网宿科技股份有限公司 集群心跳检测方法、系统及装置
CN108228308A (zh) * 2016-12-21 2018-06-29 中国电信股份有限公司 虚拟机的监控方法以及装置
CN108628717A (zh) * 2018-03-02 2018-10-09 北京辰森世纪科技股份有限公司 一种数据库系统及监控方法
CN109088794A (zh) * 2018-08-20 2018-12-25 郑州云海信息技术有限公司 一种节点的故障监测方法和装置
CN109257403A (zh) * 2017-07-14 2019-01-22 杭州海康威视数字技术股份有限公司 数据存储方法及设备、分布式存储系统
US10397087B1 (en) * 2016-12-27 2019-08-27 EMC IP Holding Company LLC Status monitoring system and method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060271677A1 (en) * 2005-05-24 2006-11-30 Mercier Christina W Policy based data path management, asset management, and monitoring
CN108847982B (zh) * 2018-06-26 2021-11-19 郑州云海信息技术有限公司 一种分布式存储集群及其节点故障切换方法和装置
CN109951313B (zh) * 2019-01-18 2022-04-19 长江大学 一种Hadoop云平台的监控装置及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897499A (zh) * 2015-12-07 2016-08-24 乐视云计算有限公司 分布式存储系统节点状态监控方法、中心节点及系统
CN108228308A (zh) * 2016-12-21 2018-06-29 中国电信股份有限公司 虚拟机的监控方法以及装置
US10397087B1 (en) * 2016-12-27 2019-08-27 EMC IP Holding Company LLC Status monitoring system and method
CN106656682A (zh) * 2017-02-27 2017-05-10 网宿科技股份有限公司 集群心跳检测方法、系统及装置
CN109257403A (zh) * 2017-07-14 2019-01-22 杭州海康威视数字技术股份有限公司 数据存储方法及设备、分布式存储系统
CN108628717A (zh) * 2018-03-02 2018-10-09 北京辰森世纪科技股份有限公司 一种数据库系统及监控方法
CN109088794A (zh) * 2018-08-20 2018-12-25 郑州云海信息技术有限公司 一种节点的故障监测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"云数据采集系统中管理子系统的设计与实现";彭帆,;《中国优秀硕士学位论文全文数据库-信息科技辑》;20190815;I138-201起全文 *

Also Published As

Publication number Publication date
CN110611603A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110611603B (zh) 一种集群网卡监控方法及装置
CN107465767B (zh) 一种数据同步的方法和系统
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
WO2017177941A1 (zh) 主备数据库切换方法和装置
US10728099B2 (en) Method for processing virtual machine cluster and computer system
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
US11445013B2 (en) Method for changing member in distributed system and distributed system
CN111769981A (zh) 去中心化架构主节点推选方法、数据文件传输方法、系统
CN116107828A (zh) 主节点选择方法、分布式数据库及存储介质
CN109274734B (zh) 一种基于物联网云平台的服务进程调用方法及装置
CN110213359B (zh) 一种基于d2d的车联网组网数据推送系统和方法
CN113489149B (zh) 基于实时状态感知的电网监控系统业务主节点选取方法
CN108509296B (zh) 一种处理设备故障的方法和系统
CN102118274A (zh) 一种状态监控方法、装置和系统
Porter et al. DeSARM: A Decentralized Mechanism for Discovering Software Architecture Models at Runtime in Distributed Systems.
CN116185697B (zh) 容器集群管理方法、装置、系统、电子设备及存储介质
CN113765690A (zh) 集群切换方法、系统、装置、终端、服务器及存储介质
CN116346834A (zh) 一种会话同步方法、装置、计算设备及计算机存储介质
US20150244780A1 (en) System, method and computing apparatus to manage process in cloud infrastructure
CN112787868B (zh) 一种信息同步的方法和装置
CN114116178A (zh) 集群框架任务管理方法以及相关装置
CN114363350A (zh) 一种服务治理系统及方法
CN110830281B (zh) 一种基于网状网络结构的热备方法及系统
CN111338647B (zh) 一种大数据集群管理方法和装置
JP2019508975A (ja) ハイパースケール環境における近隣監視

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant