CN105656996A - 数据节点存活的检测方法及装置 - Google Patents

数据节点存活的检测方法及装置 Download PDF

Info

Publication number
CN105656996A
CN105656996A CN201510994231.3A CN201510994231A CN105656996A CN 105656996 A CN105656996 A CN 105656996A CN 201510994231 A CN201510994231 A CN 201510994231A CN 105656996 A CN105656996 A CN 105656996A
Authority
CN
China
Prior art keywords
data
node
time
tested
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510994231.3A
Other languages
English (en)
Other versions
CN105656996B (zh
Inventor
陈宗志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510994231.3A priority Critical patent/CN105656996B/zh
Publication of CN105656996A publication Critical patent/CN105656996A/zh
Application granted granted Critical
Publication of CN105656996B publication Critical patent/CN105656996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1061Peer-to-peer [P2P] networks using node-based peer discovery mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种数据节点存活的检测方法及装置,所述方法包括:对于每个数据节点:判断与待检测数据节点之间当前的网络连接是否成功;若网络连接失败,从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息;若未收到待检测数据节点返回的数据节点处于存活状态的消息,间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,将待检测数据节点确定为未处于存活状态。上述方案可以精确地检测出数据节点是否处于存活状态。

Description

数据节点存活的检测方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种数据节点存活的检测方法及装置。
背景技术
随着计算技术的发展,分布式数据存储系统已经成为了一种重要的现代计算架构。分布式数据存储系统就是将数据分散存储在多台独立的设备上。分布式数据存储系统为具有很多数据节点的集群系统,每个数据节点可以理解为一个数据存储服务器。在做数据存储时,将若干条数据存储到对应的数据节点中,这是分布式系统核心的概念。
为了保证分布式数据存储系统的高可用性,需要对系统中的所有数据节点进行存活监控,现有技术方案中,主要是通过检测数据节点间的网络连接情况来确定数据节点的存活情况,例如当检测到网络连接处于断开时,则认定为数据节点未处于存活状态,然而这种检测方法的准确率太低,有可能是由于网络抖动而造成网络连接暂时性断开,而数据节点却处于存活状态。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据节点存活的检测方法和相应的数据节点存活的检测装置。
根据本发明的一个方面,提供了一种数据节点存活的检测方法,应用于包括通过网络连接的多个数据节点的数据存储系统,方法包括:
对于每个数据节点:
判断与待检测数据节点之间当前的网络连接是否成功;
若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息;
若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态。
根据本发明的另一方面,提供了一种数据节点存活的检测装置,应用于包括通过网络连接的多个数据节点的数据存储系统,装置包括:判断模块、发送模块和确定模块;
其中,对于每个数据节点:
判断模块,适于判断与待检测数据节点之间当前的网络连接是否成功;
发送模块,适于在判断模块判断出网络连接失败的情况下,从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息;若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;发送模块重复运行n次;
确定模块,适于在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息的情况下,将该待检测数据节点确定为未处于存活状态。
根据本发明提供的方案,为了能够及时地检测出待检测数据节点的存活情况,需要判断与待检测数据节点之间当前的网络连接是否成功,若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态,从而更为精确地检测出数据节点是否处于存活状态,克服因网络问题而错误地将数据节点认定为未处于存活状态的缺陷,提高了检测的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的数据节点存活的检测方法的流程示意图;
图2示出了根据本发明另一个实施例的数据节点存活的检测方法的流程示意图;
图3示出了根据本发明一个实施例的数据节点存活的检测装置的功能框图;
图4示出了根据本发明另一个实施例的数据节点存活的检测装置的功能框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的数据节点存活的检测方法的流程示意图。该方法应用于包括通过网络连接的多个数据节点的数据存储系统,如图1所示,对于每个数据节点,该方法包括以下步骤:
步骤S100,判断与待检测数据节点之间当前的网络连接是否成功。
数据存储系统中的各数据节点之间通过网络连接,并通过网络进行通信,例如可以发送数据节点存活检测消息、数据节点处于存活状态的消息等。当某一数据节点未处于存活状态时,其与其他数据节点之间的网络连接处于断开状态,也就无法有效通信。
为了能够及时地检测出待检测数据节点的存活情况,在本发明实施例中,首先判断与待检测数据节点之间当前的网络连接是否成功,若当前的网络连接成功,说明数据节点间能够正常通信,待检测数据节点处于存活状态;若当前的网络连接失败,则需要检测待检测数据节点是否处于存活状态,以排除由于网络抖动而导致网络连接失败而非待检测数据节点未处于存活状态造成的网络连接失败的问题,或者由于待检测数据节点侧的请求过多而导致阻塞,造成数据节点间通信中断的问题。
步骤S101,若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息。
具体地,数据节点存活指该数据节点目前处于可操作状态或有效工作状态。第一预设时间指从上一次成功的网络连接结束时间开始,到向待检测数据节点发送数据节点存活检测消息所经过的时间,举例说明,若从上一次成功的网络连接结束时间为1秒,第一预设时间为5秒,则在第6秒时向待检测数据节点发送数据节点存活检测消息,本领域技术人员可以根据实际需要设置第一预设时间。
为了克服由于网络抖动而导致数据节点存活检测消息或数据节点处于存活状态的消息未能被及时地接收,或者由于待检测数据节点侧的请求过多而导致阻塞,进而错误地将待检测数据节点认定为未处于存活状态的缺陷,在本发明实施例中,在根据步骤S100检测到网络连接失败的情况下,从上一次成功的网络连接结束后,在第一预设时间之后,再向待检测数据节点发送数据节点存活检测消息,例如,在5秒之后向待检测数据节点发送数据节点存活检测消息。
步骤S102,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态。
其中,第二预设时间指两次向待检测数据节点发送数据节点存活检测消息所间隔的时间,举例说明,若第二预设时间为2秒,在步骤S101中是第6秒向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则在第8秒时,向待检测数据节点发送数据节点存活检测消息所间隔的时间。
为了克服由于网络抖动而导致数据节点存活检测消息或数据节点处于存活状态的消息未能被及时地接收,或者由于待检测数据节点侧的请求过多而导致阻塞,进而错误地将待检测数据节点认定为未处于存活状态的缺陷,在本发明实施例中,若未收到待检测数据节点返回的数据节点处于存活状态的消息,可以每间隔第二预设时间,向待检测数据节点发送一次数据节点存活检测消息,重复执行此n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态。
举例说明,假设上一次成功的网络连接结束时间为1秒,第一预设时间为5秒,第二预设时间为2秒,重复执行3次,也就是说,在上一次成功的网络连接结束后,在第6秒时向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则在第8秒时向待检测数据节点发送数据节点存活检测消息,若还未收到待检测数据节点返回的数据节点处于存活状态的消息,则在第10秒时再次向待检测数据节点发送数据节点存活检测消息,若仍未收到待检测数据节点返回的数据节点处于存活状态的消息,则在第12秒时再次向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态。
根据本发明上述实施例提供的方法,为了能够及时地检测出待检测数据节点的存活情况,需要判断与待检测数据节点之间当前的网络连接是否成功,若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态,从而更为精确地检测出数据节点是否处于存活状态,克服因网络问题而错误地将数据节点认定为未处于存活状态的缺陷,提高了检测的准确率。
图2示出了根据本发明另一个实施例的数据节点存活的检测方法的流程示意图。该方法应用于包括通过网络连接的多个数据节点的数据存储系统,如图2所示,对于每个数据节点,该方法包括以下步骤:
在本发明实施例中,待检测数据节点可以为多个,也就是说,可以利用一个数据节点对多个待检测数据节点的存活情况进行检测。
第一预设时间指从上一次成功的网络连接结束时间开始,到向待检测数据节点发送数据节点存活检测消息所经过的时间,举例说明,若从上一次成功的网络连接结束时间为1秒,第一预设时间为5秒,则在第6秒时向待检测数据节点发送数据节点存活检测消息,本领域技术人员可以根据实际需要设置第一预设时间。
其中,数据节点的业务访问可以是读取数据节点的数据,或者向数据节点写数据等,因此,读数据和写数据都被视为一次业务访问,通过统计读数据和写数据的次数来统计多个待检测数据节点的业务访问量,当然,数据节点的业务访问并不限于读取数据节点的数据或者向数据节点写数据,这里仅是举例说明,不具有任何限定作用。
在本发明实施例中,可以通过各个数据节点所提供的接口统计多个待检测数据节点的业务访问量,根据业务访问量设置第一预设时间。
具体地,对于业务访问量小的待检测数据节点,待检测数据节点是否处于存活状态对分布式数据存储系统的业务服务影响很小,因此可以将第一预设时间设置的长一些,即,从上一次成功的网络连接结束时间开始,到向待检测数据节点发送数据节点存活检测消息所经过的时间会长一些,例如可以将第一预设时间设置为5秒,或者6秒等,当然第一预设时间的长短是相对的,这里仅仅是举例说明,不具有任何限定作用。
对于业务访问量大的待检测数据节点,待检测数据节点是否处于存活状态对分布式数据存储系统的业务服务影响很大,因此可以将第一预设时间设置的短一些,即,从上一次成功的网络连接结束时间开始,到向待检测数据节点发送数据节点存活检测消息所经过的时间会短一些,例如可以将第一预设时间设置为3秒,或者4秒等,当然第一预设时间的长短是相对的,这里仅仅是举例说明,不具有任何限定作用。
此外,还可以通过各个数据节点所提供的接口检测数据节点间的网络状况,根据检测结果设置第一预设时间,其中网络状况包括:网络正常和网络抖动,网络抖动很大则可以将第一预设时间设置的长一些,网络正常则可以将第一预设时间可以设置的短一些,第一预设时间设置的长短是相对的。
步骤S201,判断与待检测数据节点之间当前的网络连接是否成功,若否,则执行步骤S202;若是,则执行步骤S207。
为了能够及时地检测出待检测数据节点的存活情况,在本发明实施例中,首先判断与待检测数据节点之间当前的网络连接是否成功,若当前的网络连接成功,说明待检测数据节点处于存活状态;若当前的网络连接失败,则需要检测待检测数据节点是否处于存活状态,以排除由于网络抖动而导致网络连接失败而非待检测数据节点未处于存活状态造成的网络连接失败的问题,或者由于待检测数据节点侧的请求过多而导致阻塞,造成数据节点间通信中断的问题。
步骤S202,从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息。
在根据步骤S201判断出当前的网络连接失败的情况下,以设置第一预设时间为5秒,获取到上一次成功的网络连接的结束时间为1秒进行举例说明,将在第6秒的时间向待检测数据节点发送数据节点存活检测消息。
步骤S203,判断是否收到待检测数据节点返回的数据节点处于存活状态的消息,若否,则执行步骤S204;若是,则执行步骤S207。
在本步骤中,通过判断是否收到待检测数据节点返回的数据节点处于存活状态的消息,可以确定待检测数据节点是否处于存活状态,若收到待检测数据节点返回的数据节点处于存活状态的消息,则说明待检测数据节点处于存活状态;若未收到待检测数据节点返回的数据节点处于存活状态的消息,则说明待检测数据节点未处于存活状态。
步骤S204,间隔第二预设时间向待检测数据节点发送数据节点存活检测消息。
在根据步骤S203判断出未收到待检测数据节点返回的数据节点处于存活状态的消息的情况下,间隔第二预设时间向待检测数据节点发送数据节点存活检测消息。
其中,第二预设时间指两次向待检测数据节点发送数据节点存活检测消息所间隔的时间,举例说明,若第二预设时间为2秒,在步骤S202中是第6秒向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则在第8秒时,向待检测数据节点发送数据节点存活检测消息所间隔的时间。
在本发明实施例中,可以结合待检测数据节点的业务访问量和/或数据节点间网络状况设置第二预设时间,例如待检测数据节点的业务访问量很大,但是存在网络抖动的情况,此时还是需要将第二预设时间设置的短一些,以在尽快确定数据节点的存活情况。
可以采用以下方法来设置第二预设时间:
统计所述多个待检测数据节点的业务访问量,根据所述业务访问量设置第二预设时间。或者
检测数据节点间的网络状况,根据检测结果设置第二预设时间。
步骤S205,判断是否收到待检测数据节点返回的数据节点处于存活状态的消息以及发送数据节点存活检测消息的次数,若未收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数小于n次,则返回执行步骤S204;若未收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数为n次,则执行步骤S206;若收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数小于或等于n次,则执行步骤S207。
在本发明实施例中,预先设置了间隔第二预设时间向待检测数据节点发送数据节点存活检测消息的次数,这里定义为n次,其中,n的取值是根据多个待检测数据节点的业务访问量和/或数据节点的网络状况设置的。
对于待检测数据节点的业务访问量很大,但是数据节点间存在网络抖动的情况,可以将n的取值设置的大一些,例如一般设置为3次,这里可以设置为6次,甚至更长,n的具体取值根据实际需要设置。
若未收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数小于n次,则可以间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;若未收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数为n次,则将该待检测数据节点确定为未处于存活状态;若收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数小于或等于n次,则将该待检测数据节点确定为处于存活状态。
步骤S206,将该待检测数据节点确定为未处于存活状态。
在根据步骤S205判断出未收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数为n次的情况下,将该待检测数据节点确定为未处于存活状态。
步骤S207,将该待检测数据节点确定为处于存活状态。
在根据步骤S205判断出收到待检测数据节点返回的数据节点处于存活状态的消息且发送数据节点存活检测消息的次数小于或等于n次,将该待检测数据节点确定为处于存活状态。
根据本发明上述实施例提供的方法,根据待检测数据节点的业务访问量设置第一预设时间,能够快速检测业务访问量大的待检测数据节点的存活情况,为了能够及时地检测出待检测数据节点的存活情况,需要判断与待检测数据节点之间当前的网络连接是否成功,若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态,从而更为精确地检测出数据节点是否处于存活状态,克服因网络问题而错误地将数据节点认定为未处于存活状态的缺陷,提高了检测的准确率。
图3示出了根据本发明一个实施例的数据节点存活的检测装置的功能框图。该装置应用于包括通过网络连接的多个数据节点的数据存储系统,包括:判断模块300、发送模块310和确定模块320。
其中,对于每个数据节点:
判断模块300,适于判断与待检测数据节点之间当前的网络连接是否成功。
发送模块310,适于在判断模块判断出网络连接失败的情况下,从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息;若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;发送模块重复运行n次。
确定模块320,适于在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息的情况下,将该待检测数据节点确定为未处于存活状态。
根据本发明上述实施例提供的装置,为了能够及时地检测出待检测数据节点的存活情况,需要判断与待检测数据节点之间当前的网络连接是否成功,若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态,从而更为精确地检测出数据节点是否处于存活状态,克服因网络问题而错误地将数据节点认定为未处于存活状态的缺陷,提高了检测的准确率。
图4示出了根据本发明另一个实施例的数据节点存活的检测装置的功能框图。该装置应用于包括通过网络连接的多个数据节点的数据存储系统,包括:判断模块400、发送模块410和确定模块420。
其中,对于每个数据节点:
判断模块400,适于判断与待检测数据节点之间当前的网络连接是否成功;
发送模块410,适于在判断模块判断出网络连接失败的情况下,从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息;若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;发送模块重复运行n次。
可选地,n的取值是根据多个待检测数据节点的业务访问量和/或数据节点的网络状况设置的。
确定模块420,适于在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息的情况下,将该待检测数据节点确定为未处于存活状态。
可选地,待检测数据节点为多个;
装置还包括:统计模块430,适于统计多个待检测数据节点的业务访问量,根据业务访问量设置第一预设时间。
可选地,装置还包括:检测模块440,适于检测数据节点间的网络状况,根据检测结果设置第一预设时间。
可选地,网络状况包括:网络正常和网络抖动。
根据本发明上述实施例提供的装置,根据待检测数据节点的业务访问量设置第一预设时间,能够快速检测业务访问量大的待检测数据节点的存活情况,为了能够及时地检测出待检测数据节点的存活情况,需要判断与待检测数据节点之间当前的网络连接是否成功,若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向待检测数据节点发送数据节点存活检测消息,若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态,从而更为精确地检测出数据节点是否处于存活状态,克服因网络问题而错误地将数据节点认定为未处于存活状态的缺陷,提高了检测的准确率。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据节点存活的检测设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、待检测、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种数据节点存活的检测方法,应用于包括通过网络连接的多个数据节点的数据存储系统,对于每个数据节点,所述方法包括:
判断与待检测数据节点之间当前的网络连接是否成功;
若网络连接失败,则从上一次成功的网络连接结束后,间隔第一预设时间向所述待检测数据节点发送数据节点存活检测消息;
若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向所述待检测数据节点发送数据节点存活检测消息;重复执行此步骤n次,若在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息,则将该待检测数据节点确定为未处于存活状态。
2.根据权利要求1所述的方法,所述待检测数据节点为多个;
在间隔第一预设时间向待检测数据节点发送数据节点存活检测消息之前,所述方法还包括:
统计所述多个待检测数据节点的业务访问量,根据所述业务访问量设置第一预设时间。
3.根据权利要求1或2所述的方法,在间隔第一预设时间向待检测数据节点发送数据节点存活检测消息之前,所述方法还包括:
检测数据节点间的网络状况,根据检测结果设置第一预设时间。
4.根据权利要求3所述的方法,网络状况包括:网络正常和网络抖动。
5.根据权利要求1-4任一项所述的方法,n的取值是根据所述多个待检测数据节点的业务访问量和/或数据节点的网络状况设置的。
6.一种数据节点存活的检测装置,应用于包括通过网络连接的多个数据节点的数据存储系统,所述装置包括:判断模块、发送模块和确定模块;
其中,对于每个数据节点:
所述判断模块,适于判断与待检测数据节点之间当前的网络连接是否成功;
所述发送模块,适于在所述判断模块判断出网络连接失败的情况下,从上一次成功的网络连接结束后,间隔第一预设时间向所述待检测数据节点发送数据节点存活检测消息;若未收到待检测数据节点返回的数据节点处于存活状态的消息,则间隔第二预设时间向所述待检测数据节点发送数据节点存活检测消息;所述发送模块重复运行n次;
所述确定模块,适于在第一预设时间与n个第二预设时间之和的时间段内,未收到待检测数据节点返回的数据节点处于存活状态的消息的情况下,将该待检测数据节点确定为未处于存活状态。
7.根据权利要求6所述的装置,所述待检测数据节点为多个;
所述装置还包括:统计模块,适于统计所述多个待检测数据节点的业务访问量,根据所述业务访问量设置第一预设时间。
8.根据权利要求6或7所述的装置,所述装置还包括:检测模块,适于检测数据节点间的网络状况,根据检测结果设置第一预设时间。
9.根据权利要求8所述的装置,网络状况包括:网络正常和网络抖动。
10.根据权利要求6-9任一项所述的装置,n的取值是根据所述多个待检测数据节点的业务访问量和/或数据节点的网络状况设置的。
CN201510994231.3A 2015-12-25 2015-12-25 数据节点存活的检测方法及装置 Active CN105656996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510994231.3A CN105656996B (zh) 2015-12-25 2015-12-25 数据节点存活的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510994231.3A CN105656996B (zh) 2015-12-25 2015-12-25 数据节点存活的检测方法及装置

Publications (2)

Publication Number Publication Date
CN105656996A true CN105656996A (zh) 2016-06-08
CN105656996B CN105656996B (zh) 2019-03-01

Family

ID=56477932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510994231.3A Active CN105656996B (zh) 2015-12-25 2015-12-25 数据节点存活的检测方法及装置

Country Status (1)

Country Link
CN (1) CN105656996B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107171866A (zh) * 2017-06-30 2017-09-15 联想(北京)有限公司 一种拓扑处理方法和系统
CN107426051A (zh) * 2017-07-19 2017-12-01 北京华云网际科技有限公司 分布式集群系统中节点的工作状态的监测方法、装置及系统
CN109218126A (zh) * 2017-06-30 2019-01-15 中兴通讯股份有限公司 监测节点存活状态的方法、装置及系统
CN111510492A (zh) * 2020-04-15 2020-08-07 矩阵元技术(深圳)有限公司 一种实现断线重连的数据处理方法、装置、设备及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101163059A (zh) * 2007-11-24 2008-04-16 杭州华三通信技术有限公司 一种网络节点检测方法和装置
CN101478836A (zh) * 2009-01-20 2009-07-08 中国科学院计算技术研究所 一种无线自组织网络适应性路由构造方法
CN103067209A (zh) * 2013-01-25 2013-04-24 浪潮电子信息产业股份有限公司 一种心跳模块自检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101163059A (zh) * 2007-11-24 2008-04-16 杭州华三通信技术有限公司 一种网络节点检测方法和装置
CN101478836A (zh) * 2009-01-20 2009-07-08 中国科学院计算技术研究所 一种无线自组织网络适应性路由构造方法
CN103067209A (zh) * 2013-01-25 2013-04-24 浪潮电子信息产业股份有限公司 一种心跳模块自检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107171866A (zh) * 2017-06-30 2017-09-15 联想(北京)有限公司 一种拓扑处理方法和系统
CN109218126A (zh) * 2017-06-30 2019-01-15 中兴通讯股份有限公司 监测节点存活状态的方法、装置及系统
CN107171866B (zh) * 2017-06-30 2020-02-21 联想(北京)有限公司 一种拓扑处理方法和系统
CN109218126B (zh) * 2017-06-30 2023-10-17 中兴通讯股份有限公司 监测节点存活状态的方法、装置及系统
CN107426051A (zh) * 2017-07-19 2017-12-01 北京华云网际科技有限公司 分布式集群系统中节点的工作状态的监测方法、装置及系统
CN107426051B (zh) * 2017-07-19 2018-06-05 北京华云网际科技有限公司 分布式集群系统中节点的工作状态的监测方法、装置及系统
CN111510492A (zh) * 2020-04-15 2020-08-07 矩阵元技术(深圳)有限公司 一种实现断线重连的数据处理方法、装置、设备及系统

Also Published As

Publication number Publication date
CN105656996B (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN105656996A (zh) 数据节点存活的检测方法及装置
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
US9143416B2 (en) Expander device
CN109739527B (zh) 一种客户端灰度发布的方法、装置、服务器和存储介质
CN111045921A (zh) 自动化接口测试方法、装置、计算机设备及存储介质
CN109218141A (zh) 一种故障节点检测方法及相关装置
CN109450666A (zh) 分布式系统网络管理方法及装置
CN104899142A (zh) 一种远程mock测试方法及装置
CN102970282A (zh) 网站安全检测系统
CN112241350B (zh) 微服务评估方法、装置、计算设备及微服务检测系统
CN110677292A (zh) 一种光口速率配置方法及装置
US11455223B2 (en) Using system errors and manufacturer defects in system components causing the system errors to determine a quality assessment value for the components
CN103345439A (zh) 一种信息系统全链路健康状态监控方法及装置
CN111159029B (zh) 自动化测试方法、装置、电子设备及计算机可读存储介质
CN101800672B (zh) 设备检测方法和设备
CN103685501A (zh) 数据处理方法、装置和系统
KR20130096033A (ko) 컴퓨터 시스템 및 시그니처검증서버
US8582444B2 (en) Method for detecting hardware faults by determining a ratio of released connections
CN104052630A (zh) 对网站执行验证的方法和系统
CN102571783A (zh) 钓鱼网站检测方法、装置及系统、网络站点
CN103731315A (zh) 一种服务器故障检测方法
CN101458624A (zh) 可编程逻辑器件的加载方法、处理器和装置
CN115240759A (zh) 一种固态硬盘检测方法、装置、设备及存储介质
CN112073518B (zh) 云存储系统、云存储系统管理方法及中心管理节点
CN100561953C (zh) 一种记录诊断数据的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right