CN117826573A - Cdu的群控方法、群控系统、电子设备及存储介质 - Google Patents
Cdu的群控方法、群控系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117826573A CN117826573A CN202410017464.7A CN202410017464A CN117826573A CN 117826573 A CN117826573 A CN 117826573A CN 202410017464 A CN202410017464 A CN 202410017464A CN 117826573 A CN117826573 A CN 117826573A
- Authority
- CN
- China
- Prior art keywords
- cdu
- group
- group control
- cdus
- control group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012544 monitoring process Methods 0.000 claims description 34
- 239000007788 liquid Substances 0.000 claims description 19
- 238000001816 cooling Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 20
- 230000006855 networking Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000002826 coolant Substances 0.000 description 1
- 239000000110 cooling liquid Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 239000008400 supply water Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B9/00—Safety arrangements
- G05B9/02—Safety arrangements electric
- G05B9/03—Safety arrangements electric with multiple-channel loop, i.e. redundant control systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Small-Scale Networks (AREA)
Abstract
本申请提供一种CDU的群控方法、群控系统、电子设备及存储介质,该方法包括:在群控组内CDU启动后,判断所述群控组内是否存在故障CDU;群控组内包括多个CDU,所述多个CDU在群控组内构成冗余环网;若存在任一故障CDU,控制所述故障CDU退出所述群控组;判断所述群控组内正常运行CDU的当前数量是否大于或等于群控下限数量;若是,所述群控组内正常运行CDU进入群控状态。本申请方案,解决了群控组内CDU故障则其它CDU只能以单机状态运行的问题。
Description
技术领域
本申请涉及制冷控制技术领域,特别涉及一种CDU的群控方法、一种数据中心液冷机房的群控系统、电子设备及计算机可读存储介质。
背景技术
CDU(Coolant Distribution Unit,冷量分配单元)是指用于进行液冷电子设备间的冷却液体分配的系统,包含传感器、管道、变频器、水泵和阀门等部件。当多个CDU的供水管道联通给末端设备供水时,这些CDU的控制单元组成一个监控群组。该监控群组以一台设备作为群控主机,其它设备作为群控备机,所有设备根据群控主机的命令进行协同工作。其中,CDU的控制单元可以是PLC(Programmable Logic Controller,可编程序逻辑控制器)、DDC(Direct Digit Control,直接数字控制)系统、PCB(Process Control Block,进程管理块)集成控制板或单片机等。CDU的群控在液冷系统中比较重要,群控功能可以让群控组中CDU的运行状态相互备份来保证系统的可靠性。如果CDU不在群控状态下运行,可能导致多个CDU的水泵在不同频率下运行,使得水泵出现损耗;或者,由于设备之间无法相互备份,当有CDU发生故障时,其它CDU无法感知。为避免出现上述问题,数据中心液冷机房通过群控架构连接多个CDU,使得CDU能够在群控状态下运行。
然而,相关方案中,群控组中任一CDU发生故障时,群控组中其它CDU只能以单机状态运行,无法正常进行入群控状态。
发明内容
本申请实施例的目的在于提供一种CDU的群控方法及电子设备、计算机可读存储介质,用于解决相关方案中群控组内CDU故障则其它CDU只能以单机状态运行的问题。
一方面,本申请提供了一种CDU的群控方法,应用于群控组,所述群控组内包括多个CDU,所述多个CDU在群控组内构成冗余环网,包括:
在所述群控组内CDU启动后,判断所述群控组内是否存在故障CDU;
若存在任一故障CDU,控制所述故障CDU退出所述群控组;
判断所述群控组内正常运行CDU的当前数量是否大于或等于群控下限数量;
若是,所述群控组内正常运行CDU进入群控状态。
在一实施例中,所述判断所述群控组内是否存在故障CDU,包括:
判断所述群控组内多个CDU之间能否正常通信;
如果任一CDU无法与其它CDU正常通信,确定该CDU为故障CDU;
判断所述群控组内能够正常通信的CDU能否正常运行;
如果任一CDU无法正常运行,确定该CDU为故障CDU。
在一实施例中,所述方法还包括:
在存在故障CDU的情况下,输出异常报警信息;其中,所述异常报警信息指示所述群控组内存在故障CDU。
在一实施例中,所述方法还包括:
若所述当前数量小于所述群控下限数量,所述群控组内正常运行CDU进入单机状态。
在一实施例中,所述在所述群控组内CDU启动后,判断所述群控组内是否存在故障CDU,包括:
在所述群控组内CDU启动后,根据设置参数判断所述群控组是否应以群控状态运行;
若否,所述群控组内CDU进入单机状态;
若是,判断所述群控组内是否存在故障CDU。
在一实施例中,所述方法还包括:
从所述群控组内选择一台正常运行的CDU,作为主机;
在群控状态下判断所述主机是否运行正常,若是,所述群控组内其它CDU与所述主机同步运行状态;
若所述主机运行异常,返回所述从所述群控组内选择一台正常运行的CDU,作为主机的步骤。
在一实施例中,所述多个CDU中任意一个CDU与其余至少两个CDU连接,每个CDU连接监控接口或交换机,构成所述冗余环网。
在一实施例中,所述冗余环网通过所述多个CDU和环网交换机串联形成环网以实现。
另一方面,本申请提供了一种数据中心液冷机房的群控系统,包括群控组,所述群控组包括多个CDU,其中任意一个CDU与其余至少两个CDU连接,每个CDU连接监控接口或交换机,所述群控组用于执行上述CDU的群控方法。
另一方面,本申请提供了一种数据中心液冷机房的群控系统,包括群控组,所述群控组包括多个CDU,所述多个CDU与环网交换机串联形成环网,所述环网交换机连接监控接口;所述群控组用于执行上述CDU的群控方法。
在一实施例中,所述多个CDU与至少两台环网交换机串联形成环网,所述监控接口与所述至少两台环网交换机连接。
另一方面,本申请提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述CDU的群控方法。
此外,本申请提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述CDU的群控方法。
本申请方案,在群控组内存在故障CDU的情况下,可以将其从群控组剔除,由于多个CDU在群控组内构成冗余环网,在正常运行的CDU的当前数量大于或等于群控下限数量的情况下,正常运行的多个CDU之间仍然可以正常同步群控数据,因此,群控组内正常运行的CDU可以进入群控状态。本申请方案,解决了现有技术中群控组内任一CDU故障则其它CDU只能以单机状态运行的问题,极大地提高了群控组网的可靠性,并增加了设备运行的可靠性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为相关技术提供的数据中心液冷机房的群控架构示意图;
图2为相关技术提供的数据中心液冷机房的另一种群控架构示意图;
图3为相关技术提供的数据中心液冷机房的又一种群控架构示意图;
图4为本申请一实施例提供的CDU现有群控方法的流程示意图;
图5为本申请一实施例提供的电子设备的结构示意图;
图6为本申请一实施例提供的CDU的群控方法的流程示意图;
图7为本申请一实施例提供的数据中心液冷机房的群控系统的架构示意图;
图8为本申请另一实施例提供的数据中心液冷机房的群控系统的架构示意图;
图9为本申请又一实施例提供的数据中心液冷机房的群控系统的架构示意图;
图10为本申请一实施例提供的CDU的群控方法的整体流程示意图;
图11为本申请一实施例提供的主机切换方法的流程示意图;
图12为本申请一实施例提供的CDU的群控装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1是相关技术提供的数据中心液冷机房的群控架构示意图,如图1所示,群控组内包括多个CDU(图1中示出4个CDU,实际CDU数量可以根据应用需求进行配置),各个CDU通过交换机的组网进行数据的交互。需要说明的是,由于数据交互的实际执行主体为CDU的控制单元,本方案中提及的CDU可以认为具体指代CDU的控制单元。这一架构下,外接监控接口可以通过交换机获取CDU数据;CDU与交换机之间通过TCP/IP(Transmission ControlProtocol/Internet Protocol,传输控制协议/网间协议)连接,通过群控接口可以获取CDU之间的群控数据、以及与其它平台的监控接口的数据。CDU-i的CDU数据可以包括CDU-i的基本信息(ID编码、型号等)、运行状态、故障信息等。CDU之间的群控数据可以包括各个CDU-i的CDU数据,其中,各个CDU-i的CDU数据在各个CDU之间共享。
在此架构下,交换机故障或CDU与交换机的连接出现问题,将导致对外监控接口和群控接口的数据都丢失。对外监控接口的数据丢失将导致上层监控平台无法获取CDU数据;群控接口的数据丢失将导致整个系统退出群控状态。
图2是相关技术提供的数据中心液冷机房的另一种群控架构示意图,如图2所示,群控组内包括多个CDU(图2中示出4个CDU,实际CDU数量可以根据应用需求进行配置),各个CDU通过交换机组网进行数据的交互,且通过交换机交互的数据仅为外接监控接口的CDU数据。各个CDU之间群控数据的交互通过串口总线。
在此架构下,将外接监控接口与群控组网分开,解决了交换机故障时对群控组网的影响。然而,当通信总线上任意一个点故障,将会影响群控功能。比如:若CDU-2与该串口总线连接出现问题,或者,CDU-2与CDU-3之间的串口总线发生故障,会导致群控数据在各个CDU上共享失败,使得整个系统退出群控状态。
图3是相关技术提供的数据中心液冷机房的另一种群控架构示意图,如图3所示,群控组内包括多个CDU(图3中示出4个CDU,实际CDU数量可以根据应用需求进行配置),将多个CDU通过串口总线连接到一起,外接监控接口直接与串口总线连接;此外,各个CDU之间群控数据的交互通过串口总线。
在此架构下,外接监控接口与群控组网分开,监控接口不再通过交换机,直接通过串口总线连接;但是群控组网还是通过串口总线连接方式来完成。当群控组网的串口总线上任意一个点故障,将会影响群控功能。
参见图4,为本申请一实施例提供的CDU现有群控方法的流程示意图,如图4所示,在图1至图3任意一种架构下,当群控组内设备开机后,可以判断当前是否处于群控运行模式。一方面,若否,群控组内各个CDU可以进入单机状态运行。另一方面,若是,可以检查群控准备是否就绪,换而言之,群控组内组网是否正常,各个CDU之间能否正常通信。
一种情况下,若存在任一CDU无法正常通信,可以输出异常报警信息,进一步的,群控组内CDU可以进入单机状态运行。另一种情况下,若群控准备就绪,可以判断各个CDU是否运行正常。
如果各个CDU运行正常,各个CDU可以进入群控状态运行。反之,如果任一CDU运行不正常,可以输出异常报警信息,进一步的,群控组内CDU可以进入单机状态运行。
可见,在现有技术中,群控组内无法正常通信或存在CDU无法正常运行的情况下,群控组内CDU无法进入群控状态,只能进入单机状态。
如图5所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图5中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是CDU群控组内的CDU控制单元,用于执行CDU的群控方法。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的CDU的群控方法。
参见图6,为本申请一实施例提供的CDU的群控方法的流程示意图,如图6所示,该方法可以包括以下步骤610-步骤640。
步骤610:在群控组内CDU启动后,判断群控组内是否存在故障CDU。
其中,群控组内包括多个CDU,且多个CDU在群控组内构成冗余环网。
本方案可由群控组内各个CDU的控制单元执行,或者,可以由群控组内作为主机的CDU的控制单元执行。
在群控组内CDU启动后,各个CDU可以通过交互数据,判断群控组内是否存在故障CDU。这里,故障CDU包括无法在群控组网内与其它CDU正常通信的CDU,以及无法正常运行的CDU。
一方面,如果群控组内不存在故障CDU,可以直接控制各个正常运行的CDU进入群控状态。另一方面,如果群控组内存在故障CDU,可以继续执行步骤620。
在群控组内CDU刚启动时,可以执行步骤610,以判断群控组内是否存在故障CDU,从而确定群控组能否进入群控状态。此外,在群控组CDU启动后已进入群控状态运行过程中,也可以执行步骤610,以判断群控组内是否存在故障CDU,从而确定群控组能否继续在群控状态下运行。
在一实施例中,在判断群控组内是否存在故障CDU时,可以判断群控组内多个CDU之间能否正常通信。一方面,若群控组内的所有CDU之间均能够正常通信,说明群控组网正常,可以继续判断群控组内正常通信的CDU能否正常运行。另一方面,如果任一CDU无法与其它CDU正常通信,可以确定该CDU为故障CDU。这里,其它CDU指的是群控组内除该CDU以外的任一CDU。在将无法正常通信的CDU确定为故障CDU之后,可以进行判断群控组内正常通信的CDU能否正常运行。
其中,CDU正常运行的标准可以是CDU内各个部件均能够正常受控、正常使用。
如果任一CDU无法正常运行,可以确定该CDU为故障CDU。
通过两轮判断,可以筛选出群控组中的故障CDU。如果两轮判断均未筛选出故障CDU,可以确定群控组中不存在故障CDU。
步骤620:若存在任一故障CDU,控制故障CDU退出群控组。
在群控组内存在故障CDU时,可以控制该故障CDU退出群控组,使得群控组内仅包含正常运行的CDU。
步骤630:判断群控组内正常运行CDU的当前数量是否大于或等于群控下限数量。
步骤640:若是,群控组内正常运行CDU进入群控状态。
在将群控组内故障CDU剔除之后,可以检查群控组内正常运行的CDU的当前数量,是否大于或等于群控下限数量。这里,群控下限数量为实现群控状态所需要的CDU最低数量,群控下限数量可以根据应用需要进行配置。理论上,群控下限数量应当大于或等于2。
一方面,若正常运行的CDU的当前数量大于或等于群控下限数量,群控组内正常运行的CDU可以进入群控状态。另一方面,若正常运行的CDU的当前数量小于群控下限数量,群控组内正常运行的CDU可以进入单机状态。
通过上述措施,在群控组内存在故障CDU的情况下,可以将其从群控组剔除,由于多个CDU在群控组内构成冗余环网,在正常运行的CDU的当前数量大于或等于群控下限数量的情况下,正常运行的多个CDU之间仍然可以正常同步群控数据,因此,群控组内正常运行的CDU可以进入群控状态。本申请方案,解决了现有技术中群控组内任一CDU故障则其它CDU只能以单机状态运行的问题,极大地提高了群控组网的可靠性,并增加了设备运行的可靠性。
在一实施例中,在执行步骤610之前,在存在故障CDU的情况下,可以输出异常报警信息。其中,异常报警信息指示群控组内存在故障CDU。如果故障CDU无法与其它CDU通信,异常报警信息可以指示该故障CDU通信异常,从而提示运维人员检查群控组网。如果故障CDU无法正常运行,异常报警信息可以指示该故障CDU运行时存在异常,从而提示运维人员检查CDU的各个部件。
这里,异常报警信息可以是文字、语音、多媒体等形式,可以通过音视频播放器、邮件、短信、第三方通讯程序等形式输出至运维人员。
通过该措施,可以在存在故障CDU的情况下,及时通知运维人员进行维护,缩短群控组内存在故障CDU的时长。
在一实施例中,在群控组内CDU启动后,可以根据设置参数判断群控组是否应以群控状态运行。这里,设置参数可以指示群控组的运行状态。示例性的,设置参数为1,表示群控组应以群控状态运行;设置参数为0,表示群控组应以单机状态运行。
执行本方案的CDU控制单元,可以读取并检查该设置参数,从而确定群控组的运行状态。
一方面,若设置参数指示群控组不以群控状态运行,群控组内各个CDU可以进入单机状态。另一方面,若设置参数指示群控组以群控状态运行,可以继续执行判断群控组内是否存在故障CDU的步骤。具体详见前文相关描述,在此不再赘述。
通过该措施,可以同设置参数选择当前群控组的运行状态,并在运行状态为群控状态时,执行本申请的群控方法。
在一实施例中,冗余环网可以通过群控组内多个CDU构成环网以实现。
参见图7,为本申请一实施例提供的数据中心液冷机房的群控系统的架构示意图,该群控系统包括群控组,群控组包括多个CDU,其中任意一个CDU与其余至少两个CDU连接,每个CDU连接交换机,交换机连接监控接口。如图7所示,群控组内包括多个CDU(图7中示出4个CDU,实际CDU数量可以根据应用需求进行配置),每一CDU分别与相邻的两个CDU连接,且第一个CDU与最后一个CDU连接,从而使群控组网的部分构成环网。此外,各个CDU与交换机连接,外接监控接口通过交换机获取CDU数据。
在此架构下,交换机故障或CDU与交换机的连接出现问题,将导致对外监控接口的数据都丢失,但不会影响群控组的运行状态。各个CDU之间通过冗余环网同步群控数据,此时,当群控组内出现故障CDU的情况下,群控组内剩余的CDU可能仍然能够通过群控组网进行通信,从而可以继续在群控状态下运行。以图7为例,当CDU-1故障时,CDU-2、CDU-3、CDU-4之间仍然可以通过CDU-2与CDU-3之间的链路、以及CDU-3与CDU-4之间的链路同步群控数据,因此,群控组内的CDU-2、CDU-3、CDU-4可以继续在群控状态下运行。进一步的,如果CDU-2也发生故障,由于CDU-3与CDU-4仍然可以同步群控数据,此时,如果群控下限数量设定为2,则群控组内的CDU-3、CDU-4可以继续在群控状态下运行。
参见图8,为本申请另一实施例提供的数据中心液冷机房的群控系统的架构示意图,该群控系统包括群控组,群控组包括多个CDU,其中任意一个CDU与其余至少两个CDU连接,每个CDU连接监控接口。如图8所示,群控组内包括多个CDU(图8中示出4个CDU,实际CDU数量可以根据应用需求进行配置),每一CDU分别与相邻的两个CDU连接,且第一个CDU与最后一个CDU连接,从而使群控组网的部分构成环网。此外,将多个CDU通过串口总线连接到一起,外接监控接口直接与串口总线连接。
在此架构下,外接监控接口连接的串口总线出现问题,将导致对外监控接口的数据都丢失,但不会影响群控组的运行状态。各个CDU之间通过冗余环网同步群控数据,此时,当群控组内出现故障CDU的情况下,群控组内剩余的CDU可能仍然能够通过群控组网进行通信,从而可以继续在群控状态下运行。由于图8的群控组网与图7的群控组网为相同的冗余环网,可参见上文相关示例。
在该实施例中,CDU的控制单元具备两个环网接口和一个向上的监控接口。控制单元在环网接口可使用的环网协议可以是MRP(Multi-layers Redundant Protocol)、HRP(High Speed Redundancy Protocol,高速冗余协议)、STP(Spanning Tree Protocol,生成树协议)、RSTP(Rapid Spanning Tree Protocol,快速生成树协议)、PRP(ParallelRedundancy Protocol,并行冗余协议)、HSR(High-availability Seamless Redundancy,高可用性无缝冗余协议)或私有环网协议等,能够保证网络重构时间为毫秒级,则群控组网在承受故障时设备通信不中断。控制单元的监控接口可以是串口也可以是网口,使用的协议可以是modbus-RTU、modbus-TCP、SNMP(Simple Network Management Protocol,简单网络管理协议)或PROFINET等。
CDU之间的环网物理载体可以是网线也可以是光纤,物理连接必须是成环的。
在一实施例中,冗余环网可以通过群控组内多个CDU和环网交换机构成环网以实现。
参见图9,为本申请又一实施例提供的数据中心液冷机房的群控系统的架构示意图,该群控系统包括群控组,群控组包括多个CDU,多个CDU与环网交换机串联形成环网,环网交换机连接监控接口。如图9所示,群控组内包括多个CDU(图9中示出4个CDU,实际CDU数量可以根据应用需求进行配置),多个CDU与环网交换机串联在一个环网中。在一实施例中,环网中可以设置两台环网交换机,两台环网交换机分别连接监控接口,从而实现双上行冗余。
各个CDU之间同步群控数据时,可以经过环网交换机,也可以不经过环网交换机。示例性的,CDU-1与CDU-4在同步数据时,数据流方向可以从CDU-1到CDU-2、从CDU-2到CDU-3、再从CDU-3到CDU-4;或者,数据流方向可以从CDU-1到环网交换机,再从环网交换机到CDU-4。此外,外接监控接口可以从任一环网交换机获取CDU数据。
在此架构下,群控组网和监控接口均实现了冗余。外接监控接口获取CDU数据时,如果任一环网交换机故障,可以从另一环网交换机获取数据。各个CDU之间通过冗余环网同步群控数据,此时,当群控组内出现故障CDU的情况下,群控组内剩余的CDU可能仍然能够通过群控组网进行通信,从而可以继续在群控状态下运行。以图9为例,当CDU-2故障时,CDU-1、CDU-3、CDU-4之间仍然可以通过环网交换机所在链路同步群控数据,因此,群控组内CDU-1、CDU-3、CDU-4可以继续在群控状态下运行。进一步的,如果CDU-3也发生故障,由于CDU-1与CDU-4仍然可以同步群控数据,此时,如果群控下限数量设定为2,则群控组内的CDU-1、CDU-4可以继续在群控状态下运行。
或者,仍以图9为例,当任一环网交换机故障时,CDU-1、CDU-2、CDU-3、CDU-4之间仍然可以通过CDU-1与CDU-2之间的链路、CDU-2与CDU-3之间的链路、以及CDU-3与CDU-4之间的链路同步群控数据,群控组内的CDU-1、CDU-2、CDU-3、CDU-4可以继续在群控状态下运行。进一步的,如果CDU-1发生故障,CDU-2、CDU-3、CDU-4之间仍然可以通过CDU-2与CDU-3之间的链路、以及CDU-3与CDU-4之间的链路同步群控数据,CDU-2、CDU-3、CDU-4可以继续在群控状态下运行。进一步的,如果CDU-2发生故障,CDU-3、CDU-4之间仍然可以通过CDU-3与CDU-4之间的链路同步群控数据,此时,如果群控下限数量设定为2,则CDU-3、CDU-4可以继续在群控状态下运行。
该实施例中,CDU的控制单元具备两个环网接口。控制单元在环网接口可使用的环网协议可以是MRP、HRP、STP、RSTP、PRP、HSR或私有环网协议等,能够保证网络重构时间为毫秒级,则群控组网在承受故障时设备通信不中断。CDU之间的环网物理载体可以是网线也可以是光纤,物理连接必须是成环的。
环网交换机至少需要两个环网接口,可使用的环网协议与CDU的环网接口所使用的环网协议等同。环网交换机的其余接口可以为正常的以太网接口。
参见图10,为本申请一实施例提供的CDU的群控方法的整体流程示意图,如图10所示,当多个CDU在群控组内构成冗余环网的情况下,群控组内CDU启动后,可以判断是否要以群控状态运行。一方面,若否,群控组内各个CDU可以直接以单机状态运行。另一方面,若是,可以检查是否群控准备就绪,换而言之,群控组内各个CDU之间能否正常通信。
一种情况下,存在任一无法正常通信的CDU,可以将其作为故障CDU,输出异常报警信息,并将故障CDU从群控组中剔除。在更新群控组后,可以判断群控组内CDU数量是否大于群控下限数量。并在CDU数量小于群控下限数量的情况下,群控组内各个CDU以单机状态运行。而在CDU数量大于或等于群控下限数量的情况下,可以继续检查剩余CDU是否群控准备就绪。
另一种情况下,如果所有CDU群控准备就绪,可以判断各个CDU是否正常运行。一方面,如果各个CDU能够正常运行,则群控组内各个CDU可以以群控状态运行。另一方面,如果存在任一CDU无法正常运行,可以确定该CDU为故障CDU,输出异常报警信息,并将故障CDU从群控组中剔除。在更新群控组后,可以判断群控组内CDU数量是否大于或等于群控下限数量。并在CDU数量小于群控下限数量的情况下,群控组内各个CDU以单机状态运行。而在CDU数量大于或等于群控下限数量的情况下,可以继续检查剩余CDU是否群控准备就绪。
本申请方案,优化了群控组的组网方式,提高了组网的可靠性,使得组网能够在承受至少一次故障后,依旧可靠运行,并触发相应告警。每当群控组内有任意一个CDU发生故障,可以将退出群控组,并在剩余CDU的数量大于或等于群控下限数量,且剩余CDU之间能够正常交互的情况下,使剩余CDU继续以群控状态运行。
在一实施例中,群控组的CDU启动后,在群控状态下运行时,需要一台设备作为群控主机,用于控制群控组内各个CDU协同工作。
参见图11,为本申请一实施例提供的主机切换方法的流程示意图,如图11所示,在进入群控状态下,可以选择一台正常的CDU作为主机。这里,选举机制可以灵活设置。比如:可以从正常运行的CDU中随机选择一台作为主机。或者,可以从正常运行的CDU中选择运行时间最短的CDU作为主机。或者,可以从正常运行的CDU中选择地址(或标号)最大或最小的CDU作为主机。各个CDU之间可以通过交互完成选举,从而得到主机。在确定主机后,主机可以在群控状态下将运行状态同步至其它CDU,使得其它CDU可以通过相同的运行状态进行工作。在群控状态下的工作过程中,可以判断主机是否运行正常。一方面,若运行正常,群控组内其它CDU可以与主机同步运行状态。另一方面,若运行异常,主机可以让出主机功能,而作为从机的其它CDU可以暂时保持当前运行状态。进一步的,可以返回选择一台正常的CDU作为主机的步骤,以选择新的主机管理群控组的工作模式。
通过该措施,在群控组内多个CDU以群控状态运行时,其它CDU的运行状态可以与主机保持一致,并且,在主机失效时,如果其它CDU能够在群控状态下运行,可以从正常运行的CDU中重新选举出主机,以便群控状态能够正常运行。
图12是本发明一实施例的一种CDU的群控装置的框图,如图12所示,该装置可以包括:
第一判断模块1210,用于在所述群控组内CDU启动后,判断所述群控组内是否存在故障CDU;
第一控制模块1220,用于若存在任一故障CDU,控制所述故障CDU退出所述群控组;
第二判断模块1230,用于判断所述群控组内正常运行CDU的当前数量是否大于或等于群控下限数量;
第二控制模块1240,用于若是,控制所述群控组内正常运行CDU进入群控状态。
上述装置中各个模块的功能和作用的实现过程具体详见上述CDU的群控方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (13)
1.一种CDU的群控方法,应用于群控组,其特征在于,所述群控组内包括多个CDU,所述多个CDU在群控组内构成冗余环网,包括:
在所述群控组内CDU启动后,判断所述群控组内是否存在故障CDU;
若存在任一故障CDU,控制所述故障CDU退出所述群控组;
判断所述群控组内正常运行CDU的当前数量是否大于或等于群控下限数量;
若是,所述群控组内正常运行CDU进入群控状态。
2.根据权利要求1所述的方法,其特征在于,所述判断所述群控组内是否存在故障CDU,包括:
判断所述群控组内多个CDU之间能否正常通信;
如果任一CDU无法与其它CDU正常通信,确定该CDU为故障CDU;
判断所述群控组内能够正常通信的CDU能否正常运行;
如果任一CDU无法正常运行,确定该CDU为故障CDU。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在存在故障CDU的情况下,输出异常报警信息;其中,所述异常报警信息指示所述群控组内存在故障CDU。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述当前数量小于所述群控下限数量,所述群控组内正常运行CDU进入单机状态。
5.根据权利要求1所述的方法,其特征在于,所述在所述群控组内CDU启动后,判断所述群控组内是否存在故障CDU,包括:
在所述群控组内CDU启动后,根据设置参数判断所述群控组是否应以群控状态运行;
若否,所述群控组内CDU进入单机状态;
若是,判断所述群控组内是否存在故障CDU。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述群控组内选择一台正常运行的CDU,作为主机;
在群控状态下判断所述主机是否运行正常,若是,所述群控组内其它CDU与所述主机同步运行状态;
若所述主机运行异常,返回所述从所述群控组内选择一台正常运行的CDU,作为主机的步骤。
7.根据权利要求1所述的方法,其特征在于,所述多个CDU中任意一个CDU与其余至少两个CDU连接,每个CDU连接监控接口或交换机,构成所述冗余环网。
8.根据权利要求1所述的方法,其特征在于,所述冗余环网通过所述多个CDU和环网交换机串联形成环网以实现。
9.一种数据中心液冷机房的群控系统,其特征在于,包括群控组,所述群控组包括多个CDU,其中任意一个CDU与其余至少两个CDU连接,每个CDU连接监控接口或交换机,所述群控组用于执行权利要求1-8任意一项所述的方法。
10.一种数据中心液冷机房的群控系统,其特征在于,包括群控组,所述群控组包括多个CDU,所述多个CDU与环网交换机串联形成环网,所述环网交换机连接监控接口;所述群控组用于执行权利要求1-8任意一项所述的方法。
11.根据权利要求10所述的群控系统,其特征在于,所述多个CDU与至少两台环网交换机串联形成环网,所述监控接口与所述至少两台环网交换机连接。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任意一项所述的CDU的群控方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-8任意一项所述的CDU的群控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410017464.7A CN117826573A (zh) | 2024-01-03 | 2024-01-03 | Cdu的群控方法、群控系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410017464.7A CN117826573A (zh) | 2024-01-03 | 2024-01-03 | Cdu的群控方法、群控系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117826573A true CN117826573A (zh) | 2024-04-05 |
Family
ID=90505887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410017464.7A Pending CN117826573A (zh) | 2024-01-03 | 2024-01-03 | Cdu的群控方法、群控系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117826573A (zh) |
-
2024
- 2024-01-03 CN CN202410017464.7A patent/CN117826573A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109104349A (zh) | 基于CANopen协议的列车网络数据传输方法、系统及其装置 | |
CN110780615B (zh) | 在高可用性工业控制系统上传输数据的系统和方法 | |
US9231779B2 (en) | Redundant automation system | |
CN107957692B (zh) | 控制器冗余方法、装置及系统 | |
US7246270B2 (en) | Programmable controller with CPU and communication units and method of controlling same | |
CN109768884A (zh) | 通信系统及其高可用性的实现方法、装置和计算机设备 | |
CN104079442B (zh) | 基于实时以太网的冗余控制装置、设备冗余系统和方法 | |
CN109104325A (zh) | 基于CANopen协议的列车网络数据传输方法、系统及其装置 | |
CN111984274B (zh) | 一种一键自动化部署etcd集群的方法及装置 | |
CN1322422C (zh) | 在可修复的故障后使群集器系统自动投入运行的方法和设备 | |
CN113127270A (zh) | 一种基于云计算的3取2安全计算机平台 | |
CN117826573A (zh) | Cdu的群控方法、群控系统、电子设备及存储介质 | |
CN117421158A (zh) | 数据库故障处理方法、系统及存储介质 | |
CN117032113A (zh) | Dcs控制器及其主备控制器可信工作方法和系统 | |
US20190306012A1 (en) | System and method for automatically repairing a network element | |
CN113590434B (zh) | 一种集群告警方法、系统、设备以及介质 | |
CN107528730A (zh) | 多重冗余方法、多重冗余服务器以及系统 | |
CN111934909A (zh) | 主备机ip资源切换方法、装置、计算机设备和存储介质 | |
CN109617761B (zh) | 一种主备服务器切换方法及装置 | |
CN110955210B (zh) | Agv调度方法、装置和系统 | |
CN102043688B (zh) | 用于刀片服务器的双机热备的方法和装置 | |
CN116506327B (zh) | 物理节点监测方法、装置、计算机设备及存储介质 | |
CN115473828B (zh) | 基于仿真网络的故障检测方法及系统 | |
CN111651294B (zh) | 一种节点异常检测方法及装置 | |
US20230370325A1 (en) | Apparatus And Method For Identifying Device Communication Failures In Communication Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |