WO2016104829A1 - Modular data center system and method for managing equipment thereof - Google Patents

Modular data center system and method for managing equipment thereof Download PDF

Info

Publication number
WO2016104829A1
WO2016104829A1 PCT/KR2014/012811 KR2014012811W WO2016104829A1 WO 2016104829 A1 WO2016104829 A1 WO 2016104829A1 KR 2014012811 W KR2014012811 W KR 2014012811W WO 2016104829 A1 WO2016104829 A1 WO 2016104829A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual machine
pod
monitoring
equipment
data center
Prior art date
Application number
PCT/KR2014/012811
Other languages
French (fr)
Korean (ko)
Inventor
김영환
박창원
김현우
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to PCT/KR2014/012811 priority Critical patent/WO2016104829A1/en
Publication of WO2016104829A1 publication Critical patent/WO2016104829A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks

Definitions

  • the present invention relates to a data center, and more particularly to a method for monitoring a data center and the various equipment constituting the same.
  • a data center is a facility where computer systems, communication equipment, and storage, storage, are installed.
  • Data centers are the core infrastructure for storing and distributing big data and require large amounts of power.
  • servers in the data sensor are sensitive to temperature and humidity, so they must be monitored and managed in real time to maintain the correct temperature (16-24 degrees) and the appropriate humidity (40-55%).
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide an effective monitoring method for a modular data center based on a POD (Portable Optimized Datacenter).
  • POD Portable Optimized Datacenter
  • a data center system includes: a first virtual machine for monitoring first devices in a portable optimized datacenter (POD); And a second virtual machine that monitors second types of devices different from the first devices in the POD.
  • POD portable optimized datacenter
  • the first virtual machine and the second virtual machine may include those operated independently.
  • a third virtual machine for replicating the first virtual machine, and checks whether the first virtual machine is operating normally while exchanging Heartbeat with the first virtual machine; And a fourth virtual machine that duplicates the second virtual machine and checks whether the second virtual machine is operating normally while sending and receiving Heartbeat with the second virtual machine.
  • the third virtual machine that detects the failure may monitor the first devices.
  • the apparatus may further include a fifth virtual machine that is newly created to check whether the third virtual machine is operating normally while exchanging Heartbeat with the third virtual machine.
  • the first virtual machine and the second virtual machine may interwork with one dashboard system that receives monitoring data from a plurality of PODs.
  • the first equipment may be any one of a CRAC, a UPS & PDU, and an IT Rack
  • the second equipment may be another one of a CRAC, a UPS & PDU, and an IT Rack.
  • the data center monitoring method according to another embodiment of the present invention, the first virtual machine, the step of monitoring the first equipment in the Portable Optimized Data Center (POD); And monitoring, by the second virtual machine, second equipment of a different type from the first equipments in the POD.
  • POD Portable Optimized Data Center
  • a monitoring operation optimized for the corresponding equipment is possible by separately operating a virtual machine for monitoring according to the type of the equipment configuring the POD in the POD-based modular data center.
  • FIG. 1 shows an overall system of a data center to which the present invention is applicable
  • FIG. 2 is an enlarged view of one of the PODs shown in FIG. 1;
  • 3 to 7 are diagrams provided for explaining the processing procedure when a failure occurs in the VM
  • FIG. 10 is a diagram illustrating a process of sensing (gathering) and monitoring data of equipment by a VM and an agent system;
  • FIG. 11 is a diagram illustrating a process of handling an abnormal condition of a device (equipment failure) and message structures used therein;
  • 12 to 18 are diagrams showing in detail the process of processing the abnormal condition of the equipment.
  • the data center to which the present invention is applicable includes a plurality of Portable Optimized Data Centers (PODs # 1 to POD #n) and one dash board system, as shown in FIG. 1.
  • PODs # 1 to POD #n Portable Optimized Data Centers
  • dash board system as shown in FIG. 1.
  • Data centers are built / operated by POD units.
  • the data center monitors and manages faults on a POD basis, while the administrator can monitor / manage all PODs with a dashboard system.
  • FIG. 2 is an enlarged view of one of the PODs shown in FIG. 1.
  • the POD is made of CRAC, UPS & PDU, and IT Rack (200-0 to 200-9, ...), and there is no limitation on the number of components.
  • POD also has an independent Data Center Monitor Middleware (DCMM) system. That is, there is a DCMM system for each POD. POD's DCMM systems work with dashboard systems.
  • DCMM Data Center Monitor Middleware
  • the DCMM system is a system for monitoring and managing the status of equipment (CRAC, UPS & PDU, IT Rack) (200-0 ⁇ 200-9, ...) that make up the POD. It has specialized virtual machines.
  • the DCMM system may include virtual machines (VMs) 100-0, 100-1, and 100-2, virtual layers (VLs) 100-3, and multi-core embedded platforms (MEPs) 100-4. ).
  • VMs virtual machines
  • VLs virtual layers
  • MEPs multi-core embedded platforms
  • VM # 0 (100-0) is a virtual machine for monitoring / managing the CRACs (200-0, 200-4, 200-5, 200-6, ...) installed in the POD
  • VM # 1 (100).
  • -1) is a virtual machine for monitoring / managing UPS & PDUs (200-1, 200-7, ...) installed in the POD
  • VM # 2 (100-2) is the IT Racks (200-) installed in the POD.
  • 200-3, 200-8, 200-9, ...) is a virtual machine to monitor / manage.
  • VMs that monitor / manage the devices of the POD are divided and operate independently, other VMs can operate normally without any problem even if a VM fails.
  • the spare VMs 100-5, 100-6, and 100-7 are operated as shown in FIG.
  • the VMs 100-0, 100-1, and 100-2 of the active base collect data from devices and make DBs, monitor / manage them, and pass-through VMs 100-100. 5, 100-6 and 100-7) allow them to be duplicated (backed up) respectively.
  • the VMs 100-5, 100-6, and 100-7 of the Passive Base are the VMs 100-0, 100-1, 100-of the Active Base through the FT Manager (FT_Manager). 2) With Heartbeat, check whether the VMs (100-0, 100-1, 100-2) of the Active Base are operating normally.
  • FT_Manager FT Manager
  • the system memory of the failed VM # 0 (100-0) is recovered, and the clone VM # 1 (100-5) is changed to Active Base to monitor / manage the CRACs of the POD. do.
  • a new clone VM 100-8 is created in the passive base to check whether it is operating normally while cloning (backup) the VM # 0 (100-5).
  • FIG. 8 shows one VM as a representative.
  • the VM includes an SNMP module, a check_snmp module, a DCM daemon, a DCMM, a DB, a DB manager, an FT manager, and an Overstate Control Module (OCM).
  • SNMP module As shown in FIG. 8, the VM includes an SNMP module, a check_snmp module, a DCM daemon, a DCMM, a DB, a DB manager, an FT manager, and an Overstate Control Module (OCM).
  • OCM daemon As shown in FIG. 8, the VM includes an SNMP module, a check_snmp module, a DCM daemon, a DCMM, a DB, a DB manager, an FT manager, and an Overstate Control Module (OCM).
  • OCM Overstate Control Module
  • DCMM creates configuration files (cfg files) for each device (host) used to monitor the target device, and the DCM daemon manages periodic monitoring.
  • the configuration file acts as a data collection object that contains commands related to the monitoring of the device.
  • the check_snmp module transfers the configuration file created by DCMM to the monitored device (host) through SNMP to obtain data for monitoring.
  • the SNMP module is a module that performs networking with the monitored device through Ethernet.
  • the DB manager stores the data acquired by the check_snmp module in the DB.
  • the DB administrator provides data stored in the DB to the dashboard system so that the administrator can directly check the status of the devices through the dashboard system.
  • the FT manager is a module for delivering Heartbeart with other VMs, and the OCM performs fault management and control, which will be described later in detail.
  • FIG. 9 is a diagram provided to explain an agent system provided in equipments to be monitored. Like the VM, the agent system is specialized in the type of equipment, but the structure is the same.
  • All equipment has an agent system.
  • the agent system collects data about the equipment and passes it to the VM's DCMM.
  • the data collected includes temperature, humidity, power usage, etc. Of course, other data may be further included.
  • the agent system includes an SNMP agent, a subagent, and a management information base (MIB), as shown in FIG.
  • MIB management information base
  • the SNMP agent establishes and maintains a communication connection with the VM's SNMP, and the subagent's handler senses (gathers) data required by the configuration file received from the VM.
  • the MIB stores information that is referred to for data collection / management.
  • FIG. 10 illustrates a process of sensing and collecting data of a device by the VM and the agent system.
  • data necessary for monitoring is collected from an object using a configuration file keti_host generated by DCMM. It has been described above that the data collected includes temperature, humidity, power consumption, and the like.
  • the check_snmp module of the VM requests / collects the above data from the agent system (SNMP_GET, SNMP_RESPONSE) and stores it in the DB (Insertr data). Then, all or part of the data stored in the DB (eg, data requested by the administrator) is reported to the dashboard system (select data). The data passed to the dashboard system is shown to the administrator in various forms.
  • FIG. 11 On the left side of FIG. 11, a process of processing an abnormal condition (equipment failure) occurring in the equipment is illustrated.
  • an abnormal state is detected in a device, which is a monitoring object
  • DCM of the VM first analyzes it and delivers necessary messages for resolution.
  • messages used for state abnormality control include an Alert message, a handle message, a control message, and a check message.
  • the messages are prefixed with "Msg Type” to indicate the type of message.
  • “Device Type” is a field indicating the type of equipment contains CRAC, IT Rack, UPS & PDU.
  • “Device ID” is an ID assigned to each device to specify the device.
  • Error State is a field indicating the type of state abnormality (fault) occurred in the equipment, and "Error Information” is additional data necessary to deal with the state abnormality and contains detailed state information of the current equipment.
  • “Handle State” is a field indicating whether a state abnormality can be solved, and a “Handle Command” is a field containing an operation to be performed to resolve a state abnormality.
  • “Control Command” contains commands that are sent to the equipment for remedy.
  • FIG. 12 illustrates a state abnormality (disorder) process, and message types and delivery paths are embodied in FIGS. 13 to 18.
  • a state abnormality temperature abnormality
  • the OCM of the IT Rack VM (VM # 2) that detects the abnormal status of a specific IT Rack ( Figure 13) ( Figure 14) analyzes the status abnormality and sends an alert message containing specific status information to the CRAC VM (VM # 0). Pass (FIG. 15).
  • the OCM of the CRAC VM transmits a Handle message to the OCM of the IT Rack VM, which indicates whether or not the solution is possible and an operation for solving the problem (when a state abnormality is possible) (FIG. 16).
  • the OCM of the CRAC VM transmits a control message for solving the problem to the corresponding device (CRAC #n) (FIG. 17).
  • the OCM of the CRAC VM transmits a check message to the OCM of the IT Rack VM to confirm whether the IT Rack is in a normal state (FIG. 18).
  • the OCM of the IT Rack VM then sends an Alert message to the OCM of the CRAC VM, indicating the current status of the device.
  • the IT Rack VM's OCM sent an Alert message to the CRAC VM's OCM because the IT Rack had an abnormal temperature. If there is a power failure in the IT Rack, the OCM of the IT Rack VM sends an Alert message to the UPS & PDU to initiate the process of abnormal status.

Abstract

Provided are a POD-based modular data center and a monitoring method therefor. The data center system according to embodiments of the present invention comprises virtual machines divided so as to monitor different types of equipment in a POD. Thereby, it is possible to perform monitoring optimized for relevant equipment by separately operating virtual machines for monitoring in the POD-based modular data center according to the types of equipment constituting the POD.

Description

모듈러 데이터 센터 시스템 및 그의 장비 관리 방법How to manage modular data center systems and their equipment
본 발명은 데이터 센터에 관한 것으로, 더욱 상세하게는 데이터 센터와 그를 구성하는 다양한 장비들을 모니터링하는 방법에 관한 것이다.The present invention relates to a data center, and more particularly to a method for monitoring a data center and the various equipment constituting the same.
데이터 센터는 컴퓨터 시스템과 통신장비, 저장장치인 스토리지 등이 설치된 시설을 말한다. 데이터 센터는 빅데이터를 저장하고 유통시키는 핵심 인프라로 대규모 전력을 필요로 한다.A data center is a facility where computer systems, communication equipment, and storage, storage, are installed. Data centers are the core infrastructure for storing and distributing big data and require large amounts of power.
뿐만 아니라, 데이터 센서의 서버들은 온도와 습도에 민감하므로 적정 온도(16∼24도)와 적정 습도(40∼55%)로 유지시키기 위해, 실시간으로 이를 모니터링하고 관리하여야 한다.In addition, servers in the data sensor are sensitive to temperature and humidity, so they must be monitored and managed in real time to maintain the correct temperature (16-24 degrees) and the appropriate humidity (40-55%).
또한, 전원 공급 중단시 정보 유실과 서비스 중단이라는 문제가 발생하므로, 전원 상태 역시 모니터링과 관리 대상이 된다.In addition, since power loss occurs, information loss and service interruption occur, so the power state is also monitored and managed.
현재, 데이터 센서를 구성하는 많은 장비들에 대해 하나의 관리 서버를 통해 일괄적인 모니터링과 관리가 이루어지고 있는데, 처리 속도가 늦어 적시에 절절한 조치가 이루어지지 않는 경우가 발생할 수 있다.Currently, many devices constituting the data sensor are collectively monitored and managed through one management server. However, due to the slow processing speed, timely and inadequate measures may not be performed.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, POD(Portable Optimized Datacenter) 기반의 모듈형 데이터 센터에 효과적인 모니터링 방법을 제공함에 있다.The present invention has been made to solve the above problems, and an object of the present invention is to provide an effective monitoring method for a modular data center based on a POD (Portable Optimized Datacenter).
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 데이터 센터 시스템은, POD(Portable Optimized Datacenter)에서 제1 장비들을 모니터링하는 제1 가상 머신; 및 상기 POD에서 상기 제1 장비들과 다른 종류의 제2 장비들을 모니터링하는 제2 가상 머신;을 포함한다.According to an embodiment of the present invention, a data center system includes: a first virtual machine for monitoring first devices in a portable optimized datacenter (POD); And a second virtual machine that monitors second types of devices different from the first devices in the POD.
그리고, 상기 제1 가상 머신과 상기 제2 가상 머신은, 독립적으로 운용되는 것을 포함할 수 있다.The first virtual machine and the second virtual machine may include those operated independently.
또한, 상기 제1 가상 머신을 복제하고, 상기 제1 가상 머신과 Heartbeat를 주고 받으면서 상기 제1 가상 머신이 정상적으로 동작하고 있는지 체크하는 제3 가상 머신; 및 상기 제2 가상 머신을 복제하고, 상기 제2 가상 머신과 Heartbeat를 주고 받으면서 상기 제2 가상 머신이 정상적으로 동작하고 있는지 체크하는 제4 가상 머신;을 더 포함하는 것을 포함할 수 있다.In addition, a third virtual machine for replicating the first virtual machine, and checks whether the first virtual machine is operating normally while exchanging Heartbeat with the first virtual machine; And a fourth virtual machine that duplicates the second virtual machine and checks whether the second virtual machine is operating normally while sending and receiving Heartbeat with the second virtual machine.
그리고, 상기 제1 가상 머신에 장애가 발생하면, 상기 장애를 감지한 상기 제3 가상 머신이 상기 제1 장비들을 모니터링할 수 있다.When a failure occurs in the first virtual machine, the third virtual machine that detects the failure may monitor the first devices.
또한, 상기 제3 가상 머신과 Heartbeat를 주고 받으면서 상기 제3 가상 머신이 정상적으로 동작하고 있는지 체크하기 위해 새로이 생성되는 제5 가상 머신;을 더 포함하는 것을 포함할 수 있다.The apparatus may further include a fifth virtual machine that is newly created to check whether the third virtual machine is operating normally while exchanging Heartbeat with the third virtual machine.
그리고, 상기 제1 가상 머신 및 상기 제2 가상 머신은, 다수의 POD들로부터 모니터링 데이터를 수신받는 하나의 대시 보드 시스템과 연동할 수 있다.The first virtual machine and the second virtual machine may interwork with one dashboard system that receives monitoring data from a plurality of PODs.
또한, 상기 제1 장비는, CRAC, UPS&PDU 및 IT Rack 중 어느 하나이고, 상기 제2 장비는, CRAC, UPS&PDU 및 IT Rack 중 다른 하나일 수 있다.The first equipment may be any one of a CRAC, a UPS & PDU, and an IT Rack, and the second equipment may be another one of a CRAC, a UPS & PDU, and an IT Rack.
한편, 본 발명의 다른 실시예에 따른, 데이터 센터 모니터링 방법은, 제1 가상 머신이, POD(Portable Optimized Datacenter)에서 제1 장비들을 모니터링하는 단계; 및 제2 가상 머신이, 상기 POD에서 상기 제1 장비들과 다른 종류의 제2 장비들을 모니터링하는 단계;를 포함한다.On the other hand, the data center monitoring method according to another embodiment of the present invention, the first virtual machine, the step of monitoring the first equipment in the Portable Optimized Data Center (POD); And monitoring, by the second virtual machine, second equipment of a different type from the first equipments in the POD.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, POD 기반의 모듈형 데이터 센터에서 POD를 구성하는 장비의 종류에 따라 모니터링을 위한 가상 머신을 별도로 운영하여 해당 장비에 최적화된 모니터링이 가능해진다.As described above, according to the embodiments of the present invention, a monitoring operation optimized for the corresponding equipment is possible by separately operating a virtual machine for monitoring according to the type of the equipment configuring the POD in the POD-based modular data center.
또한, 가상 머신이 구분되어 있으므로, 하나의 가상 머신에 발생한 장애가 다른 가상 머신에 영향을 미치지 않도록 할 수 있다. 아울러, 예비적인 복제 가상 머신을 운용하여 장애 발생시 최선의 빠른 복구가 가능하다.In addition, since the virtual machines are divided, it is possible to prevent a failure in one virtual machine from affecting other virtual machines. In addition, by operating a preliminary replica virtual machine, the best possible quick recovery in the event of a failure.
도 1은 본 발명이 적용가능한 데이터 센터의 전체 시스템을 도시한 도면,1 shows an overall system of a data center to which the present invention is applicable;
도 2는, 도 1에 도시된 POD들 중 하나를 확대하여 도시한 도면,FIG. 2 is an enlarged view of one of the PODs shown in FIG. 1;
도 3 내지 도 7은, VM에 장애가 발생한 경우의 처리 과정의 설명에 제공되는 도면,3 to 7 are diagrams provided for explaining the processing procedure when a failure occurs in the VM,
도 8은 VM의 상세 구조에 대한 설명에 제공되는 도면,8 is a view provided for the detailed structure of the VM;
도 9는 모니터링 대상이 되는 장비들에 마련되는 에이전트 시스템의 설명에 제공되는 도면,9 is a view provided for the description of the agent system provided in the equipment to be monitored;
도 10은 VM과 에이전트 시스템이 장비의 데이터를 센싱(수집)하여 모니터링하는 과정을 나타낸 도면,10 is a diagram illustrating a process of sensing (gathering) and monitoring data of equipment by a VM and an agent system;
도 11은 장비의 상태 이상(장비 장애)을 처리하는 과정 및 그에 이용되는 메시지 구조들 나타낸 도면, 그리고,FIG. 11 is a diagram illustrating a process of handling an abnormal condition of a device (equipment failure) and message structures used therein; FIG.
도 12 내지 도 18은, 장비의 상태 이상 처리 과정을 구체적으로 나타낸 도면이다.12 to 18 are diagrams showing in detail the process of processing the abnormal condition of the equipment.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, with reference to the drawings will be described the present invention in more detail.
도 1은 본 발명이 적용가능한 데이터 센터의 전체 시스템을 도시한 도면이다. 본 발명이 적용가능한 데이터 센터는, 도 1에 도시된 바와 같이, 다수의 POD(Portable Optimized Datacenter)들(POD #1 ~ POD #n)과 하나의 대시 보드(Dash Board) 시스템를 포함한다.1 shows an overall system of a data center to which the present invention is applicable. The data center to which the present invention is applicable includes a plurality of Portable Optimized Data Centers (PODs # 1 to POD #n) and one dash board system, as shown in FIG. 1.
데이터 센터는 POD 단위로 구분하여 구축/운용한다. 또한, 데이터 센터는 POD 단위로 장애를 모니터링하고 관리하되, 관리자는 대시보드 시스템으로 모든 POD들에 대한 모니터링/관리가 가능하다.Data centers are built / operated by POD units. In addition, the data center monitors and manages faults on a POD basis, while the administrator can monitor / manage all PODs with a dashboard system.
도 2는 도 1에 도시된 POD들 중 하나를 확대하여 도시한 도면이다. 도 2에 도시된 바와 같이, POD는 CRAC, UPS&PDU, IT Rack(200-0 ~ 200-9, ... )로 이루어지며, 각 구성들의 개수에 대한 제한은 없다.FIG. 2 is an enlarged view of one of the PODs shown in FIG. 1. As shown in FIG. 2, the POD is made of CRAC, UPS & PDU, and IT Rack (200-0 to 200-9, ...), and there is no limitation on the number of components.
또한, POD는 독립된 DCMM(Data Center Monitor Middleware) 시스템을 보유한다. 즉, POD 마다 DCMM 시스템이 존재한다. POD의 DCMM 시스템들은 대시 보드 시스템과 연동한다.POD also has an independent Data Center Monitor Middleware (DCMM) system. That is, there is a DCMM system for each POD. POD's DCMM systems work with dashboard systems.
DCMM 시스템은 POD를 구성하는 장비들(CRAC, UPS&PDU, IT Rack)(200-0 ~ 200-9, ... )의 상태를 모니터링하고 관리하기 위한 시스템으로, 모니터링/관리할 장비의 종류에 따라 특화된 가상 머신들을 구비하고 있다.The DCMM system is a system for monitoring and managing the status of equipment (CRAC, UPS & PDU, IT Rack) (200-0 ~ 200-9, ...) that make up the POD. It has specialized virtual machines.
구체적으로, DCMM 시스템은, VM(Virtual Machine)들(100-0, 100-1, 100-2), VL(Virtual Layer)(100-3) 및 MEP(Multi-core Embedded Platform)(100-4)를 포함한다.In detail, the DCMM system may include virtual machines (VMs) 100-0, 100-1, and 100-2, virtual layers (VLs) 100-3, and multi-core embedded platforms (MEPs) 100-4. ).
VM #0(100-0)은 POD에 설치된 CRAC들(200-0, 200-4, 200-5, 200-6, ...)을 모니터링/관리하기 위한 가상 머신이고, VM #1(100-1)은 POD에 설치된 UPS&PDU들(200-1, 200-7, ...)을 모니터링/관리하기 위한 가상 머신이며, VM #2(100-2)은 POD에 설치된 IT Rack들(200-2, 200-3, 200-8, 200-9, ...)을 모니터링/관리하기 위한 가상 머신이다.VM # 0 (100-0) is a virtual machine for monitoring / managing the CRACs (200-0, 200-4, 200-5, 200-6, ...) installed in the POD, and VM # 1 (100). -1) is a virtual machine for monitoring / managing UPS & PDUs (200-1, 200-7, ...) installed in the POD, and VM # 2 (100-2) is the IT Racks (200-) installed in the POD. 2, 200-3, 200-8, 200-9, ...) is a virtual machine to monitor / manage.
POD의 장비들을 모니터링/관리하는 VM들이 구분되어 독립적으로 동작하기 때문에, 어느 VM에 장애가 발생한 경우에도 다른 VM들은 문제 없이 정상적으로 동작할 수 있다.Since VMs that monitor / manage the devices of the POD are divided and operate independently, other VMs can operate normally without any problem even if a VM fails.
한편, VM에 장애가 발생할 경우를 대비하여, 도 3에 도시된 바와 같이 예비 VM들(100-5, 100-6, 100-7)이 운용된다. 도 4에 도시된 바와 같이, Active Base의 VM들(100-0, 100-1, 100-2)은 장비들로부터 데이터를 수집하여 DB화하고 모니터링/관리하고, Passive Base의 VM들(100-5, 100-6, 100-7)은 이들을 각각 복제(백업)하도록 한다.On the other hand, in case a failure occurs in the VM, the spare VMs 100-5, 100-6, and 100-7 are operated as shown in FIG. As shown in FIG. 4, the VMs 100-0, 100-1, and 100-2 of the active base collect data from devices and make DBs, monitor / manage them, and pass-through VMs 100-100. 5, 100-6 and 100-7) allow them to be duplicated (backed up) respectively.
도 4에 도시된 바와 같이, Passive Base의 VM들(100-5, 100-6, 100-7)은 FT 관리자(FT_Manager)를 통해 Active Base의 VM들(100-0, 100-1, 100-2)과 Heartbeat를 주고받으면서, Active Base의 VM들(100-0, 100-1, 100-2)이 정상적으로 동작하고 있는지 체크한다.As shown in FIG. 4, the VMs 100-5, 100-6, and 100-7 of the Passive Base are the VMs 100-0, 100-1, 100-of the Active Base through the FT Manager (FT_Manager). 2) With Heartbeat, check whether the VMs (100-0, 100-1, 100-2) of the Active Base are operating normally.
Active Base의 VM에 장애가 발생한 경우의 처리 과정에 대해 설명하기 위해, 도 5에 도시된 바와 같이, VM #0(100-0)에 장애가 발생한 경우를 상정한다. VM #0(100-0)에 장애가 발생하면, 복제 VM #1(100-5)은 Heartbeat를 통해 이를 감지하게 된다.In order to explain a process in the case where a failure of the VM of the Active Base occurs, as shown in FIG. 5, a case where a failure occurs in the VM # 0 (100-0) is assumed. If VM # 0 (100-0) fails, clone VM # 1 (100-5) will detect it via Heartbeat.
이후, 도 6에 도시된 바와 같이, 장애가 발생한 VM #0(100-0)의 시스템 메모리를 회수하고, 복제 VM #1(100-5)를 Active Base로 변경시켜 POD의 CRAC들을 모니터링/관리하도록 한다.Thereafter, as shown in FIG. 6, the system memory of the failed VM # 0 (100-0) is recovered, and the clone VM # 1 (100-5) is changed to Active Base to monitor / manage the CRACs of the POD. do.
다음, 도 7에 도시된 바와 같이, Passive Base에 새로운 복제 VM(100-8)을 생성하여 VM #0(100-5)을 복제(백업)하면서 정상적으로 동작하고 있는지 체크하도록 한다.Next, as illustrated in FIG. 7, a new clone VM 100-8 is created in the passive base to check whether it is operating normally while cloning (backup) the VM # 0 (100-5).
이하에서, VM들의 상세 구조에 대해, 도 8을 참조하여 상세히 설명한다. VM들은 모니터링/관리 대상만이 다를 뿐, 그 구조는 동일하게 구현할 수 있으므로, 도 8에는 하나의 VM을 대표로 도시하였다.Hereinafter, the detailed structure of the VMs will be described in detail with reference to FIG. 8. Since the VMs differ only in the object of monitoring / management, and the structure can be implemented in the same way, FIG. 8 shows one VM as a representative.
도 8에 도시된 바와 같이, VM은, SNMP 모듈, check_snmp 모듈, DCM 데몬, DCMM, DB, DB 관리자, FT 관리자, OCM(Overstate Control Module)을 포함한다.As shown in FIG. 8, the VM includes an SNMP module, a check_snmp module, a DCM daemon, a DCMM, a DB, a DB manager, an FT manager, and an Overstate Control Module (OCM).
DCMM은 대상 장비 모니터링에 사용되는 설정 파일(cfg 파일)들을 장비(호스트) 별로 생성하고, DCM 데몬은 주기적인 모니터링을 관리한다. 설정 파일은 해당 장비의 모니터링에 관련된 명령들이 수록되어 있는 데이터 수집 객체로 기능한다.DCMM creates configuration files (cfg files) for each device (host) used to monitor the target device, and the DCM daemon manages periodic monitoring. The configuration file acts as a data collection object that contains commands related to the monitoring of the device.
check_snmp 모듈은 DCMM이 생성한 설정 파일을 SNMP를 통해 모니터링 대상 장비(호스트)에 전달하여 모니터링에 필요한 데이터를 획득한다. SNMP 모듈은 이더넷을 통해 모니터링 대상 장비와 네트워킹을 수행하는 모듈이다.The check_snmp module transfers the configuration file created by DCMM to the monitored device (host) through SNMP to obtain data for monitoring. The SNMP module is a module that performs networking with the monitored device through Ethernet.
DB 관리자는 check_snmp 모듈이 획득한 데이터를 DB에 저장한다. 또한, DB 관리자는 DB에 저장된 데이터를 대시보드 시스템에 제공하여, 관리자가 대시보드 시스템을 통해 장비들의 상태를 직접 확인할 수 있도록 한다.The DB manager stores the data acquired by the check_snmp module in the DB. In addition, the DB administrator provides data stored in the DB to the dashboard system so that the administrator can directly check the status of the devices through the dashboard system.
FT 관리자는 다른 VM과 Heartbeart 전달을 위한 모듈이고, OCM은 장애 관리 및 제어를 수행하는데 이에 대해서는 상세히 후술한다.The FT manager is a module for delivering Heartbeart with other VMs, and the OCM performs fault management and control, which will be described later in detail.
도 9는 모니터링 대상이 되는 장비들에 마련되는 에이전트 시스템의 설명에 제공되는 도면이다. VM과 마찬가지로, 에이전트 시스템도 장비의 종류에 특화되지만, 그 구조는 동일하다.9 is a diagram provided to explain an agent system provided in equipments to be monitored. Like the VM, the agent system is specialized in the type of equipment, but the structure is the same.
모든 장비들은 에이전트 시스템을 보유하고 있다. 에이전트 시스템은 장비에 대한 데이터를 수집하여 VM의 DCMM으로 전달한다. 수집되는 데이터에는 온도, 습도, 전력 사용량 등이 포함되는데, 이 밖의 다른 데이터가 더 포함될 수 있음은 물론이다.All equipment has an agent system. The agent system collects data about the equipment and passes it to the VM's DCMM. The data collected includes temperature, humidity, power usage, etc. Of course, other data may be further included.
에이전트 시스템은, 도 9에 도시된 바와 같이, SNMP 에이전트, 서브 에이전트, MIB(Management Information Base)를 포함한다.The agent system includes an SNMP agent, a subagent, and a management information base (MIB), as shown in FIG.
SNMP 에이전트는 VM의 SNMP와 통신 연결을 설정하고 유지하며, 서브 에이전트의 핸들러는 VM으로부터 전달받은 설정 파일에서 요구하는 데이터들을 센싱(수집)한다. MIB는 데이터 수집/관리에 참조 되는 정보들이 저장되어 있다.The SNMP agent establishes and maintains a communication connection with the VM's SNMP, and the subagent's handler senses (gathers) data required by the configuration file received from the VM. The MIB stores information that is referred to for data collection / management.
도 10에는 전술한 VM과 에이전트 시스템이 장비의 데이터를 센싱(수집)하여 모니터링하는 과정이 도시되어 있다.FIG. 10 illustrates a process of sensing and collecting data of a device by the VM and the agent system.
도 10에 도시된 바와 같이, DCMM이 생성한 설정 파일(keti_host)을 이용하여 장비(object)로부터 모니터링에 필요한 데이터를 수집한다(sensing data). 수집되는 데이터에는 온도, 습도, 전력 소비량 등이 포함됨은 전술한 바 있다.As shown in FIG. 10, data necessary for monitoring is collected from an object using a configuration file keti_host generated by DCMM. It has been described above that the data collected includes temperature, humidity, power consumption, and the like.
이후, VM의 check_snmp 모듈이 에이전트 시스템에 위 데이터를 요청/수집하여(SNMP_GET, SNMP_RESPONSE), DB에 저장한다(Insertr data). 이후, DB에 저장된 데이터들 중 전부 또는 일부(예를 들면, 관리자가 요구한 데이터)가 대시 보드 시스템에 보고된다(select data). 대시 보드 시스템으로 전달된 데이터는 다양한 형태로 관리자에게 보여진다.Thereafter, the check_snmp module of the VM requests / collects the above data from the agent system (SNMP_GET, SNMP_RESPONSE) and stores it in the DB (Insertr data). Then, all or part of the data stored in the DB (eg, data requested by the administrator) is reported to the dashboard system (select data). The data passed to the dashboard system is shown to the administrator in various forms.
도 11의 좌측에는 장비에 발생한 상태 이상(장비 장애)을 처리하는 과정이 도시되어 있다. 도 11에 도시된 바와 같이, 모니터링 객체인 장비에 상태 이상이 감지되면, VM의 DCM은 먼저 이를 분석하고, 해결을 위해 필요한 메시지들을 전달한다.On the left side of FIG. 11, a process of processing an abnormal condition (equipment failure) occurring in the equipment is illustrated. As shown in FIG. 11, when an abnormal state is detected in a device, which is a monitoring object, DCM of the VM first analyzes it and delivers necessary messages for resolution.
이 과정에서 이용되는 메시지들의 포맷을 도 11의 우측에 나타내었다. 도시된 바와 같이, 상태 이상 제어에 사용되는 메시지에는, Alert 메시지, 핸들 메시지, 제어 메시지 및 체크 메시지가 포함된다.The format of the messages used in this process is shown on the right side of FIG. As shown, messages used for state abnormality control include an Alert message, a handle message, a control message, and a check message.
메시지들에는 메시지의 유형을 나타내기 위한 "Msg Type"이 맨 앞에 수록된다. "Device Type"은 장비 유형을 나타내는 필드로 CRAC, IT Rack, UPS&PDU 등이 수록된다. "Device ID"는 장비를 특정하기 위해 장비 마다 부여된 ID이다.The messages are prefixed with "Msg Type" to indicate the type of message. "Device Type" is a field indicating the type of equipment contains CRAC, IT Rack, UPS & PDU. "Device ID" is an ID assigned to each device to specify the device.
"Error State"는 장비에 발생한 상태 이상(장애)의 종류를 나타내는 필드이고, "Error Information"은 상태 이상을 처리하기 위해 필요한 추가 데이터로 현재 장비의 구체적인 상태 정보가 수록된다."Error State" is a field indicating the type of state abnormality (fault) occurred in the equipment, and "Error Information" is additional data necessary to deal with the state abnormality and contains detailed state information of the current equipment.
"Handle State"는 상태 이상을 해결 가능 여부를 나타내는 필드이고, "Handle Command"는 상태 이상 해결을 위해 수행할 동작이 수록된 필드이다. "Control Command"는 상태 이상 해결을 위해 장비에 전달하는 명령어가 수록된다."Handle State" is a field indicating whether a state abnormality can be solved, and a "Handle Command" is a field containing an operation to be performed to resolve a state abnormality. "Control Command" contains commands that are sent to the equipment for remedy.
도 12에는 상태 이상(장애) 처리 과정을 구체적으로 나타내었고, 메시지 종류 및 전달 경로가 도 13 내지 도 18에 구체화되어 있다. 도 12에서는 특정 IT Rack에 상태 이상(온도 이상)이 발생한 경우를 상정하였다.12 illustrates a state abnormality (disorder) process, and message types and delivery paths are embodied in FIGS. 13 to 18. In FIG. 12, it is assumed that a state abnormality (temperature abnormality) occurs in a specific IT rack.
특정 IT Rack의 상태 이상(도 13)을 감지(도 14)한 IT Rack VM(VM #2)의 OCM은 상태 이상에 대해 분석하고 구체적인 상태 정보가 수록된 Alert 메시지를 CRAC VM(VM #0)에 전달한다(도 15).The OCM of the IT Rack VM (VM # 2) that detects the abnormal status of a specific IT Rack (Figure 13) (Figure 14) analyzes the status abnormality and sends an alert message containing specific status information to the CRAC VM (VM # 0). Pass (FIG. 15).
CRAC VM의 OCM은 해결 가능 여부와 해결을 위한 동작(상태 이상 해결이 가능한 경우)이 수록된 Handle 메시지를 IT Rack VM의 OCM에 전송한다(도 16). 그리고, CRAC VM의 OCM은 이상 해결을 위한 제어 메시지를 해당 장비(CRAC #n)에 전송한다(도 17).The OCM of the CRAC VM transmits a Handle message to the OCM of the IT Rack VM, which indicates whether or not the solution is possible and an operation for solving the problem (when a state abnormality is possible) (FIG. 16). In addition, the OCM of the CRAC VM transmits a control message for solving the problem to the corresponding device (CRAC #n) (FIG. 17).
다음, CRAC VM의 OCM은 해당 IT Rack이 정상 상태가 되었는지 확인하기 위한 체크 메시지를 IT Rack VM의 OCM에 전송한다(도 18). 그러면, IT Rack VM의 OCM은 Alert 메시지를 CRAC VM의 OCM에 전송하면서, 장비의 현재 상황을 알린다.Next, the OCM of the CRAC VM transmits a check message to the OCM of the IT Rack VM to confirm whether the IT Rack is in a normal state (FIG. 18). The OCM of the IT Rack VM then sends an Alert message to the OCM of the CRAC VM, indicating the current status of the device.
IT Rack에 온도 이상이 발생하였기 때문에 IT Rack VM의 OCM은 Alert 메시지를 CRAC VM의 OCM에 전송한 것이다. 만약, IT Rack에 전력 이상이 발생한 경우라면 IT Rack VM의 OCM은 Alert 메시지를 UPS&PDU에 전송하여, 상태 이상 처리 절차를 개시하게 된다.The IT Rack VM's OCM sent an Alert message to the CRAC VM's OCM because the IT Rack had an abnormal temperature. If there is a power failure in the IT Rack, the OCM of the IT Rack VM sends an Alert message to the UPS & PDU to initiate the process of abnormal status.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although the preferred embodiment of the present invention has been shown and described above, the present invention is not limited to the specific embodiments described above, but the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Of course, various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.

Claims (8)

  1. POD(Portable Optimized Datacenter)에서 제1 장비들을 모니터링하는 제1 가상 머신; 및A first virtual machine monitoring the first devices in a Portable Optimized Datacenter (POD); And
    상기 POD에서 상기 제1 장비들과 다른 종류의 제2 장비들을 모니터링하는 제2 가상 머신;을 포함하는 것을 특징으로 하는 데이터 센터 시스템.And a second virtual machine for monitoring a second kind of second equipment different from said first equipments in said POD.
  2. 제 1항에 있어서,The method of claim 1,
    상기 제1 가상 머신과 상기 제2 가상 머신은,The first virtual machine and the second virtual machine,
    독립적으로 운용되는 것을 포함하는 것을 특징으로 하는 데이터 센터 시스템.A data center system, comprising operating independently.
  3. 제 2항에 있어서,The method of claim 2,
    상기 제1 가상 머신을 복제하고, 상기 제1 가상 머신과 Heartbeat를 주고 받으면서 상기 제1 가상 머신이 정상적으로 동작하고 있는지 체크하는 제3 가상 머신; 및A third virtual machine that duplicates the first virtual machine and checks whether the first virtual machine is operating normally while exchanging Heartbeat with the first virtual machine; And
    상기 제2 가상 머신을 복제하고, 상기 제2 가상 머신과 Heartbeat를 주고 받으면서 상기 제2 가상 머신이 정상적으로 동작하고 있는지 체크하는 제4 가상 머신;을 더 포함하는 것을 포함하는 것을 특징으로 하는 데이터 센터 시스템.And a fourth virtual machine that duplicates the second virtual machine and checks whether the second virtual machine is operating normally while exchanging heartbeats with the second virtual machine. .
  4. 제 3항에 있어서,The method of claim 3, wherein
    상기 제1 가상 머신에 장애가 발생하면, 상기 장애를 감지한 상기 제3 가상 머신이 상기 제1 장비들을 모니터링하는 것을 포함하는 것을 특징으로 하는 데이터 센터 시스템.And if the failure occurs in the first virtual machine, the third virtual machine detecting the failure monitors the first devices.
  5. 제 4항에 있어서,The method of claim 4, wherein
    상기 제3 가상 머신과 Heartbeat를 주고 받으면서 상기 제3 가상 머신이 정상적으로 동작하고 있는지 체크하기 위해 새로이 생성되는 제5 가상 머신;을 더 포함하는 것을 포함하는 것을 특징으로 하는 데이터 센터 시스템.And a fifth virtual machine, which is newly created to check whether the third virtual machine is operating normally while exchanging heartbeats with the third virtual machine.
  6. 제 1항에 있어서,The method of claim 1,
    상기 제1 가상 머신 및 상기 제2 가상 머신은,The first virtual machine and the second virtual machine,
    다수의 POD들로부터 모니터링 데이터를 수신받는 하나의 대시 보드 시스템과 연동하는 것을 포함하는 것을 특징으로 하는 데이터 센터 시스템.A data center system comprising interworking with one dashboard system receiving monitoring data from multiple PODs.
  7. 제 1항에 있어서,The method of claim 1,
    상기 제1 장비는, CRAC, UPS&PDU 및 IT Rack 중 어느 하나이고,The first equipment is any one of CRAC, UPS & PDU, and IT Rack,
    상기 제2 장비는, CRAC, UPS&PDU 및 IT Rack 중 다른 하나인 것을 특징으로 하는 데이터 센터 시스템.The second equipment is a data center system, characterized in that the other one of the CRAC, UPS & PDU and IT Rack.
  8. 제1 가상 머신이, POD(Portable Optimized Datacenter)에서 제1 장비들을 모니터링하는 단계; 및Monitoring, by the first virtual machine, the first devices in a portable optimized datacenter (POD); And
    제2 가상 머신이, 상기 POD에서 상기 제1 장비들과 다른 종류의 제2 장비들을 모니터링하는 단계;를 포함하는 것을 특징으로 하는 데이터 센터 모니터링 방법.Monitoring, by the second virtual machine, second types of equipment different from the first equipments in the POD.
PCT/KR2014/012811 2014-12-24 2014-12-24 Modular data center system and method for managing equipment thereof WO2016104829A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/012811 WO2016104829A1 (en) 2014-12-24 2014-12-24 Modular data center system and method for managing equipment thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/012811 WO2016104829A1 (en) 2014-12-24 2014-12-24 Modular data center system and method for managing equipment thereof

Publications (1)

Publication Number Publication Date
WO2016104829A1 true WO2016104829A1 (en) 2016-06-30

Family

ID=56150835

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/012811 WO2016104829A1 (en) 2014-12-24 2014-12-24 Modular data center system and method for managing equipment thereof

Country Status (1)

Country Link
WO (1) WO2016104829A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106054095A (en) * 2016-07-01 2016-10-26 河北箱变电器有限公司 Monitoring equipment for secondary device for monitoring partial discharging and temperature monitoring device
CN108388191A (en) * 2018-05-22 2018-08-10 郑州云海信息技术有限公司 A kind of equipment monitoring apparatus and method based on modular data center

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100050171A1 (en) * 2008-08-21 2010-02-25 Vmware, Inc. Resource management system and apparatus
US20100070978A1 (en) * 2008-09-12 2010-03-18 Vmware, Inc. VDI Storage Overcommit And Rebalancing
US20120072910A1 (en) * 2010-09-03 2012-03-22 Time Warner Cable, Inc. Methods and systems for managing a virtual data center with embedded roles based access control
US20140344462A1 (en) * 2005-08-15 2014-11-20 Toutvirtual, Inc. Virtual systems management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140344462A1 (en) * 2005-08-15 2014-11-20 Toutvirtual, Inc. Virtual systems management
US20100050171A1 (en) * 2008-08-21 2010-02-25 Vmware, Inc. Resource management system and apparatus
US20100070978A1 (en) * 2008-09-12 2010-03-18 Vmware, Inc. VDI Storage Overcommit And Rebalancing
US20120072910A1 (en) * 2010-09-03 2012-03-22 Time Warner Cable, Inc. Methods and systems for managing a virtual data center with embedded roles based access control

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHOL, JEONG YEOL ET AL.: "An Evaluation Study on Green Cloud Data Center for Supply and and Diffusion of Cloud Service", SUNGKYUL UNIVERSITY, 22 November 2013 (2013-11-22) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106054095A (en) * 2016-07-01 2016-10-26 河北箱变电器有限公司 Monitoring equipment for secondary device for monitoring partial discharging and temperature monitoring device
CN108388191A (en) * 2018-05-22 2018-08-10 郑州云海信息技术有限公司 A kind of equipment monitoring apparatus and method based on modular data center

Similar Documents

Publication Publication Date Title
CN107733684B (en) Multi-controller computing redundancy cluster based on Loongson processor
CN107147540A (en) Fault handling method and troubleshooting cluster in highly available system
CN110392001B (en) Rack-level network switch
CN104798349A (en) Failover in response to failure of a port
CN112181660A (en) High-availability method based on server cluster
JP2004062535A (en) Method of dealing with failure for multiprocessor system, multiprocessor system and node
CN101483540A (en) Master-slave switching method in high class data communication equipment
US20080313319A1 (en) System and method for providing multi-protocol access to remote computers
US20170114618A1 (en) Method and system for controlling well operations
US9647723B1 (en) Data center management using device identification over power-line
US20210286747A1 (en) Systems and methods for supporting inter-chassis manageability of nvme over fabrics based systems
CN103490914A (en) Switching system and switching method for multi-machine hot standby of network application equipment
CN101488101A (en) CPCI redundancy stand-by system
JP2013130901A (en) Monitoring server and network device recovery system using the same
WO2016104829A1 (en) Modular data center system and method for managing equipment thereof
CN103036701A (en) Network segment crossing N+1 backup method and network segment crossing N+1 backup device
CN104753707A (en) System maintenance method and network switching equipment
WO2016003127A1 (en) Management system for server/storage
WO2012153945A2 (en) Method for managing an osek network path
KR101505491B1 (en) Module Type Data Center based on POD and Monitoring Mtehod thereof
CN111342989A (en) Universal flight parameter system based on serial bus and implementation method thereof
CN114124803B (en) Device management method and device, electronic device and storage medium
CN102638369B (en) Method, device and system for arbitrating main/standby switch
KR101511542B1 (en) Mtehod for Handling Abnormal State of Module Type Data Center Ingra-structure
JP4495248B2 (en) Information processing apparatus and failure processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14909143

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14909143

Country of ref document: EP

Kind code of ref document: A1