CN102541722B - 一种监控服务器内存的方法以及服务器内存监控系统 - Google Patents

一种监控服务器内存的方法以及服务器内存监控系统 Download PDF

Info

Publication number
CN102541722B
CN102541722B CN201110454962.0A CN201110454962A CN102541722B CN 102541722 B CN102541722 B CN 102541722B CN 201110454962 A CN201110454962 A CN 201110454962A CN 102541722 B CN102541722 B CN 102541722B
Authority
CN
China
Prior art keywords
server
memory
monitoring
control unit
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110454962.0A
Other languages
English (en)
Other versions
CN102541722A (zh
Inventor
陈科
万伟
刘兴彬
朱春屹
李云华
李博文
董建珊
王清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD.
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201110454962.0A priority Critical patent/CN102541722B/zh
Publication of CN102541722A publication Critical patent/CN102541722A/zh
Application granted granted Critical
Publication of CN102541722B publication Critical patent/CN102541722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

一种监控服务器内存的方法以及服务器内存监控系统。本发明公开了一种服务器内存监控系统,所述系统包括用于服务器内存监控的管理设备和至少一台被监控服务器,其中:被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元;所述管理设备包括机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数,和发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。相应地,本发明还公开了用于服务器内存监控的管理设备和监控服务器内存的方法。采用本发明,能够对服务器机群的内存进行统一管理,提高了机群管理效率。

Description

一种监控服务器内存的方法以及服务器内存监控系统
技术领域
本发明涉及内存检测技术领域,尤其涉及一种监控服务器内存的方法、用于监控服务器内存的管理设备以及一种服务器内存监控系统。
背景技术
在服务器技术领域,随着内存技术的不断发展,单机服务器的内存无论从数量还是容量上都急剧增加。由于内存容易出现故障,但是内存故障前又不容易预警以及对故障定位,随之带来的问题日益显现。大规模机群的内存故障问题更加凸现。
现有的一种服务器内存检测技术为Linux类操作系统本身技术具有一个错误检测和纠错模块(Error Detection And Correction,EDAC),EDAC内核模块的目的是发现并报告发生在linux操作系统下层的硬件层面的计算机系统的错误。
然而,现有EDAC技术作为Linux系统内核的一个基本功能,只能使用在单机环境中对内存进行管理,不能管理大型机群设备的内存。目前监控整个服务器机群的内存方式有两种:一,对机群内部的服务器出现故障不能启动时或者断电关机后,人工查看内存的物理状况;二,登录到每一个服务器的系统,查看EDAC模块的属性文件,分析内存设备是否故障。可以看出,对于大规模服务器机群通过以上方式监测每个服务器内存状况极其不方便,而且EDAC技术在使用中比较复杂,用户需要对Linux系统有一定程度的了解,这对用户来说是非常不友好的。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种服务器内存监控设备、系统以及方法,能够对服务器机群的内存状况进行统一监控。
本发明的技术方案是这样实现的:
一种用于服务器内存监控的管理设备,其中,被监控的服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述管理设备包括:
机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数;以及,
发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。
相应地,本发明还提供了一种服务器内存监控系统,所述系统包括用于服务器内存监控的管理设备和至少一台被监控的服务器,其中:
被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元;
所述管理设备包括机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数,以及发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。
相应地,本发明还提供了一种监控服务器内存的方法,其中被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述方法包括:
用于服务器内存监控的管理设备设置至少一台被监控服务器的内存控制单元的参数;
将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述被监控服务器接收到所述已设置的内存控制单元的参数后触发其内存控制单元监控该服务器内的内存的工作状况。
本发明通过用于服务器内存监控的管理设备对各被监控服务器中的内存控制单元进行控制从而实现对服务器机群内存故障的统一监控,使得给服务器机群管理带来集中化和故障快速定位,从而减少设备故障时间和提高服务器机群管理效率。
附图说明
图1是根据本发明一实施例的服务器内存监控系统的示意框图。
图2是图1所示的服务器内存监控系统中的管理设备的示意框图。
图3是根据本发明一实施例的监控服务器内存的方法流程示意图。
具体实施方式
下面结合附图对本发明实施例作进一步地说明。
在本发明的一实施例中,服务器内存监控系统如图1所示,其包括用于服务器内存监控的管理设备10和至少一台服务器20。所述管理设备10管理一台或多台服务器20的内存监控。被监控的服务器20包括用于监控其内部内存的工作状况的内存控制单元210。
管理设备10包括机群内存监控管理单元110,用于设置至少一台被监控服务器20的内存控制单元210的参数;和发送单元130,用于将已设置的内存控制单元210的参数发送给相应的服务器以便所述服务器的内存控制单元210监控该服务器内的内存的工作状况。
下面以每台服务器上的操作系统为Linux系统为例来进一步详细说明本发明的一种实施方式。每台Linux服务器下具有EDAC内核模块,其使用sysfs接口来控制,报告错误和属性。EDAC的位置在/sys/devices/system/edac目录下,在这个目录下,有一个edac组件:mc内存控制器系统。通过该组件下的控制文件进行内存设备监督,能够设置内存控制参数,查看内存的运行属性和关于错误的报告。
管理设备10的机群内存监控管理单元110包括监控服务器设置单元1102,用将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
例如,机群内存监控管理单元110包括CMems_list.Log文件,通过监控服务器设置单元110可添加需要监控内存的服务器至CMems_list.Log中。在一种实施方式中,添加后的监控服务器列表如表1所示。
表1
机群内存监控管理单元110还包括EDAC参数设置单元1104,用于设置至少一台被监控服务器的EDAC参数。EDAC参数设置单元1104对应有CMems_set.Log文件,通过EDAC参数设置单元1104可设置监控服务器的EDAC参数。例如,需要设置的参数如下:
表2
以上设置的参数仅是用于举例说明,不应被视作限制本发明可实施的方式。例如,在一可选实施方式中,可以只设置reset_counters参数。
发送单元130用于在EDAC参数设置单元1104设置好EDAC参数后将已设置的EDAC参数发送给相应的被监控服务器。服务器20接收到来自管理设备10的EDAC参数后重新监控该服务器内的内存的工作状况。
机群内存监控管理单元110还包括内存监测结果获取单元1106,用于基于用户的操作或者经过预先设定的时间后通过管理设备10的接收单元从各个被监控服务器获取其自身EDAC模块监控得到的内存的工作状况信息以便用户根据所述各被监控服务器的内存的工作状况信息对各个被监控服务器的内存进行分析。例如,内存监控结果存放在CMems_result.Log文件中,通过读取CMems_result.Log文件可显示服务器的内存情况。在可选实施方式中,所有被监控服务器的CMems_result.Log文件存放在一张数据表中,当选择某一被监控服务器时,显示界面会显示该服务器的内存工作状况信息。例如,一台服务器的内存的工作状况信息如表3所示。
表3
在本发明的可选实施方式中,管理设备10还可以包括监视单元,用于监视各服务器的ce_count和ce_noinfo_count参数,如果有非0显示,则报告这一信息,这样可以对服务器的内存故障提前预警。可选地,也可以是技术人员定期或不定期地通过查看CMems_result.Log文件来对内存故障提取预警。
本发明实施例通过管理设备10可以方便地查看整个服务器机群的内存监控状况并且能够快速定位到某一具体的服务器。进一步地,通过CMems_result.Log文件中的device参数还能够定位到具体是哪一服务器的哪一物理内存出现故障,例如,服务器内设有两条内存,但是只显示一条链接到内存控制器的内存的信息,则可断定另外一条内存出现故障。
在本发明的实施方式中,管理设备和被监控的服务器的操作系统还可以是Unix系统以及其他与Unix系统类似的操作系统。
本发明实施例还公开了一种监控服务器内存的方法,其中被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述方法如图3所示包括以下步骤:
步骤S101,用于服务器内存监控的管理设备设置至少一台被监控服务器的内存控制单元的参数;
步骤S102,将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述被监控服务器接收到已设置的内存控制单元的参数后触发其内存控制单元重新监控该服务器内的内存的工作状况。
在本发明可选实施方式中,设置服务器内的内存控制单元的参数包括将可纠正错误计数器的参数和不可纠正错误计数器的参数置零。
在本发明可选实施方式中,所述监控服务器内存的方法还包括:
所述管理设备将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
在本发明可选实施方式中,所述监控服务器内存的方法还包括:
所述管理设备在至少一台被监控服务器运行一定时间后从所述被监控服务器获取该服务器的内存控制单元监控得到的内存的工作状况信息以便根据所述工作状况信息对所述被监控服务器的内存进行分析。
关于本发明实施例的监控服务器内存的方法的详细实施方式可进一步参考本发明中关于服务器内存监控系统部分的描述,在此不再赘述。
综上所述,借助于本发明的上述技术方案,用于服务器内存监控的管理设备通过服务器中的内存控制单元的控制实现服务器机群内存故障的统一监控,从而能够给服务器机群管理带来集中化和故障快速定位,从而减少设备故障时间和提高服务器机群管理效率。另外,通过服务器内存的提前预警,能够在服务器内存故障之前进行设备维护。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于服务器内存监控的管理设备,其中,被监控的服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述管理设备包括:
机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数;
发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况;
所述机群内存监控管理单元还用于在至少一台被监控服务器运行一定时间后通过接收单元从所述被监控服务器获取该服务器的内存控制单元监控得到的内存的工作状况信息以便根据所述工作状况信息对所述被监控服务器的内存进行分析。
2.根据权利要求1所述的管理设备,其特征在于,设置被监控服务器的内存控制单元的参数包括将可纠正错误计数器的参数和不可纠正错误计数器的参数置零。
3.根据权利要求1所述的管理设备,其特征在于:
所述机群内存监控管理单元还用于将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
4.根据权利要求1所述的管理设备,其特征在于,所述被监控的服务器的操作系统为Linux系统或Unix系统。
5.一种服务器内存监控系统,所述系统包括权利要求1至4任一项所述的用于服务器内存监控的管理设备和至少一台被监控服务器。
6.一种监控服务器内存的方法,其中被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述方法包括:
用于服务器内存监控的管理设备设置至少一台被监控服务器的内存控制单元的参数;
将已设置的内存控制单元的参数发送给相应的被监控服务器,以便所述被监控服务器接收到所述已设置的内存控制单元的参数后触发其内存控制单元重新监控该服务器内的内存的工作状况;
其中,所述方法还包括:
所述管理设备在至少一台被监控服务器运行一定时间后从所述被监控服务器获取该服务器的内存控制单元监控得到的内存的工作状况信息以便根据所述工作状况信息对所述被监控服务器的内存进行分析。
7.根据权利要求6所述的方法,其特征在于,设置被监控服务器的内存控制单元的参数包括将可纠正错误计数器的参数和不可纠正错误计数器的参数置零。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
所述管理设备将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
CN201110454962.0A 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统 Active CN102541722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110454962.0A CN102541722B (zh) 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110454962.0A CN102541722B (zh) 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统

Publications (2)

Publication Number Publication Date
CN102541722A CN102541722A (zh) 2012-07-04
CN102541722B true CN102541722B (zh) 2015-04-15

Family

ID=46348664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110454962.0A Active CN102541722B (zh) 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统

Country Status (1)

Country Link
CN (1) CN102541722B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197981B (zh) * 2013-01-21 2016-02-03 浪潮(北京)电子信息产业有限公司 存储空间预警方法和系统
CN103279360A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种用基于Linux命令的程序获取内存信息的方法
CN106034143A (zh) * 2015-03-12 2016-10-19 联想(北京)有限公司 一种数据处理系统、高密度服务器及数据处理方法
CN106155860A (zh) * 2015-03-31 2016-11-23 展讯通信(上海)有限公司 一种内存监控系统及方法
CN108804252A (zh) * 2018-06-15 2018-11-13 郑州云海信息技术有限公司 一种服务器内存故障检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101489151A (zh) * 2009-02-20 2009-07-22 广州杰赛科技股份有限公司 电视网络监控系统及其监控设备和监控方法
CN101753357A (zh) * 2008-12-18 2010-06-23 方大集团股份有限公司 一种网络服务器集中监控系统和方法
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4643204B2 (ja) * 2004-08-25 2011-03-02 株式会社エヌ・ティ・ティ・ドコモ サーバ装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753357A (zh) * 2008-12-18 2010-06-23 方大集团股份有限公司 一种网络服务器集中监控系统和方法
CN101489151A (zh) * 2009-02-20 2009-07-22 广州杰赛科技股份有限公司 电视网络监控系统及其监控设备和监控方法
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统

Also Published As

Publication number Publication date
CN102541722A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN102541722B (zh) 一种监控服务器内存的方法以及服务器内存监控系统
CN105808394B (zh) 一种服务器自愈的方法和装置
CN102937930B (zh) 应用程序监控系统及方法
US8375251B2 (en) Monitoring and healing a computing system
EP4046335B1 (en) System and method for use of virtual or augmented reality with data center operations or cloud infrastructure
KR20150033711A (ko) 런타임 오류 복원 방법, 디바이스 및 시스템
CN104461809B (zh) 一种故障信息管理方法及系统
CN109039733A (zh) 一种告警方法、系统及电子设备和存储介质
CN104268061A (zh) 一种适用于虚拟机的存储状态监控机制
CN102693235B (zh) 变更设备配置文件之信息通知装置及方法
US10331507B2 (en) Systems and methods for real time computer fault evaluation
CN103905255A (zh) 服务器内部硬件运行故障远程自动告警系统及方法
CN105119737A (zh) 一种通过Zabbix监控Ceph集群的方法
CN103490919A (zh) 故障管理系统和故障管理方法
CN102681909A (zh) 一种基于内存错误的服务器预警方法
CN101777951B (zh) 一种数据监测的方法和系统
US12086639B2 (en) Server management system capable of supporting multiple vendors
US8959204B2 (en) Field response system
CN103607295A (zh) 一种告警处理的方法及告警系统
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN107943670A (zh) 一种ups电源设备监控系统
US20130198310A1 (en) Control system and log delivery method
CN103605592A (zh) 一种分布式计算机系统故障检测机制
CN103763143A (zh) 基于存储服务器的设备异常报警的方法及系统
CN104679623A (zh) 一种服务器硬盘的维护方法、系统及服务器监控设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170309

Address after: 211106 Jiangning economic and Technological Development Zone, Jiangsu, general Avenue, No. 37, No.

Patentee after: JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD.

Address before: 300384 Tianjin city Xiqing District Huayuan Industrial Zone (outer ring) Haitai Huake Street No. 15 1-3

Patentee before: Sugon Information Industry Co., Ltd.