CN102541722A - 一种监控服务器内存的方法以及服务器内存监控系统 - Google Patents

一种监控服务器内存的方法以及服务器内存监控系统 Download PDF

Info

Publication number
CN102541722A
CN102541722A CN2011104549620A CN201110454962A CN102541722A CN 102541722 A CN102541722 A CN 102541722A CN 2011104549620 A CN2011104549620 A CN 2011104549620A CN 201110454962 A CN201110454962 A CN 201110454962A CN 102541722 A CN102541722 A CN 102541722A
Authority
CN
China
Prior art keywords
server
memory
monitoring
monitored
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104549620A
Other languages
English (en)
Other versions
CN102541722B (zh
Inventor
陈科
万伟
刘兴彬
朱春屹
李云华
李博文
董建珊
王清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD.
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201110454962.0A priority Critical patent/CN102541722B/zh
Publication of CN102541722A publication Critical patent/CN102541722A/zh
Application granted granted Critical
Publication of CN102541722B publication Critical patent/CN102541722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种监控服务器内存的方法以及服务器内存监控系统。本发明公开了一种服务器内存监控系统,所述系统包括用于服务器内存监控的管理设备和至少一台被监控服务器,其中:被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元;所述管理设备包括机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数,和发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。相应地,本发明还公开了用于服务器内存监控的管理设备和监控服务器内存的方法。采用本发明,能够对服务器机群的内存进行统一管理,提高了机群管理效率。

Description

一种监控服务器内存的方法以及服务器内存监控系统
技术领域
本发明涉及内存检测技术领域,尤其涉及一种监控服务器内存的方法、用于监控服务器内存的管理设备以及一种服务器内存监控系统。
背景技术
在服务器技术领域,随着内存技术的不断发展,单机服务器的内存无论从数量还是容量上都急剧增加。由于内存容易出现故障,但是内存故障前又不容易预警以及对故障定位,随之带来的问题日益显现。大规模机群的内存故障问题更加凸现。
现有的一种服务器内存检测技术为Linux类操作系统本身技术具有一个错误检测和纠错模块(Error Detection And Correction,EDAC),EDAC内核模块的目的是发现并报告发生在linux操作系统下层的硬件层面的计算机系统的错误。
然而,现有EDAC技术作为Linux系统内核的一个基本功能,只能使用在单机环境中对内存进行管理,不能管理大型机群设备的内存。目前监控整个服务器机群的内存方式有两种:一,对机群内部的服务器出现故障不能启动时或者断电关机后,人工查看内存的物理状况;二,登录到每一个服务器的系统,查看EDAC模块的属性文件,分析内存设备是否故障。可以看出,对于大规模服务器机群通过以上方式监测每个服务器内存状况极其不方便,而且EDAC技术在使用中比较复杂,用户需要对Linux系统有一定程度的了解,这对用户来说是非常不友好的。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种服务器内存监控设备、系统以及方法,能够对服务器机群的内存状况进行统一监控。
本发明的技术方案是这样实现的:
一种用于服务器内存监控的管理设备,其中,被监控的服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述管理设备包括:
机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数;以及,
发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。
相应地,本发明还提供了一种服务器内存监控系统,所述系统包括用于服务器内存监控的管理设备和至少一台被监控的服务器,其中:
被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元;
所述管理设备包括机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数,以及发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。
相应地,本发明还提供了一种监控服务器内存的方法,其中被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述方法包括:
用于服务器内存监控的管理设备设置至少一台被监控服务器的内存控制单元的参数;
将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述被监控服务器接收到所述已设置的内存控制单元的参数后触发其内存控制单元监控该服务器内的内存的工作状况。
本发明通过用于服务器内存监控的管理设备对各被监控服务器中的内存控制单元进行控制从而实现对服务器机群内存故障的统一监控,使得给服务器机群管理带来集中化和故障快速定位,从而减少设备故障时间和提高服务器机群管理效率。
附图说明
图1是根据本发明一实施例的服务器内存监控系统的示意框图。
图2是图1所示的服务器内存监控系统中的管理设备的示意框图。
图3是根据本发明一实施例的监控服务器内存的方法流程示意图。
具体实施方式
下面结合附图对本发明实施例作进一步地说明。
在本发明的一实施例中,服务器内存监控系统如图1所示,其包括用于服务器内存监控的管理设备10和至少一台服务器20。所述管理设备10管理一台或多台服务器20的内存监控。被监控的服务器20包括用于监控其内部内存的工作状况的内存控制单元210。
管理设备10包括机群内存监控管理单元110,用于设置至少一台被监控服务器20的内存控制单元210的参数;和发送单元130,用于将已设置的内存控制单元210的参数发送给相应的服务器以便所述服务器的内存控制单元210监控该服务器内的内存的工作状况。
下面以每台服务器上的操作系统为Linux系统为例来进一步详细说明本发明的一种实施方式。每台Linux服务器下具有EDAC内核模块,其使用sysfs接口来控制,报告错误和属性。EDAC的位置在/sys/devices/system/edac目录下,在这个目录下,有一个edac组件:mc内存控制器系统。通过该组件下的控制文件进行内存设备监督,能够设置内存控制参数,查看内存的运行属性和关于错误的报告。
管理设备10的机群内存监控管理单元110包括监控服务器设置单元1102,用将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
例如,机群内存监控管理单元110包括CMems_list.Log文件,通过监控服务器设置单元110可添加需要监控内存的服务器至CMems_list.Log中。在一种实施方式中,添加后的监控服务器列表如表1所示。
表1
Figure BDA0000127298860000041
机群内存监控管理单元110还包括EDAC参数设置单元1104,用于设置至少一台被监控服务器的EDAC参数。EDAC参数设置单元1104对应有CMems_set.Log文件,通过EDAC参数设置单元1104可设置监控服务器的EDAC参数。例如,需要设置的参数如下:
表2
Figure BDA0000127298860000042
以上设置的参数仅是用于举例说明,不应被视作限制本发明可实施的方式。例如,在一可选实施方式中,可以只设置reset_counters参数。
发送单元130用于在EDAC参数设置单元1104设置好EDAC参数后将已设置的EDAC参数发送给相应的被监控服务器。服务器20接收到来自管理设备10的EDAC参数后重新监控该服务器内的内存的工作状况。
机群内存监控管理单元110还包括内存监测结果获取单元1106,用于基于用户的操作或者经过预先设定的时间后通过管理设备10的接收单元从各个被监控服务器获取其自身EDAC模块监控得到的内存的工作状况信息以便用户根据所述各被监控服务器的内存的工作状况信息对各个被监控服务器的内存进行分析。例如,内存监控结果存放在CMems_result.Log文件中,通过读取CMems_result.Log文件可显示服务器的内存情况。在可选实施方式中,所有被监控服务器的CMems_result.Log文件存放在一张数据表中,当选择某一被监控服务器时,显示界面会显示该服务器的内存工作状况信息。例如,一台服务器的内存的工作状况信息如表3所示。
表3
Figure BDA0000127298860000051
在本发明的可选实施方式中,管理设备10还可以包括监视单元,用于监视各服务器的ce_count和ce_noinfo_count参数,如果有非0显示,则报告这一信息,这样可以对服务器的内存故障提前预警。可选地,也可以是技术人员定期或不定期地通过查看CMems_result.Log文件来对内存故障提取预警。
本发明实施例通过管理设备10可以方便地查看整个服务器机群的内存监控状况并且能够快速定位到某一具体的服务器。进一步地,通过CMems_result.Log文件中的device参数还能够定位到具体是哪一服务器的哪一物理内存出现故障,例如,服务器内设有两条内存,但是只显示一条链接到内存控制器的内存的信息,则可断定另外一条内存出现故障。
在本发明的实施方式中,管理设备和被监控的服务器的操作系统还可以是Unix系统以及其他与Unix系统类似的操作系统。
本发明实施例还公开了一种监控服务器内存的方法,其中被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述方法如图3所示包括以下步骤:
步骤S101,用于服务器内存监控的管理设备设置至少一台被监控服务器的内存控制单元的参数;
步骤S102,将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述被监控服务器接收到已设置的内存控制单元的参数后触发其内存控制单元重新监控该服务器内的内存的工作状况。
在本发明可选实施方式中,设置服务器内的内存控制单元的参数包括将可纠正错误计数器的参数和不可纠正错误计数器的参数置零。
在本发明可选实施方式中,所述监控服务器内存的方法还包括:
所述管理设备将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
在本发明可选实施方式中,所述监控服务器内存的方法还包括:
所述管理设备在至少一台被监控服务器运行一定时间后从所述被监控服务器获取该服务器的内存控制单元监控得到的内存的工作状况信息以便根据所述工作状况信息对所述被监控服务器的内存进行分析。
关于本发明实施例的监控服务器内存的方法的详细实施方式可进一步参考本发明中关于服务器内存监控系统部分的描述,在此不再赘述。
综上所述,借助于本发明的上述技术方案,用于服务器内存监控的管理设备通过服务器中的内存控制单元的控制实现服务器机群内存故障的统一监控,从而能够给服务器机群管理带来集中化和故障快速定位,从而减少设备故障时间和提高服务器机群管理效率。另外,通过服务器内存的提前预警,能够在服务器内存故障之前进行设备维护。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于服务器内存监控的管理设备,其中,被监控的服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述管理设备包括:
机群内存监控管理单元,用于设置至少一台被监控服务器的所述内存控制单元的参数;
发送单元,用于将已设置的内存控制单元的参数发送给相应的被监控服务器以便所述服务器的内存控制单元监控该服务器内的内存的工作状况。
2.根据权利要求1所述的管理设备,其特征在于,设置被监控服务器的内存控制单元的参数包括将可纠正错误计数器的参数和不可纠正错误计数器的参数置零。
3.根据权利要求1所述的管理设备,其特征在于:
所述机群内存监控管理单元还用于将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
4.根据权利要求1所述的管理设备,其特征在于:
所述机群内存监控管理单元还用于在至少一台被监控服务器运行一定时间后通过接收单元从所述被监控服务器获取该服务器的内存控制单元监控得到的内存的工作状况信息以便根据所述工作状况信息对所述被监控服务器的内存进行分析。
5.根据权利要求1所述的管理设备,其特征在于,所述被监控的服务器的操作系统为Linux系统或Unix系统。
6.一种服务器内存监控系统,所述系统包括权利要求1至5任一项所述的用于服务器内存监控的管理设备和至少一台被监控服务器。
7.一种监控服务器内存的方法,其中被监控服务器包括用于监控该服务器上内存的工作状况的内存控制单元,所述方法包括:
用于服务器内存监控的管理设备设置至少一台被监控服务器的内存控制单元的参数;
将已设置的内存控制单元的参数发送给相应的被监控服务器,以便所述被监控服务器接收到所述已设置的内存控制单元的参数后触发其内存控制单元重新监控该服务器内的内存的工作状况。
8.根据权利要求7所述的方法,其特征在于,设置被监控服务器的内存控制单元的参数包括将可纠正错误计数器的参数和不可纠正错误计数器的参数置零。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述管理设备将需要监控的服务器添加到设定的服务器监控列表中或者从所述服务器监控列表中删除不需要监控的服务器。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述管理设备在至少一台被监控服务器运行一定时间后从所述被监控服务器获取该服务器的内存控制单元监控得到的内存的工作状况信息以便根据所述工作状况信息对所述被监控服务器的内存进行分析。
CN201110454962.0A 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统 Active CN102541722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110454962.0A CN102541722B (zh) 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110454962.0A CN102541722B (zh) 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统

Publications (2)

Publication Number Publication Date
CN102541722A true CN102541722A (zh) 2012-07-04
CN102541722B CN102541722B (zh) 2015-04-15

Family

ID=46348664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110454962.0A Active CN102541722B (zh) 2011-12-30 2011-12-30 一种监控服务器内存的方法以及服务器内存监控系统

Country Status (1)

Country Link
CN (1) CN102541722B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197981A (zh) * 2013-01-21 2013-07-10 浪潮(北京)电子信息产业有限公司 存储空间预警方法和系统
CN103279360A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种用基于Linux命令的程序获取内存信息的方法
CN106034143A (zh) * 2015-03-12 2016-10-19 联想(北京)有限公司 一种数据处理系统、高密度服务器及数据处理方法
CN106155860A (zh) * 2015-03-31 2016-11-23 展讯通信(上海)有限公司 一种内存监控系统及方法
CN108804252A (zh) * 2018-06-15 2018-11-13 郑州云海信息技术有限公司 一种服务器内存故障检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060048227A1 (en) * 2004-08-25 2006-03-02 Ntt Docomo, Inc. Client apparatus, server apparatus and authority control method
CN101489151A (zh) * 2009-02-20 2009-07-22 广州杰赛科技股份有限公司 电视网络监控系统及其监控设备和监控方法
CN101753357A (zh) * 2008-12-18 2010-06-23 方大集团股份有限公司 一种网络服务器集中监控系统和方法
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060048227A1 (en) * 2004-08-25 2006-03-02 Ntt Docomo, Inc. Client apparatus, server apparatus and authority control method
CN101753357A (zh) * 2008-12-18 2010-06-23 方大集团股份有限公司 一种网络服务器集中监控系统和方法
CN101489151A (zh) * 2009-02-20 2009-07-22 广州杰赛科技股份有限公司 电视网络监控系统及其监控设备和监控方法
CN101997925A (zh) * 2010-11-22 2011-03-30 北京亮点时间科技有限公司 具有预警功能的服务器监控方法及其系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197981A (zh) * 2013-01-21 2013-07-10 浪潮(北京)电子信息产业有限公司 存储空间预警方法和系统
CN103197981B (zh) * 2013-01-21 2016-02-03 浪潮(北京)电子信息产业有限公司 存储空间预警方法和系统
CN103279360A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种用基于Linux命令的程序获取内存信息的方法
CN106034143A (zh) * 2015-03-12 2016-10-19 联想(北京)有限公司 一种数据处理系统、高密度服务器及数据处理方法
CN106155860A (zh) * 2015-03-31 2016-11-23 展讯通信(上海)有限公司 一种内存监控系统及方法
CN108804252A (zh) * 2018-06-15 2018-11-13 郑州云海信息技术有限公司 一种服务器内存故障检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN102541722B (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
US8375251B2 (en) Monitoring and healing a computing system
US9870159B2 (en) Solid-state disk (SSD) management
CN105808394B (zh) 一种服务器自愈的方法和装置
CN109086155A (zh) 服务器故障定位方法、装置、设备及计算机可读存储介质
CN102541722B (zh) 一种监控服务器内存的方法以及服务器内存监控系统
CN102937930A (zh) 应用程序监控系统及方法
KR20150033711A (ko) 런타임 오류 복원 방법, 디바이스 및 시스템
US11157343B2 (en) Systems and methods for real time computer fault evaluation
CN103412805A (zh) 一种it故障源诊断方法及系统
CN106294065A (zh) 硬盘故障监测方法、装置及系统
EP3798848B1 (en) Analyzing large-scale data processing jobs
CN103778513A (zh) 一种基于二维码的it设备运维监控方法
US20140089477A1 (en) System and method for monitoring storage machines
US20210112145A1 (en) System and method for use of virtual or augmented reality with data center operations or cloud infrastructure
JP6633642B2 (ja) 分散データベースにおけるデータブロックを処理する方法およびデバイス
CN101777951B (zh) 一种数据监测的方法和系统
US8959204B2 (en) Field response system
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN109213657B (zh) 一种电网运行数据云储存装置
US20170213142A1 (en) System and method for incident root cause analysis
US20130198310A1 (en) Control system and log delivery method
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN107656848A (zh) 一种验证bmc可存储sel条目数量和sel覆盖功能的方法
JP2012174079A (ja) 機器管理システム
CN109471752A (zh) 一种快照管理及系统还原方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170309

Address after: 211106 Jiangning economic and Technological Development Zone, Jiangsu, general Avenue, No. 37, No.

Patentee after: JIANGSU DAWN INFORMATION TECHNOLOGY CO., LTD.

Address before: 300384 Tianjin city Xiqing District Huayuan Industrial Zone (outer ring) Haitai Huake Street No. 15 1-3

Patentee before: Sugon Information Industry Co., Ltd.

TR01 Transfer of patent right