CN105700990A - 以任务为对象的软硬件运行监控方法 - Google Patents

以任务为对象的软硬件运行监控方法 Download PDF

Info

Publication number
CN105700990A
CN105700990A CN201610032179.8A CN201610032179A CN105700990A CN 105700990 A CN105700990 A CN 105700990A CN 201610032179 A CN201610032179 A CN 201610032179A CN 105700990 A CN105700990 A CN 105700990A
Authority
CN
China
Prior art keywords
resource
software
task
idling
health degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610032179.8A
Other languages
English (en)
Inventor
李宏生
翟大海
余安东
王鹏珍
袁小燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INFORMATION INDUSTRY DEPARTMENT NO 5 TELECOMMUNICATION TECHNOLOGICS RESEARCH INSTITUTE
Original Assignee
INFORMATION INDUSTRY DEPARTMENT NO 5 TELECOMMUNICATION TECHNOLOGICS RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION INDUSTRY DEPARTMENT NO 5 TELECOMMUNICATION TECHNOLOGICS RESEARCH INSTITUTE filed Critical INFORMATION INDUSTRY DEPARTMENT NO 5 TELECOMMUNICATION TECHNOLOGICS RESEARCH INSTITUTE
Priority to CN201610032179.8A priority Critical patent/CN105700990A/zh
Publication of CN105700990A publication Critical patent/CN105700990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

以任务为对象的软硬件运行监控方法,涉及计算机技术。本发明包括下述步骤:A、创建一个任务;B、对任务配置硬件资源和软件资源,以配置的硬件资源和软件资源作为监测的目标单元;C、监测各目标单元的运行参数是否在预设范围内,若超出预设范围则告警。本发明扩充了软件运行监控对象的范围,使得任务与区域、服务器、软件之间构建了关联性,填补了以任务为监控管理对象的技术空白。

Description

以任务为对象的软硬件运行监控方法
技术领域
本发明涉及计算机技术。
背景技术
在业务服务器或者PC机上,用户判断业务运行是否正常是通过监控业务对应的软件运行是否正常以及业务软件运行所占用的资源情况进行判断。对于判断软件运行是否正常,通常情况下都是在被监控软件所运行的服务器上运行监控程序,监控程序在启动之后,首选获取服务器的运行进程信息,并加载被监控软件对应的特征库信息,通过监控获取的信息以及特征库的信息达到监控软件运行状况。
中国专利CN101751325A的技术方案是在服务器上启动监控程序,加载被监控软件的进程特征库,分别用每个进程和该被监控软件的进程特征库进行比较,如果符合该被监控软件的进程特征库中的特征,那么就表示该被监控软件在运行;其中进程特征库是根据程序运行过程中的目录结构以及加载的辅助文件确定。
然而,随着业务规模不断扩大、业务精细化不断的加深,业务所需支撑软件对应的复杂度、数量、部署的服务器数量都呈线性增长,传统由单台服务器支撑业务运营模式已经被由众多服务器、众多软件、跨地域的业务运营模式所替换。传统的对软件运行监控的方法、模式是无法对这些跨地域、数量庞大而且又相互依赖的业务软件进行监控。传统的监控方法模式存在如下缺陷:
1:无法将任务与跨区域、服务器、软件建立关联关系。监控软件运行状态的目的就是确保客户的任务能够正常的执行完成,但是传统的监控方法无法建立任务关联,既任务需要哪些地区的服务器、软件、网络提供支撑联合执行。
2:没有建立软件运行所需资源与服务器提供资源之间关联关系,没有技术方法实现对任务执行成功率的评估。没有将任务执行成功率与服务器的健康度以及软件的健康度之间建立连接。
3:监控是以程序名或者进程名为单位,范围非常小,对于以任务为监控的单位明显无法适用。这里的任务指的是实现某一个特定的业务任务,比如某个基因分析任务,这个任务需要哪些部门人员、哪些服务器、哪些软件联合支撑完成,甚至某些任务可能由跨区域、跨部门、众多服务器、众多软件来联合支撑完成。对于这类以任务为监控单位的监控方法和模式目前都是空白阶段。
4:监控管理的适用人群非常窄,一般都是具备专业的网络管理人员才能明白监控的内容和问题所在,但是对于不同层级的人员,比如高层人士,他们关心的是业务、任务的状态和结果,至于业务软件的运行状态、部署服务器对于他们来说他们是不可能关注,相反网管人员则需要关注这类信息。
5:在跨地区、多部门、多服务器、多软件支撑任务执行的情况,缺乏一个有效的手段,实现全局基于任务为监控对象的管理方法,在遇到问题时,导致了问题确认、问题解决耗时过长,效率极低现象的发生。
发明内容
本发明所要解决的技术问题是,提供一种基于任务的软硬件监控方法,能够在任务与区域、服务器、软件之间构建了关联性,准确、直观、高效的监控软硬件的运行状况。
本发明解决所述技术问题采用的技术方案是,
以任务为对象的软硬件运行监控方法,包括下述步骤:
A、创建一个任务;
B、对任务配置硬件资源和软件资源,以配置的硬件资源和软件资源作为监测的目标单元;
C、监测各目标单元的运行参数是否在预设范围内,若超出预设范围则告警。
进一步的,所述硬件资源包括服务器和通信设备。
所述运行参数包括:
服务器的CPU空闲资源、内存空闲资源和磁盘空闲资源中的一项或多项;
通信设备的网络带宽空闲资源;
软件运行占用的CPU资源、内存资源、网络资源和线程资源中的一项或多项。
所述步骤B中,建立目标单元的位置表。
所述步骤C包括:
C1、由下述参数依据预设的权重作加权计算硬件资源的健康度:
服务器的CPU空闲资源、内存空闲资源和磁盘空闲资源中的一项或多项,以及通信设备的网络带宽空闲资源;
C2、由下述参数依据预设的权重作加权计算软件资源的健康度:
软件运行占用的CPU资源、内存资源、网络资源和线程资源中的一项或多项;
C3、依据预设的权重结合硬件资源的健康度和软件资源的健康度,计算综合健康度;
C4、监测综合健康度是否在预设范围内,若超出预设范围则告警。
所述步骤C中,告警信息包括出现异常的目标单元的位置信息。
本发明的有益效果是:
·扩充了软件运行监控对象的范围,使得任务与区域、服务器、软件之间构建了关联性,填补了以任务为监控管理对象的技术空白;
·实现了对任务执行成功率的评估,并将任务执行成功率与服务器健康度、软件运行健康度相关联。
·扩展了网管人员的适用人群,为不同层次、不同专业的人员提供不同管理视角。
本发明在跨地区、多部门、多服务器、多软件联合支撑任务执行的情况下,确保一旦发现问题,能够迅速定位到问题发生位置、问题的解决联系人、问题发生现象,进而能够快速的解决问题,特别适用于多部门、跨地区、多服务器、多软件支撑任务执行的监控环境。
附图说明
图1是本发明的工作环境示意图。
图2是本发明的工作流程示意图。
图3是本发明的任务/服务器/软件健康度关联关系示意图。
图4是不同的管理视觉示意图。
具体实施方式
参见图1~4。
本发明包括下述步骤:
A、创建一个任务,以该任务作为监控对象;
B、对任务配置硬件资源和软件资源,以配置的硬件资源和软件资源作为监测的目标单元,并建立目标单元的位置表。
C1、由下述参数依据预设的权重作加权计算硬件资源的健康度:
服务器的CPU空闲资源、内存空闲资源和磁盘空闲资源,以及通信设备的网络带宽空闲资源;
C2、由下述参数依据预设的权重作加权计算软件资源的健康度:
软件运行占用的CPU资源、内存资源、网络资源和线程资源;
C3、依据预设的权重结合硬件资源的健康度和软件资源的健康度,计算综合健康度;
C4、监测综合健康度是否在预设范围内,若超出预设范围则告警,告警信息包括出现异常的目标单元的位置信息。
例如,
C1中,服务器的CPU空闲资源为50%、内存空闲资源为30%,磁盘空闲资源为40%,网络带宽空闲60%,
则硬件资源健康度X=a1*0.5+a2*0.3+a3*0.4+a4*0.6
C2中,软件运行占用的CPU资源为25%、内存资源为35%、网络资源为45%,线程资源为55%,则软件资源整体健康度Y=b1*0.25+b2*0.35+b3*0.45+b4*0.55;
C3中,综合健康度=e1*X+e2*Y;
a1、a2、a3、a4、b1、b2、b3、b4、e1、e2为预设的权重值。
基于本发明的管理程序采用集群架构支持多个节点同时提供数据收发、存储、查询、设置等功能。代理程序运行在被监控的服务器上,代理程序记录了服务器所在位置、所属部门、联系人等信息。代理程序定时将服务器的运行状态信息、软件运行状态信息、网络带宽适用信息等信息资源上报给管理端。客户端提供web监控管理功能,既通过web客户端实现对任务的配置、监控管理。
系统构建好的目的就是能够将服务器资源、软件资源、网络资源等资源信息构建一个任务资源池,这些资源供于任务的分配,进而实现基于以任务为单位的全局的监控管理和分配。
图2展示了本发明工作流程,包括:
·创建一个任务,将这个任务的功能,达到目的描述清楚,设置任务健康度的告警门限值。
·配置任务关联的服务器、软件。这个是一个关键步骤,这部就完成了任务与区域、服务器、软件的关联关系。
·设置服务器的健康度的门限值、设置软件的健康门限值,任务的健康度的评估依赖服务器健康度和软件的健康度。
·发布任务,任务是否执行成功需要第二步关联的服务器、软件综合支撑,同时启动对任务的实时监控,确保在任务执行过程中,能够实时把控任务的状态。
图3展示了任务健康度与服务器健康度及软件健康度的关联关系,任务的健康度依赖于服务器的健康度和软件的健康度。对任务的健康度的评估是通过服务器的健康度与软件的健康度乘以对应的比例系数综合计算得出。服务器的健康度依赖与服务器的CPU空闲资源、内存空闲资源、磁盘空闲资源、网络带宽空闲资源综合判断。软件健康度依赖于软件运行占用的CPU资源、内存资源、网络资源、线程资源等进行综合判断。对于健康度的设计,目的是通过监控任务的健康状况,能够把健康度极低的任务进行告警,进而就能确认任务执行所依赖的服务器和软件肯定出现了问题,因此能够迅速判断和定位问题的位置、服务器、软件。
本发明可以为不同视角的管理者提供不同的监控状态(结果),如图4所示。
实施例:
在一些跨部门联合执行任务的场景中,基于任务为监控单位的研究基本上是空白,更多的是对设备、网络以及软件的状态进行监控,这些监控特点基本上都是独立的执行监控,各个独自监控相关的部分,不同部门之间无法形成一个全局统一的监控认识。
以遥测任务为例,所需资源组成如下表:
地区 服务器 软件名
A区 10.0.1.2 GPS
B区 10.0.1.2 DB
C区 10.0.1.2 LAUNCH
为了确保本次任务的成功以及监控任务执行的过程,本发明提出了基于任务为单位的监控方法。
1:首先将任务与资源进行关联:将任务关联到不同地区的服务器以及所需要支撑的软件,服务器和软件组成一个大的资源池,当创建任务时即可选择对应的服务器资源和软件资源;对于未能准备好的资源进行告警。
2:配置监控策略:设定好服务器的资源告警策略,包括CPU利用率上限、内存利用率上限、磁盘空间利用率上限、网络带宽利用上限;设定软件运行资源告警策略,包括CPU利用率上限、内存利用率上限、网络带宽利用率上限。
3:监控告警策略:任务是否能够执行成功,完全依赖于服务器、软件运行的健康状况。对软件监控的过程中,如果发现服务器异常(包括CPU利用率超过上限值、内存利用率超过上限值、网络带宽利用率超过上限值、磁盘空间利用率超过上限值)或者软件运行异常(包括CPU利用率超过上限、内存利用率超过上限值、网络带宽利用率超过上限值)。如果在监控的过程中发现异常,能够精准定位哪个地区、哪台服务器、以及哪些软件出现异常,并能够及时告知对应负责人。

Claims (6)

1.以任务为对象的软硬件运行监控方法,其特征在于,包括下述步骤:
A、创建一个任务;
B、对任务配置硬件资源和软件资源,以配置的硬件资源和软件资源作为监测的目标单元;
C、监测各目标单元的运行参数是否在预设范围内,若超出预设范围则告警。
2.如权利要求1所述的以任务为对象的软硬件运行监控方法,其特征在于,所述硬件资源包括服务器和通信设备。
3.如权利要求1所述的以任务为对象的软硬件运行监控方法,其特征在于,所述运行参数包括:
服务器的CPU空闲资源、内存空闲资源和磁盘空闲资源中的一项或多项;
通信设备的网络带宽空闲资源;
软件运行占用的CPU资源、内存资源、网络资源和线程资源中的一项或多项。
4.如权利要求1所述的以任务为对象的软硬件运行监控方法,其特征在于,所述步骤B中,建立目标单元的位置表。
5.如权利要求1所述的以任务为对象的软硬件运行监控方法,其特征在于,所述步骤C包括:
C1、由下述参数依据预设的权重作加权计算硬件资源的健康度:
服务器的CPU空闲资源、内存空闲资源和磁盘空闲资源中的一项或多项,以及通信设备的网络带宽空闲资源;
C2、由下述参数依据预设的权重作加权计算软件资源的健康度:
软件运行占用的CPU资源、内存资源、网络资源和线程资源中的一项或多项;
C3、依据预设的权重结合硬件资源的健康度和软件资源的健康度,计算综合健康度;
C4、监测综合健康度是否在预设范围内,若超出预设范围则告警。
6.如权利要求1所述的以任务为对象的软硬件运行监控方法,其特征在于,所述步骤C中,告警信息包括出现异常的目标单元的位置信息。
CN201610032179.8A 2016-01-18 2016-01-18 以任务为对象的软硬件运行监控方法 Pending CN105700990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610032179.8A CN105700990A (zh) 2016-01-18 2016-01-18 以任务为对象的软硬件运行监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610032179.8A CN105700990A (zh) 2016-01-18 2016-01-18 以任务为对象的软硬件运行监控方法

Publications (1)

Publication Number Publication Date
CN105700990A true CN105700990A (zh) 2016-06-22

Family

ID=56226501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610032179.8A Pending CN105700990A (zh) 2016-01-18 2016-01-18 以任务为对象的软硬件运行监控方法

Country Status (1)

Country Link
CN (1) CN105700990A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250209A (zh) * 2016-08-02 2016-12-21 浪潮(北京)电子信息产业有限公司 一种Xen虚拟环境下的虚拟机内存监控方法及其系统
CN113606732A (zh) * 2021-08-04 2021-11-05 广东美的暖通设备有限公司 健康度评估方法、装置、计算设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102916831A (zh) * 2012-09-18 2013-02-06 冯晋阳 业务系统的健康度获得方法及系统
CN103580934A (zh) * 2012-07-18 2014-02-12 深圳市腾讯计算机系统有限公司 一种云业务监测方法和装置
CN103902442A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种云软件健康度评测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580934A (zh) * 2012-07-18 2014-02-12 深圳市腾讯计算机系统有限公司 一种云业务监测方法和装置
CN102916831A (zh) * 2012-09-18 2013-02-06 冯晋阳 业务系统的健康度获得方法及系统
CN103902442A (zh) * 2012-12-25 2014-07-02 中国移动通信集团公司 一种云软件健康度评测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250209A (zh) * 2016-08-02 2016-12-21 浪潮(北京)电子信息产业有限公司 一种Xen虚拟环境下的虚拟机内存监控方法及其系统
CN113606732A (zh) * 2021-08-04 2021-11-05 广东美的暖通设备有限公司 健康度评估方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
US10812339B2 (en) Determining power path for data center customers
US11422910B2 (en) Method and system for implementing a data center operating system
US9548886B2 (en) Help desk ticket tracking integration with root cause analysis
US8407669B2 (en) Device based software authorizations for software asset management
CN105556499B (zh) 智能自动缩放
WO2017181805A1 (zh) 告警信息的显示方法及装置、计算机存储介质
US20150280969A1 (en) Multi-hop root cause analysis
Pan et al. Research on dependability of cloud computing systems
US11329869B2 (en) Self-monitoring
US11381451B2 (en) Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application
US10956293B2 (en) Automated process performance determination
CN107360045A (zh) 一种存储集群系统的监控方法及装置
US9306814B1 (en) Providing instance availability information
CN105893211A (zh) 一种监控的方法及系统
CN116482598A (zh) 一种用电数据监测方法及装置
CN105700990A (zh) 以任务为对象的软硬件运行监控方法
CN108241565A (zh) 一种用于实现应用系统自动化运维的系统及方法
CN105471986B (zh) 一种数据中心建设规模评估方法及装置
CN105589788B (zh) 监控系统
US11138187B2 (en) Data update program, data update method, and data update device
CN110401582A (zh) 云计算系统存储健康度窘迫的检测方法、装置及存储介质
CN106850283A (zh) 一种基于事件驱动的云ac告警处理系统及方法
US12057007B2 (en) Alarm performance optimizer
Lu et al. A big data on private cloud agile provisioning framework based on OpenStack
CN114240109B (zh) 一种跨区域处理跑批任务的方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610031 Sichuan city of Chengdu province Jinjiang District Dacisi Road No. 22

Applicant after: Telecommunication science and technology fifth Research Institute Co., Ltd.

Address before: 610000 Sichuan city of Chengdu province shudutaidao Daci Temple Road, No. 22

Applicant before: Information Industry Department No. 5 Telecommunication Technologics Research Institute

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20160622

RJ01 Rejection of invention patent application after publication