CN111476381A - 基于国产化信息技术创新应用系统运维服务的方法和系统 - Google Patents

基于国产化信息技术创新应用系统运维服务的方法和系统 Download PDF

Info

Publication number
CN111476381A
CN111476381A CN202010270725.8A CN202010270725A CN111476381A CN 111476381 A CN111476381 A CN 111476381A CN 202010270725 A CN202010270725 A CN 202010270725A CN 111476381 A CN111476381 A CN 111476381A
Authority
CN
China
Prior art keywords
monitoring
maintenance
information technology
data
data interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010270725.8A
Other languages
English (en)
Inventor
朱如海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Aixinnuo Aerospace Information Co ltd
Original Assignee
Guizhou Aixinnuo Aerospace Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Aixinnuo Aerospace Information Co ltd filed Critical Guizhou Aixinnuo Aerospace Information Co ltd
Priority to CN202010270725.8A priority Critical patent/CN111476381A/zh
Publication of CN111476381A publication Critical patent/CN111476381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Abstract

本发明公开了一种基于国产化信息技术创新应用系统运维服务的方法和系统,系统主要包括控制系统、运行监控系统、数据交互监测系统、资产管理系统、策略集管理系统和运维日志管理系统。本发明通过对硬件、软件、数据交互等的运行监测作为监测依据,并与正常的数值进行对比,若发生异常参数等情况,自动调用策略集,根据相应故障的策略集进行数据检索分析,并找出问题的节点所在后自动根据对应的解决策略进行修复,若无法系统自主修复的问题直接输出故障点和方案,这样运维人员接到系统的报错后得到的是直接输出的故障点而不是发生的故障类型,节省了运维人员对故障的排查阶段,由系统自动完成,降低了运维的难度,提升故障的排查效率。

Description

基于国产化信息技术创新应用系统运维服务的方法和系统
技术领域
本发明涉及系统运维技术领域,特别涉及一种基于国产化信息技术创新应用系统运维服务的方法和系统。
背景技术
系统的运维大致可以包括两个方面,监控以及故障处理,监控是对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;故障处理是对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。除了日常小故障外,运维工程师还需要考虑产品不同程度受损情况下的灾难恢复,包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。现有技术中,由于运维过程多为监控系统发现故障,而将故障反馈至运维人员,由运维人员进行故障的分析和排查,才能解决问题,例如网络连接不上,其原因很多,硬件网关、路由器、IP账号等都可能是问题节点所在,但是系统反馈的只是没有网络,需要运维人员来逐一排查,不仅工作量大,而且故障的排查效率低。
发明内容
本发明要解决的技术问题之一是提供一种基于国产化信息技术创新应用系统运维服务的方法,其可以增加故障的排查效率,降低运维人员工作难度。
本发明的技术方案为:
一种基于国产化信息技术创新应用系统运维服务的方法,包括以下步骤:
S1:运行监测,进行物理监测和软件监测,物理监测包括对硬件设备的物理运行参数和情况进行监测;软件监测包括对操作系统、支持系统、网络系统、安全系统以及通用服务系统的运行情况进行监测;
S2:数据交互监测,监控各系统之间的数据交互及时性和完整性、监控计算存储设备的使用情况,并通过日常的数据流大小预判存储设备的容量使用情况并在容量预计出现容灾时提前预警;
S3:资产管理控制,管理和统计在线资产以及备用资产,所述资产包括有形资产和无形资产,且所述资产管理控制为系统自动更新或者运维人员手动更新;
S4:问题策略集建立和实施,根据经常遇到的系统问题建立对应的排查规程和策略,在检测到问题时遍历策略集进行实施,并对新解决的问题形成新的排查规程和解决策略,用于下次相同问题时自动实施,问题解决完成后更新策略集;
S5:日志管理,对于工作日志进行管理,存储和整理每日的系统运行参数、出现的问题、问题解决的进度和工作人员的例检和运维情况。
进一步的,S1中硬件设备包括服务器组件、存储设备、多媒体设备、网络设备、信息安全设备进一步的,S1中所述通用服务系统包括邮件、数据库、群件、中间件、DNS、WEB、网关。
进一步的,S2中数据交互及时性体现为数据传输的速度,各系统之间能够及时传输关键数据,对网关进行流量控制和分配,集中流量至关键的数据交互过程并平衡为各数据交互过程中平衡分配流量。
进一步的,S2中对计算存储设备的监控包括对磁盘I/O、CPU、内存的资源占用情况监控。
进一步的,S4中,在解决问题的过程中执行策略集的解决策略,若造成了在线资产或备用资产的变动和更新,在S3中及时更新数据。
进一步的,S4中问题的检测以S1中的物理监测和软件监测的数据流或S2中的数据交互监测产生的数据流作为控制参数,与预存的正常运行参数进行对比,若超出阈值或者出现异常值等情况,将此参数类型和数值遍历策略集,再根据策略集的排查规程进行排查,排查完毕根据问题的节点来进行相应的策略执行。
进一步的,S5中工作日志包括服务器设备巡检报告、机房的温控设备巡检报告、网络安全设备巡检报告、UPS供配电系统巡检报告。
本发明要解决的技术问题之二是提供一种上述用于实施上述方法的系统。
本发明的技术方案为:
基于国产化信息技术创新应用系统运维服务的系统,包括控制系统、运行监控系统、数据交互监测系统、资产管理系统、策略集管理系统和运维日志管理系统:
控制系统,用于处理运行监测系统和数据交互监测系统的数据流,并从策略集管理系统调用相应的策略集进行对比和实施;
运行监测系统,用于硬件设备或软件的监测,及时为控制系统上传数据;
数据交互监测系统,用于各系统之间的数据交互监测,管理和监测与数据流相关的网关设备、软件和计算存储设备;
资产管理系统,用于管理在线资产以及备用资产,并及时自动更新或者运维人员手动更新;
策略集管理系统,用于存储策略集的排查规程和解决策略,并用于新策略集的存储与生成;
运维日志管理系统,用于生成、更新或者上传运维管理日志。
本发明的有益之处在于:
本发明通过对硬件、软件、数据交互等的运行监测作为监测依据,并与正常的数值进行对比,若发生异常参数等情况,自动调用策略集,根据相应故障的策略集进行数据检索分析并找出问题的节点所在后自动根据对应的解决策略进行修复,若无法系统自主修复的问题直接输出故障点和方案,这样运维人员接到系统的报错后得到的是直接输出的故障点,而不是发生的故障类型,节省了运维人员对故障的排查阶段,由系统自动完成,降低了运维的难度提升故障的排查效率。
附图说明
图1为本发明结构示意框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示:
一种基于国产化信息技术创新应用系统运维服务的系统:
本发明的技术方案为:
基于国产化信息技术创新应用系统运维服务的系统,包括控制系统、运行监控系统、数据交互监测系统、资产管理系统、策略集管理系统和运维日志管理系统:
控制系统,用于处理运行监测系统和数据交互监测系统的数据流,并从策略集管理系统调用相应的策略集进行对比和实施;
运行监测系统,用于硬件设备或软件的监测,及时为控制系统上传数据;
数据交互监测系统,用于各系统之间的数据交互监测,管理和监测与数据流相关的网关设备、软件和计算存储设备;
资产管理系统,用于管理在线资产以及备用资产,并及时自动更新或者运维人员手动更新;
策略集管理系统,用于存储策略集的排查规程和解决策略,并用于新策略集的存储与生成;
运维日志管理系统,用于生成、更新或者上传运维管理日志。
上述系统的运行方法或工作原理:
S1:运行监测,进行物理监测和软件监测,物理监测包括对服务器组件、存储设备、多媒体设备、网络设备、信息安全设备等硬件设备的物理运行参数和情况进行监测;软件监测包括对操作系统、支持系统、网络系统、安全系统以及其它通用服务系统的运行情况进行监测,通用服务系统包括邮件、数据库、群件、中间件、DNS、WEB、网关等;
S2:数据交互监测,监控各系统之间的数据交互及时性和完整性、监控计算存储设备的使用情况,计算存储设备的监控包括对磁盘I/O、CPU、内存的资源占用情况监控,并通过日常的数据流大小预判存储设备的容量使用情况并在容量预计出现容灾时提前预警;数据交互及时性体现为数据传输的速度,各系统之间能够及时传输关键数据,对网关进行流量控制和分配,集中流量至关键的数据交互过程并平衡为各数据交互过程中平衡分配流量。
S3:资产管理控制,管理和统计在线资产以及备用资产,所述资产包括有形资产和无形资产,且所述资产管理控制为系统自动更新或者运维人员手动更新;
S4:问题策略集建立和实施,根据经常遇到的系统问题建立对应的排查规程和策略,在检测到问题时遍历策略集进行实施,并对新解决的问题形成新的排查规程和解决策略,用于下次相同问题时自动实施,问题的检测以S1中的物理监测和软件监测的数据流或S2中的数据交互监测产生的数据流作为控制参数,与预存的正常运行参数进行对比,若超出阈值或者出现异常值等情况,将此参数类型和数值遍历策略集,再根据策略集的排查规程进行排查,排查完毕根据问题的节点来进行相应的策略执行,问题解决完成后更新策略集;在解决问题的过程中执行策略集的解决策略,若造成了在线资产或备用资产的变动和更新,在S3中及时更新数据,假如解决策略是系统可以自动完成的,比如调整参数,重置,更新、删除、更改线路等,则由系统自主完成,若系统无法自动完成,根据策略集进行排查,排查问题后直接输出故障点或者运维方案,由运维人员来进行实施。
S5:日志管理,对于工作日志进行管理,工作日志包括服务器设备巡检报告、机房的温控设备巡检报告、网络安全设备巡检报告、UPS供配电系统巡检报告等,并存储和整理每日的系统运行参数、出现的问题、问题解决的进度和工作人员的例检和运维情况生成运维日志。
本发明的优点在于,通过对硬件、软件、数据交互等的运行监测作为监测依据,并与正常的数值进行对比,若发生异常参数等情况,自动调用策略集,根据相应故障的策略集进行数据检索分析,并找出问题的节点所在后自动根据对应的解决策略进行修复,若无法系统自主修复的问题直接输出故障点和方案,这样运维人员接到系统的报错后得到的是直接输出的故障点,而不是发生的故障类型,节省了运维人员对故障的排查阶段,由系统自动完成。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (9)

1.一种基于国产化信息技术创新应用系统运维服务的方法,其特征在于,包括以下步骤:
S1:运行监测,进行物理监测和软件监测,物理监测包括对硬件设备的物理运行参数和情况进行监测;软件监测包括对操作系统、支持系统、网络系统、安全系统以及通用服务系统的运行情况进行监测;
S2:数据交互监测,监控各系统之间的数据交互及时性和完整性、监控计算存储设备的使用情况,并通过日常的数据流大小预判存储设备的容量使用情况并在容量预计出现容灾时提前预警;
S3:资产管理控制,管理和统计在线资产以及备用资产,所述资产包括有形资产和无形资产,且所述资产管理控制为系统自动更新或者运维人员手动更新;
S4:问题策略集建立和实施,根据经常遇到的系统问题建立对应的排查规程和策略,在检测到问题时遍历策略集进行实施,并对新解决的问题形成新的排查规程和解决策略,用于下次相同问题时自动实施,问题解决完成后更新策略集;
S5:日志管理,对于工作日志进行管理,存储和整理每日的系统运行参数、出现的问题、问题解决的进度和工作人员的例检和运维情况。
2.根据权利要求1所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S1中硬件设备包括服务器组件、存储设备、多媒体设备、网络设备、信息安全设备。
3.根据权利要求2所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S1中所述通用服务系统包括邮件、数据库、群件、中间件、DNS、WEB、网关。
4.根据权利要求1所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S2中数据交互及时性体现为数据传输的速度,各系统之间能够及时传输关键数据,对网关进行流量控制和分配,集中流量至关键的数据交互过程并平衡为各数据交互过程中平衡分配流量。
5.根据权利要求1所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S2中对计算存储设备的监控包括对磁盘I/O、CPU、内存的资源占用情况监控。
6.根据权利要求1所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S4中,在解决问题的过程中执行策略集的解决策略,若造成了在线资产或备用资产的变动和更新,在S3中及时更新数据。
7.根据权利要求1所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S4中问题的检测以S1中的物理监测和软件监测的数据流或S2中的数据交互监测产生的数据流作为控制参数,与预存的正常运行参数进行对比,若超出阈值或者出现异常值等情况,将此参数类型和数值遍历策略集,再根据策略集的排查规程进行排查,排查完毕根据问题的节点来进行相应的策略执行。
8.根据权利要求1所述的基于国产化信息技术创新应用系统运维服务的方法,其特征在于:S5中工作日志包括服务器设备巡检报告、机房的温控设备巡检报告、网络安全设备巡检报告、UPS供配电系统巡检报告。
9.一种用于实施权利要求1-8任一项所述的基于国产化信息技术创新应用系统运维服务的方法的系统,其特征在于,包括控制系统、运行监控系统、数据交互监测系统、资产管理系统、策略集管理系统和运维日志管理系统:
控制系统,用于处理运行监测系统和数据交互监测系统的数据流,并从策略集管理系统调用相应的策略集进行对比和实施;
运行监测系统,用于硬件设备或软件的监测,及时为控制系统上传数据;
数据交互监测系统,用于各系统之间的数据交互监测,管理和监测与数据流相关的网关设备、软件和计算存储设备;
资产管理系统,用于管理在线资产以及备用资产,并及时自动更新或者运维人员手动更新;
策略集管理系统,用于存储策略集的排查规程和解决策略,并用于新策略集的存储与生成;
运维日志管理系统,用于生成、更新或者上传运维管理日志。
CN202010270725.8A 2020-04-08 2020-04-08 基于国产化信息技术创新应用系统运维服务的方法和系统 Pending CN111476381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010270725.8A CN111476381A (zh) 2020-04-08 2020-04-08 基于国产化信息技术创新应用系统运维服务的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010270725.8A CN111476381A (zh) 2020-04-08 2020-04-08 基于国产化信息技术创新应用系统运维服务的方法和系统

Publications (1)

Publication Number Publication Date
CN111476381A true CN111476381A (zh) 2020-07-31

Family

ID=71750701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010270725.8A Pending CN111476381A (zh) 2020-04-08 2020-04-08 基于国产化信息技术创新应用系统运维服务的方法和系统

Country Status (1)

Country Link
CN (1) CN111476381A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270417A (zh) * 2020-10-28 2021-01-26 首都信息发展股份有限公司 国产化设备运维数据的智能采集方法及系统
CN112600736A (zh) * 2020-12-15 2021-04-02 安徽长泰信息安全服务有限公司 一种用于智能网关的远程运维管理系统
CN113516244A (zh) * 2021-07-27 2021-10-19 盛景智能科技(嘉兴)有限公司 一种智能运维方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065503A (zh) * 2013-03-22 2014-09-24 上海电科智能系统股份有限公司 一种智能交通物联网设施故障溯源判别分析方法
CN105631522A (zh) * 2015-12-23 2016-06-01 北京安托软件技术有限公司 It系统运维管理系统
CN105721194A (zh) * 2016-01-13 2016-06-29 广州衡昊数据科技有限公司 移动网故障隐患智能定位系统
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法
CN110162422A (zh) * 2019-04-30 2019-08-23 阿里巴巴集团控股有限公司 一种基于决策树的问题定位方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065503A (zh) * 2013-03-22 2014-09-24 上海电科智能系统股份有限公司 一种智能交通物联网设施故障溯源判别分析方法
CN105631522A (zh) * 2015-12-23 2016-06-01 北京安托软件技术有限公司 It系统运维管理系统
CN105721194A (zh) * 2016-01-13 2016-06-29 广州衡昊数据科技有限公司 移动网故障隐患智能定位系统
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法
CN110162422A (zh) * 2019-04-30 2019-08-23 阿里巴巴集团控股有限公司 一种基于决策树的问题定位方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270417A (zh) * 2020-10-28 2021-01-26 首都信息发展股份有限公司 国产化设备运维数据的智能采集方法及系统
CN112600736A (zh) * 2020-12-15 2021-04-02 安徽长泰信息安全服务有限公司 一种用于智能网关的远程运维管理系统
CN113516244A (zh) * 2021-07-27 2021-10-19 盛景智能科技(嘉兴)有限公司 一种智能运维方法、装置、电子设备及存储介质
CN113516244B (zh) * 2021-07-27 2023-12-05 盛景智能科技(嘉兴)有限公司 一种智能运维方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20220187815A1 (en) Systems and methods for detecting and predicting faults in an industrial process automation system
CN111476381A (zh) 基于国产化信息技术创新应用系统运维服务的方法和系统
CN110224894B (zh) 一种智能变电站过程层网络监测管理系统
US20190361759A1 (en) System and method to identify failed points of network impacts in real time
CN110032463B (zh) 一种基于贝叶斯网络的系统故障定位方法和系统
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
CN105243004A (zh) 一种故障资源检测方法及装置
CN112764956B (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN110119325A (zh) 服务器故障处理方法、装置、设备及计算机可读存储介质
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN108173711B (zh) 企业内部系统数据交换监控方法
WO2024051723A1 (zh) 一种基于多接口平台的任务监控与异常自愈方法和装置
CN116300531A (zh) 生产系统瓶颈环节的识别方法及系统、存储介质、终端
WO2022130789A1 (ja) 原因推定システムおよび原因推定方法
CN112988444B (zh) 用于服务器集群故障诊断的处理方法、处理装置、及处理设备、用于服务器故障诊断的方法及计算机可读存储介质
CN113987065A (zh) 数据库漂移方法、系统、电子设备和存储介质
Kajko-Mattsson Can we learn anything from hardware preventive maintenance?
CN111093221B (zh) 基于集中式网络的无线网络监测系统
JP4691285B2 (ja) 製品使用環境情報収集分析装置
CN108596341A (zh) 一种基于专家系统的故障诊断方法
WO2022259307A1 (ja) 警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラム
Kottre et al. Leveraging semantic-based Root Cause Analysis with Alarm Flood Reduction
Dodonov et al. Analysis and assessment of functional stability of information systems supporting management processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200731

WD01 Invention patent application deemed withdrawn after publication