CN116400928A - 一种基于日志数据的提高运维效率的方法和系统 - Google Patents

一种基于日志数据的提高运维效率的方法和系统 Download PDF

Info

Publication number
CN116400928A
CN116400928A CN202310082366.7A CN202310082366A CN116400928A CN 116400928 A CN116400928 A CN 116400928A CN 202310082366 A CN202310082366 A CN 202310082366A CN 116400928 A CN116400928 A CN 116400928A
Authority
CN
China
Prior art keywords
target server
maintenance
data
diagnosis
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310082366.7A
Other languages
English (en)
Inventor
安基海
高方铭
黄沛文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Mingyang Information Technology Co ltd
Original Assignee
Guangdong Mingyang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Mingyang Information Technology Co ltd filed Critical Guangdong Mingyang Information Technology Co ltd
Priority to CN202310082366.7A priority Critical patent/CN116400928A/zh
Publication of CN116400928A publication Critical patent/CN116400928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种基于日志数据的提高运维效率的方法和系统,包括获取目标服务器的日志数据;通过运维工具,根据所述日志数据,对所述目标服务器进行集群诊断;响应于接收到所述运维工具发送的集群诊断完成消息,通过集成工具,对所述目标服务器进标准阈值判断,完成目标服务器的系统修复,通过对日常运维数据、集群监控数据、使用规范数据、集群日志数据中至少一个项集群运维数据进行诊断,在诊断完成后向用户显示所有诊断项的名称、诊断结果以及针对诊断不合格的诊断项的修复建议,并根据修复建议及时解决该问题,提升集群运维效率降低运维风险。

Description

一种基于日志数据的提高运维效率的方法和系统
技术领域
本申请涉及数据处理领域,尤其涉及一种基于日志数据的提高运维效率的方法和系统。
背景技术
目前,由于智能设备均连接网络,用户可通过远程控制的方式对智能设备的状态进行监控,因此智能设备的应用越来越广泛;对提升配置准确性、监控有效性、操作自动化、安全有了更高的要求,且由于系统内部复杂,完全依赖于运维人员手动工作会导致运维异常问题较多、运维效率低下。
发明内容
为解决上述现有问题,本申请提供一种基于日志数据的提高运维效率的方法包括:获取目标服务器的日志数据;通过运维工具,根据所述日志数据,对所述目标服务器进行集群诊断;响应于接收到所述运维工具发送的集群诊断完成消息,通过集成工具,对所述目标服务器进标准阈值判断,完成目标服务器的系统修复。
在某些实施例中,所述获取目标服务器的日志数据,包括:通过配置中心,获取所述目标服务器的日志数据。
在某些实施例中,所述日志数据包括使用规范数据和环境数据;在所述通过配置中心,获取所述目标服务器的日志数据之前,还包括:通过数据采集软件,采集所述目标服务器的使用规范数据;接收用户输入的所述目标服务器的环境数据;将所述使用规范数据和环境数据发送至所述配置中心,以供所述配置中心存储所述目标服务器的使用规范数据和环境数据。
在某些实施例中,所述通过运维工具,根据所述日志数据,对所述目标服务器进行集群诊断,包括:根据所述日志数据,调用所述运维工具中的集群诊断指令,以使所述运维工具将预先配置的集群诊断文件发送至所述目标服务器,以供所述目标服务器按照所述集群诊断文件进行集群诊断。
在某些实施例中,所述通过集成工具,对所述目标服务器进标准阈值判断,包括:向所述集成工具发送代码诊断指令,所述代码诊断指令包括代码路径,以使所述集成工具根据所述代码路径从分布式版本控制系统中获取待部署运维文件,并根据所述待部署运维文件进行编译和部署。
在某些实施例中,在完成目标服务器的系统修复之后,还包括:启动所述目标服务器,并通过健康检查方式对所述目标服务器进行健康性验证,得到验证结果。
本申请还公开了一种基于日志数据的提高运维效率系统,所述系统包括:运维终端、运维工具和集成工具;所述运维终端用于获取目标服务器的日志数据;调用所述运维工具,根据所述日志数据,对所述目标服务器进行集群诊断;响应于接收到所述运维工具发送的集群诊断完成消息,调用所述集成工具,对所述目标服务器进标准阈值判断,完成目标服务器的系统修复;所述运维工具用于根据所述日志数据,对所述目标服务器进行集群诊断;所述集成工具用于对所述目标服务器进标准阈值判断。
在某些实施例中,所述系统还包括:配置中心;所述配置中心用于获取所述目标服务器的日志数据。
在某些实施例中,所述日志数据包括使用规范数据和环境数据;所述运维终端还用于通过数据采集软件,采集所述目标服务器的使用规范数据;接收用户输入的所述目标服务器的环境数据;将所述使用规范数据和环境数据发送至所述配置中心,以供所述配置中心存储所述目标服务器的使用规范数据和环境数据。
在某些实施例中,所述系统还包括:目标服务器;所述运维工具用于将预先配置的集群诊断文件发送至所述目标服务器;所述目标服务器用于按照所述集群诊断文件进行集群诊断。
从以上技术方案可以看出,本申请具有以下优点:
对日常运维数据、集群监控数据、使用规范数据、集群日志数据中至少一个项集群运维数据进行诊断,在诊断完成后向用户显示所有诊断项的名称、诊断结果以及针对诊断不合格的诊断项的修复建议,并根据修复建议及时解决该问题,提升集群运维效率降低运维风险,同时,运维工作人员可以根据诊断项的含义获取运维信息,提升专业技能,在后续的集群运维工作中能有效提升运维效率和成功率。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1为本申请提供的一种实施例的系统示意图;
图2为本申请提供的一种实施例的流程示意图;
图3为本申请提供的另一种实施例的流程示意图。
实施方式
下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本申请提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了便于理解本申请提供的技术方案,下面先对本申请技术方案的相关内容进行说明。在银行数字化转型的背景下,随着运维规模与体量的快速增长,对提升配置准确性、监控有效性、操作自动化、安全精细化有了更高的要求。
云端系统具有服务器数量多、每台服务器功能较为单一、服务器集群诊断简单、同一系统服务器数量多、同一系统需部署多套环境、代码部署模式较为固定的特点。所以服务器环境可以批量部署,代码部署可以使用固定模式进行自动化部署。本发明针对云端系统服务器集群诊断和代码部署的特性,将服务器集群诊断运维与代码自动化部署通过运维终端相结合,通过运维工具实现服务器的集群诊断和服务器基础运维,通过集成工具实现代码的自动部署。通过监控系统对资源进行实时监控,发现问题时通过运维终端调配服务器资源等保证系统的正常运行。智能自动化运维终端不是简单的把运维人员的日常工作进行整合,二是采用运维工具将运维过程进行汇总和提炼,在日常运维工作中实现自动化巡检,智能化故障修复及资源申请和软件的合理配置。运维终端可以共享运维业务能力、数据能力和计算能力,可以将运维活动进行抽象,将服务器运维与自动化部署通过运维终端统一管理。
图1为本发明实施例提供的一种基于日志数据的提高运维效率系统的结构示意图,如图1所示,该系统包括:运维终端11、运维工具12和集成工具13,运维终端11分别与运维工具12和集成工具13连接。
运维终端11包括可视化操作界面,用户可以通过在运维终端11输入指令,将资源进行调配,自动完成集群诊断与代码自动化部署。运维终端11主要作用是中心控制与调度。根据实际情况配置运维终端11的服务器中央处理器、内存、存储等资源,运维终端11采用分布式架构,确保运维终端11服务可以持续有效地运行。并保证运维终端11服务器可以连通系统其它所有服务器。
运维终端11用于获取目标服务器的日志数据;调用运维工具12,根据日志数据,对目标服务器进行集群诊断;响应于接收到运维工具12发送的集群诊断完成消息,调用集成工具13,对目标服务器进标准阈值判断,完成目标服务器的系统修复。
运维工具12用于根据日志数据,对目标服务器进行集群诊断。
集成工具13用于对目标服务器进标准阈值判断。
本发明实施例中,系统还包括:配置中心14,配置中心14与运维终端11连接。
配置中心14用于获取目标服务器的日志数据。配置中心14是用于存储日志数据、部署文件等变量。
本发明实施例中,日志数据包括使用规范数据和环境数据;运维终端11还用于通过数据采集软件,采集目标服务器的使用规范数据;接收用户输入的目标服务器的环境数据;将使用规范数据和环境数据发送至配置中心14,以供配置中心14存储目标服务器的使用规范数据和环境数据。
本发明实施例中,系统还包括:目标服务器15。目标服务器15分别与运维终端11、运维工具12、集成工具13和配置中心14连接。运维工具12用于将预先配置的集群诊断文件发送至目标服务器15。目标服务器15用于按照集群诊断文件进行集群诊断。本发明实施例中,运维终端11还用于向集成工具13发送代码诊断指令,代码诊断指令包括代码路径。
集成工具13用于代码路径从分布式版本控制系统中获取待部署运维文件,并根据待部署运维文件进行编译和部署。
本发明实施例中,运维终端11还用于启动目标服务器15,并通过健康检查方式对目标服务器15进行健康性验证,得到验证结果。
本发明实施例中,目标服务器的系统修复装置可以对各类信息进行采集,然后把采集的结果按需分配给各类系统中,为不同运维管理提供数据支持,进而降低数据库管理的维护成本,提升运维操作的效率;还可以实现执行的便捷化,通过对脚本的流程和灵活授权,可以使运维人员根据运维需求灵活操作,实现快速、便捷的完成各种系统任务;还可以根据实际需求,灵活选用标准化的运维场景,可以按照运维人员需求定制各种运维流程和步骤;还可以在日常运维工作中实现自动化巡检,智能化故障修复及资源申请和软件的合理配置。
值得说明的是,图1所示的系统还用于实现图2或图3所示的目标服务器的系统修复方法,在此不再赘述。
下面以运维终端作为执行主体为例,说明本发明实施例提供的目标服务器的系统修复方法的实现过程。可理解的是,本发明实施例提供的目标服务器的系统修复方法的执行主体包括但不限于运维终端。
图2为本发明实施例提供的一种基于日志数据的提高运维效率方法的流程图,如图2所示,该方法包括:
步骤101、获取目标服务器的日志数据。
本发明实施例中,日志数据包括使用规范数据和环境数据。
步骤102、通过运维工具,根据日志数据,对目标服务器进行集群诊断。
步骤103、响应于接收到运维工具发送的集群诊断完成消息,通过集成工具,对目标服务器进标准阈值判断,完成目标服务器的系统修复。
本发明实施例提供的技术方案中,获取目标服务器的日志数据;通过运维工具,根据日志数据,对目标服务器进行集群诊断;响应于接收到运维工具发送的集群诊断完成消息,通过集成工具,对目标服务器进标准阈值判断,完成目标服务器的系统修复,自动化进行系统修复,能够减少部署过程中异常问题,提高部署效率。
图3为本发明实施例提供的又一种基于日志数据的提高运维效率方法的流程图,如图3所示,该方法包括:
步骤201、通过数据采集软件,采集目标服务器的使用规范数据。
本发明实施例中,各步骤由运维终端。
本发明实施例中,数据采集软件为服务器集群统计信息插件(nodnod),包括但不限于服务器型号、CPU个数、内存大小、网络状况和存储大小。
在运维终端架构上构建分布式统一数据采集体系,通过统一代理框架实现各类资源的配置发现、数据采集。在所有节点上安装基于TCP的全双工通信协议的服务器集群统计信息插件,运维终端通过发送请求,目标服务器节点收到请求发送目标服务器的使用规范数据,由运维终端统一处理显示到运维终端的网络产品界面设计上,用户可以通过简单的操作观察到所有机器的信息。
步骤202、接收用户输入的目标服务器的环境数据。
本发明实施例中,用户将需要受控的目标服务器添加至运维终端进行控制,并将目标服务器的环境数据输入至运维终端。环境数据包括但不限于网络地址和用途信息。
步骤203、将使用规范数据和环境数据发送至配置中心,以供配置中心存储目标服务器的使用规范数据和环境数据。
本发明实施例中,将使用规范数据和环境数据作为日志数据,发送至配置中心,配置中心将日志数据存储到目标服务器下。
本发明实施例中,配置中心是构建在运维终端上的,将目标服务器的使用规范数据和环境数据以及目标服务器上中间件基础参数等提炼为集群诊断变量,不同环境赋予变量不同的值,变量之间可以互相关联,可同时进行修改。安装数据存储系统作为服务端来存储数据,安装配置管理工具作为客户端上取数据进行更新,通过实时监听和动态刷新的方式更新相应的配置文件,来达到配置管理的功能。配置中心里面的集群诊断变量,存储在运维终端,可人为进行修改、增加,在使用时只需使用变量名,免去了基础配置更改,需要修改大量文件的麻烦,提升配置管理的便利性。
步骤204、通过配置中心,获取目标服务器的日志数据。
本发明实施例中,日志数据包括使用规范数据和环境数据。配置中心中存储有每个服务器对应的日志数据。具体地,从配置中心获取目标服务器对应的日志数据。
步骤205、根据日志数据,调用运维工具中的集群诊断指令,以使运维工具将预先配置的集群诊断文件发送至目标服务器,以供目标服务器按照集群诊断文件进行集群诊断。
本发明实施例中,运维工具构建于运维终端上,用户可通过运维终端前端选择操作对象及常用操作命令或手动输入操作命令进行批量执行。在运维终端服务器上安装运维软件,并根据数据系统、部署环境、服务器用途等区分服务器,将服务器主机信息配置到运维软件上,并将一些基础的命令、脚本、操作流程等编写成语言脚本放到运维软件指定目录下,通过调用语言脚本可以快速完成一些重复性操作。
本发明实施例中,集群诊断指令包括软件安装命令或配置文件更新指令;集群诊断文件包括但不限于基础环境软件安装包、中间件和配置文件,具体地,运维终端根据日志数据,调用运维软件集群诊断指令;运维软件响应于集群诊断指令,将集群诊断文件发送至目标服务器;目标服务器按照集群诊断文件进行集群诊断。其中,中间件是一类能为一种或多种应用程序合作互通、资源共享,同时还能够为该应用提供相关的服务的软件。
进一步地,集群诊断完成后,运维软件向运维终端发送集群诊断完成消息。
步骤206、响应于接收到运维工具发送的集群诊断完成消息,向集成工具发送代码诊断指令,代码诊断指令包括代码路径,以使集成工具根据代码路径从分布式版本控制系统中获取待部署运维文件,并根据待部署运维文件进行编译和部署,完成目标服务器的系统修复。
本发明实施例中,集成工具构建于运维终端,根据实际需求在集成工具上添加业务插件,并按照对应的数据系统、环境、部署需求等构建对应的自动化部署流水线。集成工具的自动化部署流水线根据目标服务器的日志数据,控制运维软件发送包含变量信息的代码部署命令。自动化部署流水线是通过集成工具构建的将代码拉取、代码编译、代码部署等一系列操作按部就班流程化的自动化任务。具体地,编译服务器拉取系统上对应的最新版本的待部署运维文件,然后通过编译服务器进行代码编译,并将编译好的代码压缩传输到对应目标服务器,目标服务器接收新代码包后,解压部署,并重启服务使新代码生效。
步骤207、启动目标服务器,并通过健康检查方式对目标服务器进行健康性验证,得到验证结果。
本发明实施例中,运维终端启动目标服务器上部署好的服务,并通过健康检查等方式进行验证,得到验证结果,以验证服务是否能够正常启动。其中,健康检查方式包括但不限于健康检查、TCP健康检查和Ping健康检查。
本发明实施例中,运维终端包括服务器管理、配置管理、自动化部署管理三个管理部分。服务器管理主要是通过运维软件对服务器进行批量的运维操作管理并可以添加需要受控的目标服务器。配置管理主要是管理服务器日志数据、服务器上中间件基础参数等提炼为集群诊断变量等。自动化部署管理主要是对各系统、各集群诊断的流水线进行管理。运维终端还提供流程构建,将服务器操作与自动化部署相结合,可手动添加操作流程,通过运维软件和集成工具的自动化部署流水线实现整个投产步骤的自动化。
进一步地,运维终端上还搭建有监控软件,通过监控软件周期性监控各个服务器的运行指标,以实时监控服务器的资源使用情况以及服务器上服务运行情况;若监控软件监控到运行指标发生异常,通过运维终端向管理员终端发送预警信息,以通知管理员对异常服务器进行一场处理。进一步地,运维终端中预先配置有异常服务器的应急预案,例如:切换灾备服务器、扩充服务器资源等,在服务器发生异常时,可以根据实际情况向管理员终端推送对应的应急预案。管理员可以通过终端执行推荐的应急预案,管理员也可以通过运维终端查看故障日志信息,管理员分析日志信息,维护好服务器后,可通过运维终端恢复环境。
本发明实施例提供的目标服务器的系统修复方法的技术方案中,获取目标服务器的日志数据;通过运维工具,根据日志数据,对目标服务器进行集群诊断;响应于接收到运维工具发送的集群诊断完成消息,通过集成工具,对目标服务器进标准阈值判断,完成目标服务器的系统修复,自动化进行系统修复,能够减少部署过程中异常问题,提高部署效率。
本申请还提供一种运维终端的结构示意图,用于执行上述目标服务器的系统修复方法,运维终端包括:获取单元、集群诊断单元和代码部署单元。
获取单元用于获取目标服务器的日志数据。集群诊断单元用于通过运维工具,根据日志数据,对目标服务器进行集群诊断。
代码部署单元用于响应于接收到运维工具发送的集群诊断完成消息,通过集成工具,对目标服务器进标准阈值判断,完成目标服务器的系统修复。
本发明实施例中,获取单元具体用于通过配置中心,获取目标服务器的日志数据。
本发明实施例中,日志数据包括使用规范数据和环境数据;该装置还包括:采集单元、接收单元和发送单元。
采集单元用于通过数据采集软件,采集目标服务器的使用规范数据。
接收单元用于接收用户输入的目标服务器的环境数据。
发送单元用于将使用规范数据和环境数据发送至配置中心,以供配置中心存储目标服务器的使用规范数据和环境数据。
本发明实施例中,集群诊断单元具体用于根据日志数据,调用运维工具中的集群诊断指令,以使运维工具将预先配置的集群诊断文件发送至目标服务器,以供目标服务器按照集群诊断文件进行集群诊断。
本发明实施例中,代码部署单元具体用于向集成工具发送代码诊断指令,代码诊断指令包括代码路径,以使集成工具根据代码路径从分布式版本控制系统中获取待部署运维文件,并根据待部署运维文件进行编译和部署。
本发明实施例中,该装置还包括:启动单元。
启动单元用于启动目标服务器,并通过健康检查方式对目标服务器进行健康性验证,得到验证结果。
本发明实施例的方案中,获取目标服务器的日志数据;通过运维工具,根据日志数据,对目标服务器进行集群诊断;响应于接收到运维工具发送的集群诊断完成消息,通过集成工具,对目标服务器进标准阈值判断,完成目标服务器的系统修复,自动化进行系统修复,能够减少部署过程中异常问题,提高部署效率。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述目标服务器的系统修复方法的实施例的各步骤,具体描述可参见上述目标服务器的系统修复方法的实施例。
计算机设备包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的工作和处理。在RAM中,还存储有计算机设备操作所需的各种程序和数据。CPU、ROM、以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk,SSD)等。
相应地,本发明还公开了一种存储介质,用于存储计算机程序,所述程序被处理器执行时实现如上所述的一种基于日志数据的提高运维效率的方法。在本说明书的描述中,参考术语“一个实施方式”、“某些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (10)

1.一种基于日志数据的提高运维效率方法,其特征在于,
所述方法包括:
获取目标服务器的日志数据;
通过运维工具,根据所述日志数据,对所述目标服务器进行集群诊断;
响应于接收到所述运维工具发送的集群诊断完成消息,通过集成工具,对所述目标服务器进标准阈值判断,完成目标服务器的系统修复。
2.根据权利要求1所述的目标服务器的系统修复方法,其特征在于,
所述获取目标服务器的日志数据,包括:
通过配置中心,获取所述目标服务器的日志数据。
3.根据权利要求2所述的目标服务器的系统修复方法,其特征在于,
所述日志数据包括使用规范数据和环境数据;
在所述通过配置中心,获取所述目标服务器的日志数据之前,还包括:
通过数据采集软件,采集所述目标服务器的使用规范数据;
接收用户输入的所述目标服务器的环境数据;
将所述使用规范数据和环境数据发送至所述配置中心,以供所述配置中心存储所述目标服务器的使用规范数据和环境数据。
4.根据权利要求1所述的目标服务器的系统修复方法,其特征在于,
所述通过运维工具,根据所述日志数据,对所述目标服务器进行集群诊断,包括:
根据所述日志数据,调用所述运维工具中的集群诊断指令,以使所述运维工具将预先配置的集群诊断文件发送至所述目标服务器,以供所述目标服务器按照所述集群诊断文件进行集群诊断。
5.根据权利要求1所述的目标服务器的系统修复方法,其特征在于,
所述通过集成工具,对所述目标服务器进标准阈值判断,包括:
向所述集成工具发送代码诊断指令,所述代码诊断指令包括代码路径,以使所述集成工具根据所述代码路径从分布式版本控制系统中获取待部署运维文件,并根据所述待部署运维文件进行编译和部署。
6.根据权利要求1所述的目标服务器的系统修复方法,其特征在于,
在完成目标服务器的系统修复之后,还包括:
启动所述目标服务器,并通过健康检查方式对所述目标服务器进行健康性验证,得到验证结果。
7.一种基于日志数据的提高运维效率系统,其特征在于,
所述系统包括:运维终端、运维工具和集成工具;
所述运维终端用于获取目标服务器的日志数据;调用所述运维工具,根据所述日志数据,对所述目标服务器进行集群诊断;响应于接收到所述运维工具发送的集群诊断完成消息,调用所述集成工具,对所述目标服务器进标准阈值判断,完成目标服务器的系统修复;
所述运维工具用于根据所述日志数据,对所述目标服务器进行集群诊断;
所述集成工具用于对所述目标服务器进标准阈值判断。
8.根据权利要求7所述的系统,其特征在于,
所述系统还包括:配置中心;
所述配置中心用于获取所述目标服务器的日志数据。
9.根据权利要求8所述的系统,其特征在于,
所述日志数据包括使用规范数据和环境数据;
所述运维终端还用于通过数据采集软件,采集所述目标服务器的使用规范数据;接收用户输入的所述目标服务器的环境数据;将所述使用规范数据和环境数据发送至所述配置中心,以供所述配置中心存储所述目标服务器的使用规范数据和环境数据。
10.根据权利要求7所述的的系统,其特征在于,
所述系统还包括:目标服务器;
所述运维工具用于将预先配置的集群诊断文件发送至所述目标服务器;
所述目标服务器用于按照所述集群诊断文件进行集群诊断。
CN202310082366.7A 2023-02-08 2023-02-08 一种基于日志数据的提高运维效率的方法和系统 Pending CN116400928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310082366.7A CN116400928A (zh) 2023-02-08 2023-02-08 一种基于日志数据的提高运维效率的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310082366.7A CN116400928A (zh) 2023-02-08 2023-02-08 一种基于日志数据的提高运维效率的方法和系统

Publications (1)

Publication Number Publication Date
CN116400928A true CN116400928A (zh) 2023-07-07

Family

ID=87014883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310082366.7A Pending CN116400928A (zh) 2023-02-08 2023-02-08 一种基于日志数据的提高运维效率的方法和系统

Country Status (1)

Country Link
CN (1) CN116400928A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729210A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 分布式服务集群的异常诊断方法和装置
CN111880993A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 集群运维状态诊断方法、运维监控系统和终端、存储介质
US20210318938A1 (en) * 2020-04-14 2021-10-14 International Business Machines Corporation Updating stateful system in server cluster
CN114968739A (zh) * 2022-05-19 2022-08-30 中国工商银行股份有限公司 运维任务管理方法、运维方法、装置、设备和介质
CN115543793A (zh) * 2022-09-26 2022-12-30 中国工商银行股份有限公司 一种目标服务器的系统部署方法、装置和运维中台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729210A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 分布式服务集群的异常诊断方法和装置
US20210318938A1 (en) * 2020-04-14 2021-10-14 International Business Machines Corporation Updating stateful system in server cluster
CN111880993A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 集群运维状态诊断方法、运维监控系统和终端、存储介质
CN114968739A (zh) * 2022-05-19 2022-08-30 中国工商银行股份有限公司 运维任务管理方法、运维方法、装置、设备和介质
CN115543793A (zh) * 2022-09-26 2022-12-30 中国工商银行股份有限公司 一种目标服务器的系统部署方法、装置和运维中台

Similar Documents

Publication Publication Date Title
CN106992903B (zh) 一种基于网络设备的数据采集系统及方法
CN101631053B (zh) Eaps环网拓扑监控方法及系统
CN104022902A (zh) 一种监控服务器集群的方法和系统
CN101317381A (zh) 对能力管理对象维护、对能力管理的方法、系统及终端
KR20080016160A (ko) 디바이스 관리 서버를 통한 단말 내부 소프트웨어 관리방법
CN112929187B (zh) 网络切片管理方法、装置和系统
CN110727560A (zh) 云服务报警方法及装置
CN112968789A (zh) 数据采集方法、装置、计算机设备及计算机可读介质
CN104021078A (zh) 软件监控装置及方法
CN107483297B (zh) 对嵌入式设备上所承载业务质量的主动监测系统及方法
CN115963775B (zh) 一种基于特征信号数据的plc状态监测系统及方法
CN115248826B (zh) 一种大规模分布式图数据库集群运维管理的方法和系统
CN108632106A (zh) 监控服务设备的系统
CN111625418A (zh) 一种进程监控方法及装置
CN111352807A (zh) 服务器资源实时监控方法及装置
CN116400928A (zh) 一种基于日志数据的提高运维效率的方法和系统
CN115543793A (zh) 一种目标服务器的系统部署方法、装置和运维中台
CN112534139B (zh) 用于从远程平台控制压缩机的操作方面的系统和方法
CN113824801B (zh) 一种智能融合终端统一接入管理组件系统
CN105335145A (zh) 操作结果处理方法、装置及系统
CN114189439A (zh) 一种自动扩容的方法及装置
CN111176959B (zh) 跨域的应用服务器的预警方法、系统及存储介质
CN113448609A (zh) 一种容器的升级方法、装置、设备和存储介质
CN113296825A (zh) 一种应用的灰度发布方法、装置和应用发布系统
CN111369017A (zh) 设备远程监控方法、装置、电子设备及可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination