CN118093267A - 主机数据库的运维方法及装置、电子设备及存储介质 - Google Patents

主机数据库的运维方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN118093267A
CN118093267A CN202410256431.8A CN202410256431A CN118093267A CN 118093267 A CN118093267 A CN 118093267A CN 202410256431 A CN202410256431 A CN 202410256431A CN 118093267 A CN118093267 A CN 118093267A
Authority
CN
China
Prior art keywords
database
component
database component
host
host subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410256431.8A
Other languages
English (en)
Inventor
黄凤春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202410256431.8A priority Critical patent/CN118093267A/zh
Publication of CN118093267A publication Critical patent/CN118093267A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/547Messaging middleware

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种主机数据库的运维方法及装置、电子设备及存储介质,涉及金融科技领域或其他相关技术领域,该方法包括:在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,目标消息用于指示主机子系统的数据库组件处于下宕状态,在重启数据库组件后,控制数据库组件执行数据预热操作,数据预热操作是指将主机磁盘中的数据表文件加载到数据库组件的缓存中,在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。本申请解决了相关技术中在数据库组件故障期间,中间件组件仍正常对外服务,导致故障窗口中部分交易失败问题的技术问题。

Description

主机数据库的运维方法及装置、电子设备及存储介质
技术领域
本发明涉及金融科技领域或其他相关领域,具体而言,涉及一种主机数据库的运维方法及装置、电子设备及存储介质。
背景技术
金融行业常使用主机承接核心业务系统,并部署主机数据库存储数据资产。主机数据库的稳定运行是科技运维人员的重要职责,传统运维方式是:(1)将不同物理主机分区成不同的子系统,然后利用耦合器将不同子系统整合成一个可资源共享的整体。(2)将中间件、数据库组件冗余部署在不同子系统,组件间通过耦合器进行互联互通。(3)中间件和数据库之间配置多对一的映射关系,即一个中间件只能访问同子系统上特定的数据库,一个数据库可以被同子系统上多个中间件访问。传统运维方式下,交易从网关上送到负载均衡组件,再路由到某个中间件组件,从而访问关联的数据库组件,实现交易对业务数据的增删改查等功能。因子系统故障导致该子系统上中间件和数据库均不可用时,交易可路由至其他子系统上,继续正常访问数据库组件,实现单系统故障下的高可用,可满足大部分的运维场景。当子系统上中间件组件正常、数据库组件异常情况下,路由到该子系统上的交易将出现数据库访问报错,导致交易失败。通过设置数据库组件故障场景下的自动重启策略可有效应对这一场景,是现有技术的常规做法。
但是,相关技术中通过自动重启数据库策略实现数据库组件异常场景下交易的快速恢复功能,存在如下缺陷:(1)数据库组件故障期间,中间件组件仍正常对外服务,网关上送的交易仍可继续路由到故障组件所在子系统,导致故障窗口中部分交易失败问题;(2)重启数据库组件后,数据库缓存池中缓存的表文件将被清理掉,交易首次访问数据表时,需要重新从磁盘中加载表文件,从而导致交易响应时间激增的毛刺问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种主机数据库的运维方法及装置、电子设备及存储介质,以至少解决了相关技术中在数据库组件故障期间,中间件组件仍正常对外服务,导致故障窗口中部分交易失败问题的技术问题。
根据本申请实施例的一个方面,提供了一种主机数据库的运维方法,包括:在监测到主机子系统的系统日志存在目标消息时,对所述主机子系统的数据库组件进行故障隔离,其中,所述目标消息用于指示所述主机子系统的数据库组件处于下宕状态,所述下宕状态是指所述数据库组件在服务过程中出现停止服务的故障状态;在重启所述数据库组件后,控制所述数据库组件执行数据预热操作,其中,所述数据预热操作是指将主机磁盘中的数据表文件加载到所述数据库组件的缓存中;在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件,并恢复所述主机子系统的金融交易功能。
可选地,对所述主机子系统的数据库组件进行故障隔离的步骤,包括:在确认所述数据库组件处于正常下宕状态或异常下宕状态的情况下,关闭所述主机子系统的中间件组件以停止所述主机子系统的中间件组件的服务功能,其中,所述正常下宕状态是基于数据库主机运维需求实施下宕指令导致的数据库组件下宕指示的状态,所述异常下宕状态是由于数据库组件异常导致的计划外下宕指示的状态;停止所述主机子系统的金融交易功能,完成对所述主机子系统的数据库组件的故障隔离。
可选地,在对所述主机子系统的数据库组件进行故障隔离之后,还包括:触发所述数据库组件的重启脚本,重启所述数据库组件,完成对所述主机子系统的数据库组件的故障自愈操作。
可选地,触发所述数据库组件的重启脚本,重启所述数据库组件的步骤,包括:设定在指定时长内重启所述数据库组件的总次数低于预设次数阈值。
可选地,在控制所述数据库组件执行数据预热操作之后,还包括:根据所述系统日志的日志格式,在所述主机子系统中写入数据预热完成消息,其中,所述数据预热完成消息包括消息头、消息文本的数据库组件名称。
可选地,在监测主机子系统的系统日志时,包括:编制关联所有主机子系统的系统日志的日志格式;在监测到任一所述主机子系统的数据库组件的组件状态发生变化时,根据所述日志格式将该数据库组件的状态变化信息写入所述系统日志,其中,所述状态变化信息包括下述至少之一:启动状态、正常下宕状态、异常下宕状态。
可选地,所述方法还包括:根据各所述主机子系统上部署的中间件组件以及数据库组件,编制组件映射表,其中,所述组件映射表中记录所述中间件组件与所述数据库组件之间的映射关系;基于所述组件映射表,编制所述中间件组件的下宕脚本以及启动脚本,其中,所述中间件组件的下宕脚本用于关闭所述主机子系统的中间件组件,所述中间件组件的启动脚本用于在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件;基于所述组件映射表,编制所述数据库组件的重启脚本、告警脚本,其中,所述数据库组件的重启脚本用于在确认数据库组件处于异常下宕状态后,重启所述数据库组件,所述数据库组件的告警脚本用于在确认数据库组件处于异常下宕状态后,发送告警信息。
可选地,恢复所述主机子系统的金融交易功能的步骤,包括:触发重启中间件脚本,解除故障隔离,对出现故障的数据库组件上的金融交易功能进行接管,恢复所述主机子系统的数据库组件的金融交易。
为了实现上述目的,根据本申请的另一方面,提供了一种主机数据库的运维装置,包括:执行单元,用于在监测到主机子系统的系统日志存在目标消息时,对所述主机子系统的数据库组件进行故障隔离,其中,所述目标消息用于指示所述主机子系统的数据库组件处于下宕状态,所述下宕状态是指所述数据库组件在服务过程中出现停止服务的故障状态;控制单元,用于在重启所述数据库组件后,控制所述数据库组件执行数据预热操作,其中,所述数据预热操作是指将数据库主机的主机磁盘中的数据表文件加载到所述数据库组件的缓存中;启动单元,用于在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件,并恢复所述主机子系统的金融交易功能。
可选地,所述执行单元包括:功能关闭模块,用于在确认所述数据库组件处于正常下宕状态或异常下宕状态的情况下,关闭所述主机子系统的中间件组件以停止所述主机子系统的中间件组件的服务功能,其中,所述正常下宕状态是基于数据库主机运维需求实施下宕指令导致的数据库组件下宕指示的状态,所述异常下宕状态是由于数据库组件异常导致的计划外下宕指示的状态;功能停止模块,用于停止所述主机子系统的金融交易功能,完成对所述主机子系统的数据库组件的故障隔离。
可选地,主机数据库的运维装置还包括:触发单元,用于在对所述主机子系统的数据库组件进行故障隔离之后,触发所述数据库组件的重启脚本,重启所述数据库组件,完成对所述主机子系统的数据库组件的故障自愈操作。
可选地,触发单元包括:设定在指定时长内重启所述数据库组件的总次数低于预设次数阈值。
可选地,主机数据库的运维装置还包括:消息写入单元,用于在控制所述数据库组件执行数据预热操作之后,根据所述系统日志的日志格式,在所述主机子系统中写入数据预热完成消息,其中,所述数据预热完成消息包括消息头、消息文本的数据库组件名称。
可选地,主机数据库的运维装置在监测主机子系统的系统日志时,包括:第一编制单元,用于编制关联所有主机子系统的系统日志的日志格式;日志写入单元,用于在监测到任一所述主机子系统的数据库组件的组件状态发生变化时,根据所述日志格式将该数据库组件的状态变化信息写入所述系统日志,其中,所述状态变化信息包括下述至少之一:启动状态、正常下宕状态、异常下宕状态。
可选地,所述主机数据库的运维装置还包括:第二编制单元,用于根据各所述主机子系统上部署的中间件组件以及数据库组件,编制组件映射表,其中,所述组件映射表中记录所述中间件组件与所述数据库组件之间的映射关系;第三编制单元,用于基于所述组件映射表,编制所述中间件组件的下宕脚本以及启动脚本,其中,所述中间件组件的下宕脚本用于关闭所述主机子系统的中间件组件,所述中间件组件的启动脚本用于在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件;第四编制单元,用于基于所述组件映射表,编制所述数据库组件的重启脚本、告警脚本,其中,所述数据库组件的重启脚本用于在确认数据库组件处于异常下宕状态后,重启所述数据库组件,所述数据库组件的告警脚本用于在确认数据库组件处于异常下宕状态后,发送告警信息。
可选地,所述启动单元包括:恢复模块,用于触发重启中间件脚本,解除故障隔离,对出现故障的数据库组件上的金融交易功能进行接管,恢复所述主机子系统的数据库组件的金融交易。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的主机数据库的运维方法。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行上述任意一项所述的主机数据库的运维方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项所述的主机数据库的运维方法。
本公开中,在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态;在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将主机磁盘中的数据表文件加载到数据库组件的缓存中;在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。
在本公开中,通过主机子系统的系统日志中的数据库组件故障状态信息触发关闭中间件组件操作,实现数据库组件的故障隔离和故障自愈,再将主机磁盘的数据表文件加载到数据库组件的缓存中实现数据预热功能,最后启动主机子系统的中间件组件使得子系统恢复交易。
可以基于消息驱动的主机数据库组件异常情况,实现数据库组件的自动重启、自动预热以及功能恢复,减少组件故障情况下的交易失败情况,实现数据库组件故障场景的自动运维,从而解决了相关技术中在数据库组件故障期间,中间件组件仍正常对外服务,导致故障窗口中部分交易失败问题的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的主机数据库的运维方法的流程图;
图2是根据本发明实施例的一种可选的对主机子系统的数据库组件进行故障隔离的流程图;
图3是根据本发明实施例的一种可选的主机数据库的运维装置的示意图;
图4是根据本发明实施例的一种用于主机数据库的运维方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
下宕:系统关闭,处于停止服务的状态。
需要说明的是,本公开中的主机数据库的运维方法及其装置可用于金融科技领域在对金融行业中存储数据资产的主机数据库进行运维管理的情况下,也可用于除金融科技领域之外的任意领域在对金融行业中存储数据资产的主机数据库进行运维管理的情况下,本公开中对主机数据库的运维方法及其装置的应用领域不做限定。
需要说明的是,本公开采集的信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),是经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关地区的相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
需要说明的是,本公开中在采集客户信息,分析客户信息,为用户提供相应的操作入口,供用户选择同意或者拒绝自动化决策结果;若用户选择拒绝,则进入专家决策流程。
本发明下述各实施例可应用于各种主机数据库的运维系统/应用/设备中。本发明克服了现有主机数据库运维方法的不足,提供一种基于消息驱动的主机数据库组件异常情况下自动恢复的运维方法,基于主机消息驱动机制,通过监控数据库组件的状态信息,设置故障告警、故障隔离、故障自愈、数据预热和交易恢复等消息驱动自动化策略,实现数据库组件故障场景的自动运维功能,解决数据库组件故障期间,中间件组件仍正常对外服务,网关上送的交易仍可继续路由到故障组件所在子系统,导致故障窗口中部分交易失败问题,同时可以解决故障恢复期间部分交易失败和故障恢复后交易响应时间毛刺问题。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种主机数据库的运维方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的主机数据库的运维方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态。
步骤S102,在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将主机磁盘中的数据表文件加载到数据库组件的缓存中。
步骤S103,在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。
通过上述步骤,可以在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态;在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将主机磁盘中的数据表文件加载到数据库组件的缓存中;在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。在该实施例中,可以基于消息驱动的主机数据库组件异常情况,实现数据库组件的自动重启、自动预热以及功能恢复,减少组件故障情况下的交易失败情况,实现数据库组件故障场景的自动运维,从而解决了相关技术中在数据库组件故障期间,中间件组件仍正常对外服务,导致故障窗口中部分交易失败问题的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
需要说明的是,本实施例在主机数据库运维过程中,会预先编辑对中间件组件以及数据库组件的配置脚本,包括:根据各主机子系统上部署的中间件组件以及数据库组件,编制组件映射表,其中,组件映射表中记录中间件组件与数据库组件之间的映射关系;基于组件映射表,编制中间件组件的下宕脚本以及启动脚本,其中,中间件组件的下宕脚本用于关闭主机子系统的中间件组件,中间件组件的启动脚本用于在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件;基于组件映射表,编制数据库组件的重启脚本、告警脚本,其中,数据库组件的重启脚本用于在确认数据库组件处于异常下宕状态后,重启数据库组件,数据库组件的告警脚本用于在确认数据库组件处于异常下宕状态后,发送告警信息。
本申请中根据各子系统上部署的中间件、数据库组件情况,编制两者的映射关系表(本实施例将该组件映射表可以定义为MAP),之后根据运维指令,编制中间件组件的自动化下宕脚本(本实施例将该中间件组件的下宕脚本可以定义为STOCICS)、启动脚本(本实施例将该中间件组件的启动脚本可以定义为STACICS),数据库组件自动化启动脚本(本实施例将该数据库组件的启动脚本可以定义为STADB2),告警脚本(实现类似于邮件&短信告警,可以定义该脚本为WARNING);当然,除了前述的几个脚本之外,本实施例还可以定义打开数据表脚本OPENFILE。
需要说明的是,本实施例在编制组件映射表时,可选实施方式包括:获取各个主机子系统上部署的中间件组件和数据库组件,包括组件的版本信息和配置信息,之后可以获取每个中间件组件和数据库组件之间的映射关系,包括中间件组件与数据库组件的版本兼容性、支持的功能特性等信息,之后,根据这些信息,编制组件映射表,将中间件组件与数据库组件之间的映射关系一一记录下来,包括中间件组件和数据库组件的名称、版本、配置信息、映射关系等。其中,在组件映射表中,可以使用表格或者类似的形式来展示中间件组件与数据库组件之间的映射关系,使其易于查阅和管理。
另外,在本实施例中,还需要定期更新组件映射表,以反映中间件组件和数据库组件的变化和更新情况,确保映射关系的准确性和实时性。
在编制脚本时,可以根据不同的组件内容进行自适应编辑,举例说明,在基于组件映射表编制中间件组件的下宕脚本以及启动脚本时,包括:根据组件映射表,确定要下宕和重启动的中间件组件及其对应的版本,接着编写下宕脚本,包括下宕组件所需的步骤;根据组件的不同,下宕脚本的具体步骤会有所不同,然后,编写中间件重启动脚本,包括重启动组件的命令和参数设置。根据组件的特点,重启动脚本可能需要设置监听端口、启动参数、日志路径等。
同理,在基于组件映射表,编制数据库组件的重启脚本、告警脚本时,可以先确定数据库组件及其版本,即首先根据组件映射表,确定要操作的数据库组件及其对应的版本,然后编制重启脚本:根据数据库组件的类型和版本,编写重启脚本。重启脚本应包括停止数据库实例的命令、等待一段时间以确保数据库完全关闭、启动数据库实例的命令以及必要的参数设置。
在编写脚本时,要考虑到数据库的特性,比如需要等待数据库完全关闭或者启动过程中可能出现的错误情况。之后,编制告警脚本:告警脚本用于监控数据库组件的运行状态,并在出现异常情况时发送告警通知。如果数据库出现异常,告警脚本应触发告警通知,比如发送邮件、短信。
需要说明的是,在编写脚本时,要考虑到数据库的安全性和稳定性,确保脚本的执行不会对数据库造成意外的影响。同时,要考虑到脚本的可操作性和可维护性,使得脚本能够在不同环境和情况下都能够正确地执行。
在完成组件的脚本配置后,进入到主机数据库的实时运维场景。
在主机数据库的实时运维场景下,需要实时监控主机系统上各子系统的组件状态变化,生成实时日志。
可选地,在监测主机子系统的系统日志时,包括:编制关联所有主机子系统的系统日志的日志格式;在监测到任一主机子系统的数据库组件的组件状态发生变化时,根据日志格式将该数据库组件的状态变化信息写入系统日志,其中,状态变化信息包括下述至少之一:启动状态、正常下宕状态、异常下宕状态。
主机系统上子系统组件状态发生变化时,会在系统日志中写入相关消息。消息可以包括消息头和消息文本,其中消息头主要表征消息的类别,消息文本主要详细描述消息的内容。以本实施例中的主机数据库组件为例,其状态发生变化主要分为启动状态变为下宕状态和下宕状态变为启动状态,其中下宕状态又分为正常下宕状态和异常下宕状态,对于这两者区分,可以是基于运维终端或者运维人员的需求确定的,例如因运维需要计划性实施正常下宕指令导致的下宕为正常下宕状态,因数据库组件异常如内存满了等原因导致的计划外下宕为异常下宕状态。
通过监控主机子系统的数据库组件的组件状态,在检测到发生异常后,出现目标消息时,开始执行步骤S101。
步骤S101,在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离。
其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态。
本实施例提供的技术方案,是主机自动化工具组件提供基于消息驱动的触发机制,即监控到特定目标消息后执行相关脚本,实现监控到数据库组件下宕后自动执行故障隔离以及数据库组件自启动,可根据消息+脚本组合,设置故障告警、故障隔离、数据预热、交易恢复等消息驱动策略。
在本实施例中,故障报警是指实现监控到数据库组件下宕信息后触发邮件、短信提醒等报警机制,实现对系统日志中分散消息的精确提取,对数据库组件故障的快速感知。
而对于故障隔离,图2是根据本发明实施例的一种可选的对主机子系统的数据库组件进行故障隔离的流程图,如图2所示,在执行故障隔离时,实施步骤包括:
步骤S201,在确认数据库组件处于正常下宕状态或异常下宕状态的情况下,关闭主机子系统的中间件组件以停止主机子系统的中间件组件的服务功能。
其中,正常下宕状态是基于数据库主机运维需求实施下宕指令导致的数据库组件下宕指示的状态,异常下宕状态是由于数据库组件异常导致的计划外下宕指示的状态。
步骤S202,停止主机子系统的金融交易功能,完成对主机子系统的数据库组件的故障隔离。
故障隔离即在监控到数据库组件异常情况下,下宕关联的中间件组件,确保故障处理期间交易不会继续路由到故障组件,实现故障隔离。
对于故障自愈,本实施例中,是在执行完故障隔离之后执行的操作,可选地,在对主机子系统的数据库组件进行故障隔离之后,还包括:触发数据库组件的重启脚本,重启数据库组件,完成对主机子系统的数据库组件的故障自愈操作。
需要说明的是,本实施例在故障隔离后,原本路由到N个子系统的交易临时仅路由到N-1个子系统,因此需要通过重启数据库组件进行故障自愈。
可选的,在对主机子系统的数据库组件进行故障自愈操作,可以采取以下步骤:
连接数据库实例并执行查询命令,根据查询结果判断数据库是否正常运行,如果数据库未能自动恢复,重启脚本可以触发数据库的重启操作或者其他自愈操作。此处,在重启数据库组件时,包括:停止数据库实例、等待一段时间确保数据库完全关闭、启动数据库实例等。当重启数据库组件的脚本执行完毕,数据库组件应该已经重新启动并恢复正常运行。监控系统可以再次检测数据库组件的运行状态,确认数据库组件是否已经恢复正常。
可选地,触发数据库组件的重启脚本,重启数据库组件的步骤,包括:设定在指定时长内重启数据库组件的总次数低于预设次数阈值。
需要说明的是,根据运维经验,通过数据库组件重启可以解决大部分的组件故障问题,极少数情况下需要其他介入分析,比如,数据库缓存饱和可以通过重启解决故障,硬件损坏则无法通过重启解决问题。因此,为了避免重启洪流,如陷入无限重启中,故障自愈阶段增加额外策略,即设定在指定时长内重启所述数据库组件的次数阈值,若超过次数阈值仍然异常下宕,则放弃继续重启,继而转入告警升级,提示人工介入。本实施例提及的故障自愈阶段增加额外策略,在设定时长内限制重启总次数,例如,设置数据库组件5分钟内的重启次数阈值为3次,在5分钟内当第3次触发数据库组件的重启脚本时,记录此时次数为3,等于重启次数阈值,执行重启操作,如果重启后数据库仍处于故障状态,再触发数据库组件的重启脚本,记录此时次数为4,大于重启次数阈值,不执行重启操作,并提示需要人工介入。
步骤S102,在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将主机磁盘中的数据表文件加载到数据库组件的缓存中。
在本实施例中,数据预热是在故障自愈后、交易恢复前,提前将主机磁盘中的数据表文件主动加载到数据库组件的缓存中,避免故障自愈后交易初次访问数据表时直接访问磁盘而导致的交易响应时间激增毛刺。具体触发方式,可以是通过监控数据库组件状态由下宕变为启动状态,触发数据表文件加载操作。
数据表文件加载操作通过在新启动的数据库组件上实施打开全量表文件的方式模拟交易初次访问数据表,将数据表文件尽可能多的加载至数据库组件的缓存区,即提供后续交易访问数据的预热功能。
例如,某时刻下,子系统A已停止交易后,重启子系统A中所有的数据库组件,重启后的数据库组件恢复正常并将该状态变化信息“MSGID='DSN9022I'&TEXT=.'STA DB2'&TOKEN(4)=DB2NAME”写入系统日志,系统监测到该日志信息后判定此时子系统A的数据库组件正常运行,此时读取系统的本地磁盘C中当下所有的数据表文件,并将所有数据表文件加载到子系统A中数据库组件的缓存中。
可选地,在控制数据库组件执行数据预热操作之后,还包括:根据系统日志的日志格式,在主机子系统中写入数据预热完成消息,其中,数据预热完成消息包括消息头、消息文本的数据库组件名称。
为了后续交易恢复流程控制,数据预热完成后,参照主机系统日志格式,在系统中写入数据预热完成的消息,包括消息头、消息文本的数据库组件名称。
步骤S103,在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。
可选地,恢复主机子系统的金融交易功能的步骤,包括:触发重启中间件脚本,解除故障隔离,对出现故障的数据库组件上的金融交易功能进行接管,恢复主机子系统的数据库组件的金融交易。
需要说明的是,故障自愈及数据预热后,数据库组件具备重新接管交易的条件,可通过启动关联的中间件方式解除故障隔离,实现交易恢复功能。
下面结合另一种可选的具体实施方式进行详细说明。
本实施方式,基于主机消息驱动机制,通过监控数据库组件的状态信息,设置故障告警、故障隔离、故障自愈、数据预热和交易恢复等消息驱动自动化策略,实现数据库组件故障场景的自动运维功能。具体实现方式如下:
1、组件配置
根据各子系统上部署的中间件、数据库组件情况,编制两者的映射关系表MAP。根据运维指令,编制中间件组件的自动化下宕脚本STOCICS、启动脚本STACICS,数据库组件自动化启动脚本STADB2,邮件&短信告警脚本WARNING、打开数据表脚本OPENFI LE。
2、消息提取
主机系统上子系统组件状态发生变化时,会在系统日志中写入相关消息。消息一般包括:消息头(MSGID)+消息文本(TEXT),其中,消息头主要表征消息的类别,消息文本主要详细描述消息的内容。
以本实施方式设计的主机数据库组件为例,其状态发生变化主要分为启动状态变为下宕状态和下宕状态变为启动状态,其中,下宕状态又分为正常下宕状态和异常下宕状态,如因运维需要计划性实施正常下宕指令导致的下宕为正常下宕状态,因数据库组件异常如内存满了等原因导致的计划外下宕为异常下宕状态。本实施方式主要考虑异常下宕状态下的运维方法。
例如,(1)启动状态变为异常下宕状态消息提取为MSGID='AOF571 I'&TEXT=.'IS ABENDING'&TOKEN(4)=DB2NAME,其中消息头AOF571 I表示组件状态变化,消息文本ISABENDING表示组件正在异常下宕,TOKEN提取数据库组件名称。
(2)下宕状态变为启动状态消息提取为MSGID='DSN9022I'&TEXT=.'STA DB2'&TOKEN(4)=DB2NAME,其中消息头DSN9022I表示数据库组件状态变化,消息文本STA DB2表示数据库组件启动完成,TOKEN提取数据库组件名称。
3、策略配置
主机自动化工具组件提供基于消息驱动的触发机制,即监控到特定消息后执行相关脚本。例如,在自动化工具组件的消息控制表中设置“I F MSGID='AOF571 I'&TEXT=.'IS ABENDING'&TOKEN(4)=DB2NAME THEN EXEC(CMD('STADB2 DB2NAME'),实现监控到数据库组件异常下宕后自动执行自动启动脚本STADB2,实现数据库组件故障的自愈功能,类似的可根据消息+脚本组合,设置故障告警、故障隔离、数据预热、交易恢复等消息驱动策略。
4、故障报警
故障报警即通过策略配置实现监控到数据库组件异常下宕信息后触发邮件、短信提醒等报警机制,例如,设置“I F MSGID='AOF571 I'&TEXT=.'IS ABENDING'&TOKEN(4)=DB2NAME THEN EXEC(CMD(WARNING DB2NAME')实现对系统日志中分散消息的精确提取,对数据库组件故障的快速感知。
5、故障隔离
故障隔离即在监控到数据库组件异常情况下,下宕关联的中间件组件,确保故障处理期间交易不会继续路由到故障组件,实现故障隔离。当启动状态变为异常状态,即如果监控到“MSGID='AOF571 I'&TEXT=.'IS ABENDING'&TOKEN(4)=DB2NAME”,则触发下宕关联中间件STOCICS脚本,其中通过提取的数据库组件DB2NAME变量,传参查询映射表MAP获取中间件清单变量CICSLIST,调用下宕中间件脚本STOCICS,
6、故障自愈
故障隔离后,原本路由到N个子系统的交易临时仅路由到N-1个子系统,因此需要通过重启数据库组件进行故障自愈。当启动状态变为异常状态,即如果监控到“MSGID='AOF571 I'&TEXT=.'IS ABENDING'&TOKEN(4)=DB2NAME”,则触发启动数据库组件脚本STADB2。根据运维经验,通过数据库组件重启可以解决大部分的组件故障问题,极少数情况下需要其他介入分析。因此,为了避免策略导致的重启洪流,如陷入无限重启中,故障自愈阶段增加额外策略,即5分钟内最多重启3次,如果重启3次仍然异常下宕,则放弃继续重启,继而转入告警升级,提示人工介入。
7、数据预热
数据预热是在故障自愈后、交易恢复前,提前将数据表文件主动加载到数据库组件的缓存中,避免故障自愈后交易初次访问数据表时直接访问磁盘而导致的交易响应时间激增毛刺。其中,触发方式是通过监控数据库组件状态由下宕变为启动状态,即消息头DSN9022I和文本TEXT=.'STA DB2'后,触发数据表文件加载操作。数据表文件加载操作通过在新启动的数据库组件上实施打开全量表文件的方式模拟交易初次访问数据表,将数据表文件尽可能多的加载至数据库组件的缓存区,即提供后续交易访问数据的预热功能。同时,为了后续交易恢复流程控制,数据预热完成后,参照主机系统日志格式,在系统中写入数据预热完成的消息,包括消息头、消息文本的数据库组件名称。
8、交易恢复
故障自愈及数据预热后,数据库组件具备重新接管交易的条件,可通过启动关联的中间件方式解除故障隔离,实现交易恢复功能。其中交易恢复的前置条件有2个,其一是故障自愈,即监控到关联的数据库组件重启完成,其二是数据预热,即监控到数据预热完成消息。同时监控到故障自愈和数据预热完成消息后,触发重启关联中间件脚本STACICS,实现故障数据库组件上的交易接管。
通过上述实施方式,提供的主机数据库运维方法,能够提供主机数据库异常的自动恢复功能,有效提升运维效率。
同时,本实施方式还可以提供主机数据库故障期间的自动隔离功能,有效降低业务影响。
另外,本实施方式还提供主机数据库恢复后的预热功能,有效避免交易毛刺。
下面结合另一实施例进行详细说明。
实施例二
本实施例中提供的一种主机数据库的运维装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图3是根据本发明实施例的一种可选的主机数据库的运维装置的示意图,如图3所示,该主机数据库的运维装置可以包括:执行单元31,控制单元32,启动单元33。
其中,执行单元31,用于在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态;
控制单元32,用于在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将数据库主机的主机磁盘中的数据表文件加载到数据库组件的缓存中;
启动单元33,用于在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。
上述主机数据库的运维,可以通过执行单元31在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态,通过控制单元32,用于在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将数据库主机的主机磁盘中的数据表文件加载到数据库组件的缓存中,通过启动单元33,用于在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。在该实施例中,可以基于消息驱动的主机数据库组件异常情况,实现数据库组件的自动重启、自动预热以及功能恢复,减少组件故障情况下的交易失败情况,实现数据库组件故障场景的自动运维,从而解决了相关技术中在数据库组件故障期间,中间件组件仍正常对外服务,导致故障窗口中部分交易失败问题的技术问题。
可选地,执行单元包括:功能关闭模块,用于在确认数据库组件处于正常下宕状态或异常下宕状态的情况下,关闭主机子系统的中间件组件以停止主机子系统的中间件组件的服务功能,其中,正常下宕状态是基于数据库主机运维需求实施下宕指令导致的数据库组件下宕指示的状态,异常下宕状态是由于数据库组件异常导致的计划外下宕指示的状态;功能停止模块,用于停止主机子系统的金融交易功能,完成对主机子系统的数据库组件的故障隔离。
可选地,主机数据库的运维装置还包括:触发单元,用于在对主机子系统的数据库组件进行故障隔离之后,触发数据库组件的重启脚本,重启数据库组件,完成对主机子系统的数据库组件的故障自愈操作。
可选地,触发单元包括:设定在指定时长内重启数据库组件的总次数低于预设次数阈值。
可选地,主机数据库的运维装置还包括:消息写入单元,用于在控制数据库组件执行数据预热操作之后,根据系统日志的日志格式,在主机子系统中写入数据预热完成消息,其中,数据预热完成消息包括消息头、消息文本的数据库组件名称。
可选地,主机数据库的运维装置在监测主机子系统的系统日志时,包括:第一编制单元,用于编制关联所有主机子系统的系统日志的日志格式;日志写入单元,用于在监测到任一主机子系统的数据库组件的组件状态发生变化时,根据日志格式将该数据库组件的状态变化信息写入系统日志,其中,状态变化信息包括下述至少之一:启动状态、正常下宕状态、异常下宕状态。
可选地,主机数据库的运维装置还包括:第二编制单元,用于根据各主机子系统上部署的中间件组件以及数据库组件,编制组件映射表,其中,组件映射表中记录中间件组件与数据库组件之间的映射关系;第三编制单元,用于基于组件映射表,编制中间件组件的下宕脚本以及启动脚本,其中,中间件组件的下宕脚本用于关闭主机子系统的中间件组件,中间件组件的启动脚本用于在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件;第四编制单元,用于基于组件映射表,编制数据库组件的重启脚本、告警脚本,其中,数据库组件的重启脚本用于在确认数据库组件处于异常下宕状态后,重启数据库组件,数据库组件的告警脚本用于在确认数据库组件处于异常下宕状态后,发送告警信息。
可选地,启动单元包括:恢复模块,用于触发重启中间件脚本,解除故障隔离,对出现故障的数据库组件上的金融交易功能进行接管,恢复主机子系统的数据库组件的金融交易。
上述的主机数据库的运维装置还可以包括处理器和存储器,上述的执行单元31,控制单元32,启动单元33等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升主机数据库的运维效率。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在监测到主机子系统的系统日志存在目标消息时,对主机子系统的数据库组件进行故障隔离,其中,目标消息用于指示主机子系统的数据库组件处于下宕状态,下宕状态是指数据库组件在服务过程中出现停止服务的故障状态;在重启数据库组件后,控制数据库组件执行数据预热操作,其中,数据预热操作是指将主机磁盘中的数据表文件加载到数据库组件的缓存中;在监测到数据库组件完成数据预热后,启动主机子系统的中间件组件,并恢复主机子系统的金融交易功能。
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的主机数据库的运维方法。
本申请还提供了一种计算机程序产品,包括非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时实现本申请各个实施例中所述方法的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的主机数据库的运维方法。
图4是根据本发明实施例的一种用于主机数据库的运维方法的电子设备(或移动设备)的硬件结构框图。如图4所示,电子设备可以包括一个或多个(图4中采用402a、402b,……,402n来示出)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器404。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种主机数据库的运维方法,其特征在于,包括:
在监测到主机子系统的系统日志存在目标消息时,对所述主机子系统的数据库组件进行故障隔离,其中,所述目标消息用于指示所述主机子系统的数据库组件处于下宕状态,所述下宕状态是指所述数据库组件在服务过程中出现停止服务的故障状态;
在重启所述数据库组件后,控制所述数据库组件执行数据预热操作,其中,所述数据预热操作是指将主机磁盘中的数据表文件加载到所述数据库组件的缓存中;
在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件,并恢复所述主机子系统的金融交易功能。
2.根据权利要求1所述的运维方法,其特征在于,对所述主机子系统的数据库组件进行故障隔离的步骤,包括:
在确认所述数据库组件处于正常下宕状态或异常下宕状态的情况下,关闭所述主机子系统的中间件组件以停止所述主机子系统的中间件组件的服务功能,其中,所述正常下宕状态是基于数据库主机运维需求实施下宕指令导致的数据库组件下宕指示的状态,所述异常下宕状态是由于数据库组件异常导致的计划外下宕指示的状态;
停止所述主机子系统的金融交易功能,完成对所述主机子系统的数据库组件的故障隔离。
3.根据权利要求1所述的运维方法,其特征在于,在对所述主机子系统的数据库组件进行故障隔离之后,还包括:
触发所述数据库组件的重启脚本,重启所述数据库组件,完成对所述主机子系统的数据库组件的故障自愈操作。
4.根据权利要求3所述的运维方法,其特征在于,触发所述数据库组件的重启脚本,重启所述数据库组件的步骤,包括:
设定在指定时长内重启所述数据库组件的总次数低于预设次数阈值。
5.根据权利要求1所述的运维方法,其特征在于,在控制所述数据库组件执行数据预热操作之后,还包括:
根据所述系统日志的日志格式,在所述主机子系统中写入数据预热完成消息,其中,所述数据预热完成消息包括消息头、消息文本的数据库组件名称。
6.根据权利要求1所述的运维方法,其特征在于,在监测主机子系统的系统日志时,包括:
编制关联所有主机子系统的系统日志的日志格式;
在监测到任一所述主机子系统的数据库组件的组件状态发生变化时,根据所述日志格式将该数据库组件的状态变化信息写入所述系统日志,其中,所述状态变化信息包括下述至少之一:启动状态、正常下宕状态、异常下宕状态。
7.根据权利要求1所述的运维方法,其特征在于,还包括:
根据各所述主机子系统上部署的中间件组件以及数据库组件,编制组件映射表,其中,所述组件映射表中记录所述中间件组件与所述数据库组件之间的映射关系;
基于所述组件映射表,编制所述中间件组件的下宕脚本以及启动脚本,其中,所述中间件组件的下宕脚本用于关闭所述主机子系统的中间件组件,所述中间件组件的启动脚本用于在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件;
基于所述组件映射表,编制所述数据库组件的重启脚本、告警脚本,其中,所述数据库组件的重启脚本用于在确认数据库组件处于异常下宕状态后,重启所述数据库组件,所述数据库组件的告警脚本用于在确认数据库组件处于异常下宕状态后,发送告警信息。
8.根据权利要求1所述的运维方法,其特征在于,恢复所述主机子系统的金融交易功能的步骤,包括:
触发重启中间件脚本,解除故障隔离,对出现故障的数据库组件上的金融交易功能进行接管,恢复所述主机子系统的数据库组件的金融交易。
9.一种主机数据库的运维装置,其特征在于,包括:
执行单元,用于在监测到主机子系统的系统日志存在目标消息时,对所述主机子系统的数据库组件进行故障隔离,其中,所述目标消息用于指示所述主机子系统的数据库组件处于下宕状态,所述下宕状态是指所述数据库组件在服务过程中出现停止服务的故障状态;
控制单元,用于在重启所述数据库组件后,控制所述数据库组件执行数据预热操作,其中,所述数据预热操作是指将数据库主机的主机磁盘中的数据表文件加载到所述数据库组件的缓存中;
启动单元,用于在监测到所述数据库组件完成数据预热后,启动所述主机子系统的中间件组件,并恢复所述主机子系统的金融交易功能。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的主机数据库的运维方法。
11.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至8中任意一项所述的主机数据库的运维方法。
CN202410256431.8A 2024-03-06 2024-03-06 主机数据库的运维方法及装置、电子设备及存储介质 Pending CN118093267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410256431.8A CN118093267A (zh) 2024-03-06 2024-03-06 主机数据库的运维方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410256431.8A CN118093267A (zh) 2024-03-06 2024-03-06 主机数据库的运维方法及装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN118093267A true CN118093267A (zh) 2024-05-28

Family

ID=91147482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410256431.8A Pending CN118093267A (zh) 2024-03-06 2024-03-06 主机数据库的运维方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN118093267A (zh)

Similar Documents

Publication Publication Date Title
US12061891B1 (en) Cancel and rollback update stack requests
US20120180028A1 (en) Setting program, workflow creating method, and work flow creating apparatus
CN107800783B (zh) 远程监控服务器的方法及装置
CN113220540B (zh) 业务管理方法、装置、计算机设备和存储介质
CN117454856B (zh) 基于线上点对点模式的医疗诊断数据编辑方法和系统
CN112099825A (zh) 组件进行升级的方法、装置、设备及存储介质
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN111367725A (zh) 异步任务的在线监控方法、前端控制系统和业务响应平台
KR102194974B1 (ko) 프로세스 검증 기능이 구비된 전력 계통 감시 및 제어 시스템
CN118093267A (zh) 主机数据库的运维方法及装置、电子设备及存储介质
CN106708541A (zh) 版本升级处理方法及装置
CN114116330B (zh) 服务器性能测试方法、系统、终端及存储介质
CN113687867B (zh) 一种云平台集群的关机方法、系统、设备及存储介质
CN110059071B (zh) 基于存储过程的数据对比监控方法、系统、设备及介质
US20040064784A1 (en) Document management system, method and computer program
CN107506271A (zh) 一种测试方法及装置
CN113656358A (zh) 一种数据库日志文件处理方法及系统
CN115048244B (zh) 一种服务器的硬件修复方法、系统、计算机设备及介质
WO2018036318A1 (zh) 一种在操作系统启动阶段收集异常信息的方法及装置
CN116737396B (zh) 服务器可维护性配置方法、装置、电子设备和存储介质
CN112464088B (zh) 推荐请求响应方法、装置及推荐系统开发方法
CN114978891B (zh) 网络设备bios配置的处理方法、设备及存储介质
JP7540583B2 (ja) 運用管理装置、システム及び方法並びにプログラム
CN110647526B (zh) 批量数据处理方法、装置、计算机设备及存储介质
CN115686930A (zh) 一种数据库恢复方法、装置及电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination