CN117573428A - 容灾备份方法、装置、计算机设备和存储介质 - Google Patents

容灾备份方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117573428A
CN117573428A CN202311479974.8A CN202311479974A CN117573428A CN 117573428 A CN117573428 A CN 117573428A CN 202311479974 A CN202311479974 A CN 202311479974A CN 117573428 A CN117573428 A CN 117573428A
Authority
CN
China
Prior art keywords
event
node
information
disaster recovery
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311479974.8A
Other languages
English (en)
Other versions
CN117573428B (zh
Inventor
余剑
杨维敏
赵庆亚
马立珂
王子骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Dingjia Computer Technology Co ltd
Original Assignee
Anhui Dingjia Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Dingjia Computer Technology Co ltd filed Critical Anhui Dingjia Computer Technology Co ltd
Priority to CN202311479974.8A priority Critical patent/CN117573428B/zh
Publication of CN117573428A publication Critical patent/CN117573428A/zh
Application granted granted Critical
Publication of CN117573428B publication Critical patent/CN117573428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种容灾备份方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;分别对每个运行事件的事件信息进行特征提取,得到每个运行事件的特征信息;在基于特征信息确定多个运行事件中存在第一事件的情况下,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点;对目标节点进行容灾备份处理。采用本方法能够提高集群环境的数据安全性。

Description

容灾备份方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种容灾备份方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
现代企业大多采用集群环境支撑企业业务,为了保证企业的数据安全,往往需要对集群环境进行容灾备份。
在容灾备份领域,通常是如依赖闲时或定时策略对数据进行备份,然后在集群环境中的集群节点发生故障时,对该集群节点的数据进行恢复。
然而,在海量业务的集群环境下,各个集群节点对应的硬件设备或服务的运行状态会频繁发生变化,由于传统的容灾备份方法是在故障发生后进行的备份容灾,因此无法及时应对集群节点的频繁变化对数据安全造成的威胁,从而导致集群环境的数据安全性较低。
发明内容
基于此,有必要针对上述集群环境的数据安全性较低的技术问题,提供一种能够提高集群环境的数据安全性的容灾备份处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种容灾备份方法,包括:
获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
对所述目标节点进行容灾备份处理。
在其中一个实施例中,所述基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点,包括:
将所述第一事件和所述关联事件作为第三事件;
分别将所述各个集群节点中发生所述第三事件的各个节点确定为候选节点;
基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出所述待容灾备份的目标节点。
在其中一个实施例中,所述基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出所述待容灾备份的目标节点,包括:
基于每个候选节点在所述预设时间区间内发生的第三事件的事件信息,确定各个候选节点之间的依赖关系;
基于所述各个候选节点之间的依赖关系,确定所述各个候选节点中的中心节点,作为所述待容灾备份的目标节点。
在其中一个实施例中,所述基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出所述待容灾备份的目标节点,还包括:
针对每个候选节点,基于所述候选节点在所述预设时间区间内发生的运行事件的事件信息,确定所述候选节点在所述预设时间区间内的运行波动信息;所述运行波动信息用于表征所述候选节点在所述预设时间区间内的运行性能的变化情况;
在所述候选节点在所述预设时间区间内的运行波动信息不满足所述候选节点对应的运行波动正常条件的情况下,将所述候选节点确定为所述待容灾备份的目标节点。
在其中一个实施例中,所述从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件,包括:
基于所述第一事件的特征信息和各个第二事件的特征信息,确定所述第一事件与所述各个第二事件之间的关联性;
将所述各个第二事件中,对应的关联性满足预设事件关联条件的事件,确定为所述第一事件的关联事件。
在其中一个实施例中,所述每个运行事件的特征信息有多个,所述预设信息有多个;
所述第一事件通过以下方式确定:
针对每个运行事件,分别确定所述运行事件的每个特征信息与每个预设信息之间的相似性;
在任一个特征信息与任一个预设信息之间的相似性满足预设相似性条件的情况下,将所述运行事件确定为所述第一事件。
第二方面,本申请还提供了一种容灾备份装置,包括:
事件信息获取模块,用于获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
特征信息提取模块,用于分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
关联事件确定模块,用于在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
目标节点确定模块,用于基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
容灾备份处理模块,用于对所述目标节点进行容灾备份处理。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
对所述目标节点进行容灾备份处理。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
对所述目标节点进行容灾备份处理。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
对所述目标节点进行容灾备份处理。
上述容灾备份方法、装置、计算机设备、存储介质和计算机程序产品,首先获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;然后分别对每个运行事件的事件信息进行特征提取,得到每个运行事件的特征信息;接着在基于特征信息确定多个运行事件中存在第一事件的情况下,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件;第一事件为多个运行事件中特征信息与预设信息匹配的事件;然后基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点;最后对目标节点进行容灾备份处理。这样,通过对集群环境中的集群节点的运行事件的特征提取,能够得到运行事件的特征信息,并在运行事件中存在特征信息与预设信息匹配的第一事件的情况下,通过挖掘运行事件之间的关联,能够获取到第一事件的关联事件,然后基于第一事件和关联事件,能够从集群节点中,确定出待进行容灾备份的目标节点;基于上述过程的容灾备份方法,并非是在故障发生后针对发生故障的集群节点进行容灾备份,而是通过挖掘集群节点的运行事件之间的关联关系,从集群节点中确定出待容灾备份的目标节点,并通过对目标节点的容灾备份预防故障的发生,因此能够及时应对集群节点的频繁变化对数据安全造成的威胁,从而提高了集群环境的数据安全性。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中容灾备份方法的流程示意图;
图2为一个实施例中基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点的步骤的流程示意图;
图3为一个实施例中基于每个候选节点在预设时间区间内发生的运行事件,从多个候选节点中,确定出待容灾备份的目标节点的步骤的流程示意图;
图4为另一个实施例中基于每个候选节点在预设时间区间内发生的运行事件,从多个候选节点中,确定出待容灾备份的目标节点的步骤的流程示意图;
图5为另一个实施例中容灾备份方法的流程示意图;
图6为一个实施例中集群环境下增强型简单网络协议的数据备份容灾告警方法的流程示意图;
图7为一个实施例中容灾备份方法装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一示例性实施例中,如图1所示,提供了一种容灾备份方法,本实施例以该方法应用于容灾备份系统,容灾备份系统可以搭载在服务器上,也可以搭载在终端上。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。本实施例中,该方法包括以下步骤:
步骤S102,获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息。
其中,每个集群节点对应至少一个运行事件。
其中,集群环境为用于支撑企业业务的集群架构,集群节点用于表征集群环境中的设备(例如服务器、终端)、服务、数据库等。
其中,预设时间区间为过去的一段时间,例如过去一小时。
其中,集群节点的运行事件是指集群节点的执行的动作、任务,例如设备之间的数据传输、数据库的版本更新、服务的版本更新、设备的数据存储、节点的性能测试事件、节点的诊断事件等。
其中,运行事件的事件信息为运行事件的事件日志,例如设备数据传输的传输日志、数据库版本更新的更新日志、服务版本更新的更新日志、设备将数据存储在数据库的存储日志等。
具体地,容灾备份系统监测集群环境中的各个集群节点,并实时获取各个集群节点的发生的每个运行事件的事件信息,然后每隔一段时间,便对各个集群节点在该时间内的多个运行事件的事件信息进行分析。
进一步地,由于各个集群节点的类型不同,因此各个集群节点所产生的数据(事件信息)的类型也不同,有的集群节点的事件信息是结构化数据,有的是非结构化数据,有的是半结构化数据;因此,为了便于容灾备份系统后续的分析与处理,还可以将各个集群节点的事件信息进行预处理,预处理至少包括数据清洗和数据格式统一中的一个。
数据清洗是指去除事件信息中的标点、语气词和格式化等无效信息,以保证事件信息的质量和可用。
数据格式化统一是指将各种各样格式的事件信息统一为相同的目标格式,目标格式只要为容灾备份系统可以识别、处理的数据格式即可。
步骤S104,分别对每个运行事件的事件信息进行特征提取,得到每个运行事件的特征信息。
其中,特征信息可以是运行事件的事件信息中的关键词,也可以是运行事件的事件信息的特征向量。特征信息可以由容灾备份系统根据集群节点出现故障时的历史运行事件确定得到,例如在一个事件信息中频繁出现的词汇,或是能够反映运行事件的重要信息,例如运行时间、运行事件类型、发生运行事件的集群节点的节点标识、运行结果等;特征信息也可以由使用容灾备份系统的用户自定义设置得到,
具体地,针对每个运行事件,备份容灾系统该运行事件的事件信息进行关键词提取,提取出该事件信息中的关键词,作为该运行事件的特征信息,例如,针对数据库的版本更新,从更新日志中,提取出数据库标识、更新前版本号、更新后版本号以及更新结果等关键信息,作为数据库的版本更新这一运行事件的特征信息。
或者是,备份容灾系统将关键词提取出来的各个关键词,通过词嵌入模型,例如Word2Vec(Word to Vector,将单词转换成向量形式的模型)或BER(BidirectionalEncoder Representations from Transformers,用于语言理解的深度双向编码器),将提取出来的关键词映射为用向量形式表示的特征向量,作为该运行事件的特征信息。
步骤S106,在基于特征信息确定多个运行事件中存在第一事件的情况下,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件。
其中,第一事件为多个运行事件中特征信息与预设信息匹配的事件,即第一事件的特征信息命中了预设信息,例如与预设信息相同或相似。
其中,预设信息为预设的、用于表征集群节点的运行异常的信息,例如数据库版本更新失败、设备数据传输失败、数据传输异常等。需要说明的是,集群节点运行异常并不代表集群节点一定出现了故障,也可能是反映了集群节点可能会出现故障。
需要说明的是,在多个运行事件中存在第一事件的情况下,备份系统可以确认集群环境的数据安全受到威胁,值得注意的是,数据安全受到威胁并不代表集群环境真实地发生了故障,而是表征集群环境在集群节点频繁变化下有可能即将发生故障,或是表征集群环境正在受到外界攻击,且即将发生故障。
其中,第一事件的关联事件,可以是与第一事件发生于同一集群节点的事件、与第一事件存在时序关系的事件(例如第一事件的前序事件或后序事件)、与第一事件属于相同任务的事件等。
具体地,针对多个运行事件中的任意一个运行事件,备份容灾系统对该运行事件的特征信息与预设信息进行匹配,例如计算该运行事件的特征信息与预设信息之间的相似性或关联性,在该运行事件的特征信息与预设信息高度相似或高度关联的情况下,确定该运行事件为第一事件,然后,备份容灾系统基于该第一事件的特征信息,在各个第二事件中,检索出与第一事件关联的关联事件。
进一步地,若运行事件的特征信息为一个,预设信息为多个,那么需要对一个特征信息与各个预设信息进行匹配,在特征信息与任意一个预设信息匹配的情况下,即可将运行事件确定为第一事件;若运行事件的特征信息为多个,预设信息为多个,那么需要分别对各个特征信息与各个预设信息进行匹配,并在任意一个特征信息与任意一个预设信息匹配的情况下,即可将运行事件确定为第一事件。
其中,在基于第一事件的特征信息,在各个第二事件中,检索出与第一事件关联的关联事件时,容灾备份系统可以将第一事件的特征信息作为检索条件,例如与预设信息匹配成功的特征信息,也可以将与第一事件的特征信息匹配的预设信息的预设关联信息作为检索条件。能够理解的是,与特征信息类似,预设关联信息可以由容灾备份系统根据集群节点出现故障时的历史运行事件确定得到,也可以由使用容灾备份系统的用户自定义设置得到。还能理解的是,针对第二事件的检索,可以是单条件检索,也可以是复合条件检索。
举例说明,针对多个运行事件中的任意一个运行事件,备份容灾系统在该运行事件的特征信息中包括预设信息或者与预设信息很相似,例如预设信息为“升级失败”,特征信息为“版本更新失败”或“版本升级失败”的情况下,根据该运行事件的特征信息,和其余运行事件的特征信息,在其余运行事件中,确定出与该运行事件发生于同一集群节点的事件、该运行事件的前序事件、该运行事件的后序事件和或与该运行事件属于相同任务的事件,作为该运行事件的关联事件。
步骤S108,基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点。
其中,目标节点为造成此次数据安全威胁的集群节点,或是受到此次数据安全威胁的影响的集群节点,例如,由于频繁变化导致此次数据安全威胁发生的集群节点,或者正在受到外界攻击导致此次数据安全威胁发生的集群节点。
能够理解的是,由于发生第一事件的集群节点可能是导致此次数据安全威胁发生的集群节点,也可能是由于此次数据安全威胁受到波及的集群节点,因此,目标节点可以是发生第一事件的集群节点,也可以是其他的集群节点。
具体地,容灾备份系统基于第一事件的特征信息和关联事件的特征信息,从各个集群节点中,确定出主要导致此次数据安全威胁发生的集群节点和或受到此次数据安全威胁的影响的集群节点,并将该节点作为待容灾备份的目标节点。
举例说明,假设针对集群节点A上的数据库更新失败这一第一事件,基于该第一时间和对应的关联事件,容灾备份系统确定该第一事件是由于集群节点A受到了外界攻击导致的,那么容灾备份系统将集群节点A确定为目标节点;再假设容灾备份系统确定该第一事件是由集群节点B的频繁变化导致的,即集群节点A上的数据库更新失败这一第一事件是受到了集群节点B的影响导致的,那么容灾备份系统将集群节点B确定为目标节点。
此外,若集群节点A受到的影响较严重,容灾备份系统也可以将集群节点A确定为目标节点。
步骤S110,对目标节点进行容灾备份处理。
具体地,容灾备份系统在确定出目标节点之后,基于目标节点在预设时间区间内的运行事件,确定目标节点的运行状态,并基于目标节点的运行状态对目标节点采取针对性的容灾备份处理,例如目标节点的数据库正在被攻击,容灾备份系统立即对该数据库进行快照,并进行备份工作;再例如目标节点的数据库的性能出现了故障,导致整个集群的性能下降,容灾备份系统立即对该数据库进行数据恢复,以恢复该数据库的正常运行;又例如将目标节点的节点标识和运行状态打包为告警信息,发送给集群环境的管理人员,以便于管理人员掌握集群环境的运行情况。
进一步地,容灾备份系统基于目标节点在预设时间区间内发生的运行事件,确定目标节点的运行状态,并基于目标节点的运行状态对目标节点采取针对性的容灾备份处理的具体过程,还可以如下:容灾备份系统将目标节点在预设时间区间内的运行事件输入预先训练完成的集群节点运行状态预测模型中,集群节点运行状态预测模型基于目标节点在预设时间区间内的运行事件,在样本节点中确定与目标节点最相似的节点,例如与目标节点在预设时间区间内的性能最相似的样本节点,或是发生的事件与目标节点在预设时间区间内发生的运行事件最相似的样本节点,并将与目标节点最相似的节点对应的运行状态,确定为目标节点的运行状态。
其中,预先训练完成的集群节点运行状态预测模型为以不同时间段内的多个样本节点发生的运行事件为输入信息,以各个样本各自对应的运行状态为监督信息,基于神经网络或机器学习训练得到的模型;集群节点运行状态预测模型的训练过程如下:容灾备份系统将不同时间段内的多个样本节点发生的运行事件输入待训练的集群节点运行状态预测模型中,通过待训练的集群节点运行状态预测模型对每个样本节点的运行状态进行预测,得到每个样本节点各自对应的预测运行状态;然后,容灾备份系统通过待训练的集群节点运行状态预测模型的损失函数和每个样本节点对应的预测运行状态和对应的运行状态,计算待训练的集群节点运行状态预测模型的损失值,并在损失大于或者等于预设损失阈值的情况下,更新待训练的集群节点运行状态预测模型的参数,并基于多个样本节点发生的运行事件和对应的运行状态再次对待训练的集群节点运行状态预测模型进行训练,直到对应的损失值小于预设损失阈值,得到训练完成的集群节点运行状态预测模型。
能够理解的是,上述容灾备份方法与监测到故障后进行的容灾备份方法并不冲突,即若容灾备份系统明确监测到某个集群节点出现故障,也会立即对出现故障的集群节点进行容灾备份。
上述容灾备份方法中,容灾备份系统首先获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;然后分别对每个运行事件的事件信息进行特征提取,得到每个运行事件的特征信息;接着在基于特征信息确定多个运行事件中存在第一事件的情况下,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件;第一事件为多个运行事件中特征信息与预设信息匹配的事件;然后基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点;最后对目标节点进行容灾备份处理。这样,通过对集群环境中的集群节点的运行事件的特征提取,容灾备份系统能够得到运行事件的特征信息,并在运行事件中存在特征信息与预设信息匹配的第一事件的情况下,通过挖掘运行事件之间的关联,能够获取到第一事件的关联事件,然后基于第一事件和关联事件,能够从集群节点中,确定出待进行容灾备份的目标节点;基于上述过程的容灾备份方法,并非是在故障发生后针对发生故障的集群节点进行容灾备份,而是通过挖掘集群节点的运行事件之间的关联关系,从集群节点中确定出待容灾备份的目标节点,并通过对目标节点的容灾备份预防故障的发生,因此能够及时应对集群节点的频繁变化对数据安全造成的威胁,从而提高了集群环境的数据安全性。
如图2所示,在一示例性实施例中,上述步骤S108,基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点,具体包括以下步骤:
步骤S202,将第一事件和关联事件作为第三事件。
步骤S204,分别将各个集群节点中发生第三事件的各个节点确定为候选节点。
步骤S206,基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出待容灾备份的目标节点。
其中,第三事件为集群节点中发生第一事件和或关联事件的节点。
其中,容灾备份系统在确定出第一事件和第一事件的关联事件之后,将第一事件和对应的关联事件作为第三事件;然后,容灾备份系统在各个集群节点中,确定发生第一事件和或关联事件的各个集群节点,并将其确定为候选节点;接着,容灾备份系统基于各个候选节点在预设事件区间内发生的运行事件,从各个候选节点中,确定出主要导致此次数据安全威胁的节点,即待容灾备份的目标节点。
本实施例中,容灾备份系统通过第一事件和对应的关联事件,首先在各个集群节点中确定候选节点,然后再在候选节点中确定目标节点,通过对节点的两次筛选,能够逐渐缩小目标节点的确定范围,减少确定目标节点过程中的数据处理量。
如图3所示,在一示例性实施例中,上述步骤S206,基于每个候选节点在预设时间区间内发生的运行事件,从多个候选节点中,确定出待容灾备份的目标节点,具体包括以下步骤:
步骤S302,基于每个候选节点在预设时间区间内发生的第三事件的事件信息,确定各个候选节点之间的依赖关系。
步骤S304,基于各个候选节点之间的依赖关系,确定各个候选节点中的中心节点,作为待容灾备份的目标节点。
其中,事件信息携带事件发生的时间戳以及事件发生的触发条件(例如在接收到特定指令的情况下触发,例如在监测到特定信息的情况下触发)。
其中,各个候选节点之间的依赖关系用于表征各个候选节点之间的前序关系或后序关系,例如,候选节点2需要在候选节点1完成事件A的情况下才会触发B,那么候选节点2即为候选节点1的后序节点,可视为候选节点2依赖于候选节点1;再例如,候选节点2发生的第三事件均为在候选节点1发生的第三事件均完成的情况下才发生的,那么候选节点2即为候选节点1的后序节点,可视为候选节点2依赖于候选节点1。
能够理解的是,依赖关系可传递,即后序节点的后序节点仍为后序节点,例如,候选节点2为候选节点1的后序节点,候选节点3为候选节点2的后序节点,那么候选节点3也为候选节点1的后序节点。
其中,中心节点为各个候选节点中,对应的后序节点数量大于各个候选节点中的其余节点对应的后序节点数量的节点。
具体地,容灾备份系统基于每个候选节点在预设时间区间内发生的第三事件的事件信息,确定各个第三事件发生的时间以及各个第三事件发生的触发条件,然后基于各个第三事件发生的时间以及各个第三事件发生的触发条件,进一步确定各个候选节点之间的依赖关系;接着,容灾备份系统根据各个候选节点之间的依赖关系,在各个候选节点中确定出各个候选节点的中心节点,由于该中心节点为各个候选节点中,对应的后序节点数量最大的节点,因此可以认为此次数据安全威胁的发生,主要是由于中心节点导致的,进而将该中心节点确定为主要导致此次数据安全威胁的节点,即待容灾备份的目标节点。
举例说明,假设在各个候选节点的依赖关系中,节点2依赖于节点1,节点3依赖于节点2,节点4依赖于节点1,那么容灾备份系统可将节点1确定为中心节点,即目标节点。
本实施例中,容灾备份系统通过候选节点发生的第三事件的事件信息,能够确定各个候选节点之间的依赖关系,进而能够在各个候选节点中确定出中心节点;由于中心节点对应的后序节点数量最大,因此可以认为此次数据安全威胁的发生,主要是由于中心节点导致的,由此确定出了待容灾备份的目标节点,基于上述过程的容灾备份方法,并非是在故障发生后针对发生故障的集群节点进行容灾备份,而是通过挖掘集群节点的运行事件之间的关联关系,从集群节点中确定出待容灾备份的目标节点,并在后续通过对目标节点的容灾备份预防故障的发生,因此能够及时应对集群节点的频繁变化对数据安全造成的威胁,从而提高了集群环境的数据安全性。
如图4所示,在一示例性实施例中,上述步骤S206,基于每个候选节点在预设时间区间内发生的运行事件,从多个候选节点中,确定出待容灾备份的目标节点,具体还包括以下步骤:
步骤S402,针对每个候选节点,基于候选节点在预设时间区间内发生的运行事件的事件信息,确定候选节点在预设时间区间内的运行波动信息。
步骤S404,在候选节点在预设时间区间内的运行波动信息不满足候选节点对应的运行波动正常条件的情况下,将候选节点确定为待容灾备份的目标节点。
其中,运行波动信息用于表征候选节点在预设时间区间内的运行性能的变化情况,例如运行性能的指标值浮动幅值、运行性能的平均指标值、运行性能的指标值分布情况等。
其中,预设运行波动正常条件,基于候选节点历史正常运行下的运行波动信息确定得到,例如候选节点在历史正常运行下,运行性能的指标值浮动区间、运行性能的平均指标值区间、运行性能的指标值参考分布等。
具体地,容灾备份系统针对每个候选节点,基于该候选节点在预设时间区间内发生的所有运行事件的事件信息,确定该候选节点在预设时间区间内的运行性能变化情况,即运行波动信息;然后,容灾备份系统在每个集群节点对应的预设运行波动正常条件中,确定出候选节点对应的预设运行波动正常条件,并判断候选节点在预设时间区间内的运行波动信息是否满足对应的运行波动正常条件,若满足,则说明该候选节点运行正常,若不满足,则说明该候选节点运行异常,由于运行异常的候选节点的运行波动较大,因此容灾备份系统可以确定该候选节点为导致此次数据安全威胁的集群节点,因此将候选节点确定为待容灾备份的目标节点。
举例说明,针对集群环境中的服务A,假设服务A在正常运行的情况下,对请求的平均响应时长为1s,且响应时长浮动幅值为±0.05s;若服务A在预设时间区间内的平均响应时长远远大于1s,或是响应时长浮动幅值大于±0.05s,那么容灾备份系统可以认为服务A在预设时间区间内的运行波动较大,不满足对应的预设运行波动正常条件,进而可以确定服务A对应的集群节点运行异常,因此容灾备份系统将服务A对应的集群节点确定为目标节点。
能够理解的是,在此次数据安全威胁中受到严重波及的集群节点的运行波动可能也会较大,因此在本实施例中,还能够针对受到严重波及的集群节点进行对应的容灾备份处理。
本实施例中,容灾备份系统通过候选节点在预设时间区间内发生的所有运行事件的事件信息,能够确定各个候选节点在预设时间区间内的运行波动情况,然后通过候选节点在预设时间区间内的运行波动情况和对应的运行波动正常条件的对比,能够确定候选节点的运行波动是否较大,若较大,则说明该候选节点为导致此次数据安全威胁的集群节点,或者是该候选节点为在此次数据安全威胁中受到严重波及的集群节点,由此确定出了待容灾备份的目标节点。基于上述过程的容灾备份方法,并非是在故障发生后针对发生故障的集群节点进行容灾备份,而是通过挖掘集群节点的运行事件之间的关联关系,从集群节点中确定出待容灾备份的目标节点,并在后续通过对目标节点的容灾备份预防故障的发生,因此能够及时应对集群节点的频繁变化对数据安全造成的威胁,从而提高了集群环境的数据安全性。
在一示例性实施例中,上述步骤S106中,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件,具体包括以下内容:基于第一事件的特征信息和各个第二事件的特征信息,确定第一事件与各个第二事件之间的关联性;将各个第二事件中,对应的关联性满足预设事件关联条件的事件,确定为第一事件的关联事件。
其中,预设事件关联条件为关联性阈值。
其中,每个运行事件的特征信息的有多个。
具体地,备份容灾系统基于第一事件的各个特征信息和各个第二事件的各个特征信息,确定第一事件与每个第二事件之间的关联性,并基于第一事件与每个第二事件之间的关联性,从各个第二事件中,检索出对应的关联性大于或者等于关联性阈值的事件,确定为第一事件的关联事件。
举例说明,容灾备份系统首先可以确定第一事件的每个特征信息的查询向量、键向量和值向量,以及确定各个第二事件的每个特征信息的查询向量、键向量和值向量,然后采用注意力机制,基于第一事件的每个特征信息的查询向量、键向量和值向量和各个第二事件的每个特征信息的查询向量、键向量和值向量,计算第一事件和各个第二事件之间的关联性,然后按照对应的关联性从大到小的顺序,对各个第二事件进行排序,并将对应的关联性大于或者等于关联性阈值的第二事件筛选出来,作为第一事件的关联事件,从而实现从各个第二事件中检索出第一事件的关联事件。
本实施例中,容灾备份系统通过第一事件的特征信息和各个第二事件的特征信息,能够确定第一事件与各个第二事件之间的关联性,并基于关联性能够从各个第二事件中检索出第一事件的关联事件;通过上述过程,容灾备份系统能够充分挖掘各个事件之间的关联信息,从而能够在故障发生之前,基于集群环境的局部运行情况,预测集群环境的整体运行情况,并主动应对集群环境中的数据安全威胁,从而提高了集群环境的数据安全性。
在一示例性实施例中,每个运行事件的特征信息有多个,预设信息有多个。
在上述步骤S106,多个运行事件中的第一事件的特征信息与预设信息匹配的情况下,从多个运行事件中的第二事件中,确定出第一事件的关联事件之前,还包括确定第一事件的内容,第一事件通过以下方式确定:针对每个运行事件,分别确定运行事件的每个特征信息与每个预设信息之间的相似性;在任一个特征信息与任一个预设信息之间的相似性满足预设相似性条件的情况下,确定任一个特征信息与任一个预设信息匹配;在任一个特征信息与任一个预设信息匹配的情况下,将运行事件确定为第一事件。
其中,预设相似性条件为相似性阈值。
具体地,针对每个运行事件,容灾备份系统针对该运行事件的每个特征信息,分别确定该特征信息与各个预设信息之间的相似性,并在特征信息与任意一个预设信息之间的相似性大于或者等于相似性阈值的情况下,确定该特征信息命中该预设信息,并确定该运行事件为第一事件。
需要说明的是,容灾备份系统确定特征信息与预设信息之间的相似性的过程,可以参考确定第一事件与每个第二事件之间的关联性的过程,本申请在此不再赘述。
本实施例中,容灾备份系统通过运行事件的每个特征信息与各个预设信息之间的相似性,能够确定运行事件是否为第一事件,进而确定集群环境中是否存在异常事件,从而能够在故障发生之前,基于集群环境的局部运行情况,预测集群环境的整体运行情况,并主动应对集群环境中的数据安全威胁,从而提高了集群环境的数据安全性
在一示例性实施例中,如图5所示,提供了另一种容灾备份方法,以该方法应用于容灾备份系统为例进行说明,包括以下步骤:
步骤S501,获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息。
步骤S502,分别对每个运行事件的事件信息进行特征提取,得到每个运行事件的特征信息。
步骤S503,在基于特征信息确定多个运行事件中存在第一事件的情况下,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件。
步骤S504,将第一事件和关联事件作为第三事件。
步骤S505,分别将各个集群节点中发生第三事件的各个节点确定为候选节点。
步骤S506,基于每个候选节点在预设时间区间内发生的第三事件的事件信息,确定各个候选节点之间的依赖关系。
步骤S507,基于各个候选节点之间的依赖关系,确定各个候选节点中的中心节点,作为待容灾备份的目标节点。
上述步骤S506、S507还可以通过下述步骤S508、S509实现:
步骤S508,针对每个候选节点,基于候选节点在预设时间区间内发生的运行事件的事件信息,确定候选节点在预设时间区间内的运行波动信息。
步骤S509,在候选节点在预设时间区间内的运行波动信息不满足候选节点对应的运行波动正常条件的情况下,将候选节点确定为待容灾备份的目标节点。
步骤S510,对目标节点进行容灾备份处理。
本实施例中,首先,容灾备份系统通过候选节点发生的第三事件的事件信息,能够确定各个候选节点之间的依赖关系,进而能够在各个候选节点中确定出中心节点;由于中心节点对应的后序节点数量最大,因此可以认为此次数据安全威胁的发生,主要是由于中心节点导致的,由此确定出了待容灾备份的目标节点。其次,容灾备份系统通过候选节点在预设时间区间内发生的所有运行事件的事件信息,能够确定各个候选节点在预设时间区间内的运行波动情况,然后通过候选节点在预设时间区间内的运行波动情况和对应的运行波动正常条件的对比,能够确定候选节点的运行波动是否较大,若较大,则说明该候选节点为导致此次数据安全威胁的集群节点,或者是该候选节点为在此次数据安全威胁中受到严重波及的集群节点,由此确定出了待容灾备份的目标节点。基于上述过程的容灾备份方法,容灾备份系统能够充分挖掘各个事件之间的关联信息,并在故障发生之前,基于集群环境的局部运行情况,预测集群环境的整体运行情况,并主动应对集群环境中的数据安全威胁;上述方法并非是在故障发生后针对发生故障的集群节点进行容灾备份,而是通过挖掘集群节点的运行事件之间的关联关系,从集群节点中确定出待容灾备份的目标节点,并通过对目标节点的容灾备份预防故障的发生,因此能够及时应对集群节点的频繁变化对数据安全造成的威胁,从而提高了集群环境的数据安全性。
为了更清晰阐明本申请实施例提供的容灾备份方法,以下以一个具体的实施例对该容灾备份方法进行具体说明,但应当理解的是,本申请实施例并不限于此。如图6所示,在一示例性实施例中,本申请还提供了一种集群环境下增强型简单网络协议的数据备份容灾告警方法,具体包括以下步骤:
1、源数据采集。
在集群环境中,各种基础设备和服务不断生成各种数据,如操作系统日志、性能指标、诊断信息等,这些数据以各种格式和结构存储,包括了结构化、半结构化和非结构化数据。容灾备份系统通过监测集群环境,采集各种基础设备和服务生成的源数据。其中,源数据可以是性能指标(如中央处理器的使用率、内存利用率、网络流量)、日志(包括系统日志和应用程序日志)、事件(如报警、故障事件)等。
其中,集群环境中的基础设备包括但不限于服务器、传感器、路由器、个人计算机、移动设备、物联网设备或托管设备。
2、数据预处理。
由于步骤1中采集到的数据格式多种多样,因此为了确保数据得到正确辨识和处理,容灾备份系统将步骤1采集得到的数据转换为一致的格式。
3、字段提取。
容灾备份系统针对步骤2预处理后的数据,采用自学习字段提取器对数据进行字段提取,得到每条数据的关键词。
具体地,字段提取可以采用词嵌入模型。
4、搜索和查询。
容灾备份系统在步骤3中提取出特定字段的情况下,触发对数据的搜索和查询:容灾备份系统根据提取出的特定字段,在数据中查找相关事件。
具体地,搜索和查询可以采用ESIM(Enhanced LSTM for Natural LanguageInference,增强的顺序推理模型)深度学习模型。
5、事件分析。
容灾备份系统基于查找出来的相关事件,对设备之间的相关性进行分析,并局部推理各个设备的运行情况,然后将各个设备的局部运行情况进行结合,已形成集群环境的全局信息,推断出集群环境的整体情况。
6、容灾备份。
在步骤5的事件分析的基础上,通过对全局信息的分析,提供性能优化建议,例如资源分配的优化、负载均衡策略的改进等,以提高集群的效率和可靠性,以改善集群设备/服务的管理和性能,从而降低故障风险。例如,在一个场景中,在集群数据中,如果某个分片数据库的性能出现了问题,可能会导致整个集群的性能下降,从而影响到其他设备的正常运行,为了保证数据的可靠性和稳定性,容灾备份系统会自动进行对数据库进行恢复操作,以恢复数据库的正常运行。再例如,在一个场景中,当容灾备份系统监测到集群环境可能被攻击的情况下,容灾备份系统会立即对可能被攻击的节点进行快照并进行备份工作,以保护企业的数据不被攻击。
本实施例中,第一,容灾备份系统通过进行统一的格式化处理,能够应对多样的数据格式和来源,确保数据一致性,从而提高数据的可分析性和可用性。第二,容灾备份系统中的自学习字段提取器可以根据用户需求手动或自动配置,允许用户自定义提取技术和方式,以满足特定的分析需求,从而实现灵活的字段提取。第三,容灾备份系统支持前向、后向和区间分析等多种分析方式,能够更加灵活地应对硬件或软件平台的故障、特定事件以及一段时间内的关联事件,从而增强了数据分析和保护的能力。第四,容灾备份系统通过分析历史数据和监测事件,能够提供合理的处理方式,进行备份、恢复或发出预警,从而支持智能决策,提高了集群设备和服务的管理和性能。第五,容灾备份系统有适应性,能够应对硬件或服务的变化,保持数据的连续性,同时,容灾备份系统采取主动保护策略,不仅仅依赖于被动的手工或定时操作,从而提高了数据安全性和业务连续性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的容灾备份方法的容灾备份装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个容灾备份装置实施例中的具体限定可以参见上文中对于容灾备份方法的限定,在此不再赘述。
在一个示例性的实施例中,如图7所示,提供了一种容灾备份装置,包括:事件信息获取模块702、特征信息提取模块704、关联事件确定模块706、目标节点确定模块708和容灾备份处理模块710,其中:
事件信息获取模块702,用于获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件。
特征信息提取模块704,用于分别对每个运行事件的事件信息进行特征提取,得到每个运行事件的特征信息。
关联事件确定模块706,用于在基于特征信息确定多个运行事件中存在第一事件的情况下,从多个运行事件中除第一事件以外的第二事件中,确定出第一事件的关联事件;第一事件为多个运行事件中特征信息与预设信息匹配的事件。
目标节点确定模块708,用于基于第一事件和关联事件,从各个集群节点中确定出待容灾备份的目标节点。
容灾备份处理模块710,用于对目标节点进行容灾备份处理。
在一示例性实施例中,目标节点确定模块708,还用于将第一事件和关联事件作为第三事件;分别将各个集群节点中发生第三事件的各个节点确定为候选节点;基于每个候选节点在预设时间区间内发生的运行事件,从多个候选节点中,确定出待容灾备份的目标节点。
在一示例性实施例中,目标节点确定模块708,还用于基于每个候选节点在预设时间区间内发生的第三事件的事件信息,确定各个候选节点之间的依赖关系;基于各个候选节点之间的依赖关系,确定各个候选节点中的中心节点,作为待容灾备份的目标节点。
在一示例性实施例中,目标节点确定模块708,还用于针对每个候选节点,基于候选节点在预设时间区间内发生的运行事件的事件信息,确定候选节点在预设时间区间内的运行波动信息;运行波动信息用于表征候选节点在预设时间区间内的运行性能的变化情况;在候选节点在预设时间区间内的运行波动信息不满足候选节点对应的运行波动正常条件的情况下,将候选节点确定为待容灾备份的目标节点。
在一示例性实施例中,关联事件确定模块706,还用于基于第一事件的特征信息和各个第二事件的特征信息,确定第一事件与各个第二事件之间的关联性;将各个第二事件中,对应的关联性满足预设事件关联条件的事件,确定为第一事件的关联事件。
在一示例性实施例中,容灾备份装置还包括第一事件确定模块,用于针对每个运行事件,分别确定运行事件的每个特征信息与每个预设信息之间的相似性;在任一个特征信息与任一个预设信息之间的相似性满足预设相似性条件的情况下,将运行事件确定为第一事件。
上述容灾备份装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储集群数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种容灾备份方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个示例性的实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种容灾备份方法,其特征在于,所述方法包括:
获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
对所述目标节点进行容灾备份处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点,包括:
将所述第一事件和所述关联事件作为第三事件;
分别将所述各个集群节点中发生所述第三事件的各个节点确定为候选节点;
基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出所述待容灾备份的目标节点。
3.根据权利要求2所述的方法,其特征在于,所述基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出所述待容灾备份的目标节点,包括:
基于每个候选节点在所述预设时间区间内发生的第三事件的事件信息,确定各个候选节点之间的依赖关系;
基于所述各个候选节点之间的依赖关系,确定所述各个候选节点中的中心节点,作为所述待容灾备份的目标节点。
4.根据权利要求2所述的方法,其特征在于,所述基于每个候选节点在所述预设时间区间内发生的运行事件,从多个候选节点中,确定出所述待容灾备份的目标节点,还包括:
针对每个候选节点,基于所述候选节点在所述预设时间区间内发生的运行事件的事件信息,确定所述候选节点在所述预设时间区间内的运行波动信息;所述运行波动信息用于表征所述候选节点在所述预设时间区间内的运行性能的变化情况;
在所述候选节点在所述预设时间区间内的运行波动信息不满足所述候选节点对应的运行波动正常条件的情况下,将所述候选节点确定为所述待容灾备份的目标节点。
5.根据权利要求1所述的方法,其特征在于,所述从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件,包括:
基于所述第一事件的特征信息和各个第二事件的特征信息,确定所述第一事件与所述各个第二事件之间的关联性;
将所述各个第二事件中,对应的关联性满足预设事件关联条件的事件,确定为所述第一事件的关联事件。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述每个运行事件的特征信息有多个,所述预设信息有多个;
所述第一事件通过以下方式确定:
针对每个运行事件,分别确定所述运行事件的每个特征信息与每个预设信息之间的相似性;
在任一个特征信息与任一个预设信息之间的相似性满足预设相似性条件的情况下,将所述运行事件确定为所述第一事件。
7.一种容灾备份装置,其特征在于,所述装置包括:
事件信息获取模块,用于获取集群环境中的各个集群节点在预设时间区间内发生的多个运行事件的事件信息;每个集群节点对应至少一个运行事件;
特征信息提取模块,用于分别对每个运行事件的事件信息进行特征提取,得到所述每个运行事件的特征信息;
关联事件确定模块,用于在基于所述特征信息确定所述多个运行事件中存在第一事件的情况下,从所述多个运行事件中除所述第一事件以外的第二事件中,确定出所述第一事件的关联事件;所述第一事件为所述多个运行事件中特征信息与预设信息匹配的事件;
目标节点确定模块,用于基于所述第一事件和所述关联事件,从所述各个集群节点中确定出待容灾备份的目标节点;
容灾备份处理模块,用于对所述目标节点进行容灾备份处理。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311479974.8A 2023-11-08 2023-11-08 容灾备份方法、装置、计算机设备和存储介质 Active CN117573428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311479974.8A CN117573428B (zh) 2023-11-08 2023-11-08 容灾备份方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311479974.8A CN117573428B (zh) 2023-11-08 2023-11-08 容灾备份方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN117573428A true CN117573428A (zh) 2024-02-20
CN117573428B CN117573428B (zh) 2024-05-07

Family

ID=89889138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311479974.8A Active CN117573428B (zh) 2023-11-08 2023-11-08 容灾备份方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117573428B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089572A1 (en) * 2010-10-06 2012-04-12 International Business Machines Corporation Automated and self-adjusting data protection driven by business and data activity events
CN111143103A (zh) * 2019-12-26 2020-05-12 北京浪潮数据技术有限公司 一种关联关系确定方法、装置、设备及可读存储介质
CN111338836A (zh) * 2020-02-24 2020-06-26 北京奇艺世纪科技有限公司 处理故障数据的方法、装置、计算机设备和存储介质
CN113792154A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 故障关联关系的确定方法、装置、电子设备及存储介质
CN114116322A (zh) * 2022-01-27 2022-03-01 深圳市科力锐科技有限公司 数据恢复方法、装置、设备及存储介质
CN115176273A (zh) * 2020-08-07 2022-10-11 索尼集团公司 Maas平台上基于用户界面的移动性事务管理
US20220391296A1 (en) * 2021-06-03 2022-12-08 International Business Machines Corporation Exchanging extended attributes between different cluster sites in a clustered filesystem environment
CN117009406A (zh) * 2022-10-24 2023-11-07 腾讯云计算(长沙)有限责任公司 基于时序点过程的多标签事件预测方法及相关设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089572A1 (en) * 2010-10-06 2012-04-12 International Business Machines Corporation Automated and self-adjusting data protection driven by business and data activity events
CN111143103A (zh) * 2019-12-26 2020-05-12 北京浪潮数据技术有限公司 一种关联关系确定方法、装置、设备及可读存储介质
CN111338836A (zh) * 2020-02-24 2020-06-26 北京奇艺世纪科技有限公司 处理故障数据的方法、装置、计算机设备和存储介质
CN115176273A (zh) * 2020-08-07 2022-10-11 索尼集团公司 Maas平台上基于用户界面的移动性事务管理
US20220391296A1 (en) * 2021-06-03 2022-12-08 International Business Machines Corporation Exchanging extended attributes between different cluster sites in a clustered filesystem environment
CN113792154A (zh) * 2021-08-30 2021-12-14 北京百度网讯科技有限公司 故障关联关系的确定方法、装置、电子设备及存储介质
CN114116322A (zh) * 2022-01-27 2022-03-01 深圳市科力锐科技有限公司 数据恢复方法、装置、设备及存储介质
CN117009406A (zh) * 2022-10-24 2023-11-07 腾讯云计算(长沙)有限责任公司 基于时序点过程的多标签事件预测方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
傅思达等: ""多点多备的容灾备份技术研究与实现"", 《软件》, no. 09, 15 September 2016 (2016-09-15), pages 109 - 112 *

Also Published As

Publication number Publication date
CN117573428B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
US9785521B2 (en) Fault tolerant architecture for distributed computing systems
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
US10409980B2 (en) Real-time representation of security-relevant system state
US11625315B2 (en) Software regression recovery via automated detection of problem change lists
US20200379837A1 (en) Automated recovery of webpage functionality
CN111046011A (zh) 日志收集方法、系统、节点、电子设备及可读存储介质
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
CN110874291A (zh) 一种异常容器实时检测方法
US20210081441A1 (en) Automatic feature extraction from unstructured log data utilizing term frequency scores
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN115718674A (zh) 一种数据容灾恢复方法及装置
CN112306820A (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
US11269706B2 (en) System and method for alarm correlation and aggregation in IT monitoring
CN117573428B (zh) 容灾备份方法、装置、计算机设备和存储介质
CN116662127A (zh) 一种设备告警信息分类并预警的方法、系统、设备和介质
CN110838940A (zh) 地下电缆巡检任务配置方法和装置
CN116010199A (zh) 应用服务自调节方法、装置、计算机设备及存储介质
CN111897490B (zh) 删除数据的方法以及装置
CN109254880A (zh) 一种处理数据库宕机的方法及装置
CN113312320A (zh) 一种获取用户操作数据库行为的方法和系统
US12020140B1 (en) Systems and methods for ensuring resilience in generative artificial intelligence pipelines
US11856014B2 (en) Anomaly detection in computing computing system events
CN111738848B (zh) 特征数据的生成方法、装置、计算机设备和存储介质
US11921847B1 (en) Detection of abnormal application programming interface (API) sessions including a sequence of API requests using space partitioning data structures
CN116302778A (zh) 一种数据库监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant