CN117149635A - 对账批处理集群测试方法、装置、计算机设备和存储介质 - Google Patents

对账批处理集群测试方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117149635A
CN117149635A CN202311125381.1A CN202311125381A CN117149635A CN 117149635 A CN117149635 A CN 117149635A CN 202311125381 A CN202311125381 A CN 202311125381A CN 117149635 A CN117149635 A CN 117149635A
Authority
CN
China
Prior art keywords
node
tested
cluster
batch processing
control node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311125381.1A
Other languages
English (en)
Inventor
王建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202311125381.1A priority Critical patent/CN117149635A/zh
Publication of CN117149635A publication Critical patent/CN117149635A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及大数据测试技术领域,具体涉及一种对账批处理集群测试方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:从待测集群管理的对账批处理任务中确定目标任务;目标任务的任务时效满足时效筛选条件且对应的对账文件数据量达到数据量阈值;基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务;在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果;对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。采用本方法能够高效、全面的测试集群高可用性。

Description

对账批处理集群测试方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据测试技术领域,特别是涉及一种对账批处理集群测试方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
金融机构之间的跨机构业务交易,均需要在金融机构端、跨机构交易清算系统端做账务记录,且为确保跨机构账务记录的一致性,跨机构交易清算系统在日终都会对金融机构端、跨机构交易清算系统端的流水账务进行批量核对,即进行对账批处理,并对日间由于网络、系统等故障导致的金融机构端的单边账务异常进行人工调整。
目前的跨机构交易清算系统是基于专为大数据处理研发的计算引擎Spark(Apache Spark,一个围绕速度、易用性和复杂分析构建的大数据处理框架)部署的,以进行日终账务核对任务的批处理。考虑到跨机构交易清算系统在处理批处理任务的过程中,可能会由于某些故障,引起批处理进程中断。因此,需要对跨机构交易清算系统依托的Spark集群的高可用性进行评估,以便可以及时、有效地制定运维干预措施,确保跨机构交易清算系统的稳定运行。
然而,目前针对Spark集群高可用性的测试方式,测试过程中需要频繁与跨机构交易清算系统进行交互,以获取测试数据,且测试场景通常较为单一。因此,传统技术中测试Spark集群的方式,无法高效、全面的测试集群高可用性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够高效、全面的测试集群高可用性的对账批处理集群测试方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种对账批处理集群测试方法,包括:
从待测集群管理的对账批处理任务中确定目标任务;目标任务的任务时效满足时效筛选条件;目标任务对应的对账文件数据量达到数据量阈值;
基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务;控制节点用于调度工作节点;工作节点用于管理待测集群中的进程;
在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果;
对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。
第二方面,本申请还提供了一种对账批处理集群测试装置,包括:
目标任务确定模块,用于从待测集群管理的对账批处理任务中确定目标任务;目标任务的任务时效满足时效筛选条件;目标任务对应的对账文件数据量达到数据量阈值;
节点触发模块,用于基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务;控制节点用于调度工作节点;工作节点用于管理待测集群中的进程;
节点测试结果获得模块,用于在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果;
集群测试结果获得模块,用于对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述对账批处理集群测试方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述对账批处理集群测试方法的步骤。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述对账批处理集群测试方法的步骤。
上述对账批处理集群测试方法、装置、计算机设备、存储介质和计算机程序产品,先从待测集群管理的对账批处理任务中确定目标任务,其中,目标任务的任务时效满足时效筛选条件,且目标任务对应的对账文件数据量达到数据量阈值,以便后续可以基于时间紧任务重的目标任务对应的对账文件,有效测试集群的高可用性,然后,基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务,即测试过程中,无需外联跨机构交易清算系统去获取测试数据,而是可以直接从集群存储的数据中获取测试数据(对账文件),有利于提高测试效率,进一步的,在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果,即针对不同节点,会在不同的故障场景分别进行测试,从而实现更全面的高可用性测试,最后,对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。整个过程中,在确保能有效测试集群高可用性的基础上,在测试过程中,无需外联跨机构交易清算系统去获取测试数据,且针对不同节点还会进行不同故障场景下全面的测试,因此,可以高效、全面的测试集群高可用性。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中对账批处理系统的示意图;
图2为一个实施例中对账批处理集群测试方法的流程示意图;
图3为一个实施例中存储对账文件的流程示意图;
图4为一个实施例中测试待测节点的流程示意图;
图5为另一个实施例中测试待测节点的流程示意图;
图6为一个实施例中检测功能指标的流程示意图;
图7为一个实施例中宕网卡或进程挂起对应的故障场景下,检测资源异常时段的流程示意图;
图8为一个实施例中停应用对应的故障场景下,检测资源异常时段的流程示意图;
图9为一个实施例中检测节点状态切换功能的流程示意图;
图10为另一个实施例中对账批处理集群测试方法的流程示意图;
图11为一个实施例中对账批处理集群测试装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及对账文件所属用户的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本申请实施例提供的对账批处理集群测试方法,可以应用于如图1所示的对账批处理系统中。其中,批处理系统包括:批量应用集群102、应用处理集群104、批量数据库集群106和数据存储集群108。对账批处理系统可以表征用于实现对账批处理的跨机构交易清算系统,对如图1所示的对账批处理系统中的集群进行高可用性测试,即可以实现对跨机构交易清算系统依托的Spark集群的高可用性测试。
其中,批量应用集群102用于定时调度对账批处理任务、以及传输对账批处理任务对应的对账文件至批量应用集群104的共享目录,且在确定金融机构端和跨机构交易清算系统端的对账文件到齐后,用于触发并提交对账批处理任务至应用处理集群104。应用处理集群104具体可以为基于Spark部署、开发的Spark应用处理集群,用于提供高可用、高并发的数据处理能力,协同批量应用集群102处理金融机构端和跨机构交易清算系统端的对账文件,以实现对账批处理。数据库集群106用于保存金融机构端和跨机构交易清算系统端的数据文件、对账记录和对账状态。数据存储集群108具体可以为NSA(Network AttachedStorage,网络附加存储),用于存储应用处理集群104处理对账批处理任务过程中产生的数据文件。
其中,为结合实际业务场景(对账批处理场景),满足高可用的设计目标,对账批处理系统中基于至少两个控制节点(Master)、至少十个工作节点(Worker)搭建Spark应用处理集群。在运行过程中,若图1中的应用处理集群104接收到待运行的应用程序,会分两个阶段处理待运行的应用程序:第一个阶段,将待运行的应用程序作为一个特定计算框架的实例在集群中启动;第二个阶段,基于该实例创建待运行的应用程序并为其申请资源,从而基于分配的进程资源运行应用程序,并监控应用程序的整个运行过程,直至应用程序运行完成。
在一个实施例中,如图2所示,提供了一种对账批处理集群测试方法,以该方法应用于图1中的对账批处理系统为例进行说明,包括:
步骤202,从待测集群管理的对账批处理任务中,确定目标任务;目标任务中设定的任务时效满足任务时效筛选条件,且目标任务对应的对账文件的数据量达到数据量阈值。
其中,待测集群具体可以为图1所示的各集群,即用于实现对账批处理的各集群。目标任务中设定的任务时效是指:需要在设定的任务时长内完成目标任务。目标任务的任务时效满足任务时效筛选条件表征:目标任务中设定的任务时长满足设定的时长筛选条件,避免任务时长过长或过短。时长筛选条件可以根据实际测试需求灵活设定。数据量阈值也可以根据实际测试需求灵活配置。批处理具体可以为:将批量任务一同发送至操作系统后不再进行干预,由操作系统自动、批量的处理任务。
可选地,对账批处理系统可以按照设定的目标任务筛选条件,从待测集群管理的对账批处理任务中,选取对时效有要求、数据量大的对账批处理任务作为目标任务,确保目标任务中设定的任务时效满足任务时效筛选条件,且目标任务对应的对账文件的数据量达到数据量阈值,以使所有目标任务的对账文件的数据量总和占生产峰值数据量的比例超出比例阈值。其中,比例阈值可以根据实际测试需求灵活配置。
示例性地,以目标任务中设定的任务时效为2小时,比例阈值为20%为例进行说明,对账批处理系统可以将任务时效为2小时(或者接近2小时),且对应的对账文件的数据量超出数据量阈值,即对应的对账文件的数据量足够大的对账批处理任务作为目标任务。进一步的,对账批处理系统可以计算所有目标任务对应的对账文件的数据量总和,并确保数据量总和占生产峰值数据量的比例超出20%,以基于时间紧、数据量足够大的批处理任务有效测试基于Spark框架构建的集群的高可用性,如测试Spark应用处理集群。其中,高可用性是指集群无中断地执行其功能的能力,代表系统的可用性程度。
步骤204,基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务;控制节点用于调度工作节点;工作节点用于管理待测集群中的进程。
其中,控制节点具体可以为Spark集群中的Master节点,工作节点具体可以为Spark集群中的Worker节点。
可选地,对账批处理系统可以基于批量应用集群,检测金融机构端、跨机构交易清算系统端的对账文件是否齐全,若对账文件均准备好,对账批处理系统可以通过批量应用集群提交目标任务至Spark应用处理集群,并基于批量应用集群中存储的目标任务的对账文件,触发Spark应用处理集群中的控制节点与工作节点处理目标任务。
示例性地,在运行过程中,若Spark应用处理集群接收到对账批处理任务,会分两个阶段处理对账批处理任务:第一个阶段,将对账批处理任务作为一个特定计算框架的实例在集群中启动;第二个阶段,基于该实例创建对账批处理任务并为其申请资源,从而基于分配的进程资源处理对账批处理任务,然后,监控对账批处理任务的整个任务处理过程,直至任务完成。
在目标任务的处理过程中,执行步骤206,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果。
其中,控制节点与工作节点需测试的故障场景不同。控制节点对应的多个故障场景具体可以为:宕网卡、进程挂起。工作节点对应的多个故障场景具体可以为:停应用、宕网卡、进程挂起。每一故障场景下待检测的功能指标包括但不限定于:状态切换是否正常、是否正常生成批处理文件、是否正常生成批处理日志、目标任务是否正常完整、资源异常时段是否正常等等。
可选地,对账批处理系统可以基于预先配置的故障场景与功能指标,在控制节点与工作节点处理目标任务的过程中,依次检测每一控制节点在控制节点对应的多个故障场景下的功能指标,得到每一控制节点对应的测试结果,以及依次检测每一工作节点在工作节点对应的多个故障场景下的功能指标,得到每一工作节点对应的测试结果。其中,针对每一节点,在每一故障场景均对应多个功能指标检测结果,而该节点在多个故障场景下的功能指标检测结果,组成了该节点最终的测试结果。
步骤208,对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。
可选地,对账批处理系统可以对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果,以根据测试结果,评估不同故障场景对待测集群的影响,从而确定是否需要对待测集群制定运维干预措施,以及需要制定哪些运维干预措施,以确保待测集群的稳定运行。
示例性地,若数据整合结果表征在测试过程中,检测的功能指标均显示正常,则输出表征待测集群的高可用性合格的测试结果。若数据整合结果表征在测试过程中,检测到功能指标存在异常,则输出针对异常的预警提示,并根据异常对待测集群高可用性的影响程度,输出表征相应高可用性合格程度的测试结果。其中,异常对待测集群高可用性的影响程度越大,待测集群的高可用性合格程度越低。
上述对账批处理集群测试方法中,先从待测集群管理的对账批处理任务中确定目标任务,其中,目标任务的任务时效满足时效筛选条件,且目标任务对应的对账文件数据量达到数据量阈值,以便后续可以基于时间紧任务重的目标任务对应的对账文件,有效测试集群的高可用性,然后,基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务,即测试过程中,无需外联跨机构交易清算系统去获取测试数据,而是可以直接从集群存储的数据中获取测试数据(对账文件),有利于提高测试效率,进一步的,在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果,即针对不同节点,会在不同的故障场景分别进行测试,从而实现更全面的高可用性测试,最后,对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。整个过程中,在确保能有效测试集群高可用性的基础上,在测试过程中,无需外联跨机构交易清算系统去获取测试数据,且针对不同节点还会进行不同故障场景下全面的测试,因此,可以高效、全面的测试集群高可用性。
在其中一个实施例中,如图3所示,待测集群中对账文件的存储过程包括:
步骤302,定时调度对账批处理任务至待测集群中,以通过待测集群管理对账批处理任务。
其中,待测集群可以包括图1所示的各集群,即基于Spark框架搭建的集群。
可选地,在测试之前,对账批处理系统可以预先基于批量应用集群,从金融机构端以及跨机构交易清算系统端,定时调度对账批处理任务至批量应用集群中,以通过批量应用集群管理对账批处理任务。
步骤304,获取调度至待测集群中的对账批处理任务对应的对账文件。
可选地,对账批处理系统在调度对账批处理任务的同时,还可以基于批量应用集群,同步从金融机构端以及跨机构交易清算系统端,获取调度至待测集群中的对账批处理任务对应的对账文件。
步骤306,将获取的对账文件存储至待测集群中。
可选地,对账批处理系统可以获取的对账文件存储至批量应用集群中,以便测试过程中,可以直接获取到对账文件,即直接获取到测试数据。
示例性地,在对账文件到齐之后,对账批处理系统可以启动测试,通过批量应用集群,提交选取的对账批处理任务至Spark应用处理集群,并触发Spark应用处理集群中的控制节点与工作节点处理提交的对账批处理任务。
示例性地,对账批处理系统可以将Spark应用处理集群在处理对账批处理任务的过程中产生的数据文件,存储至图1中的数据存储集群中。
示例性地,金融机构可以采用外呼系统打桩模拟的方式,无需外联跨机构交易清算系统,基于对账批处理系统的集群中存储的测试数据,在金融机构内部便可完成集群高可用性测试。
本实施例中,在集群中预埋金融机构端及跨机构交易清算系统端的对账文件,以作为测试的数据输入,使得测试过程中,无需外联跨机构交易清算系统去获取测试数据,不必如传统技术中一般,在测试过程中,因需要获取对账数据,而频繁与跨机构交易清算系统进行交互,可以有效提高测试过程的效率,有利于高效完成对集群可用性的测试。
在其中一个实施例中,如图4所示,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果,包括:
步骤402,从控制节点与工作节点中,确定待测节点。
可选地,对账批处理系统可以从控制节点与工作节点中,确定任一节点作为待测节点,以评估单节点在不同故障场景下,对待测集群高可用性的影响。
其中,控制节点的数量为至少两个,工作节点的数量为至少十个。控制节点包括至少一个主控制节点、至少一个备控制节点。
示例性地,对账批处理系统可以从控制节点的各主控制节点中,选择任一主控制节点作为待测节点,并将各主控制节点依次作为待测节点。
示例性地,对账批处理系统可以从各工作制节点中,选择任一工作节点作为待测节点,并将各工作节点依次作为待测节点。
步骤404,确定针对待测节点的多个故障场景。
可选地,针对不同类型的待测节点,对账批处理系统可以确定不同的故障场景。
示例性地,若待测节点为主控制节点,对账批处理系统可以将宕网卡、进程挂起作为针对待测节点的多个故障场景。
示例性地,若待测节点为工作节点,对账批处理系统可以将停应用、宕网卡、进程挂起作为针对待测节点的多个故障场景。
步骤406,依次检测待测节点在不同故障场景下的功能指标,得到待测节点的测试结果。
可选地,对账批处理系统可以结合金融机构的实际业务需求,确定不同故障场景下的功能指标。
示例性地,若待测节点为主控制节点,对账批处理系统可以依次检测主控制节点在宕网卡、进程挂起对应的故障场景下的功能指标,得到主控制节点在宕网卡下的功能指标检测结果、以及在进程挂起下的功能指标检测结果。进而,通过对主控制节点在宕网卡、进程挂起下的功能指标检测结果进行数据整合,得到主控制节点的测试结果。
示例性地,若待测节点为工作节点,对账批处理系统可以依次检测工作节点在停应用、宕网卡、进程挂起对应的故障场景下的功能指标,得到工作节点在停应用下的功能指标检测结果、在宕网卡下的功能指标检测结果、以及在进程挂起下的功能指标检测结果。进而,通过对工作节点在停应用、宕网卡、进程挂起下的功能指标检测结果进行数据整合,得到工作节点的测试结果。
可选地,在完成对当前的待测节点的测试后,对账批处理系统可以判断是否存在新的待测节点,若存在,则从控制节点与工作节点中确定新的待测节点,并返回步骤406,对新的待测节点进行测试。若不存在新的待测节点,则执行步骤408,获得(所有)主控制节点与(所有)工作节点各自对应的测试结果。
本实施例中,会将集群中的节点细分为控制节点、工作节点分别进行测试,且针对不同节点会制定不同的故障模拟测试方案,为每一种节点均设置多种故障场景进行测试,因此,可以更全面的测试单节点故障对集群的影响,从而可以更全面的测试集群高可用性。
在其中一个实施例中,如图5所示,依次检测待测节点在不同故障场景下的功能指标,得到待测节点的测试结果,包括:
可选地,针对每一故障场景,对账批处理系统可以执行步骤502,对待测节点模拟故障场景。
示例性地,以待测节点为某一主控制节点,故障场景为“宕网卡”为例进行说明,在该主控制节点处理目标任务的过程中,对账批处理系统可以将该主控制节点的网络断开,并在网络断开时长达到设定时长后,恢复该主控制节点的网络,以模拟故障场景“宕网卡”。
示例性地,以待测节点为某一主控制节点,故障场景为“进程挂起”为例进行说明,对账批处理系统可以先检测该主控制节点的进程是否存在,若存在,则在该主控制节点处理目标任务的过程中,将该主控制节点的进程挂起,并在进程挂起时长达到设定时长后,恢复该主控制节点的进程,以模拟故障场景“进程挂起”。
示例性地,以待测节点为某一工作节点,故障场景为“停应用”为例进行说明,对账批处理系统可以先检测该工作节点的进程是否存在,若存在,则在该工作节点处理目标任务的过程中,将该工作节点的进程停止,并在进程停止时长达到设定时长后,恢复该工作节点的进程,以模拟故障场景“停应用”。
示例性地,以待测节点为某一工作节点,故障场景为“宕网卡”为例进行说明,在该工作节点处理目标任务的过程中,对账批处理系统可以将该工作节点的网络断开,并在网络断开时长达到设定时长后,恢复该工作节点的网络,以模拟故障场景“宕网卡”。
示例性地,以待测节点为某一工作节点,故障场景为“进程挂起”为例进行说明,对账批处理系统可以先检测该工作节点的进程是否存在,若存在,则在该工作节点处理目标任务的过程中,将该工作节点的进程挂起,并在进程挂起时长达到设定时长后,恢复该工作节点的进程,以模拟故障场景“进程挂起”。
步骤504,检测待测节点的状态切换功能、任务处理功能以及待测节点的资源异常时段是否正常,得到待测节点在故障场景下的测试结果。
示例性地,以待测节点为某一主控制节点为例,对账批处理系统可以分别检测该主控制节点在某一故障场景下的状态切换功能、任务处理功能以及待测节点的资源异常时段是否正常,得到该主控制节点在该故障场景下的测试结果。
示例性地,以待测节点为某一工作节点为例,对账批处理系统可以分别检测该工作节点在某一故障场景下的状态切换功能、任务处理功能以及待测节点的资源异常时段是否正常,得到该工作节点在该故障场景下的测试结果。
可选地,在对待测节点完成当前故障场景下的检测后,对账批处理系统可以根据针对待测节点的多个故障场景,判断是否存在新的故障场景,若存在,则从针对待测节点的多个故障场景中,确定新的故障场景,并返回步骤504,对待测节点在新的故障场景下的功能指标进行测试。若不存在新的待测节点,则执行步骤506,获得待测节点在不同故障场景下的测试结果。
本实施例中,针对主控制节点、工作节点会进行不同故障场景的测试,且在每一故障场景的测试下,均会检测节点的多个功能指标,因此,可以更全面的测试集群中节点在故障场景下的功能,从而可以更全面的测试集群高可用性,以便后续可以更为准确、有效的为集群制定运维干预措施,有利于确保集群的稳定运行。
在一个实施例中,如图6所示,检测待测节点的状态切换功能、任务处理功能以及待测节点的资源异常时段是否正常,得到待测节点在故障场景下的测试结果,包括:
步骤602,检测待测节点的状态是否正常切换,得到状态切换结果。
可选地,对账批处理系统可以根据设定的功能指标,检测在模拟故障场景的整个过程中,待测节点的状态是否正常切换,从而得到待测节点的状态切换结果。若待测节点的状态未正常切换,则根据状态切换结果中的异常情况,确定相应的运维措施,以确保集群的正常运行。
示例性地,以待测节点为某一主控制节点,故障场景为宕网卡/进程挂起为例进行说明,在该主控制节点的网络断开/进程挂起前,该主控制节点的状态为alive(表征使用中),而各备控制节点的状态均为standby(表征处于备用)。在该主控制节点的网络断开/进程挂起过程中,检测该主控制节点的管理界面是否变为无法访问,以及是否存在备控制节点的状态由standby转换为alive。在该主控制节点的网络/进程恢复后,检测该主控制节点的状态是否变为standby,并检测状态由standby转换为alive的备控制节点是否仍为alive。若存在备控制节点的状态成功由standby转换为alive,而该主控制节点的状态也成功由alive转换为standby,则确定该主控制节点的状态切换正常。否则,发出预警提示,由人工依次对各控制节点进行故障排查。
示例性地,以待测节点为某一工作节点,故障场景为停应用/宕网卡/进程挂起为例进行说明,在该工作节点的进程停止/网络断开/进程挂起前,该工作节点的状态为alive(表征使用中)。在该工作节点的进程停止/网络断开/进程挂起过程中,检测该工作节点的状态是否变为dead(表征无法使用)。在该工作节点的进程/网络/进程恢复后,检测该工作节点的状态是否由dead变为alive。若工作节点的状态成功由dead转换为alive,则确定该工作节点的状态切换正常。否则,需要通过日志分析未恢复的原因,并对该异常进行修复。
步骤604,检测是否正常生成批处理文件与批处理日志,并检测目标任务的完成状态,得到批处理任务执行结果。
其中,批处理文件是一种文本文件,它的作用是自动的连续执行多条命令,即批处理文件中文本内容是一条一条的命令,具体可以记载用于指示处理批处理任务的多条命令。批处理日志中具体可以记载有批处理任务的过程记录,如报错记录。
可选地,对账批处理系统可以根据设定的功能指标,在待测节点处理目标任务的过程中,通过批处理应用集群,检测是否正常生成批处理文件与批处理日志,并通过Spark应用处理集群,检测目标任务的完成状态,从而得到批处理任务执行结果。
示例性地,以待测节点为某一主控制节点,故障场景为宕网卡/进程挂起为例进行说明,在该主控制节点的网络/进程恢复后,对账批处理系统可以在批处理应用集群中,检测是否正常生成完整的批处理文件、以及完整无报错的批处理日志,以及在Spark应用处理集群的管理界面,检测目标任务的状态是否为成功完成,从而得到批处理任务执行结果。
示例性地,以待测节点为某一工作节点,故障场景为停应用/宕网卡/进程挂起为例进行说明,在该工作节点的进程/网络/进程恢复后,对账批处理系统可以在批处理应用集群中,检测是否正常生成完整的批处理文件、以及完整无报错的批处理日志,以及在Spark应用处理集群的管理界面中,检测目标任务的状态是否为成功完成,从而得到批处理任务执行结果。
示例性地,若正常生成完整的批处理文件、以及完整无报错的批处理日志,且目标任务的状态为成功完成,对账批处理系统可以确定批处理任务执行结果符合集群高可用性,可以在单节点故障后,仍保障业务数据的完整性。若存在批处理文件或批处理日志不完整,或者批处理日志存在报错,或者目标任务的状态为未成功完成,对账批处理系统可以根据不完整程度来判断是否恢复环境后重新执行批处理任务。若批处理文件缺失严重,可设置上一轮批处理结果无效并进行批处理文件重跑。若批处理文件缺失较少,对账批处理系统可以发布预警提示,以提示技术人员与业务人员进行人工调账或补账。
步骤606,检测待测节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果。
可选地,对账批处理系统可以通过CPU(Central Processing Unit,处理器)资源监控,检测待测节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果。
示例性地,以待测节点为某一主控制节点,故障场景为宕网卡/进程挂起为例进行说明,在该主控制节点的网络/进程恢复后,对账批处理系统可以通过CPU资源监控,检测该主控制节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果。
示例性地,以待测节点为某一工作节点,故障场景为宕网卡/进程挂起为例进行说明,在该工作节点的网络/进程恢复后,对账批处理系统可以通过CPU资源监控,检测该工作节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果。
示例性地,不论待测节点是主控制节点还是工作节点,在宕网卡/进程挂起的故障场景下,在对节点执行步骤606之后,如图7所示,若该主控制节点/工作节点的资源异常时段与故障场景中设定的资源异常时段之间不存在时差,或时差可忽略不计,则执行步骤702,确定节点(主控制节点/工作节点)在状态切换后,可继续正常工作。若该主控制节点/工作节点的资源异常时段与故障场景中设定的资源异常时段之间存在较大时差,即CPU资源监控中该主控制节点/工作节点的资源缺失(下降)时间段,与模拟故障场景的时间段不对应,则检测CPU资源监控平台采集的数据是否存在丢失,即先检测测试环境配置问题。若CPU资源监控平台采集数据存在丢失,则确定CPU资源监控平台存在异常,执行步骤704,修复资源监控平台的异常。若CPU资源监控平台正常,则确定是网络恢复过程出现问题,执行步骤706,检查网卡。
示例性地,以待测节点为某一工作节点,故障场景为停应用为例进行说明,在该工作节点的进程恢复后,对账批处理系统可以通过CPU资源监控,检测该工作节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果。
示例性地,以待测节点为某一工作节点,故障场景为停应用为例进行说明,对该节点执行步骤606之后,如图8所示,若该工作节点的资源异常时段与故障场景中设定的资源异常时段之间不存在时差,或时差可忽略不计,则执行步骤802,确定工作节点在完成状态切换后,可继续正常工作。若CPU资源监控中该工作节点的资源监控下降时间段,与模拟故障场景的时间段之间存在较大时差,则确定在停止模拟停应用场景后,该工作节点在进程自我拉起后,无法立即正常工作。因此,可以检查是否因服务器之间存在时差,导致资源异常时段存在时差。若是,则执行步骤804,同步时间并结合业务影响性判断是否需要重新执行批处理。若不是,则执行步骤806,通过批处理日志,排查该工作节点资源异常时段与故障场景中设定的资源异常时段不对应的原因。
步骤608,汇总状态切换结果、批处理任务执行结果以及资源异常时段检测结果,得到待测节点在故障场景下的测试结果。
可选地,对账批处理系统可以汇总状态切换结果、批处理任务执行结果以及资源异常时段检测结果,得到待测节点在故障场景下的测试结果。若待测节点在故障场景下的测试结果表征测试过程集群中存在异常,则需要对异常进行评估,以制定相应的运维干预措施。
本实施例中,针对每一种待测节点(主控制节点、工作节点),在每一故障场景下均会检测多个的功能指标,从而得到每一功能指标的检测结果。若存在功能指标的检测结果存在异常,还会针对异常制定相应的运维干预措施。一方面,可以全面的测试集群高可用性,另一方面,有利于确保集群后续的稳定运行。
在其中一个实施例中,控制节点包括主控制节点与备控制节点。图6中的步骤602,可以分为两种情况,如图9所示:
若待测节点为控制节点中的主控制节点,对账批处理系统可以执行步骤902,检测是否存在备控制节点转换为主控制节点、以及待测节点是否转换为备控制节点,得到待测节点的状态切换结果。
若待测节点为工作节点,对账批处理系统可以执行步骤904,检测在停止模拟故障场景后,待测节点的状态是否由异常恢复为正常,得到待测节点的状态切换结果。
示例性地,以待测节点为主控制节点为例,对账批处理可以在针对主控制节点模拟宕网卡、进程挂起的故障场景下,均基于步骤902,检测并得到待测节点的状态切换结果。
示例性地,以待测节点为工作节点为例,对账批处理可以在针对工作节点模拟停应用、宕网卡、进程挂起的故障场景下,均基于步骤904,检测并得到待测节点的状态切换结果。
本实施例中,针对主控制节点与工作节点,会进行不同的节点状态切换测试,即针对不同节点,会结合节点自身特性,检测与节点自身特征相应的功能指标,因此,可以更全面的测试集群中节点在故障场景下的性能,从而更全面的检测集群高可用性。
在一个实施例中,如图10所示,提供了另一种对账批处理集群测试方法的流程示意图,该方法可以应用于图1中的对账批处理系统,将对账批处理系统中的各集群作为待测集群,可以通过测试各集群中Spark应用处理集群的主控制节点与工作节点在多种故障场景下的性能,测试对账批处理系统中Spark集群的高可用性,主要包括以下步骤:
步骤1002,定时调度对账批处理任务至待测集群的批量应用集群中;
步骤1004,将对账批处理任务对应的对账文件,存储至批量应用集群中;
步骤1006,从批量应用集群管理的对账批处理任务中,确定任务时效满足时效筛选条件,且对应的对账文件数据量达到数据量阈值的目标任务;
步骤1008,基于批量应用集群中存储的目标任务的对账文件,触发待测集群中应用处理集群(Spark应用处理集群)的控制节点与工作节点处理目标任务;
步骤1010,从控制节点与工作节点中,确定待测节点;
步骤1012,对待测节点模拟故障场景;
步骤1014,检测待测节点的状态是否正常切换,得到状态切换结果;
步骤1016,检测是否正常生成批处理文件与批处理日志,并检测目标任务的完成状态,得到批处理任务执行结果;
步骤1018,检测待测节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果;
步骤1020,汇总状态切换结果、批处理任务执行结果以及资源异常时段检测结果,得到待测节点在故障场景下的测试结果;
进一步的,选择新的故障场景对待测节点进行测试,若不存在新的故障场景,执行步骤1022,获得待测节点在不同故障场景下的测试结果;
从控制节点与工作节点中确定新的待测节点进行测试,若不存在新的待测节点,执行步骤1024,获得控制节点与工作节点各自对应的测试结果;
步骤1026,对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果;
步骤1028,根据待测集群的测试结果,确定运维干预措施。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对账批处理集群测试方法的对账批处理集群测试装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对账批处理集群测试装置实施例中的具体限定可以参见上文中对于对账批处理集群测试方法的限定,在此不再赘述。
在一个示例性的实施例中,如图11所示,提供了一种对账批处理集群测试装置,包括:目标任务确定模块1102、节点触发模块1104、节点测试结果获得模块1106和集群测试结果获得模块1108,其中:
目标任务确定模块,用于从待测集群管理的对账批处理任务中确定目标任务;目标任务的任务时效满足时效筛选条件;目标任务对应的对账文件数据量达到数据量阈值;
节点触发模块,用于基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务;控制节点用于调度工作节点;工作节点用于管理待测集群中的进程;
节点测试结果获得模块,用于在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果;
集群测试结果获得模块,用于对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。
上述对账批处理集群测试装置中,先从待测集群管理的对账批处理任务中确定目标任务,其中,目标任务的任务时效满足时效筛选条件,且目标任务对应的对账文件数据量达到数据量阈值,以便后续可以基于时间紧任务重的目标任务对应的对账文件,有效测试集群的高可用性,然后,基于待测集群中存储的目标任务的对账文件,触发待测集群中的控制节点与工作节点处理目标任务,即测试过程中,无需外联跨机构交易清算系统去获取测试数据,而是可以直接从集群存储的数据中获取测试数据(对账文件),有利于提高测试效率,进一步的,在目标任务的处理过程中,对控制节点与工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到控制节点与工作节点各自对应的测试结果,即针对不同节点,会在不同的故障场景分别进行测试,从而实现更全面的高可用性测试,最后,对控制节点与工作节点各自对应的测试结果进行数据整合,得到待测集群的测试结果。整个过程中,在确保能有效测试集群高可用性的基础上,在测试过程中,无需外联跨机构交易清算系统去获取测试数据,且针对不同节点还会进行不同故障场景下全面的测试,因此,可以高效、全面的测试集群高可用性。
在其中一个实施例中,对账批处理集群测试装置还包括:对账文件存储模块,用于定时调度对账批处理任务至待测集群中,以通过待测集群管理对账批处理任务;获取调度至待测集群中的对账批处理任务对应的对账文件;将获取的对账文件存储至待测集群中。
在其中一个实施例中,节点测试结果获得模块还用于:从控制节点与工作节点中,确定待测节点;确定针对待测节点的多个故障场景;依次检测待测节点在不同故障场景下的功能指标,得到待测节点的测试结果;从控制节点与工作节点中确定新的待测节点进行测试,直至不存在新的待测节点,得到控制节点与工作节点各自对应的测试结果。
在其中一个实施例中,对账批处理集群测试装置还包括:故障场景模拟测试模块,用于针对每一故障场景,对待测节点模拟故障场景;检测待测节点的状态切换功能、任务处理功能以及待测节点的资源异常时段是否正常,得到待测节点在故障场景下的测试结果;从针对待测节点的多个故障场景中,选择新的故障场景对待测节点进行测试,直至不存在新的故障场景,得到待测节点在不同故障场景下的测试结果。
在其中一个实施例中,对账批处理集群测试装置还包括:功能指标检测模块,用于检测待测节点的状态是否正常切换,得到状态切换结果;检测是否正常生成批处理文件与批处理日志,并检测目标任务的完成状态,得到批处理任务执行结果;检测待测节点的资源异常时段与故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果;汇总状态切换结果、批处理任务执行结果以及资源异常时段检测结果,得到待测节点在故障场景下的测试结果。
在其中一个实施例中,控制节点包括主控制节点与备控制节点。对账批处理集群测试装置还包括:状态切换结果获得模块,用于若待测节点为控制节点中的主控制节点,检测是否存在备控制节点转换为主控制节点、以及待测节点是否转换为备控制节点,得到待测节点的状态切换结果;若待测节点为工作节点,检测在停止模拟故障场景后,待测节点的状态是否由异常恢复为正常,得到待测节点的状态切换结果。
上述对账批处理集群测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对账批处理集群测试数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对账批处理集群测试方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个示例性的实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(FerroelectricRandom Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (15)

1.一种对账批处理集群测试方法,其特征在于,所述方法包括:
从待测集群管理的对账批处理任务中确定目标任务;所述目标任务的任务时效满足时效筛选条件;所述目标任务对应的对账文件数据量达到数据量阈值;
基于所述待测集群中存储的所述目标任务的对账文件,触发所述待测集群中的控制节点与工作节点处理所述目标任务;所述控制节点用于调度所述工作节点;所述工作节点用于管理所述待测集群中的进程;
在所述目标任务的处理过程中,对所述控制节点与所述工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到所述控制节点与所述工作节点各自对应的测试结果;
对所述控制节点与所述工作节点各自对应的测试结果进行数据整合,得到所述待测集群的测试结果。
2.根据权利要求1所述的方法,其特征在于,所述待测集群中对账文件的存储过程包括:
定时调度对账批处理任务至所述待测集群中,以通过所述待测集群管理对账批处理任务;
获取调度至所述待测集群中的对账批处理任务对应的对账文件;
将获取的对账文件存储至所述待测集群中。
3.根据权利要求1所述的方法,其特征在于,所述对所述控制节点与所述工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到所述控制节点与所述工作节点各自对应的测试结果,包括:
从所述控制节点与所述工作节点中,确定待测节点;
确定针对所述待测节点的多个故障场景;
依次检测所述待测节点在不同故障场景下的功能指标,得到所述待测节点的测试结果;
从所述控制节点与所述工作节点中确定新的待测节点进行测试,直至不存在新的待测节点,得到所述控制节点与所述工作节点各自对应的测试结果。
4.根据权利要求3所述的方法,其特征在于,所述依次检测所述待测节点在不同故障场景下的功能指标,得到所述待测节点的测试结果,包括:
针对每一所述故障场景,对所述待测节点模拟所述故障场景;
检测所述待测节点的状态切换功能、任务处理功能以及所述待测节点的资源异常时段是否正常,得到所述待测节点在所述故障场景下的测试结果;
从针对所述待测节点的多个故障场景中,选择新的故障场景对所述待测节点进行测试,直至不存在新的故障场景,得到所述待测节点在不同故障场景下的测试结果。
5.根据权利要求4所述的方法,其特征在于,所述检测所述待测节点的状态切换功能、任务处理功能以及所述待测节点的资源异常时段是否正常,得到所述待测节点在所述故障场景下的测试结果,包括:
检测所述待测节点的状态是否正常切换,得到状态切换结果;
检测是否正常生成批处理文件与批处理日志,并检测所述目标任务的完成状态,得到批处理任务执行结果;
检测所述待测节点的资源异常时段与所述故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果;
汇总所述状态切换结果、所述批处理任务执行结果以及所述资源异常时段检测结果,得到所述待测节点在所述故障场景下的测试结果。
6.根据权利要求5所述的方法,其特征在于,所述控制节点包括主控制节点与备控制节点;
所述检测所述待测节点的状态是否正常切换,得到状态切换结果,包括:
若所述待测节点为所述控制节点中的主控制节点,检测是否存在备控制节点转换为主控制节点、以及所述待测节点是否转换为备控制节点,得到所述待测节点的状态切换结果;
若所述待测节点为所述工作节点,检测在停止模拟所述故障场景后,所述待测节点的状态是否由异常恢复为正常,得到所述待测节点的状态切换结果。
7.一种对账批处理集群测试装置,其特征在于,所述装置包括:
目标任务确定模块,用于从待测集群管理的对账批处理任务中确定目标任务;所述目标任务的任务时效满足时效筛选条件;所述目标任务对应的对账文件数据量达到数据量阈值;
节点触发模块,用于基于所述待测集群中存储的所述目标任务的对账文件,触发所述待测集群中的控制节点与工作节点处理所述目标任务;所述控制节点用于调度所述工作节点;所述工作节点用于管理所述待测集群中的进程;
节点测试结果获得模块,用于在所述目标任务的处理过程中,对所述控制节点与所述工作节点在各自对应的多个故障场景下的功能指标分别进行检测,得到所述控制节点与所述工作节点各自对应的测试结果;
集群测试结果获得模块,用于对所述控制节点与所述工作节点各自对应的测试结果进行数据整合,得到所述待测集群的测试结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
对账文件存储模块,用于定时调度对账批处理任务至所述待测集群中,以通过所述待测集群管理对账批处理任务;获取调度至所述待测集群中的对账批处理任务对应的对账文件;将获取的对账文件存储至所述待测集群中。
9.根据权利要求7所述的装置,其特征在于,节点测试结果获得模块还用于:从所述控制节点与所述工作节点中,确定待测节点;确定针对所述待测节点的多个故障场景;依次检测所述待测节点在不同故障场景下的功能指标,得到所述待测节点的测试结果;从所述控制节点与所述工作节点中确定新的待测节点进行测试,直至不存在新的待测节点,得到所述控制节点与所述工作节点各自对应的测试结果。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
故障场景模拟测试模块,用于针对每一所述故障场景,对所述待测节点模拟所述故障场景;检测所述待测节点的状态切换功能、任务处理功能以及所述待测节点的资源异常时段是否正常,得到所述待测节点在所述故障场景下的测试结果;从针对所述待测节点的多个故障场景中,选择新的故障场景对所述待测节点进行测试,直至不存在新的故障场景,得到所述待测节点在不同故障场景下的测试结果。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
功能指标检测模块,用于检测所述待测节点的状态是否正常切换,得到状态切换结果;检测是否正常生成批处理文件与批处理日志,并检测所述目标任务的完成状态,得到批处理任务执行结果;检测所述待测节点的资源异常时段与所述故障场景中设定的资源异常时段之间的时差,得到资源异常时段检测结果;汇总所述状态切换结果、所述批处理任务执行结果以及所述资源异常时段检测结果,得到所述待测节点在所述故障场景下的测试结果。
12.根据权利要求11所述的装置,其特征在于,所述控制节点包括主控制节点与备控制节点;所述装置还包括:
状态切换结果获得模块,用于若所述待测节点为所述控制节点中的主控制节点,检测是否存在备控制节点转换为主控制节点、以及所述待测节点是否转换为备控制节点,得到所述待测节点的状态切换结果;若所述待测节点为所述工作节点,检测在停止模拟所述故障场景后,所述待测节点的状态是否由异常恢复为正常,得到所述待测节点的状态切换结果。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311125381.1A 2023-09-01 2023-09-01 对账批处理集群测试方法、装置、计算机设备和存储介质 Pending CN117149635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311125381.1A CN117149635A (zh) 2023-09-01 2023-09-01 对账批处理集群测试方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311125381.1A CN117149635A (zh) 2023-09-01 2023-09-01 对账批处理集群测试方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117149635A true CN117149635A (zh) 2023-12-01

Family

ID=88886394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311125381.1A Pending CN117149635A (zh) 2023-09-01 2023-09-01 对账批处理集群测试方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117149635A (zh)

Similar Documents

Publication Publication Date Title
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN106886485B (zh) 系统容量分析预测方法及装置
CN110618924B (zh) 一种web应用系统的链路压力测试方法
CN105095052B (zh) Soa环境下的故障检测方法及装置
US20070203973A1 (en) Fuzzing Requests And Responses Using A Proxy
CN107688531A (zh) 数据库集成测试方法、装置、计算机设备及存储介质
CN110008129B (zh) 一种存储定时快照的可靠性测试方法、装置及设备
CN111881014B (zh) 一种系统测试方法、装置、存储介质及电子设备
CN113946499A (zh) 一种微服务链路跟踪及性能分析方法、系统、设备及应用
US9164857B2 (en) Scalable structured data store operations
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
CN107516546B (zh) 一种随机存储器的在线检测装置及方法
CN110291505A (zh) 减少应用的恢复时间
CN112527568A (zh) 数据流量测试方法、装置、电子设备及存储介质
CN112445677B (zh) 一种计算机集群的健康状态检查和修复方法及存储介质
CN117149635A (zh) 对账批处理集群测试方法、装置、计算机设备和存储介质
CN115982049A (zh) 性能测试中的异常检测方法、装置和计算机设备
CN112084097B (zh) 一种磁盘告警方法及装置
CN113386976B (zh) 一种大型飞机燃油系统全模试验方法
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
US8478954B2 (en) Prioritizing subgroups in a consistency group
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
CN114090382B (zh) 超融合集群健康巡检方法和装置
CN109614330A (zh) 存储系统业务测试方法、装置、系统、存储控制器及介质
CN117439899B (zh) 一种基于大数据的通信机房巡检方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination