CN110674149B - 业务数据处理方法、装置、计算机设备和存储介质 - Google Patents

业务数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110674149B
CN110674149B CN201910864126.6A CN201910864126A CN110674149B CN 110674149 B CN110674149 B CN 110674149B CN 201910864126 A CN201910864126 A CN 201910864126A CN 110674149 B CN110674149 B CN 110674149B
Authority
CN
China
Prior art keywords
service
node
data
detected
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910864126.6A
Other languages
English (en)
Other versions
CN110674149A (zh
Inventor
胡海明
李学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN201910864126.6A priority Critical patent/CN110674149B/zh
Publication of CN110674149A publication Critical patent/CN110674149A/zh
Application granted granted Critical
Publication of CN110674149B publication Critical patent/CN110674149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Abstract

本申请涉及一种业务数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取待检测服务节点的业务数据,业务数据包括第一业务数据以及第二业务数据;根据第一业务数据以及数据库对待检测服务节点进行故障检测;当待检测服务节点为故障节点时,确定故障节点对应的故障类型;根据第二业务数据在数据库中识别对应的标准业务阈值;将第二业务数据与对应的标准业务阈值进行比较,得到比较结果;在数据库中提取故障类型对应的历史故障节点,统计历史故障节点的节点数量;根据比较结果以及历史故障节点的节点数量计算得到更新数据;根据更新数据对数据库中相应的标准业务阈值进行更新。采用本方法能够提高服务节点的故障检测准确性。

Description

业务数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种业务数据处理方法、装置、计算机设备和存储介质。
背景技术
企业在采用分布式系统进行数据任务处理时,会出现大量的服务节点。每个服务节点的运行状态会对数据任务的处理造成影响。当一个服务节点出现故障时,会影响后续服务节点的故障检测过程。传统方式是通过对服务节点进行监控,获取服务节点对应的运行状态并进行故障检测。传统方式无法对出现故障后的服务节点进行相应处理,导致对后续任务运行过程中服务节点的故障检测准确性较低。因此,如何提高服务节点的故障检测准确性成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高服务节点的故障检测准确性的业务数据处理方法、装置、计算机设备和存储介质。
一种业务数据处理方法,所述方法包括:
获取待检测服务节点的业务数据,所述业务数据包括第一业务数据以及第二业务数据;
根据所述待检测服务节点的第一业务数据以及数据库对所述待检测服务节点进行故障检测;
当所述待检测服务节点为故障节点时,确定所述故障节点对应的故障类型;
根据所述第二业务数据在所述数据库中识别对应的标准业务阈值;
将所述第二业务数据与对应的标准业务阈值进行比较,得到比较结果;
在所述数据库中提取所述故障类型对应的历史故障节点,统计所述历史故障节点的节点数量;
根据所述比较结果以及所述历史故障节点的节点数量计算得到更新数据;
根据所述更新数据对所述数据库中相应的标准业务阈值进行更新。
在其中一个实施例中,所述根据所述比较结果以及所述历史故障节点的节点数量计算得到更新数据,包括:
当所述比较结果中存在大于标准业务阈值的目标业务数据时,将历史故障节点的节点数量与预设节点数量进行比较;
当所述历史故障节点的节点数量大于所述预设节点数量时,根据所述目标业务数据以及对应的标准业务阈值计算得到更新数据。
在其中一个实施例中,所述根据所述第二业务数据在所述数据库中识别对应的标准业务阈值,包括:
读取节点配置文件,所述节点配置文件中记录有所述待检测服务节点对应的基本数据;
根据所述基本数据在所述数据库中识别所述第二业务数据对应的第一业务阈值;
根据所述第二业务数据在所述数据库中识别对应的第二业务阈值;
根据所述第一业务阈值以及第二业务阈值确定所述第二业务数据对应的标准业务阈值。
在其中一个实施例中,所述根据所述待检测服务节点的第一业务数据以及数据库对所述待检测节点进行故障检测,包括:
根据所述待检测服务节点的第一业务数据以及预设关系进行计算,得到第一计算数据;
根据所述第一计算数据在数据库中识别对应的目标业务阈值;
将所述第一计算数据与对应的目标业务阈值进行比较;
当所述第一计算数据中存在大于目标业务阈值的目标计算数据,则所述待检测节点为故障节点。
在其中一个实施例中,所述方法还包括:
当所述待检测节点为故障节点时,调用预设接口,通过所述预设接口生成目标服务节点;
采集所述目标服务节点的第三业务数据,根据所述目标服务节点的第三业务数据以及更新后的数据库对所述目标服务节点进行故障检测。
在其中一个实施例中,所述方法还包括:
当所述待检测节点为故障节点时,根据所述故障节点生成终止消息以及报警通知;
根据所述终止消息将所述故障节点进行销毁;
将生成的报警通知发送至终端,使所述终端根据所述报警通知生成对应的日志记录。
在其中一个实施例中,所述方法还包括:
启动所述待检测服务节点的节点运行进程,加载对应的节点监护进程;
根据所述待检测服务节点的节点运行进程获取待检测服务节点的第一业务数据;
通过所述待检测服务节点的节点监护进程根据所述待检测服务节点的第一业务数据对所述待检测服务节点进行故障检测。
一种业务数据处理装置,所述装置包括:
获取模块,用于获取待检测服务节点的业务数据,所述业务数据包括第一业务数据以及第二业务数据;
检测模块,用于根据所述待检测服务节点的第一业务数据以及数据库对所述待检测服务节点进行故障检测;
确定模块,用于当所述待检测服务节点为故障节点时,确定所述故障节点对应的故障类型;
识别模块,用于根据所述第二业务数据在所述数据库中识别对应的标准业务阈值;
比较模块,用于将所述第二业务数据与对应的标准业务阈值进行比较,得到比较结果;
统计模块,用于在所述数据库中提取所述故障类型对应的历史故障节点,统计所述历史故障节点的节点数量;
计算模块,用于根据所述比较结果以及所述历史故障节点的节点数量计算得到更新数据;
更新模块,用于根据所述更新数据对所述数据库中相应的标准业务阈值进行更新。
在其中一个实施例中,所述更新模块还用于当所述比较结果中存在大于标准业务阈值的目标业务数据时,将历史故障节点的节点数量与预设节点数量进行比较;当所述历史故障节点的节点数量大于所述预设节点数量时,根据所述目标业务数据以及对应的标准业务阈值计算得到更新数据。
在其中一个实施例中,所述装置还包括:修复模块,用于当所述待检测节点为故障节点时,调用预设接口,通过所述预设接口生成目标服务节点;采集所述目标服务节点的第三业务数据,根据所述目标服务节点的第三业务数据以及更新后的数据库对所述目标服务节点进行故障检测。
一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述业务数据处理方法、装置、计算机设备和存储介质,通过获取待检测节点服务器节点的业务数据,根据业务数据中的第一业务数据以及数据库对待检测服务节点进行故障检测,能够监测待检测服务节点的运行状态。通过在待监测服务节点出现故障时,确定故障节点对应的故障类型,统计故障类型对应的历史故障节点的节点数量,能够在服务节点出现故障时,及时了解故障类型的频繁程度。通过将业务数据中的第二业务数据与对应的标准业务阈值进行比较,进而根据比较结果以及历史故障节点的节点数量计算更新数据,对数据库进行更新。能够在故障节点对应故障类型发生较频繁的情况下,及时调整数据库中的相应业务阈值,提高服务节点的故障检测准确性。
附图说明
图1为一个实施例中业务数据处理方法的应用环境图;
图2为一个实施例中业务数据处理方法的流程示意图;
图3为一个实施例中根据比较结果以及历史故障节点的节点数量对数据库中相应的标准业务阈值进行更新步骤的流程示意图;
图4为一个实施例中业务数据处理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的业务数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与调度服务器104通过网络进行通信,调度服务器104通过网络与多个节点服务器106进行通信。每个节点服务器对应一个待检测服务节点。终端102发送数据任务至调度服务器104,调度服务器104将数据任务发送至多个节点服务器106。当节点服务器106获取到数据任务之后,获取对应的待检测服务节点的业务数据,业务数据包括第一业务数据以及第二业务数据。节点服务器106根据待检测服务节点的第一业务数据以及数据库对待检测服务节点进行故障检测。当待检测服务节点为故障节点时,节点服务器106确定故障节点对应的故障类型。节点服务器106根据第二业务数据在数据库中识别对应的标准业务阈值。节点服务器106将第二业务数据与对应的标准业务阈值进行比较,得到比较结果。节点服务器106在数据库中提取故障类型对应的历史故障节点,统计历史故障节点的节点数量。节点服务器106根据比较结果以及历史故障节点的节点数量计算得到更新数据。节点服务器106根据更新数据对数据库中相应的标准业务阈值进行更新。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。节点服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种业务数据处理方法,以该方法应用于图1中的节点服务器为例进行说明,包括以下步骤:
步骤202,获取待检测服务节点的业务数据,业务数据包括第一业务数据以及第二业务数据。
在采用分布式系统进行数据任务处理时,会出现大量的服务节点。每个服务节点对应一个节点服务器。节点服务器接收调度服务器发送的数据任务,节点服务器可以对待检测服务节点的任务运行状态进行实时监听,调用采集引擎按照预设时间间隔获取待检测服务节点的业务数据。预设时间间隔可以是5s。业务数据可以是待检测服务节点的多项服务指标数据。指标数据可以包括CPU使用率、内存使用率、响应时间、死锁线程数量、程序虚机Full GC(Gabage Collection,垃圾收集)的次数、程序虚机Full GC(GabageCollection,垃圾收集)的时间、Web容器请求队列的长度等。业务数据包括第一业务数据以及第二业务数据。第一业务数据可以是待检测服务节点在预设周期内的业务数据。预设周期可以是包括当前时刻在内的连续五个周期。一个周期可以是5s。第二业务数据可以是待检测服务节点在当前时刻的上一个周期内的业务数据。例如,当前时刻为第15s,则第一业务数据可以是第5s-30s内的业务数据。第二业务数据可以是第10s-15s内的业务数据。
步骤204,根据待检测服务节点的第一业务数据以及数据库对待检测服务节点进行故障检测。
多个服务节点中包括配置中心节点,配置中心节点可以包括数据库。数据库中预先存储有阈值配置文件,阈值配置文件中记录有待检测服务节点对应的标准业务阈值。标准业务阈值可以包括多项标准指标数据。例如,标准业务阈值可以包括CPU使用率为98%、平均响应时间为500ms、内存使用率为98%、死锁线程数量为5个、程序虚机Full GC(GabageCollection,垃圾收集)的次数为5次、程序虚机Full GC(Gabage Collection,垃圾收集)的时间为3s、4核/8G的Web容器请求队列的长度为X,8核/16G的Web容器请求队列的长度为Y等。
节点服务器在获取到待检测服务节点的第一业务数据后,根据第一业务数据以及数据库对待检测服务节点进行故障检测,具体地,节点服务器可以根据待检测服务节点的第一业务数据以及预设关系进行计算,得到第一业务数据对应的第一计算数据。第一计算数据可以是待检测服务节点在预设周期内的多项指标计算数据。预设关系可以是加权平均运算。节点服务器将第一计算数据与数据库中对应的标准业务阈值进行比较,得到阈值比较结果。节点服务器判断阈值比较结果中是否存在满足预设故障条件的目标计算数据。预设故障条件可以是存在大于标准业务阈值的数据,也可以是存在大于标准业务阈值组合的数据。标准业务阈值组合中的多个标准业务阈值可以对应同一故障类型,同一故障类型可以对应多个指标计算数据。若存在满足预设故障条件的目标计算数据,则待检测节点为故障节点。当同一故障类型对应的标准业务阈值为多个时,则当阈值比较结果中第一计算数据中同一故障类型的多个指标计算数据均大于对应的标准业务阈值时,该待检测节点为故障节点。例如,第一计算数据中的内存使用率大于标准业务阈值中的内存使用率98%,则待检测节点为故障节点。又如,第一计算中的CPU使用率大于标准业务阈值中的CPU使用率98%,且平均响应时间大于标准业务阈值中的平均响应时间500ms,则待检测节点为故障节点。节点服务器可以将故障节点记录于数据库中。
步骤206,当待检测服务节点为故障节点时,确定故障节点对应的故障类型。
当待检测服务节点为故障节点时,节点服务器根据故障节点确定对应的故障类型。具体地,节点服务器在进行故障检测的过程中,将第一计算数据与数据库中对应的标准业务阈值进行比较,得到阈值比较结果。进而节点服务器判断阈值比较结果中是否存在满足预设故障条件的目标计算数据。节点服务器根据满足预设故障条件的目标计算数据来确定故障节点对应的故障类型。若目标计算数据为内存使用率,则故障节点对应的故障类型为内存使用率过高。若目标计算数据为死锁线程数量,则故障节点对应的故障类型为线程发生死锁。若目标计算数据为4核/8G的Web容器请求队列的长度,则故障节点对应的故障类型为等待队列过长。若目标计算数据为8核/16G的Web容器请求队列的长度,则故障节点对应的故障类型为等待队列过长。若目标计算数据为CPU使用率以及平均响应时间,则故障节点对应的故障类型为CPU使用率过高。
步骤208,根据第二业务数据在数据库中识别对应的标准业务阈值。
步骤210,将第二业务数据与对应的标准业务阈值进行比较,得到比较结果。
节点服务器在确定故障节点对应的故障类型后,根据第二业务数据在数据库中识别对应的标准业务阈值。第二业务数据可以是待检测服务节点在当前时刻的上一个周期内的业务数据。当待检测节点为故障节点时,节点服务器提取业务数据中的第二业务数据。此时,第二业务数据可以是出现故障的当前时刻的上一个周期内的业务数据。节点服务器可以根据故障节点的基本数据在数据库中识别对应的第一业务阈值。节点服务器根据第二业务数据在数据库中识别对应的第二业务阈值。进而节点服务器根据第一业务阈值以及第二业务阈值确定第二业务数据对应的标准业务阈值。节点服务器将第二业务数据与对应的标准业务阈值进行比较,得到比较结果。
步骤212,在数据库中提取故障类型对应的历史故障节点,统计历史故障节点的节点数量。
步骤214,根据比较结果以及历史故障节点的节点数量计算得到更新数据。
步骤216,根据更新数据对数据库中相应的标准业务阈值进行更新。
当服务节点出现故障后,会将故障节点记录于数据库中。数据库中可以包括预先记录的多个历史故障节点。节点服务器可以根据故障节点的故障类型在数据库中提取对应的历史故障节点。节点服务器统计提取出的历史故障节点的节点数量。若比较结果中存在大于标准业务阈值的目标业务数据,且统计得到的节点数量大于预设节点数量,则节点服务器根据大于标准业务阈值的目标业务数据以及对应的标准业务阈值计算得到更新数据,进而节点服务器根据计算得到的更新数据对数据库中相应的标准业务阈值进行更新。
在本实施例中,节点服务器通过获取待检测节点服务器节点的业务数据,根据业务数据中的第一业务数据以及数据库对待检测服务节点进行故障检测,能够监测待检测服务节点的运行状态。节点服务器在待监测服务节点出现故障时,确定故障节点对应的故障类型,统计故障类型对应的历史故障节点的节点数量,能够在服务节点出现故障时,及时了解故障类型的频繁程度。节点服务器通过将业务数据中的第二业务数据与对应的标准业务阈值进行比较,进而根据比较结果以及历史故障节点的节点数量计算更新数据,对数据库进行更新。能够在故障节点对应故障类型发生较频繁的情况下,及时调整数据库中的相应业务阈值,提高服务节点的故障检测准确性。
在一个实施例中,如图3所示,上述方法还包括根据比较结果以及历史故障节点的节点数量计算得到更新数据的步骤,具体包括:
步骤302,当比较结果中存在大于标准业务阈值的目标业务数据时,将历史故障节点的节点数量与预设节点数量进行比较。
步骤304,当历史故障节点的节点数量大于预设节点数量时,根据目标业务数据以及对应的标准业务阈值计算得到更新数据。
标准业务阈值可以是一个标准业务阈值,也可以是多个标准业务阈值的组合。多个标准业务阈值的组合可以是CPU使用率以及平均响应时间,也可以是程序虚机Full GC(Gabage Collection,垃圾收集)的次数以及程序虚机Full GC(Gabage Collection,垃圾收集)的时间。
例如,在比较结果中,第二业务数据中的内存使用率大于标准业务阈值中的内存使用率98%,则将该内存使用率作为目标业务数据。又如,在比较结果中,第二业务数据中的CPU使用率大于标准业务阈值中的CPU使用率98%,且平均响应时间大于标准业务阈值中的平均响应时间500ms,则将CPU使用率以及平均响应时间作为目标业务数据。
当存在目标业务数据时,节点服务器将历史故障节点的节点数量与预设节点数量进行比较。例如,预设节点数量可以是服务节点总数量的30%。当历史故障节点的节点数量大于预设节点数量时,节点服务器可以根据目标业务数据以及对应的标准业务阈值进行加权平均计算,进而得到更新数据,从而节点服务器根据更新数据对数据库中相应的标准业务阈值进行更新,得到更新后的数据库。
在本实施例中,当比较结果中存在大于标准业务阈值的目标业务数据且服历史故障节点的节点数量大于预设节点数量时,节点服务器根据目标业务数据以及对应的标准业务阈值计算得到更新数据,能够在故障节点对应故障类型发生较频繁的情况下,通过导致服务节点故障的目标业务数据来有效调整数据库中的相应业务阈值,以便后续对服务节点进行故障检测,进一步提高了故障检测的准确性。
在一个实施例中,根据第二业务数据在数据库中识别对应的标准业务阈值,包括:读取节点配置文件,节点配置文件中记录有待检测服务节点对应的基本数据;根据基本数据在数据库中识别第二业务数据对应的第一业务阈值;根据第二业务数据在数据库中识别对应的第二业务阈值;根据第一业务阈值以及第二业务阈值确定第二业务数据对应的标准业务阈值。
数据库中预先存储有节点配置文件,节点配置文件中记录有待检测服务节点对应的基本数据。基本数据可以是待检测服务节点的硬件配置数据。硬件配置数据可以包括CPU核数、内存大小等。多个服务节点的基本数据不同,会导致多个服务节点对应的标准业务阈值存在差异。节点服务器可以根据待检测服务节点的基本数据在数据库中识别第二业务数据对应的第一业务阈值。例如,待检测服务节点的基本数据为4核/8G时,Web容器请求队列的长度为X,待检测服务节点的基本数据为8核/16G时,Web容器请求队列的长度为Y。
节点服务器根据第二业务数据在数据库中识别对应的第二业务阈值。第二业务阈值可以包括CPU使用率为98%、平均响应时间为500ms、内存使用率为98%、死锁线程数量为5个、程序虚机Full GC(Gabage Collection,垃圾收集)的次数为5次、程序虚机Full GC(Gabage Collection,垃圾收集)的时间为3s。进而节点服务器根据第一业务阈值以及第二业务阈值确定第二业务数据对应的标准业务阈值。
在本实施例中,节点服务器根据基本数据数据库中识别所述第二业务数据对应的第一业务阈值,根据第二业务数据在数据库中识别对应的第二业务阈值,进而根据第一业务阈值以及第二业务阈值确定第二业务数据对应的标准业务阈值,能够避免基本数据不同,导致第二业务数据对应的标准业务阈值不准确的问题,从而提高了数据库中相应的标准业务阈值更新的准确性。
在一个实施例中,根据待检测服务节点的第一业务数据以及数据库对待检测节点进行故障检测,包括:根据待检测服务节点的第一业务数据以及预设关系进行计算,得到第一计算数据;根据第一计算数据在数据库中识别对应的目标业务阈值;将第一计算数据与对应的目标业务阈值进行比较;当第一计算数据中存在大于目标业务阈值的目标计算数据,则待检测节点为故障节点。
节点服务器根据第一业务数据以及预设关系计算得到第一计算数据,第一业务数据可以待检测服务节点在预设周期内的业务数据。预设周期可以是包括当前时刻在内的连续五个周期。一个周期可以是5s。例如,当前时刻为第15s,则第一业务数据可以是第5s-30s内的业务数据。预设关系可以是加权平均运算。第一计算数据可以是待检测服务节点在预设周期内的多项指标计算数据。节点服务器进而根据第一计算数据在数据库的标准业务阈值中识别对应的目标业务阈值。
节点服务器在识别到目标业务阈值后,将第一计算数据与对应的目标业务阈值进行比较。当第一计算数据中存在大于目标业务阈值的目标计算数据,则确定该待检测节点为故障节点。目标业务阈值可以是一个标准业务阈值,也可以是多个标准业务阈值的组合,多个标准阈值对应的故障类型可以是相同的。同一故障类型可以对应多个指标计算数据。当目标业务阈值为多个标准业务阈值的组合时,当第一计算数据中同一故障类型的多个指标计算数据均大于标准业务阈值时,则确定该待检测节点为故障节点。节点服务器可以将该故障节点记录于数据库中,以便后续统计历史故障节点的节点数量。
在本实施例中,节点服务器根据待检测服务节点的第一业务数据以及预设关系计算得到第一计算数据,将第一计算数据与对应的目标业务阈值进行比较,来判断待检测服务节点是否发生故障,能够实时监测服务节点的运行状况,以便节点服务器进行相应的故障处理。
在一个实施例中,上述方法还包括:当待检测节点为故障节点时,调用预设接口,通过预设接口生成目标服务节点;采集目标服务节点的第三业务数据,根据目标服务节点的第三业务数据以及更新后的数据库对目标服务节点进行故障检测。
当节点服务器检测到该待检测服务节点为故障节点时,可以对故障节点进行自动修复。具体地,节点服务器调用预设接口,通过预设接口生成目标服务节点,目标服务节点可以是一个新的服务节点。当节点服务器接收到调度服务器发送的新的数据任务时,采集目标服务节点的第三业务数据。第三业务数据可以是目标服务节点的多项服务指标数据。进而节点服务器根据第三业务数据以及更新后的数据库对目标服务节点进行故障检测。
在本实施例中,节点服务器通过在待检测节点发生故障时,生成目标服务节点来处理新的数据任务,从而实现故障自动修复,能够避免服务节点发生故障导致服务无法使用的问题。
在一个实施例中,上述方法还包括:当待检测节点为故障节点时,根据故障节点生成终止消息以及报警通知;根据终止消息将故障节点进行销毁;将生成的报警通知发送至终端,使终端根据报警通知生成对应的日志记录。
当待检测节点为故障节点时,调度服务器不再分发新的数据任务至该服务节点。节点服务器根据故障节点生成对应的终止消息以及报警通知。节点服务器可以预先设置生成终止消息以及报警通知的时间间隔,例如,时间间隔可以是检测到故障节点后的30s。节点服务器根据终止信号将该故障节点销毁。同时,节点服务器将生成的报警通知发送至终端。终端可以是业务终端。预警通知的形式可以有多种,可以是邮件形式,可以是短信形式,也可以是日志形式。终端在接收到报警通知后,根据报警通知生成故障节点对应的日志记录。
节点服务器可以在生成终止消息以及报警通知之前,调用预设接口,生成一个新的服务节点。进而新的服务节点接收调度服务器发送的新的数据任务,通过新的服务节点来处理新的数据任务。
在本实施例中,节点服务器通过根据故障节点生成终止消息以及报警通知,根据终止消息将故障节点进行销毁,同时将生成的报警通知发送至终端。能够实现故障节点的自动修复,进一步有效避免服务节点发生故障导致服务无法使用的问题。
在一个实施例中,上述方法还包括:启动待检测服务节点的节点运行进程,加载对应的节点监护进程;根据待检测服务节点的节点运行进程获取待检测服务节点的第一业务数据;通过待检测服务节点的节点监护进程根据待检测服务节点的第一业务数据对待检测服务节点进行故障检测。
节点服务器在接收到在终端发送的数据任务后,启动待检测服务节点的节点运行进程,自动记载待检测服务节点对应的节点监护进程。待检测服务节点的节点运行进程与节点监护进程是隔离部署在节点服务器中的。节点服务器通过节点运行进程获取待检测服务节点的第一业务数据,通过节点监护进程对待检测服务节点进行故障检测。
节点服务器还可以在待检测节点为故障节点时,通过节点监护进程对故障节点进行故障修复。具体地,节点服务器可以通过节点监护进程根据故障节点生成终止消息以及报警通知,根据终止消息将故障节点进行销毁,将生成的报警通知发送至终端。另外,节点服务器还可以用通过节点监护进程调用预设接口,生成新的服务节点,来处理新的数据任务。
在本实施例中,节点服务器根据待检测服务节点的节点运行进程获取待检测服务节点的第一业务数据,通过待检测服务节点的节点监护进程对待检测服务节点进行故障检测。实现将节点运行进程与节点监护进程是隔离部署,能够有效避免故障节点影响节点监护进程,从而进一步实时监控服务节点的运行状态。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种业务数据处理装置,包括:获取模块402、检测模块404、确定模块406、识别模块408、比较模块410、统计模块412、计算模块414和更新模块416,其中:
获取模块402,用于获取待检测服务节点的业务数据,业务数据包括第一业务数据以及第二业务数据。
检测模块404,用于根据待检测服务节点的第一业务数据以及数据库对待检测服务节点进行故障检测。
确定模块406,用于当待检测服务节点为故障节点时,确定故障节点对应的故障类型。
识别模块408,用于根据第二业务数据在数据库中识别对应的标准业务阈值。
比较模块410,用于将第二业务数据与对应的标准业务阈值进行比较,得到比较结果。
统计模块412,用于在数据库中提取故障类型对应的历史故障节点,统计历史故障节点的节点数量。
计算模块414,用于根据比较结果以及历史故障节点的节点数量计算得到更新数据。
更新模块416,用于根据更新数据对数据库中相应的标准业务阈值进行更新。
在一个实施例中,更新模块416还用于当比较结果中存在大于标准业务阈值的目标业务数据时,将历史故障节点的节点数量与预设节点数量进行比较;当历史故障节点的节点数量大于预设节点数量时,根据目标业务数据以及对应的标准业务阈值计算得到更新数据。
在一个实施例中,上述装置还包括:修复模块,用于当待检测节点为故障节点时,调用预设接口,通过预设接口生成目标服务节点;采集目标服务节点的第三业务数据,根据目标服务节点的第三业务数据以及更新后的数据库对目标服务节点进行故障检测。
在一个实施例中,识别模块408还用于读取节点配置文件,节点配置文件中记录有待检测服务节点对应的基本数据;根据基本数据在数据库中识别第二业务数据对应的第一业务阈值;根据第二业务数据在数据库中识别对应的第二业务阈值;根据第一业务阈值以及第二业务阈值确定第二业务数据对应的标准业务阈值。
在一个实施例中,检测模块404还用于根据待检测服务节点的第一业务数据以及预设关系进行计算,得到第一计算数据;根据第一计算数据在数据库中识别对应的目标业务阈值;将第一计算数据与对应的目标业务阈值进行比较;当第一计算数据中存在大于目标业务阈值的目标计算数据,则待检测节点为故障节点。
在一个实施例中,修复模块还用于当待检测节点为故障节点时,根据故障节点生成终止消息以及报警通知;根据终止消息将故障节点进行销毁;将生成的报警通知发送至终端,使终端根据报警通知生成对应的日志记录。
在一个实施例中,上述方法还包括:
加载模块,用于启动待检测服务节点的节点运行进程,加载对应的节点监护进程。
获取模块402还用于根据待检测服务节点的节点运行进程获取待检测服务节点的第一业务数据。
检测模块404还用于通过待检测服务节点的节点监护进程根据待检测服务节点的第一业务数据对待检测服务节点进行故障检测。
关于业务数据处理装置的具体限定可以参见上文中对于业务数据处理方法的限定,在此不再赘述。上述业务数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务数据、标准业务阈值以及历史故障节点。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种业务数据处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种业务数据处理方法,所述方法包括:
获取待检测服务节点的业务数据,所述业务数据包括第一业务数据以及第二业务数据,所述第一业务数据是所述待检测服务节点在预设周期内的业务数据,所述第二业务数据是所述待检测服务节点在当前时刻的上一个周期内的业务数据;
根据所述待检测服务节点的第一业务数据以及数据库对所述待检测服务节点进行故障检测;
当所述待检测服务节点为故障节点时,确定所述故障节点对应的故障类型;
根据所述第二业务数据在所述数据库中识别对应的标准业务阈值;
将所述第二业务数据与所述对应的标准业务阈值进行比较,得到比较结果;
在所述数据库中提取所述故障类型对应的历史故障节点,统计所述历史故障节点的节点数量;
根据所述比较结果以及所述历史故障节点的节点数量,将目标业务数据和所述对应的标准业务阈值进行计算得到更新数据,所述目标业务数据是根据所述第二业务数据中所述比较结果大于所述对应的标准业务阈值的第二业务数据得到的;
根据所述更新数据对所述数据库中相应的标准业务阈值进行更新。
2.根据权利要求1所述的方法,其特征在于,所述根据所述比较结果以及所述历史故障节点的节点数量,将目标业务数据和所述对应的标准业务阈值进行计算得到更新数据,包括:
当所述比较结果中存在大于标准业务阈值的目标业务数据时,将历史故障节点的节点数量与预设节点数量进行比较;
当所述历史故障节点的节点数量大于所述预设节点数量时,根据所述目标业务数据以及对应的标准业务阈值计算得到更新数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二业务数据在所述数据库中识别对应的标准业务阈值,包括:
读取节点配置文件,所述节点配置文件中记录有所述待检测服务节点对应的基本数据,所述基本数据包括所述待检测服务节点的硬件配置数据;
根据所述基本数据在所述数据库中识别所述第二业务数据对应的第一业务阈值;
根据所述第二业务数据在所述数据库中识别对应的第二业务阈值;
根据所述第一业务阈值以及第二业务阈值确定所述第二业务数据对应的标准业务阈值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待检测服务节点的第一业务数据以及数据库对所述待检测服务节点进行故障检测,包括:
根据所述待检测服务节点的第一业务数据以及预设关系进行计算,得到第一计算数据;
根据所述第一计算数据在数据库中识别对应的目标业务阈值;
将所述第一计算数据与对应的目标业务阈值进行比较;
当所述第一计算数据中存在大于目标业务阈值的目标计算数据,则所述待检测服务节点为故障节点。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
当所述待检测服务节点为故障节点时,调用预设接口,通过所述预设接口生成目标服务节点;
采集所述目标服务节点的第三业务数据,根据所述目标服务节点的第三业务数据以及更新后的数据库对所述目标服务节点进行故障检测。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
当所述待检测服务节点为故障节点时,根据所述故障节点生成终止消息以及报警通知;
根据所述终止消息将所述故障节点进行销毁;
将生成的报警通知发送至终端,使所述终端根据所述报警通知生成对应的日志记录。
7.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
启动所述待检测服务节点的节点运行进程,加载对应的节点监护进程;
根据所述待检测服务节点的节点运行进程获取待检测服务节点的第一业务数据;
通过所述待检测服务节点的节点监护进程根据所述待检测服务节点的第一业务数据对所述待检测服务节点进行故障检测。
8.一种业务数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待检测服务节点的业务数据,所述业务数据包括第一业务数据以及第二业务数据,所述第一业务数据是所述待检测服务节点在预设周期内的业务数据,所述第二业务数据是所诉待检测服务节点在当前时刻的上一个周期内的业务数据;
检测模块,用于根据所述待检测服务节点的第一业务数据以及数据库对所述待检测服务节点进行故障检测;
确定模块,用于当所述待检测服务节点为故障节点时,确定所述故障节点对应的故障类型;
识别模块,用于根据所述第二业务数据在所述数据库中识别对应的标准业务阈值;
比较模块,用于将所述第二业务数据与所述对应的标准业务阈值进行比较,得到比较结果;
统计模块,用于在所述数据库中提取所述故障类型对应的历史故障节点,统计所述历史故障节点的节点数量;
计算模块,用于根据所述比较结果以及所述历史故障节点的节点数量,将目标业务数据和所述对应的标准业务阈值进行计算得到更新数据,所述目标业务数据是根据所述第二业务数据中所述比较结果大于所述对应的标准业务阈值的第二业务数据得到的;
更新模块,用于根据所述更新数据对所述数据库中相应的标准业务阈值进行更新。
9.根据权利要求8所述的装置,其特征在于,所述更新模块还用于当所述比较结果中存在大于标准业务阈值的目标业务数据时,将历史故障节点的节点数量与预设节点数量进行比较;当所述历史故障节点的节点数量大于所述预设节点数量时,根据所述目标业务数据以及对应的标准业务阈值计算得到更新数据。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:修复模块,用于当所述待检测服务节点为故障节点时,调用预设接口,通过所述预设接口生成目标服务节点;采集所述目标服务节点的第三业务数据,根据所述目标服务节点的第三业务数据以及更新后的数据库对所述目标服务节点进行故障检测。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN201910864126.6A 2019-09-12 2019-09-12 业务数据处理方法、装置、计算机设备和存储介质 Active CN110674149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864126.6A CN110674149B (zh) 2019-09-12 2019-09-12 业务数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864126.6A CN110674149B (zh) 2019-09-12 2019-09-12 业务数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110674149A CN110674149A (zh) 2020-01-10
CN110674149B true CN110674149B (zh) 2022-03-11

Family

ID=69077904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864126.6A Active CN110674149B (zh) 2019-09-12 2019-09-12 业务数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110674149B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094249A (zh) * 2021-04-30 2021-07-09 杭州安恒信息技术股份有限公司 一种节点异常检测方法、装置及介质
CN113283503A (zh) * 2021-05-24 2021-08-20 平安国际融资租赁有限公司 基于特征相似度的设备状态检测方法、装置、设备和介质
CN113377627B (zh) * 2021-06-10 2023-12-05 广州朗国电子科技股份有限公司 一种业务服务器异常检测方法、系统、设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103138980A (zh) * 2011-11-30 2013-06-05 海尔集团公司 设备故障反馈系统及方法
CN107491375A (zh) * 2017-08-18 2017-12-19 国网山东省电力公司信息通信公司 一种云计算环境下的设备检测及故障预警系统及方法
CN107729205A (zh) * 2017-08-22 2018-02-23 国家电网公司 用于业务系统的故障处理方法和装置
CN108490323A (zh) * 2018-03-21 2018-09-04 广东电网有限责任公司电力科学研究院 一种用于对变压器故障进行处理的系统及方法
CN109144559A (zh) * 2018-09-26 2019-01-04 深圳壹账通智能科技有限公司 一种更新数据包的推送方法及服务器
CN109189640A (zh) * 2018-08-24 2019-01-11 平安科技(深圳)有限公司 服务器的监控方法、装置、计算机设备及存储介质
CN109359014A (zh) * 2018-09-04 2019-02-19 武汉华信联创技术工程有限公司 一种计算机运行状态监控方法、系统及存储介质
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233865A1 (en) * 2006-03-30 2007-10-04 Garbow Zachary A Dynamically Adjusting Operating Level of Server Processing Responsive to Detection of Failure at a Server
DE102008002738B4 (de) * 2008-06-27 2010-03-11 Airbus Deutschland Gmbh Verfahren zum Erkennen eines fehlerhaften Knotens

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103138980A (zh) * 2011-11-30 2013-06-05 海尔集团公司 设备故障反馈系统及方法
CN107491375A (zh) * 2017-08-18 2017-12-19 国网山东省电力公司信息通信公司 一种云计算环境下的设备检测及故障预警系统及方法
CN107729205A (zh) * 2017-08-22 2018-02-23 国家电网公司 用于业务系统的故障处理方法和装置
CN110096406A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种故障事件发现方法和服务器
CN108490323A (zh) * 2018-03-21 2018-09-04 广东电网有限责任公司电力科学研究院 一种用于对变压器故障进行处理的系统及方法
CN109189640A (zh) * 2018-08-24 2019-01-11 平安科技(深圳)有限公司 服务器的监控方法、装置、计算机设备及存储介质
CN109359014A (zh) * 2018-09-04 2019-02-19 武汉华信联创技术工程有限公司 一种计算机运行状态监控方法、系统及存储介质
CN109144559A (zh) * 2018-09-26 2019-01-04 深圳壹账通智能科技有限公司 一种更新数据包的推送方法及服务器

Also Published As

Publication number Publication date
CN110674149A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN108845910B (zh) 大规模微服务系统的监控方法、装置及存储介质
CN108509323B (zh) 基于日志分析的业务处理方法、装置及计算机设备
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN109586952B (zh) 服务器扩容方法、装置
CN111143163B (zh) 数据监控方法、装置、计算机设备和存储介质
CN108834086B (zh) 短信发送的方法、装置、计算机设备和存储介质
CN110445650B (zh) 检测报警方法、设备及服务器
CN108073499B (zh) 应用程序的测试方法及装置
CN108763046B (zh) 线程运行监控方法、装置、计算机设备和存储介质
CN110763952A (zh) 地下电缆故障监测方法和装置
CN111427743A (zh) 一种bmc监控日志处理方法、装置、设备和介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN114996103A (zh) 页面异常检测方法、装置、电子设备和存储介质
CN108255703B (zh) 一种sql脚本的故障修复方法及其终端
CN110838940B (zh) 地下电缆巡检任务配置方法和装置
CN112070585A (zh) 订单状态统一管理方法、装置、计算机设备和存储介质
CN111710403A (zh) 医疗设备的监管方法、设备及可读存储介质
CN108255710B (zh) 一种脚本的异常检测方法及其终端
CN111062503A (zh) 一种电网监控告警处理方法、系统、终端及存储介质
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN107025148B (zh) 一种海量数据的处理方法和装置
CN112035322B (zh) Jvm监控方法及装置
CN111258860B (zh) 数据告警方法、装置、计算机设备和存储介质
CN111176930B (zh) 组件运行数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant