CN116204393A - 业务系统的风控管理方法及装置 - Google Patents

业务系统的风控管理方法及装置 Download PDF

Info

Publication number
CN116204393A
CN116204393A CN202211686099.6A CN202211686099A CN116204393A CN 116204393 A CN116204393 A CN 116204393A CN 202211686099 A CN202211686099 A CN 202211686099A CN 116204393 A CN116204393 A CN 116204393A
Authority
CN
China
Prior art keywords
index data
index
sub
service system
acquisition time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211686099.6A
Other languages
English (en)
Inventor
姬照中
付迎鑫
刘桥
槐正
王健
徐锐
徐蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211686099.6A priority Critical patent/CN116204393A/zh
Publication of CN116204393A publication Critical patent/CN116204393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种业务系统的风控管理方法及装置。其中,该方法包括:周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。本申请解决了相关技术无法准确预测业务系统中的故障,导致业务系统运行的稳定性较差的技术问题。

Description

业务系统的风控管理方法及装置
技术领域
本申请涉及软件应用技术领域,具体而言,涉及一种业务系统的风控管理方法及装置。
背景技术
随着业务支撑服务能力的不断提升,业务系统面临的业务压力也越来越大,因此,对于业务系统运行的可靠性和稳定性的要求也越来越高。
当前,软件服务面临各种各样问题,如对人的依赖性高,被动接收故障信息,缺少性能指标数据等,使得软件相关的业务应用在运行过程中发生诸多障碍,且难以快速定位故障原因,从而导致大多数基本业务应用无法顺序开展。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种业务系统的风控管理方法及装置,以至少解决相关技术无法准确预测业务系统中的故障,导致业务系统运行的稳定性较差的技术问题。
根据本申请实施例的一个方面,提供了一种业务系统的风控管理方法,包括:周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。
可选地,业务级指标至少包括以下子指标之一:登录成功率、登录平均响应时长、登录成功数、登录失败数、登录慢请求数、查询成功率、查询平均响应时长、查询慢请求数;系统级指标至少包括以下子指标之一:虚拟机的内存、可用内存、堆内存、初始堆内存、使用堆内存、线程数、线程峰值、守护线程数以及硬件设备的处理器核心数、平均负载值、硬件内存;运维指标至少包括以下子指标之一:接口成功率、接口平均响应时长、通信失败数、接口慢请求数;缓存指标至少包括以下子指标之一:缓存使用内存、缓存内存碎片量、客户端连接数、缓存键值总数、平均每秒处理请求数、缓存命中率、CPU使用率;数据库指标至少包括以下子指标之一:数据库连接数、数据库活跃连接数、数据库进程数、数据库阻塞进程数。
可选地,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常,包括:获取多个历史采集时刻采集的多组历史指标数据;依据多组历史指标数据和第一指标数据确定指标数据的走向趋势,并依据指标数据的走向趋势确定下一采集时刻的预测指标数据;判断预测指标数据是否异常,若异常,则预测第二指标数据异常;若正常,则预测第二指标数据正常。
可选地,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果,包括:确定第二指标数据中每类指标数据的第一权重和每类指标数据中的每个子指标的第二权重;对于每类指标数据,依据每类指标数据中的每个子指标及每个子指标的第二权重确定每类指标数据的子评分;依据每类指标数据的子评分和每类指标数据的第一权重确定业务系统的总评分;将每类指标数据的子评分及业务系统的总评分记录为目标评分结果。
可选地,依据每类指标数据中的每个子指标及每个子指标的第二权重确定每类指标数据的子评分,包括:对于每个子指标,从历史指标数据中确定多个与子指标对应的历史子指标,其中,历史子指标与子指标的采集日期不同,采集时刻相同;计算多个历史子指标的平均值,并计算子指标与平均值的第一差值,计算第一差值与子指标的比值,并将1与比值的第二差值作为子指标的指标系数;依据每类指标数据中的每个子指标的指标系数及每个子指标的第二权重确定每类指标数据的子评分。
可选地,对业务系统执行与目标评分结果对应的目标管理操作,包括:从预设的管理操作映射表中确定与目标评分结果对应的目标管理操作,其中,管理操作映射表中存储有多种评分结果与多种管理操作之间的映射关系,管理操作至少包括以下之一:告警,重启,扩容,缩容;执行目标管理操作,并将管理操作日志写入业务系统的数据库。
可选地,对业务系统执行与目标评分结果对应的目标管理操作,包括:在任意一类指标数据的子评分低于第一预设阈值时,发出告警信息,告警信息用于提示业务系统存在异常;在业务级指标的子评分低于第二预设阈值,业务系统的接口可用且接口平均响应时长大于第三预设阈值时,对业务系统进行重启;在系统级指标的子评分低于第四预设阈值,业务系统的接口可用且接口平均响应时长大于第三预设阈值时,调用预设的扩容脚本对业务系统进行扩容操作;在业务系统的总评分高于第五预设阈值时,调用预设的缩容脚本对业务系统进行缩容操作。
根据本申请实施例的另一方面,还提供了一种业务系统的风控管理装置,包括:采集模块,用于周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;预测模块,用于在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;评分模块,用于在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;执行模块,用于对业务系统执行与目标评分结果对应的目标管理操作。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,非易失性存储介质所在设备通过运行该程序执行上述的业务系统的风控管理方法。
根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的业务系统的风控管理方法。
在本申请实施例中,周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。其中,通过对业务系统的指标数据进行采集和分析,并依据分析结果执行目标管理操作,有效提升业务系统运行的稳定性,进而解决了相关技术无法准确预测业务系统中的故障,导致业务系统运行的稳定性较差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的业务系统的风控管理方法的流程图;
图2是根据本申请实施例的一种可选的业务系统内异常指标数据的示意图;
图3是根据本申请实施例的一种可选的业务系统的风控管理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,提供了一种业务系统的风控管理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种可选的业务系统的风控管理方法的流程示意图,如图1所示,该方法至少包括步骤S102-S108,其中:
步骤S102,周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标。
在本发明上述步骤S102提供的技术方案中,采集业务系统的业务级指标、系统级指标、运维指标、数据库指标和缓存指标均存储于数据库中,便于后续对系统服务进行监控。
其中,业务级指标数据与登录行为相关,比如免密登录、IMSI(InternationalMobile Subscriber Identity,国际移动用户识别码)登录、Token(令牌)登录、UAM(Universal Access Management,通用访问管理)登录、短信登录等,另外,业务级指标数据还与查询行为相关;系统级指标数据与JVM(Java Virtual Machine,Java虚拟机)监控,另外,系统级指标数据还与硬件监控相关;运维指标与接口监控相关。
步骤S104,在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常。
在本发明上述步骤S104提供的技术方案中,历史指标数据、第二指标数据与第一指标数据采集的指标内容均包含步骤S102中的指标数据的类型,通过对比当前时刻的指标数据和历史时刻的指标数据,使得可以根据变化趋势,预测下一时刻的指标数据并确认下一时刻的指标数据是否正常,从而可以对业务系统可能存在的故障进行预先判断。
步骤S106,在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果。
在本发明上述步骤S106提供的技术方案中,在确认下一时刻的第二指标数据异常时,可以计算与第二指标数据对应的事件的健康等级,对业务系统进行评分,从而确定业务系统的健康状态,其中,目标评分结果的范围在0~100分之间。
步骤S108,对业务系统执行与目标评分结果对应的目标管理操作。
在本发明上述步骤S106提供的技术方案中,业务系统存在扩容、监控、告警等管理处理,因此,在计算得到目标评分结果后,可以根据目标评分结果对应的目标管理操作。
在本申请实施例中,周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。其中,通过对业务系统的指标数据进行采集和分析,并依据分析结果执行目标管理操作,有效提升业务系统运行的稳定性,进而解决了相关技术无法准确预测业务系统中的故障,导致业务系统运行的稳定性较差的技术问题。
下面对该实施例的上述方法进行进一步地介绍。
作为一种可选的实施方式,在本发明上述步骤S102提供的技术方案中,业务级指标至少包括以下子指标之一:登录成功率、登录平均响应时长、登录成功数、登录失败数、登录慢请求数、查询成功率、查询平均响应时长、查询慢请求数;系统级指标至少包括以下子指标之一:虚拟机的内存、可用内存、堆内存、初始堆内存、使用堆内存、线程数、线程峰值、守护线程数以及硬件设备的处理器核心数、平均负载值、硬件内存;运维指标至少包括以下子指标之一:接口成功率、接口平均响应时长、通信失败数、接口慢请求数;缓存指标至少包括以下子指标之一:缓存使用内存、缓存内存碎片量、客户端连接数、缓存键值总数、平均每秒处理请求数、缓存命中率、CPU使用率;数据库指标至少包括以下子指标之一:数据库连接数、数据库活跃连接数、数据库进程数、数据库阻塞进程数。
在该实施例中,在业务级指标与登录行为相关时,其相关子指标包括:登录成功率、登录平均响应时长、登录成功数、登录失败数、登录慢请求数,其中,登录成功率的表达式为:登录成功率=登录成功数/登录总次数;登录平均响应时长的表达式为:登录平均响应时长=每分钟内登录请求总时长/每分钟总登录请求次数;登录慢请求数为每分钟登录请求时长超过3s的次数。而在业务级指标与查询行为相关时,其相关子指标包括:查询成功率、查询平均响应时长、查询慢请求数,其中,查询成功率的表达式为:查询成功率=查询成功数/查询总数;查询平均响应时长的表达式为:查询平均响应时长=每分钟内查询请求总时长/每分钟总查询请求次数;查询慢请求数为每分钟查询请求时长超过3s的次数。
在系统级指标与虚拟机监控相关时,其相关子指标包括:虚拟机的内存、可用内存、堆内存、初始堆内存、使用堆内存、线程数、线程峰值、守护线程数。而在系统级指标与硬件监控相关时,其相关子指标包括:处理器核心数、平均负载值、硬件内存。
在运维指标与接口监控相关时,其相关子指标包括:接口成功率、接口平均响应时长、通信失败数、接口慢请求数,其中,接口成功率的表达式为:接口成功率=每分钟底层接口成功数/每分钟请求底层接口总数;接口平均响应时长的表达式为:接口平均响应时长=每分钟底层接口响应总时长/每分钟总请求次数;通信失败数的表达式为:通信失败数=每分钟失败总数。
另外,数据库连接数表示有多少连接在数据库上,形容数据库繁忙程度;数据库活跃连接数表示目前有多少连接在数据库上正在执行操作;数据库进程数表示业务系统有多少后台进程,其理论上与数据库连接数反应的问题相似;数据库阻塞进程数表示数据库发生阻塞的进程数,其一般由于资源竞争引起。
举例而言,图2是根据本申请实施例的一种可选的业务系统内异常指标数据的示意图,由图2可知,业务级指标用于反映客户端侧的各类数据,系统级指标用于反映客户端后台侧的各类数据,运维指标用于反映底层平台侧的各类数据,缓存指标用于反映Redis缓存的各类数据,数据库指标用于反映数据库侧的各类数据。
作为一种可选的实施方式,在本发明上述步骤S104提供的技术方案中,该方法包括:获取多个历史采集时刻采集的多组历史指标数据;依据多组历史指标数据和第一指标数据确定指标数据的走向趋势,并依据指标数据的走向趋势确定下一采集时刻的预测指标数据;判断预测指标数据是否异常,若异常,则预测第二指标数据异常;若正常,则预测第二指标数据正常。
在该实施例中,由于业务系统对指标数据进行周期性地采集,从而可以根据多组历史时刻采集的指标数据,并将多组历史指标数据与当前时刻的第一指标数据进行比对,得到指标数据的走向趋势,从而可以通过指标数据的走向趋势确定预测指标数据是否正常,若预测指标数据正常,则说明下一时刻的第二指标数据正常,反之则异常。该方案在历史指标数据和当前指标数据的基础上,通过指标数据的走向趋势准确地预测业务系统的未来指标数据。
另外,在每个采集时刻预测第二指标数据异常时,业务系统会将其存入业务数据库中进行记录存储,并创建一个的事件对异常的第二指标数据进行标注,后续业务系统可以对异常第二指标数据对应的事件进行识别和处理,直至事件结束,从而完成对业务系统的风险管控,提升业务系统运行的可靠性和稳定性。
作为一种可选的实施方式,在本发明上述步骤S106提供的技术方案中,该方法包括:确定第二指标数据中每类指标数据的第一权重和每类指标数据中的每个子指标的第二权重;对于每类指标数据,依据每类指标数据中的每个子指标及每个子指标的第二权重确定每类指标数据的子评分;依据每类指标数据的子评分和每类指标数据的第一权重确定业务系统的总评分;将每类指标数据的子评分及业务系统的总评分记录为目标评分结果。
在该实施例中,首先依据每类指标数据中的每个子指标及每个子指标的第二权重计算每类指标数据的子评分,其中,各个子指标数据的第二权重可以根据实际影响业务的重要程度进行赋值,且其值可以随时进行调整;接着,依据第二指标数据中每类指标数据的第一权重和每类指标数据的子评分计算业务系统的总评分;最后,将业务系统的总评分和每类指标数据的子评分记为目标评分结果,其中,各类指标数据的第一权重各不相同,具体按照登录类型的不同,每个子指标数据的第二权重也不相同。
可选地,可以通过如下方式确定每类指标数据的子评分:对于每个子指标,从历史指标数据中确定多个与子指标对应的历史子指标,其中,历史子指标与子指标的采集日期不同,采集时刻相同;计算多个历史子指标的平均值,并计算子指标与平均值的第一差值,计算第一差值与子指标的比值,并将1与比值的第二差值作为子指标的指标系数;依据每类指标数据中的每个子指标的指标系数及每个子指标的第二权重确定每类指标数据的子评分。
具体地,以数据级指标为例,对确定数据级指标的子评分的详细过程进行说明。
设定数据级指标中的各个子指标分别为:数据库连接数用a表示,数据库活跃连接数用b表示,数据库进程数用c表示,数据库阻塞进程数用d表示,并设定各个子指标数据的第二权重为:aw=30bw=10cw=10dw=20。接着,从上个月以及昨日的同时刻对应的历史指标数据中确定多个与子指标对应的历史子指标,将昨日的同时刻对应的历史指标数据分别记为:数据库连接数a1、数据库活跃连接数b1、数据库进程数用c1和数据库阻塞进程数d1,并将上个月同时刻对应的历史指标数据分别记为:数据库连接数a2、数据库活跃连接数b2、数据库进程数用c2和数据库阻塞进程数d2;然后,确定昨日的同时刻对应的历史指标数据与上个月同时刻对应的历史指标数据的平均值,计算子指标与平均值的第一差值,并将1与比值的第二差值作为子指标的指标系数,则各个子指标的指标系数的计算公式如下:
Figure BDA0004021225730000081
Figure BDA0004021225730000082
Figure BDA0004021225730000083
Figure BDA0004021225730000084
最后,每个子指标的指标系数ap、bp、cp、dp及每个子指标的第二权重aw、bw、cw、dw,确定每类指标数据的子评分y,其中y的表达式可以写作:
y=ap*aw+bp*bw+cp*cw+dp*dw
进一步地,在计算每类指标数据的子评分y之后,再依据每类指标数据的子评分和每类指标数据的第一权重确定业务系统的总评分y,则y的表达式为:
y=y1*y1w+y2*y2w+…+yn*ynw
其中,y1,y2,…,yn分别表示每类指标数据的子评分,y1w,y2w,…,ynw分别表示每类指标数据的第一权重。
作为一种可选的实施方式,在本发明上述步骤S108提供的技术方案中,该方法包括:从预设的管理操作映射表中确定与目标评分结果对应的目标管理操作,其中,管理操作映射表中存储有多种评分结果与多种管理操作之间的映射关系,管理操作至少包括以下之一:告警,重启,扩容,缩容;执行目标管理操作,并将管理操作日志写入业务系统的数据库。
可选地,在任意一类指标数据的子评分低于第一预设阈值时,发出告警信息,告警信息用于提示业务系统存在异常;在业务级指标的子评分低于第二预设阈值,业务系统的接口可用且接口平均响应时长大于第三预设阈值时,对业务系统进行重启;在系统级指标的子评分低于第四预设阈值,业务系统的接口可用且接口平均响应时长大于第三预设阈值时,调用预设的扩容脚本对业务系统进行扩容操作;在业务系统的总评分高于第五预设阈值时,调用预设的缩容脚本对业务系统进行缩容操作。
在该实施例中,在任意一类指标数据的子评分低于85分时,触发告警操作,并将告警信息触达开发运维人员,以提示业务系统存在异常;在业务级指标的子评分低于50分,且Load值、内存等指标严重异常,利用工具调用服务接口状态为可用,但接口响应速度慢时,说明客户端后台接口存在严重异常,此时调用业务集群预置的重启脚本,对业务系统进行重启操作;在系统级指标的子评分低于40分,利用工具调用服务接口状态为可用且接口响应速度接口平均响应时长3分钟时,调用预设的扩容脚本对业务系统进行扩容操作;在业务系统的总评分高于95分时,调用预设的缩容脚本对业务系统进行缩容操作。
通过上述步骤,基于预测指标数据的走向趋势确定预测指标数据是否异常,并根据异常指标数据计算目标评分结果,确定最终目标管理操作,从而确保对业务系统中可能出现故障的指标数据进行排查和管理,实现业务系统的可靠稳定运行。
实施例2
根据本申请实施例,还提供了一种用于实现实施例1中的业务系统的风控管理方法的业务系统的风控管理装置,图3是根据本申请实施例的一种可选的业务系统的风控管理装置的结构示意图,如图3所示,该业务系统的风控管理装置中至少包括采集模块31,预测模块32,评分模块33和(执行模块34,其中:
采集模块31,用于周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标。
可选地,采集模块31采集的指标数据中包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标,其中:
业务级指标至少包括以下子指标之一:登录成功率、登录平均响应时长、登录成功数、登录失败数、登录慢请求数、查询成功率、查询平均响应时长、查询慢请求数;
系统级指标至少包括以下子指标之一:虚拟机的内存、可用内存、堆内存、初始堆内存、使用堆内存、线程数、线程峰值、守护线程数以及硬件设备的处理器核心数、平均负载值、硬件内存;运维指标至少包括以下子指标之一:接口成功率、接口平均响应时长、通信失败数、接口慢请求数;
缓存指标至少包括以下子指标之一:缓存使用内存、缓存内存碎片量、客户端连接数、缓存键值总数、平均每秒处理请求数、缓存命中率、CPU使用率;
数据库指标至少包括以下子指标之一:数据库连接数、数据库活跃连接数、数据库进程数、数据库阻塞进程数。
具体地,在业务级指标与登录行为相关时,其相关子指标包括:登录成功率、登录平均响应时长、登录成功数、登录失败数、登录慢请求数,其中,登录成功率的表达式为:登录成功率=登录成功数/登录总次数;登录平均响应时长的表达式为:登录平均响应时长=每分钟内登录请求总时长/每分钟总登录请求次数;登录慢请求数为每分钟登录请求时长超过3s的次数。而在业务级指标与查询行为相关时,其相关子指标包括:查询成功率、查询平均响应时长、查询慢请求数,其中,查询成功率的表达式为:查询成功率=查询成功数/查询总数;查询平均响应时长的表达式为:查询平均响应时长=每分钟内查询请求总时长/每分钟总查询请求次数;查询慢请求数为每分钟查询请求时长超过3s的次数。
在系统级指标与虚拟机监控相关时,其相关子指标包括:虚拟机的内存、可用内存、堆内存、初始堆内存、使用堆内存、线程数、线程峰值、守护线程数。而在系统级指标与硬件监控相关时,其相关子指标包括:处理器核心数、平均负载值、硬件内存。
在运维指标与接口监控相关时,其相关子指标包括:接口成功率、接口平均响应时长、通信失败数、接口慢请求数,其中,接口成功率的表达式为:接口成功率=每分钟底层接口成功数/每分钟请求底层接口总数;接口平均响应时长的表达式为:接口平均响应时长=每分钟底层接口响应总时长/每分钟总请求次数;通信失败数的表达式为:通信失败数=每分钟失败总数。
另外,数据库连接数表示有多少连接在数据库上,形容数据库繁忙程度;数据库活跃连接数表示目前有多少连接在数据库上正在执行操作;数据库进程数表示业务系统有多少后台进程,其理论上与数据库连接数反应的问题相似;数据库阻塞进程数表示数据库发生阻塞的进程数,其一般由于资源竞争引起。
预测模块32,用于在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常。
作为一种可选的实施方式,预测模块32可以通过如下方式预测下一采集时刻的第二指标数据是否异常:获取多个历史采集时刻采集的多组历史指标数据;依据多组历史指标数据和第一指标数据确定指标数据的走向趋势,并依据指标数据的走向趋势确定下一采集时刻的预测指标数据;判断预测指标数据是否异常,若异常,则预测第二指标数据异常;若正常,则预测第二指标数据正常。
在该实施例中,由于业务系统对指标数据进行周期性地采集,从而可以根据多组历史时刻采集的指标数据,并将多组历史指标数据与当前时刻的第一指标数据进行比对,得到指标数据的走向趋势,从而可以通过指标数据的走向趋势确定预测指标数据是否正常,若预测指标数据正常,则说明下一时刻的第二指标数据正常,反之则异常。该方案在历史指标数据和当前指标数据的基础上,通过指标数据的走向趋势准确地预测业务系统的未来指标数据。
另外,在每个采集时刻预测第二指标数据异常时,业务系统会将其存入业务数据库中进行记录存储,并创建一个的事件对异常的第二指标数据进行标注,后续业务系统可以对异常第二指标数据对应的事件进行识别和处理,直至事件结束,从而完成对业务系统的风险管控,提升业务系统运行的可靠性和稳定性。
评分模块33,用于在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果。
作为一种可选的实施方式,评分模块33可以通过如下方式确定目标评分结果:确定第二指标数据中每类指标数据的第一权重和每类指标数据中的每个子指标的第二权重;对于每类指标数据,依据每类指标数据中的每个子指标及每个子指标的第二权重确定每类指标数据的子评分;依据每类指标数据的子评分和每类指标数据的第一权重确定业务系统的总评分;将每类指标数据的子评分及业务系统的总评分记录为目标评分结果。
在该实施例中,首先依据每类指标数据中的每个子指标及每个子指标的第二权重计算每类指标数据的子评分,其中,各个子指标数据的第二权重可以根据实际影响业务的重要程度进行赋值,且其值可以随时进行调整;接着,依据第二指标数据中每类指标数据的第一权重和每类指标数据的子评分计算业务系统的总评分;最后,将业务系统的总评分和每类指标数据的子评分记为目标评分结果,其中,各类指标数据的第一权重各不相同,具体按照登录类型的不同,每个子指标数据的第二权重也不相同。
可选地,可以通过如下方式确定每类指标数据的子评分:对于每个子指标,从历史指标数据中确定多个与子指标对应的历史子指标,其中,历史子指标与子指标的采集日期不同,采集时刻相同;计算多个历史子指标的平均值,并计算子指标与平均值的第一差值,计算第一差值与子指标的比值,并将1与比值的第二差值作为子指标的指标系数;依据每类指标数据中的每个子指标的指标系数及每个子指标的第二权重确定每类指标数据的子评分。
执行模块34,用于对业务系统执行与目标评分结果对应的目标管理操作。
作为一种可选的实施方式,执行模块34可以通过如下方式确定与目标评分结果对应的目标管理操作:从预设的管理操作映射表中确定与目标评分结果对应的目标管理操作,其中,管理操作映射表中存储有多种评分结果与多种管理操作之间的映射关系,管理操作至少包括以下之一:告警,重启,扩容,缩容;执行目标管理操作,并将管理操作日志写入业务系统的数据库。
可选地,在任意一类指标数据的子评分低于第一预设阈值时,发出告警信息,告警信息用于提示业务系统存在异常;在业务级指标的子评分低于第二预设阈值,业务系统的接口可用且接口平均响应时长大于第三预设阈值时,对业务系统进行重启;在系统级指标的子评分低于第四预设阈值,业务系统的接口可用且接口平均响应时长大于第三预设阈值时,调用预设的扩容脚本对业务系统进行扩容操作;在业务系统的总评分高于第五预设阈值时,调用预设的缩容脚本对业务系统进行缩容操作。
需要说明的是,本申请实施例中的业务系统的风控管理装置中的各模块与实施例1中的业务系统的风控管理方法的各实施步骤一一对应,由于实施例1中已经进行了详尽的描述,本实施例中部分未体现的细节可以参考实施例1,在此不再过多赘述。
实施例3
根据本申请实施例,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,非易失性存储介质所在设备通过运行该程序执行实施例1中的业务系统的风控管理方法。
具体地,非易失性存储介质所在设备通过运行该程序执行实现以下步骤:周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。
根据本申请实施例,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行实施例1中的业务系统的风控管理方法。
具体地,程序运行时执行实现以下步骤:周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。
根据本申请实施例,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行实施例1中的业务系统的风控管理方法。
具体地,处理器被配置为通过计算机程序执行实现以下步骤:周期性采集业务系统的指标数据,其中,指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;在预测第二指标数据异常时,依据下一采集时刻采集的第二指标数据对业务系统进行评分,得到用于反映业务系统健康状态的目标评分结果;对业务系统执行与目标评分结果对应的目标管理操作。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种业务系统的风控管理方法,其特征在于,包括:
周期性采集业务系统的指标数据,其中,所述指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;
在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;
在预测所述第二指标数据异常时,依据所述下一采集时刻采集的所述第二指标数据对所述业务系统进行评分,得到用于反映所述业务系统健康状态的目标评分结果;
对所述业务系统执行与所述目标评分结果对应的目标管理操作。
2.根据权利要求1所述的方法,其特征在于,
所述业务级指标至少包括以下子指标之一:登录成功率、登录平均响应时长、登录成功数、登录失败数、登录慢请求数、查询成功率、查询平均响应时长、查询慢请求数;
所述系统级指标至少包括以下子指标之一:虚拟机的内存、可用内存、堆内存、初始堆内存、使用堆内存、线程数、线程峰值、守护线程数以及硬件设备的处理器核心数、平均负载值、硬件内存;
所述运维指标至少包括以下子指标之一:接口成功率、接口平均响应时长、通信失败数、接口慢请求数;
所述缓存指标至少包括以下子指标之一:缓存使用内存、缓存内存碎片量、客户端连接数、缓存键值总数、平均每秒处理请求数、缓存命中率、CPU使用率;
所述数据库指标至少包括以下子指标之一:数据库连接数、数据库活跃连接数、数据库进程数、数据库阻塞进程数。
3.根据权利要求1所述的方法,其特征在于,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常,包括:
获取多个历史采集时刻采集的多组所述历史指标数据;
依据多组所述历史指标数据和所述第一指标数据确定指标数据的走向趋势,并依据所述指标数据的走向趋势确定所述下一采集时刻的预测指标数据;
判断所述预测指标数据是否异常,若异常,则预测所述第二指标数据异常;若正常,则预测所述第二指标数据正常。
4.根据权利要求1所述的方法,其特征在于,依据所述下一采集时刻采集的所述第二指标数据对所述业务系统进行评分,得到用于反映所述业务系统健康状态的目标评分结果,包括:
确定所述第二指标数据中每类指标数据的第一权重和所述每类指标数据中的每个子指标的第二权重;
对于所述每类指标数据,依据所述每类指标数据中的每个所述子指标及每个所述子指标的所述第二权重确定所述每类指标数据的子评分;
依据所述每类指标数据的所述子评分和所述每类指标数据的所述第一权重确定所述业务系统的总评分;
将所述每类指标数据的所述子评分及所述业务系统的所述总评分记录为所述目标评分结果。
5.根据权利要求4所述的方法,其特征在于,依据所述每类指标数据中的每个所述子指标及每个所述子指标的所述第二权重确定所述每类指标数据的子评分,包括:
对于每个所述子指标,从所述历史指标数据中确定多个与所述子指标对应的历史子指标,其中,所述历史子指标与所述子指标的采集日期不同,采集时刻相同;
计算多个所述历史子指标的平均值,并计算所述子指标与所述平均值的第一差值,计算所述第一差值与所述子指标的比值,并将1与所述比值的第二差值作为所述子指标的指标系数;
依据所述每类指标数据中的每个所述子指标的所述指标系数及每个所述子指标的所述第二权重确定所述每类指标数据的子评分。
6.根据权利要求4所述的方法,其特征在于,对所述业务系统执行与所述目标评分结果对应的目标管理操作,包括:
从预设的管理操作映射表中确定与所述目标评分结果对应的所述目标管理操作,其中,所述管理操作映射表中存储有多种评分结果与多种管理操作之间的映射关系,所述管理操作至少包括以下之一:告警,重启,扩容,缩容;
执行所述目标管理操作,并将管理操作日志写入所述业务系统的数据库。
7.根据权利要求6所述的方法,其特征在于,对所述业务系统执行与所述目标评分结果对应的目标管理操作,包括:
在任意一类指标数据的所述子评分低于第一预设阈值时,发出告警信息,所述告警信息用于提示所述业务系统存在异常;
在所述业务级指标的所述子评分低于第二预设阈值,所述业务系统的接口可用且接口平均响应时长大于所述第三预设阈值时,对所述业务系统进行重启;
在所述系统级指标的所述子评分低于第四预设阈值,所述业务系统的接口可用且接口平均响应时长大于所述第三预设阈值时,调用预设的扩容脚本对所述业务系统进行扩容操作;
在所述业务系统的所述总评分高于第五预设阈值时,调用预设的缩容脚本对所述业务系统进行缩容操作。
8.一种业务系统的风控管理装置,其特征在于,包括:
采集模块,用于周期性采集业务系统的指标数据,其中,所述指标数据的类型至少包括:业务级指标、系统级指标、运维指标、数据库指标和缓存指标;
预测模块,用于在每个采集时刻,依据当前采集时刻采集的第一指标数据和历史采集时刻采集的历史指标数据预测下一采集时刻的第二指标数据是否异常;
评分模块,用于在预测所述第二指标数据异常时,依据所述下一采集时刻采集的所述第二指标数据对所述业务系统进行评分,得到用于反映所述业务系统健康状态的目标评分结果;
执行模块,用于对所述业务系统执行与所述目标评分结果对应的目标管理操作。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述非易失性存储介质所在设备通过运行所述程序执行权利要求1至7中任意一项所述的业务系统的风控管理方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被配置为通过所述计算机程序执行权利要求1至7中任意一项所述的业务系统的风控管理方法。
CN202211686099.6A 2022-12-27 2022-12-27 业务系统的风控管理方法及装置 Pending CN116204393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211686099.6A CN116204393A (zh) 2022-12-27 2022-12-27 业务系统的风控管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211686099.6A CN116204393A (zh) 2022-12-27 2022-12-27 业务系统的风控管理方法及装置

Publications (1)

Publication Number Publication Date
CN116204393A true CN116204393A (zh) 2023-06-02

Family

ID=86508555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211686099.6A Pending CN116204393A (zh) 2022-12-27 2022-12-27 业务系统的风控管理方法及装置

Country Status (1)

Country Link
CN (1) CN116204393A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806902A (zh) * 2023-11-16 2024-04-02 三峡国际能源投资集团有限公司 一种状态监控管理系统、方法、装置及存储介质
CN117834956A (zh) * 2023-12-18 2024-04-05 北京联广通网络科技有限公司 一种资源分发回源的直播视频加速系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806902A (zh) * 2023-11-16 2024-04-02 三峡国际能源投资集团有限公司 一种状态监控管理系统、方法、装置及存储介质
CN117834956A (zh) * 2023-12-18 2024-04-05 北京联广通网络科技有限公司 一种资源分发回源的直播视频加速系统及方法

Similar Documents

Publication Publication Date Title
CN116204393A (zh) 业务系统的风控管理方法及装置
CN112035404B (zh) 医疗数据监控与预警方法、装置、设备及存储介质
EP1812863B1 (en) Reporting of abnormal computer resource utilization data
CN102946319B (zh) 网络用户行为信息分析系统及其分析方法
US7509343B1 (en) System and method of collecting and reporting system performance metrics
US20160170818A1 (en) Adaptive fault diagnosis
US7783605B2 (en) Calculating cluster availability
CN112162907A (zh) 基于监控指标数据的健康度评估方法
CN101632093A (zh) 用于使用统计学分析来管理性能故障的系统和方法
CN101136805A (zh) 一种性能告警系统及其性能门限的获取方法
CN111857555B (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN106649856A (zh) 一种数据库访问装置、系统及方法
CN116418653A (zh) 基于多指标根因定位算法的故障定位方法及装置
JP5831849B2 (ja) 違反予兆条件設定支援システム、違反予兆条件設定支援方法および違反予兆条件設定支援プログラム
CN113419852A (zh) 微服务的请求响应方法、装置、设备及存储介质
CN114116398A (zh) 一种可视化监控预警方法、系统、存储介质及设备
CN113595776A (zh) 监控数据处理方法与系统
CN116302652A (zh) 系统报警信息的处理方法、装置及电子设备
CN110932935A (zh) 资源控制方法、装置、设备及计算机存储介质
CN109144800A (zh) 一种服务器故障信息的收集方法、装置及相关设备
CN113672652A (zh) 一种数据访问方法、装置、设备及存储介质
CN114428704A (zh) 全链路分布式监控的方法、装置、计算机设备和存储介质
CN109766243A (zh) 一种基于幂函数的多核主机性能监控方法
CN115396341B (zh) 服务稳定性的评估方法、装置、存储介质及电子装置
CN1806246A (zh) 用于使用编排好格式的数据文件监控网络设备的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination