CN116401127B - 信息系统健康状态的监测方法、装置和电子设备 - Google Patents

信息系统健康状态的监测方法、装置和电子设备 Download PDF

Info

Publication number
CN116401127B
CN116401127B CN202310653954.1A CN202310653954A CN116401127B CN 116401127 B CN116401127 B CN 116401127B CN 202310653954 A CN202310653954 A CN 202310653954A CN 116401127 B CN116401127 B CN 116401127B
Authority
CN
China
Prior art keywords
transaction
information
time
important
success rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310653954.1A
Other languages
English (en)
Other versions
CN116401127A (zh
Inventor
李泽龙
陈景荣
何良玉
林锋
罗烨敏
黄志刚
陈帆
詹军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meizhou Merchants Bank Co ltd
Original Assignee
Meizhou Merchants Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meizhou Merchants Bank Co ltd filed Critical Meizhou Merchants Bank Co ltd
Priority to CN202310653954.1A priority Critical patent/CN116401127B/zh
Publication of CN116401127A publication Critical patent/CN116401127A/zh
Application granted granted Critical
Publication of CN116401127B publication Critical patent/CN116401127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了信息系统健康状态的监测方法、装置和电子设备,属于数据监测技术领域。所述方法包括:采集信息系统提供服务时的信息;对采集到的信息进行统计分析得到多维度监测信息;将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;对各个维度的监测信息以及对应的告警信息分别进行可视化展示。本发明通过可视化展示以及告警信息,从系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率等多维度对信息系统的健康状态进行监控,提高了监控力度,解决了现有技术中监控不到位的问题,使得当信息系统出现健康问题时能及时预防,减少系统故障对业务的影响。

Description

信息系统健康状态的监测方法、装置和电子设备
技术领域
本发明涉及数据监测技术领域,尤其涉及一种信息系统健康状态的监测方法、装置和电子设备。
背景技术
随着数字化技术在生产和生活中的大量应用,信息系统的使用频率越来越高,处理的数据量越来越多,非常容易出现故障。而一旦信息系统出现故障,将会给生产生活带来严重的影响。因此,对信息系统进行监测,以保证其处于比较良好的健康状态是非常重要的课题。
目前,对信息系统健康状态的监测方法主要是通过对CPU利用率、内存使用率、应用系统进程及端口进行监控来判断系统的健康状态。但是,实践中发现,当CPU及内存的利用率并不高,而且应用系统进程及端口处于健康状态时,信息系统也会发生故障的情况。可见,现有技术中采用的对CPU利用率、内存使用率、应用系统进程及端口进行监测的方法,并不能对信息系统的健康状态进行有效的监测。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种信息系统健康状态的监测方法,包括:
采集信息系统提供服务时的信息,所述信息包括全局流水号、交易耗时、交易状态、交易码、响应码以及响应信息;
对采集到的信息进行统计分析得到多维度监测信息,所述多维度监测信息包括:系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率;其中,所述重要交易通过重点监控的交易码进行确定;
将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;
对各个维度的监测信息以及对应的告警信息分别进行可视化展示;
其中,所述系统成功率包括当前成功率和平均成功率,分别按照如下公式进行计算:
,
其中,R为当前成功率,为系统在当前时间段内的交易量,/>为系统在当前时间段内的成功交易量;/>为系统在历史时间段内的交易量,/>为系统在历史时间段内的成功交易量,/>为平均成功率;
所述系统响应时间包括当前响应时间和平均响应时间,分别按照如下公式进行计算:
,
其中,t为当前响应时间,T n 为系统在当前时间段内的所有交易的耗时,为平均响应时间,/>为系统在历史时间段内的所有交易的耗时;
所述系统错误码比例按照如下方法确定:所述响应码包括正确码和错误码,统计每一个错误码在当前时间段内对应的交易量n,则系统错误码比例为n /C 1;
所述重要交易的响应时间包括重要交易的当前响应时间和重要交易的平均响应时间,分别按照如下公式进行计算:
,
其中,t i 为重要交易的当前响应时间,T i 为系统在当前时间段内的所有重要交易的交易耗时,C i 为系统在当前时间段内的重要交易的交易量;为重要交易的平均响应时间,为系统在历史时间段内的所有重要交易的交易耗时,/>为系统在历史时间段内的重要交易的交易量;
所述重要交易的成功率包括重要交易的当前成功率和重要交易的平均成功率,分别按照如下公式进行计算:
,
其中,R i 为重要交易的当前成功率,S i 为系统在当前时间段内的重要交易的成功交易量,为系统在历史时间段内的重要交易的成功交易量,/>为重要交易的平均成功率。
优选地,所述信息系统包括消费方信息系统和服务方信息系统,所述信息系统提供服务时的信息按照如下方法获取:
消费方信息系统在向服务方信息系统请求服务时,将全局流水号传给服务方信息系统;
服务方信息系统将全局流水号分别登记在交易耗时登记表以及交易流水表中,同时将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记录在交易流水表中;
利用在信息系统内部署的数据采集脚本采集信息系统提供服务时的信息。
优选地,所述交易耗时登记表由服务方信息系统按服务节点数目进行构造,且所述交易耗时登记表的结构为:全局流水号|交易码|总交易耗时|节点1编号|节点1耗时|节点2编号|节点2耗时|......|节点m编号|节点m耗时,其中m为服务方信息系统的服务节点数目。
优选地,所述服务方信息系统将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记录在交易流水表中包括:
服务方信息系统首先按照服务节点的顺序顺次进行交易请求的逻辑处理,并将对应的全局流水号、交易码、交易耗时、节点编号和节点耗时记录在交易耗时登记表中;然后在交易流水表中记录交易的流水,包括交易状态、交易码、响应码、响应信息和全局流水号。
优选地,所述将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息包括:
如果平均成功率或当前成功率小于对应的阈值,或平均成功率与当前成功率的差大于对应的波动阈值,则发送告警信息,进行系统成功率监控报警;
如果当前响应时间或平均响应时间大于对应的阈值,或当前响应时间与平均响应时间的差大于对应的波动阈值,则发送告警信息,进行系统响应时间监控报警;
如果重要交易的当前响应时间或重要交易的平均响应时间大于对应的阈值,或重要交易的当前响应时间与重要交易的平均响应时间的差大于对应的波动阈值,则发送告警信息,进行重要交易的响应时间监控报警;
如果重要交易的当前成功率或重要交易的平均成功率小于对应的阈值,或重要交易的平均成功率与重要交易的当前成功率的差大于对应的波动阈值,则发送告警信息,进行重要交易的成功率监控报警。
优选地,所述对各个维度的监测信息分别进行可视化展示包括:时间-系统交易量曲线展示图、时间-系统成功率曲线展示图、时间-系统响应时间曲线展示图、时间-重要交易的响应时间曲线展示图、时间-重要交易的成功率曲线展示图以及系统错误码信息列表;所述系统错误码信息列表展示当前时间段系统错误码信息,所述系统错误码信息包括错误码、错误信息以及错误码比例。
优选地,所述对各个维度的告警信息进行可视化展示包括:以列表展示各个维度的告警信息,列表包括告警时间和告警内容,以能够按时间查询告警内容。
本发明第二方面提供了一种用于实现第一方面所述方法的信息系统健康状态的监测装置,包括:
信息采集模块,用于采集信息系统提供服务时的信息,所述信息包括全局流水号、交易耗时、交易状态、交易码、响应码以及响应信息;
统计分析模块,用于对采集到的信息进行统计分析得到多维度监测信息,所述多维度监测信息包括:系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率;其中,所述重要交易通过重点监控的交易码进行确定;
多维度信息阈值设置和告警模块,用于将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;
信息展示模块,用于对各个维度的监测信息以及对应的告警信息分别进行可视化展示。
本发明第三方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的方法。
本发明第四方面提供了一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的方法。
本发明的有益效果是:本发明从多个维度入手,提供了一种利用多维度信息监控信息系统健康状态的方法、装置和电子设备,解决了目前监控信息系统不到位的问题。多维度信息包括系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率。另外,本发明还通过对多维度信息进行可视化展示以及判断告警等形式将信息推送给运维人员,以便信息系统的健康状态有问题时能够及时得到处理,减少系统故障对业务的影响。
附图说明
图1为本发明所述信息系统健康状态的监测方法流程示意图;
图2为本发明所述信息系统健康状态的监测方法实施过程示意图;
图3为本发明所述信息系统健康状态的监测装置功能结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种信息系统健康状态的监测方法,包括:
S101,采集信息系统提供服务时的信息,所述信息包括全局流水号、交易耗时、交易状态、交易码、响应码以及响应信息;
S102,对采集到的信息进行统计分析得到多维度监测信息,所述多维度监测信息包括:系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率;其中,所述重要交易通过重点监控的交易码进行确定;
S103,将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;
S104,对各个维度的监测信息以及对应的告警信息分别进行可视化展示;
其中,响应信息一般是指用中文描述的信息,响应码一般是数字编码,两者属于不同的信息。
所述系统成功率包括当前成功率和平均成功率,分别按照如下公式进行计算:
,
其中,R为当前成功率,为系统在当前时间段内的交易量,/>为系统在当前时间段内的成功交易量;/>为系统在历史时间段内的交易量,/>为系统在历史时间段内的成功交易量,/>为平均成功率;
所述系统响应时间包括当前响应时间和平均响应时间,分别按照如下公式进行计算:
,
其中,t为当前响应时间,T n 为系统在当前时间段内的所有交易的耗时,为平均响应时间,/>为系统在历史时间段内的所有交易的耗时;
所述系统错误码比例按照如下方法确定:所述响应码包括正确码和错误码,统计每一个错误码在当前时间段内对应的交易量n,则系统错误码比例为n /C 1
所述重要交易的响应时间包括重要交易的当前响应时间和重要交易的平均响应时间,分别按照如下公式进行计算:
,
其中,t i 为重要交易的当前响应时间,T i 为系统在当前时间段内的所有重要交易的交易耗时,C i 为系统在当前时间段内的重要交易的交易量;为重要交易的平均响应时间,为系统在历史时间段内的所有重要交易的交易耗时,/>为系统在历史时间段内的重要交易的交易量;
所述重要交易的成功率包括重要交易的当前成功率和重要交易的平均成功率,分别按照如下公式进行计算:
,
其中,R i 为重要交易的当前成功率,S i 为系统在当前时间段内的重要交易的成功交易量,为系统在历史时间段内的重要交易的成功交易量,/>为重要交易的平均成功率。
其中,在步骤S101中,所述信息系统包括消费方信息系统和服务方信息系统,所述信息系统提供服务时的信息可以按照如下方法获取:
消费方信息系统在向服务方信息系统请求服务时,将全局流水号传给服务方信息系统;
服务方信息系统将全局流水号分别登记在交易耗时登记表以及交易流水表中,同时将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记录在交易流水表中;
利用在信息系统内部署的数据采集脚本采集信息系统提供服务时的信息。
其中,所述交易耗时登记表由服务方信息系统按服务节点数目进行构造,且所述交易耗时登记表的结构为:全局流水号|交易码|总交易耗时|节点1编号|节点1耗时|节点2编号|节点2耗时|......|节点m编号|节点m耗时,其中m为服务方信息系统的服务节点数目。
在具体实施过程中,服务方信息系统首先按照服务节点的顺序顺次进行交易请求的逻辑处理,并将对应的全局流水号、总交易耗时和节点耗时(比如节点1耗时,节点2耗时......节点m耗时)等记录在交易耗时登记表中,同时还可以记录交易码和节点编号等信息;然后在交易流水表中记录交易的流水,包括交易状态、交易码、响应码、响应信息和全局流水号。具体的可以按照如下步骤进行数据登记:
S11,服务节点1接收到交易请求时,向服务器请求当前时间戳T1,在完成本身逻辑处理后,将全局流水号以及交易请求数据继续转发给服务节点2,在收到服务节点2的响应数据并完成对数据对的加工处理后,继续向服务器请求当前时间戳T2,此时,节点1的耗时为T2-T1。服务节点1将全局流水号、交易码、总交易耗时、节点1编号、节点1耗时记录入数据库的交易耗时登记表中。
S12,类似的,服务节点2接收到节点1交易请求时,向服务器请求当前时间戳T1,完成本身逻辑处理后,将全局流水号以及交易请求数据继续转发给服务节点3,在收到服务节点3响应数据并完成对数据对的加工处理后,继续向服务器请求当前时间戳T2,此时,节点2的耗时为T2-T1。服务节点2以全局流水号为索引在数据库的交易耗时登记表中更新节点2编号和节点2耗时。
S13,类似的循环以上S12步骤,直到所有的服务节点处理完毕并将对应的数据登记在交易耗时登记表中,因为每个节点的处理时间已经包含了下一个服务节点的处理时间,所以总交易耗时与节点1的交易耗时相等。
S14,服务方信息系统在完成交易请求逻辑处理之后,在数据库的交易流水表中记录流水状态,流水须记录交易码、交易状态(成功、失败)、响应码、响应信息、全局流水号。
另外,在步骤S101中,部署在信息系统内部的数据采集脚本根据定时配置的方式定时从服务方信息系统中抽取交易耗时登记表以及交易流水表中的增量数据。其中,定时配置T(即每隔T分钟抽取一次数据)可以根据信息系统每分钟的交易量N进行灵活配置。具体的,T可以按照如下算法确定:N>=1时,T=1;N<1时,T=[1/N]+1,符号“[ ]”表示取整数。
执行步骤S102,对采集到的信息进行统计分析得到多维度监测信息,具体的统计分析可以按照如下步骤进行实施:
S21,根据采集到的信息,统计当前时间段比如最近T分钟内信息系统的交易量以及成功交易量/>,则当前成功率(最近T分钟内系统的成功率)/>;同理,统计一个历史时间段内比如最近7天内系统的交易量/>以及成功交易量/>,则该历史时间段内的平均成功率/>
S22,累加当前时间段(比如最近T分钟内)交易耗时登记表中的总交易耗时,得到当前时间段(比如最近T分钟内)内所有交易的耗时Tn,则当前响应时间(最近T分钟内系统的响应时间)t=T n /C 1;同理,统计一个历史时间段内比如最近7天内所有交易的累计耗时,则该历史时间段内的平均响应时间/>
S23,按交易流水表中的响应码进行分组,得到正确码组和错误码组,统计当前时间段(比如最近T分钟内)响应码的种类以及每一种响应码的交易数量,从而计算每一种错误码在当前时间段(比如最近T分钟内)的数量占比。假设错误码code1对应的交易量为n,则错误码code1在当前时间段(比如最近T分钟内)的交易占比为n/C 1
S24,监控平台把需要重点监控的交易码进行单独记录,比如可以记录在重要交易监控表中。根据交易码,从交易耗时登记表筛选出所要监控的重要交易的交易码在当前时间段(比如最近T分钟内)的交易量C i ,同时统计对应交易码在当前时间段(比如最近T分钟内)的累计耗时T i ,则当前时间段(比如最近T分钟内)该重要交易的当前响应时间t i =T i /C i ;同理,统计一个历史时间段内比如最近7天内该交易码的交易量以及累计耗时/>,则该时段下的重要交易的平均响应时间/>
S25,根据重要交易的交易码,从交易流水表中统计当前时间段(比如最近T分钟内)交易状态为成功的交易数量S i ,则在当前时间段(比如最近T分钟内)该重要交易的当前成功率R i =S i /C i ;同理,统计一个历史时间段内比如最近7天内该交易状态为成功的交易数量,则该时间段的重要交易的平均成功率/>
在步骤S103中,可以预设监控参数的阈值,包括当前交易量的监控阈值、历史交易量的监控阈值、系统当前成功率的监控阈值、系统平均成功率的监控阈值、系统当前响应时间的监控阈值、系统平均响应时间的监控阈值、重要交易的当前响应时间的监控阈值、重要交易的平均响应时间的监控阈值、重要交易的当前成功率的监控阈值、重要交易的平均成功率的监控阈值、系统成功率的波动阈值、系统耗时的波动阈值、重要交易成功率的波动阈值、重要交易耗时的波动阈值。
设置了各个维度监测参数对应的阈值后,可以将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息。告警信息可以通过短信的方式发送至运维工作人员,以便工作人员能够及时干预系统的故障,保证系统的健康运行。本发明实施例中,触发告警条件发送告警信息的情况可以包括:
如果平均成功率或当前成功率小于对应的阈值,或平均成功率与当前成功率的差大于对应的波动阈值,则发送告警信息,进行系统成功率监控报警;
如果当前响应时间或平均响应时间大于对应的阈值,或当前响应时间与平均响应时间的差大于对应的波动阈值,则发送告警信息,进行系统响应时间监控报警;
如果重要交易的当前响应时间或重要交易的平均响应时间大于对应的阈值,或重要交易的当前响应时间与重要交易的平均响应时间的差大于对应的波动阈值,则发送告警信息,进行重要交易的响应时间监控报警;
如果重要交易的当前成功率或重要交易的平均成功率小于对应的阈值,或重要交易的平均成功率与重要交易的当前成功率的差大于对应的波动阈值,则发送告警信息,进行重要交易的成功率监控报警。
本发明实施例中,各个维度的监测信息以及对应的告警信息可以进行可视化展示。其中,各个维度的监测信息分别进行可视化展示的内容可以包括:时间-系统交易量曲线展示图(系统交易量监控视图)、时间-系统成功率曲线展示图(系统成功率监控视图)、时间-系统响应时间曲线展示图(系统响应时间监控视图)、时间-重要交易的响应时间曲线展示图(重要交易响应时间监控视图)、时间-重要交易的成功率曲线展示图(重要交易成功率监控视图)以及系统错误码信息列表(系统主要错误码监控视图);所述系统错误码信息列表展示当前时间段(比如最近T分钟)内系统错误码信息,所述系统错误码信息包括错误码、错误信息以及错误码比例。各个维度的告警信息进行可视化展示的内容可以包括:以列表展示各个维度的告警信息,列表包括告警时间和告警内容,以能够按时间查询告警内容。本发明中,通过从多个维度对系统的健康状态进行监测,并将监测信息和对应的告警信息(如果存在)可视化展示,可以使得运维工作人员可以从系统的多个维度且直观及时的看到其健康状态,并对有故障的情况进行及时的干预处理,以免系统故障带来的不利影响。
其中,对于系统成功率,可以以时间为横坐标,比如以T分钟作为一个统计单位,以成功率作为纵坐标,以实线描绘系统当前成功率曲线图,以虚线描绘系统在历史时段内(比如最近7天)的平均成功率曲线图,得到系统当前成功率与平均成功率的比对图。同理,描绘重要交易的当前成功率与平均成功率的比对图。
对于系统响应时间,可以以时间为横坐标,比如以T分钟作为一个统计单位,以响应时间作为纵坐标,以蓝线描绘系统当前响应时间曲线图,以红线描绘系统在历史时段内(比如最近7天)的平均响应时间曲线图,得到系统当前响应时间与平均响应时间的比对图。同理,描绘重要交易的当前响应时间与平均响应时间的比对图。
对于系统交易量,可以以时间为横坐标,比如以T分钟作为一个统计单位,以系统交易量作为纵坐标,以实线描绘系统当前交易量曲线图,以虚线描绘系统在历史时段内(比如最近7天)的历史交易量曲线图,得到系统当前交易量与历史交易量的比对图。
对于错误码视图,可以以列表形式展现当前T分钟内错误码视图。列表中可以包括错误码、错误信息、错误比率等内容。
在实际应用中,本发明实施例提供的监测方法可以按照图2所示的过程进行实施。
实施例二
如图3所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种用于实现实施例一所述方法的信息系统健康状态的监测装置,包括:
信息采集模块301,用于采集信息系统提供服务时的信息,所述信息包括全局流水号、交易耗时、交易状态、交易码、响应码以及响应信息;
统计分析模块302,用于对采集到的信息进行统计分析得到多维度监测信息,所述多维度监测信息包括:系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率;其中,所述重要交易通过重点监控的交易码进行确定;
多维度信息阈值设置和告警模块303,用于将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;
信息展示模块304,用于对各个维度的监测信息以及对应的告警信息分别进行可视化展示。
该装置可通过上述实施例一提供的信息系统健康状态的监测方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种信息系统健康状态的监测方法,其特征在于,包括:
采集信息系统提供服务时的信息,所述信息包括全局流水号、交易耗时、交易状态、交易码、响应码以及响应信息;
对采集到的信息进行统计分析得到多维度监测信息,所述多维度监测信息包括:系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率;其中,所述重要交易通过重点监控的交易码进行确定;
将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;
对各个维度的监测信息以及对应的告警信息分别进行可视化展示;
所述系统成功率包括当前成功率和平均成功率,分别按照如下公式进行计算:
R=S1/C1
其中,R为当前成功率,C1为系统在当前时间段内的交易量,S1为系统在当前时间段内的成功交易量;为系统在历史时间段内的交易量,/>为系统在历史时间段内的成功交易量,/>为平均成功率;
所述系统响应时间包括当前响应时间和平均响应时间,分别按照如下公式进行计算:
t=Tn/C1
其中,t为当前响应时间,Tn为系统在当前时间段内的所有交易的耗时,为平均响应时间,/>为系统在历史时间段内的所有交易的耗时;
所述系统错误码比例按照如下方法确定:所述响应码包括正确码和错误码,统计每一个错误码在当前时间段内对应的交易量n,则系统错误码比例为n/C1
所述重要交易的响应时间包括重要交易的当前响应时间和重要交易的平均响应时间,分别按照如下公式进行计算:
ti=Ti/Ci
其中,ti为重要交易的当前响应时间,Ti为系统在当前时间段内的所有重要交易的交易耗时,Ci为系统在当前时间段内的重要交易的交易量;为重要交易的平均响应时间,/>为系统在历史时间段内的所有重要交易的交易耗时,/>为系统在历史时间段内的重要交易的交易量;
所述重要交易的成功率包括重要交易的当前成功率和重要交易的平均成功率,分别按照如下公式进行计算:
Ri=Si/Ci
其中,Ri为重要交易的当前成功率,Si为系统在当前时间段内的重要交易的成功交易量,为系统在历史时间段内的重要交易的成功交易量,/>为重要交易的平均成功率;
所述信息系统包括消费方信息系统和服务方信息系统,所述信息系统提供服务时的信息按照如下方法获取:
消费方信息系统在向服务方信息系统请求服务时,将全局流水号传给服务方信息系统;
服务方信息系统将全局流水号分别登记在交易耗时登记表以及交易流水表中,同时将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记录在交易流水表中;
利用在信息系统内部署的数据采集脚本采集信息系统提供服务时的信息;根据定时配置的方式定时从服务方信息系统中抽取交易耗时登记表以及交易流水表中的增量数据;其中,定时配置T根据信息系统每分钟的交易量N进行灵活配置;具体的,T按照如下算法确定:N>=1时,T=1;N<1时,T=[1/N]+1,符号“[]”表示取整数;
所述交易耗时登记表由服务方信息系统按服务节点数目进行构造,且所述交易耗时登记表的结构为:全局流水号|交易码|总交易耗时|节点1编号|节点1耗时|节点2编号|节点2耗时|......|节点m编号|节点m耗时,其中m为服务方信息系统的服务节点数目;
所述服务方信息系统将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记交易流水表中包括:
服务方信息系统首先按照服务节点的顺序顺次进行交易请求的逻辑处理,并将对应的全局流水号、交易码、交易耗时、节点编号和节点耗时记录在交易耗时登记表中;然后在交易流水表中记录交易的流水,包括交易状态、交易码、响应码、响应信息和全局流水号;
所述将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息包括:
如果平均成功率或当前成功率小于对应的阈值,或平均成功率与当前成功率的差大于对应的波动阈值,则发送告警信息,进行系统成功率监控报警;
如果当前响应时间或平均响应时间大于对应的阈值,或当前响应时间与平均响应时间的差大于对应的波动阈值,则发送告警信息,进行系统响应时间监控报警;
如果重要交易的当前响应时间或重要交易的平均响应时间大于对应的阈值,或重要交易的当前响应时间与重要交易的平均响应时间的差大于对应的波动阈值,则发送告警信息,进行重要交易的响应时间监控报警;
如果重要交易的当前成功率或重要交易的平均成功率小于对应的阈值,或重要交易的平均成功率与重要交易的当前成功率的差大于对应的波动阈值,则发送告警信息,进行重要交易的成功率监控报警。
2.如权利要求1所述的信息系统健康状态的监测方法,其特征在于,所述对各个维度的监测信息分别进行可视化展示包括:时间-系统交易量曲线展示图、时间-系统成功率曲线展示图、时间-系统响应时间曲线展示图、时间-重要交易的响应时间曲线展示图、时间-重要交易的成功率曲线展示图以及系统错误码信息列表;所述系统错误码信息列表展示当前时间段系统错误码信息,所述系统错误码信息包括错误码、错误信息以及错误码比例。
3.如权利要求1所述的信息系统健康状态的监测方法,其特征在于,所述对各个维度的告警信息进行可视化展示包括:以列表展示各个维度的告警信息,列表包括告警时间和告警内容,以能够按时间查询告警内容。
4.一种用于实现权利要求1-3任一项所述方法的信息系统健康状态的监测装置,其特征在于,包括:
信息采集模块,用于采集信息系统提供服务时的信息,所述信息包括全局流水号、交易耗时、交易状态、交易码、响应码以及响应信息;
统计分析模块,用于对采集到的信息进行统计分析得到多维度监测信息,所述多维度监测信息包括:系统交易量、系统成功率、系统响应时间、系统错误码比例、重要交易的响应时间以及重要交易的成功率;其中,所述重要交易通过重点监控的交易码进行确定;
多维度信息阈值设置和告警模块,用于将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息;
信息展示模块,用于对各个维度的监测信息以及对应的告警信息分别进行可视化展示;
所述信息系统包括消费方信息系统和服务方信息系统,所述信息系统提供服务时的信息按照如下方法获取:
消费方信息系统在向服务方信息系统请求服务时,将全局流水号传给服务方信息系统;
服务方信息系统将全局流水号分别登记在交易耗时登记表以及交易流水表中,同时将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记录在交易流水表中;
利用在信息系统内部署的数据采集脚本采集信息系统提供服务时的信息,根据定时配置的方式定时从服务方信息系统中抽取交易耗时登记表以及交易流水表中的增量数据;其中,定时配置T根据信息系统每分钟的交易量N进行灵活配置;具体的,T按照如下算法确定:N>=1时,T=1;N<1时,T=[1/N]+1,符号“[]”表示取整数;
所述交易耗时登记表由服务方信息系统按服务节点数目进行构造,且所述交易耗时登记表的结构为:全局流水号|交易码|总交易耗时|节点1编号|节点1耗时|节点2编号|节点2耗时|......|节点m编号|节点m耗时,其中m为服务方信息系统的服务节点数目;
所述服务方信息系统将交易耗时记录在交易耗时登记表中,将交易状态、交易码、响应码以及响应信息记交易流水表中包括:
服务方信息系统首先按照服务节点的顺序顺次进行交易请求的逻辑处理,并将对应的全局流水号、交易码、交易耗时、节点编号和节点耗时记录在交易耗时登记表中;然后在交易流水表中记录交易的流水,包括交易状态、交易码、响应码、响应信息和全局流水号;
所述将各个维度的监测信息分别与对应的阈值进行比较,若触发告警条件,则发送告警信息包括:
如果平均成功率或当前成功率小于对应的阈值,或平均成功率与当前成功率的差大于对应的波动阈值,则发送告警信息,进行系统成功率监控报警;
如果当前响应时间或平均响应时间大于对应的阈值,或当前响应时间与平均响应时间的差大于对应的波动阈值,则发送告警信息,进行系统响应时间监控报警;
如果重要交易的当前响应时间或重要交易的平均响应时间大于对应的阈值,或重要交易的当前响应时间与重要交易的平均响应时间的差大于对应的波动阈值,则发送告警信息,进行重要交易的响应时间监控报警;
如果重要交易的当前成功率或重要交易的平均成功率小于对应的阈值,或重要交易的平均成功率与重要交易的当前成功率的差大于对应的波动阈值,则发送告警信息,进行重要交易的成功率监控报警。
5.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-3任一项所述的信息系统健康状态的监测方法。
6.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-3任一项所述的信息系统健康状态的监测方法。
CN202310653954.1A 2023-06-02 2023-06-02 信息系统健康状态的监测方法、装置和电子设备 Active CN116401127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310653954.1A CN116401127B (zh) 2023-06-02 2023-06-02 信息系统健康状态的监测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310653954.1A CN116401127B (zh) 2023-06-02 2023-06-02 信息系统健康状态的监测方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN116401127A CN116401127A (zh) 2023-07-07
CN116401127B true CN116401127B (zh) 2023-10-31

Family

ID=87010807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310653954.1A Active CN116401127B (zh) 2023-06-02 2023-06-02 信息系统健康状态的监测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116401127B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880412B (zh) * 2023-08-10 2024-05-17 上海兴岩信息科技有限公司 一种基于云的可视化生产管理平台

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010036615A2 (en) * 2008-09-24 2010-04-01 Visa International Service Association Intelligent alert system and method
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
JP2019036225A (ja) * 2017-08-21 2019-03-07 智慧時尚股▲ふん▼有限公司 取引id警告システム及び取引id警告方法
CN112148561A (zh) * 2020-09-28 2020-12-29 建信金融科技有限责任公司 业务系统的运行状态预测方法、装置及服务器
CN112801666A (zh) * 2021-03-30 2021-05-14 北京宇信科技集团股份有限公司 基于企业服务总线的监控管理方法、系统、介质和设备
CN113760628A (zh) * 2020-06-05 2021-12-07 北京沃东天骏信息技术有限公司 用于监控数据处理的方法和装置
CN114168420A (zh) * 2021-12-09 2022-03-11 中国建设银行股份有限公司 一种数据告警方法、系统、电子设备及存储介质
CN114238020A (zh) * 2021-12-17 2022-03-25 杭州笨马网络技术有限公司 多维度的高精度智能业务监控方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010036615A2 (en) * 2008-09-24 2010-04-01 Visa International Service Association Intelligent alert system and method
JP2019036225A (ja) * 2017-08-21 2019-03-07 智慧時尚股▲ふん▼有限公司 取引id警告システム及び取引id警告方法
CN108537544A (zh) * 2018-04-04 2018-09-14 中南大学 一种交易系统实时监控方法及其监控系统
CN113760628A (zh) * 2020-06-05 2021-12-07 北京沃东天骏信息技术有限公司 用于监控数据处理的方法和装置
CN112148561A (zh) * 2020-09-28 2020-12-29 建信金融科技有限责任公司 业务系统的运行状态预测方法、装置及服务器
CN112801666A (zh) * 2021-03-30 2021-05-14 北京宇信科技集团股份有限公司 基于企业服务总线的监控管理方法、系统、介质和设备
CN114168420A (zh) * 2021-12-09 2022-03-11 中国建设银行股份有限公司 一种数据告警方法、系统、电子设备及存储介质
CN114238020A (zh) * 2021-12-17 2022-03-25 杭州笨马网络技术有限公司 多维度的高精度智能业务监控方法及系统

Also Published As

Publication number Publication date
CN116401127A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN116401127B (zh) 信息系统健康状态的监测方法、装置和电子设备
CN100490397C (zh) 一种告警处理方法及告警系统
CN103856339B (zh) 一种对告警信息进行压缩的方法和设备
US20130073913A1 (en) Business to business network management event detection and response system and method
CN111679958A (zh) 一种服务器监控系统
CN112380473B (zh) 数据采集与同步方法、装置、设备及存储介质
CN106100884A (zh) 变电站监控设备运行异常的告警方法
CN112650200B (zh) 一种厂站设备故障的诊断方法及诊断装置
EP3718093A1 (en) Industrial plant alarm management
CN108809760A (zh) 数据采样系统中采样周期的控制方法和装置
CN111612647B (zh) 计量表异常数据检测方法、装置、计量表及可读存储介质
CN111290371B (zh) 物联网设备远程诊断的方法及装置、电子设备
CN110673973B (zh) 应用程序编程接口api的异常确定方法和装置
CN111062503A (zh) 一种电网监控告警处理方法、系统、终端及存储介质
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CA3140769A1 (en) Method and system for positioning fault root cause of service system
CN113254253B (zh) 一种数据处理方法、系统及设备
CN115185794A (zh) 服务调用链的分析方法、装置及电子设备
CN116804957A (zh) 一种系统监控方法及装置
CN104135293B (zh) 一种基于视频设备诊断中报警信息的压缩方法及系统
FI130073B (en) Predictive maintenance of cable modems
CN115203292B (zh) 一种工业设备的数据处理方法、装置及设备
CN111262725B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN115883346B (zh) 一种基于fdep日志的异常检测方法、装置及存储介质
JP2004355044A (ja) プラントデータ評価システムと方法、復水器真空度監視方法、データマイニング方法、および、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant