CN113377559A - 基于大数据的异常处理方法、装置、设备及存储介质 - Google Patents

基于大数据的异常处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113377559A
CN113377559A CN202010162413.5A CN202010162413A CN113377559A CN 113377559 A CN113377559 A CN 113377559A CN 202010162413 A CN202010162413 A CN 202010162413A CN 113377559 A CN113377559 A CN 113377559A
Authority
CN
China
Prior art keywords
exception
alarm
data
exception handling
service system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010162413.5A
Other languages
English (en)
Inventor
赵磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongbang Zhuoyi Technology Co ltd
Original Assignee
Beijing Tongbang Zhuoyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongbang Zhuoyi Technology Co ltd filed Critical Beijing Tongbang Zhuoyi Technology Co ltd
Priority to CN202010162413.5A priority Critical patent/CN113377559A/zh
Publication of CN113377559A publication Critical patent/CN113377559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于大数据的异常处理方法、装置、设备及存储介质,该方案中,基于业务系统当前所处的时间段,获取当前时间段对应的异常处理策略,并根据该异常处理策略调节业务系统的监控指标,根据调节后的监控指标对业务系统进行监控并向报警系统进行报警。本方案中的异常处理策略是根据业务系统的历史业务数据和历史报警数据分析得到的,在业务系统运行过程中,每个时间段的异常处理策略不同,避免采用一直同一个监控指标监控异常导致的报警准确度低的问题,并且整个监控系统可以在不同时间段按照不同的异常处理策略进行处理,可减少人工资源的浪费。

Description

基于大数据的异常处理方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的异常处理方法、装置、设备及存储介质。
背景技术
随着互联网、云计算的飞速发展,系统架构越来越复杂,且迭代的速度也越来越迅速。随着业务量、流量的增长,庞大的业务系统架构即将面临一系列的问题,针对这些系统的监控就成为了重中之重。
现有技术中,通过监控系实现应用、服务等业务系统的故障发现、预警、定位、运行状态展示等多种功能。当前的监控系统,主要是通过对交易突增突降、异常关键字出现次数、交易成功率等指标进行采集,然后与提前设定的阈值进行比较进而确定是否报警,在业务量和时间发生变化时候,也采用预先设置的阈值进行比较,例如:设置1小时内交易成功率低于50%则报警,夜间可能1小时只有1笔交易,此笔失败则成功率为0会触发报警。但随着业务量和时间的变化,这些指标的正常值边界也在随之变化,进而造成报警阈值不准确,此时可以采用人工调整阈值+人工筛选报警信息的方式来设置不同的报警阈值,或者发现真正的问题。
但是,不同系统、不同时段所触发的报警条件不同,由于数据量大,且系统内部关联性复杂,现有监控系统进行异常报警时,人工无法动态掌握报警阈值的变化,也无法及时更改报警阈值,导致报警时所以可能产生很多误报信息,报警信息准确度降低。
发明内容
本发明实施例提供一种基于大数据的异常处理方法、装置、设备及存储介质,以解决现有技术中报警信息准确度降低,通过人工方式存在极大的资源浪费的问题。
第一方面,本发明实施例提供一种基于大数据的异常处理方法,包括:
获取业务系统当前时间段对应的异常处理策略,所述异常处理策略包括调节监控指标;其中,每个业务系统在不同时间段的异常处理策略不同,且异常处理策略是根据所述业务系统的历史业务数据和历史报警数据分析得到的;
根据所述异常处理策略调节所述业务系统的监控指标;
根据调节后的监控指标监控所述业务系统,并在将获取到的异常报警信息发送给报警系统。
在一种具体实施方式中,
所述异常处理策略还包括:监控指标阈值;
相应的,根据所述异常处理策略调节所述业务系统的监控指标,包括:
将所述业务系统当前时间段的监控指标调节为所述监控指标阈值。
在一种具体实施方式中,所述异常处理策略还包括:根据异常报警信息的数量确定报警方式;
相应的,所述方法还包括:
当所述业务系统出现相同异常报警信息的数量达到预设数量时,采用批量报警的方式向所述报警系统进行报警。
在一种具体实施方式中,所述方法还包括:
获取所述业务系统的历史业务数据以及历史报警数据;
根据所述历史业务数据以及所述历史报警数据,获取每个时间段的异常处理策略。
在一种具体实施方式中,所述根据所述历史业务数据以及所述历史报警数据,获取每个时间段的异常处理策略,包括:
根据所述历史业务数据,获取所述业务系统中的交易变化情况,所述交易变化情况用于指示交易量整体变化,交易成功率变化以及不同时间段的交易量变化;
根据所述历史报警数据,获取所述业务系统中的报警情况,所述报警情况用于指示不同时间段的报警信息的变化以及报警信息的类型;
根据所述交易变化情况以及所述报警情况,确定所述业务系统在不同时间段对应的异常处理策略。
第二方面,本发明实施例提供一种基于大数据的异常处理方法,包括:
接收监控系统发送的对业务系统的异常报警信息;
根据所述异常报警信息中指示的异常在异常库中进行匹配,其中,所述异常库中包括多种异常以及至少一种异常对应的处理方法;
若所述异常库中包括所述异常以及对应的处理方法,则根据所述处理方法对所述异常进行处理。
在一种具体实施方式中,所述方法还包括:
若所述异常库中不包括所述异常,或者所述异常库中包括所述异常但不包括所述异常对应的处理方法,则将所述异常报警信息推送给指定用户。
在一种具体实施方式中,所述方法还包括:
获取对所述异常的处理方法,并在所述异常库中更新所述异常以及对应的处理方法。
在一种具体实施方式中,所述根据所述处理方法对所述异常进行处理,包括:
根据所述异常以及对应的处理方法,向指定用户推送自动处理提示,所述自动处理提示用于提示所述用户确认是否对所述异常进行自动处理;
若所述用户确认对所述异常进行自动处理,则根据所述处理方法对所述异常进行自动处理。
第三方面,本发明实施例提供一种基于大数据的异常处理装置,包括:
第一处理模块,用于获取业务系统当前时间段对应的异常处理策略,所述异常处理策略包括调节监控指标;其中,每个业务系统在不同时间段的异常处理策略不同,且异常处理策略是根据所述业务系统的历史业务数据和历史报警数据分析得到的;
第二处理模块,用于根据所述异常处理策略调节所述业务系统的监控指标;
第三处理模块,用于根据调节后的监控指标监控所述业务系统,并在将获取到的异常报警信息发送给报警系统。
在一种具体实施方式中,所述异常处理策略还包括:监控指标阈值;
相应的,所述第二处理模块具体用于:
将所述业务系统当前时间段的监控指标调节为所述监控指标阈值。
在一种具体实施方式中,所述异常处理策略还包括:根据异常报警信息的数量确定报警方式;
相应的,所述第三处理模块还用于:
当所述业务系统出现相同异常报警信息的数量达到预设数量时,采用批量报警的方式向所述报警系统进行报警。
在一种具体实施方式中,所述装置还包括:
数据采集模块,用于获取所述业务系统的历史业务数据以及历史报警数据;
数据分析模块,用于根据所述历史业务数据以及所述历史报警数据,获取每个时间段的异常处理策略。
在一种具体实施方式中,所述数据分析模块具体用于:
根据所述历史业务数据,获取所述业务系统中的交易变化情况,所述交易变化情况用于指示交易量整体变化,交易成功率变化以及不同时间段的交易量变化;
根据所述历史报警数据,获取所述业务系统中的报警情况,所述报警情况用于指示不同时间段的报警信息的变化以及报警信息的类型;
根据所述交易变化情况以及所述报警情况,确定所述业务系统在不同时间段对应的异常处理策略。
第四方面,本发明实施例提供一种基于大数据的异常处理装置,包括:
接收模块,用于接收监控系统发送的对业务系统的异常报警信息;
第一处理模块,用于根据所述异常报警信息中指示的异常在异常库中进行匹配,其中,所述异常库中包括多种异常以及至少一种异常对应的处理方法;
第二处理模块,用于若所述异常库中包括所述异常以及对应的处理方法,则根据所述处理方法对所述异常进行处理。
在一种具体实施方式中,所述装置还包括:
报警推送模块,用于若所述异常库中不包括所述异常,或者所述异常库中包括所述异常但不包括所述异常对应的处理方法,则将所述异常报警信息推送给指定用户。
在一种具体实施方式中,所述装置还包括:
第三处理模块,用于获取对所述异常的处理方法,并在所述异常库中更新所述异常以及对应的处理方法。
在一种具体实施方式中,所述第二处理模块具体用于:
根据所述异常以及对应的处理方法,向指定用户推送自动处理提示,所述自动处理提示用于提示所述用户确认是否对所述异常进行自动处理;
若所述用户确认对所述异常进行自动处理,则根据所述处理方法对所述异常进行自动处理。
第五方面,本发明实施例提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面或者第二方面任一项提供的基于大数据的异常处理方法。
第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或者第二方面任一项提供的基于大数据的异常处理方法。
本发明实施例提供的基于大数据的异常处理方法、装置、设备以及介质,监控系统在对业务系统进行监控时,基于业务系统当前所处的时间段,获取当前时间段对应的异常处理策略,并根据该异常处理策略调节业务系统的监控指标,根据调节后的监控指标对业务系统进行监控并向报警系统进行报警。本方案中的异常处理策略是根据业务系统的历史业务数据和历史报警数据分析得到的,在业务系统运行过程中,每个时间段的异常处理策略不同,避免采用一直同一个监控指标监控异常导致的报警准确度低的问题,并且整个监控系统可以在不同时间段按照不同的异常处理策略进行处理,可减少人工资源的浪费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于大数据的异常处理方法的一种应用场景的示意图;
图2为本发明提供的基于大数据的异常处理方法实施例一的流程图;
图3为本发明提供的基于大数据的异常处理方法实施例二的流程图;
图4为本发明提供的基于大数据的异常处理方法实施例三的流程图;
图5为本发明提供的数据分析示意图;
图6为本发明提供的监控系统处理示意图;
图7为本发明提供的基于大数据的异常处理方法实施例四的流程图;
图8为本发明提供的报警系统的一种处理示意图;
图9为本发明提供的报警系统的另一种处理示意图;
图10为本发明提供的基于大数据的异常处理装置实施例一的结构示意图;
图11为本发明提供的基于大数据的异常处理装置实施例二的结构示意图;
图12为本发明提供的基于大数据的异常处理装置实施例三的结构示意图;
图13为本发明提供的基于大数据的异常处理装置实施例四的结构示意图;
图14为本发明提供的基于大数据的异常处理装置实施例五的结构示意图;
图15为本发明提供的电子设备的实体示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在当前的监控系统以及报警系统中,主要是通过对交易突增突降、异常关键字出现次数、交易成功率等指标进行采集,然后与提前设定的阈值进行比较进而确定是否报警,但随着业务量和时间的变化,这些指标的正常值边界也在随之变化,进而造成报警阈值不准确,例如设置1小时内交易成功率低于50%则报警,夜间可能1小时只有1笔交易,此笔失败则成功率为0会触发报警,这种情况很可能是偶发的,故会产生误报,如果白天和夜晚设置两个不同的阈值,那么随着晚间交易量的增加这种方式也很难准确。
目前通过人工的方式进行设定的阈值进行调整,或者人工对大量的报警信息进行筛选的方式,速度慢,效率低,造成大量的人工资源的浪费。
针对上述一些技术问题,本发明提供一种基于大数据的异常处理方法,该方案的整体思路是对待监控的业务系统在一段时间内的历史数据进行分析,例如历史业务数据以及历史报警数据等,分析确定在不同的时间段该业务系统的业务情况变化,以及不同的业务情况下的报警情况,并且可以分析出报警信息是不是有大量重复等,基于这些大数据分析,可以控制监控系统以及报警系统对一个监控指标,也就是预先设置的阈值进行动态调整,并且可以对异常有针对性的进行处理。
总体上来说,本发明的技术方案是基于历史数据动态的对监控指标进行变更,进而在最新的监控信息中加以应用,得到其中真实重要的报警信息,并对报警信息进行自动分析,获得异常出现的原因,自动解决异常情况。
图1为本发明提供的基于大数据的异常处理方法的一种应用场景的示意图,如图1所示,本发明提供的基于大数据的异常处理方法主要应用在监控系统中,该场景中涉及的数据采集,数据分析以及监控系统,报警系统可以在不同的设备上进行实现,也可以在同一个设备上实现。例如:监控系统和报警系统可以在不同的服务器上实现,数据分析可以在监控系统的服务器上实现,也可以在专用于数据分析处理的服务器上实现,数据采集也可以在监控系统的服务器上实现,也可以专用于数据采集存储的服务器上实现,对此本方案不做限制。
不同的设备之间可以通过有线或者无线的方式连接,进行数据的交互。
各个需要被监控的业务系统与实现数据采集功能的设备连接,可以将业务数据上报给该设备。另外,监控系统向报警系统发送报警信息的同时也可以发送至实现数据采集的设备上进行数据存储,以使数据采集的设备也能得到各种报警信息等报警数据。
基于上述应用场景,下面通过几个具体实施例对本发明提供的基于大数据的异常处理方法进行说明。
图2为本发明提供的基于大数据的异常处理方法实施例一的流程图,如图2所示,该方案主要以监控系统为执行主体,该异常处理方法包括以下步骤:
步骤S101:获取业务系统当前时间段对应的异常处理策略,异常处理策略包括调节监控指标。
在该方案中,每个业务系统在不同时间段的异常处理策略不同,且异常处理策略是根据所述业务系统的历史业务数据和历史报警数据分析得到的。通过针对不同的业务系统的历史数据的分析,可以确定出在监控每个业务系统时,对于不同时间段具体的监控方案,其中包括不同时间段是否调节监控指标,以及具体的如何调节监控指标的方案,还可以包括对于不同情况的报警信息如何处理的方案,这些方案可以统称为异常处理策略。也就是说针对一个业务系统,通过大数据分析,可以预先得到不同时间段对应的异常处理策略,其中包括调节监控指标,更进一步的还可以包括要调节的监控指标阈值。
在本步骤中,在针对一个业务系统进行监控的过程中,获取当前的时间,根据当前的时间确定当前所处的时间段,然后根据预先得到的每个时间段对应的异常处理策略,获取该当前时间段对应的异常处理策略,其中,包括调节监控指标。
步骤S102:根据异常处理策略调节业务系统的监控指标。
在本步骤中,在确定了当前时间段对该业务系统进行处理的异常处理策略之后,则按照其中具体的处理方式对该业务系统进行监控处理。
在该方案的具体实现中,在该异常处理策略中,包括调节监控指标时,根据所述异常处理策略,对所述业务系统监控指标进行调节。
在该方案的具体实现中,如果异常处理策略中指示了监控指标应该调整为多少时,也就是说还包括监控指标阈值,可以直接将监控系统中当前时间段的监控指标调整至该监控指标阈值,这里的监控指标包括一些参数设置的阈值等。
步骤S103:根据调节后的监控指标监控业务系统,并在将获取到的异常报警信息发送给报警系统。
在本步骤中,对监控指标进行调节之后根据调节后的监控指标对业务系统进行监控,并在获取到异常报警信息之后,向报警系统进行报警。
在该步骤的具体实现中,如果上述获取到的该异常处理策略中,如果还包括根据异常报警信息的数量确定报警方式时,则还可以根据该异常处理策略,当所述业务系统出现相同报警信息的数量达到预设数量时,采用批量报警方式向所述报警系统进行报警,也就是说将所述报警信息采用批量报警的方式进行报警。
可选的,在一种可选实施方式中,异常处理策略中也可以只包括根据异常报警信息的数量确定报警方式时,则在该步骤中,当所述业务系统出现相同报警信息的数量达到预设数量时,采用批量报警方式向所述报警系统进行报警即可。
在上述的任一方案中,如果异常处理策略中还指示了当同样的报警信息连续出现的次数达到多少次或者多长时间时可以进行批量报警,又或者在哪个时间段针对哪种类型的报警可以进行批量报警,则在该时间段,对于该业务系统的一些报警信息可以进行批量进行报警,避免发送太多冗余的报警信息。
在一种具体的实施方式中,监控系统可以对业务系统中的交易类监控指标定期更新(每天或更短时间),更新的依据是近7日的历史交易情况(成功率、交易幅度、交易时间段等),目的是调节监控指标的阈值,进而保证监控指标是随着交易的变化而动态变化的,减少误报情况。或者对基于关键字的异常报警信息需要实时动态更新,如果短时间内(1分钟)出现大量相同报警信息,则采取批量报警的方式,减少报警量,系统恢复后再动态的变更报警方式为标准规则。
在接收到业务系统的业务数据之后,可基于对最新的监控指标和历史报警数据的判断,推算出当前的交易变化是否在合理范围内、当前异常是否激增并转入批量报警状态等。
本实施例提供的基于大数据的异常处理方法,对于业务系统的历史数据预先进行分析,在对业务系统监控过程中按照预先分析得到的不同时间段的异常处理策略,该异常处理策略中至少包括了调节监控指标,避免采用一直同一个监控指标监控进行异常监控,克服目前的监控方案中报警准确度低的问题,并且整个监控系统可以在不同时间段按照不同的异常处理策略进行处理,可减少人工资源的浪费。
在上述实施例应用之前,需要进行数据采集和数据分析过程。下面对数据的采集和分析过程的具体实现进行说明。
图3为本发明提供的基于大数据的异常处理方法实施例二的流程图,如图3所示,该过程的执行主体主要是进行数据采集以及数据分析的设备,可以与前述的监控系统为同一设备,也可以不是同一设备。本实施例具体包括以下步骤:
步骤S201:获取业务系统的历史业务数据以及历史报警数据。
在本步骤中,获取该业务系统在一段时间内的业务数据以及报警数据的采集,也就是历史业务数据和历史报警数据。一般来说可以获取一段时间内的数据进行分析,例如:一天,一周,一个月或者三个月或者更长时间,对此本方案不做限制。
在该方案的具体应用中,针对每个业务系统都可以按照上述方式,采集业务数据以及报警数据等历史数据,这里的历史数据包括历史业务数据以及历史报警数据。
步骤S202:根据历史业务数据以及历史报警数据,获取每个时间段的异常处理策略。
在该方案的具体实现中,异常处理策略中可以包括调节监控指标和根据异常报警信息的数量确定报警方式这两种处理方式中的至少一种,还可以包括具体的一些参数。
在本步骤中,根据历史业务数据能够确定业务的变化情况,如交易量的变化曲线,交易成功率变化趋势、每天或每小时交易量的同比、环比情况等等交易变化情况。还可以分析随着交易量和时间的变化监控指标需要作出怎样的关联性变化,分析历史报警数据的变化情况等报警情况。将具体的交易以及报警情况,与当前报警信息关联,做报警的去重等操作,这些分析结果可以用来确定具体的异常处理策略。
基于上述方案,下面示出一种具体数据分析的实施方式,也就是步骤S202的具体实现。
图4为本发明提供的基于大数据的异常处理方法实施例三的流程图,如图4所示,步骤S202可以具体实现为以下步骤:
步骤S2021:根据历史业务数据,获取业务系统中的交易变化情况,交易变化情况用于指示交易量整体变化,交易成功率变化以及不同时间段的交易量变化。
在本方案的具体实现中,图5为本发明提供的数据分析示意图,如图5所示,图中示出了两个业务系统A和B,在实际应用中,可以包括更多的业务系统,在进行数据采集时不仅要采集业务系统的交易数据还要采集报警系统的历史报警数据,至少可以通过数据库查询,日志采集以及MQ报送这几种方式实现。
以采集到近七天的数据为例,在对历史交易数据进行数据分析时,可以分析近七天的交易均值,近七天每小时交易均值,近七天每小时交易成功率,近七天每日交易幅度变化,近七天每日同比、环比,每小时同比环比等等进行分析,也就是能够得到整体的交易变化情况,这些交易变化情况可以指示出交易量整体变化,交易成了率的变化以及交易量的变化。
步骤S2022:根据历史报警数据,获取业务系统中的报警情况,报警情况用于指示不同时间段的报警信息的变化以及报警信息的类型。
在本步骤中,对于历史报警数据的分析,确定报警数据的变化情况,还可以得到一些具体的报警类型出现的高峰时间,出现的频率等,与当前报警信息关联,做报警的去重等操作。
上述这些数据作为报警情况,可以指示出每个时间段的报警信息的变化以及具体的报警信息的类型。
步骤S2023:根据交易变化情况以及报警情况,确定业务系统在不同时间段对应的异常处理策略。
在本步骤中,基于上述得到的交易变化情况以及报警情况,可以对每一天的时间进行分段,或者对一段时间进行分段,分析确定出在不同时间段内交易指标的调整方案和/或报警信息的处理方案。
针对每个业务系统对应的历史业务数据以及历史报警数据均可以按照上述的方式进行分析,得到每个业务系统对应的不同时间段的异常处理策略。
图6为本发明提供的监控系统处理示意图,如图6所示,在监控系统中,具体的还可以实现交易时段划分,以便后续确定不同时间段,在获取交易成功率,交易增减幅度以及报频率等值之后,可以基于业务数据指标对比进行报警过滤,其含义也就是跟实际情况按照不同的异常处理策略,去确定具体的报警方案。
本实施例提供的基于大数据的异常处理方法,通过预先进行历史业务数据以及历史报警数据的采集,进行大数据分析,预先得到不同业务系统在不同情况下的交易情况以及报警情况,据此可以分析得到不同的异常处理策略,在具体对业务系统进行监控时候,可以根据业务系统以及时间,动态调整监控指标和或动态处理不同的报警信息,提高对于业务系统的监控精确度,并且能够降低人工成本。
图7为本发明提供的基于大数据的异常处理方法实施例四的流程图,如图7所示,本实施例的执行主体主要是报警系统,具体包括以下步骤:
步骤S301:接收监控系统发送的对业务系统的异常报警信息。
在本步骤中,业务系统在检测到报警信息之后,根据一定的时间间隔或者报警方式,向报警系统对于报警系统来说,则接收异常报警信息。
步骤S302:根据异常报警信息中指示的异常在异常库中进行匹配,其中,异常库中包括多种异常以及至少一种异常对应的处理方法。
在本方案中,在报警系统中,预先配置异常库,异常库中根据历史对于各种异常分析处理过程,存储有多种异常一些异常的处理方法等。
图8为本发明提供的报警系统的一种处理示意图,如图8所示,在监控系统向报警系统发送了报警信息之后,报警系统根据该报警信息中的异常进行匹配,确定异常库中是否存在该异常和异常的处理方法。
步骤S303:若异常库中包括异常以及对应的处理方法,则根据处理方法对异常进行处理。
在该步骤中,如果异常库中存在报警信息中异常和对应的处理方法,则可以按照该处理方法直接对该异常进行处理。
然而,在常用的实现中,为了保证数据记录以及处理的效率,可以由维护人员确认后再进行自定处理,因此该方案还可以被实现为:根据所述异常以及对应的处理方法,向指定用户推送自动处理提示,所述自动处理提示用于提示所述用户确认是否对所述异常进行自动处理;若所述用户确认对所述异常进行自动处理,则根据所述处理方法对所述异常进行自动处理。
该方案的含义是,需要向用户进行提示,由指定的用户进行选择,选择是否进行一场自动处理,如果用户选择不进行自动处理,则可以不进行自动处理,如果用户选择进行自动处理则按照得到的处理方法对异常进行自动处理。
步骤S304:若异常库中不包括异常,或者异常库中包括异常但不包括异常对应的处理方法,则将异常报警信息推送给指定用户。
在本步骤中,如果匹配的结果是该异常库中不包括该报警信息中的异常,或者是包括异常但是没有对应的解决方案,则需要由维护人员进行处理,此时则需要将异常报警信息推送给指定用户。
该方案中,具体的异常报警信息推送方式可以通过微信,短信,邮件,电话等至少一种方式进行推送,本方案不做限制。
在上述方案的具体实现中,当通过人工的方式对异常进行处理之后,可以获取对所述异常的处理方法,并在所述异常库中更新所述异常以及对应的处理方法。也就是说维护人员可以将该种异常的处理方案录入异常库,以便后续再次遇到该种异常的时候能够提高处理效率。
在一种具体实现方式中,图9为本发明提供的报警系统的另一种处理示意图,如图9所示,报警系统对于接收到的异常报警信息,可以有两种处理方式,一种是人工处理模式,另一种是自动处理模式。
具体的,异常库是开发人员或者维护人员日常维护的常见问题及解决办法,可以保护人工的解决建议及执行步骤,也可以是系统解决时需要的接口信息。
如果未匹配到异常,则直接报警给相关人员,人为介入并处理;如果匹配成功,则返回结果有两种可能的解决方案,第一种还是需要人工介入的,但明确了异常发生的可能原因、解决方法及步骤等信息,可以随着报警信息提供给相关人员;第二种是系统可以自动处理的异常,这种会在返回结果中配置处理的接口及方法,系统初始化相关接口后即可调用执行,进而完成自动处理,同时也会根据自动处理结果决定是否发送报警信息。
本发明提供的各个实施例中,监控系统本身基于历史数据对报警信息进行筛选,得到其中真实重要的报警信息,并且具备一定的处理能力,使得管理人员可以有效地对系统进行监控。并且在出现了异常之后,还有多种处理方案,提高异常处理效率,降低人工成本。
图10为本发明提供的基于大数据的异常处理装置实施例一的结构示意图,如图10所示,本实施例提供的基于大数据的异常处理装置10包括:
第一处理模块11,用于获取业务系统当前时间段对应的异常处理策略,所述异常处理策略包括调节监控指标;其中,每个业务系统在不同时间段的异常处理策略不同,且异常处理策略是根据所述业务系统的历史业务数据和历史报警数据分析得到的;
第二处理模块12,用于根据所述异常处理策略调节所述业务系统的监控指标;
第三处理模块13,用于根据调节后的监控指标监控所述业务系统,并在将获取到的异常报警信息发送给报警系统。
在一种具体的实施方案中,所述异常处理策略还包括:监控指标阈值;
相应的,所述第二处理模块12具体用于:
将所述业务系统当前时间段的监控指标调节为所述监控指标阈值。
在一种具体的实施方案中,所述异常处理策略还包括:根据异常报警信息的数量确定报警方式;
相应的,所述第三处理模块13还用于:
当所述业务系统出现相同异常报警信息的数量达到预设数量时,采用批量报警的方式向所述报警系统进行报警。
上述实施例提供的基于大数据的异常处理装置,用于实现前述方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图11为本发明提供的基于大数据的异常处理装置实施例二的结构示意图,如图11所示,在上述实施例的基础上,本实施例提供的基于大数据的异常处理装置10还包括:
数据采集模块14,用于获取所述业务系统的历史业务数据以及历史报警数据;
数据分析模块15,用于根据所述历史业务数据以及所述历史报警数据,获取每个时间段的异常处理策略。
所述异常处理策略中包括当前时间段对监控指标的调节方案和/或报警信息的处理方案。
在一种具体实施方案中,所述数据分析模块15具体用于:
根据所述历史业务数据,获取所述业务系统中的交易变化情况,所述交易变化情况用于指示交易量整体变化,交易成功率变化以及不同时间段的交易量变化;
根据所述历史报警数据,获取所述业务系统中的报警情况,所述报警情况用于指示不同时间段的报警信息的变化以及报警信息的类型;
根据所述交易变化情况以及所述报警情况,确定所述业务系统在不同时间段对应的异常处理策略。
上述任一实施例提供的基于大数据的异常处理装置,用于实现前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图12为本发明提供的基于大数据的异常处理装置实施例三的结构示意图,如图12所示,本实施例提供的基于大数据的异常处理装置20包括:
接收模块21,用于接收监控系统发送的对业务系统的异常报警信息;
第一处理模块22,用于根据所述异常报警信息中指示的异常在异常库中进行匹配,其中,所述异常库中包括多种异常以及至少一种异常对应的处理方法;
第二处理模块23,用于若所述异常库中包括所述异常以及对应的处理方法,则根据所述处理方法对所述异常进行处理。
图13为本发明提供的基于大数据的异常处理装置实施例四的结构示意图,如图13所示,在上述实施例的基础上,本实施例提供的基于大数据的异常处理装置20还包括:
报警推送模块24,用于若所述异常库中不包括所述异常,或者所述异常库中包括所述异常但不包括所述异常对应的处理方法,则将所述异常报警信息推送给指定用户。
图14为本发明提供的基于大数据的异常处理装置实施例五的结构示意图,如图14所示,在上述实施例的基础上,本实施例提供的基于大数据的异常处理装置20还包括:
第三处理模块25,用于获取对所述异常的处理方法,并在所述异常库中更新所述异常以及对应的处理方法。
可选的,所述第二处理模块23具体用于:
根据所述异常以及对应的处理方法,向指定用户推送自动处理提示,所述自动处理提示用于提示所述用户确认是否对所述异常进行自动处理;
若所述用户确认对所述异常进行自动处理,则根据所述处理方法对所述异常进行自动处理。
上述任一实施例提供的基于大数据的异常处理装置,用于实现前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图15为本发明提供的电子设备的实体示意图,如图15所示,该电子设备100包括:
处理器111;以及,
存储器112,用于存储所述处理器111的可执行指令;
其中,所述处理器111配置为经由执行所述可执行指令来执行前述任一方法实施例提供的基于大数据的异常处理方法。
可选地,存储器112既可以是独立的,也可以跟处理器111集成在一起。
当所述存储器112是独立于处理器111之外的器件时,所述电子设备还可以包括:通信接口113。
可选的,还可以包括:总线,用于连接所述处理器以及所述存储器。
本申请还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一方法实施例提供的基于大数据的异常处理方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的基于大数据的异常处理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (13)

1.一种基于大数据的异常处理方法,其特征在于,包括:
获取业务系统当前时间段对应的异常处理策略,所述异常处理策略包括调节监控指标;其中,每个业务系统在不同时间段的异常处理策略不同,且异常处理策略是根据所述业务系统的历史业务数据和历史报警数据分析得到的;
根据所述异常处理策略调节所述业务系统的监控指标;
根据调节后的监控指标监控所述业务系统,并在将获取到的异常报警信息发送给报警系统。
2.根据权利要求1所述的方法,其特征在于,所述异常处理策略还包括:监控指标阈值;
相应的,根据所述异常处理策略调节所述业务系统的监控指标,包括:
将所述业务系统当前时间段的监控指标调节为所述监控指标阈值。
3.根据权利要求1所述的方法,其特征在于,所述异常处理策略还包括:根据异常报警信息的数量确定报警方式;
相应的,所述方法还包括:
当所述业务系统出现相同异常报警信息的数量达到预设数量时,采用批量报警的方式向所述报警系统进行报警。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取所述业务系统的历史业务数据以及历史报警数据;
根据所述历史业务数据以及所述历史报警数据,获取每个时间段的异常处理策略。
5.根据权利要求4所述的方法,其特征在于,所述根据所述历史业务数据以及所述历史报警数据,获取每个时间段的异常处理策略,包括:
根据所述历史业务数据,获取所述业务系统中的交易变化情况,所述交易变化情况用于指示交易量整体变化,交易成功率变化以及不同时间段的交易量变化;
根据所述历史报警数据,获取所述业务系统中的报警情况,所述报警情况用于指示不同时间段的报警信息的变化以及报警信息的类型;
根据所述交易变化情况以及所述报警情况,确定所述业务系统在不同时间段对应的异常处理策略。
6.一种基于大数据的异常处理方法,其特征在于,包括:
接收监控系统发送的对业务系统的异常报警信息;
根据所述异常报警信息中指示的异常在异常库中进行匹配,其中,所述异常库中包括多种异常以及至少一种异常对应的处理方法;
若所述异常库中包括所述异常以及对应的处理方法,则根据所述处理方法对所述异常进行处理。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述异常库中不包括所述异常,或者所述异常库中包括所述异常但不包括所述异常对应的处理方法,则将所述异常报警信息推送给指定用户。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取对所述异常的处理方法,并在所述异常库中更新所述异常以及对应的处理方法。
9.根据权利要求6所述的方法,其特征在于,所述根据所述处理方法对所述异常进行处理,包括:
根据所述异常以及对应的处理方法,向指定用户推送自动处理提示,所述自动处理提示用于提示所述用户确认是否对所述异常进行自动处理;
若接收到所述用户确认对所述异常进行自动处理,则根据所述处理方法对所述异常进行自动处理。
10.一种基于大数据的异常处理装置,其特征在于,包括:
第一处理模块,用于获取业务系统当前时间段对应的异常处理策略,所述异常处理策略包括调节监控指标;其中,每个业务系统在不同时间段的异常处理策略不同,且异常处理策略是根据所述业务系统的历史业务数据和历史报警数据分析得到的;
第二处理模块,用于根据所述异常处理策略调节所述业务系统的监控指标;
第三处理模块,用于根据调节后的监控指标监控所述业务系统,并在将获取到的异常报警信息发送给报警系统。
11.一种基于大数据的异常处理装置,其特征在于,包括:
接收模块,用于接收监控系统发送的对业务系统的异常报警信息;
第一处理模块,用于根据所述异常报警信息中指示的异常在异常库中进行匹配,其中,所述异常库中包括多种异常以及至少一种异常对应的处理方法;
第二处理模块,用于若所述异常库中包括所述异常以及对应的处理方法,则根据所述处理方法对所述异常进行处理。
12.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任一项所述的基于大数据的异常处理方法。
13.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至9任一项所述的基于大数据的异常处理方法。
CN202010162413.5A 2020-03-10 2020-03-10 基于大数据的异常处理方法、装置、设备及存储介质 Pending CN113377559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010162413.5A CN113377559A (zh) 2020-03-10 2020-03-10 基于大数据的异常处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162413.5A CN113377559A (zh) 2020-03-10 2020-03-10 基于大数据的异常处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113377559A true CN113377559A (zh) 2021-09-10

Family

ID=77569442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162413.5A Pending CN113377559A (zh) 2020-03-10 2020-03-10 基于大数据的异常处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113377559A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867841A (zh) * 2021-09-29 2021-12-31 中国平安财产保险股份有限公司 业务系统的调用异常处理方法、装置、设备及存储介质
CN113904912A (zh) * 2021-12-08 2022-01-07 广州鲁邦通智能科技有限公司 一种实现云管理平台实现业务高可用的方法及装置
CN114741254A (zh) * 2022-02-21 2022-07-12 驼驼数字科技(北京)有限公司 监控跨境电商平台支付成功率的方法、系统、计算设备和存储介质
CN115729783A (zh) * 2022-11-30 2023-03-03 中国人民财产保险股份有限公司 故障风险监控方法、设备、存储介质及程序产品
CN117527527A (zh) * 2024-01-08 2024-02-06 天津市天河计算机技术有限公司 多源告警处理方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105406991A (zh) * 2015-10-26 2016-03-16 上海华讯网络系统有限公司 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN107707380A (zh) * 2017-07-31 2018-02-16 贵州白山云科技有限公司 一种监控告警方法和装置
CN108595300A (zh) * 2018-03-21 2018-09-28 北京奇艺世纪科技有限公司 一种可配置的监控和报警的方法及装置
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质
CN110164101A (zh) * 2019-04-09 2019-08-23 烽台科技(北京)有限公司 一种处理报警信息的方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105406991A (zh) * 2015-10-26 2016-03-16 上海华讯网络系统有限公司 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN107707380A (zh) * 2017-07-31 2018-02-16 贵州白山云科技有限公司 一种监控告警方法和装置
CN108595300A (zh) * 2018-03-21 2018-09-28 北京奇艺世纪科技有限公司 一种可配置的监控和报警的方法及装置
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN110164101A (zh) * 2019-04-09 2019-08-23 烽台科技(北京)有限公司 一种处理报警信息的方法及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867841A (zh) * 2021-09-29 2021-12-31 中国平安财产保险股份有限公司 业务系统的调用异常处理方法、装置、设备及存储介质
CN113904912A (zh) * 2021-12-08 2022-01-07 广州鲁邦通智能科技有限公司 一种实现云管理平台实现业务高可用的方法及装置
CN113904912B (zh) * 2021-12-08 2022-04-08 广州鲁邦通智能科技有限公司 一种实现云管理平台实现业务高可用的方法及装置
CN114741254A (zh) * 2022-02-21 2022-07-12 驼驼数字科技(北京)有限公司 监控跨境电商平台支付成功率的方法、系统、计算设备和存储介质
CN115729783A (zh) * 2022-11-30 2023-03-03 中国人民财产保险股份有限公司 故障风险监控方法、设备、存储介质及程序产品
CN117527527A (zh) * 2024-01-08 2024-02-06 天津市天河计算机技术有限公司 多源告警处理方法和系统
CN117527527B (zh) * 2024-01-08 2024-03-19 天津市天河计算机技术有限公司 多源告警处理方法和系统

Similar Documents

Publication Publication Date Title
CN113377559A (zh) 基于大数据的异常处理方法、装置、设备及存储介质
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US8732534B2 (en) Predictive incident management
US8352867B2 (en) Predictive monitoring dashboard
US6973415B1 (en) System and method for monitoring and modeling system performance
US7467067B2 (en) Self-learning integrity management system and related methods
US7082381B1 (en) Method for performance monitoring and modeling
CN110096410A (zh) 告警信息处理方法、系统、计算机装置及可读存储介质
CN116880412B (zh) 一种基于云的可视化生产管理平台
CN110223146B (zh) 客户购电服务全过程监控系统及方法
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN110134566A (zh) 一种基于标签技术的云环境下信息系统性能监测方法
US10372572B1 (en) Prediction model testing framework
CN111857555B (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN114201201A (zh) 一种对业务系统异常检测方法、装置及设备
CN114116396A (zh) 一种全链路追踪方法、系统、存储介质及设备
CN113760634A (zh) 一种数据处理方法和装置
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN114398222A (zh) 一种声明式可视化配置Prometheus监控告警的方法
CN109783310A (zh) It设备的多维动态安全监控方法及其监控装置
CN116204386B (zh) 应用服务关系自动识别及监控方法、系统、介质和设备
CN113485891A (zh) 业务日志监控方法、装置、存储介质及电子设备
CN115766768B (zh) 一种算力网络操作系统中感知中枢设计方法及装置
CN110601885A (zh) 一种人工智能公有云异常指示报警系统
CN115913894A (zh) 批量作业的分析告警方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination