CN108809673A - 一种故障报警的方法及装置 - Google Patents

一种故障报警的方法及装置 Download PDF

Info

Publication number
CN108809673A
CN108809673A CN201710293762.9A CN201710293762A CN108809673A CN 108809673 A CN108809673 A CN 108809673A CN 201710293762 A CN201710293762 A CN 201710293762A CN 108809673 A CN108809673 A CN 108809673A
Authority
CN
China
Prior art keywords
report
numerical value
index
report form
form index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710293762.9A
Other languages
English (en)
Inventor
尤胜涛
巫华亮
马振康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Micro Shadow Era Technology Co Ltd
Original Assignee
Beijing Micro Shadow Era Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Micro Shadow Era Technology Co Ltd filed Critical Beijing Micro Shadow Era Technology Co Ltd
Priority to CN201710293762.9A priority Critical patent/CN108809673A/zh
Publication of CN108809673A publication Critical patent/CN108809673A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Abstract

本发明公开了一种故障报警的方法,该方法包括:确定报表对象,所述报表对象包括应用、模块或接口;根据所述报表对象,生成相应的查询语句和查询索引;根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的;若所述报表指标的数值满足预设报警条件,进行故障报警。由此可见,根据报表对象的查询语句和查询索引查询业务日志得到报表指标的数值,根据预设报警条件对报表指标的数值的评判来确定是否出现故障并报警,从而实现了故障的监控,这样当出现线上故障时,技术团队可以快速发现故障。

Description

一种故障报警的方法及装置
技术领域
本发明涉及数据监测技术领域,尤其涉及一种故障报警的方法及装置。
背景技术
线上故障是指提供给客户使用的IT服务部分或者全部不可用,包括服务性能的降低,例如:服务延迟导致用户体验变差。互联网行业面对的用户量较大,技术人员编写的程序中可能存在有漏洞,最后在线上运行程序时漏洞可能会出现,如果漏洞的影响范围变大,则会演变成线上故障,造成较大范围的业务影响。
目前的情况是在线上业务出现故障后,该业务的技术团队可以通过获取用户在客服的投诉、或者利用技术手段查看所有日志、或者亲自人工体验线上服务等等这些传统方法发现线上故障,但是发明人经过研究发现,通过上述传统方法技术团队在故障出现后直到发现故障时间太长,而且发现这些故障还有一定的偶然性,当故障出现到技术团队发现故障的时间过长时,技术人员就无法快速分析处理故障,减少经济损失,无法保证服务的可用性。
基于此,如何监控线上故障,在故障出现后实现快速发现故障成为我们亟须解决的问题。
发明内容
本发明所要解决的技术问题是,提供一种故障报警的方法及装置,在搜索服务器收集所有业务日志之后,根据不同的报表对象生成动态查询语句和查询索引,在搜索服务器查询之后获得报表指标的数值,根据对报表指标的数值的判断,以实现故障报警,快速发现故障。
第一方面,本发明实施例提供了一种故障报警的方法,该方法包括:
确定报表对象,所述报表对象包括应用、模块或接口;
根据所述报表对象,生成相应的查询语句和查询索引;
根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的;
若所述报表指标的数值满足预设报警条件,进行故障报警。
优选的,所述报表指标包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。
优选的,所述预设报警条件包括可用性报警条件、访问量波动报警条件、无访问记录报警条件和/或耗时报警条件。
优选的,若所述报表指标的数值满足预设报警条件,还包括:
若不存在对应报警条件的报警标记,进行故障报警。
优选的,所述根据所述查询语句和查询索引,获得报表指标的数值,包括:
根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;
通过解析所述查询结果,获得所述报表指标的数值。
第二方面,本发明实施例提供了一种故障报警的装置,该装置包括:
报表对象确定单元,用于确定报表对象,所述报表对象包括应用、模块或接口;
生成单元,用于根据所述报表对象,生成相应的查询语句和查询索引;
数值获得单元,用于根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的
第一故障报警单元,用于若所述报表指标的数值满足预设报警条件,进行故障报警。
优选的,所述报表指标包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。
优选的,所述预设报警条件包括可用性报警条件、访问量波动报警条件、无访问记录报警条件和/或耗时报警条件。
优选的,若所述报表指标的数值满足预设报警条件,还包括:
第二故障报警单元,用于若不存在对应报警条件的报警标记,进行故障报警。
优选的,所述数值获得单元包括查询结果获取子单元和解析获得子单元;
所述查询结果获取子单元,用于根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;
所述解析获得子单元,用于通过解析所述查询结果,获得所述报表指标的数值。
与现有技术相比,本发明至少具有以下优点:
采用本发明实施例的技术方案,确定报表对象,所述报表对象包括应用、模块或接口;根据所述报表对象,生成相应的查询语句和查询索引;根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的;若所述报表指标的数值满足预设报警条件,进行故障报警。由此可见,根据报表对象的查询语句和查询索引查询业务日志得到报表指标的数值,根据预设报警条件对报表指标的数值的评判来确定是否出现故障并报警,从而实现了故障的监控,这样当出现线上故障时,技术团队可以快速发现故障。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种应用场景所涉及的系统框架示意图;
图2为本发明实施例提供的一种故障报警的方法的流程示意图;
图3为本发明实施例提供的一段时间报表指标的数值的趋势图;
图4为本发明实施例提供的短信形式的故障报警数据图;
图5为本发明实施例提供的另一种故障报警的方法的流程示意图;
图6为本发明实施例提供的一种故障报警的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人经过研究发现,现有技术中,线上业务出现故障后,技术团队通过获取用户在客服的投诉、或者利用技术手段查看日志、或者亲自人工体验线上服务等等这些传统方法发现故障,用时时间过长,而且发现过程具有偶然性,因此,技术人员就无法快速分析处理故障,减少经济损失,无法保证服务的可用性。
为了解决这一问题,在本发明实施例中,确定报表对象,所述报表对象包括应用、模块或接口;根据所述报表对象,生成相应的查询语句和查询索引;根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的;若所述报表指标的数值满足预设报警条件,进行故障报警。由此可见,根据报表对象的查询语句和查询索引查询业务日志得到报表指标的数值,根据预设报警条件对报表指标的数值的评判来确定是否出现故障并报警,从而实现了故障的监控,这样当出现线上故障时,技术团队可以快速发现故障。
举例来说,本发明实施例的场景之一,可以是应用到如图1所示的场景中。该场景中包括搜索服务器101、服务器102和客户端103,其中,搜索服务器101和服务器102可以交互,服务器102和客户端103可以交互。服务器102从数据库中确定报表对象,所述报表对象包括应用、模块或接口;服务器102循环所有报表对象,根据所述报表对象生成相应的查询语句和查询索引并添加到消息队列中;服务器102根据消息队列中的所述查询语句和查询索引向搜索服务器101发送查询请求,获取查询结果,将所述查询结果解析后得到报表指标的数据并存储在数据库中,所述报表指标是基于业务日志预先设置的,所述搜索服务器101收集有所有的业务日志;若所述报表指标的数值满足预设报警条件,服务器102进行故障报警,同时可以向客户端103发送故障报警数据,以便客户端103向技术人员显示故障报警数据,然后,技术人员可以通过客户端103通信服务器102来处理故障。
可以理解的是,在上述应用场景中,虽然将本发明实施方式的动作描述由服务器102执行。本发明在执行主体方面不受限制,只要执行了本发明实施方式所公开的动作即可。
可以理解的是,上述场景仅是本发明实施例提供的一个场景示例,本发明实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本发明实施例中规划导航终点的方法、装置和设备的具体实现方式。
示例性方法
参见图2,示出了本发明实施例中一种故障报警的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:确定报表对象,所述报表对象为应用、模块或接口。
服务器在监控线上服务的状况时,包括不同的应用的服务,由于应用的服务按照业务流程可以划分为不同的模块,而每个模块又可以包含有不同的接口,因此报表对象既可以是监控的整个应用也可以是应用的模块,还可以是应用模块的接口。例如,应用的服务为电影购票时,按照业务流程可以分为浏览模块、下单模块、支付模块、出票模块、取票模块,其中,每个模块包含不同的接口。因此,在执行本实施例时,首先应该在数据库中查询应用、模块或接口这些报表对象,确定报表对象。确定报表对象的方式可以是服务器定时触发程序A运行查询,例如结合下述报表指标的周期可以每五分钟触发程序A。
步骤202:根据所述报表对象,生成相应的查询语句和查询索引。
在生成相应的查询语句和查询索引之后,可以将所述报表对象对应的查询语句和查询索引确定为报表任务添加到消息队列中,以便后续从消息队列中获取报表任务执行任务处理。
步骤203:根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的。
需要说明的是,根据所述查询语句和查询索引进行查询,是指根据所述查询语句和查询索引在存储有所述业务日志的搜索引擎中查询得到所需内容。也就是说,在搜索引擎接收到服务器发送的查询请求之后,搜索引擎会产生查询结果打包返回到服务器,对查询结果进行解析之后才能得到需要的报表指标的数值。在本实施例的一些实施方式中,所述步骤203例如可以包括:根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;通过解析所述查询结果,获得所述报表指标的数值。其中,所述搜索服务器是指ElasticSearch,ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。在ElasticSearch中收集了所有的业务日志,服务器通过ElasticSearch可以获得所述报表对象的报表指标的数值。具体地,例如可以是服务器通过程序B从消息队列中获取报表任务向ElasticSearch发送查询请求,服务器可以获取到ElasticSearch返回的查询结果,将所述查询结果解析之后就可以得到所述报表指标的数值,这些报表指标的数值还可以存储到数据库中。
需要说明的是,报表指标的数值可以通过对ElasticSearch中收集的业务日志统计分析得到,例如可以是对业务日志中预设单位周期内页面的用户访问量的统计得到的预设单位周期内总访问次数,或者是预设单位周期内服务器处理失败的次数,或者是预设单位周期内平均处理耗时,还可以是由所述预设单位周期内总访问次数和所述预设单位周期内服务器处理失败的次数的差值与所述预设单位周期内总访问次数相除得到的预设单位周期内可用性。在本实施例中,所述报表指标包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。例如,预设单位周期内总访问次数可以是5分钟内页面的用户访问总量。
步骤204:若所述报表指标的数值满足预设报警条件,进行故障报警。
需要说明的是,在获得报表指标的数值之后,可以根据预设报警条件对报表指标的数值进行评判,若是所述报表指标的数值满足预设报警条件,则确定为应用服务有故障,进行故障报警。
由于上述报表指标可以包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。因此,在本实施例中,所述预设报警条件包括可用性报警条件、访问量波动报警条件、无访问记录报警条件和/或耗时报警条件,其中,所述预设报警条件中的各类参数是预先设置好的。
例如,关于可用性报警的评判,预先设置好的单位周期内(五分钟内)总访问次数为100,单位周期内(五分钟内)可用性为80%。若服务器获得的单位周期内(五分钟内)总访问次数大于100且单位周期内(五分钟内)可用性小于80%,则判定为服务可用性出现故障,触发故障报警;
例如,关于访问量波动报警的评判,预先设置好的单位周期内(五分钟内)总访问次数为100,单位周期内(五分钟内)总访问次数的最小倍数和最大倍数分别为0.5和2。服务器在今天18:30获得的单位周期内(18:25到18:30)总访问次数,由今天18:25获得的单位周期内(18:20到18:25)总访问次数、前七天18:25获得的单位周期内(18:20到18:25)总访问次数和18:30获得的单位周期内(18:25到18:30)总访问次数等一系列数据可以预测今天单位周期内(18:25到18:30)总访问次数,具体地,以18:25获得的数据为基准,去掉最大值和最小值取平均值得到18:25的单位周期内(18:25到18:30)总访问次数的平均值和18:30的单位周期内(18:25到18:30)总访问次数的平均值,计算18:30的单位周期内(18:25到18:30)总访问次数的平均值与18:25的单位周期内(18:25到18:30)总访问次数的平均值的比值,将所述比值与今天18:25获得的单位周期内(18:20到18:25)总访问次数相乘得到单位周期内(18:25到18:30)总访问次数的预测值,所述预测值与最小倍数相乘得到最小预测值,所述预测值与最大倍数相乘得到最大预测值,若今天18:30获得的单位周期内(18:25到18:30)总访问次数大于100,且今天18:30获得的单位周期内(18:25到18:30)总访问次数不在最小预测值和最大预测值所形成的范围内,则判定为访问量波动较大,服务可能出现故障,触发故障报警。需要说明的是,若前前七天的数据为不可用数据,例如,前七天的数据中有四天数据为非正常数据,则往推七天选取数据。
例如,关于无访问记录报警的评判,预先设置好的单位周期内(五分钟内)总访问次数为100。若服务器获得的单位周期内(五分钟内)总访问次数为0,且前七天同时期的单位周期内(五分钟内)总访问次数的平均值大于100,则判定为当前周期无任何访问量,服务出现故障,触发故障报警。
例如,关于耗时报警的评判,预先设置好的单位周期内(五分钟内)总访问次数为100,单位周期内(五分钟内)平均处理耗时的最小倍数和最大倍数分别为0.5和3。服务器在今天18:30获得的单位周期内(18:25到18:30)平均处理耗时,首先计算前七天同时期的单位周期内(五分钟内)平均处理耗时的平均值,然后由所述平均值与最小倍数相乘得到最小平均值,最后由所述平均值与最大倍数相乘得到最大平均值,若服务器今天18:30获得的单位周期内(18:25到18:30)总访问次数大于100,且今天18:30获得的单位周期内(18:25到18:30)平均处理耗时不在最小平均值和最大平均值所形成的范围内,则判定为服务器处理过程耗时出现故障,触发故障报警。
需要说明的是,当报表指标的数值满足预设报警条件时,有可能该报警在之前的单位周期内就已经出现了,也就是说,存在对应报警条件的报警标记,技术人员已经可以得知服务有故障,此时,不需要再次进行报警,因此,在本实施例的一些实施方式中,若所述报表指标的数值满足预设报警条件,例如还可以包括:若不存在对应报警条件的报警标记,进行故障报警。当报表指标的数值满足预设报警条件且不存在对应报警条件的报警标记,进行故障报警,并添加报警标记。
需要说明的是,若所述查询结果中报表指标的数值满足预设报警条件,则认为线上服务出现故障,此时,可以以邮件或者短信等形式向客户端发送故障报警数据,在本实施例中不加以限定发送数据的形式,技术人员在客户端看到这些和故障报警数据之后,才能修复程序中的漏洞,使线上服务不再出现此故障。在本实施例的一些实施方式中,若所述查询结果中报表指标满足预设报警条件,还包括:向客户端发送故障报警数据,以便客户端显示故障报警数据。
例如,以邮件形式发送的的故障报警数据图,具体数据可以是2017年2月7号15点40获得微信应用电影全局模块接口5单位周期内(15:35到15:40)总访问次数为522,可用性为61.11%满足可用性报警条件,服务器向微信电影组发送可用性报警邮件,微信电影组收到邮件后,在客户端界面显示故障报警数据;
例如,图3所示一段时间报表指标的数值的趋势图,具体为2017年2月8号11点07分31秒到2017年2月8号12点07分31秒时间段浏览模块中各个单位周期内(5分钟)总访问次数和可用性的数值趋势图。
例如,如图4所示短信形式的故障报警数据图,上图为9点20获得的手机QQ浏览模块pay接口单位周期内(09:14到09:19)总访问次数为0,且前七天同时期的单位周期内(五分钟内)总访问次数的平均值为10993,服务器向微信电影组发送无访问记录报警短信,手机QQ电影组收到短信后,在客户端界面显示故障报警数据;下图为手机QQ电影浏览模块访问量波动短信报警图。
通过本实施例提供的各种实施方式,服务器定时通过程序从数据库确定报表对象,所述报表对象包括应用、模块或接口;根据所述报表对象,生成相应的查询语句和查询索引;利用另一程序根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;通过解析所述查询结果,获得所述报表指标的数值,所述搜索服务器包括所有业务日志;若所述报表指标的数值满足不同的预设报警条件,向所述报表对象对应的接收组发送不同的故障报警。由此可见,通过报表对象的查询语句和查询索引在搜索服务器查询业务日志得到报表指标的数值,根据预设报警条件对报表指标的数值的评判来确定是否出现故障并报警,从而实现了故障的监控,这样当出现线上故障时,技术团队可以快速发现故障。
由图2所示的一种故障报警的方法的流程示意图的实施例,可以得到下面优选的更加体现具体实现的另一种故障报警的方法的流程示意图的实施例。
参见图5,示出了本发明实施例中另一种故障报警的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤501:服务器触发第一程序连接消息队列,所述消息队列用于程序之间的数据传递。
其中,所述步骤501是连接消息队列是为了等待任务的到来进行处理。
步骤502:定时触发第二程序,通过第二程序在数据库查询并循环所有报表对象,所述报表对象包括应用、模块或接口。
步骤503:根据所述报表对象,生成相应的查询语句和查询索引,形成报表任务添加到所述消息队列。
步骤504:通过所述第一程序选取所述消息队列中的所述报表任务,向搜索服务器发送查询请求。
步骤505:获取查询结果并解析得到报表指标的数值,将所述报表指标的数值存储到所述数据库中。
步骤506:若所述报表指标的数值满足预设报警条件且不存在对应报警条件的报警标记,向所述报表对象的对应接收组发送故障报警。
通过本实施例提供的各种实施方式,服务器定时通过程序从数据库确定报表对象,所述报表对象包括应用、模块或接口;根据所述报表对象,生成相应的查询语句和查询索引;利用另一程序根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;通过解析所述查询结果,获得所述报表指标的数值,所述搜索服务器包括所有业务日志;若所述报表指标的数值满足不同的预设报警条件,向所述报表对象对应的接收组发送不同的故障报警。由此可见,通过报表对象的查询语句和查询索引在搜索服务器查询业务日志得到报表指标的数值,根据预设报警条件对报表指标的数值的评判来确定是否出现故障并报警,从而实现了故障的监控,这样当出现线上故障时,技术团队可以快速发现故障。
示例性设备
参见图6,示出了本发明实施例中一种故障报警的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
报表对象确定单元601,用于确定报表对象,所述报表对象包括应用、模块或接口。
生成单元602,用于根据所述报表对象,生成相应的查询语句和查询索引。
数值获得单元603,用于根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的。
故障报警单元604,用于若所述报表指标的数值满足预设报警条件,进行故障报警。
可选的,所述报表指标包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。
可选的,所述预设报警条件包括可用性报警条件、访问量波动报警条件、无访问记录报警条件和/或耗时报警条件。
可选的,若所述报表指标的数值满足预设报警条件,所述装置例如还可以包括:
第二故障报警单元,用于若不存在对应报警条件的报警标记,进行故障报警。
可选的,所述数值获得单元603例如可以包括查询结果获取子单元和解析获得子单元。
所述查询结果获取子单元,用于根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;
所述解析获得子单元,用于通过解析所述查询结果,获得所述报表指标的数值。
通过本实施例提供的各种实施方式,服务器定时通过程序从数据库确定报表对象,所述报表对象包括应用、模块或接口;根据所述报表对象,生成相应的查询语句和查询索引;利用另一程序根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;通过解析所述查询结果,获得所述报表指标的数值,所述搜索服务器包括所有业务日志;若所述报表指标的数值满足不同的预设报警条件,向所述报表对象对应的接收组发送不同的故障报警。由此可见,通过报表对象的查询语句和查询索引在搜索服务器查询业务日志得到报表指标的数值,根据预设报警条件对报表指标的数值的评判来确定是否出现故障并报警,从而实现了故障的监控,这样当出现线上故障时,技术团队可以快速发现故障。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种故障报警的方法,其特征在于,包括:
确定报表对象,所述报表对象包括应用、模块或接口;
根据所述报表对象,生成相应的查询语句和查询索引;
根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的;
若所述报表指标的数值满足预设报警条件,进行故障报警。
2.根据权利要求1所述的方法,其特征在于,所述报表指标包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。
3.根据权利要求1或2所述的方法,其特征在于,所述预设报警条件包括可用性报警条件、访问量波动报警条件、无访问记录报警条件和/或耗时报警条件。
4.根据权利要求3所述的方法,其特征在于,若所述报表指标的数值满足预设报警条件,还包括:
若不存在对应报警条件的报警标记,进行故障报警。
5.根据权利要求1所述的方法,其特征在于,所述根据所述查询语句和查询索引,获得报表指标的数值,包括:
根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;
通过解析所述查询结果,获得所述报表指标的数值。
6.一种故障报警的装置,其特征在于,包括:
报表对象确定单元,用于确定报表对象,所述报表对象包括应用、模块或接口;
生成单元,用于根据所述报表对象,生成相应的查询语句和查询索引;
数值获得单元,用于根据所述查询语句和查询索引进行查询,获得报表指标的数值,所述报表指标是基于业务日志预先设置的
第一故障报警单元,用于若所述报表指标的数值满足预设报警条件,进行故障报警。
7.根据权利要求6所述的装置,其特征在于,所述报表指标包括预设单位周期内总访问次数、预设单位周期内服务器处理失败的次数、预设单位周期内可用性和/或预设单位周期内平均处理耗时。
8.根据权利要求6或7所述的装置,其特征在于,所述预设报警条件包括可用性报警条件、访问量波动报警条件、无访问记录报警条件和/或耗时报警条件。
9.根据权利要求8所述的装置,其特征在于,若所述报表指标的数值满足预设报警条件,还包括:
第二故障报警单元,用于若不存在对应报警条件的报警标记,进行故障报警。
10.根据权利要求6所述的装置,其特征在于,所述数值获得单元包括查询结果获取子单元和解析获得子单元;
所述查询结果获取子单元,用于根据所述查询语句和查询索引向搜索服务器发送查询请求,获取查询结果,所述搜索服务器存储所述业务日志;
所述解析获得子单元,用于通过解析所述查询结果,获得所述报表指标的数值。
CN201710293762.9A 2017-04-28 2017-04-28 一种故障报警的方法及装置 Pending CN108809673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710293762.9A CN108809673A (zh) 2017-04-28 2017-04-28 一种故障报警的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710293762.9A CN108809673A (zh) 2017-04-28 2017-04-28 一种故障报警的方法及装置

Publications (1)

Publication Number Publication Date
CN108809673A true CN108809673A (zh) 2018-11-13

Family

ID=64070591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710293762.9A Pending CN108809673A (zh) 2017-04-28 2017-04-28 一种故障报警的方法及装置

Country Status (1)

Country Link
CN (1) CN108809673A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110474810A (zh) * 2019-08-21 2019-11-19 具东鹤 一种基于大数据的通信检测预警系统
CN113792036A (zh) * 2021-01-15 2021-12-14 北京沃东天骏信息技术有限公司 业务数据处理方法、装置、介质及电子设备
CN115131946A (zh) * 2022-06-27 2022-09-30 南京凯奥思数据技术有限公司 一种考虑工况波动的自适应设备报警方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198071A (zh) * 2012-01-06 2013-07-10 中国移动通信集团山东有限公司 数据报表生成方法及其装置
CN104021438A (zh) * 2014-05-12 2014-09-03 华迪计算机集团有限公司 基于业务模型对业务系统中物理设备进行监控的方法和装置
CN105468492A (zh) * 2015-11-17 2016-04-06 中国建设银行股份有限公司 一种基于搜索引擎的数据监控方法和系统
CN105721187A (zh) * 2014-12-03 2016-06-29 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
CN105847083A (zh) * 2016-03-22 2016-08-10 乐视云计算有限公司 一种业务集中监控方法及系统
CN106385331A (zh) * 2016-09-08 2017-02-08 努比亚技术有限公司 一种基于日志的监控告警方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198071A (zh) * 2012-01-06 2013-07-10 中国移动通信集团山东有限公司 数据报表生成方法及其装置
CN104021438A (zh) * 2014-05-12 2014-09-03 华迪计算机集团有限公司 基于业务模型对业务系统中物理设备进行监控的方法和装置
CN105721187A (zh) * 2014-12-03 2016-06-29 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
CN105468492A (zh) * 2015-11-17 2016-04-06 中国建设银行股份有限公司 一种基于搜索引擎的数据监控方法和系统
CN105847083A (zh) * 2016-03-22 2016-08-10 乐视云计算有限公司 一种业务集中监控方法及系统
CN106385331A (zh) * 2016-09-08 2017-02-08 努比亚技术有限公司 一种基于日志的监控告警方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110474810A (zh) * 2019-08-21 2019-11-19 具东鹤 一种基于大数据的通信检测预警系统
CN110474810B (zh) * 2019-08-21 2023-09-05 内蒙古高投共建科技有限责任公司 一种基于大数据的通信检测预警系统
CN113792036A (zh) * 2021-01-15 2021-12-14 北京沃东天骏信息技术有限公司 业务数据处理方法、装置、介质及电子设备
CN115131946A (zh) * 2022-06-27 2022-09-30 南京凯奥思数据技术有限公司 一种考虑工况波动的自适应设备报警方法和系统
CN115131946B (zh) * 2022-06-27 2024-03-08 南京凯奥思数据技术有限公司 一种考虑工况波动的自适应设备报警方法和系统

Similar Documents

Publication Publication Date Title
CN106130786B (zh) 一种网络故障的检测方法及装置
CN109412870B (zh) 告警监控方法及平台、服务器、存储介质
CN109005085B (zh) 一种服务可用性监控系统、方法、装置及设备
CN112653586A (zh) 基于全链路监控的时空大数据平台应用性能管理方法
CN109672582B (zh) 全路径监测方法、设备、存储介质及装置
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN106126388A (zh) 监控事件的方法、规则引擎装置和规则引擎系统
WO2015018226A1 (en) Method,apparatus,and system for monitoring website
CN106407244A (zh) 基于多数据库的数据查询方法、系统和装置
CN109783512A (zh) 数据处理方法、装置、计算机设备及存储介质
US7743150B1 (en) Apparatus and method for web service message correlation
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN108809673A (zh) 一种故障报警的方法及装置
CN108173678B (zh) 客户端数据发送方法、客户端连接异常显示方法及装置
US6678729B1 (en) Method of monitoring the availability of a messaging and VOIP networking
CN103370695B (zh) 数据库更新通知方法
CN106888277A (zh) 一种域名查询方法及装置
CN112559285B (zh) 基于分布式服务架构的微服务监控方法及相关装置
CN112162912A (zh) 一种云资源监控方法及系统
CN106487597A (zh) 一种基于Zookeeper的服务监控系统和方法
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN100413257C (zh) 网元告警数据获取方法
CN107959696A (zh) 一种日志话单处理方法及系统
CN116760655B (zh) Sd-wan应用中提供cpe最优接入的pop点方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113