CN112491611A - 故障定位系统、方法、装置、电子设备和计算机可读介质 - Google Patents

故障定位系统、方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN112491611A
CN112491611A CN202011345758.0A CN202011345758A CN112491611A CN 112491611 A CN112491611 A CN 112491611A CN 202011345758 A CN202011345758 A CN 202011345758A CN 112491611 A CN112491611 A CN 112491611A
Authority
CN
China
Prior art keywords
log
service
fault
target
embedded point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011345758.0A
Other languages
English (en)
Other versions
CN112491611B (zh
Inventor
喻世凯
乔少华
贾林强
王淼
邓颖
郝加耀
杜宝龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinabank Payments Beijing Technology Co Ltd
Original Assignee
Chinabank Payments Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinabank Payments Beijing Technology Co Ltd filed Critical Chinabank Payments Beijing Technology Co Ltd
Priority to CN202011345758.0A priority Critical patent/CN112491611B/zh
Publication of CN112491611A publication Critical patent/CN112491611A/zh
Application granted granted Critical
Publication of CN112491611B publication Critical patent/CN112491611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种故障定位系统、方法、装置、电子设备和计算机可读介质,属于故障定位技术领域。所述方法包括:采集目标业务在业务流程的各个阶段的埋点日志;按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;展示所述故障原因本申请通过采集业务流程各个阶段的埋点日志,并对该埋点日志进行分析处理,可以得到具体的故障原因,还可以确定发生故障的埋点日志所属的业务阶段,从而提高故障定位精准度,根据故障原因进行维修提高故障修复效率。

Description

故障定位系统、方法、装置、电子设备和计算机可读介质
技术领域
本申请涉及故障定位技术领域,尤其涉及一种故障定位系统、方法、装置、电子设备和计算机可读介质。
背景技术
目前大部分的业务监控系统是基于应用维度,只能展示业务线中无实际业务含义的实时日志,如果业务系统中出现了故障,监控系统可以进行报警,以警示技术人员业务系统出现故障,但并不能对故障进行有效定位。
互联网公司的业务系统大部分为微服务架构,进行故障定位需要花费很长的时间,还需要技术人员根据已有经验进行故障排查,人工故障排查效率低下。
发明内容
本申请实施例的目的在于提供一种故障定位系统、方法、装置、电子设备和计算机可读介质,以解决人工故障排查效率低的问题。具体技术方案如下:
第一方面,提供了一种故障定位系统,所述系统包括:
日志采集模块,用于采集目标业务在业务流程的各个阶段的埋点日志;
流式实时计算引擎,用于按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示设备,用于展示所述故障原因。
可选地,所述系统还包括:
日志平台,与所述日志采集模块建立有连接,用于收集所有所述日志采集模块采集到的埋点日志,其中,每个所述日志采集模块用于采集所述业务流程中至少一个阶段的埋点日志。
可选地,所述系统还包括:
数据预处理模块,所述数据预处理模块用于按照所述业务流程的关联标识从所述日志平台中查找属于所述业务流程的埋点日志,并从属于所述业务流程的埋点日志中抽取出属于目标字段的字段数据;
配置模块,用于提供为所述数据预处理模块配置所述关联标识和所述目标字段,并提供指标配置,其中,所述指标配置包括根据所述目标字段的字段数据确定指标数据的方案和指标数据的正常取值区间。
可选地,所述关联标识包括第一标识和第二标识,其中:
在同一请求触发的业务流程中,所述日志采集模块采集到的所述埋点日志中携带不同第一标识的情况下,将多个所述第一标识用所述第二标识关联。
可选地,所述系统还包括:
指标分析模块,用于根据所述目标字段的字段数据确定指标数据;
缓存模块,用于存储所述指标分析模块确定的指标数据。
可选地,所述系统还包括:
日志明细存储器,与所述数据预处理模块连接,用于存储所述数据预处理模块抽取出的属于目标字段的字段数据。
第二方面,提供了一种故障定位方法,所述方法包括:
采集目标业务在业务流程的各个阶段的埋点日志;
按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示所述故障原因。
可选地,按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因包括:
从所述埋点日志中抽取出属于目标字段的字段数据;
根据所述目标字段的字段数据确定指标数据;
在所述指标数据超出正常取值区间的情况下,确定所述业务存在业务故障;
将与所述业务故障匹配的埋点日志输入目标分析模型,得到所述目标分析模型输出的所述埋点日志的故障原因。
可选地,按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因之前,所述方法还包括:
按照所述业务流程的关联标识从日志平台中查找属于所述业务流程的埋点日志,其中,所述日志平台包括多个业务流程的埋点日志。
可选地,所述关联日志包括第一标识和第二标识,其中,按照所述业务流程的关联标识从日志平台中查找属于所述业务流程的埋点日志包括:
在不存在所述目标业务的业务流程关联的所述第二标识的情况下,获取所有携带有所述第一标识的埋点日志;
在存在所述目标业务的业务流程关联的所述第二标识的情况下,确定由所述第二标识关联的多个所述第一标识,获取所有携带有任一由所述第二标识关联的所述第一标识的埋点日志。
第三方面,提供了一种故障定位装置,所述装置包括:
采集模块,用于采集目标业务在业务流程的各个阶段的埋点日志;
处理模块,用于按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示模块,用于展示所述故障原因。
第四方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种故障定位系统,系统包括:日志采集模块,用于采集目标业务在业务流程的各个阶段的埋点日志;流式实时计算引擎,用于按照目标业务的配置信息对埋点日志进行处理,得到目标业务的故障原因;展示设备,用于展示故障原因。本申请通过采集业务流程各个阶段的埋点日志,并对该埋点日志进行分析处理,可以得到具体的故障原因,还可以确定发生故障的埋点日志所属的业务阶段,从而提高故障定位精准度,根据故障原因进行维修提高故障修复效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种故障定位系统示意图;
图2为本申请实施例提供的一种故障定位方法的流程图;
图3为本申请实施例提供的得到故障原因的流程图;
图4为本申请实施例提供的包含多个自定义字段的业务阶段示意图;
图5为本申请实施例提供的目标分析模型的训练示意图;
图6为本申请实施例提供的通过流式实时计算引擎得到故障原因的流程示意图;
图7为本申请实施例提供的携带有第一标识的业务流程示意图;
图8为本申请实施例提供的携带有第一标识和第二标识的业务流程示意图;
图9为本申请实施例提供的银行回调流程示意图;
图10为本申请实施例中故障定位系统的主要功能;
图11为本申请实施例提供的一种故障定位装置的结构示意图;
图12为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供了一种故障定位系统,如图1所示,该系统包括日志采集模块、日志平台、数据预处理模块、日志明细存储器、指标分析模块、缓存模块、数据门户。其中,日志平台连接日志采集模块和数据预处理模块,数据预处理模块连接日志明细存储器、配置模块和指标分析模块,指标分析模块连接配置模块和缓存模块,数据门户分别连接缓存模块和日志明细存储器。
目标业务的业务流程中包含多个业务阶段,每个业务阶段均预先设置有埋点SDK,用于业务阶段在执行业务过程中输出埋点日志,日志采集模块可以采集业务流程中至少一个阶段的埋点日志。
日志采集模块采集目标业务在业务流程的各个阶段的埋点日志,日志平台收集所有日志采集模块采集到的埋点日志,日志平台将采集到的埋点日志通过MQ(messagequeue,消息队列)发送至数据预处理模块ETL(Extract-Transform-Load),数据预处理模块用于按照业务流程的关联标识从日志平台中查找属于业务流程的埋点日志,并从属于业务流程的埋点日志中抽取出属于目标字段的字段数据,数据预处理模块将字段数据通过MQ发送至流式实时计算引擎,流式实时计算引擎包括指标分析模块和目标分析模型,流式实时计算引擎根据目标字段的字段数据确定指标数据,并按照目标业务的配置信息对指标数据进行处理,得到目标业务的故障原因,缓存模块用于存储流式实时计算引擎确定的指标数据,展示设备具体为数据门户,用于展示故障原因,日志明细存储器用于存储数据预处理模块抽取出的属于目标字段的字段数据,配置模块用于提供为数据预处理模块配置关联标识和目标字段,并提供指标配置,其中,指标配置包括根据目标字段的字段数据确定指标数据的方案和指标数据的正常取值区间。
其中,缓存模块可以为redis,日志明细存储器具体为ES(elasticsearch,一个基于Lucene的搜索服务器)。
本申请实施例提供了一种故障定位方法,可以应用于服务器,用于对系统产生的故障进行精准故障定位。
下面将结合具体实施方式,对本申请实施例提供的一种故障定位方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:采集目标业务在业务流程的各个阶段的埋点日志。
每个业务行为会触发一次业务流程,业务流程在执行过程中会涉及到多个业务阶段,服务器事先在每个业务阶段均设置埋点SDK,该SDK用于使所在的业务阶段完成相应业务过程中产生对应的埋点日志,该埋点日志记录了该业务阶段执行业务的时刻和执行内容等信息。日志采集模块包括多个埋点SDK,每个日志采集模块用于采集业务流程中至少一个业务阶段的埋点日志。具体的,每个业务阶段都有对应的日志平台,本申请可以通过接入日志平台来实现对埋点日志的采集。
具体的,埋点日志中携带有埋点应用(appld)、埋点时间戳(timestamp)、所在业务设备的ip地址、埋点key(samplingKey,能够唯一标识需要埋点监控的业务节点)、bizld、业务数据(包括业务流程中的支付产品、支付方式等)、traceld(每个业务行为对应一个traceld,能够唯一标识该业务流程)、ext(扩展数据,可依赖业务流程中的传统日志输出平台的开放API进行自定义的描述扩展)。
可选地,本申请中的日志框架可以采用log4日志框架,使埋点日志输出到指定的文件,能够实现日志的持久化功能。
步骤202:按照目标业务的配置信息对埋点日志进行处理,得到目标业务的故障原因。
服务器获取到埋点日志后,需要从埋点日志中抽取出属于目标字段的字段数据,然后判断字段数据是否位于正常取值区间,对于超出正常取值区间的故障数据进行故障分析,得到目标业务的故障原因。
步骤203:展示故障原因。
服务器在获取到故障原因后,可以在数据门户展示该故障原因,以使技术人员能够根据故障原因进行故障修复。
在本申请中,每个业务流程的各阶段均设有埋点日志,对埋点日志进行分析可以溯源至产生该埋点日志的业务阶段,并能够确定业务故障发生的具体原因,这样能够同时确定故障源和故障原因,无需技术人员自行排查,提高了故障定位和故障修复效率。
作为一种可选的实施方式,按照目标业务的配置信息对埋点日志进行处理,得到目标业务的故障原因之前,该方法还包括:按照业务流程的关联标识从日志平台中查找属于业务流程的埋点日志,其中,日志平台包括多个业务流程的埋点日志。
在本申请实施例中,每个业务流程具有唯一可以标识该业务流程的关联标识,该业务流程对应的埋点日志也携带有相同的关联标识,服务器需要从多个埋点日志中确定属于同一业务流程的埋点日志,因此,服务器可以根据关联标识从日志平台中查找属于同一业务流程的埋点日志,提供业务链路的指标数据健康分析。
可选地,本申请包含多个进程,每个进程对应一个业务流程,本申请可以采用alibaba multi-thread-context库MtContext Thread Local类继承并加强InheritableThread Local类,能够帮助完成多进程环境下的跨进程传递traceld。
作为一种可选的实施方式,如图3所示,按照目标业务的配置信息对埋点日志进行处理,得到目标业务的故障原因包括:
步骤301:从埋点日志中抽取出属于目标字段的字段数据。
目标业务的每个业务阶段可以包含至少一个埋点日志,埋点日志中包含不同的指标数据,服务器可以根据实际需要获取不同的指标数据。埋点日志中设有多个自定义字段,每一类指标数据至少对应一个自定义字段,服务器可以根据需要获取的指标数据确定目标字段。因此,服务器从埋点日志中抽取出属于目标字段的字段数据。
如图4所示,图4为包含多个自定义字段的业务阶段示意图。从图4中可以看出,业务端C至业务端D之间包含N个自定义字段,每种指标数据至少对应一个自定义字段,本申请实施例选取了自定义字段1和2。
步骤302:根据目标字段的字段数据确定指标数据。
目标字段中包含多个字段数据,服务器从字段数据中选取与指标相关联的关联数据。
具体的,服务器确定埋点日志的IP地址和与IP地址对应的日志路径,服务器通过IP地址查找到该埋点日志,然后通过日志路径将IP地址发送至消息队列,通过指标分析模块分析得到该埋点日志的指标数据。
本申请还可以获取每个业务阶段的指标数据,生成饼状图,饼状图的每个部分代表一个业务阶段的指标数据,从而能够直观的看到业务阶段的指标数据的对比。折线图中横坐标为业务路程的业务处理时刻,纵坐标为处理时长,饼状图能够清晰的了解各业务阶段时长在整个业务流程中所占业务时长的比例,折线图选取不同横坐标,展示出的饼状图也是不同的。
步骤303:在指标数据超出正常取值区间的情况下,确定业务存在业务故障。
配置模块配置了指标数据的方案和指标数据的正常取值区间。指标分析模块判断指标数据是否超出正常取值区间,若指标分析模块判定指标数据超出正常取值区间时,表明指标数据对应的业务阶段存在业务故障,则需要对该指标数据进行故障原因分析;若指标分析模块判定指标数据未超出正常取值区间时,表明指标数据对应的业务阶段不存在业务故障。
其中,指标数据方案为技术人员根据实际需求选取的指标类型。不同类型的指标数据包括流量、成功率和平均相应时长。流量为单位时长中窗口收到的流量请求总数,成功率为请求成功的总数与总请求量的比值,平均响应时长为每个业务阶段之间完成业务流程的耗时,耗时指标包括(TP50,TP90,TP99,TP999,AVG,MAX)。
步骤304:将与业务故障匹配的埋点日志输入目标分析模型,得到目标分析模型输出的埋点日志的故障原因。
服务器确定业务故障对应的业务阶段,并获取该业务阶段的埋点日志,服务器将埋点日志输入目标分析模型,得到目标分析模型输出的埋点日志的故障原因。
可选地,在将埋点日志输入目标分析模型之前,需要对初始分析模型进行训练得到目标分析模型,图5为目标分析模型的训练示意图。技术人员首先收集异常特征(包括特征学习和时序性异常特征),然后进行特征挖掘(包括特征组合和特征离散),将挖掘后的特征输入初始分析模型进行模型训练,直至初始分析模型输出的故障原因与标注原因相同,则目标分析模型训练完成,可以通过该目标分析模型进行业务流程的健康度测评,反馈业务质量。其中,目标分析模型在训练过程中包括特征训练和XGboost(一套提升树可扩展的机器学习系统)。
图6为通过流式实时计算引擎得到故障原因的流程示意图。指标分析模块从目标字段的字段数据确定指标数据,然后确定超出正常取值区间的故障指标数据,指标分析模块将故障指标数据对应的埋点日志存储在存储模块中,目标分析模型从存储模块获取该故障指标数据对应的埋点日志,然后根据埋点日志确定出业务故障的故障原因,指标分析模块在分析指标数据出现异常时还可以进行告警。
在本申请中,基于机器学习构建目标分析模型,通过机器学习确定故障原因可以提高故障原因的精准性。通过设置正常取值区间,可以自动得到存在故障的指标数据,提高确定故障指标数据的速率。
作为一种可选的实施方式,关联日志包括第一标识和第二标识,其中,按照业务流程的关联标识从日志平台中查找属于业务流程的埋点日志包括:在不存与目标业务的业务流程关联的第二标识的情况下,获取所有携带有第一标识的埋点日志;在存与目标业务的业务流程关联的第二标识的情况下,确定由第二标识关联的多个第一标识,获取所有携带有任一由第二标识关联的第一标识的埋点日志。
在同一请求触发的业务流程中,若每个业务阶段的执行主体无系统外的第三方应用,则日志采集模块采集到的该业务流程中的埋点日志均携带有第一标识,服务器在从多个埋点日志中查找处于同一业务流程的埋点日志时,可以根据第一标识进行查找。图7为携带有第一标识的业务流程示意图,如图7所示,埋点1~6均携带有相同的第一标识(traceld),则可以根据第一标识追踪该次业务流程。
在同一请求触发的业务流程中,若业务阶段的执行主体至少含有一个系统外的第三方应用,由于第三方应用没有接入分布式服务跟踪系统,则第三方应用之后的业务流程的第一标识与第三方应用之前的业务流程的第一标识不同,则日志采集模块采集到的该业务流程中的多个埋点日志的第一标识不同,则将多个第一标识用第二标识关联,然后获取由第二标识关联的所有携带有第一标识的埋点日志。图8为携带有第一标识和第二标识的业务流程示意图。如图8所示,埋点1~3携带有traceldA,埋点4~6携带有traceldB,同一业务流程携带的第一标识不同,则本申请采用bizld将traceldA和traceldB关联起来,这样可以获取通过bizld关联起来的traceldA和traceldB对应的埋点日志。
可选地,第二标识还可以将不同的第一标识转变为相同,即bizld将traceldB转变为traceldA,这样保证同一业务流程中的第一标识相同。示例性地,需要采用第二标识进行关联的情况包括银行回调、netty长连接推送、redis发布订阅和redis队列等。
图9为银行回调流程示意图。用户在收银台前端扫描付款码,用户的付款信息发送至收银服务端,然后发送付款请求至金融服务端,金融服务端发送支付请求至第三方支付机构,第三方支付机构在支付完成后,将支付结果通金融服务端和收银服务端反馈至收银机前端,收银员可以通过收银机前端查看到支付结果,完成了一个支付回调过程。在此次支付过程中,第三方支付机构并没有接入金融服务系统,但第三方支付机构也参与了该业务流程,第三方支付机构两侧流程分别携带有不同的第一标识。
图10为本申请实施例中故障定位系统的主要功能。从图10中可以看出,主要功能包括业务健康分析、异常归因排名、指标健康度展示和指标异常原因分析。业务健康分析指分析业务流程是否出现故障,异常归因排名为对出现的故障原因进行排序,有利于技术人员排除最容易出现的故障,指标健康度展示为根据指标数据与正常取值区间的对比,确定指标数据为健康的概率,指标异常原因分为对出现故障的指标数据进行原因分析,确定故障原因。
本申请中主要用到的技术手段包括流式计算引擎(Flink)、特征抽取框架、特征挖掘、模型训练和模型预测,流式计算引擎可以对埋点日志进行分析得到指标数据,特征抽取框架用于进行特征抽取,特征挖掘用于挖掘埋点日志中的指标数据,模型训练用于对初始分析模型进行训练得到目标分析模型,模型预测用于通过目标分析模型得到故障原因。
本申请中主要用到的技术手段包括埋点抽数、流式数据通路和下沉持久化、自定义健康指标。埋点抽数指对故障指标数据较高的埋点日志进行抽取,然后分析抽取的埋点日志的故障原因,流式数据通路和下沉持久化只将埋点日志和故障原因存储在数据门户中,用于展示数据,自定义健康指标为技术人员对正常取值区间进行自定义,根据正常取值区间选取健康指标数据,这样得到的健康的指标数据也为自定义。
基于相同的技术构思,本申请实施例还提供了一种故障定位装置,如图11所示,该装置包括:
采集模块1101,用于采集目标业务在业务流程的各个阶段的埋点日志;
处理模块1102,用于按照目标业务的配置信息对埋点日志进行处理,得到目标业务的故障原因;
展示模块1103,用于展示故障原因。
可选地,处理模块1102包括:
抽取单元,用于从埋点日志中抽取出属于目标字段的字段数据;
第一确定单元,用于根据目标字段的字段数据确定指标数据;
第二确定单元,用于在指标数据超出正常取值区间的情况下,确定业务存在业务故障;
输入输出单元,用于将与业务故障匹配的埋点日志输入目标分析模型,得到目标分析模型输出的埋点日志的故障原因。
可选地,装置还包括:
查找模块,用于按照业务流程的关联标识从日志平台中查找属于业务流程的埋点日志,其中,日志平台包括多个业务流程的埋点日志。
可选地,关联日志包括第一标识和第二标识,其中,查找模块包括:
第一获取单元,用于在不存在目标业务的业务流程关联的第二标识的情况下,获取所有携带有第一标识的埋点日志;
第二获取单元,用于在存在目标业务的业务流程关联的第二标识的情况下,确定由第二标识关联的多个第一标识,获取所有携带有任一由第二标识关联的第一标识的埋点日志。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图12所示,包括处理器121、通信接口122、存储器123和通信总线124,其中,处理器121,通信接口122,存储器123通过通信总线124完成相互间的通信,
存储器123,用于存放计算机程序;
处理器121,用于执行存储器123上所存放的程序时,实现上述步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤的程序代码:
采集目标业务在业务流程的各个阶段的埋点日志;
按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示所述故障原因。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种故障定位系统,其特征在于,所述系统包括:
日志采集模块,用于采集目标业务在业务流程的各个阶段的埋点日志;
流式实时计算引擎,用于按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示设备,用于展示所述故障原因。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:
日志平台,与所述日志采集模块建立有连接,用于收集所有所述日志采集模块采集到的埋点日志,其中,每个所述日志采集模块用于采集所述业务流程中至少一个阶段的埋点日志。
3.根据权利要求1所述的系统,其特征在于,所述系统还包括:
数据预处理模块,所述数据预处理模块用于按照所述业务流程的关联标识从所述日志平台中查找属于所述业务流程的埋点日志,并从属于所述业务流程的埋点日志中抽取出属于目标字段的字段数据;
配置模块,用于提供为所述数据预处理模块配置所述关联标识和所述目标字段,并提供指标配置,其中,所述指标配置包括根据所述目标字段的字段数据确定指标数据的方案和指标数据的正常取值区间。
4.根据权利要求3所述的系统,其特征在于,所述关联标识包括第一标识和第二标识,其中:
在同一请求触发的业务流程中,所述日志采集模块采集到的所述埋点日志中携带不同第一标识的情况下,将多个所述第一标识用所述第二标识关联。
5.根据权利要求3所述的系统,其特征在于,所述系统还包括:
指标分析模块,用于根据所述目标字段的字段数据确定指标数据;
缓存模块,用于存储所述指标分析模块确定的指标数据。
6.根据权利要求3所述的系统,其特征在于,所述系统还包括:
日志明细存储器,与所述数据预处理模块连接,用于存储所述数据预处理模块抽取出的属于目标字段的字段数据。
7.一种故障定位方法,其特征在于,所述方法包括:
采集目标业务在业务流程的各个阶段的埋点日志;
按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示所述故障原因。
8.根据权利要求7所述的方法,其特征在于,按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因包括:
从所述埋点日志中抽取出属于目标字段的字段数据;
根据所述目标字段的字段数据确定指标数据;
在所述指标数据超出正常取值区间的情况下,确定所述业务存在业务故障;
将与所述业务故障匹配的埋点日志输入目标分析模型,得到所述目标分析模型输出的所述埋点日志的故障原因。
9.根据权利要求7所述的方法,其特征在于,按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因之前,所述方法还包括:
按照所述业务流程的关联标识从日志平台中查找属于所述业务流程的埋点日志,其中,所述日志平台包括多个业务流程的埋点日志。
10.根据权利要求9所述的方法,其特征在于,所述关联日志包括第一标识和第二标识,其中,按照所述业务流程的关联标识从日志平台中查找属于所述业务流程的埋点日志包括:
在不存在所述目标业务的业务流程关联的所述第二标识的情况下,获取所有携带有所述第一标识的埋点日志;
在存在所述目标业务的业务流程关联的所述第二标识的情况下,确定由所述第二标识关联的多个所述第一标识,获取所有携带有任一由所述第二标识关联的所述第一标识的埋点日志。
11.一种故障定位装置,其特征在于,所述装置包括:
采集模块,用于采集目标业务在业务流程的各个阶段的埋点日志;
处理模块,用于按照所述目标业务的配置信息对所述埋点日志进行处理,得到所述目标业务的故障原因;
展示模块,用于展示所述故障原因。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求7-10任一所述的方法步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求7-10任一所述的方法步骤。
CN202011345758.0A 2020-11-25 2020-11-25 故障定位系统、方法、装置、电子设备和计算机可读介质 Active CN112491611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011345758.0A CN112491611B (zh) 2020-11-25 2020-11-25 故障定位系统、方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011345758.0A CN112491611B (zh) 2020-11-25 2020-11-25 故障定位系统、方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN112491611A true CN112491611A (zh) 2021-03-12
CN112491611B CN112491611B (zh) 2023-09-05

Family

ID=74934840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011345758.0A Active CN112491611B (zh) 2020-11-25 2020-11-25 故障定位系统、方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN112491611B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010495A (zh) * 2021-03-19 2021-06-22 北京三快在线科技有限公司 一种数据库优化方法及装置
CN113162982A (zh) * 2021-03-19 2021-07-23 维沃移动通信有限公司 埋点信息上报方法、装置和电子设备
CN113190423A (zh) * 2021-04-20 2021-07-30 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及系统
CN113220522A (zh) * 2021-04-09 2021-08-06 北京房江湖科技有限公司 服务异常自动定位方法和装置
CN113239000A (zh) * 2021-05-13 2021-08-10 百果园技术(新加坡)有限公司 一种业务日志的管理系统以及处理方法、装置和服务器
CN114003479A (zh) * 2021-10-31 2022-02-01 苏州浪潮智能科技有限公司 一种故障日志推送方法、计算机及存储介质
CN115499232A (zh) * 2022-09-26 2022-12-20 重庆长安汽车股份有限公司 实名认证方法、装置、服务器及存储介质
CN116346590A (zh) * 2023-05-30 2023-06-27 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统
CN117389792A (zh) * 2023-12-13 2024-01-12 之江实验室 一种故障排查方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084508A1 (zh) * 2015-11-17 2017-05-26 阿里巴巴集团控股有限公司 自动埋点方法和装置
CN108600094A (zh) * 2018-05-11 2018-09-28 深圳壹账通智能科技有限公司 消息推送过程的监听方法、装置、计算机设备及存储介质
CN108990092A (zh) * 2018-08-21 2018-12-11 麒麟合盛网络技术股份有限公司 通信异常定位方法和装置
CN110674440A (zh) * 2019-08-30 2020-01-10 深圳壹账通智能科技有限公司 埋点数据处理方法、系统、计算机设备及可读存储介质
CN110941528A (zh) * 2019-11-08 2020-03-31 支付宝(杭州)信息技术有限公司 一种基于故障的日志埋点设置方法、装置及系统
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084508A1 (zh) * 2015-11-17 2017-05-26 阿里巴巴集团控股有限公司 自动埋点方法和装置
CN108600094A (zh) * 2018-05-11 2018-09-28 深圳壹账通智能科技有限公司 消息推送过程的监听方法、装置、计算机设备及存储介质
CN108990092A (zh) * 2018-08-21 2018-12-11 麒麟合盛网络技术股份有限公司 通信异常定位方法和装置
CN110674440A (zh) * 2019-08-30 2020-01-10 深圳壹账通智能科技有限公司 埋点数据处理方法、系统、计算机设备及可读存储介质
CN110941528A (zh) * 2019-11-08 2020-03-31 支付宝(杭州)信息技术有限公司 一种基于故障的日志埋点设置方法、装置及系统
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162982B (zh) * 2021-03-19 2023-12-29 维沃移动通信有限公司 埋点信息上报方法、装置和电子设备
CN113162982A (zh) * 2021-03-19 2021-07-23 维沃移动通信有限公司 埋点信息上报方法、装置和电子设备
CN113010495A (zh) * 2021-03-19 2021-06-22 北京三快在线科技有限公司 一种数据库优化方法及装置
CN113010495B (zh) * 2021-03-19 2023-01-06 北京三快在线科技有限公司 一种数据库优化方法及装置
CN113220522A (zh) * 2021-04-09 2021-08-06 北京房江湖科技有限公司 服务异常自动定位方法和装置
CN113190423A (zh) * 2021-04-20 2021-07-30 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及系统
CN113190423B (zh) * 2021-04-20 2024-02-20 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及系统
CN113239000A (zh) * 2021-05-13 2021-08-10 百果园技术(新加坡)有限公司 一种业务日志的管理系统以及处理方法、装置和服务器
CN114003479A (zh) * 2021-10-31 2022-02-01 苏州浪潮智能科技有限公司 一种故障日志推送方法、计算机及存储介质
CN114003479B (zh) * 2021-10-31 2024-04-19 苏州浪潮智能科技有限公司 一种故障日志推送方法、计算机及存储介质
CN115499232A (zh) * 2022-09-26 2022-12-20 重庆长安汽车股份有限公司 实名认证方法、装置、服务器及存储介质
CN116346590B (zh) * 2023-05-30 2023-07-25 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统
CN116346590A (zh) * 2023-05-30 2023-06-27 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统
CN117389792A (zh) * 2023-12-13 2024-01-12 之江实验室 一种故障排查方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112491611B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN112491611B (zh) 故障定位系统、方法、装置、电子设备和计算机可读介质
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN111475370A (zh) 基于数据中心的运维监控方法、装置、设备及存储介质
CN109992484B (zh) 一种网络告警相关性分析方法、装置和介质
CN106104496A (zh) 用于任意时序的不受监督的异常检测
CN109934268B (zh) 异常交易检测方法及系统
CN106415507A (zh) 日志分析装置、攻击检测装置、攻击检测方法以及程序
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN110222513B (zh) 一种线上活动的异常监测方法、装置及存储介质
WO2022111158A1 (zh) 直播业务的故障检测方法、装置、电子设备及可读存储介质
CN112346993B (zh) 一种情报分析引擎的测试方法、装置及设备
CN109359234B (zh) 一种多维度网络安全事件分级装置
CN112348521A (zh) 基于业务审核的智能风险质检方法、系统和电子设备
CN115033876A (zh) 日志处理方法、日志处理装置、计算机设备及存储介质
CN111045902A (zh) 服务器的压力测试方法及装置
CN111460810A (zh) 众包任务的抽检方法、装置、计算机设备及存储介质
CN110019762B (zh) 一种问题定位方法、存储介质和服务器
CN112948215A (zh) 基于分布式数据库日志数据的实时异常检测方法及系统
CN112087320A (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN111784176A (zh) 一种数据处理方法、装置、服务器及介质
CN115913710A (zh) 异常检测方法、装置、设备及存储介质
CN113285978B (zh) 基于区块链和大数据的故障识别方法及通用计算节点
US20200242100A1 (en) Log analysis apparatus, log analysis method, and log analysis program
CN113254781A (zh) 推荐系统中的模型确定方法、装置、电子设备和存储介质
CN111581199B (zh) 一种智能数据分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant