CN114325232A - 一种故障定位方法和装置 - Google Patents

一种故障定位方法和装置 Download PDF

Info

Publication number
CN114325232A
CN114325232A CN202111623844.8A CN202111623844A CN114325232A CN 114325232 A CN114325232 A CN 114325232A CN 202111623844 A CN202111623844 A CN 202111623844A CN 114325232 A CN114325232 A CN 114325232A
Authority
CN
China
Prior art keywords
time
specified
subsystem
index
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111623844.8A
Other languages
English (en)
Other versions
CN114325232B (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202111623844.8A priority Critical patent/CN114325232B/zh
Publication of CN114325232A publication Critical patent/CN114325232A/zh
Application granted granted Critical
Publication of CN114325232B publication Critical patent/CN114325232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Abstract

本发明实施例提供一种故障定位方法和装置,通过计算指定指标在指定时间段上的子系统对应的时间序列异常数据与时间序列标准数据之间的差异程度以及该子系统对应的时间序列异常数据与业务系统对应的时间序列异常数据的时间重合程度,并将差异程度和时间重合程度加权求和得到根因概率,根据根因概率确定故障所在的子系统。

Description

一种故障定位方法和装置
技术领域
本发明涉及大数据分析领域,尤其涉及一种故障定位方法和装置。
背景技术
通常在业务系统中都包含多个子系统,业务系统在运行过程中会由于各种原因发生故障,故障可能发生在任何子系统中,当系统内的设备较多时,难以快速确定故障位置,导致故障无法被快速解决;在确定故障位置时,业界常用的故障定位方法有聚类法、关联规则挖掘法和异常检测等,但是存在以下缺点:
缺点一:仅适于可加和的指标,比如访问量和错误量。而对于不可加和指标,如卡顿率、PSR1(秒开率)和反馈率,业界常用的故障定位方法效果并不理想。
缺点二:故障定位结果价值低。故障定位分析出来的结果繁杂,对于问题或异常的定位参考价值不大。
缺点三:结果难以证明。故障定位出来的结果,是不是问题或异常的根因原因,常常无法证明,而人工验证的成本又特别高。
发明内容
本发明实施例提供一种故障定位方法和装置,解决了引起业务系统大盘指标异常的根本原因的定位问题,实现针对故障的定位自动化,提高了业务系统的指标异常根本原因的定位效率和准确率,达到及时解系统故障的效果。
为达上述目的,一方面,本发明实施例提供一种故障定位方法,包括:
根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数;
根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数;
针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率;
针对各子系统对应的根因概率按指定根因规则确定故障所在的子系统;
其中,各子系统对应的偏离度指数用于衡量该子系统对应的时间序列异常数据与该子系统对应的时间序列标准数据的偏离程度;各子系统对应的时间重合度指数用于衡量该子系统对应的时间序列异常数据与该子系统所属业务系统对应的时间序列异常数据在所述指定时间段内的同一时间点上同时存在数值的时间重合程度。
另一方面,本发明实施例提供一种故障定位装置,包括:
偏离度获取单元,用于根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数;
时间重合度获取单元,用于根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数;
根因概率获取单元,用于针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率;
根因定位单元,用于针对各子系统对应的根因概率按指定根因规则确定故障所在的子系统;
其中,各子系统对应的偏离度指数用于衡量该子系统对应的时间序列异常数据与该子系统对应的时间序列标准数据的偏离程度;各子系统对应的时间重合度指数用于衡量该子系统对应的时间序列异常数据与该子系统所属业务系统对应的时间序列异常数据在所述指定时间段内的同一时间点上同时存在数值的时间重合程度。
上述技术方案具有如下有益效果:将业务系统(相当于大盘)按指定的规则划分为至少一个子系统(相当于各度量集合),通过计算指定指标在指定时间段上的子系统对应的时间序列异常数据与时间序列标准数据之间的偏离度指数以及该子系统对应的时间序列异常数据与业务系统对应的时间序列异常数据的时间重合度指数,并将偏离度指数和时间重合度指数加权求和得到根因概率,根据根因概率确定故障所在的子系统,达到定位故障的目的;解决了服务性能大盘指标异常的根本原因定位问题,使得故障定位自动化,极大的提高了指标异常根本原因定位的效率和准确率,达到及时解决故障的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例之一的一种故障定位方法的流程图;
图2是本发明实施例之一的一种时间序列异常数据和时间序列标准数据对比图;
图3是本发明实施例之一的一种故障定位装置的结构图;
图4是本发明实施例之一的一种故障定位方法的应用系统架构示意图;
图5是本发明实施例之一的一种大盘反馈率指标的异常曲线与真实曲线对比图;
图6是本发明实施例之一的A公司对应的度量集合的异常曲线与真实曲线对比图;
图7是本发明实施例之一的B公司对应的度量集合的异常曲线与真实曲线对比图;
图8是本发明实施例之一的C公司对应的度量集合的异常曲线与真实曲线对比图;
图9是本发明实施例之一的D公司对应的度量集合的异常曲线与真实曲线对比图;
图10是本发明实施例之一的E公司对应的度量集合的异常曲线与真实曲线对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
业务系统运行过程中出现的指标异常是问题的表征,只获得表征时,研发人员无法解决指标异常的问题。找出指标异常的根本原因,研发人员才能解决问题。分析研发人员无从下手解决问题的原因,会发现是引起指标可能的因素太多了。那么如果能把指标异常范围缩小,就可以找到故障所在位置。以用户观看微博视频产生的播放日志为例,日志中有很多维度,比如微博版本、手机平台、网络类型、网络运营商、CDN(即Content DeliveryNetwork)厂商、地域和视频类型等维度。根因分析的问题可以转化成这些维度中度量组合的搜索问题。维度是查看服务性能的角度。微博版本、手机平台和网络类型等是维度。度量组合是维度度量值的组合,比如[阿里]、[阿里,广东,移动]、[山东,联通]等是度量组合。根因分析的结果是度量组合。
一方面,如图1所示,本发明实施例提供一种故障定位方法,包括:
步骤100,根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数;
步骤101,根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数;
步骤102,针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率;
步骤103,针对各子系统对应的根因概率按指定根因规则确定故障所在的子系统;
其中,各子系统对应的偏离度指数用于衡量该子系统对应的时间序列异常数据与该子系统对应的时间序列标准数据的偏离程度;各子系统对应的时间重合度指数用于衡量该子系统对应的时间序列异常数据与该子系统所属业务系统对应的时间序列异常数据在所述指定时间段内的同一时间点上同时存在数值的时间重合程度。
针对每个子系统,通过指定该子系统感兴趣的至少一个维度以及各维度的取值从业务系统中分类选择得到该子系统;其中维度是观察的角度;子系统是以一个或多个维度对应的取值从业务系统中过滤获取的元素组成的集合;
在本发明技术方案的各实施例中,业务系统用于表示与子系统概念相对应的完整系统概念,并不是特指用于处理某种业务功能的系统,业务系统包括计算机领域中的为实现各种需求建立的各种系统。例如业务系统可以是大型的分布式系统,子系统可以是按地域、或按功能、或按部门划分的分布式系统内部的子系统;再例如,业务系统可以是一个应用软件,子系统可以是该应用软件的不同功能模块;
在一些实施例中,指定指标可以是子系统和业务系统上收集到的任何感兴趣的指标;以视频播放系统为例,在视频播放系统中,指定指标包括但不限于视频播放卡顿率、视频播放秒开率和视频播放反馈率等。各子系统属于业务系统;可根据需要按预先设定的规则从业务系统中划分出各子系统,具体的,可以通过维度和度量组合将整个系统(相当于业务系统)分类为多个度量组合(相当于多个子系统);维度是观察系统的角度,例如系统版本、运行平台、网络类型、分布的地域、服务提供商和子功能分类等,度量组合以一个或多个维度对应的取值从业务系统中过滤获取的元素,例如以视频播放系统为例,维度可以是服务提供商,可以构建三个度量组合,其中,第一个度量组合可以包括使用阿里CDN服务的用户,第二个度量组合可以包括使用华为CDN服务的用户,第三个度量组合可以包括使用腾讯CDN服务的用户;用户就相当于各度量组合要从系统中分类获取的元素。各度量组合相当于各子系统;各子系统各自感兴趣的维度可以相同也可以不同;例如子系统1感兴趣的维度是服务提供商,子系统1通过规定具体的服务提供商,从系统(相当于业务系统)中选择与该服务提供商有关的用户作为子系统1将要分析的范围,在后续对子系统1的分析中将从这些用户的日志数据中获取相关指定指标的数据;子系统2感兴趣的维度是系统版本号,子系统2通过规定具体的系统版本号的取值,从系统(相当于业务系统)中选择与该系统版本号有关的用户作为子系统2将要分析的范围,在后续对子系统2的分析中将从这些用户的日志数据中获取相关指定指标的数据;在一些实施例中,优选的,将各子系统感兴趣的维度规定为相同的,通过维度不同的取值,确定各子系统的范围。指定指标可以从子系统和业务系统的运行数据中收集得到,可以是直接从运行数据中获取到,或者根据运行数据进行统计分析得到。例如以视频播放系统为例,指定指标可以是来自某个用户的日志中的视频播放卡顿次数;还可以是经统计分析计算得到的一定时间内的视频播放卡顿率;当某度量组合(相当于子系统)选择得到多个用户时,指定指标还可以是使用多个用户在时间T内的总的视频播放卡顿次数除以该时间T计算得到的视频播放卡顿率。指定时间段定义了一段时间范围,可根据具体需求确定指定时间段的具体时间范围,包括但不限于指定日(例如今日、昨日等)、指定月例如当月、指定年例如去年、指定小时例如今日的1点到2点之间;子系统对应的指定指标在指定时间段内的时间序列异常数据可以通过读取相关的用户或系统日志获取;也可以通过对时间序列标准数据与时间序列真实数据的对比分析中获得时间序列异常数据;时间序列异常数据属于时间序列数据,其中的每个指标值都对应有各自的时间点;在指定时间段内,指定指标可能存在正常数据和异常数据,可以通过设定标准值或参考值或阈值从日志中识别出指定指标的异常数据,并将识别出的异常数据按时间顺序构成时间序列异常数据。时间序列标准数据也是时间序列数据,时间序列标准数据中的每个时间点对应的指定指标的标准值可以相同或不同,可以是预先人工指定的,也可以是根据历史周期中相应时间点上的该指定指标的数值自动统计分析得到的当前指定时间段上的时间序列标准数据。子系统的时间序列异常数据是指定指标在指定时间段内的运行数据中存在数据异常的那部分运行数据,通过计算子系统的时间序列异常数据相对于时间序列标准数据的偏离程度得到偏离度指数,使用偏离度指数评价该子系统在指定时间段内的异常程度,偏离度指数越大,说明该子系统在指定时间段内越异常。业务系统和子系统关注的范围不同,子系统是业务系统的一部分,考虑到如果从子系统的范围观察在指定时间段内发生异常的时间区间与从业务系统的范围观察在指定时间段内发生异常的时间区间高度重合,并进一步结合前述的较大的偏离度指数则可以认为业务系统表现出的异常时来自与该子系统。为了更合理的平衡偏离度指数和时间重合度指数,通过计算两个指数的权重和,将和值作为根因概率;通过指定根因规则根据根因概率确定故障所在的子系统,具体的指定根因规则包括但不限于与指定根因阈值比较确定故障所在的子系统和选择各子系统中根因概率的值最大的子系统作为故障所在的子系统等;根据具体的指定根因规则不同,得到的故障所在的子系统可能为一个或多个,对于多个的情况,对于具体的系统下,具体的异常问题,也可能存在多点并发的异常;对于多个的情况,可以根据其他指标或信息进一步进行精确定位分析。
本发明实施例具有如下技术效果:将业务系统(相当于大盘)按指定的规则划分为至少一个子系统(相当于各度量集合),通过子系统的偏离度指数评价异常问题在该子系统发生的可能性,同时通过时间重合度指数分析该子系统的异常数据与业务系统的异常数据在发生时间上的重合程度,通过求权重和综合偏离度指数和时间重合度指数得到根因概率,根据根因概率确定故障所在的子系统,达到定位异常的目的;解决了服务性能大盘指标异常的根本原因定位问题,使得性能指标异常定位自动化,极大的提高了指标异常根本原因定位的效率和准确率。
进一步地,还包括:
通过指定异常数据获取方法分别获取各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
通过指定异常数据获取方法获取所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,所述指定异常数据获取方法,包括:
获取指定系统对应的所述指定指标在所述指定时间段之前的历史数据,所述指定系统包括各子系统中的任一子系统或业务系统;
根据所述历史数据预测得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列数据的预测值作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据;
获取所述指定系统对应的所述指定指标在所述指定时间段内的实际的时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据;
比较所述指定系统对应的时间序列标准数据和对应的时间序列真实数据得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,当所述指定系统为各子系统中的某子系统时,所述指定系统对应的在所述指定时间段内的时间序列异常数据为该子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据为该子系统对应的所述指定指标在所述指定时间段内的时间序列标准数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据为该子系统对应的所述指定指标在所述指定时间段内的时间序列真实数据;
当所述指定系统为所述业务系统时,所述指定系统对应的在所述指定时间段内的时间序列异常数据为所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据为所述业务系统对应的所述指定指标在所述指定时间段内的时间序列标准数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据为所述业务系统对应的所述指定指标在所述指定时间段内的时间序列真实数据。
在一些实施例中,通常情况下,指定指标每天呈现周期性小幅波动趋势。因此,通过历史数据可以预测指定指标的变化趋势。通过对历史数据的分析可以得到指定时间段对应的时间序列标准数据;指定子系统合的时间序列真实数据可以从该指定子系统合包含的元素的日志中经统计分析获得,通过对比时间序列标准数据和时间序列真实数据,可以发现时间序列真实数据严重偏离时间序列标准数据的部分,从而可以确定时间序列真实数据中所包含的一个或多个存在异常的子时间序列,由这些子时间序列构成了时间序列异常数据;例如获取指定日(相当于指定时间段)之前的7日的历史数据,根据该7日的历史数据分析预测得到指定日的所述指定指标的时间序列数据的预测值构成时间序列标准数据。通过本实施例中的方法分别获得各子系统的时间序列异常数据和业务系统的时间序列异常数据。
本发明实施例具有如下技术效果:通过对历史数据的分析获取指定时间段的时间序列标准数据,将指定时间段的时间序列真实数据与时间序列标准数据比较得到时间序列异常数据,实现了自动分析得到时间序列异常数据,避免人工分析提取异常数据,提高了分析定位异常问题的效率。
进一步地,所述历史数据包括:所述指定系统对应的所述指定指标在至少一个历史时间段上的指标值,每个历史时间段与所述指定时间段的时间长度相同,且所有历史时间段都在所述指定时间段之前,且紧邻所述指定时间段;
所述根据所述历史数据预测得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列数据的预测值作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据,包括:
针对各历史时间段内的相同时间偏移处的时间点对应的所述指定指标的各指标值计算均值和标准差;
将得到的每个时间点对应的均值和标准差按指定运算关系计算得到该时间点对应的标准值;将得到的所有时间点对应的标准值构成的时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据。
在一些实施例中,指定时间段可以是感兴趣的任何时间,比如可以是当前时间段或者过去的某个时间段;所有历史时间段都在所述指定时间段之前,且紧邻所述指定时间段,例如相邻历史时间段之间连续且无重叠,指定时间段与其相邻的历史时间段之间也连续且无重叠。例如在实时系统中,指定时间段可以是当前时间段,具体的,可以是当前日,此时,历史时间段可以是当前日之前的一日或多日。再例如在离线系统中,可以对过去的某个时间段进行故障定位,此时指定时间段可以是该过去的某个时间段,例如昨日,此时,历史时间段可以是昨日前的一日或多日。
每个历史时间段的时间长度都与指定时间段的时间长度相同,在每个历史时间段内各时间点与指定时间段内各时间点按距离各自时间段的起点的相同时间偏移一一对应。以下具体以日为单位进行说明,但不作为对本发明技术方案的限制,当指定时间段恰好与一日重合,各历史时间段中的1点钟处的时间点和指定时间段中的1点钟处的时间点都属于相同时间偏移处的时间点。
下面以指定时间段为日来举例说明,通常情况下,指定指标每天呈现周期性小幅波动趋势。因此,通过历史数据可以预测指定指标的变化趋势。
例如通过度量组合(相当于子系统)选择了视频播放系统中的多个用户,针对该度量组合的多个用户,收集过去七天(相当于7个历史时间段)视频播放历史数据,并统计度量组合内的所有用户在每天的每个小时内的视频播放反馈次数,计算得到每个小时的视频播放反馈率(相当于指定指标),从而可以得到该度量组合的相应7天中的每天的视频播放反馈率时间序列数据,即可以得到7个视频播放反馈率时间序列数据,每个时间点上都有7个视频播放反馈率,将7天的各视频播放反馈率时间序列数据中的相同时间偏移处的时间点上的视频播放反馈率求平均值和标准差,在根据每个时间点上的平均值和标准差按指定运算关系计算得到该时间点对应的标准值,进而由各时间点对应的标准值构成了构成新的时间序列数据,作为指定系统对应的指定指标在指定时间段上的预测的时间序列数据,并将这个预测的时间序列数据作为时间序列标准数据。指定运算关系可以是包括但不限于平均值加或减标准差等数学运算,可根据具体需要或分析历史数据的规律确定具体的数学运算方法。
本发明实施例具有如下技术效果:自动对历史数据的分析获取指定时间段的时间序列标准数据,为分析得到时间序列异常数据建立了参考的标准依据,并且通过紧邻指定时间段前的历史时间段预测指定时间段上的时间序列标准数据,实现使用指定时间段最近的数据预测指定时间段上的数值,达到获得更准确的时间序列标准数据的效果。
进一步地,所述将得到的每个时间点对应的均值和标准差按指定运算关系计算得到该时间点对应的标准值,包括:
当所述指定指标为正向指标时,将每个时间点对应的均值加上该时间点对应的标准差得到该时间点对应的标准值;
当所述指定指标为负向指标时,将每个时间点对应的均值减去该时间点对应的标准差得到该时间点对应的标准值;
其中,正向指标为随着指标数值的增大,用户体验发生改善的指标;负向指标为随着指标数值的增大,用户体验恶化的指标。
在一些实施例中,需要根据指定指标的数值与用户体验的关系确定具体的指定运算关系,当指定指标为正向指标时,指定运算关系为均值加上标准差;当指定指标为负向指标时,指定运算关系为均值减去标准差。
本发明实施例有如下技术效果:使本发明技术方案可以根据具体指标与用户体验的关系确定时间序列标准数据,同时适用于正向指标和负向指标,提高方案的可用性。
进一步地,所述比较所述指定系统对应的时间序列标准数据和对应的时间序列真实数据得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,包括:
将所述指定系统对应的时间序列标准数据和对应的时间序列真实数据在所述指定时间段内的每个相同时间点上对应的指标值进行比较;
根据比较结果,将所述指定系统对应的时间序列真实数据中与对应的时间序列标准数据持续保持指定大小关系且达到指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据。
在一些实施例中,指定大小关系可根据指定指标是正向指标或负向指标确定,如图2所示,在图2定义为时间序列真实数据大于时间序列标准数据(即指定大小关系)且指定持续时间超过4小时的连续的时间序列真实数据的子时间序列被认为是时间序列异常数据,例如图2中的时间序列真实数据的0点到6点和17点到23点两部分子时间序列被定义为时间序列异常数据。
进一步地,所述根据比较结果,将所述指定系统对应的时间序列真实数据中与对应的时间序列标准数据持续保持指定大小关系且达到指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,具体为:
当所述指定指标为正向指标时,根据比较结果,将所述指定系统对应的时间序列真实数据中持续保持小于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
当所述指定指标为负向指标时,根据比较结果,将所述指定系统对应的时间序列真实数据中持续保持大于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,正向指标为随着指标数值的增大,用户体验发生改善的指标;负向指标为随着指标数值的增大,用户体验恶化的指标。
在一些实施例中,根据指定指标是正向指标或负向指标确定具体的指定大小关系。以便使本发明技术方案可以同时适用于正向指标和负向指标。
进一步地,所述根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数,包括:
针对每个子系统计算该子系统对应的时间序列异常数据和对应的时间序列标准数据在所述指定时间段内的每相同时间点上的指标值的欧氏距离,并将得到的各时间点对应的欧氏距离求和,将得到的和值作为该子系统对应的综合欧氏距离;
针对每个子系统,将该子系统对应的综合欧氏距离减去所有子系统对应的综合欧氏距离中的最小值,再将得到的差值除以所有子系统对应的综合欧氏距离的全距得到该子系统对应的偏离度指数;
其中,所有子系统对应的综合欧氏距离的全距为所有子系统对应的综合欧氏距离中的最大值与最小值的差值。
在一些实施例中,综合欧氏距离表示的是时间序列异常数据与时间序列标准数据的偏离程度,具体的应用中,可以直接使用各子系统各自对应的综合欧氏距离作为各子系统各自对应的偏离度指数计算根因概率;但由于综合欧氏距离数值较大,且分布比较离散,使计算得到的根因概率变动范围很大,不利于最终的分析判断。因此,在本发明实施例中,还对各子系统的综合欧氏距离进行归一化处理,将得到的偏离度指数变换到0到100%之间,从而使得到的根因概率更容易比较。
进一步地,所述根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数,包括:
针对每个子系统,获取该子系统对应的时间序列异常数据对应的时间点与所述业务系统对应的时间序列异常数据对应的时间点发生时间重合的时间点的个数;并且,
将得到的该子系统的重合的时间点的个数除以所述业务系统对应的时间序列异常数据的时间点的总个数得到该子系统对应的时间重合率;
针对每个子系统,将该子系统对应的时间重合率减去所有子系统对应的时间重合率中的最小值,再将得到的差值除以所有子系统对应的时间重合率的全距得到该子系统对应的时间重合度指数;
其中,所有子系统对应的时间重合率的全距为所有子系统对应的时间重合率中的最大值与最小值的差值。
在一些实施例中,时间重合率表示的是子系统的时间序列异常数据与业务系统的时间序列异常数据的在时间点上的重合程度,例如:某子系统的时间序列异常数据对应的时间点定义为集合a=[1,2,3],集合a的元素个数是3;业务系统的时间序列异常数据对应的时间点定义为集合b=[0,1,2,3],集合b的元素个数是4;集合a与集合b的交集定义为集合c=[1,2,3],集合c的元素个数是3;该子系统的时间重合率=集合c的元素个数/集合b的元素个数=3/4=0.75。具体的应用中,可以直接使用各子系统各自对应的时间重合率作为各子系统各自对应的时间重合度指数计算根因概率;但由于时间重合率分布比较离散,使计算得到的根因概率变动范围很大,不利于最终的分析判断。因此,在本发明实施例中,还对各子系统的时间重合率进行归一化处理,具体的归一化方法为针对每个子系统,将该子系统对应的的时间重合率减去各子系统各自对应的时间重合率中的最小值,再将得到的差值除以各子系统各自对应的时间重合率的全距得到该子系统对应的时间重合度指数;将时间重合度指数归一化,从而使得到的根因概率更容易比较。
进一步地,所述针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率,具体为:
依据以下公式计算该子系统对应的根因概率:p=a×D+b×T(1)
其中:p是该子系统对应的根因概率,a是偏离度指数的权重,D是该子系统的偏离度指数,b是时间重合度指数的权重,T是该子系统的时间重合度指数;
Figure BDA0003439248200000091
Figure BDA0003439248200000092
其中:Cd是综合欧氏距离变异系数,Ct是时间重合率变异系数;
其中,所述综合欧氏距离变异系数是使用所有子系统的综合欧氏距离的标准差除以所有子系统的综合欧氏距离的均值得到的商值;所述时间重合率变异系数是使用所有子系统的时间重合率的标准差除以所有子系统的时间重合率的均值得到的商值。
对各子系统的综合欧氏距离应用变异系数法确定综合欧氏距离变异系数;具体的,使用所有子系统的综合欧氏距离的标准差除以所有子系统的综合欧氏距离的均值得到综合欧氏距离变异系数;
对各子系统的时间重合率应用变异系数法确定时间重合率变异系数;具体的,使用所有子系统的时间重合率的标准差除以所有子系统的时间重合率的均值得到时间重合率变异系数;
将综合欧氏距离变异系数除以综合欧氏距离变异系数和时间重合率变异系的和值得到的值作为偏离度指数的权重;
将时间重合率变异系除以综合欧氏距离变异系数和时间重合率变异系的和值得到的值作为时间重合度指数的权重;
将该子系统的偏离度指数和偏离度指数的权重的乘积加上该子系统的时间重合度指数和时间重合度指数的权重的乘积的和值作为该子系统对应的根因概率。
在一些实施例中,一种多媒体播放系统中的反馈率分析为例进行说明,大盘包括5个度量集合(即子系统),5个度量集合都已CDN服务提供商维度限定感兴趣的用户范围,具体的5个度量集合关注的维度取值分别为A、B、C、D、E五个提供CDN服务的公司,根据度量集合定义的维度取值确定了各度量集合的感兴趣的用户范围。下面分别以A公司、B公司、C公司、D公司、E公司表示5个度量集合。根据表1中的各度量集合的时间重合率,计算得到如表2中的各度量集合的时间重合率的平均值0.569和标准差0.385,进一步地,使用时间重合率的标准差0.385除以时间重合率的平均值0.569得到时间重合率的变异系数0.676;同样的过程,根据表3中的各度量集合的综合欧氏距离计算得到表4中的综合欧氏距离的平均值、标准差和变异系数;再将时间重合率变异系0.676除以综合欧氏距离变异系数0.610和时间重合率变异系0.676的和值(即0.610+0.676)得到时间重合度指数的权重0.526;再将综合欧氏距离变异系数0.610除以综合欧氏距离变异系数0.610和时间重合率变异系0.676的和值(即0.610+0.676)得到偏离度指数的权重0.474;使用计算得到的偏离度指数的权重和时间重合度指数的权重计算偏离度指数和时间重合度指数的加权和得到根因概率。
另一方面,如图3所示,本发明实施例提供一种故障定位装置,包括:
偏离度获取单元300,用于根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数;
时间重合度获取单元301,用于根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数;
根因概率获取单元302,用于针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率;
根因定位单元303,用于针对各子系统对应的根因概率按指定根因规则确定故障所在的子系统;
其中,各子系统对应的偏离度指数用于衡量该子系统对应的时间序列异常数据与该子系统对应的时间序列标准数据的偏离程度;
各子系统对应的时间重合度指数用于衡量该子系统对应的时间序列异常数据与该子系统所属业务系统对应的时间序列异常数据在所述指定时间段内的同一时间点上同时存在数值的时间重合程度。
进一步地,还包括:
子系统异常序列获取单元,用于通过指定异常数据获取模块分别获取各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
业务系统异常序列获取单元,用于通过指定异常数据获取模块获取所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,所述指定异常数据获取模块,包括:
历史数据获取模块,用于获取指定系统对应的所述指定指标在所述指定时间段之前的历史数据,所述指定系统包括各子系统中的任一子系统或业务系统;
标准数据获取模块,用于根据所述历史数据预测得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列数据的预测值作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据;
真实数据获取模块,用于获取所述指定系统对应的所述指定指标在所述指定时间段内的实际的时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据;
异常数据获取模块,用于比较所述指定系统对应的时间序列标准数据和对应的时间序列真实数据得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,当所述指定系统为各子系统中的某子系统时,所述指定系统对应的在所述指定时间段内的时间序列异常数据为该子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据为该子系统对应的所述指定指标在所述指定时间段内的时间序列标准数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据为该子系统对应的所述指定指标在所述指定时间段内的时间序列真实数据;
当所述指定系统为所述业务系统时,所述指定系统对应的在所述指定时间段内的时间序列异常数据为所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据为所述业务系统对应的所述指定指标在所述指定时间段内的时间序列标准数据,并且所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据为所述业务系统对应的所述指定指标在所述指定时间段内的时间序列真实数据。
进一步地,所述历史数据包括:所述指定系统对应的所述指定指标在至少一个历史时间段上的指标值,每个历史时间段与所述指定时间段的时间长度相同,且所有历史时间段都在所述指定时间段之前;
所述标准数据获取模块,包括:
统计分析模块,用于针对各历史时间段内的相同时间偏移处的时间点对应的所述指定指标的各指标值计算均值和标准差;
标准数据计算模块,用于将得到的每个时间点对应的均值和标准差按指定运算关系计算得到该时间点对应的标准值;将得到的所有时间点对应的标准值构成的时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据。
进一步地,所述标准数据计算模块,包括:
正向标准值计算模块,用于当所述指定指标为正向指标时,将每个时间点对应的均值加上该时间点对应的标准差得到该时间点对应的标准值;
负向标准值计算模块,用于当所述指定指标为负向指标时,将每个时间点对应的均值减去该时间点对应的标准差得到该时间点对应的标准值;
其中,正向指标为随着指标数值的增大,用户体验发生改善的指标;负向指标为随着指标数值的增大,用户体验恶化的指标。
进一步地,所述异常数据获取模块,包括:
指标值比较模块,用于将所述指定系统对应的时间序列标准数据和对应的时间序列真实数据在所述指定时间段内的每个相同时间点上对应的指标值进行比较;
异常序列提取模块,用于根据比较结果,将所述指定系统对应的时间序列真实数据中与对应的时间序列标准数据持续保持指定大小关系且达到指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据。
进一步地,所述异常序列提取模块,包括:
正向异常序列获取模块,用于当所述指定指标为正向指标时,根据比较结果,将所述指定系统对应的时间序列真实数据中持续保持小于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
负向异常序列获取模块,用于当所述指定指标为负向指标时,根据比较结果,将所述指定系统对应的时间序列真实数据中持续保持大于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,正向指标为随着指标数值的增大,用户体验发生改善的指标;负向指标为随着指标数值的增大,用户体验恶化的指标。
进一步地,所述偏离度获取单元300,包括:
子系统综合欧式距离获取模块,用于针对每个子系统计算该子系统对应的时间序列异常数据和对应的时间序列标准数据在所述指定时间段内的每相同时间点上的指标值的欧氏距离,并将得到的各时间点对应的欧氏距离求和,将得到的和值作为该子系统对应的综合欧氏距离;
子系统偏离度指数获取模块,用于针对每个子系统,将该子系统对应的综合欧氏距离减去所有子系统对应的综合欧氏距离中的最小值,再将得到的差值除以所有子系统对应的综合欧氏距离的全距得到该子系统对应的偏离度指数;
其中,所有子系统对应的综合欧氏距离的全距为所有子系统对应的综合欧氏距离中的最大值与最小值的差值。
进一步地,所述时间重合度获取单元301,包括:
重合个数获取模块,用于针对每个子系统,获取该子系统对应的时间序列异常数据对应的时间点与所述业务系统对应的时间序列异常数据对应的时间点发生时间重合的时间点的个数;并且,
重合率获取模块,用于将得到的该子系统的重合的时间点的个数除以所述业务系统对应的时间序列异常数据的时间点的总个数得到该子系统对应的时间重合率;
子系统重合度指数获取模块,用于针对每个子系统,将该子系统对应的时间重合率减去所有子系统对应的时间重合率中的最小值,再将得到的差值除以所有子系统对应的时间重合率的全距得到该子系统对应的时间重合度指数;
其中,所有子系统对应的时间重合率的全距为所有子系统对应的时间重合率中的最大值与最小值的差值。
进一步地,所述根因概率获取单元302,具体配置为:
依据公式(1)计算该子系统对应的根因概率;公式(1)中,p是该子系统对应的根因概率,a是偏离度指数的权重,D是该子系统的偏离度指数,b是时间重合度指数的权重,T是该子系统的时间重合度指数;
根据公式(2)计算偏离度指数的权重;根据公式(3)计算时间重合度指数的权重;公式(2)和公式(3)中,Cd是综合欧氏距离变异系数,Ct是时间重合率变异系数;
所述综合欧氏距离变异系数是使用所有子系统的综合欧氏距离的标准差除以所有子系统的综合欧氏距离的均值得到的商值;
所述时间重合率变异系数是使用所有子系统的时间重合率的标准差除以所有子系统的时间重合率的均值得到的商值。
对各子系统的综合欧氏距离应用变异系数法确定综合欧氏距离变异系数;具体的,使用所有子系统的综合欧氏距离的标准差除以所有子系统的综合欧氏距离的均值得到综合欧氏距离变异系数;
对各子系统的时间重合率应用变异系数法确定时间重合率变异系数;具体的,使用所有子系统的时间重合率的标准差除以所有子系统的时间重合率的均值得到时间重合率变异系数;
将综合欧氏距离变异系数除以综合欧氏距离变异系数和时间重合率变异系的和值得到的值作为偏离度指数的权重;
将时间重合率变异系除以综合欧氏距离变异系数和时间重合率变异系的和值得到的值作为时间重合度指数的权重;
将该子系统的偏离度指数和偏离度指数的权重的乘积加上该子系统的时间重合度指数和时间重合度指数的权重的乘积的和值作为该子系统对应的根因概率。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
以下以视频播放系统为例进行说明,为更加直观的说明本发明技术方案,在以下实施例中以曲线代替相应的时间序列进行说明,但在实际实施时不是必须绘制相应的曲线。本实施例通过采集视频播放系统的运行数据,并使用本发明技术方案对采集到的运行数据进行分析测试和验证。
作为一个实施例,如图4所示,本故障定位系统主要由底层数据仓库、根因分析、Web UI三个模块组成。
多维度指标体系:
用户日志经过清洗转换,写入Hive数据仓库,建立宽表模型,方便度量组合搜索。根据经验提取维度,建模时考虑扩展性,方便后续扩展维度。服务性能指标计算时间维度是天,考虑到时间是根因分析的重要维度,将时间维度精确到小时。
子系统或业务系统的异常曲线(即时间序列异常数据)的获取方法
通常情况下,性能指标(即指定指标)每天呈现周期性小幅波动趋势。因此,通过历史数据可以预测性能指标的变化趋势(即得到时间序列标准曲线)。针对某个子系统或业务系统,收集指定指标的过去七天视频播放历史数据,将七天视频播放历史数据按每天的相同时间点对每个时间点上的7个指定指标的值计算平均值和标准差;对于正向指标使用各时间点各自的平均值减去各自的标准差得到该时间点上的标准值,各时间点上的预测值(即标准值)构成了预测曲线(即时间序列标准曲线);将时间序列真实数据中持续保持小于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为时间序列异常数据;对于负向指标使用各时间点各自的平均值加上各自的标准差得到该时间点上的标准值,各时间点上的预测值(即标准值)构成了预测曲线(即时间序列标准曲线);将时间序列真实数据中持续保持大于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为时间序列异常数据;
如图2所示,图2是视频播放反馈率的时间序列真实数据和时间序列标准数据的对比图;视频播放反馈率为负向指标,在图2定义为时间序列真实数据大于时间序列标准数据(即指定大小关系)且指定持续时间超过4小时的连续的时间序列真实数据的子时间序列被认为是时间序列异常数据,例如图2中的时间序列真实数据的0点到6点和17点到23点两部分子时间序列被定义为时间序列异常数据。
异常曲线相似度算法
指定指标包括但不限于视频播放卡顿率、视频播放秒开率和视频播放反馈率等;过去7日的历史数据,提取某度量集合(相当于子系统)下的指定指标在今日的异常曲线和大盘(相当于业务系统)下的指定指标在今日的异常曲线,计算度量集合的异常曲线和大盘异常曲线的相似度(相当于根因概率),相似度代表该度量集合是大盘指标异常根因的概率。即相似度越高,是根因的概率越大。曲线的相似度的计算从两个方面考虑,一方面是度量集合和大盘的异常曲线的时间点匹配程度(即时间重合度指数),一方面是各度量集合的异常曲线和预测曲线的欧氏距离(即偏离度指数)。采用变异系数法,客观的计算出两方面的权重。最后产生曲线相似度(即根因概率)的算法是:
根因概率=异常曲线的相似度=偏离度指数×偏离度指数的权重+时间重合度指数×时间重合度指数的权重;
其中,时间重合度指数=(该子系统的时间重合率-所有子系统的时间重合率的最小值)÷所有子系统的时间重合率的全距;
偏离度指数=(该子系统的综合欧氏距离-所有子系统的综合欧氏距离的最小值)÷所有子系统的综合欧氏距离的全距。
以下为使用真实数据测试本发明技术方案的测试结果:图5是大盘反馈率指标的标准曲线(即时间序列标准数据)与真实曲线(即时间序列真实数据)对比图。分别按A公司提供的服务、B公司提供的服务、C公司提供的服务、D公司提供的服务和E公司提供的服务建立5个度量集合;图6是A公司对应的度量集合的标准曲线(即时间序列标准数据)与真实曲线(即时间序列真实数据)对比图;图7是B公司对应的度量集合的标准曲线(即时间序列标准数据)与真实曲线(即时间序列真实数据)对比图;图8是C公司对应的度量集合的标准曲线(即时间序列标准数据)与真实曲线(即时间序列真实数据)对比图;图9是D公司对应的度量集合的标准曲线(即时间序列标准数据)与真实曲线(即时间序列真实数据)对比图;图10是E公司对应的度量集合的标准曲线(即时间序列标准数据)与真实曲线(即时间序列真实数据)对比图;
在本实施例中,共有五个度量集合,每个度量集合都对CDN厂商这个维度感兴趣,各度量集合通过具体的CDN厂商从大盘中过滤得到各度量集合感兴趣的用户,并统计度量集合内的所有用户的在当前时间点前到上一个时间点后之间的总的反馈次数作为该度量集合在当前时间点处的反馈率,在图5到图10中,纵轴为每小时反馈次数,横轴为时间;每个度量集合以及大盘,都通过比较各自的真实曲线与标准曲线获得各自的异常曲线,计算得到个度量集合的偏离度指数和时间重合度指数,最终极端得到根因概率。例如在本实施例中表1为各度量集合对应的时间重合率,表2为各度量集合的时间重合率的统计值、变异系数和时间重合度指数的权重;表3为各度量集合对应的综合欧氏距离,表4各度量集合的综合欧氏距离的统计值、变异系数和偏离度指数的权重;表5为各度量集合对应的时间概率(即时间重合度指数乘以时间重合度指数的权重)、距离概率(即偏离度指数乘以偏离度指数的权重)和根因概率;
可见,A公司对应的度量集合的根因概率为0.652,B公司对应的度量集合的根因概率为0.666;C公司对应的度量集合的根因概率为0.842,D公司对应的度量集合的根因概率为0.000;E公司对应的度量集合的根因概率为0.596;所以,CDN厂商C公司的异常曲线和大盘的相似度(根因概率)最高,算法算出的相似度也是最大的。
Figure BDA0003439248200000151
表1各度量集合对应的时间重合率
Figure BDA0003439248200000152
表2各度量集合的时间重合率的统计值、变异系数和时间重合度指数的权重
Figure BDA0003439248200000153
表3各度量集合对应的综合欧氏距离
Figure BDA0003439248200000154
表4各度量集合的综合欧氏距离的统计值、变异系数和偏离度指数的权重
Figure BDA0003439248200000155
Figure BDA0003439248200000161
表5为各度量集合对应的时间概率、距离概率和根因概率
本发明技术方案故障定位有一个天然优势,就是它的自证性。根因分析出来的结果,肉眼可以很直观的判断是否正确,解决了根因分析结果验证的难题。
Web UI模块是为了方便用户进行根因分析而开发的Web UI页面。采用前、后端分离架构,前端页面采用Vue框架开发的单体页面,后端服务采用Spring Boot开发REST API用于供前端页面请求。根因分析的结果以数据分析报告的形式呈现给用户。
本发明技术方案通过建立多维指标体系,将根因分析的问题转化为该体系下的度量组合搜索问题。采用计算度量组合根因概率的技术,不但提高了性能指标异常根因分析效率,还解决根因分析结果验证难的问题,同时也提高了根因分析结果的准确率,达到准确定位故障位置的效果。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括:”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种故障定位方法,其特征在于,包括:
根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数;
根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数;
针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率;
针对各子系统对应的根因概率按指定根因规则确定故障所在的子系统;
其中,各子系统对应的偏离度指数用于衡量该子系统对应的时间序列异常数据与该子系统对应的时间序列标准数据的偏离程度;
各子系统对应的时间重合度指数用于衡量该子系统对应的时间序列异常数据与该子系统所属业务系统对应的时间序列异常数据在所述指定时间段内的同一时间点上同时存在数值的时间重合程度。
2.如权利要求1所述的故障定位方法,其特征在于,还包括:
通过指定异常数据获取方法分别获取各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
通过指定异常数据获取方法获取所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,所述指定异常数据获取方法,包括:
获取指定系统对应的所述指定指标在所述指定时间段之前的历史数据,所述指定系统包括各子系统中的任一子系统或业务系统;
根据所述历史数据预测得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列数据的预测值作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据;
获取所述指定系统对应的所述指定指标在所述指定时间段内的实际的时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列真实数据;
比较所述指定系统对应的时间序列标准数据和对应的时间序列真实数据得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据。
3.如权利要求2所述的故障定位方法,其特征在于,所述历史数据包括:所述指定系统对应的所述指定指标在至少一个历史时间段上的指标值,每个历史时间段与所述指定时间段的时间长度相同,且所有历史时间段都在所述指定时间段之前;
所述根据所述历史数据预测得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列数据的预测值作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据,包括:
针对各历史时间段内的相同时间偏移处的时间点对应的所述指定指标的各指标值计算均值和标准差;
将得到的每个时间点对应的均值和标准差按指定运算关系计算得到该时间点对应的标准值;将得到的所有时间点对应的标准值构成的时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列标准数据。
4.如权利要求3所述的故障定位方法,其特征在于,所述将得到的每个时间点对应的均值和标准差按指定运算关系计算得到该时间点对应的标准值,包括:
当所述指定指标为正向指标时,将每个时间点对应的均值加上该时间点对应的标准差得到该时间点对应的标准值;
当所述指定指标为负向指标时,将每个时间点对应的均值减去该时间点对应的标准差得到该时间点对应的标准值;
其中,正向指标为随着指标数值的增大,用户体验发生改善的指标;负向指标为随着指标数值的增大,用户体验恶化的指标。
5.如权利要求2所述的故障定位方法,其特征在于,所述比较所述指定系统对应的时间序列标准数据和对应的时间序列真实数据得到所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,包括:
将所述指定系统对应的时间序列标准数据和对应的时间序列真实数据在所述指定时间段内的每个相同时间点上对应的指标值进行比较;
根据比较结果,将所述指定系统对应的时间序列真实数据中与对应的时间序列标准数据持续保持指定大小关系且达到指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据。
6.如权利要求5所述的故障定位方法,其特征在于,所述根据比较结果,将所述指定系统对应的时间序列真实数据中与对应的时间序列标准数据持续保持指定大小关系且达到指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据,具体为:
当所述指定指标为正向指标时,根据比较结果,将所述指定系统对应的时间序列真实数据中持续保持小于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
当所述指定指标为负向指标时,根据比较结果,将所述指定系统对应的时间序列真实数据中持续保持大于对应的时间序列标准数据且达到所述指定持续时间的至少一个子时间序列数据作为所述指定系统对应的所述指定指标在所述指定时间段内的时间序列异常数据;
其中,正向指标为随着指标数值的增大,用户体验发生改善的指标;负向指标为随着指标数值的增大,用户体验恶化的指标。
7.如权利要求1所述的故障定位方法,其特征在于,所述根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数,包括:
针对每个子系统计算该子系统对应的时间序列异常数据和对应的时间序列标准数据在所述指定时间段内的每相同时间点上的指标值的欧氏距离,并将得到的各时间点对应的欧氏距离求和,将得到的和值作为该子系统对应的综合欧氏距离;
针对每个子系统,将该子系统对应的综合欧氏距离减去所有子系统对应的综合欧氏距离中的最小值,再将得到的差值除以所有子系统对应的综合欧氏距离的全距得到该子系统对应的偏离度指数;
其中,所有子系统对应的综合欧氏距离的全距为所有子系统对应的综合欧氏距离中的最大值与最小值的差值。
8.如权利要求7所述的故障定位方法,其特征在于,所述根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数,包括:
针对每个子系统,获取该子系统对应的时间序列异常数据对应的时间点与所述业务系统对应的时间序列异常数据对应的时间点发生时间重合的时间点的个数;并且,
将得到的该子系统的重合的时间点的个数除以所述业务系统对应的时间序列异常数据的时间点的总个数得到该子系统对应的时间重合率;
针对每个子系统,将该子系统对应的时间重合率减去所有子系统对应的时间重合率中的最小值,再将得到的差值除以所有子系统对应的时间重合率的全距得到该子系统对应的时间重合度指数;
其中,所有子系统对应的时间重合率的全距为所有子系统对应的时间重合率中的最大值与最小值的差值。
9.如权利要求8所述的故障定位方法,其特征在于,所述针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率,具体为:
依据以下公式计算该子系统对应的根因概率:
p=a×D+b×T
其中:p是该子系统对应的根因概率,a是偏离度指数的权重,D是该子系统的偏离度指数,b是时间重合度指数的权重,T是该子系统的时间重合度指数;
Figure FDA0003439248190000031
其中:Cd是综合欧氏距离变异系数,Ct是时间重合率变异系数;
其中,所述综合欧氏距离变异系数是使用所有子系统的综合欧氏距离的标准差除以所有子系统的综合欧氏距离的均值得到的商值;
所述时间重合率变异系数是使用所有子系统的时间重合率的标准差除以所有子系统的时间重合率的均值得到的商值。
10.一种故障定位装置,其特征在于,包括:
偏离度获取单元,用于根据待分析的业务系统中各子系统对应的指定指标在指定时间段内的时间序列异常数据和时间序列标准数据得到各子系统对应的偏离度指数;
时间重合度获取单元,用于根据各子系统对应的所述指定指标在所述指定时间段内的时间序列异常数据和所述业务系统对应的所述指定指标在所述指定时间段内的时间序列异常数据得到各子系统对应的时间重合度指数;
根因概率获取单元,用于针对每个子系统,计算该子系统对应的偏离度指数和该子系统对应的时间重合度指数的加权和,将得到的和值作为该子系统对应的根因概率;
根因定位单元,用于针对各子系统对应的根因概率按指定根因规则确定故障所在的子系统;
其中,各子系统对应的偏离度指数用于衡量该子系统对应的时间序列异常数据与该子系统对应的时间序列标准数据的偏离程度;
各子系统对应的时间重合度指数用于衡量该子系统对应的时间序列异常数据与该子系统所属业务系统对应的时间序列异常数据在所述指定时间段内的同一时间点上同时存在数值的时间重合程度。
CN202111623844.8A 2021-12-28 2021-12-28 一种故障定位方法和装置 Active CN114325232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111623844.8A CN114325232B (zh) 2021-12-28 2021-12-28 一种故障定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111623844.8A CN114325232B (zh) 2021-12-28 2021-12-28 一种故障定位方法和装置

Publications (2)

Publication Number Publication Date
CN114325232A true CN114325232A (zh) 2022-04-12
CN114325232B CN114325232B (zh) 2023-07-25

Family

ID=81015972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111623844.8A Active CN114325232B (zh) 2021-12-28 2021-12-28 一种故障定位方法和装置

Country Status (1)

Country Link
CN (1) CN114325232B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
EP3382646A1 (en) * 2017-03-29 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing calibration data, camera system and method for obtaining calibration data
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
CN112256732A (zh) * 2020-09-25 2021-01-22 北京五八信息技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112507720A (zh) * 2020-11-12 2021-03-16 西安交通大学 基于因果语义关系传递的图卷积网络根因识别方法
CN112698975A (zh) * 2020-12-14 2021-04-23 北京大学 一种微服务架构信息系统的故障根因定位方法及系统
CN112860524A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 异常行为检测方法、装置及设备
CN113037575A (zh) * 2021-05-28 2021-06-25 北京宝兰德软件股份有限公司 网元异常的根因定位方法、装置、电子设备及存储介质
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113360722A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113391943A (zh) * 2021-06-18 2021-09-14 广东工业大学 一种基于因果推断的微服务故障根因定位方法及装置
CN113434326A (zh) * 2021-07-12 2021-09-24 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质
WO2021217865A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 告警根因的定位方法、装置、计算机设备和存储介质
WO2021217855A1 (zh) * 2020-04-30 2021-11-04 平安科技(深圳)有限公司 异常根因定位方法、装置、电子设备及存储介质
CN113673822A (zh) * 2021-07-15 2021-11-19 微梦创科网络科技(中国)有限公司 一种弹性调度方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382646A1 (en) * 2017-03-29 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing calibration data, camera system and method for obtaining calibration data
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质
WO2021217865A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 告警根因的定位方法、装置、计算机设备和存储介质
WO2021217855A1 (zh) * 2020-04-30 2021-11-04 平安科技(深圳)有限公司 异常根因定位方法、装置、电子设备及存储介质
CN112256732A (zh) * 2020-09-25 2021-01-22 北京五八信息技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112507720A (zh) * 2020-11-12 2021-03-16 西安交通大学 基于因果语义关系传递的图卷积网络根因识别方法
CN112698975A (zh) * 2020-12-14 2021-04-23 北京大学 一种微服务架构信息系统的故障根因定位方法及系统
CN112860524A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 异常行为检测方法、装置及设备
CN113037575A (zh) * 2021-05-28 2021-06-25 北京宝兰德软件股份有限公司 网元异常的根因定位方法、装置、电子设备及存储介质
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113391943A (zh) * 2021-06-18 2021-09-14 广东工业大学 一种基于因果推断的微服务故障根因定位方法及装置
CN113360722A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113434326A (zh) * 2021-07-12 2021-09-24 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质
CN113673822A (zh) * 2021-07-15 2021-11-19 微梦创科网络科技(中国)有限公司 一种弹性调度方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彦逸等: "基于因果规则的电力营销系统故障定位算法", 计算机与现代化, no. 3, pages 13 - 18 *
郭正等: "基于多维度数据挖掘的自学习故障根因定位系统", 电子技术与软件工程, pages 146 - 149 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN116661426B (zh) * 2023-07-14 2023-09-22 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统

Also Published As

Publication number Publication date
CN114325232B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN111064614B (zh) 一种故障根因定位方法、装置、设备及存储介质
US10248528B2 (en) System monitoring method and apparatus
US10031829B2 (en) Method and system for it resources performance analysis
CN111538642B (zh) 一种异常行为的检测方法、装置、电子设备及存储介质
US11681282B2 (en) Systems and methods for determining relationships between defects
CN111079941B (zh) 信用信息处理方法、系统、终端和存储介质
CN110399400B (zh) 检测异常数据的方法、装置、设备以及介质
CN102483738A (zh) 确定时间数据中的周期性效应
US11562182B2 (en) Methods and systems for detecting detection devices located at energy metering points of natural gas
CN114325232B (zh) 一种故障定位方法和装置
CN111090833A (zh) 一种数据处理方法、系统及相关设备
CN115719283A (zh) 一种智能化会计管理系统
CN107016561B (zh) 一种信息处理方法和装置
CN116149896B (zh) 时序数据异常检测方法、存储介质和电子设备
CN110991241B (zh) 异常识别方法、设备及计算机可读介质
WO2018044955A1 (en) Systems and methods for measuring collected content significance
CN114553473A (zh) 一种基于登录ip和登陆时间的异常登陆行为检测系统和方法
CN111199419B (zh) 股票异常交易的识别方法及系统
CN111882289B (zh) 一种项目数据审核指标区间测算的装置和方法
CN114757482A (zh) 用户组电量使用趋势的分析方法、系统、设备和介质
CN117634932B (zh) 一种智能手表生产测试用平台的管理系统
CN115576850B (zh) 数据指标测试方法、装置、电子设备及存储介质
CN111061942A (zh) 搜索排序监控方法和系统
CN115794789A (zh) 一种数据质量检测方法和装置
CN112596964B (zh) 磁盘故障的预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant