CN110262919A - 异常数据分析方法、装置、设备与计算机可读存储介质 - Google Patents

异常数据分析方法、装置、设备与计算机可读存储介质 Download PDF

Info

Publication number
CN110262919A
CN110262919A CN201910535339.4A CN201910535339A CN110262919A CN 110262919 A CN110262919 A CN 110262919A CN 201910535339 A CN201910535339 A CN 201910535339A CN 110262919 A CN110262919 A CN 110262919A
Authority
CN
China
Prior art keywords
mass center
cluster
data
abnormal
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910535339.4A
Other languages
English (en)
Inventor
何�雄
卢道和
谢波
朱敏毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910535339.4A priority Critical patent/CN110262919A/zh
Publication of CN110262919A publication Critical patent/CN110262919A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及金融科技领域,并公开了一种异常数据分析方法,包括:通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;基于所述结果簇,确定所述监控源的异常问题。本发明还公开了一种异常数据分析装置、设备和一种计算机可读存储介质。本发明通过对监控源的历史数据进行清洗聚类,从而分析出异常问题,实现异常问题的快速定位。

Description

异常数据分析方法、装置、设备与计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及异常数据分析方法、装置、设备与计算机可读存储介质。
背景技术
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,监控运维技术被引入银行等金融机构的日常管理中。在金融机构日常服务过程中,需要使用到相关的网络设备和服务器等硬件设施对内/对外服务,而这些硬件设施在服务过程中有可能会出现异常现象,导致服务中断,因此,需要对这些硬件设施进行监控,以及时对异常现象进行处理。
在对服务器、主机和网络设备等硬件资源进行监控的过程中,较为常用的外部工具为Zabbix(一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案),但Zabbix配置较为复杂,对运维人员要求较高,并且Zabbix作为一个系统监控平台,侧重于监控系统的异常监控以及及时告警,对异常数据分析方面的探索有限,无法对异常数据进行分析。
发明内容
本发明的主要目的在于提出一种异常数据分析方法、装置、设备与计算机可读存储介质,旨在对异常数据进行分析,从而确定异常问题。
为实现上述目的,本发明提供一种异常数据分析方法,所述异常数据分析方法包括如下步骤:
通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;
基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;
基于所述结果簇,确定所述监控源的异常问题。
优选地,所述通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集的步骤包括:
通过数据采集装置采集监控源的历史数据,并基于所述监控源的类别,确定所述历史数据所属的转换规则;
基于所述转换规则,将所述历史数据转换为目标数据集。
优选地,所述基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇的步骤包括:
在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
优选地,所述计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤之后,所述方法还包括:
若变化,则依次计算所述目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,基于所述第二最小距离,确定当前样本在所述第二质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第二聚类簇;
将所述第二质心作为所述第一质心,将所述第二聚类簇作为所述第一聚类簇,并继续执行计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤。
优选地,所述计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤包括:
计算各第一聚类簇对应的样本的中位数,将所述中位数作为各第一聚类簇的第二质心;
确定所述第二质心与所述第一质心是否一致,其中,若一致,则确定第二质心无变化。
优选地,所述基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇的步骤包括:
基于高斯混合模型,确定预设的高斯混合成分个数;
计算所述目标数据集中各样本所属各高斯混合成分的后验概率,并基于所述后验概率和极大似然估计算法,确定所述目标数据集中各样本所属的目标高斯混合成分,将所属同一目标高斯混合成分的样本合为一个簇,得到所述目标数集对应的结果簇。
优选地,所述基于所述结果簇,确定所述监控源的异常问题的步骤之后,所述方法还包括:
获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案;
当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
此外,为实现上述目的,本发明还提供一种异常数据分析装置,所述异常数据分析装置包括:
采集模块,用于通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;
聚类模块,用于基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;
确定模块,用于基于所述结果簇,确定所述监控源的异常问题。
优选地,所述采集模块还用于:
通过数据采集装置采集监控源的历史数据,并基于所述监控源的类别,确定所述历史数据所属的转换规则;
基于所述转换规则,将所述历史数据转换为目标数据集。
优选地,所述聚类模块还用于:
在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
优选地,所述聚类模块还用于:
若变化,则依次计算所述目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,基于所述第二最小距离,确定当前样本在所述第二质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第二聚类簇;
将所述第二质心作为所述第一质心,将所述第二聚类簇作为所述第一聚类簇,并继续执行计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤。
优选地,所述聚类模块还用于:
计算各第一聚类簇对应的样本的中位数,将所述中位数作为各第一聚类簇的第二质心;
确定所述第二质心与所述第一质心是否一致,其中,若一致,则确定第二质心无变化。
优选地,所述聚类模块还用于:
基于高斯混合模型,确定预设的高斯混合成分个数;
计算所述目标数据集中各样本所属各高斯混合成分的后验概率,并基于所述后验概率和极大似然估计算法,确定所述目标数据集中各样本所属的目标高斯混合成分,将所属同一目标高斯混合成分的样本合为一个簇,得到所述目标数集对应的结果簇。
优选地,所述异常数据分析装置还包括:
显示模块,用于获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案;
记录模块,用于当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
此外,为实现上述目的,本发明还提供一种异常数据分析设备,所述异常数据分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的异常数据分析程序,所述异常数据分析程序被所述处理器执行时实现如上所述的异常数据分析方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有异常数据分析程序,所述异常数据分析程序被处理器执行时实现如上所述的异常数据分析方法的步骤。
本发明提出的异常数据分析方法,通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;基于所述结果簇,确定所述监控源的异常问题。本发明通过对监控源的历史数据进行清洗聚类,从而分析出异常问题,实现异常问题的快速定位,为运维人员针对性排查异常提供良好的帮助。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明异常数据分析方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及异常数据分析程序。
其中,操作系统是管理和控制异常数据分析设备与软件资源的程序,支持网络通信模块、用户接口模块、异常数据分析程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的异常数据分析设备中,所述异常数据分析设备通过处理器1001调用存储器1005中存储的异常数据分析程序,并执行下述异常数据分析方法各个实施例中的操作。
基于上述硬件结构,提出本发明异常数据分析方法实施例。
参照图2,图2为本发明异常数据分析方法第一实施例的流程示意图,所述方法包括:
步骤S10,通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;
步骤S20,基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;
步骤S30,基于所述结果簇,确定所述监控源的异常问题。
本实施例先通过数据采集装置采集监控源的历史数据,在对历史数据进行清洗聚类,从而得到结果簇,并根据结果簇进行数据分析,从而确定监控源的异常问题,以便制定对应的解决方案,实现异常问题的快速定位。
以下将对各个步骤进行详细说明:
步骤S10,通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集。
本实施例异常数据分析方法应用于理财机构或者银行系统等金融机构的异常数据分析设备中,为描述方便,异常数据分析设备以下简称分析设备。
分析设备实时对监控源进行监控,并通过数据采集装置采集监控源的历史数据,其中,监控源包括主机、服务器、系统等,而数据采集装置指能采集监控源的监控数据的装置,在此不做具体限定,优选为Zabbix,即本实施例在Zabbix的基础上,在分析设备中搭建OMS(oa monitor system,自动办公监控系统)告警平台,通过Zabbix即可采集监控源的历史数据。
可以理解的,由于监控源不同,采集的历史数据也是不同的,因此,在通过数据采集装置采集监控源的历史数据时,需先确定监控源的类别,并通过监控源的类别,确定要采集的历史数据,如监控源为服务器时,确定要采集的历史数据为服务器的内存和CPU等历史数据。
分析设备在采集到监控源的历史数据后,对历史数据进行清洗,以得到对应的目标数据,可以理解的,在历史数据中,并不是所有的数据都是有用的,有些数据可能是残缺的、错误的,或者不规范的,因此,需对历史数据进行清洗,从而得到目标数据集。
进一步地,步骤S10包括:
通过数据采集装置采集监控源的历史数据,并基于所述监控源的类别,确定所述历史数据所属的转换规则;
在该步骤中,在分析设备通过数据装置采集到监控源的历史数据后,先确定监控源的类别,从而确定当前历史数据所属的转换规则,也即不同的监控源的历史数据有不同的转换规则,在将历史数据清洗成目标数据集时,需使用对应的转换规则对历史数据进行清洗。
基于所述转换规则,将所述历史数据转换为目标数据集。
在该步骤中,基于确定转换规则,分析设备将历史数据转换为目标数据集,其中转换规则可根据实际情况进行设定,比如,分析设备所要采集的数据是某服务器CPU利用率的历史数据,而转换规则为超过60%定义为1,否则定义为0,则可将当前历史数据转换为1/0的目标数据集。
步骤S20,基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇。
在本实施例中,分析设备根据获得的数据集,采用预设算法,对目标数据集进行聚类分析,以得到目标数据对应的结果簇,也即对目标数据集进行分类,其中,预设算法包括k-means算法(k-均值算法)或者高斯混合模型算法等,在此不做具体限定。
如预设算法为高斯混合模型算法时,步骤S20包括:
基于高斯混合模型,确定预设的高斯混合成分个数。
在该步骤中,在对历史数据进行清洗得到目标数据集后,针对目标数据集,分析设备还可采用高斯混合模型,因此需先设置高斯混合成分个数k1,,其中k1是一个经验值,由运维人员在实际监控运维过程中给出,并事先设置于分析设备中。
计算所述目标数据集中各样本所属各高斯混合成分的后验概率,并基于所述后验概率和极大似然估计算法,确定所述目标数据集中各样本所属的目标高斯混合成分,将所属同一目标高斯混合成分的样本合为一个簇,得到所述目标数集对应的结果簇。
在该步骤中,分析设备初始化高斯混合分布函数参数,然后计算目标数据集中每个样本所属各高斯混合成分的后验概率,然后采用极大似然估计更新参数,循环迭代,根据后验概率选择分类,具体在迭代收敛后,输出目标数据对应的结果簇,由于高斯混合模型,以及极大似然估计算法在现有技术中都是比较成熟的技术,在此不再赘述。
步骤S30,基于所述结果簇,确定所述监控源的异常问题。
在本实施例中,分析设备根据结果簇,可确定监控源的异常问题,具体的,根据结果簇,可确定异常问题的聚集点,也即通过结果簇可知道异常问题主要集中在哪一方面,如某个职场的主机的历史数据,触发异常的情况更多,或者是某个类型的主机出现宕机的情况更大,分析设备据此确定监控源频发的异常问题,以便后续对异常问题进行处理,如对异常问题进行告警,使运维人员对该异常问题进行关注,或者,通过异常问题-解决方案关联表,确定异常问题对应的解决方案,从而运维人员可根据解决方案对异常问题进行处理。
本实施例通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;基于所述结果簇,确定所述监控源的异常问题。本发明通过对监控源的历史数据进行清洗聚类,从而分析出异常问题,实现异常问题的快速定位,为运维人员针对性排查异常提供良好的帮助。
进一步地,基于本发明异常数据分析方法第一实施例,提出本发明异常数据分析方法第二实施例。
异常数据分析方法的第二实施例与异常数据分析方法的第一实施例的区别在于,步骤S20包括:
步骤a,基于k-means算法,在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
步骤b,依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
步骤c,计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
步骤d,若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
本实施例在对目标数据集进行聚类分析时,除了可采用高斯混合模型算法之外,还可以通过k-means算法进行聚类分析,在对目标数据集进行处理上,相对准确,使得异常数据分析方法兼容多种算法,从而实现异常问题的准确定位。
以下将对各个步骤进行说明:
步骤a,基于k-means算法,在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
在该步骤中,分析设备基于k-means算法,在目标数据集(假设目标数据集为D={x1,x2,…,xm})中的样本中选取k个随机样本{u1,u2,...uk}作为第一质心,其中,k为随机整数,且小于目标数据集中的样本数。其中k也可以通过监控源确定,即监控源有多少个,k值即为多少;或者监控源的种类有多少种,k值即为多少,或者根据以往常发问题种类进行确定,即以往常发问题种类有多少,k值即为多少。
步骤b,依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
在该步骤中,分析设备计算目标数据集中各样本xi到各第一质心uj的距离dij,其中,距离在计算得到距离后,依次确定当前样本到各第一质心的距离中的最小距离,并将当前样本归类为目标质心最小距离所在的簇,如当前样本a到A质心的距离最小,则将样本a归类为A质心所在的簇,在确定好目标数据集中各样本对应的目标质心后,将所属同一目标质心的样本归类为同一个簇,从而得到k个第一聚类簇C。上述距离可为欧式距离。
步骤c,计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
在该步骤中,在得到第一聚类簇后,重新计算当前各第一聚类簇的第二质心,并确定第二质心是否变化。
具体的,步骤c包括:
计算各第一聚类簇对应的样本的中位数,将所述中位数作为各第一聚类簇的第二质心;
在该步骤中,分析设备计算当前各第一聚类簇对应的样本的中位数,并将计算所得中位数作为各第一聚类簇的第二质心,即当前聚类簇C1中,包含样本x1,x2...x10,则计算x1,x2...x10的中位数,并将计算所得中位数作为当前聚类簇C1的第二质心。
确定所述第二质心与所述第一质心是否一致,其中,若一致,则确定第二质心无变化。
在该步骤中,将第一质心与第二质心进行比较,确定第二质心与第一质心是否一致,若一致,则确定第二质心无变化。
本实施例在计算第二质心时,也可采用均值法,即求取各聚类簇对应的样本的均值,作为第二质心。
步骤d,若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
在该步骤中,若无变化,说明算法收敛,则将当前第一聚类簇作为目标数据集的结果簇,当然,正常情况下,需要迭代多次才能得到算法收敛,因此,更多情况下,第二质心是有变化的。
进一步地,步骤c之后,所述方法还包括:
步骤e,若变化,则依次计算所述目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,基于所述第二最小距离,确定当前样本在所述第二质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第二聚类簇;
在该步骤中,若变化,则分析设备继续依次计算目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,从而确定当前样本对应的目标质心,直至目标数据集中各样本计算完毕,最后将所属同一目标质心的样本归类为同一个簇,以得到第二聚类簇,具体过程与上述得到第一聚类簇类似。
将所述第二质心作为所述第一质心,将所述第二聚类簇作为所述第一聚类簇,并继续执行计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤。
在该步骤中,将第二质心作为第一质心,将第二聚类簇作为第一聚类簇,重新计算第一聚类簇新的质心,然后循环执行上述步骤,直至确定新的质心未发生变化,即算法收敛,则结束。
本实施例采用k-means算法,对目标数据集进行聚类分析,由于不需要运维人员的经验值作为参数,相对更加灵活准确,使得异常数据分析方法更具兼容性,实现异常问题的准确定位。
进一步地,基于本发明异常数据分析方法第一、第二实施例,提出本发明异常数据分析方法第三实施例。
异常数据分析方法的第三实施例与异常数据分析方法的第一、第二实施例的区别在于,所述方法还包括:
获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案;
当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
本实施例在分析出异常问题后,可获取对应的解决方案,并将异常问题和对应的解决方案显示出来,并跟踪运维人员的处理轨迹,确保每一个告警都有对应的运维人员进行处理。
以下将对各个步骤进行详细说明:
获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案。
在本实施例中,分析设备还具备显示功能,在分析出异常问题后,可通过异常问题-解决方案关联表获取异常问题对应的解决方案,并将确定的异常问题和对应的解决方案展示出来,其中,展示方式有多种方式,如界面轮播等,同时还发出告警,告警方式可采用告警提示音,或者将对应数据亮色显示等引起运维人员注意的方式。
当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
在本实施例中,运维人员可根据分析设备给出的结果对监控源的异常问题进行处理,具体的,运维人员在对异常问题进行处理时,在分析设备登记自己的信息,领取处理任务,也即向分析设备下达了处理指令,并将处理进程实时上传,这是为了能对异常问题的处理过程进行追究溯源,因此,当分析设备检测到处理指令时,记录处理指令对应的运维人员的信息,实时跟踪运维人员的处理过程,具体接收运维人员对应的终端基于异常问题发送的处理数据。
在运维人员将异常问题处理完后,分析设备将该异常问题消除,但保留异常问题对应的异常数据。
需要说明的是,由于本实施例是对监控源的历史数据进行监控,因此,即使当前监控源没有发生告警事故,也可通过分析历史数据,提醒运维人员重点关注当前监控源。如当前监控源告警事故发生频发,则应当对当前监控源多维护保养。
本实施例将历史数据反映的问题展示出来,并跟踪运维人员的处理轨迹,使得异常问题能及时被处理,并且有对应的运维人员可以追究溯源,实现异常问题的智能处理。
本发明还提供一种异常数据分析装置。本发明异常数据分析装置包括:
采集模块,用于通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;
聚类模块,用于基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;
确定模块,用于基于所述结果簇,确定所述监控源的异常问题。
进一步地,所述采集模块还用于:
通过数据采集装置采集监控源的历史数据,并基于所述监控源的类别,确定所述历史数据所属的转换规则;
基于所述转换规则,将所述历史数据转换为目标数据集。
进一步地,所述聚类模块还用于:
在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
进一步地,所述聚类模块还用于:
若变化,则依次计算所述目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,基于所述第二最小距离,确定当前样本在所述第二质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第二聚类簇;
将所述第二质心作为所述第一质心,将所述第二聚类簇作为所述第一聚类簇,并继续执行计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤。
进一步地,所述聚类模块还用于:
计算各第一聚类簇对应的样本的中位数,将所述中位数作为各第一聚类簇的第二质心;
确定所述第二质心与所述第一质心是否一致,其中,若一致,则确定第二质心无变化。
进一步地,所述聚类模块还用于:
基于高斯混合模型,确定预设的高斯混合成分个数;
计算所述目标数据集中各样本所属各高斯混合成分的后验概率,并基于所述后验概率和极大似然估计算法,确定所述目标数据集中各样本所属的目标高斯混合成分,将所属同一目标高斯混合成分的样本合为一个簇,得到所述目标数集对应的结果簇。
进一步地,所述异常数据分析装置还包括:
显示模块,用于获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案;
记录模块,用于当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有异常数据分析程序,所述异常数据分析程序被处理器执行时实现如上所述的异常数据分析方法的步骤。
其中,在所述处理器上运行的异常数据分析程序被执行时所实现的方法可参照本发明异常数据分析方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (16)

1.一种异常数据分析方法,其特征在于,所述异常数据分析方法包括如下步骤:
通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;
基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;
基于所述结果簇,确定所述监控源的异常问题。
2.如权利要求1所述的异常数据分析方法,其特征在于,所述通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集的步骤包括:
通过数据采集装置采集监控源的历史数据,并基于所述监控源的类别,确定所述历史数据所属的转换规则;
基于所述转换规则,将所述历史数据转换为目标数据集。
3.如权利要求1所述的异常数据分析方法,其特征在于,所述基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇的步骤包括:
在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
4.如权利要求3所述的异常数据分析方法,其特征在于,所述计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤之后,所述方法还包括:
若变化,则依次计算所述目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,基于所述第二最小距离,确定当前样本在所述第二质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第二聚类簇;
将所述第二质心作为所述第一质心,将所述第二聚类簇作为所述第一聚类簇,并继续执行计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤。
5.如权利要求3所述的异常数据分析方法,其特征在于,所述计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤包括:
计算各第一聚类簇对应的样本的中位数,将所述中位数作为各第一聚类簇的第二质心;
确定所述第二质心与所述第一质心是否一致,其中,若一致,则确定第二质心无变化。
6.如权利要求1所述的异常数据分析方法,其特征在于,所述基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇的步骤包括:
基于高斯混合模型,确定预设的高斯混合成分个数;
计算所述目标数据集中各样本所属各高斯混合成分的后验概率,并基于所述后验概率和极大似然估计算法,确定所述目标数据集中各样本所属的目标高斯混合成分,将所属同一目标高斯混合成分的样本合为一个簇,得到所述目标数集对应的结果簇。
7.如权利要求1-6任一项所述的异常数据分析方法,其特征在于,所述基于所述结果簇,确定所述监控源的异常问题的步骤之后,所述方法还包括:
获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案;
当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
8.一种异常数据分析装置,其特征在于,所述异常数据分析装置包括:
采集模块,用于通过数据采集装置采集监控源的历史数据,并对所述历史数据进行清洗,以得到所述历史数据对应的目标数据集;
聚类模块,用于基于预设算法,对所述目标数据集进行聚类分析,以得到所述目标数据集对应的结果簇;
确定模块,用于基于所述结果簇,确定所述监控源的异常问题。
9.如权利要求8所述异常数据分析装置,其特征在于,所述采集模块还用于:
通过数据采集装置采集监控源的历史数据,并基于所述监控源的类别,确定所述历史数据所属的转换规则;
基于所述转换规则,将所述历史数据转换为目标数据集。
10.如权利要求8所述异常数据分析装置,其特征在于,所述聚类模块还用于:
在所述目标数据集中的样本中选取k个随机样本作为第一质心,其中,k为随机数,k小于所述样本的样本数;
依次计算所述目标数据集中各样本到各第一质心的距离,并确定当前样本到各第一质心的距离中的第一最小距离,基于所述第一最小距离,确定当前样本在所述第一质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第一聚类簇;
计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化;
若无变化,则将所述第一聚类簇作为所述目标数据集的结果簇。
11.如权利要求10所述异常数据分析装置,其特征在于,所述聚类模块还用于:
若变化,则依次计算所述目标数据集中各样本到各第二质心的距离,并确定当前样本到各第二质心的距离中的第二最小距离,基于所述第二最小距离,确定当前样本在所述第二质心中对应的目标质心,直至所述目标数据集中各样本计算完毕,将所属同一目标质心的样本合为一个簇,以得到第二聚类簇;
将所述第二质心作为所述第一质心,将所述第二聚类簇作为所述第一聚类簇,并继续执行计算各第一聚类簇的第二质心,并基于所述第一质心,确定所述第二质心是否变化的步骤。
12.如权利要求10所述异常数据分析装置,其特征在于,所述聚类模块还用于:
计算各第一聚类簇对应的样本的中位数,将所述中位数作为各第一聚类簇的第二质心;
确定所述第二质心与所述第一质心是否一致,其中,若一致,则确定第二质心无变化。
13.如权利要求8所述异常数据分析装置,其特征在于,所述聚类模块还用于:
基于高斯混合模型,确定预设的高斯混合成分个数;
计算所述目标数据集中各样本所属各高斯混合成分的后验概率,并基于所述后验概率和极大似然估计算法,确定所述目标数据集中各样本所属的目标高斯混合成分,将所属同一目标高斯混合成分的样本合为一个簇,得到所述目标数集对应的结果簇。
14.如权利要求8-13任一项所述异常数据分析装置,其特征在于,所述异常数据分析装置还包括:
显示模块,用于获取所述异常问题对应的解决方案,并显示所述异常问题和所述解决方案;
记录模块,用于当检测到处理指令时,记录所述处理指令对应的运维人员的信息,并接收所述运维人员对应的终端基于所述异常问题发送的处理数据。
15.一种异常数据分析设备,其特征在于,所述异常数据分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的异常数据分析程序,所述异常数据分析程序被所述处理器执行时实现如权利要求1至7中任一项所述的异常数据分析方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有异常数据分析程序,所述异常数据分析程序被处理器执行时实现如权利要求1至7中任一项所述的异常数据分析方法的步骤。
CN201910535339.4A 2019-06-17 2019-06-17 异常数据分析方法、装置、设备与计算机可读存储介质 Pending CN110262919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910535339.4A CN110262919A (zh) 2019-06-17 2019-06-17 异常数据分析方法、装置、设备与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910535339.4A CN110262919A (zh) 2019-06-17 2019-06-17 异常数据分析方法、装置、设备与计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110262919A true CN110262919A (zh) 2019-09-20

Family

ID=67919671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910535339.4A Pending CN110262919A (zh) 2019-06-17 2019-06-17 异常数据分析方法、装置、设备与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110262919A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110596654A (zh) * 2019-10-18 2019-12-20 富临精工先进传感器科技(成都)有限责任公司 一种基于毫米波雷达的数据同步采集系统
CN111639006A (zh) * 2020-05-29 2020-09-08 深圳前海微众银行股份有限公司 一种集群的进程管理方法及装置
CN112416996A (zh) * 2020-10-14 2021-02-26 国电大渡河沙坪水电建设有限公司 振动区确定方法及装置
CN112508208A (zh) * 2020-12-10 2021-03-16 中国建设银行股份有限公司 运维优化方法、系统、计算机设备和存储介质
CN112799923A (zh) * 2020-12-24 2021-05-14 深圳前海微众银行股份有限公司 系统异常原因确定方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110596654A (zh) * 2019-10-18 2019-12-20 富临精工先进传感器科技(成都)有限责任公司 一种基于毫米波雷达的数据同步采集系统
CN110596654B (zh) * 2019-10-18 2023-06-30 立晟智能科技(成都)有限公司 一种基于毫米波雷达的数据同步采集系统
CN111639006A (zh) * 2020-05-29 2020-09-08 深圳前海微众银行股份有限公司 一种集群的进程管理方法及装置
CN111639006B (zh) * 2020-05-29 2023-03-21 深圳前海微众银行股份有限公司 一种集群的进程管理方法及装置
CN112416996A (zh) * 2020-10-14 2021-02-26 国电大渡河沙坪水电建设有限公司 振动区确定方法及装置
CN112416996B (zh) * 2020-10-14 2024-03-01 国能大渡河沙坪发电有限公司 振动区确定方法及装置
CN112508208A (zh) * 2020-12-10 2021-03-16 中国建设银行股份有限公司 运维优化方法、系统、计算机设备和存储介质
CN112799923A (zh) * 2020-12-24 2021-05-14 深圳前海微众银行股份有限公司 系统异常原因确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110262919A (zh) 异常数据分析方法、装置、设备与计算机可读存储介质
WO2021120186A1 (zh) 分布式产品缺陷分析系统、方法及计算机可读存储介质
CN109587008A (zh) 检测异常流量数据的方法、装置及存储介质
CN109816509A (zh) 评分卡模型的生成方法、终端设备及介质
CN108647249A (zh) 舆情数据预测方法、装置、终端及存储介质
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及系统
US20220214957A1 (en) Machine learning models applied to interaction data for facilitating modifications to online environments
US11227684B2 (en) Systems and methods for processing electronic images for health monitoring and forecasting
CN113515434A (zh) 异常分类方法、装置、异常分类设备及存储介质
CN117809124B (zh) 基于多特征融合的医学图像关联调用方法及系统
CN111325422B (zh) 一种工单派发方法及系统
CN112862013A (zh) 一种量化交易策略的问题诊断方法及装置
CN111368131B (zh) 用户关系识别方法、装置、电子设备及存储介质
CN114697127B (zh) 一种基于云计算的业务会话风险处理方法及服务器
CN114647575B (zh) 一种基于高阶函数的c++过程间异常分析系统及方法
CN113420165B (zh) 二分类模型的训练、多媒体数据的分类方法及装置
US20210256447A1 (en) Detection for ai-based recommendation
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113987186A (zh) 一种基于知识图谱生成营销方案的方法和装置
CN113377640A (zh) 解释业务场景下模型的方法、介质、装置和计算设备
CN113569879A (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN104079627B (zh) 发送展示信息的方法和装置
CN104317666B (zh) 一种异常处理方法及装置
CN113632099B (zh) 分布式产品缺陷分析系统、方法及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination