CN113705981B - 一种基于大数据的异常监测的方法及装置 - Google Patents

一种基于大数据的异常监测的方法及装置 Download PDF

Info

Publication number
CN113705981B
CN113705981B CN202110888028.3A CN202110888028A CN113705981B CN 113705981 B CN113705981 B CN 113705981B CN 202110888028 A CN202110888028 A CN 202110888028A CN 113705981 B CN113705981 B CN 113705981B
Authority
CN
China
Prior art keywords
kpi
value
abnormal
type
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110888028.3A
Other languages
English (en)
Other versions
CN113705981A (zh
Inventor
彭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dingxin Tide Technology Co Ltd
Original Assignee
Beijing Dingxin Tide Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dingxin Tide Technology Co ltd filed Critical Beijing Dingxin Tide Technology Co ltd
Priority to CN202110888028.3A priority Critical patent/CN113705981B/zh
Priority to CN202210879127.XA priority patent/CN115309605A/zh
Publication of CN113705981A publication Critical patent/CN113705981A/zh
Application granted granted Critical
Publication of CN113705981B publication Critical patent/CN113705981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于大数据的异常监测的方法,包括:所述云服务器获取热点数据组,并将所述热点数据组存储至所述边缘节点中,以使所述用户终端从所述边缘节点中获取所述热点数据组;所述云服务器获取所述边缘节点的N维关键绩效指标KPI的时间序列,其中N为正整数;所述云服务器将所述边缘节点的KPI时间序列输入预测模型中,以确定未来时间周期内的第一KPI值;所述云服务器设置热点值权重,基于所述热点值权重对所述第一KPI值进行校正,输出第二KPI值;若所述第二KPI值异常,则输入至异常根因评估器进行异常类型评估;获取评估后的异常类型,并根据所述异常类型进行异常运维处理。

Description

一种基于大数据的异常监测的方法及装置
技术领域
本申请涉及信息技术领域,尤其涉及一种基于大数据的异常监测的方 法及装置。
背景技术
随着大数据的发展以及推广,大数据面临的挑战和需求日益增多。大 数据的云服务器通常具备大数据采集、存储、挖掘和分析等功能,大数据 云服务器通过以上功能实现对大数据的有效处理。
然而,对于热点事件的响应,云服务器通常需要在短时间内产生极大 的业务流量,造成短期内性能会突破极限导致网络响应异常。
发明内容
本发明实施例提供一种基于大数据的异常监测的方法,用于解决现有 技术中对于热点事件响应异常的问题。
本发明实施例提供一种基于大数据的异常监测的方法,包括:
所述云服务器获取热点数据组,并将所述热点数据组存储至所述边缘 节点中,以使所述用户终端从所述边缘节点中获取所述热点数据组;
所述云服务器获取所述边缘节点的N维关键绩效指标KPI的时间序 列,其中N为正整数;
所述云服务器将所述边缘节点的KPI时间序列输入预测模型中,以确 定未来时间周期内的第一KPI值;
所述云服务器设置热点值权重,基于所述热点值权重对所述第一KPI 值进行校正,输出第二KPI值;
若所述第二KPI值异常,则输入至异常根因评估器进行异常类型评 估;
获取评估后的异常类型,并根据所述异常类型进行异常运维处理。
可选地,所述KPI包括边缘节点的响应时间、资源饱和度及多个性能 指标;所述异常类型包括I型异常、II型异常和III型异常,其中,所述I 型异常为所述边缘节点的响应时间异常,所述II型异常为所述边缘节点的 资源饱和度异常,所述III型异常为所述KPI中的相似性能指标联合异 常。
可选地,所述输入至异常根因评估器进行异常类型评估,包括:
设置响应时间阈值、资源饱和度阈值及主成分分析PCA边界阈值, 其中,所述PCA边界阈值由在执行PCA操作过程中识别出的主分量或特 征向量来计算得到;
分别对所述KPI的多项指标进行评估,若所述KPI的预测响应时间超 过响应时间阈值且其余KPI指标正常,则判断为I型异常;
若所述KPI的预测资源饱和度超过资源饱和度阈值且其余KPI指标正 常,则判断为II型异常;
若所述KPI的多项相似性能指标均超过PCA边界阈值,则判断为III 型异常。
可选地,在判断为III型异常之前,所述方法还包括:
将所述KPI的多项性能指标进行K-means聚类分析,获取多个目标 簇,所述目标簇内的多个性能指标具备一个或多个相似特征;
则所述判断为III型异常,包括:
将所述目标簇内的多个性能指标与所述PCA边界阈值进行比较,若 所述多个性能指标均超过所述PCA边界阈值,则判断为III型异常。
可选地,所述云服务器设置热点值权重,基于所述热点值权重对所述 第一KPI值进行校正,输出第二KPI值,包括:
设置所述热点值权重为λ,且0<λ<1,则:
KPI2=KPI1*(1+λ)
其中,KPI1为第一KPI,KPI2为第二KPI。
可选地,所述根据所述异常类型进行异常运维处理,包括:
将所述存储的热点数据组分裂为多个副本,其中,所述热点数据组存 储为键-值对Key-Value格式,所述副本为键-值对副本,每一个键-值对副 本ID对应同一个值对ID;
基于哈希散列算法将所述多个副本散列到多个第二边缘节点中,以使 所述多个第二边缘节点替代所述边缘节点来响应UE的热点数据组访问请 求。
可选地,所述云服务器将所述边缘节点的KPI时间序列输入预测模型 中,包括:
将所述N维的KPI时间序列降解为M维,其中M<N;
将所述M维KPI时间序列分别输入至X*M个预测器中,其中单维的 KPI时间序列对应X个预测器,X为正整数;
分别遍历所述预测器预测的结果,将误差最小的结果作为所述第一 KPI的预测结果。
可选地,在所述云服务器获取热点数据组之前,所述方法还包括:
通过神经网络算法对热点事件进行预测,并基于预测结果获取与所述 热点事件对应的热点数据组。
可选地,通过神经网络算法对热点事件进行预测,包括:
将前N周期第一键-值对的访问量作为输入参数,输入对称残差网 络,通过所述对称残差网络提取所述访问量的第一特征,所述第一键-值 对对应一个事件;
通过注意力机制将所述访问量对进行局部特征权重量化,得到量化后 的第二特征;
将所述量化后的第二特征输入双向长短期记忆网络,获取预测出的第 N+1周期的第一键-值对的预测访问量;
其中,所述对称残差网络中包括卷积模块和解卷积模块,所述卷积模 块中包括K个残差块,所述解卷积模块中包括K个解卷积块,其中,所 述K为大于或等于1的整数;
则所述将前N周期第一键-值对的访问量作为输入参数,输入对称残 差网络,通过所述对称残差网络提取所述访问量的第一特征,包括:
通过所述卷积模块中的K个残差块将所述局部特征进行卷积运算,得 到中间特征;
通过所述解卷积模块中的K个解卷积块将所述中间特征进行解卷积运 算,得到所述访问量的第一特征。
本发明实施例还包括一种装置,其特征在于,包括存储器和处理器, 所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的 计算机可执行指令时实现上述方法。
本发明实施例提供的方法及装置,通过对边缘节点的KPI进行异常监 测,同时确认KPI的预测值,若KPI预测值异常,则对KPI的异常类型 进行根因定位,以方便运维人员进行问题回溯,针对性调整资源扩容方 案,同时在热点事件发生时进行异常运维处理。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍。
图1为一个实施例中大数据资源调度系统架构图;
图2为一个实施例中基于大数据的异常监测的方法流程图;
图3a为一个实施例中I型异常的测试图;
图3b为一个实施例中II型异常的测试图;
图3c为一个实施例中III型异常的测试图;
图4为一个实施例中装置的硬件组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范 围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并 不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集 合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定 实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求 书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的 “一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语 “和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组 合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依 据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测 到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依 据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述 条件或事件]”或“响应于检测到[所描述条件或事件]”。
图1为本发明实施例中边缘云系统的架构图。如图1所示,本发明实 施例中,包括“云-管-端”的三级结构,其中云为云服务器集群,包含了 多个可扩展云服务器,其中,云服务器集群中包含中心服务器,定义为云 端中心服务器,用于对各个云服务器的存储状态和运行状态进行监控,并 基于各个云服务器的状态,动态释放和扩展资源,保证业务的正常运行。 云端中心服务器可以是多个云服务器的其中一个,也可以指定为特殊的具 备控制策略功能的服务器,可以动态获取热点数据组,并响应该热点数据 组的I/O请求。管为边缘层,由多个边缘节点组成,边缘节点离用户侧较 近,具备一定的计算及数据处理能力,可以在较短时间内响应用户的查询 及数据获取请求。端为终端,即用户终端或者用户设备UE,由用户进行 操控,并生成I/O请求,发送至边缘节点及云端,最终从云端或边缘节点 处获取需要的数据。
图2是本发明实施例的一种基于大数据的异常监测的方法流程图,应 用于图1提供的边缘云架构中,本发明实施例提供的方法具体为:
S101、所述云服务器获取热点数据组,并将所述热点数据组存储至所 述边缘节点中,以使所述用户终端从所述边缘节点中获取所述热点数据 组;
热点数据组是对应于热点事件的待分发内容,热点数据组可以是视 频、文字及图片等形式,其分别由不同的数据格式组成,并经过编码、解 码等步骤形成特定内容的事件数字载体。
热点事件在单位时间内的响应频率较高,例如“热搜”事件,在单位 时间内的访问量会达到上百万次,如此高的访问频率需要在较短时间内响 应,对云端存储和整个网络而言都是一个挑战。
在本发明实施例中,云服务器可以通过神经网络算法对热点事件进行 预测,并基于预测结果获取与所述热点事件对应的热点数据组。具体地, 云服务器将前N周期第一键-值对的访问量作为输入参数,输入对称残差 网络,通过所述对称残差网络提取所述访问量的第一特征,其中第一键- 值对Key-Value对应一个事件;其中,key-value是一种分布式存储系统的 存储形式。key value本意是根据关键字取值,其中,key是关键字,value 是值,Key-value数据库是一种以键值对存储数据的一种数据库,每个键 都会对应一个唯一的值,具有极高的并发读写性能。其中,以 MemcacheDB、Tokyo Tyrant为代表的key-value分布式存储,在上万并发 连接下,可以轻松地完成高速查询。
通过注意力机制将访问量对进行局部特征权重量化,得到量化后的第 二特征;
将量化后的第二特征输入双向长短期记忆LSTM网络,获取预测出的 第N+1周期的第一键-值对的预测访问量;
其中,对称残差网络中包括卷积模块和解卷积模块,卷积模块中包括 K个残差块,解卷积模块中包括K个解卷积块,其中,K为大于或等于1 的整数;
则前述的将前N周期第一键-值对的访问量作为输入参数,输入对称 残差网络,通过对称残差网络提取访问量的第一特征,具体可以为:
通过卷积模块中的K个残差块将局部特征进行卷积运算,得到中间特 征;
通过解卷积模块中的K个解卷积块将中间特征进行解卷积运算,得到 访问量的第一特征。
S102、所述云服务器获取所述边缘节点的N维关键绩效指标KPI的 时间序列,其中N为正整数;
关键绩效指标KPI是指衡量边缘节点实时性能的关键指标,在IT系 统运维和ICT系统运维领域,KPI是一个很重要的概念,运维人员可以从 KPI指标中对每一个边缘节点/云节点进行监测,若指标异常则需要及时进 行维护,保证网络运行的质量。KPI指标有很多类型,例如在IT或ICT 领域中,语音通信量测量语音呼叫的通信量、数据通信量测量数据呼叫的 通信量、业务流量(traffic)、响应时间、信噪比SNR、RSRQ、CQI等。
云服务器获取N维的KPI指标,可以从历史日志中获取,其中N维 代表了多元/多种类的时间序列,与单一维度的时间序列不同,KPI类型不 同,得到的时间序列也不同。
S103、所述云服务器将所述边缘节点的KPI时间序列输入预测模型 中,以确定未来时间周期内的第一KPI值;
其中,对KPI时间序列进行预测,具体过程可以为:提取所收集的N 维时间序列数据的k个主成分,从所收集的时间序列数据和所提取的k个 主成分确定主成分得分PCS,预测PCS可以通过自回归积分移动平均 ARIMA模型来执行;以及根据所确定的PCS和时间段属性建立PCS预测 模型,通过该PCS预测模型进行KPI预测,具体过程可参考美国专利US20210099894A1的专利记载,本发明实施例对此不再累述。
在其中的一个实施例中,所述云服务器将所述边缘节点的KPI时间序 列输入预测模型中,还可以为:
将所述N维的KPI时间序列降解为M维,其中M<N,可选地,可通 过主成分分析PCA方法进行降维;
将所述M维KPI时间序列分别输入至X*M个预测器中,其中单维的 KPI时间序列对应X个预测器,X为正整数;即,一个单维的时间序列可 以由X个预测器分别预测,选取预测最准的结果作为预测结果;
分别遍历所述预测器预测的结果,将误差最小的结果作为所述第一 KPI的预测结果。
S104、所述云服务器设置热点值权重,基于所述热点值权重对所述第 一KPI值进行校正,输出第二KPI值;
在S103中,通过ARIMA模型来进行KPI的短期预测,是基于历史 KPI进行预测,没有考虑到热点事件带来的流量峰值和负载压力,因此, 在本发明实施例中,需要对预测出的第一KPI值进行校正。本发明实施例 中,通过设置热点值权重,将热点事件带来的预估影响考虑在预测KPI的 事件之中,会提高KPI预测的精准度。而热点值权重本身是一个校正因子,目的是将突发性的热点事件带来的流量峰值效应和负载压力效应量 化,使得预测得到的KPI值得到校正,更能精准评估及预测KPI的值。
由于第一KPI的值包含多种类型的不同KPI值,本发明实施例以资源 饱和度为例,第二KPI值中的资源饱和度设为KPI2,第一KPI值中的资源 饱和度设为KPI1,那么
KPI2=KPI1*(1+λ)
其中热点值权重为λ,且0<λ<1。
S105、若所述第二KPI值异常,则输入至异常根因评估器进行异常类 型评估;
若第二KPI值中某一类型的KPI值异常,则运维人员需要确定该异常 类型具体是什么类型的异常,需要对其进行根因(root cause)定位,确保 在后续的运维中杜绝此类异常。
在本发明实施例中,若第二KPI异常,则需要将该KPI值输入至异常 根因评估器中,通过该评估器对异常类型进行评估和确定。其中,异常根 因评估器可以是一个由特定算法组成的虚拟的评估器,也可以是一个物理 实体,采用专用芯片,内置专用算法对异常根因进行定位。
示例性地,KPI包括边缘节点的响应时间、资源饱和度及多个性能指 标;且KPI的异常类型包括I型异常、II型异常和III型异常,其中,所 述I型异常为所述边缘节点的响应时间异常,所述II型异常为所述边缘节 点的资源饱和度异常,所述III型异常为所述KPI中的相似性能指标联合 异常。
在确认了上述三种不同类型的异常情况后,S105中输入至异常根因 评估器进行异常类型评估,具体可以包括如下步骤:
设置响应时间阈值、资源饱和度阈值及主成分分析(Principal ComponentAnalysis,PCA)边界阈值,其中,PCA边界阈值由在执行 PCA操作过程中识别出的主分量或特征向量来计算得到。其中,《对 PCA边界阈值的质量进行限定》(作者Darko Dimitrov)进一步描述了如 何设计及执行PCA操作及设置边界阈值的方法,本发明实施例对此不再 累述。
PCA(principal components analysis)即主成分分析技术,又称主分量 分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化 为少数几个综合指标。在统计学中,主成分分析PCA是一种简化数据集 的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统 中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上, 第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用 于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通 过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留 住数据的最重要方面。在本发明实施例中,PCA变换可以将不同的多维 KPI降维在同一个维度面进行分析。
PCA的原理为:
(1)第一步计算矩阵X的样本的协方差矩阵S(此为不标准PCA, 标准PCA计算相关系数矩阵C):
(2)第二步计算协方差矩阵S(或C)的特征向量e1,e2,…,eN和特征 值,t=1,2,…,N;
(3)第三步投影数据到特征向量张成的空间之中。利用公式
Figure RE-GDA0003306407230000111
,其中BV值是原样本中对应维度的值。
PCA的目标是寻找r(r<n)个新变量,使它们反映事物的主要特 征,压缩原有数据矩阵的规模,将特征向量的维数降低,挑选出最少的维 数来概括最重要特征。每个新变量是原有变量的线性组合,体现原有变量 的综合效果,具有一定的实际含义。这r个新变量称为“主成分”,它们可 以在很大程度上反映原来n个变量的影响,并且这些新变量是互不相关 的,也是正交的。通过主成分分析,压缩数据空间,将多元数据的特征在 低维空间里直观地表示出来。
分别对KPI的多项指标进行评估,若KPI的预测响应时间(例如 0.5ms)超过响应时间阈值(例如0.4ms)且其余KPI指标正常,则判断为 I型异常;如图3a所示,KPI的预测响应时间在t2时刻时超过了响应时间 阈值,则确定为I型异常,云服务器会将该I型异常进行记录,并发送给 运维中心,由运维人员对其进行网络带宽及负载优化。
若KPI的预测资源饱和度(例如85%)超过资源饱和度阈值(例如 80%)且其余KPI指标正常,则判断为II型异常;如图3b所示,KPI的 预测资源饱和度在t3时刻时超过了资源饱和度阈值,则确定为II型异 常,云服务器会将该II型异常进行记录,并发送给运维中心,由运维人员 对其进行资源扩容规划。
若KPI的多项相似性能指标均超过PCA边界阈值,则判断为III型异 常。其中,相似性能指标表示多项性能指标中有相同的特征或相似的特 征,通常而言,该特征可以通过人工智能算法(例如卷积神经网络算法 等)进行提取,并通过人为或机器判定该提取的特征是否相同或相似。示 例性地,云服务器先将所述KPI的多项性能指标进行K-means聚类分析, 获取多个目标簇,其中,目标簇是基于K-means聚类算法计算出的目标集 合,且目标簇内的多个性能指标具备一个或多个相似特征,例如,边缘节 点的KPI中,负载率和响应时间两个指标中,由于业务流量的陡然增大, 负载率会呈现正相关,响应时间也出现正相关,因此可以认为上述两个具 备相似性,二者的指标同时增大时,表示网络流量突然增大,若二者指标 均异常(响应时间和负载率超标),则其根因为网络流量增大引起的。
因此,本发明实施例中,将所述目标簇内的多个性能指标与所述PCA 边界阈值进行比较,若所述多个性能指标均超过所述PCA边界阈值,则 判断为III型异常。如图3c所示,PCA边缘阈值为32,34两条斜线,若 性能指标在32,34与横坐标、纵坐标围成的不规则形状300区域之外 (例如区域301-303),则代表至少两个性能指标不在性能阈值范围之 内,则判断为III型异常,需要运维人员进行不同指标的关联分析,并针 对性的进行网络优化。
S106、获取评估后的异常类型,并根据所述异常类型进行异常运维处 理。
在一种可能的实施例中,针对I,II或III类型的异常运维处理情况可 以是资源扩容,具体为:
云服务器将所述存储的热点数据组分裂为多个副本,其中,所述热点 数据组存储为键-值对Key-Value格式,所述副本为键-值对副本,每一个 键-值对副本ID对应同一个值对ID;
基于哈希散列算法将所述多个副本散列到多个第二边缘节点中,以使 所述多个第二边缘节点替代所述边缘节点来响应UE的热点数据组访问请 求。
本发明实施例提供的方法及装置,通过对边缘节点的KPI进行异常监 测,同时确认KPI的预测值,若KPI预测值异常,则对KPI的异常类型 进行根因定位,以方便运维人员进行问题回溯,针对性调整资源扩容方 案,同时在热点事件发生时进行异常运维处理。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机可 执行指令,该计算机可执行指令用于执行上述实施例中的方法。
本发明实施例还提供一种装置,包括存储器和处理器,所述存储器上 存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行 指令时实现上述方法。
本发明实施例提供的方法及装置,将相邻节点的容器进行评估,并通 过QoS预测及二次筛选条件过滤,保证了迁移目标的容器满足数据迁移 后的QoS保障,提升了用户体验。
图4为一个实施例中装置的硬件组成示意图。可以理解的是,图4仅 仅示出了装置的简化设计。在实际应用中,装置还可以分别包含必要的其 他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存 储器等,而所有可以实现本申请实施例的大数据管理方法的装置都在本申 请的保护范围之内。
存储器包括但不限于是随机存储记忆体(random access memory, RAM)、只读存储器(read至only memory,ROM)、可擦除可编程只读 存储器(erasable programmableread only memory,EPROM)、或便携式 只读存储器(compact disc read至only memory,CD至ROM),该存储 器用于相关指令及数据。
输入系统用于输入数据和/或信号,以及输出系统用于输出数据和/或 信号。输出系统和输入系统可以是独立的器件,也可以是一个整体的器 件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理 器(central processing unit,CPU),在处理器是一个CPU的情况下,该 CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多 个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处 理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例 中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方 法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功 能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以 结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显 示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接 口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形 式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分 或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任 意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品 的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上 加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的 流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或 者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或 者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站 点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用 户线(digital subscriber line,DSL))或无线(例如红外、无线、微波 等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计 算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个 或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可 以是只读存储器(read至only memory,ROM),或随机存储存储器 (random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁 带、磁碟、或光介质,例如,数字通用光盘(digitalversatile disc, DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD) 等。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易 想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范 围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于大数据的异常监测的方法,其特征在于,应用于边缘云架构,所述边缘云架构包括云服务器、边缘节点及用户终端,所述方法包括:
所述云服务器获取热点数据组,并将所述热点数据组存储至所述边缘节点中,以使所述用户终端从所述边缘节点中获取所述热点数据组;
所述云服务器获取所述边缘节点的N维关键绩效指标KPI的时间序列,其中N为正整数;
所述云服务器将所述边缘节点的KPI时间序列输入预测模型中,以确定未来时间周期内的第一KPI值;
所述云服务器设置热点值权重,基于所述热点值权重对所述第一KPI值进行校正,输出第二KPI值;
若所述第二KPI值异常,则输入至异常根因评估器进行异常类型评估;
获取评估后的异常类型,并根据所述异常类型进行异常运维处理;
其中,所述云服务器将所述边缘节点的KPI时间序列输入预测模型中,包括:将所述N维的KPI时间序列降解为M维,其中M<N;将所述M维KPI时间序列分别输入至X*M个预测器中,其中单维的KPI时间序列对应X个预测器,X为正整数;分别遍历所述预测器预测的结果,将误差最小的结果作为所述第一KPI的预测结果;
所述KPI包括多个性能指标,所述多个性能指标包括边缘节点的响应时间和资源饱和度,所述异常类型包括I型异常、II型异常和III型异常;将所述KPI的多项性能指标进行K-means聚类分析,获取多个目标簇,所述目标簇内的多个性能指标具备一个或多个相似特征;
所述输入至异常根因评估器进行异常类型评估,包括:设置响应时间阈值、资源饱和度阈值及主成分分析PCA边界阈值;分别对所述KPI的多项指标进行评估,若所述KPI的预测响应时间超过响应时间阈值且其余KPI指标正常,则判断为I型异常;若所述KPI的预测资源饱和度超过资源饱和度阈值且其余KPI指标正常,则判断为II型异常;若所述KPI的多项相似性能指标均超过PCA边界阈值,则判断为III型异常。
2.根据权利要求1所述的方法,其特征在于,所述I型异常为所述边缘节点的响应时间异常,所述II型异常为所述边缘节点的资源饱和度异常,所述III型异常为所述KPI中的相似性能指标联合异常。
3.根据权利要求2所述的方法,其特征在于,所述PCA边界阈值由在执行PCA操作过程中识别出的主分量或特征向量来计算得到。
4.根据权利要求3所述的方法,其特征在于,所述判断为III型异常,包括:
将所述目标簇内的多个性能指标与所述PCA边界阈值进行比较,若所述多个性能指标均超过所述PCA边界阈值,则判断为III型异常。
5.根据权利要求1所述的方法,其特征在于,所述云服务器设置热点值权重,基于所述热点值权重对所述第一KPI值进行校正,输出第二KPI值,包括:
设置所述热点值权重为
Figure 469947DEST_PATH_IMAGE001
,且
Figure 718526DEST_PATH_IMAGE002
,则:
Figure 379315DEST_PATH_IMAGE003
其中,KPI1为第一KPI,KPI2为第二KPI。
6.根据权利要求1所述的方法,其特征在于,所述根据所述异常类型进行异常运维处理,包括:
将所述存储的热点数据组分裂为多个副本,其中,所述热点数据组存储为键-值对Key-Value格式,所述副本为键-值对副本,每一个键-值对副本ID对应同一个值对ID;
基于哈希散列算法将所述多个副本散列到多个第二边缘节点中,以使所述多个第二边缘节点替代所述边缘节点来响应UE的热点数据组访问请求。
7.根据权利要求1所述的方法,其特征在于,在所述云服务器获取热点数据组之前,所述方法还包括:
通过神经网络算法对热点事件进行预测,并基于预测结果获取与所述热点事件对应的热点数据组。
8.根据权利要求7所述的方法,其特征在于,通过神经网络算法对热点事件进行预测,包括:
将前N周期第一键-值对的访问量作为输入参数,输入对称残差网络,通过所述对称残差网络提取所述访问量的第一特征,所述第一键-值对对应一个事件;
通过注意力机制将所述访问量对进行局部特征权重量化,得到量化后的第二特征;
将所述量化后的第二特征输入双向长短期记忆网络,获取预测出的第N+1周期的第一键-值对的预测访问量;
其中,所述对称残差网络中包括卷积模块和解卷积模块,所述卷积模块中包括K个残差块,所述解卷积模块中包括K个解卷积块,其中,所述K为大于或等于1的整数;
则所述将前N周期第一键-值对的访问量作为输入参数,输入对称残差网络,通过所述对称残差网络提取所述访问量的第一特征,包括:
通过所述卷积模块中的K个残差块将所述局部特征进行卷积运算,得到中间特征;
通过所述解卷积模块中的K个解卷积块将所述中间特征进行解卷积运算,得到所述访问量的第一特征。
9.一种装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至8任一项所述的方法。
CN202110888028.3A 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置 Active CN113705981B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110888028.3A CN113705981B (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置
CN202210879127.XA CN115309605A (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110888028.3A CN113705981B (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210879127.XA Division CN115309605A (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置

Publications (2)

Publication Number Publication Date
CN113705981A CN113705981A (zh) 2021-11-26
CN113705981B true CN113705981B (zh) 2022-08-30

Family

ID=78651345

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210879127.XA Withdrawn CN115309605A (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置
CN202110888028.3A Active CN113705981B (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210879127.XA Withdrawn CN115309605A (zh) 2021-08-03 2021-08-03 一种基于大数据的异常监测的方法及装置

Country Status (1)

Country Link
CN (2) CN115309605A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673822B (zh) * 2021-07-15 2023-08-11 微梦创科网络科技(中国)有限公司 一种弹性调度方法及系统
CN114866438A (zh) * 2022-04-19 2022-08-05 湖南宝马文化传播有限公司 一种云架构下的异常隐患预测方法及系统
CN115378928B (zh) * 2022-10-26 2023-04-07 北京创新乐知网络技术有限公司 基于云服务的监控方法及系统
CN117270794B (zh) * 2023-11-22 2024-02-23 成都大成均图科技有限公司 一种基于Redis的数据存储方法、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475250A (zh) * 2015-10-09 2018-08-31 华为技术有限公司 用于异常根本原因分析的系统和方法
CN111162925A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 网络流量预测方法、装置、电子设备及存储介质
CN111541685A (zh) * 2020-04-20 2020-08-14 南京大学 一种基于网络结构学习的边缘云异常检测方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法
CN112363992A (zh) * 2020-11-16 2021-02-12 樊馨 一种基于人工智能的大数据访问方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3549366B1 (en) * 2016-11-29 2022-01-05 Telefonaktiebolaget LM Ericsson (publ) Forcasting time series data
US11146455B2 (en) * 2019-12-20 2021-10-12 Intel Corporation End-to-end quality of service in edge computing environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475250A (zh) * 2015-10-09 2018-08-31 华为技术有限公司 用于异常根本原因分析的系统和方法
CN111162925A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 网络流量预测方法、装置、电子设备及存储介质
CN111541685A (zh) * 2020-04-20 2020-08-14 南京大学 一种基于网络结构学习的边缘云异常检测方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法
CN112363992A (zh) * 2020-11-16 2021-02-12 樊馨 一种基于人工智能的大数据访问方法及系统

Also Published As

Publication number Publication date
CN113705981A (zh) 2021-11-26
CN115309605A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN113705981B (zh) 一种基于大数据的异常监测的方法及装置
US11055407B2 (en) Distribution-based analysis of queries for anomaly detection with adaptive thresholding
CN110070461B (zh) 一种电力信息系统健康度评估方法及其评估系统
CN107896170B (zh) 保险应用系统的监控方法及装置
US9330160B2 (en) Software application complexity analysis
CN109753385A (zh) 一种面向流计算系统异常监控的恢复方法及系统
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
US20170116061A1 (en) Mechanism for Running Diagnostic Rules Across Multiple Nodes
CN111581258A (zh) 一种安全数据分析方法、装置、系统、设备及存储介质
US11863398B2 (en) Centralized management of distributed data sources
CN109408556B (zh) 基于大数据的异常用户识别方法及装置、电子设备、介质
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
US11763158B2 (en) Method for automatic hybrid quantization of deep artificial neural networks
CN113657249A (zh) 训练方法、预测方法、装置、电子设备以及存储介质
CN110855474B (zh) Kqi数据的网络特征提取方法、装置、设备及存储介质
US20230161653A1 (en) Method of managing system health
CN113783862B (zh) 一种边云协同过程中进行数据校验的方法及装置
CN113064812A (zh) 一种项目开发过程质量缺陷预测方法、装置及介质
CN113656391A (zh) 数据检测方法及装置、存储介质及电子设备
CN111309716A (zh) 应用于pas案例库的维护方法、装置及计算机设备
Shen et al. Neural adaptive iot streaming analytics with rl-adapt
CN111435346A (zh) 离线数据的处理方法、装置及设备
JP7302668B2 (ja) レベル推定装置、レベル推定方法、および、レベル推定プログラム
CN117998421B (zh) 全局用户速率最优的跨层ap改进聚类方法、介质及装置
CN112699101B (zh) 基于存储与处理的服务器系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220127

Address after: 561000 room 17011, unit 1, building C, Jianbo International Plaza, No. 188, Huangguoshu street, Huaxi street, Xixiu District, Anshun City, Guizhou Province

Applicant after: Guizhou Anhe Shengda Enterprise Management Co.,Ltd.

Address before: 518129 Bantian shangpinya garden, Longgang District, Shenzhen City, Guangdong Province

Applicant before: Peng Liang

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220810

Address after: 101499 Room 2213, Second Floor, Five Blocks, No. 11 Yingbin South Road, Huairou District, Beijing

Applicant after: Beijing Dingxin Tide Technology Co., Ltd.

Address before: 561000 room 17011, unit 1, building C, Jianbo International Plaza, No. 188, Huangguoshu street, Huaxi street, Xixiu District, Anshun City, Guizhou Province

Applicant before: Guizhou Anhe Shengda Enterprise Management Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant