CN117828371B - 一种综合运维平台的业务信息智能分析方法 - Google Patents
一种综合运维平台的业务信息智能分析方法 Download PDFInfo
- Publication number
- CN117828371B CN117828371B CN202410231665.7A CN202410231665A CN117828371B CN 117828371 B CN117828371 B CN 117828371B CN 202410231665 A CN202410231665 A CN 202410231665A CN 117828371 B CN117828371 B CN 117828371B
- Authority
- CN
- China
- Prior art keywords
- data
- similarity
- flow data
- neighborhood
- business flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 238000012423 maintenance Methods 0.000 title claims abstract description 34
- 230000008859 change Effects 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 13
- 238000007621 cluster analysis Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据分析技术领域,具体涉及一种综合运维平台的业务信息智能分析方法。该方法包括:获取综合运维平台的业务流量数据和运行状态数据;确定每一时刻的噪声程度;确定两个业务流量数据的相似程度;根据任一时刻的业务流量数据与对应相邻数据的相似程度,确定邻域变化系数;根据局部范围内的邻域变化系数,确定邻域波动指标;根据邻域波动指标确定目标相似度阈值;根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,进行层次聚类,得到聚类结果,根据聚类结果对流量波动进行分析。本发明能够对不同时间周期的业务流量数据进行自适应分析,实现准确有效的波动分析,提升智能化业务流量波动分析的效果。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种综合运维平台的业务信息智能分析方法。
背景技术
运维是指对一个企业或组织内部的网络、服务器、系统的生命周期各个阶段进行运营与维护,以保障系统的正常运行和服务质量。综合运维平台是一种集成了多个运维功能和工具的统一管理平台,旨在帮助企业或组织提升运维效率、降低运维成本、保障系统稳定性和安全性。其中,业务系统的业务流量数据就是重要的设备性能指标信息之一,通过对业务流量数据的分析能够及时调整网络带宽的分配并快速发现和排查网络故障。
相关技术中,通过对业务流量数据本身的数值大小进行聚类分析,从而实现业务信息的智能分析,这种方式下,由于业务流量数据本身数值波动频繁,且波动范围较大,仅根据固定阈值结合数值变化进行聚类分析的准确性与可靠性较差,业务流量波动分析的效果不足。
发明内容
为了解决相关技术中由于业务流量数据本身数值波动频繁,且波动范围较大,仅根据固定阈值结合数值变化进行聚类分析的准确性与可靠性较差,业务流量波动分析的效果不足的技术问题,本发明提供一种综合运维平台的业务信息智能分析方法,所采用的技术方案具体如下:
本发明提出了一种综合运维平台的业务信息智能分析方法,方法包括:
周期性获取综合运维平台的业务流量数据和运行状态数据;根据每一时刻的业务流量数据和运行状态数据的数值,确定每一时刻的噪声程度;
根据任意两个时刻的业务流量数据的数值差异、时序距离和噪声程度,确定对应两个业务流量数据的相似程度;任选一个时刻作为待测时刻,待测时刻的业务流量数据作为待测数据,所述待测数据在预设时序范围之内的其他业务流量数据作为相邻数据,根据所述待测数据与所有所述相邻数据的相似程度,确定所述待测数据的邻域变化系数;
确定每一业务流量数据的邻域变化系数,根据与待测数据相距最近的预设数量个业务流量数据的邻域变化系数和待测数据的邻域变化系数,确定所述待测数据的邻域波动指标;根据所述邻域波动指标对预设初始相似度阈值进行修正,得到所述待测数据的目标相似度阈值;
根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,对所有所述业务流量数据进行层次聚类,得到聚类结果,根据所述聚类结果对流量波动进行分析。
进一步地,所述运行状态数据包括CPU占用率数据,所述噪声程度的确定方法,包括:
计算所有时刻的业务流量数据的均值得到总流量均值,所有时刻的CPU占用率数据的均值得到总CPU占用均值;
将任一时刻的业务流量数据与总流量均值的差值绝对值归一化处理得到流量异常指标;
将任一时刻的CPU占用率数据与总CPU占用均值的差值绝对值归一化处理得到CPU占用异常指标;
计算同一时刻的所述流量异常指标与CPU占用异常指标的差值绝对值,归一化得到对应时刻的噪声程度。
进一步地,所述任意两个时刻的业务流量数据的相似程度的确定方法,包括:
计算两个时刻的业务流量数据数值的差值绝对值,负相关映射并归一化得到初始相似指标;
将两个时刻所对应的时间间隔作为时序因子,将两个时刻的噪声程度的差值绝对值作为噪声因子;根据时序因子和噪声因子确定两个时刻的相似影响指标;
计算所述初始相似指标和所述相似影响指标的乘积作为对应两个时刻的业务流量数据的相似程度。
进一步地,所述两个时刻的相似影响指标的确定方法包括:
计算两个时刻的时序因子和噪声因子的乘积,负相关映射并归一化得到相似影响指标。
进一步地,所述根据所述待测数据与所有所述相邻数据的相似程度,确定所述待测数据的邻域变化系数,包括:
将所述待测数据与所有所述相邻数据的相似程度的均值作为邻域相似均值;将所述待测数据与所有所述相邻数据的相似程度的方差作为邻域相似方差;
计算所述邻域相似方差和所述邻域相似均值的比值,得到所述待测数据的邻域变化系数。
进一步地,所述根据与待测数据相距最近的预设数量个业务流量数据的邻域变化系数和待测数据的邻域变化系数,确定所述待测数据的邻域波动指标,包括:
将与待测数据相距最近的预设数量个业务流量数据的邻域变化系数作为局部变化系数;
计算待测数据的邻域变化系数与所有局部变化系数的差值绝对值的均值,归一化处理得到所述待测数据的邻域波动指标。
进一步地,所述根据所述邻域波动指标对预设初始相似度阈值进行修正,得到所述待测数据的目标相似度阈值,包括:
对邻域波动指标进行反比例映射并归一化处理,得到相似度阈值权值;
计算所述相似度阈值权值与预设初始相似度阈值的乘积,得到所述待测数据的目标相似度阈值。
进一步地,所述根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,对所有所述业务流量数据进行层次聚类,得到聚类结果,包括:
将所有业务流量数据的目标相似度阈值的均值作为相似判断阈值;
根据任意两个业务流量数据间的相似程度是否大于对应相似判断阈值,对所有所述业务流量数据进行层次聚类,得到聚类结果。
进一步地,所述根据任意两个业务流量数据间的相似程度是否大于对应相似判断阈值,对所有所述业务流量数据进行层次聚类,得到聚类结果,包括:
基于层次聚类算法,以时序上第一个业务流量数据为起点,在其他业务流量数据与第一个业务流量数据的相似程度大于相似判断阈值时,将其作为第一个业务流量数据为起点的聚类簇内,直至时序上业务流量数据与第一个业务流量数据的相似程度小于等于相似判断阈值时停止,获得聚类簇,并以停止时的业务流量数据为新的起点进行聚类,直至遍历所有业务流量数据,得到至少一个聚类簇,将聚类簇作为聚类结果。
进一步地,所述根据所述聚类结果对流量波动进行分析,包括:
将所有所述聚类簇输入至预训练的数据分析模型中,经由数据分析模型处理输出流量波动特征信息。
本发明具有如下有益效果:
本发明基于现有的综合运维平台的业务流量数据变化分析时候无法有效实现波动分析的问题,通过业务流量数据和运行状态数据数值分布确定噪声程度,噪声程度的获取有效结合业务流量数据和运行状态数据的数值波动,误差更低,可靠性更强;使得后续能够结合业务流量数据的数值差异、时序距离和噪声程度对相似程度进行分析,其中,因业务流量数据的数值波动频繁,且波动范围较大,本发明结合时序特征和噪声程度,从而避免直接根据业务流量数值进行相似度分析的数据误差,使得相似程度能够更为准确有效地表征不同业务流量数据的相似特征,通过局部范围内所有业务流量数据的相似程度,确定每一业务流量数据的邻域变化系数,通过邻域变化系数进一步确定邻域波动指标,邻域波动指标能够有效表示邻域范围内的业务流量波动情况,由此,可以根据波动情况对预设初始相似度阈值进行自适应调整,获得不同业务流量数据的目标相似度阈值,根据同一时间周期内所有业务流量数据的目标相似度阈值进行层次聚类,实现流量波动分析,该流量波动的分析为对不同时间周期内进行的自适应分析,从而能够根据流量变化实现准确有效的波动分析,提升智能化业务流量波动分析的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种综合运维平台的业务信息智能分析方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种综合运维平台的业务信息智能分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种综合运维平台的业务信息智能分析方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种综合运维平台的业务信息智能分析方法流程图,该方法包括:
S101:周期性获取综合运维平台的业务流量数据和运行状态数据;根据每一时刻的业务流量数据和运行状态数据的数值,确定每一时刻的噪声程度。
本发明的一种具体的实施场景为,基于综合运维平台上业务流量数据和运行状态数据对流量的波动进行分析,其中,综合运维平台是一种集成了多个运维功能和工具的统一管理平台,而业务流量的波动影响了运维过程中的网络带宽的分配,并且能够基于业务流量的波动快速发现和排查网络故障,由此,需要对业务流量的波动进行有效分析。可以理解的是,不同时段的业务量不同,业务流量数据的变动较大,因此业务流量数据大小之间的跨度也较大。
本发明实施例中,可以每隔1秒获取一次业务流量数据和运行状态数据,而后,将一个小时作为采集时间段,也即每隔一个小时统计一次,并进行数据分析,当然,在本发明的另一些实施例中,对业务流量数据和运行状态数据的采集周期不做限制。
其中,业务流量数据体现的是业务系统的实时业务量,业务量越多、越大则业务流量数据就越大,而系统在什么时刻产生什么业务都是难以预测的,因此流量数据也很有可能出现突然地增加或减小,且增减的程度、时间也都是随机的。综上,仅通过业务流量数据本身的数值特征无法有效地检测出数据的异常程度,然而业务流量数据与其它的系统资源占用数据是密切相关的,可以通过业务流量数据与这些运行状态数据之间的变化一致性来计算数据的噪声程度。
需要说明的是,本发明实施例中的运行状态数据包括CPU占用率数据,在进行业务流量的处理过程中,需要占用CPU的进程,使得CPU占用率产生变化,其与业务流量数据的变化具有一定的正相关关系,也即业务流量数据量越大,则对应的CPU占用率越大,可以基于此进行后续的噪声分析,当然,在本发明的另一些实施例中,运行状态数据也可以具体例如为内存占用率数据,对此不做限制。
其中,根据每一时刻的业务流量数据和运行状态数据的数值,确定每一时刻的噪声程度,噪声程度的确定方法,包括:计算所有时刻的业务流量数据的均值得到总流量均值,所有时刻的CPU占用率数据的均值得到总CPU占用均值;将任一时刻的业务流量数据与总流量均值的差值绝对值归一化处理得到流量异常指标;将任一时刻的CPU占用率数据与总CPU占用均值的差值绝对值归一化处理得到CPU占用异常指标;计算同一时刻的流量异常指标与CPU占用异常指标的差值绝对值,归一化得到对应时刻的噪声程度。
本发明实施例中的噪声程度用于表征流量变化与运行状态的差异,在差异较大时,表示受到噪声影响较大。由于CPU占用率与业务流量数据的变化具有一定的正相关关系,不论CPU占用率数据或者业务流量数据,与总体的均值差异越大时,即可以表征对应的异常程度越大,基于此计算得到CPU占用异常指标和流量异常指标。
由此,本发明实施例可以根据相同时刻下CPU占用异常指标和流量异常指标的差异情况确定噪声程度,也即在流量异常指标越大时,其CPU占用在实际情况下应相应变大,CPU占用异常指标和流量异常指标在正常情况下的变化应相类似,其变化的差异越大,则对应的表示受到噪声影响越严重,噪声程度越大。
本发明在确定每一时刻的噪声程度之后,可以基于噪声程度影响对相似性进行分析,具体参见后续实施例。
S102:根据任意两个时刻的业务流量数据的数值差异、时序距离和噪声程度,确定对应两个业务流量数据的相似程度;任选一个时刻作为待测时刻,待测时刻的业务流量数据作为待测数据,待测数据在预设时序范围之内的其他业务流量数据作为相邻数据,根据待测数据与所有相邻数据的相似程度,确定待测数据的邻域变化系数。
进一步地,在本发明的一些实施例中,任意两个时刻的业务流量数据的相似程度的确定方法,包括:计算两个时刻的业务流量数据数值的差值绝对值,负相关映射并归一化得到初始相似指标;将两个时刻所对应的时间间隔作为时序因子,将两个时刻的噪声程度的差值绝对值作为噪声因子;根据时序因子和噪声因子确定两个时刻的相似影响指标;计算初始相似指标和相似影响指标的乘积作为对应两个时刻的业务流量数据的相似程度。
其中,需要说明的是,在进行传统的相似程度分析过程中,通常直接根据业务流量数据的数值变化进行相似度分析,也即业务流量数据的数值越接近,则相似度越高,但是实际的流量在时间段内通常具有波动范围较大,波动较为频繁的特征,也即是说,即使数值相同,但在不同时刻可能处于不同的波动内,具有差异较大的流量表征效果,由此,本发明通过时序作为权重系数进行分析。
本发明实施例中,由于噪声通常为异常数据的写入,或者CPU的异常占用等运行状态变化所导致的,该过程直接影响了业务流量数据本身的数值,由此,在噪声差异越大时,其业务流量数据本身的异常效果较大,其相似度会受到影响。
由此,本发明基于时序因子和噪声因子确定两个时刻的相似影响指标,两个时刻的相似影响指标的确定方法包括:计算两个时刻的时序因子和噪声因子的乘积,负相关映射并归一化得到相似影响指标。
在本发明的一个实施例中,归一化处理可以具体例如为最大最小值归一化处理,并且,后续步骤中的归一化均可以采用最大最小值归一化处理,在本发明的其他实施例中可以根据数值具体范围选择其他归一化方法,对此不再赘述。
其中,正相关关系表示因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小,具体关系可以为相乘关系、相加关系、指数函数的幂等,由实际应用进行确定;负相关关系表示因变量会随着自变量的增大而减小,因变量会随着自变量的减小而增大,可以为相减关系、相除关系等,由实际应用进行确定。
本发明实施例中,时序因子表征两个时刻的时间间隔,时间间隔越大,表征两个时刻之间的影响程度越小,也即相似程度越小,而噪声因子越大,则表征两个时刻受到的异常影响程度差异较大,相似程度越小,由此,本发明计算时序因子和噪声因子的乘积,负相关映射并归一化得到相似影响指标。举例而言,可以计算时序因子和噪声因子的乘积的倒数,归一化得到相似影响指标,或者,计算时序因子和噪声因子的乘积的负数,归一化得到相似影响指标,对此不做限制。
本发明实施例中,计算初始相似指标和相似影响指标的乘积作为对应两个时刻的业务流量数据的相似程度,则该相似程度受到业务流量数据的数值影响,且同样受到造成影响和时序影响,提升相似程度的客观性与可靠性。
本发明可以任选一个时刻作为待测时刻,待测时刻的业务流量数据作为待测数据,待测数据在预设时序范围之内的其他业务流量数据作为相邻数据。
其中,预设时序范围,为待测时刻为中心的特定时序范围,例如待测时刻为中心的30秒时序范围,由于本发明的采集周期可以进行调整,则预设时序范围可以根据实际采集周期和检测需求进行自适应的调整,对此不做限制。
由此,通过计算待测数据与相邻数据的相似程度,进而对待测数据进行分析。进一步地,在本发明的一些实施例中,根据待测数据与所有相邻数据的相似程度,确定待测数据的邻域变化系数,包括:将待测数据与所有相邻数据的相似程度的均值作为邻域相似均值;将待测数据与所有相邻数据的相似程度的方差作为邻域相似方差;计算邻域相似方差和邻域相似均值的比值,得到待测数据的邻域变化系数。
由于流量变化是一个持续的过程,而流量的突变更具有分析意义,由此,可以将持续变化的业务流量数据作为相似的数据进行分析,则本发明实施例将待测数据与其所有邻域数据相似程度的均值和方差,得到邻域相似均值和邻域相似方差,该邻域相似均值和邻域相似方差即为实际检测过程中的邻域的总体数值特征和分布特征。
通过邻域相似方差和邻域相似均值确定邻域变化系数,其中,邻域变化系数表征邻域变化的波动程度,而邻域相似方差越大表征邻域内的离散程度越大,对应的邻域变化波动程度越大,而邻域相似均值越大,表征邻域内数值相似程度越大,也即邻域变化波动程度越小,由此,本发明计算邻域相似方差和邻域相似均值的比值,得到待测数据的邻域变化系数。
S103:确定每一业务流量数据的邻域变化系数,根据与待测数据相距最近的预设数量个业务流量数据的邻域变化系数和待测数据的邻域变化系数,确定待测数据的邻域波动指标;根据邻域波动指标对预设初始相似度阈值进行修正,得到待测数据的目标相似度阈值。
本发明实施例中,将每一业务流量数据均作为一次待测数据,从而确定每一业务流量数据的邻域变化系数,而邻域变化系数表征了邻域内的变化波动程度,可以根据邻域变化系数对邻域波动进行分析。
进一步地,在本发明的一些实施例中,根据与待测数据相距最近的预设数量个业务流量数据的邻域变化系数和待测数据的邻域变化系数,确定待测数据的邻域波动指标,包括:将与待测数据相距最近的预设数量个业务流量数据的邻域变化系数作为局部变化系数;计算待测数据的邻域变化系数与所有局部变化系数的差值绝对值的均值,归一化处理得到待测数据的邻域波动指标。
本发明实施例中,预设数量可以具体例如为2个,也即是说,将与待测数据相距最近的两个业务流量数据的邻域变化系数作为局部变化系数。需要说明的是,由于业务流量数据在数值突变时更具有分析意义,则本发明通过相距最近的两个业务流量数据所对应的局部变化系数对数值突变进行分析,也即邻域波动指标表征了对应局部范围内的数值波动情况。
则本发明实施例中,通过计算待测数据的邻域变化系数与所有局部变化系数的差值绝对值的均值,归一化处理得到待测数据的邻域波动指标,邻域波动指标的数值越大,则表示待测数据的邻域变化系数与所有局部变化系数的差异越大,也即待测数据本身数值突变的概率越大,由此,可以基于邻域波动指标进行阈值分析。
进一步地,在本发明的一些实施例中,根据邻域波动指标对预设初始相似度阈值进行修正,得到待测数据的目标相似度阈值,包括:对邻域波动指标进行反比例映射并归一化处理,得到相似度阈值权值;计算相似度阈值权值与预设初始相似度阈值的乘积,得到待测数据的目标相似度阈值。
其中,预设初始相似度阈值,为预设的统一的相似程度门限值,可以理解的是,在不同的时间周期内,由于数值波动不一致,对应的相似度阈值也需要进行自适应的调整,以便于进行数据分析。
可以理解的是,在后续实施例需要进行聚类分析,本发明实施例中,业务流量数据周围的邻域波动指标越大,说明此时可能是流量波动较大的时段,应当适当降低相似度阈值,使相邻数据更容易被聚为同类,否则可能导致后续聚类过程的类簇过多、聚类不完全;业务流量数据周围的邻域波动指标越小,说明此时可能是流量较为平稳的时段,应当适当提高相似度阈值,使相邻数据更不容易被聚为同类,否则可能导致后续聚类过程的类簇过大、聚类过度。则需要对邻域波动指标进行反比例映射并归一化处理,得到相似度阈值权值,相似度阈值权值即为相似度阈值的权重系数,本发明计算相似度阈值权值与预设初始相似度阈值的乘积,得到待测数据的目标相似度阈值。目标相似度阈值能够表征更为准确客观的相似度阈值情况。
S104:根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,对所有业务流量数据进行层次聚类,得到聚类结果,根据聚类结果对流量波动进行分析。
进一步地,在本发明的一些实施例中,根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,对所有业务流量数据进行层次聚类,得到聚类结果,包括:将所有业务流量数据的目标相似度阈值的均值作为相似判断阈值;根据任意两个业务流量数据间的相似程度是否大于对应相似判断阈值,对所有业务流量数据进行层次聚类,得到聚类结果。
常规层次聚类算法对业务流量数据进行聚类时,一般通过业务流量数据之间的大小差异计算它们的相似度,并设定一个固定大小的相似度阈值作为判定条件来进行类簇的划分,然而业务系统的流量数据经常出现较大的变化,且不同时段的变化程度也存在差异,这就会导致相似度阈值的适用效果较差,在波动情况不一致的时间段内使用相同的相似度阈值,其可靠性较差,因此,本发明通过对时间段内的每一业务流量数据的噪声分析和数值分布分析,从而确定自适应的目标相似度阈值,从而使得目标相似度阈值能够准确实现对应业务流量数据的相似度分析效果。则本发明可以计算所有业务流量数据的目标相似度阈值的均值作为相似判断阈值,并根据相似判断阈值进行后续的聚类分析。
进一步地,在本发明的一些实施例中,根据任意两个业务流量数据间的相似程度是否大于对应相似判断阈值,对所有业务流量数据进行层次聚类,得到聚类结果,包括:基于层次聚类算法,以时序上第一个业务流量数据为起点,在其他业务流量数据与第一个业务流量数据的相似程度大于相似判断阈值时,将其作为第一个业务流量数据为起点的聚类簇内,直至时序上业务流量数据与第一个业务流量数据的相似程度小于等于相似判断阈值时停止,获得聚类簇,并以停止时的业务流量数据为新的起点进行聚类,直至遍历所有业务流量数据,得到至少一个聚类簇,将聚类簇作为聚类结果。
举例而言,本发明实施例以第一个业务流量数据为起点,确定第二个业务流量数据与第一个业务流量数据之间的相似程度是否大于相似判断阈值,在大于相似判断阈值时,将第二个业务流量数据与第一个业务流量数据组合,而后,判断第三个业务流量数据与第一个业务流量数据之间的相似程度是否大于相似判断阈值,若大于,将第三个业务流量数据加入第一个与第二个业务流量数据的组合内,直至到达第n个(其中,n为正整数,且n大于3)业务流量数据时,第n个业务流量数据与第一个业务流量数据之间的相似程度小于等于相似判断阈值,则将第一个至第n-1个业务流量数据组合作为一个聚类簇,而后,以第n个业务流量数据为起点进行继续分析,直至遍历所有业务流量数据之后,得到对应数量个聚类簇。
进一步地,在本发明的一些实施例中,根据聚类结果对流量波动进行分析,包括:将所有聚类簇输入至预训练的数据分析模型中,经由数据分析模型处理输出流量波动特征信息。
其中,数据分析模型为基于人工智能的大数据分析模型,模型的训练和处理过程为本领域技术人员所熟知的技术,对此不作进一步赘述与限定。通过将业务流量数据进行聚类获得聚类簇,从而实现更为快速可靠的模型处理,避免聚类效果较差影响模型处理,进而导致流量波动特征信息的准确性较差。
本发明基于现有的综合运维平台的业务流量数据变化分析时候无法有效实现波动分析的问题,通过业务流量数据和运行状态数据数值分布确定噪声程度,噪声程度的获取有效结合业务流量数据和运行状态数据的数值波动,误差更低,可靠性更强;使得后续能够结合业务流量数据的数值差异、时序距离和噪声程度对相似程度进行分析,其中,因业务流量数据的数值波动频繁,且波动范围较大,本发明结合时序特征和噪声程度,从而避免直接根据业务流量数值进行相似度分析的数据误差,使得相似程度能够更为准确有效地表征不同业务流量数据的相似特征,通过局部范围内所有业务流量数据的相似程度,确定每一业务流量数据的邻域变化系数,通过邻域变化系数进一步确定邻域波动指标,邻域波动指标能够有效表示邻域范围内的业务流量波动情况,由此,可以根据波动情况对预设初始相似度阈值进行自适应调整,获得不同业务流量数据的目标相似度阈值,根据同一时间周期内所有业务流量数据的目标相似度阈值进行层次聚类,实现流量波动分析,该流量波动的分析为对不同时间周期内进行的自适应分析,从而能够根据流量变化实现准确有效的波动分析,提升智能化流量波动分析的效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (8)
1.一种综合运维平台的业务信息智能分析方法,其特征在于,所述方法包括:
周期性获取综合运维平台的业务流量数据和运行状态数据;根据每一时刻的业务流量数据和运行状态数据的数值,确定每一时刻的噪声程度;
根据任意两个时刻的业务流量数据的数值差异、时序距离和噪声程度,确定对应两个业务流量数据的相似程度;任选一个时刻作为待测时刻,待测时刻的业务流量数据作为待测数据,所述待测数据在预设时序范围之内的其他业务流量数据作为相邻数据,根据所述待测数据与所有所述相邻数据的相似程度,确定所述待测数据的邻域变化系数;
确定每一业务流量数据的邻域变化系数,根据与待测数据相距最近的预设数量个业务流量数据的邻域变化系数和待测数据的邻域变化系数,确定所述待测数据的邻域波动指标;根据所述邻域波动指标对预设初始相似度阈值进行修正,得到所述待测数据的目标相似度阈值;
根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,对所有所述业务流量数据进行层次聚类,得到聚类结果,根据所述聚类结果对流量波动进行分析;
所述根据所述待测数据与所有所述相邻数据的相似程度,确定所述待测数据的邻域变化系数,包括:
将所述待测数据与所有所述相邻数据的相似程度的均值作为邻域相似均值;将所述待测数据与所有所述相邻数据的相似程度的方差作为邻域相似方差;
计算所述邻域相似方差和所述邻域相似均值的比值,得到所述待测数据的邻域变化系数;
所述根据与待测数据相距最近的预设数量个业务流量数据的邻域变化系数和待测数据的邻域变化系数,确定所述待测数据的邻域波动指标,包括:
将与待测数据相距最近的预设数量个业务流量数据的邻域变化系数作为局部变化系数;
计算待测数据的邻域变化系数与所有局部变化系数的差值绝对值的均值,归一化处理得到所述待测数据的邻域波动指标。
2.如权利要求1所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述运行状态数据包括CPU占用率数据,所述噪声程度的确定方法,包括:
计算所有时刻的业务流量数据的均值得到总流量均值,所有时刻的CPU占用率数据的均值得到总CPU占用均值;
将任一时刻的业务流量数据与总流量均值的差值绝对值归一化处理得到流量异常指标;
将任一时刻的CPU占用率数据与总CPU占用均值的差值绝对值归一化处理得到CPU占用异常指标;
计算同一时刻的所述流量异常指标与CPU占用异常指标的差值绝对值,归一化得到对应时刻的噪声程度。
3.如权利要求1所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述任意两个时刻的业务流量数据的相似程度的确定方法,包括:
计算两个时刻的业务流量数据数值的差值绝对值,负相关映射并归一化得到初始相似指标;
将两个时刻所对应的时间间隔作为时序因子,将两个时刻的噪声程度的差值绝对值作为噪声因子;根据时序因子和噪声因子确定两个时刻的相似影响指标;
计算所述初始相似指标和所述相似影响指标的乘积作为对应两个时刻的业务流量数据的相似程度。
4.如权利要求3所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述两个时刻的相似影响指标的确定方法包括:
计算两个时刻的时序因子和噪声因子的乘积,负相关映射并归一化得到相似影响指标。
5.如权利要求1所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述根据所述邻域波动指标对预设初始相似度阈值进行修正,得到所述待测数据的目标相似度阈值,包括:
对邻域波动指标进行反比例映射并归一化处理,得到相似度阈值权值;
计算所述相似度阈值权值与预设初始相似度阈值的乘积,得到所述待测数据的目标相似度阈值。
6.如权利要求1所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述根据所有业务流量数据的目标相似度阈值和任意两个业务流量数据间的相似程度,对所有所述业务流量数据进行层次聚类,得到聚类结果,包括:
将所有业务流量数据的目标相似度阈值的均值作为相似判断阈值;
根据任意两个业务流量数据间的相似程度是否大于对应相似判断阈值,对所有所述业务流量数据进行层次聚类,得到聚类结果。
7.如权利要求6所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述根据任意两个业务流量数据间的相似程度是否大于对应相似判断阈值,对所有所述业务流量数据进行层次聚类,得到聚类结果,包括:
基于层次聚类算法,以时序上第一个业务流量数据为起点,在其他业务流量数据与第一个业务流量数据的相似程度大于相似判断阈值时,将其作为第一个业务流量数据为起点的聚类簇内,直至时序上业务流量数据与第一个业务流量数据的相似程度小于等于相似判断阈值时停止,获得聚类簇,并以停止时的业务流量数据为新的起点进行聚类,直至遍历所有业务流量数据,得到至少一个聚类簇,将聚类簇作为聚类结果。
8.如权利要求7所述的一种综合运维平台的业务信息智能分析方法,其特征在于,所述根据所述聚类结果对流量波动进行分析,包括:
将所有所述聚类簇输入至预训练的数据分析模型中,经由数据分析模型处理输出流量波动特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410231665.7A CN117828371B (zh) | 2024-03-01 | 2024-03-01 | 一种综合运维平台的业务信息智能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410231665.7A CN117828371B (zh) | 2024-03-01 | 2024-03-01 | 一种综合运维平台的业务信息智能分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828371A CN117828371A (zh) | 2024-04-05 |
CN117828371B true CN117828371B (zh) | 2024-05-24 |
Family
ID=90515479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410231665.7A Active CN117828371B (zh) | 2024-03-01 | 2024-03-01 | 一种综合运维平台的业务信息智能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828371B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118348917B (zh) * | 2024-04-15 | 2024-09-24 | 陕西优鹏安盈科技有限责任公司 | 一种基于组态计算机的数控系统实时监测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110004101A (ko) * | 2009-07-07 | 2011-01-13 | 주식회사 케이티 | 계층적 클러스터링을 이용하여 비정상 트래픽을 분석하는 방법 및 장치 |
CN116723157A (zh) * | 2023-05-30 | 2023-09-08 | 湖南大学 | 终端行为检测模型构建方法、装置、设备和存储介质 |
CN117091754A (zh) * | 2023-10-20 | 2023-11-21 | 山东远盾网络技术股份有限公司 | 基于数据分析的大型设备故障检测方法及系统 |
-
2024
- 2024-03-01 CN CN202410231665.7A patent/CN117828371B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110004101A (ko) * | 2009-07-07 | 2011-01-13 | 주식회사 케이티 | 계층적 클러스터링을 이용하여 비정상 트래픽을 분석하는 방법 및 장치 |
CN116723157A (zh) * | 2023-05-30 | 2023-09-08 | 湖南大学 | 终端行为检测模型构建方法、装置、设备和存储介质 |
CN117091754A (zh) * | 2023-10-20 | 2023-11-21 | 山东远盾网络技术股份有限公司 | 基于数据分析的大型设备故障检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Improving neighborhood construction with Apollonius region algorithm based on density for clustering;Pourbahrami, S et al;INFORMATION SCIENCES;20200630;全文 * |
超密集网络中基于聚类的资源高效分配技术研究;程万里;中国优秀硕士学位论文全文数据库信息科技辑;20210315(第03期);全文 * |
马尔科夫模型在网络流量分类中的应用与研究;赵英;韩春昊;;计算机工程;20180515(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117828371A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117828371B (zh) | 一种综合运维平台的业务信息智能分析方法 | |
CN108520357B (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN111105104A (zh) | 一种基于相似日和rbf神经网络的短期电力负荷预测方法 | |
CN116304766B (zh) | 基于多传感器的开关柜状态快速评估方法 | |
CN112434962B (zh) | 基于电力负荷数据的企业用户状态评估方法和系统 | |
CN115081795B (zh) | 多维场景下企业能耗异常成因分析方法及系统 | |
CN109491339B (zh) | 一种基于大数据的变电站设备运行状态预警系统 | |
CN114978956B (zh) | 智慧城市网络设备性能异常突变点检测方法及装置 | |
CN115858794B (zh) | 用于网络运行安全监测的异常日志数据识别方法 | |
CN118094446B (zh) | 基于机器学习的厌氧系统运行情况智能分析方法 | |
CN116956189A (zh) | 一种电流异常检测系统、方法、电子设备及介质 | |
CN117421994A (zh) | 一种边缘应用健康度的监测方法和监测系统 | |
CN112417627A (zh) | 一种基于四维指标体系配电网运行可靠性分析方法 | |
CN117540325B (zh) | 基于数据变化量捕获的业务数据库异常检测方法及系统 | |
CN113032239A (zh) | 风险提示方法、装置、电子设备及存储介质 | |
WO2024066331A1 (zh) | 网络异常检测方法、装置、电子设备及存储介质 | |
CN115114124A (zh) | 主机风险的评估方法及评估装置 | |
CN116128690B (zh) | 一种碳排放量成本值计算方法、装置、设备及介质 | |
CN116151799A (zh) | 一种基于bp神经网络的配电线路多工况故障率快速评估方法 | |
CN111985526B (zh) | 一种基于相似场景聚类的尾随间隔管理策略生成方法及其系统 | |
CN115564093A (zh) | 一种面向化工区工业的用水预测、预警方法 | |
CN114429240A (zh) | 高速公路设备运行状态监测方法及装置 | |
CN112580908A (zh) | 一种无线性能指标评估方法及装置 | |
CN111400284B (zh) | 一种基于性能数据建立动态异常探测模型的方法 | |
CN116307943A (zh) | 一种基于层次分析法高速公路机电系统健康指数评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |