CN117828389A - 基于智能运维的分布式系统监控方法 - Google Patents
基于智能运维的分布式系统监控方法 Download PDFInfo
- Publication number
- CN117828389A CN117828389A CN202410244612.9A CN202410244612A CN117828389A CN 117828389 A CN117828389 A CN 117828389A CN 202410244612 A CN202410244612 A CN 202410244612A CN 117828389 A CN117828389 A CN 117828389A
- Authority
- CN
- China
- Prior art keywords
- resource
- data
- points
- point
- data point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012544 monitoring process Methods 0.000 title claims abstract description 62
- 238000012423 maintenance Methods 0.000 title claims abstract description 22
- 238000013468 resource allocation Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2337—Non-hierarchical techniques using fuzzy logic, i.e. fuzzy clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3433—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3442—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/508—Monitor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及数据聚类技术领域,具体涉及一种基于智能运维的分布式系统监控方法。该方法首先通过各个子系统的资源占比特征值和当前时刻的资源占比率,构建各个子系统对应的数据点;根据所有数据点的聚类中心度量值,筛选出所有数据点中的各个初始聚类中心点;根据所有初始聚类中心点,对各个子系统对应的数据点进行聚类,获取分布式系统的各个聚类簇;根据各个聚类簇中各个数据点的资源占比情况,进行资源分配。本发明通过改进初始聚类中心点的选择,将资源使用情况类似的子系统更准确地聚为一类,实现资源准确合理地分配,更好地维护分布式系统的性能。
Description
技术领域
本发明涉及数据聚类技术领域,具体涉及一种基于智能运维的分布式系统监控方法。
背景技术
分布式系统是由多个子系统构成,子系统分别部署在不同的服务器上,通过网络进行各个子系统之间的调用和协作,共同完成系统的任务或目标。在分布式系统中,单个子系统的运行状况对于整个分布式系统性能具有重要影响,在分布式系统运行过程中,当某个子系统的CPU资源占比率较高时,可能导致该子系统的过载或崩溃,从而影响整个系统的稳定性和效率。所以在分布式系统的运行过程中,需要监控分布式系统中子系统的CPU资源占比率,并对子系统进行聚类,使得相同聚类簇的子系统的资源占比情况类似,有助于运维人员了解资源占比情况,更好地管理和调整资源分配,维护分布式系统的性能。
现有技术利用FCM聚类算法(Fuzzy C-Means Clustering Algorithm,模糊C-均值聚类算法)根据CPU资源占比率对子系统进行聚类。然而该算法对初始聚类中心点选择非常敏感,初始聚类中心点选择不合理,容易导致聚类陷入局部最优问题,从而使得难以将具有相似系统资源占比的子系统进行聚为一类,影响管理和分配子系统资源的合理性,使得维护分布式系统的性能效果不佳。
发明内容
为了解决利用FCM聚类算法技术问题,初始聚类中心点选择不合理,导致难以将具有相似系统资源占比的子系统进行聚为一类,导致管理和分配子系统资源不合理,使得维护分布式系统的性能效果不佳的技术问题,本发明的目的在于提供一种基于智能运维的分布式系统监控方法,所采用的技术方案具体如下:
一种基于智能运维的分布式系统监控方法,所述方法包括以下步骤:
获取分布式系统的整体资源占比监控数据;所述整体资源占比监控数据包括各个子系统的系统资源占比监控时序数据;所述系统资源占比监控时序数据包括各个时刻对应的资源占比率;
根据各个子系统的所述系统资源占比监控时序数据的大小和波动,获取各个子系统的资源占比特征值;根据各个子系统的所述资源占比特征值和当前时刻的所述资源占比率,构建各个子系统对应的数据点;
确定数据点的预设周围区域中的区域点;在数据点的所述预设周围区域中,根据数据点和区域点的所述资源占比特征值之间差异,以及数据点和区域点的当前时刻的所述资源占比率之间差异,获取数据点的资源占比相似值;确定数据点的预设周围范围中的周围点,在数据点的所述预设周围范围中,根据数据点和周围点的资源占比相似值的差异,获取数据点的聚类中心度量值;根据所有数据点的所述聚类中心度量值,筛选出所有数据点中的各个初始聚类中心点;
根据所有所述初始聚类中心点,对所述各个子系统对应的数据点进行聚类,获取分布式系统的各个聚类簇;
根据各个所述聚类簇中各个数据点的资源占比情况,进行资源分配。
进一步地,所述资源占比特征值的获取方法包括:
根据资源占比特征值公式获取所述资源占比特征值,所述资源占比特征值公式包括:
;其中,/>为第/>个子系统的资源占比特征值;为在第/>个子系统的系统资源占比监控时序数据中,所有资源占比率的均值;/>为在第个子系统的系统资源占比监控时序数据中,最大的资源占比率;/>为在第/>个子系统的系统资源占比监控时序数据中,最小的资源占比率;/>为在第/>个子系统的系统资源占比监控时序数据中,所有资源占比率的标准差;/>为归一化函数。
进一步地,构建各个子系统对应的数据点的方法包括:
将每个子系统作为每个数据点,所述数据点的横坐标为当前时刻的所述资源占比率;所述数据点的纵坐标为子系统的所述资源占比特征值。
进一步地,所述资源占比相似值的获取方法包括:
根据资源占比相似值公式获取所述资源占比相似值,所述资源占比相似值公式包括:
;其中,/>为第/>个数据点的资源占比相似值;/>为第/>个数据点的资源占比特征值;/>为第/>个数据点的预设周围区域中,第/>个区域点的资源占比特征值;/>为第/>个数据点的预设周围区域中所有区域点的总数量;/>为第/>个数据点的当前时刻的所述资源占比率;/>为第/>个数据点的预设周围区域中,第/>个区域点的当前时刻的所述资源占比率;/>为以自然数/>为底数的指数函数。
进一步地,所述聚类中心度量值的获取方法包括:
根据聚类中心度量值公式获取所述聚类中心度量值,所述聚类中心度量值公式包括:
;其中,/>第/>个数据点的聚类中心度量值;/>为第/>个数据点的资源占比相似值;/>为第/>个数据点的预设周围区域中,第/>个周围点的资源占比相似值;/>为第/>个数据点的预设周围区域中所有周围点的总数量;/>为归一化函数。
进一步地,所述初始聚类中心点的获取方法包括:
将聚类中心度量值大于预设中心阈值的各数据点,作为各个初始聚类中心点。
进一步地,所述各个聚类簇的获取过程包括:
获取各迭代过程的各个聚类中心点;根据数据点和所述聚类中心点之间资源占比特征值的接近程度,数据点和所述聚类中心点之间在当前时刻的所述资源占比率的接近程度,以及数据点和所述聚类中心点之间系统资源占比监控时序数据的相似程度,获取数据点与聚类中心点的隶属度。
进一步地,所述隶属度获取方法包括:
根据隶属度公式获取所述隶属度,所述隶属度公式包括:
;/>为第/>个数据点与第/>个聚类中心点的隶属度;/>为第/>个数据点的资源占比特征值;/>为第/>个数据点的当前时刻的所述资源占比率;/>为第/>个聚类中心点的资源占比特征值;/>为第/>个聚类中心点的当前时刻的所述资源占比率;/>为迭代过程的所有聚类中心点的总数量;/>为第/>个数据点的系统资源占比监控时序数据;/>为第/>个聚类中心点的系统资源占比监控时序数据;/>为第/>个数据点的系统资源占比监控时序数据和第/>个聚类中心点的系统资源占比监控时序数据之间的DTW匹配距离;/>为以自然数/>为底数的指数函数。
进一步地,所述资源分配的方法包括:
根据各个聚类簇中所有数据点的当前时刻的所述资源占比率和所述资源占比特征值,获取聚类簇的类别特征值;
根据聚类簇的类别特征值,利用资源调控法,进行资源分配。
进一步地,所述类别特征值的获取方法包括:
根据类别特征值公式获取所述类别特征值,所述类别特征值公式包括:
;其中,/>为第/>个聚类簇的类别特征值;/>为在第/>个聚类簇中,第个数据点的所述资源占比特征值;/>为在第/>个所述聚类簇中,第/>个数据点的当前时刻的所述资源占比率;/>为在第/>个聚类簇中所有数据点的总数量。
本发明具有如下有益效果:
考虑到分布式子系统在运行时,资源占比变化和分布情况往往具有区别,获取各个子系统的资源占比特征值;不同资源使用情况的子系统,往往具有不同的资源占比特征值。进而构建各个子系统对应的数据点,使得数据点之间分布可以反映资源占比特征值和当前资源占比情况,使得后续聚类不仅考虑到了当前资源占比情况,而且考虑到了资源占比的特征。
由于分布式系统在进行业务处理时,单个子系统则通常需要调用其他子系统进行相关业务处理,子系统之间具有相关性,当某一个子系统在处理业务时引起CPU资源占比上升时,与它相关的子系统也可能会发生CPU资源占比上升,也即子系统在运行过程中,对资源使用情况具有一定的相关性。在聚类分析时,则需要将资源使用情况类似的子系统聚为一类,便于系统的负载均衡调控策略的管理和监控。
为了将资源使用情况类似的子系统聚为一类,需要改进初始聚类中心点的选择,首先获取数据点的资源占比相似值,资源占比相似值越大,说明数据点和周围数据点的资源占比特征值之间差异较小,数据点和周围数据点的当前时刻的资源占比率之间差异较小;当资源占比相似值越大,说明数据点越适合做初始聚类中心点,为了防止选取初始聚类中心点导致聚类陷入局部最优,考虑了数据点和周围数据点的资源占比相似值之间差异,获取数据点的聚类中心度量值;进而确定所有数据点中的初始聚类中心点;避免了在资源占比特征值相似的区域设置多个初始聚类中心点,导致聚类陷入局部最优的问题。
通过改进初始聚类中心点的选择,将资源使用情况类似的子系统更准确地聚为一类,便于后续对不同类簇的子系统进行准确合理的资源分配,使得更好地维护分布式系统的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于智能运维的分布式系统监控方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于智能运维的分布式系统监控方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于智能运维的分布式系统监控方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于智能运维的分布式系统监控方法的流程图,该方法包括以下步骤:
步骤S1,获取分布式系统的整体资源占比监控数据;整体资源占比监控数据包括各个子系统的系统资源占比监控时序数据;系统资源占比监控时序数据包括各个时刻对应的资源占比率。
在分布式系统中,单个子系统的运行状况对于整体分布式系统性能有重要影响,若管理和分配子系统资源不合理,会使得分布式系统的性能无法有效提高。本发明主要目的是将具有相似系统资源占比的子系统进行聚为一类,所以需要监控各个子系统的系统资源占比情况。
具体的,通过性能监控工具软件,按照预设采样频率,采集子系统的CPU资源占比率,作为子系统各个时刻对应的资源占比率;按照时间顺序,依次统计各个子系统预设时间区间的资源占比率,获取各个子系统的系统资源占比监控时序数据;将所有子系统的系统资源占比监控时序数据,作为分布式系统的整体资源占比监控数据。本发明一个实施例中,预设采样频率为1次/秒,预设时间区间为十分钟,预设时间区间的最后一个时刻为当前时刻,实施者可根据实施场景自行设定。
需要说明的是,为了方便运算,本发明实施例中所参与运算的所有指标数据均经过数据预处理,进而取消量纲影响。具体去量纲影响的手段为本领域技术人员熟知的技术手段,在此不做限定。
步骤S2,根据各个子系统的系统资源占比监控时序数据的大小和波动,获取各个子系统的资源占比特征值;根据各个子系统的资源占比特征值和当前时刻的资源占比率,构建各个子系统对应的数据点。
考虑到分布式子系统在运行时,资源占比变化和分布情况往往具有区别,获取各个子系统的资源占比特征值;不同资源使用情况的子系统,往往具有不同的资源占比特征值。进而构建各个子系统对应的数据点,使得数据点之间分布可以反映资源占比特征值和当前资源占比情况,使得后续聚类不仅考虑到了当前资源占比情况,而且考虑到了资源占比的特征。
优选地,为了分析子系统的资源使用情况的相关性,通过分析子系统的系统资源占比监控时序数据,来反映子系统在运行过程中的资源使用情况。本发明一个实施例中,资源占比特征值的获取方法包括:
本发明一个实施例中,资源占比特征值公式包括:
;其中,/>为第/>个子系统的资源占比特征值;为在第/>个子系统的系统资源占比监控时序数据中,所有资源占比率的均值;/>为在第个子系统的系统资源占比监控时序数据中,最大的资源占比率;/>为在第/>个子系统的系统资源占比监控时序数据中,最小的资源占比率;/>为在第/>个子系统的系统资源占比监控时序数据中,所有资源占比率的标准差;/>为归一化函数。
在资源占比特征值公式中,考虑到分布式子系统在运行时,资源占比变化和分布情况往往具有区别,为子系统运行过程中整体资源占比情况,整体资源占比越大,说明子系统运行过程中资源占比程度越大;/>反映子系统运行过程中资源使用情况波动范围;/>反映子系统运行过程中资源占比的资源使用波动程度,波动程度越大,说明子系统处理业务量比较频繁,资源占比特征值综合了运行过程中整体资源占比情况、资源使用情况波动范围和资源使用波动程度,综合反映了子系统在运行过程中的资源使用情况。
优选地,为了后续聚类不仅考虑到了当前资源占比情况,而且考虑到了资源占比的特征,本发明一个实施例中,构建各个子系统对应的数据点的方法包括:
将每个子系统作为每个数据点,将所有数据点表示在同一个二维坐标系中,数据点的横坐标为当前时刻的资源占比率;数据点的纵坐标为子系统的资源占比特征值。子系统对应的数据点之间位置关系,不仅可以反映当前资源占比情况,而且可以反映资源占比的特征,以供后续进行聚类。
步骤S3,确定数据点的预设周围区域中的区域点;在数据点的预设周围区域中,根据数据点和区域点的资源占比特征值之间差异,以及数据点和区域点的当前时刻的资源占比率之间差异,获取数据点的资源占比相似值;确定数据点的预设周围范围中的周围点,在数据点的预设周围范围中,根据数据点和周围点的资源占比相似值的差异,获取数据点的聚类中心度量值;根据所有数据点的聚类中心度量值,筛选出所有数据点中的各个初始聚类中心点。
由于分布式系统在进行业务处理时,单个子系统则通常需要调用其他子系统进行相关业务处理,子系统之间具有相关性,当某一个子系统在处理业务时引起CPU资源占比上升时,与它相关的子系统也可能会发生CPU资源占比上升,也即子系统在运行过程中,对资源使用情况具有一定的相关性。在聚类分析时,则需要将资源使用情况类似的子系统聚为一类,便于系统的负载均衡调控策略的管理和监控。
在传统的FCM算法聚类过程中,一般是随机选择初始聚类中心点,然后进行聚类,然而,初始聚类中心点的选取对于聚类结果的准确性影响较大,因此需要通过数据点的特征确定初始聚类中心点。为了改进初始聚类中心点的选择,首先获取数据点的资源占比相似值,资源占比相似值越大,说明数据点和周围数据点的资源占比特征值之间差异较小,数据点和周围数据点的当前时刻的资源占比率之间差异较小;当资源占比相似值越大,说明数据点越具有代表性,越适合作为初始聚类中心点;为了防止选取初始聚类中心点导致聚类陷入局部最优,考虑了数据点和周围数据点的资源占比相似值之间差异,获取数据点的聚类中心度量值;进而确定所有数据点中的初始聚类中心点;避免了在资源占比相似的区域设置多个初始聚类中心点,导致聚类陷入局部最优的问题。
具体的,为了分析数据点的周围的数据点的特征,构建数据点的预设周围区域,本发明一个实施例中,预设周围区域的获取方法包括:以数据点为中心数据点,以预设尺寸为边长,构建数据点的预设周围区域,预设周围区域的大小为L*L,预设周围区域的中心为中心数据点。其中,将在预设周围区域中除了中心数据点以外的其他数据点作为各个区域点,L为预设尺寸,预设尺寸为8。
优选地,通过分析数据点和区域点之间差异,获取资源占比相似值。本发明一个实施例中,资源占比相似值的获取方法包括:
本发明一个实施例中,资源占比相似值公式包括:
;其中,/>为第/>个数据点的资源占比相似值;/>为第/>个数据点的资源占比特征值;/>为第/>个数据点的预设周围区域中,第/>个区域点的资源占比特征值;/>为第/>个数据点的预设周围区域中所有区域点的总数量;/>为第/>个数据点的当前时刻的资源占比率;/>为第/>个数据点的预设周围区域中,第/>个区域点的当前时刻的资源占比率;/>为以自然数/>为底数的指数函数。
在资源占比相似值公式中,通过数据点对应的所有区域点的资源占比特征值的均值,反映数据的周围的资源占比特征值;/>表示数据点和周围的资源占比特征值差异,差异越小说明,数据点和周围的资源使用情况越类似;/>通过数据点对应的所有区域点的当前时刻的资源占比率均值,反映数据的周围的当前时刻的资源占比率;/>表示数据点和周围的当前时刻的资源占比率之间差异,差异越小说明,数据点和周围的当前时刻的资源占比率越接近;资源占比相似值综合反映了数据点和周围的资源占比的接近程度。接近程度越大,说明数据点越具有代表性,越适合作为初始聚类中心点。
优选地,本发明一个实施例中,为了防止选取初始聚类中心点导致聚类陷入局部最优,例如,当数据点资源占比相似值越高,数据点和周围点资源占比的相似程度越大,周围点分布越接近数据点所在位置;然而,在一个资源占比相似的区域中可能有多个数据点的资源占比相似值较大,若是仅根据资源占比相似值确定初始聚类中心点,在一个区域中设置多个初始聚类中心点,可能陷入局部最优的问题。所以考虑了数据点和周围数据点的资源占比相似值之间差异,获取数据点的聚类中心度量值;聚类中心度量值的获取方法包括:
本发明一个实施例中,聚类中心度量值公式包括:
;其中,/>第/>个数据点的聚类中心度量值;/>为第/>个数据点的资源占比相似值;/>为第/>个数据点的预设周围区域中,第/>个周围点的资源占比相似值;/>为第/>个数据点的预设周围区域中所有周围点的总数量;/>为归一化函数。本发明一个实施例中,预设周围范围的获取方法包括:以数据点为中心点,构建数据点的预设周围范围,预设周围范围的大小为P*P,预设周围范围的中心为中心点。其中,将在预设周围范围中除了中心点以外的其他数据点作为各个周围点,P为5。
在聚类中心度量值公式中,通过数据点对应的所有周围点的资源占比相似值的均值,反映数据点的周围的资源占比相似值;/>通过数据点和周围的资源占比相似值的比值,比值越大,说明数据点相较于周围点更适合做初始聚类中心点;/>反映了数据点和周围的资源占比的接近程度,接近程度越大,聚类中心度量值越大,说明数据点适合做初始聚类中心点;聚类中心度量值综合反映了数据点适合做初始聚类中心点的程度和相较于周围点更适合做初始聚类中心点的程度,程度越大,数据点越适合做初始聚类中心点。
优选地,通过考虑了数据点和周围点之间关系,且避免局部最优问题,通过聚类中心度量值综合反映了数据点适合做初始聚类中心点的程度,从而设定更加合理的初始聚类中心点。本发明一个实施例中,初始聚类中心点的获取方法包括:
将聚类中心度量值大于预设中心阈值的各数据点,作为各个初始聚类中心点。本发明一个实施例中,预设中心阈值为0.7,实施者可根据实施场景自行设定。
步骤S4,根据所有初始聚类中心点,对各个子系统对应的数据点进行聚类,获取分布式系统的各个聚类簇。
需要说明的是,FCM聚类算法为本领域技术人员熟知的技术手段,在仅简述利用FCM聚类算法对各个子系统对应的数据点进行聚类,获取分布式系统的各个聚类簇的简要步骤:
将本发明确定的各个初始聚类中心点,作为初始化聚类中心,聚类数量为初始聚类中心点的数量;计算各个数据点和初始聚类中心点的隶属度,进而构建隶属度矩阵;在每次迭代过程中,根据隶属度矩阵,计算每个聚类的新的聚类中心点,从而更新聚类中心点。新的聚类中心点是根据数据点的隶属度加权计算得出的。根据新的聚类中心点,重新计算每个数据点的隶属度,更新隶属度矩阵;直到迭代满足停止条件,停止迭代,获取分布式系统的各个聚类簇。
优选地,本发明一个实施例中,各个聚类簇的获取过程包括:
获取各迭代过程的各个聚类中心点;根据数据点和聚类中心点之间资源占比特征值的接近程度,数据点和聚类中心点之间在当前时刻的资源占比率的接近程度,以及数据点和聚类中心点之间系统资源占比监控时序数据的相似程度,获取数据点与聚类中心点的隶属度。
在聚类时需要根据每个数据点对于聚类中心点的隶属度进行聚类,本发明根据数据点和聚类中心点之间资源占比特征值的接近程度,与数据点和聚类中心点之间当前时刻的资源占比率的接近程度,以及数据点和聚类中心点之间系统资源占比监控时序数据的相似程度,确定隶属度,隶属度充分考虑了当前资源占比情况、资源占比的特征和资源占比变化情况,隶属度越高聚类中心点之间资源使用情况越类似,使得资源使用情况类似的子系统聚为一类。
优选地,为了使得资源使用情况类似的子系统聚为一类,充分考虑了当前资源占比情况、资源占比的特征和资源占比变化情况,确定隶属度。本发明一个实施例中,隶属度获取方法包括:
本发明一个实施例中,隶属度公式包括:
;/>为第/>个数据点与第/>个聚类中心点的隶属度;/>为第/>个数据点的资源占比特征值;/>为第/>个数据点的当前时刻的资源占比率;为第/>个聚类中心点的资源占比特征值;/>为第/>个聚类中心点的当前时刻的资源占比率;为迭代过程的所有聚类中心点的总数量;/>为第/>个数据点的系统资源占比监控时序数据;为第/>个聚类中心点的系统资源占比监控时序数据;/>为第/>个数据点的系统资源占比监控时序数据和第/>个聚类中心点的系统资源占比监控时序数据之间的DTW匹配距离;为以自然数/>为底数的指数函数。需要说明的是,DTW(Dynamic Time Warping,动态时间规整算法)是本领域技术人员熟知的现有技术,通过DTW算法可以获取第/>个数据点的系统资源占比监控时序数据和第/>个聚类中心点的系统资源占比监控时序数据之间的DTW匹配距离。
在隶属度公式中,表示第/>个数据点和第/>个聚类中心点的资源占比特征值差异,差异越大,说明资源使用情况越不类似,说明第/>个数据点隶属第/>个聚类中心点程度越小;/>表示第/>个数据点和第/>个聚类中心点的当前时刻的资源占比率之间差异,差异越大,说明资源使用情况越不类似,说明第/>个数据点隶属第/>个聚类中心点的程度越小;反映第/>个数据点和第/>个聚类中心点对应资源占有率变化情况的差异程度,差异程度越大,说明资源使用情况越不类似,说明第/>个数据点隶属第/>个聚类中心点程度越小;通过分母对分子归一化。隶属度充分考虑了当前资源占比情况、资源占比的特征和资源占比变化情况,隶属度越高,说明数据点和聚类中心点之间资源使用情况越类似,使得资源使用情况类似的子系统聚为一类。
进而,根据本发明实施例构建的隶属度代替传统FCM聚类算法中的隶属度,利用FCM聚类算法对所有子系统对应的所有数据点进行聚类,获取分布式系统的各个聚类簇,使得聚类簇中子系统的资源使用情况类似。
步骤S5,根据各个聚类簇中各个数据点的资源占比情况,进行资源分配。
通过上述步骤将资源使用情况类似的子系统聚为一类,便于后续对不同类簇的子系统进行准确合理的资源分配,使得更好地维护分布式系统的性能。
优选地,为了分析聚类簇的资源使用情况,通过各个聚类簇中所有数据点的当前时刻的资源占比率和资源占比特征值,确定聚类簇的类别特征值。本发明一个实施例中,类别特征值的获取方法包括:
本发明一个实施例中,类别特征值的获取公式包括:
;其中,/>为第/>个聚类簇的类别特征值;/>为在第/>个聚类簇中,第个数据点的资源占比特征值;/>为在第/>个聚类簇中,第/>个数据点的当前时刻的资源占比率;/>为在第/>个聚类簇中所有数据点的总数量。
类别特征值综合了聚类簇中所有数据点的当前时刻的资源占比率和资源占比特征值,反映聚类簇当前时刻的资源占比率和资源占比特征,以供后续对不同类簇的子系统的进行准确合理的资源分配。
需要说明的是,资源调控法为本领域技术人员熟知的现有技术,在此仅简述根据聚类簇的类别特征值,进行资源分配的简要步骤:
分析各个聚类簇的类别特征值,了解聚类簇的特点和需求。根据聚类簇的特征,确定每个聚类簇所需资源。在分配资源时,还需要考虑资源的约束条件,如可用资源的数量、资源的优先级、资源的成本等。这些约束条件可能会影响到资源分配的决策。基于上述分析,可以制定资源分配策略。例如,将较高的类别特征值的聚类簇中的资源适当分配给较低的类别特征值的聚类簇。从而进行准确合理的资源分配,更好地维护分布式系统的性能。
综上,本发明实施例提供了一种基于智能运维的分布式系统监控方法,首先通过各个子系统的资源占比特征值和当前时刻的资源占比率,构建各个子系统对应的数据点;根据所有数据点的聚类中心度量值,筛选出所有数据点中的各个初始聚类中心点;根据所有初始聚类中心点,对各个子系统对应的数据点进行聚类,获取分布式系统的各个聚类簇;根据各个聚类簇中各个数据点的资源占比情况,进行资源分配。本发明实施例中通过改进初始聚类中心点的选择,将资源使用情况类似的子系统更准确地聚为一类,实现对不同类簇的子系统进行准确合理的资源分配,更好地维护分布式系统的性能。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (10)
1.一种基于智能运维的分布式系统监控方法,其特征在于,所述方法包括以下步骤:
获取分布式系统的整体资源占比监控数据;所述整体资源占比监控数据包括各个子系统的系统资源占比监控时序数据;所述系统资源占比监控时序数据包括各个时刻对应的资源占比率;
根据各个子系统的所述系统资源占比监控时序数据的大小和波动,获取各个子系统的资源占比特征值;根据各个子系统的所述资源占比特征值和当前时刻的所述资源占比率,构建各个子系统对应的数据点;
确定数据点的预设周围区域中的区域点;在数据点的所述预设周围区域中,根据数据点和区域点的所述资源占比特征值之间差异,以及数据点和区域点的当前时刻的所述资源占比率之间差异,获取数据点的资源占比相似值;确定数据点的预设周围范围中的周围点,在数据点的所述预设周围范围中,根据数据点和周围点的资源占比相似值的差异,获取数据点的聚类中心度量值;根据所有数据点的所述聚类中心度量值,筛选出所有数据点中的各个初始聚类中心点;
根据所有所述初始聚类中心点,对所述各个子系统对应的数据点进行聚类,获取分布式系统的各个聚类簇;
根据各个所述聚类簇中各个数据点的资源占比情况,进行资源分配。
2.根据权利要求1所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述资源占比特征值的获取方法包括:
根据资源占比特征值公式获取所述资源占比特征值,所述资源占比特征值公式包括:
;其中,/>为第/>个子系统的资源占比特征值;/>为在第/>个子系统的系统资源占比监控时序数据中,所有资源占比率的均值;/>为在第/>个子系统的系统资源占比监控时序数据中,最大的资源占比率;/>为在第/>个子系统的系统资源占比监控时序数据中,最小的资源占比率;/>为在第/>个子系统的系统资源占比监控时序数据中,所有资源占比率的标准差;/>为归一化函数。
3.根据权利要求1所述的一种基于智能运维的分布式系统监控方法,其特征在于,构建各个子系统对应的数据点的方法包括:
将每个子系统作为每个数据点,所述数据点的横坐标为当前时刻的所述资源占比率;所述数据点的纵坐标为子系统的所述资源占比特征值。
4.根据权利要求1所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述资源占比相似值的获取方法包括:
根据资源占比相似值公式获取所述资源占比相似值,所述资源占比相似值公式包括:
;其中,/>为第/>个数据点的资源占比相似值;/>为第/>个数据点的资源占比特征值;/>为第/>个数据点的预设周围区域中,第/>个区域点的资源占比特征值;/>为第/>个数据点的预设周围区域中所有区域点的总数量;/>为第/>个数据点的当前时刻的所述资源占比率;/>为第/>个数据点的预设周围区域中,第/>个区域点的当前时刻的所述资源占比率;/>为以自然数/>为底数的指数函数。
5.根据权利要求1所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述聚类中心度量值的获取方法包括:
根据聚类中心度量值公式获取所述聚类中心度量值,所述聚类中心度量值公式包括:
;其中,/>第/>个数据点的聚类中心度量值;/>为第/>个数据点的资源占比相似值;/>为第/>个数据点的预设周围区域中,第/>个周围点的资源占比相似值;/>为第/>个数据点的预设周围区域中所有周围点的总数量;/>为归一化函数。
6.根据权利要求5所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述初始聚类中心点的获取方法包括:
将聚类中心度量值大于预设中心阈值的各数据点,作为各个初始聚类中心点。
7.根据权利要求1所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述各个聚类簇的获取过程包括:
获取各迭代过程的各个聚类中心点;根据数据点和所述聚类中心点之间资源占比特征值的接近程度,数据点和所述聚类中心点之间在当前时刻的所述资源占比率的接近程度,以及数据点和所述聚类中心点之间系统资源占比监控时序数据的相似程度,获取数据点与聚类中心点的隶属度。
8.根据权利要求7所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述隶属度获取方法包括:
根据隶属度公式获取所述隶属度,所述隶属度公式包括:
;/>为第/>个数据点与第/>个聚类中心点的隶属度;/>为第/>个数据点的资源占比特征值;/>为第/>个数据点的当前时刻的所述资源占比率;/>为第/>个聚类中心点的资源占比特征值;/>为第/>个聚类中心点的当前时刻的所述资源占比率;/>为迭代过程的所有聚类中心点的总数量;/>为第/>个数据点的系统资源占比监控时序数据;/>为第/>个聚类中心点的系统资源占比监控时序数据;/>为第/>个数据点的系统资源占比监控时序数据和第/>个聚类中心点的系统资源占比监控时序数据之间的DTW匹配距离;/>为以自然数/>为底数的指数函数。
9.根据权利要求1所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述资源分配的方法包括:
根据各个聚类簇中所有数据点的当前时刻的所述资源占比率和所述资源占比特征值,获取聚类簇的类别特征值;
根据聚类簇的类别特征值,利用资源调控法,进行资源分配。
10.根据权利要求9所述的一种基于智能运维的分布式系统监控方法,其特征在于,所述类别特征值的获取方法包括:
根据类别特征值公式获取所述类别特征值,所述类别特征值公式包括:
;其中,/>为第/>个聚类簇的类别特征值;/>为在第/>个聚类簇中,第/>个数据点的所述资源占比特征值;/>为在第/>个所述聚类簇中,第/>个数据点的当前时刻的所述资源占比率;/>为在第/>个聚类簇中所有数据点的总数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410244612.9A CN117828389B (zh) | 2024-03-05 | 2024-03-05 | 基于智能运维的分布式系统监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410244612.9A CN117828389B (zh) | 2024-03-05 | 2024-03-05 | 基于智能运维的分布式系统监控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828389A true CN117828389A (zh) | 2024-04-05 |
CN117828389B CN117828389B (zh) | 2024-06-04 |
Family
ID=90519288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410244612.9A Active CN117828389B (zh) | 2024-03-05 | 2024-03-05 | 基于智能运维的分布式系统监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828389B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030046396A1 (en) * | 2000-03-03 | 2003-03-06 | Richter Roger K. | Systems and methods for managing resource utilization in information management environments |
CN104168318A (zh) * | 2014-08-18 | 2014-11-26 | 中国联合网络通信集团有限公司 | 一种资源服务系统及其资源分配方法 |
CN104881352A (zh) * | 2015-06-03 | 2015-09-02 | 上海新炬网络信息技术有限公司 | 基于移动端的系统资源监控装置 |
CN108776814A (zh) * | 2018-06-01 | 2018-11-09 | 广东电网有限责任公司 | 一种电力通信数据资源并行化聚类方法 |
CN108881495A (zh) * | 2018-08-13 | 2018-11-23 | 中国平安财产保险股份有限公司 | 资源分配方法、装置、计算机设备及存储介质 |
CN111586867A (zh) * | 2020-04-28 | 2020-08-25 | 北京邮电大学 | 一种scma系统的资源分配方法及装置 |
CN116954880A (zh) * | 2022-07-18 | 2023-10-27 | 中移(成都)信息通信科技有限公司 | 资源分配方法及装置、电子设备及存储介质 |
CN117271143A (zh) * | 2023-11-22 | 2023-12-22 | 无锡尚航数据有限公司 | 一种数据中心优化节能调度方法及系统 |
-
2024
- 2024-03-05 CN CN202410244612.9A patent/CN117828389B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030046396A1 (en) * | 2000-03-03 | 2003-03-06 | Richter Roger K. | Systems and methods for managing resource utilization in information management environments |
CN104168318A (zh) * | 2014-08-18 | 2014-11-26 | 中国联合网络通信集团有限公司 | 一种资源服务系统及其资源分配方法 |
CN104881352A (zh) * | 2015-06-03 | 2015-09-02 | 上海新炬网络信息技术有限公司 | 基于移动端的系统资源监控装置 |
CN108776814A (zh) * | 2018-06-01 | 2018-11-09 | 广东电网有限责任公司 | 一种电力通信数据资源并行化聚类方法 |
CN108881495A (zh) * | 2018-08-13 | 2018-11-23 | 中国平安财产保险股份有限公司 | 资源分配方法、装置、计算机设备及存储介质 |
CN111586867A (zh) * | 2020-04-28 | 2020-08-25 | 北京邮电大学 | 一种scma系统的资源分配方法及装置 |
CN116954880A (zh) * | 2022-07-18 | 2023-10-27 | 中移(成都)信息通信科技有限公司 | 资源分配方法及装置、电子设备及存储介质 |
CN117271143A (zh) * | 2023-11-22 | 2023-12-22 | 无锡尚航数据有限公司 | 一种数据中心优化节能调度方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117828389B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446959B (zh) | 一种云计算资源动态匹配方法及装置 | |
CN117472587B (zh) | 一种ai智算中心的资源调度系统 | |
CN116304766B (zh) | 基于多传感器的开关柜状态快速评估方法 | |
CN112987666B (zh) | 电厂机组运行优化调控方法及系统 | |
CN111784093A (zh) | 一种基于电力大数据分析的企业复工辅助判断方法 | |
CN111950620A (zh) | 基于DBSCAN和K-means算法的用户筛选方法 | |
CN111291822A (zh) | 基于模糊聚类最优k值选择算法的设备运行状态判断方法 | |
CN114842645B (zh) | 一种基于k-means的路网速度态势规律提取方法 | |
CN117609814B (zh) | 一种sd-wan智能流量调度优化方法及系统 | |
CN116701979A (zh) | 基于受限k-均值的社交网络数据分析方法及系统 | |
CN118210864A (zh) | 基于云计算的金融大数据云存储方法 | |
CN117828389B (zh) | 基于智能运维的分布式系统监控方法 | |
CN111797899B (zh) | 一种低压台区kmeans聚类方法及系统 | |
CN116362577A (zh) | 一种目标类别隶属度分析方法、系统、设备和存储介质 | |
CN115310366A (zh) | 一种基于随机优化模型评估机场公布容量的方法 | |
US20140089311A1 (en) | System. method, and computer-readable medium for classifying problem queries to reduce exception processing | |
CN111222688B (zh) | 一种商业楼宇的日负荷预测方法 | |
CN114386485A (zh) | 一种建筑光纤光栅应力传感器的应力曲线聚类方法 | |
CN117539760A (zh) | 作业运行质量诊断方法及装置 | |
CN117828371B (zh) | 一种综合运维平台的业务信息智能分析方法 | |
CN115237241B (zh) | 一种数据中心节能调度方法及系统 | |
CN118277105B (zh) | 分布式集群并发任务分发的负载均衡方法、系统及产品 | |
CN117762577B (zh) | 基于网格化实现的数字产品区域调度方法及系统 | |
CN116307943A (zh) | 一种基于层次分析法高速公路机电系统健康指数评估方法 | |
CN116502814A (zh) | 一种基于聚类分析的低碳锻造过程资源配置方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |