CN110737648B - 性能特征降维方法及装置、电子设备及存储介质 - Google Patents
性能特征降维方法及装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110737648B CN110737648B CN201910875358.1A CN201910875358A CN110737648B CN 110737648 B CN110737648 B CN 110737648B CN 201910875358 A CN201910875358 A CN 201910875358A CN 110737648 B CN110737648 B CN 110737648B
- Authority
- CN
- China
- Prior art keywords
- performance
- index data
- cluster
- dimension reduction
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000004140 cleaning Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000011946 reduction process Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 16
- 239000003795 chemical substances by application Substances 0.000 description 38
- 238000012847 principal component analysis method Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 238000004321 preservation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及数据处理领域,提出一种性能特征降维方法、装置及计算机可读存储介质,该方法包括:在服务器集群中部署Agent包,所述Agent包采集服务器集群中集群服务器的性能指标,构成指标数据集;对所述指标数据集进行各维度的数据清洗获得有效指标数据;将所述有效指标数据存放于HDFS分布式文件系统中,对所述HDFS分布式文件系统中的有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;对所述HBase数据库中的性能特征进行基于PCA的特征降维。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种性能特征降维方法及装置、电子设备及存储介质。
背景技术
伴随着数据库技术的广泛应用和发展,在数据库的基础上产生了能够满足决策分析所需要的数据环境,集群服务器性能种类繁多,各指标数据均能够从不同维度反应主机的健康状态,但数据环境庞大,极易存在数据繁杂,对服务器定位不准确的问题,所以需要对繁杂的性能指标进行数据清洗。
只有通过分析“脏数据”的产生原因和存在形式,利用技术手段和方法去清洗“脏数据”,将原有的不符合要求的数据转化为满足数据质量或应用要求的数据,才能将服务器的问题定位的更加准确,但是在现有的模型训练过程中,对全指标的训练模型复杂,效率低下,很难准确地根据性能指标得出预测结果。
因此,亟须一种服务器性能特征降维方法,以降低对全指标训练模型的复杂度,节省模型训练的时间成本,大大降低后续特征分析、模型训练、数据挖掘复杂度,能让各个层面的性能指标更准确、更高效反映主机健康状态。
发明内容
本发明提供一种性能特征降维方法及装置、电子设备及存储介质,其主要目的在于通过采集数据并进行数据清洗,提取性能特征,然后对性能特征降维来降低全指标训练模型的复杂度,节省模型训练的时间成本,降低后续分析、数据挖掘的复杂度,使各个层面的性能指标更明确、更高效地反映服务器集群中集群服务器的健康状态。
为实现上述目的,本发明提供的性能特征降维方法,应用于电子设备,所述方法包括:
在服务器集群中部署Agent包,通过所述Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;所述性能指标至少包括CPU参数、mem参数、disk参数;
对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据;
对所述有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
对所述存储于所述HBase数据库中的性能特征进行基于PCA的特征降维。
在一个实施例中,在服务器集群中部署Agent包,通过所述Agent包采集服务器集群中集群服务器的性能指标的过程包括:
在所述服务器集群中的云主机或应用容器中部署Agent包;
调整所述Agent包至集群服务器的防火墙策略,以通过所述Agent包修改中间件启动参数和重启中间件应用并采集性能指标。
在一个实施例中,对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据的过程包括:
获取指标数据集,并对所述指标数据集中的指标数据执行奇异值查找预处理;
基于Hadoop剔除所述指标数据的奇异值,并用所述指标数据的算术平均值补充剔除奇异值后的缺值。
在一个实施例中,所述奇异值查找预处理的过程包括:
计算出指标数据序列值的算术平均值及剩余误差,并根据贝塞尔公式计算出指标数据序列值的标准偏差估计值,根据指标数据序列号从Chauvenet Criterion表中查出与指标数据序列号对应的系数Zc;
对所述指标数据序列值进行奇异值判断,当指标数据序列值的剩余误差大于所述标准偏差估计值与所述系数Zc的乘积时,判断出所述指标数据是奇异值。
在一个实施例中,所述指标数据序列值为所述指标数据集中存在的指标数据的实际值,所述指标数据序列号为所述指标数据集中指标数据的排列序号,,所述预设维度至少包括有效值、均方根值、脉冲指标、裕度指标、均方频率。
在一个实施例中,在对所述有效指标数据进行性能特征提取的过程中,包括:
通过Hadoop从分布式文件系统HDFS中读取有效指标数据;
提取所述有效指标数据的各维度特征。
在一个实施例中,对存储于所述HBase数据库中的性能特征进行基于PCA的特征降维的过程包括:
将存储于所述HBase数据库中的性能特征整合为符合预设格式的标准化数据;
根据所述标准化数据建立协方差、特征值和特征向量,并根据所述协方差、特征值和特征向量计算得出特征保有率;
基于所述特征保有率得出主成分系数,计算出主成分。
为实现上述目的,本发明提供一种集群服务器性能特征降维装置,其特征在于,所述装置包括:
部署模块,用于在服务器集群中部署Agent包;
采集形成模块,用于通过所述Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;所述性能指标至少包括CPU参数、mem参数、disk参数;
清洗模块,用于对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据;
提取存储模块,用于对所述有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
特征降维模块,用于对存储于所述HBase数据库中的性能特征进行基于PCA的特征降维。
为实现上述目的,本发明还提供一种集群服务器性能特征降维电子设备,其特征在于,该电子设备包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权前述的性能特征降维方法中的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有集群服务器性能特征降维分析程序,所述集群服务器性能特征降维分析程序被处理器执行时,实现前述的集群服务器性能特征降维的步骤。
本发明提出的性能特征降维方法及装置、电子设备及存储介质,其中所述Agent包通过修改中间件启动参数,重启中间件应用来抓取性能参数以采集服务器集群性能指标,构成指标数据集,然后对指标数据集进行数据清洗获得有效指标数据,再对有效指标数据进行性能特征提取,进而基于PCA对提取的性能特征进行特征降维,极大地节约时间成本并更加准确地根据性能特征反映服务器集群的健康状态。
附图说明
图1为本发明性能特征降维方法实施例的应用环境示意图;
图2为本发明性能特征降维方法的流程图;
图3为本发明性能特征降维装置中的框架图;
图4为根据本发明实施例的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
为了解决前述集群服务器性能种类繁多、清洗不到位所导致的后期训练成本高的问题,本发明从集群服务器性能的主成分分析入手,首先采集性能指标,然后对该性能指标进行数据清洗,再对清洗后的指标数据进行性能特征提取,最后基于PCA(PrincipalComponents Analysis主成分分析)完成特征降维。具体的,本发明提供一种性能特征降维方法,应用于一种电子设备40。
在本实施例中,图1为根据本发明实施例的性能特征降维方法较佳实施例的应用环境示意图,如图1所示,在该实施环境中,包括第一计算机设备110以及第二计算机设备120。。
第一计算机设备110为集群中单节点的计算机设备,例如服务器集群节点中的电脑等计算机设备,第一计算机设备110与第二计算机设备120为服务器集群中的部分节点,第一计算机设备110与第二计算机设备120由图2构成。
需要说明的是,第一计算机设备110以及第二计算机设备120可为平板电脑、笔记本电脑、台式计算机等,其为cenOS(linux)系统,最好使用虚拟机,已安装了git,go,但并不局限于此。第一计算机设备110以及第二计算机设备120可以通过蓝牙、USB(UniversalSerial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为根据本发明实施例的性能特征降维方法的流程图。如图2所示,在本实施例中,性能特征降维方法包括如下步骤:
在服务器集群中部署Agent包,通过该Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;所述性能指标至少包括CPU参数、mem参数、disk参数;
其中,在服务器集群中部署Agent包,通过该Agent包采集服务器集群中集群服务器的性能指标的过程包括:
在该服务器集群中的云主机或应用容器中部署Agent包;
调整该Agent包至集群服务器的防火墙策略,以通过该Agent包修改中间件启动参数和重启中间件应用并采集性能指标。
通过在云主机或者应用容器中部署Agent包来获取生产服务器集群的主机性能指标,并且,通过部署Agent包不仅能抓取请求性能指标,还能抓取中间件性能指标。具体的,对于在云主机中部署,将Agent包上传至云主机上,修改相应的中间件启动参数,重启中间件应用,Agent应用生效,完成性能指标的采集;对于在容器中部署,只需要将Agent打包成容器镜像,Agent完成指标数据的采集,如tomcat的堆内存使用率(JVMR untime UsedHeap)、活动会议数(active Sessions)、当前线程数(current Thread Count)、Weblogic的hogging线程数(Hogging Thread Count)、堆内存使用率(Used Heap)等;主机性能指标,如CPU(Central Processing Unit中央处理器)、mem(DOS命令:显示随机存取存贮器的分配信息)、disk(磁盘);业务数据指标等。
其中,采集生产服务器主机性能指标需要的技术手段包括:主机性能指标采集、网络性能采集、中间件性能采集、数据库业务数据采集等。
对所述Agent包所采集的指标数据集进行基于预设维度的数据清洗以获得有效指标数据;其中的有效指标数据为对指标数据集中剔除了奇异值之后的指标数据。
其中,对该指标数据集进行各维度的数据清洗的过程也是查找并剔除奇异值的过程,具体可以采用如下方式进行:
在采集到服务器集群预设维度的性能指标后,首先需要对指标数据集中的指标数据进行预处理,即进行奇异值(也可以称之为异常值)判断,找出奇异值,基于Hadoop和Spark的分布式高效处理能力,利用Chauvenet Criterion(肖维纳准则)进行奇异值值剔除,剔除奇异值后的空缺值以均值补充,避免降低数据连贯性。
其中,预处理为对采集的某数据指标系列值进行奇异值判断的处理,具体方法为:
假设指标序列值分别为:x1,x2,…,xn;
计算出指标序列算术平均值及剩余误差:/>
根据贝塞尔公式计算出指标序列的标准偏差估计值:
其中n为指标序列数,即n为不小于1的整数;
根据指标序列数n从Chauvenet Criterion(肖维纳准则)表中查出系数Zc;
如果某次指标序列值xb的剩余误差vb(1≤b≤n)满足: 则认为该指标序列值xb是奇异值。
其中,该Hadoop是一个能够对大量数据进行分布式处理的软件框架,其核心是HDFS分布式文件系统、Map/Reduce分布式并行计算框架,使用Hadoop分布式技术对集群服务器性能孤立点数据进行挖掘清洗,利用Map/Reduce对指标序列值奇异值处理的算法从完成奇异值处理,从而完成集群性能数据清洗的目标。
Spark是云计算热门且通用的并行计算框架,也是一种可伸缩的基于内存计算的集群数据分析平台,即Spark基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。具体的,在获取服务器性能指标数据之后判断指标数据集是否满足预设需求,若不满足预设需求,则对待清洗的指标数据集进行数据清洗,并将清洗完成的数据作为待存储数据。
对经过清洗得到的有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
其中,首先将经过清洗得到的有效指标数据存放于HDFS分布式文件系统中,再借助Hadoop从分布式文件系统HDFS中读取有效指标数据,然后对读取的有效数据进行特征提取,最后将提取的各维度特征存储于HBase数据库中;对各维度的清洗后数据进行特征提取,所提取的特征可以包括有效值、均方根值、脉冲指标、裕度指标、均方频率等。
进行特征提取具体包括:
均值:有效值:/>峰值:Xp=max(xi)、方根幅值:/>波形指标:/>脉冲指标:/>峭度指标:
其中,N为采集次数,即为不小于1的整数,xi为单次Agent单次采集的指标数据值。
对存储于该HBase数据库中的性能特征进行基于PCA的特征降维。
在进行基于PCA的特征降维的过程中,首先需要将所述HBase数据库中的性能特征整合为符合预设格式的标准化数据,即将该性能特征转换为符合计算要求的统一格式,以便能够利用该数据进行矩阵运算(计算得出性能特征的协方差、特征值和特征向量),并按照统一的降维方法进行降维处理;在降维过程中首先根据标准化数据建立该性能特征的协方差、特征值和特征向量,然后计算得出特征保有率,进而得出该性能特征的主成分系数,计算出性能的主成分完成降维。
具体的,在对该HBase数据库中的性能特征进行基于PCA的特征降维过程中,针对提取的性能特征,通过PCA(主成分分析方法),根据不同的业务场景的要求,对所需要的原始信息进行有效价值的定位,然后根据所需定位提取出最能反映服务器集群性能的特征指标。具体的,借助HDFS分块存储数据与MapReduce计算框架“并行处理数据”思想,根据标准化数据建立该性能特征的协方差,特征值和特征向量得出特征保有率,再基于特征保有率筛选主成分,完成服务器性能特征降维。
PCA是主成分分析方法,具体步骤如下:
假设Agent客户端采集n个特征且每个特征参数有m个值,则特征矩阵为:
其中,Xi=(X1i,X2i,…,Xmi)′,i=1,2,…,n。
特征矩阵X的n个列向量X1,X2,…,Xn作线性组合,得到综合指标向量:
记为:
Y=a′X
其中,a=(a1,a2,…,an)′,ai=(a1i,a2i,…,ani),X=(X1,X2,…,Xn)′,并且有,
Var(Y1)>Var(Y2)>…>Var(Yn),
Cor(Yi,Yj)=0,
i,j=1,2,…,n;i≠j
依据主成分贡献率标准,可知Y1即为原始信号X的第一主成分,简化为求使Y方差var(Y)=a′Σa最大的问题,为了使结果唯一,限制a′a=1,即
设∑的特征根为λ1≥λ2≥…≥λn>0,对应的单位特征向量为μ1,μ2,…,μn。
令U=(μ1,μ2,…,μn),且U为正交阵,则:
因此,于是,/>当a=μ1时,μ1′∑μ1=μ1′λ1μ1=λ1,则μ1就是特征第一主成分的系数,所以特征序列的第一主成分可以表示为:Y=μ1X,同理可以求得第二、三主成分。依据信息保有率筛选主成分。
其中,HDFS中小于一个块大小的文件不会占据整个块的空间。
本事实例中性能特征降维方法通过在服务器集群中的部署Agent包来采集服务器集群中集群服务器的性能指标形成指标数据集,然后对指标数据集中的性能指标进行各维度的数据清洗获取有效指标数据,再对该有效数据进行性能特征提取,进而对提取的性能特征进行基于PCA的特征降维,从而摆脱了对全指标进行模型训练才能获取各维度指标数据的现状,降低了复杂度,节省了时间成本,让各个层面的性能指标更准确、更高效地反应主机的健康状态。
图3为本发明提出的集群服务器性能特征降维装置框架图,该装置对应于性能特征降维方法,置于集群服务器性能特征降维电子设备中。该装置包括部署模块310、采集形成模块320、清洗模块330、提取存储模块340、特征降维模块350;
部署模块310,用于在服务器集群中部署Agent包;
采集形成模块320,用于通过所述Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;所述性能指标至少包括CPU参数、mem参数、disk参数;
清洗模块330,用于对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据;
提取存储模块340,用于对所述有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
特征降维模块350,用于对存储于所述HBase数据库中的性能特征进行基于PCA的特征降维。
图4为本发明电子设备示意图,在本实施例中,电子设备40可以是服务器、平板计算机、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子设备40包括:处理器41、存储器42、计算机程序43、网络接口及通信总线。
电子设备40可以是平板电脑、台式电脑、智能手机,但不限于此。
存储器42包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子设备40的内部存储单元,例如该电子设备40的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子设备40的外部存储器,例如所述电子设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器42的可读存储介质通常用于存储安装于所述电子设备40的计算机程序43,数据整采集单元310、数据清洗单元320、特征提取单元330和特征降维单元340等。
处理器41在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器42中存储的程序代码或处理数据,例如集群服务器性能特征降维程序43等。
网络接口可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备40与其他电子设备之间建立通信连接。
通信总线用于实现这些组件之间的连接通信。
图4仅示出了具有组件41-43的电子设备40,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
在图4所示的电子设备实施例中,作为一种计算机存储介质的存储器42中可以包括操作系统、以及集群服务器性能特征降维程序43;处理器41执行存储器42中存储的集群服务器性能特征降维程序43时实现如下步骤:
在服务器集群中部署Agent包,通过该Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;该性能指标一般包括CPU参数、mem参数、disk参数等;
对该指标数据集进行基于预设维度的数据清洗以获得有效指标数据;
对该有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
对存储于该HBase数据库中的性能特征进行基于PCA的特征降维。
在服务器集群中部署Agent包,通过该Agent包采集服务器集群中集群服务器的性能指标的过程包括:
首先在该服务器集群中的云主机或应用容器中部署Agent包,然后打通该Agent包至集群服务器的防火墙策略,该Agent包通过修改中间件启动参数,重启中间件应用来抓取性能参数。
对该指标数据集进行基于预设维度的数据清洗以获得有效指标数据的过程包括:
首先获取指标数据集,并对指标数据集中的指标数据做关于查找奇异值的预处理;在查找出奇异值后基于Hadoop对经过该预处理的指标数据集中的指标数据进行奇异值剔除,并用均值补充异常空缺值,完成数据清洗。
其中,该预处理的过程包括:
对采集的某数据指标系列值进行奇异值判断:
假设指标序列值分别为:x1,x2,…,xn;
计算出指标序列算术平均值及剩余误差:/>
根据贝塞尔公式计算出指标序列的标准偏差估计值:
其中n为指标序列数,即n为不小于1的整数;
根据指标序列数n从Chauvenet Criterion(肖维纳准则)表中查出系数Zc;
如果某次指标序列值xb的剩余误差vb(1≤b≤n)满足:
则认为该指标序列值xb是奇异值。
该指标数据序列值为所述指标数据集中存在的指标数据的实际值,该指标数据序列号为该指标数据集中指标数据的排列序号。
在对该HDFS分布式文件系统中的有效指标数据进行性能特征提取的过程中,包括:
借助Hadoop从分布式文件系统HDFS中读取有效指标数据;
对读取的有效指标数据进行各维度的特征提取;
其中,进行奇异值剔除时,需要基于Hadoop和Spark的分布式高效处理能力,利用Chauvenet Criterion(肖维纳准则)进行奇异值剔除,该Hadoop是一个能够对大量数据进行分布式处理的软件框架,其核心是HDFS分布式文件系统、Map/Reduce分布式并行计算框架,使用Hadoop分布式技术对集群服务器性能孤立点数据进行挖掘清洗,利用Map/Reduce对指标序列值奇异值处理的算法完成奇异值处理,从而完成集群性能数据清洗的目标。
进行各维度的特征提取时,该维度至少包括有效值、均方根值、脉冲指标、裕度指标、均方频率。
对该HBase数据库中的性能特征进行基于PCA的特征降维的过程包括:
将该HBase数据库中的性能特征整合为符合预设格式的标准化数据;
根据标准化数据建立协方差、特征值和特征向量得出特征保有率;
基于特征保有率筛选主成分完成特征降维。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括集群服务器性能特征降维程序,该集群服务器性能特征降维程序被处理器执行时实现如下操作:
在服务器集群中部署Agent包,通过该Agent包采集服务器集群中集群服务器的性能指标,构成指标数据集;
对该指标数据集进行各维度的数据清洗获得有效指标数据;
将该有效指标数据存放于HDFS分布式文件系统中,对该HDFS分布式文件系统中的有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
对存储于该HBase数据库中的性能特征进行基于PCA的特征降维。
本发明之计算机可读存储介质的具体实施方式与上述性能特征降维方法、电子设备的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种集群服务器性能特征降维方法,应用于电子设备,其特征在于,所述方法包括:
在服务器集群中部署Agent包,通过所述Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;所述性能指标包括请求性能指标和中间件性能指标,至少包括CPU参数、mem参数、disk参数;
其中,所述采集服务器集群中集群服务器的性能指标,包括主机性能指标采集、网络性能采集、中间件性能采集、数据库业务数据采集;
对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据;
对所述有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
对存储于所述HBase数据库中的性能特征进行基于PCA的特征降维;
其中,在服务器集群中部署Agent包,通过所述Agent包采集服务器集群中集群服务器的性能指标的过程包括:
在所述服务器集群中的云主机或应用容器中部署Agent包;
调整所述Agent包至集群服务器的防火墙策略,以通过所述Agent包修改中间件启动参数和重启中间件应用并采集性能指标;其中,对于在云主机中部署,将Agent包上传至云主机上,修改相应的中间件启动参数,重启中间件应用,Agent应用生效,完成性能指标的采集;对于在应用容器中部署,将Agent打包成容器镜像,Agent完成指标数据的采集。
2.根据权利要求1所述的集群服务器性能特征降维方法,其特征在于,对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据的过程包括:
获取指标数据集,并对所述指标数据集中的指标数据执行奇异值查找预处理;
基于Hadoop剔除所述指标数据的奇异值,并用所述指标数据的算术平均值补充剔除奇异值后的空缺。
3.根据权利要求2所述的集群服务器性能特征降维方法,其特征在于,所述奇异值查找预处理的过程包括:
计算出指标数据序列值的算术平均值及剩余误差,并根据贝塞尔公式计算出指标数据序列值的标准偏差估计值,根据指标数据序列号从Chauvenet Criterion表中查出与指标数据序列号对应的系数Zc;
对所述指标数据序列值进行奇异值判断,当指标数据序列值的剩余误差大于所述标准偏差估计值与所述系数Zc的乘积时,判断出所述指标数据是奇异值。
4.根据权利要求3所述的集群服务器性能特征降维方法,其特征在于,所述指标数据序列值为所述指标数据集中存在的指标数据的实际值,所述指标数据序列号为所述指标数据集中指标数据的排列序号,所述预设维度至少包括有效值、均方根值、脉冲指标、裕度指标、均方频率。
5.根据权利要求1所述的集群服务器性能特征降维方法,其特征在于,在对所述有效指标数据进行性能特征提取的过程中,包括:
通过Hadoop从分布式文件系统HDFS中读取有效指标数据;
提取所述有效指标数据的各维度特征。
6.根据权利要求1所述的集群服务器性能特征降维方法,其特征在于,对存储于所述HBase数据库中的性能特征进行基于PCA的特征降维的过程包括:
将存储于所述HBase数据库中的性能特征整合为符合预设格式的标准化数据;
根据所述标准化数据建立所述性能特征的协方差、特征值和特征向量,并根据所述协方差、特征值和特征向量计算得出所述性能特征的特征保有率;
基于所述特征保有率得出所述性能特征的主成分系数,计算出所述性能特征的主成分。
7.一种集群服务器性能特征降维装置,其特征在于,所述装置包括:
部署模块,用于在服务器集群中部署Agent包;
采集形成模块,用于通过所述Agent包采集服务器集群中集群服务器的性能指标,并将所采集的所有性能指标形成指标数据集;所述性能指标至少包括CPU参数、mem参数、disk参数;
其中,所述采集服务器集群中集群服务器的性能指标,包括主机性能指标采集、网络性能采集、中间件性能采集、数据库业务数据采集;
清洗模块,用于对所述指标数据集进行基于预设维度的数据清洗以获得有效指标数据;
提取存储模块,用于对所述有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;
特征降维模块,用于对存储于所述HBase数据库中的性能特征进行基于PCA的特征降维;
其中,在服务器集群中部署Agent包,通过所述Agent包采集服务器集群中集群服务器的性能指标的过程包括:
在所述服务器集群中的云主机或应用容器中部署Agent包;
调整所述Agent包至集群服务器的防火墙策略,以通过所述Agent包修改中间件启动参数和重启中间件应用并采集性能指标,所述性能指标包括请求性能指标和中间件性能指标;其中,对于在云主机中部署,将Agent包上传至云主机上,修改相应的中间件启动参数,重启中间件应用,Agent应用生效,完成性能指标的采集;对于在应用容器中部署,将Agent打包成容器镜像,Agent完成指标数据的采集。
8.一种电子设备,其特征在于,该电子设备包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的集群服务器性能特征降维方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有集群服务器性能特征降维分析程序,所述集群服务器性能特征降维分析程序被处理器执行时,实现如权利要求1至6中任一项所述的集群服务器性能特征降维方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910875358.1A CN110737648B (zh) | 2019-09-17 | 2019-09-17 | 性能特征降维方法及装置、电子设备及存储介质 |
PCT/CN2019/117888 WO2021051578A1 (zh) | 2019-09-17 | 2019-11-13 | 性能特征降维方法及装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910875358.1A CN110737648B (zh) | 2019-09-17 | 2019-09-17 | 性能特征降维方法及装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110737648A CN110737648A (zh) | 2020-01-31 |
CN110737648B true CN110737648B (zh) | 2024-05-07 |
Family
ID=69267834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910875358.1A Active CN110737648B (zh) | 2019-09-17 | 2019-09-17 | 性能特征降维方法及装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110737648B (zh) |
WO (1) | WO2021051578A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610644B (zh) * | 2021-08-16 | 2023-10-13 | 中国农业银行股份有限公司 | 一种系统交易筛选方法及装置 |
CN115080555A (zh) * | 2022-08-18 | 2022-09-20 | 北京融信数联科技有限公司 | 一种基于信令获取人口数据判别离群点的方法、系统和介质 |
CN117056182B (zh) * | 2023-07-13 | 2024-05-03 | 北京新数科技有限公司 | 一种SQL Server数据库性能评价方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882109A (zh) * | 2010-07-16 | 2010-11-10 | 中国工商银行股份有限公司 | 一种基于银行业务的软件性能分析系统及方法 |
CN104111996A (zh) * | 2014-07-07 | 2014-10-22 | 山大地纬软件股份有限公司 | 基于hadoop平台的医保门诊大数据抽取系统及方法 |
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
CN109388512A (zh) * | 2018-10-30 | 2019-02-26 | 江苏物联网研究发展中心 | 针对大规模计算机集群异常程度的评估与分析系统 |
CN109992569A (zh) * | 2019-02-19 | 2019-07-09 | 平安科技(深圳)有限公司 | 集群日志特征提取方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202431B (zh) * | 2016-07-13 | 2019-06-28 | 华中科技大学 | 一种基于机器学习的Hadoop参数自动调优方法及系统 |
CN106844161B (zh) * | 2017-02-20 | 2020-03-17 | 重庆邮电大学 | 一种带状态流计算系统中的异常监控及预测方法和系统 |
-
2019
- 2019-09-17 CN CN201910875358.1A patent/CN110737648B/zh active Active
- 2019-11-13 WO PCT/CN2019/117888 patent/WO2021051578A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882109A (zh) * | 2010-07-16 | 2010-11-10 | 中国工商银行股份有限公司 | 一种基于银行业务的软件性能分析系统及方法 |
CN104111996A (zh) * | 2014-07-07 | 2014-10-22 | 山大地纬软件股份有限公司 | 基于hadoop平台的医保门诊大数据抽取系统及方法 |
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
CN109388512A (zh) * | 2018-10-30 | 2019-02-26 | 江苏物联网研究发展中心 | 针对大规模计算机集群异常程度的评估与分析系统 |
CN109992569A (zh) * | 2019-02-19 | 2019-07-09 | 平安科技(深圳)有限公司 | 集群日志特征提取方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021051578A1 (zh) | 2021-03-25 |
CN110737648A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737648B (zh) | 性能特征降维方法及装置、电子设备及存储介质 | |
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
CN109034993B (zh) | 对账方法、设备、系统及计算机可读存储介质 | |
US10318882B2 (en) | Optimized training of linear machine learning models | |
US10169715B2 (en) | Feature processing tradeoff management | |
US20150379072A1 (en) | Input processing for machine learning | |
CN111447102B (zh) | Sdn网络设备访问方法、装置、计算机设备及存储介质 | |
US8706711B2 (en) | Descriptor storage and searches of k-dimensional trees | |
CN110309836B (zh) | 图像特征提取方法、装置、存储介质和设备 | |
CN112132279A (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
US9519543B2 (en) | Method and apparatus for image search using feature point | |
CN112087520A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
US20210176181A1 (en) | Intelligent Conversion of Internet Domain Names to Vector Embeddings | |
CN112506869A (zh) | 文件处理方法、装置及系统 | |
CN112328464B (zh) | 指标数据存储、相关性分析方法及计算机可读存储介质 | |
CN114296965A (zh) | 特征检索方法、装置、电子设备及计算机存储介质 | |
CN114996484A (zh) | 数据检索方法和装置、数据处理方法和装置、设备及介质 | |
CN108573212B (zh) | 一种手掌特征身份认证方法及装置 | |
CN113468076A (zh) | 应用程序的异常测试方法、装置、设备及存储介质 | |
CN114218428A (zh) | 音频数据聚类方法、装置、设备及存储介质 | |
CN112926037A (zh) | 物联网认证方法、装置及存储介质 | |
CN111414567A (zh) | 数据处理方法、装置 | |
CN111527747A (zh) | 采用fpga硬件实现ai的方法及相关产品 | |
Spatti et al. | Computational Tools for Data Processing in Smart Cities | |
CN117610917A (zh) | 一种样本迁移的大数据风控建模方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |