CN115374191B - 一种多源数据驱动的数据中心异构设备群聚类方法 - Google Patents
一种多源数据驱动的数据中心异构设备群聚类方法 Download PDFInfo
- Publication number
- CN115374191B CN115374191B CN202211320133.8A CN202211320133A CN115374191B CN 115374191 B CN115374191 B CN 115374191B CN 202211320133 A CN202211320133 A CN 202211320133A CN 115374191 B CN115374191 B CN 115374191B
- Authority
- CN
- China
- Prior art keywords
- data
- heterogeneous
- coefficient
- devices
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种多源数据驱动的数据中心异构设备群聚类方法,包括如下步骤:初始获取在时间段内两两异构设备间传输的数据包;从数据包提取不同数据块的特征值;经过PCA进行特征向量降维后,得到简化特征将简化特征进行映射到两个可逆的子空间;基于CAA理论建模Pearson系数,求最优解;完成多源异构数据块的相关性分析;建模两异构设备间的相似性系数;得到初始聚类集;输出当前的聚类集。本申请有助于分析跳脱设备空间分布之外的数据中心异构设备群内各器件的紧密关系,进而为数据中心信息交互故障预测、根源故障定位、预测性维护推荐等技术的实现奠定基础。
Description
技术领域
本申请涉及异构设备的聚类领域,尤其涉及一种多源数据驱动的数据中心异构设备群聚类方法。
背景技术
随着大数据时代的到来,电力信息通信网络的发展规模不断拓展,为进一步提升电力业务的资源管理和信息监控水平带来了新的挑战。面向多源电力信息系统监控需求,需要综合分析各层级设备相关信息之间的关联性,从而为系统监控、维护、监测、管理等提供智能化的决策方案,为数据中心信息交互故障预测、根源故障定位、预测性维护推荐等技术的实现奠定基础。
考虑到传统的异构设备聚类算法一般要考虑异构设备之间的距离、是否存在连接等因素,但也存在这样的一种情况,两个相隔非常远,不存在可视的物理连接的两个设备,也可能存在紧密的联系,这种联系可以从二者传输到数据中心的数据特征的相似性进行挖掘。因此本申请提出了一种多源数据驱动的数据中心异构设备群聚类方法,通过无监督方式对设备进行分类,以便与对紧密设备群关联规则挖掘、基于关联规则的设备故障预测及溯源等研究的展开。
发明内容
本申请实施例针对数据中心设备运行数据监控和潜在规律挖掘的需求提供一种多源数据驱动的数据中心异构设备群聚类方法,该方法结合PCA和CCA理论的优点,采取基于快速搜索的层次聚类算法,使得数据中心异构设备群聚类的速度和准确性得到了提升,利用其聚类结果,有助于设备运行状态变化规律的挖掘。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种多源数据驱动的数据中心异构设备群聚类方法,包括如下步骤:
继而用拉格朗日乘子法求最优解。
所述步骤6中的相似性建模方法如下,首先对数据间相关系数进行建模:
最后对两异构设备间相似性系数进行建模:
所述步骤7中的聚类采用基于快速搜索法的层次聚类算法,根据邻接矩阵中各元素出现的概率,即出现次数占总数的比例;依据概率进行分层,而非将每个设备初始化成一类,以此更为迅速、准确地实现聚类。
与现有技术相比,本发明的有益效果是:
1.通过将主成分分析法和典型相关分析结合的方式,使得算法不仅适用于数据中心异构设备间传输的高维数据的降维,并且可以实现对数据中心异构设备间传输的多源数据进行相关性分析。
2.通过对异构设备相关性系数的建模,不拘泥于异构设备分布距离、连接等物理因素,而是由设备本身传输的数据特征驱动,以此可以实现对较为隐蔽的、具有紧密关联的异构设备的聚类。在聚类方法上采用基于快速搜索的层次聚类法,相比已有的凝聚聚类法具有更快速、简便的优势。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例的方法流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合图1,介绍本申请的一种多源数据驱动的数据中心异构设备群聚类方法,包括以下具体步骤:
步骤3:经过PCA进行特征向量和降维后,得到简化特征,PCA是一种将高维空间数据映射到低维空间的线性映射。在对数据中心异构设备传输的数据进行分析处理的过程中,多源数据的主要成分(包括信息内容较大的维度)保留了对数据描述不重要的元素。因此,需要通过高维数据映射到由主成分维组成的低维向量空间,删去不重要的元素,以此来实现数据特征的简化。首先执行数据块特征值的去中心化,即每个数据减去其对应列的平均值,然后计算去中心化后数据的协方差矩阵H,然后计算H的特征值分解,并根据相应的特征值从大到小的顺序将特征向量排列,并从中选取个特征,形成新的矩阵。用新的矩阵乘去中心化的数据就得到降维简化后的数据块特征。
步骤4:基于CCA理论建模简化特征间的Pearson系数,并且以此设计一个优化问题,求使得Pearson系数最大时,所对应的最优子空间映射系数。采用拉格朗日乘子法(Lagrange Multiplier ,LM)进行化简、求最优解。具体的优化问题建模如下:
假设X是数据块经过PCA降维后的样本矩阵,维数为,同理,Y是数据块的样本矩阵,维数为,分别是X和Y中特征向量的维数,n为样本矩阵中的特征向量总数,为与样本矩阵X,Y内的每一对特征向量相关联的显示向量重要性的权重,则X和Y的加权平均值如下式子:
用Lagrange Multiplier 求最优解。
首先对数据包间相关系数进行建模,数据包间相关系数可以认为是多个数据块相关系数的集合:
最后对两异构设备间相似性系数进行建模:
步骤7:以相似性系数为元素构建异构设备间的邻接矩阵G,采用基于快速搜索法的层次聚类算法,根据邻接矩阵中各元素出现的概率,即出现次数占总数的比例;依据概率进行分层,而非将每个设备初始化成一类,以此更为迅速、准确地实现聚类,降低了聚类算法的运算复杂度。统计邻接矩阵中各个元素出现的次数,首先依据频次的不同进行初始化聚类,得到初始聚类集C。
式中表示第个聚类中包含的所有异构设备的数量,表示 中存在实际数据流连接的设备数。此评价指标可以衡量依据数据特征相似性确定的聚类中实际存在连接的设备数的比例,若两个聚类这一比例越接近,则说明相似程度越高,将两个聚类合成新簇。
相较于现有技术,本申请提出一种多源数据驱动的数据中心异构设备群聚类方法,通过将主成分分析法(Principal Component Analysis,PCA)和典型相关分析理论(Canonical Correlation Analysis,CCA)相结合设计了基于数据中心的设备级多源数据相关性挖掘模型,使用PCA将多维数据特征进行简化,而后基于CCA理论设计了数据块间相似性最大的优化问题,通过拉格朗日乘子法求解得到最优子空间的映射参数,进行数据的降维、映射。基于数据相关性和异构设备间存在的干扰,建模异构设备间的相关性。最后,利用异构设备间的相似性,设计了一种基于快速搜索法的异构设备聚类方法对设备进行分类,有助于分析跳脱设备物理分布之外的数据中心异构设备群内各器件的紧密关系。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (4)
1.一种多源数据驱动的数据中心异构设备群聚类方法,其特征在于,包括如下步骤:
步骤1:假设数据中心存在个异构设备,初始获取在时间段内两两异构设备间传输的数据包,其中,,,表示时间段内两异构设备间传输的不同模态的数据块,表示每个数据包由个不同模态的数据块组成,表示设备i在时间段内接收到的设备j发送给它的数据包,同理;
所述步骤6具体为,首先对数据间相关系数进行建模:
最后对两异构设备间相似性系数进行建模:
3.根据权利要求1所述的一种多源数据驱动的数据中心异构设备群聚类方法,其特征在于,所述步骤7中的聚类采用基于快速搜索法的层次聚类算法,根据邻接矩阵中各元素出现的概率,即出现次数占总数的比例;依据概率进行分层,而非将每个设备初始化成一类,以此更为迅速、准确地实现聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211320133.8A CN115374191B (zh) | 2022-10-26 | 2022-10-26 | 一种多源数据驱动的数据中心异构设备群聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211320133.8A CN115374191B (zh) | 2022-10-26 | 2022-10-26 | 一种多源数据驱动的数据中心异构设备群聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115374191A CN115374191A (zh) | 2022-11-22 |
CN115374191B true CN115374191B (zh) | 2023-01-31 |
Family
ID=84072841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211320133.8A Active CN115374191B (zh) | 2022-10-26 | 2022-10-26 | 一种多源数据驱动的数据中心异构设备群聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374191B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089847B (zh) * | 2023-04-06 | 2023-06-23 | 国网湖北省电力有限公司营销服务中心(计量中心) | 基于协方差代理的分布式可调资源聚类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810288A (zh) * | 2014-02-25 | 2014-05-21 | 西安电子科技大学 | 基于聚类算法对异构社会网络进行社区检测的方法 |
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN106446924A (zh) * | 2016-06-23 | 2017-02-22 | 首都师范大学 | 一种基于l3crsc对谱聚类邻接矩阵的构造及其应用 |
CN110674848A (zh) * | 2019-08-31 | 2020-01-10 | 南京理工大学 | 联合稀疏表示与二部图分割的高维数据联合聚类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8392418B2 (en) * | 2009-06-25 | 2013-03-05 | University Of Tennessee Research Foundation | Method and apparatus for predicting object properties and events using similarity-based information retrieval and model |
US20210056127A1 (en) * | 2019-08-21 | 2021-02-25 | Nec Laboratories America, Inc. | Method for multi-modal retrieval and clustering using deep cca and active pairwise queries |
US11599568B2 (en) * | 2020-01-29 | 2023-03-07 | EMC IP Holding Company LLC | Monitoring an enterprise system utilizing hierarchical clustering of strings in data records |
-
2022
- 2022-10-26 CN CN202211320133.8A patent/CN115374191B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810288A (zh) * | 2014-02-25 | 2014-05-21 | 西安电子科技大学 | 基于聚类算法对异构社会网络进行社区检测的方法 |
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN106446924A (zh) * | 2016-06-23 | 2017-02-22 | 首都师范大学 | 一种基于l3crsc对谱聚类邻接矩阵的构造及其应用 |
CN110674848A (zh) * | 2019-08-31 | 2020-01-10 | 南京理工大学 | 联合稀疏表示与二部图分割的高维数据联合聚类方法 |
Non-Patent Citations (2)
Title |
---|
Multiple Attack Detection Method of Power Intelligent Terminal Based on LSTM Neural Network;Yue Guo;Liang Dong;《MEMAT 2022》;20220107;全文 * |
基于相关性分析的跨媒体检索;王述;《中国优秀硕士学位论文全文数据库》;20171015(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115374191A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shanthamallu et al. | A brief survey of machine learning methods and their sensor and IoT applications | |
CN110298415B (zh) | 一种半监督学习的训练方法、系统和计算机可读存储介质 | |
Kim et al. | Dynamic clustering in federated learning | |
Song et al. | Hilbert space embeddings of hidden Markov models | |
Zhao et al. | Where are you heading? dynamic trajectory prediction with expert goal examples | |
KR101965277B1 (ko) | 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램 | |
CN115374191B (zh) | 一种多源数据驱动的数据中心异构设备群聚类方法 | |
CN111339818A (zh) | 一种人脸多属性识别系统 | |
CN110097088A (zh) | 一种基于迁移学习与特殊点策略的动态多目标进化方法 | |
CN114172688B (zh) | 基于gcn-dl的加密流量网络威胁关键节点自动提取方法 | |
Wang et al. | Optimizing quality-of-information in cost-sensitive sensor data fusion | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 | |
CN110990498A (zh) | 一种基于fcm算法的数据融合方法 | |
CN114495507A (zh) | 融合时空注意力神经网络和交通模型的交通流预测方法 | |
WO2023207013A1 (zh) | 一种基于图嵌入的关系图谱关键人员分析方法及系统 | |
CN117316333B (zh) | 基于通用的分子图表示学习模型的逆合成预测方法及装置 | |
Kashima et al. | K-means clustering of proportional data using L1 distance | |
CN112801411A (zh) | 一种基于生成对抗网络的网络流量预测方法 | |
De Stefano et al. | A GA-based feature selection algorithm for remote sensing images | |
CN117635218B (zh) | 基于六度分离理论和图注意网络的商圈流量预测方法 | |
Zhang et al. | A Real Time Traffic Flow Model Based on Deep Learning. | |
Liu et al. | [Retracted] An Accurate Method of Determining Attribute Weights in Distance‐Based Classification Algorithms | |
CN114362973B (zh) | 结合K-means和FCM聚类的流量检测方法及电子装置 | |
CN117495421A (zh) | 基于电力通信网建设的电网通信工程造价预测方法 | |
US20220383164A1 (en) | Methods and Systems for Generating Example-Based Explanations of Link Prediction Models in Knowledge Graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |